タグ

*softwareとstreamingに関するsh19910711のブックマーク (9)

  • Druidとflinkを使った動画広告のリアムタイム集計基盤

    [BA11] Office 365/Dynamics 365 連携だけじゃない! 業務に使うマルチデバイスアプリ作成に向けた PowerApps/Flow...

    Druidとflinkを使った動画広告のリアムタイム集計基盤
    sh19910711
    sh19910711 2024/05/28
    "Druid: イベントデータに対するOLAP + リアルタイムデータとヒストリカルなデータをSub-secondで処理できるよう設計されたデータストア / Superset: もともとはPanoramixという名前だった" 2017
  • Kafka Streams で状態を持つアプリケーションを作る - Qiita

    この記事はKafka Advent Calendar 2021の3日目の記事です。 Kafka Streams でステートフルなアプリケーションを開発する際、Kafka 外のデータストアを使ってしまうと Kafka Streams が持つフォールトトレランスや処理の保証などの機能を活かし切れず、競合状態やリトライなど注意点が多く発生します。Kafka 自体をデータストアとすることで、Kafka Streams の利点を活かせるアプリケーションのパターンを紹介します。 Kafka Streams とは Kafka のクライアントとコンシューマを利用し、Kafka トピック上を流れるデータに対するトポロジー(結合、変換など)を定義し、ストリーム処理が出来るライブラリです。 あるトピックにメッセージが配信されたらそのメッセージを処理し、結果を別のトピックに配信する、というようなアプリケーションを

    Kafka Streams で状態を持つアプリケーションを作る - Qiita
    sh19910711
    sh19910711 2024/05/25
    "KTable: Kafka Streams で状態を扱う一番基本的な方法 + トポロジー内で KTable からエンティティのスナップショットを取得 + 新状態を KTable のトピックに再び配信することでそのエンティティを更新" 2021
  • Debeziumで変更データキャプチャを学ぼう #jjug_ccc

    JJUG CCC 2021 Fallの 「15:00 ~ 15:50 Debeziumで変更データキャプチャを学ぼう」の資料です

    Debeziumで変更データキャプチャを学ぼう #jjug_ccc
    sh19910711
    sh19910711 2024/05/14
    "Debezium: RedHatがサポート + データベースの行レベルの変更をキャプチャする分散サービスのセット / Kafkaが嫌ならEmbedded Engineという手もある + お好みのメッセージブローカーに送信することも出来る" 2021
  • リアルタイムなイベントにFlafkaを使ってKafkaとデータのやり取りを行う - Qiita

    Apache FlumeやApache Kafkaはリアルタイムなイベント処理のバックエンドとして広く利用されています。これら2つのシステムは似ている部分もありますが、ユースケースによりどちらか一方、あるいは量を組み合わせて使う場合もあります。 FlumeとKafkaの違いは次のブログも参考になります。 https://www.linkedin.com/pulse/flume-kafka-real-time-event-processing-lan-jiang Apache Kafka Apache Kafkaはpub-sub、出版-購読型のシステムで、多数のシステムとの連携に広く利用されています。 [画像はhttps://kafka.apache.org/より引用] しかし、Kafkaを使う場合、一般的にプロデューサやコンシューマのためのコードを記述する必要があります。 Producer

    リアルタイムなイベントにFlafkaを使ってKafkaとデータのやり取りを行う - Qiita
    sh19910711
    sh19910711 2024/04/22
    "Apache Flume: リアルタイムなイベント処理のバックエンドとして広く利用 / Flafka: コードを記述することなくKafkaと連携 + KafkaをFlumeのソース(入力)やシンク(出力)、またはチャンネル(バッファ)として利用" 2016
  • Debezium ServerによるChange Data Captureの事例紹介 - Pepabo Tech Portal

    技術部データ基盤チームの@tosh2230です。 2023/04/11(火)に、ファインディ株式会社主催のLTとパネルで学ぶ データ基盤アーキテクチャトレンド 2023にてChange Data Capture(CDC)の事例を紹介しました。関係者の皆様に感謝を申し上げます。 この記事では、発表した内容と質疑応答への回答、その後の動向についてお伝えします。 発表内容 ニアリアルタイム分析の実現に向けた取り組みの概要と、番稼働したばかりのCDCデータパイプラインの詳細についてご紹介しました。 CDCを行うツールとして、今回はDebezium Serverを選びました。Debezium Serverは日国内では事例が少ないのですが、コンテナで軽量にCDCを実現できる良い手段だと思います。 質疑応答 発表後にいただいた質問への回答を記載します。当日うまく答えられた自信はありませんが、下記の内

    Debezium ServerによるChange Data Captureの事例紹介 - Pepabo Tech Portal
    sh19910711
    sh19910711 2023/04/24
    "CDCを行うツールとして、今回はDebezium Serverを選びました / 日本国内では事例が少ないのですが、コンテナで軽量にCDCを実現できる良い手段 / Debezium Serverを第一候補として進めて、不測の事態が起きた場合にはAirbyteに"
  • Apache Kafkaがついにバージョン1.0に到達、オープンソース化から約7年。大量のデータを高速に収集できるメッセージ処理システム

    大量のデータを高速に収集できるメッセージ処理システムとして知られる「Apaceh Kafka」が、正式バージョンとなる「Apache Kafka 1.0」に11月1日付けで到達したことが、Kafkaの主要な開発元であるConfluentから発表されました。 Apache Kafkaはスケーラビリティに優れ、大量のデータをリアルタイムに処理する機能を備えたソフトウェアです。 さまざまなアプリケーションやシステムから送られてくるログや大量のセンサーなどから生成されるデータなど、リアルタイムに送信されてくるストリームデータをいったんKafkaで受け止め、それをまとめてHadoopなどの分析エンジンに渡してデータの分析を行う、といった形で使われます。 また、その名称は「変身」などで知られる作家のフランツ・カフカにちなんだものとされています。 バージョン1.0では、Stream APIの強化、Jav

    Apache Kafkaがついにバージョン1.0に到達、オープンソース化から約7年。大量のデータを高速に収集できるメッセージ処理システム
    sh19910711
    sh19910711 2017/11/14
    "その名称は「変身」などで知られる作家のフランツ・カフカにちなんだものとされています"
  • Prestoを使ってKafkaにクエリを投げる

    Prestoを使えばKafkaに入っているメッセージにSQLでクエリが投げれるみたいなのでやってみました。 KafkaからHBaseやらNoSQLに入れ直すのはめんどうなのでPrestoを使ってみた感じです。 ちなみにPrestoは複数のデータソースに対して分散SQLクエリを発行するエンジンです。Kafkaは接続出来るデータソースの1つにすぎません。 環境CentOS7に全部まとめてインストールして動作を確認します。 CentOS 7Java 1.8Presto 0.180Kafka 0.11.0.0kafkaインストールまず、kafkaのインストールから。 root$ yum update -y root$ yum install java Kafkaのサポートバージョンはpresto 0.180のドキュメントを見るとKafkaは0.8.xでテストしていると書かれています。 Presto

  • Introducing Docker Images for Apache Flink

  • Real time analytics: Divolte + Kafka + Druid + Superset: GoDataDrivenBlog

    Updated 22-08-2019: Updated the blog to use the latest version of Apache Druid and Superset In today’s world you want to learn from your customers as quickly as possible. This blog gives an introduction to setting up streaming analytics using open source technologies. We’ll use Divolte and Apache {Kafka, Superset, Druid} to set up a system that allows you to get a deeper understanding of the behav

    Real time analytics: Divolte + Kafka + Druid + Superset: GoDataDrivenBlog
  • 1