タグ

devopsと*dataに関するsh19910711のブックマーク (38)

  • SnowflakeでFunctional Role+Access Roleのロール設計を実現するTerraformのModule構成を考えてみた | DevelopersIO

    SnowflakeでFunctional Role+Access Roleのロール設計を実現するTerraformのModule構成を考えてみた さがらです。 2024年1月にSnowflakeのTerraform Providerに関する2024年のロードマップが公開されています。 このロードマップについてわかりやすくまとめて頂いているのが下記の記事です。内容としては、GRANTの再設計、GAしている全機能のサポート、既存Issueの解決、などに取り組んでいくとのことで、破壊的な変更を含む一方で良い方向に進んでいることが感じ取れます。 そしてこのロードマップのうちの「GRANTの再設計」ですが、「v0.88.0でGRANTの再設計は完了」「以前の形式のGRANT関係のリソースは2024年6月26日に削除」というDiscussionが投稿されていました。着実に開発が進んでいますね。 そこで

    SnowflakeでFunctional Role+Access Roleのロール設計を実現するTerraformのModule構成を考えてみた | DevelopersIO
    sh19910711
    sh19910711 2024/05/02
    "SnowflakeのTerraform Provider: 破壊的な変更を含む一方で良い方向に進んでいる / ロール設計: Functional Roleは実際にビジネスを進める上での部門や役割に応じたロール + Access Roleは各Snowflakeオブジェクトへのアクセス権だけを付与"
  • Airflow Breeze を使ったローカル環境構築

    Airflow Breeze を使ったローカル環境構築 フューチャー株式会社 多賀 聡一朗

    Airflow Breeze を使ったローカル環境構築
    sh19910711
    sh19910711 2024/04/29
    "Airflow Breeze: 公式が提供している Airflow の 開発 と テストのための環境 + ローカル開発、CI 向け + Docker Compose ベースで構築 / DAGファイルやcustom pluginsを適用できる" 2021
  • 日本におけるデータエンジニアリングのこれまでとこれから

    2024/04/16(火) に行われた イベントの登壇資料です 先達エンジニアに学ぶ 思考の現在地 Online Conferencehttps://findy.connpass.com/event/313119/

    日本におけるデータエンジニアリングのこれまでとこれから
    sh19910711
    sh19910711 2024/04/21
    "データとシステムについて、人類は色々やってきた / データエンジニアは巨人の肩の上でデータ基盤を作っている / DevOps: 表層に隠された膨大なテクノロジスタック + やるべきことが多すぎる"
  • バッチ処理のSLOをどう設計するか

    TechBrew in 東京 〜バッチ処理 最適化の取り組み〜 https://findy.connpass.com/event/312637/

    バッチ処理のSLOをどう設計するか
    sh19910711
    sh19910711 2024/03/27
    "バッチ処理が稼働しているということは、期待されている出力や変化、理想状態があるはず / バッチ処理に求められる信頼性: データの納期と品質 / 「実装」に対する検査から、「成果」に対する検査へ"
  • 雑な異常検知のすゝめ

    2018/04/06 Tech-Circle #27 Anomaly Detect Hands-On LT

    雑な異常検知のすゝめ
    sh19910711
    sh19910711 2023/06/16
    "異常検知あるある: 正常データ>>>>>異常データ / 正常値学習: 「異常ではない状態」を学習させて予測モデルをつくる / データを分解して考える: STL + Fourier Analysis / 解釈しやすい単位にデータを分解しよう" / 2018
  • Cloud Run (Grafana) + BigQuery + IAPでデータの見える化を実現した - 株式会社ヘンリー エンジニアブログ

    こんにちは、ヘンリーでSREをしているTODA(@Kengo_TODA)です。 弊社ではデータの共有は主にNotionを用いています。ただ各システムからデータをかき集めて動的に共有するには、Notionはちょっと向いていないなと思うところがあります。データを通じてシステムや顧客、チームの課題を掴むことはスタートアップの生命線とも言え、SLOやKPIを動的に図示してスタンドアップミーティングなどで共有できる仕組みが必要だと感じていました。 このため、Grafanaを用いた仕組みをGCP上に構築しました。ウェブページを自動生成できるツールからの情報は以前Noteでご紹介したサーバーレス社内サイトで展開していますが、Grafanaであれば動的にコンテンツを構築して提供できると期待しています。 この記事ではGCPないしGrafanaの設定をどのようにしたか、その背景とともに説明していきます。 どの

    Cloud Run (Grafana) + BigQuery + IAPでデータの見える化を実現した - 株式会社ヘンリー エンジニアブログ
    sh19910711
    sh19910711 2023/05/13
    よさそう / "データをBigQueryに集約してGrafanaで表示する、というdora-team/fourkeysの構成を踏襲 / GrafanaはProxyによる認証をサポートしていますので誰が何をどう使っているか把握しやすいのが嬉しい"
  • AWS CDKで作るCloudWatch Dashboard

    23/3/22 JAWS-UG CDK支部 #6にて登壇 https://jawsug-cdk.connpass.com/event/274879/

    AWS CDKで作るCloudWatch Dashboard
    sh19910711
    sh19910711 2023/03/29
    "適切なウィジェットに適切な説明文を添えた、「誰が見ても監視ポイントがわかるダッシュボード」の存在はとても重要 / サービスの成長とダッシュボードの保守管理は表裏一体"
  • GitHub ActionsからBigQueryのリモート関数をデプロイする - BOOK☆WALKER inside

    こんにちは、メディアサービス開発部サービス分析課の佐藤です。ブックウォーカー社で全社横断のデータ基盤を構築しています。 前回SlackからGitHub Actionsを実行する記事を投稿しましたが、今回はそのGitHub Actionsを使ってデプロイしていたBigQueryのリモート関数の利用ケースについて説明していきます。 背景 「外部のAPIから得たデータをBigQueryへ投入するやり方」の検討 Terraformでデプロイ用のServiceAccountを作成 BigQueryに外部接続とデータセット作成 GitHub Actionsにデプロイ用ワークフローを作る ランタイム判定 エントリポイント判定 全体の流れをまとめて提供する 終わりに 背景 現在、BigQueryのデータを加工する集計バッチについてはスケジュールクエリを各自に好き勝手に作成してもらう運用にしています。 スケ

    GitHub ActionsからBigQueryのリモート関数をデプロイする - BOOK☆WALKER inside
    sh19910711
    sh19910711 2023/03/23
    "スケジュールクエリでバッチを作り続けるのには限界を感じてきているので、これは将来dataformに移行する予定 / リモート関数を呼び出す際の戻り値について気をつける必要 + ARRAYやSTRUCTは扱えません"
  • TerraformとSnowflakeで考えること - 作業メモ

    はじめに SnowflakeはクラウドをベースとしたSaaS型のデータプラットフォームです。主要なクラウド(AWS/GCP/Azure)に対応しており、企業/組織内の至る所に転がっているデータも「クラウド×Snowflake」で連携できるため、アジリティやスケーラビリティが求められるデータプラットフォームとして大きな強みがあります。 そんな注目を浴びているSnowflakeですが、これまたIaCとして人気のあるTerraformで構築できます。Snowflakeは大量のオブジェクトを組み合わせて管理するため、長くお世話になるならTerraformの利用をぜひとも考えたいところです。 稿では、Terraform×Snowflakeを検討していく上で自分が感じた検討ポイントや悩みどころを脳内整理を兼ねて記載します。内容がこれから検討する方の参考になれば幸いです。 SnowflakeとTer

    TerraformとSnowflakeで考えること - 作業メモ
    sh19910711
    sh19910711 2023/02/28
    "開発者全員がTerraformを扱えるなら困らないと思いますが、世の中そんなにうまくはいきません / 人材確保が困難な時代でSnowflakeもTerraformもできる人をアサインして、チームとして開発を継続していくのはとても難しい"
  • データ基盤のアラートにNew Relicを導入しました - TVer Tech Blog

    はじめまして、エンジニアの黒瀬と申します。 弊社では、これまでバックエンドの監視にNew Relicを利用してきましたが、今回データ基盤にも導入を開始しました。 この記事では、その経緯についてご紹介したいと思います。 背景と課題 弊社ではTVerのサービス利用状況を日々収集し、それをBigQueryを中心としたデータ基盤に集約・可視化することで、日々のサービス改善に活用しています。 このプロセスは、おおむね次のような役割分担となっています。 収集処理:バックエンドを担当するバックエンドチームがAWSに構築 集約処理:データ基盤を担当するデータチームがGCPに構築 これらのうちデータチームでは、集約処理を構成するバッチごとにアラートを実装していましたが、下記のような問題がありました。 バッチごとに異なった方法でアラートを実装していたため、保守がしにくい アラートの通知先が散らばっており、毎回

    データ基盤のアラートにNew Relicを導入しました - TVer Tech Blog
    sh19910711
    sh19910711 2022/12/01
    "BigQueryを中心としたデータ基盤 / バッチとしてはCloud Loggingにエラーログが出しておくだけで済むようになり / 収集処理: バックエンドチームがAWSに構築 / 集約処理: データチームがGCPに構築"
  • [レポート] モダンデータスタックにおけるデータオブサーバビリティ(データの可観測性) | DevelopersIO

    大阪オフィスの玉井です。 9月8日に行われたObservability for the Modern Data Stackというウェビナーのレポートをお届けします。主催はHightouch社です。 セッション概要 登壇者 Alexis Jones Product Marketing at Hightouch Glen Willis Founding Solutions Architect at Monte Carlo Kevin Tran Sr. Sales Engineer at Hightouch 超概要 以下のことについて話すプレゼンテーションでした。 なぜデータの信頼性が必要なのか? 「データオブザーバビリティ(データの可観測性)」とは何か? Hightouchのデータオブザーバビリティに関する機能の紹介 HightouchとMonte Carloの連携の紹介 セッションレポート

    [レポート] モダンデータスタックにおけるデータオブサーバビリティ(データの可観測性) | DevelopersIO
    sh19910711
    sh19910711 2022/09/16
    "データの可観測性: 下流にどのような影響を及ぼす可能性があるかを理解することができる / データオブサーバビリティ: それなりの規模のデータ分析基盤が無いと何にも始まらないようにも思えました"
  • 新卒がデータマート品質モニタリングシステムを0から創り、社内に展開して表彰された話

    はじめに 初めまして、株式会社リクルートでデータプランナーとして勤務する酒井と申します。 2020年度新卒でリクルートに入り、2022年現在は、美容/旅行領域において、データ活用施策の立案から運用やプロダクトマネージャーをしています。 記事では、私が新卒入社してから半年で立案〜運用まで主担当した「データマート品質モニタリングシステム」の整備について、プロジェクトの一連の流れをご紹介します。 きっかけは「データマート大規模障害」 今回のプロジェクトの発端は、美容事業のデータマートの大規模障害でした。 当時美容事業ではデータマートのAWS環境からGCP環境への移行が行われていました。その際、分析で頻繁に使われるいくつかのデータマートで移行前後での数値が不一致となっている障害が発生していました。 幸い、まだ新しいデータマートへの運用移行が完了していなかったためカスタマーやクライアントへの影響は

    新卒がデータマート品質モニタリングシステムを0から創り、社内に展開して表彰された話
    sh19910711
    sh19910711 2022/09/15
    "品質を担保するといっても「データマートの品質とは何か」「品質をどうやって担保するのか」をまず決める必要 / データマネジメントの活動というのは非常に重要である一方、成果が定量化しづらく地味なもの"
  • データ基盤の品質向上への取り組み - Classi開発者ブログ

    こんにちは、データエンジニアの石井です。 先日公開した記事「社内向けのデータ基盤から集計結果をReverse ETLしてサービスに組み込んだ話」で、ダッシュボード機能のリリースにより、Classiのデータ基盤が「社内用データ基盤」から「ユーザー影響あるシステムの一部」へ進化した話をしました。「ユーザー影響あるシステムの一部」への進化に伴い、データ基盤の品質担保は必要不可欠です。今回は、データ基盤の品質向上に取り組んだKANTプロジェクトについてご紹介します。 KANTプロジェクト 背景・課題 Classiのデータ基盤がユーザー影響あるシステムの一部になる前、つまり社内用データ基盤だった頃には以下のような課題がありました。 データ基盤の状態把握 マルチクラウドにおけるデータ基盤全体の状態把握ができていなかった データ基盤の実行状態(SUCCESS, FAIL, RUNNINGなど)の把握が、

    データ基盤の品質向上への取り組み - Classi開発者ブログ
    sh19910711
    sh19910711 2022/09/12
    "「データ基盤が安定している」という状態を明確に「定義」できていなかった / 定義されていないものは「計測」もできていなかった / 各処理ごとに「〇〇時までに処理が完了している」というSLOを定め"
  • 宣言的かつ安全に管理するElasticsearch/Declarative management for Elasticsearch

    第49回Elasticsearch勉強会での発表資料です。 https://www.meetup.com/tokyo-elastic-fantastics/events/287299123/

    宣言的かつ安全に管理するElasticsearch/Declarative management for Elasticsearch
    sh19910711
    sh19910711 2022/09/02
    "Elasticsearch GitHub Action: Elasticから提供 / Terraform Provider Elastic Stack: リリースが2021/12と比較的歴史が浅く、まだまだ発展途上 + JSONで定義可能な設定が少なく、定義が煩雑 / 直近1~2年で多くのツールが登場しており"
  • ビッグデータと機械学習の狭間で -データエンジニアに求められる役割-

    July Tech Festa 2018 @産業技術大学院大学[D10] で発表した際の登壇資料です。 参考文献や細かい記述などを今後修正する場合があります。

    ビッグデータと機械学習の狭間で -データエンジニアに求められる役割-
    sh19910711
    sh19910711 2022/08/13
    2018 / "運用は宙に浮き、責任の所在も曖昧になる / 責任の所在が曖昧になればメンテナンスもされない / データエンジニアと名乗ることで、「そこ」に責任を背負い、宙に浮いた運用をなくす"
  • Terraform で Snowflake の何を管理するべきか

    記事は、Snowflake Advent Calendar 2021 の 25 日目です。 この記事の背景 以前、Terraform(インフラの構成管理ツール)を使って Snowflake のリソースを管理し始めたことを書きました。 Snwoflake のユーザコミュニティである SnowVillage でも、Terraform について発表しました。 Terraform はプラグインアーキテクチャを採用しており、 Snowflake プラグイン もコミュニティベースで開発されています。この Snowflake プラグインを使うと、Snowflake のリソースの構成を Terraform の設定ファイルとして記述し、デプロイを自動化することができます。 記事やコミュニティでの発表をした後、SnowVillage 内のコメントを見ていると、コミュニティでも使っている方がいらっしゃるようで

    Terraform で Snowflake の何を管理するべきか
    sh19910711
    sh19910711 2022/07/18
    "Terraformの表記法を使って記述されたSnowflakeのリソースからSQLを生成 / アナリスト系の人にSQLとは表記が全く異なるTerraformを覚えてもらうのも難しい / SQLが使える dbt などがデータ領域のモデリング・デプロイに良い"
  • GCPリソースを CDK for Terraform で作成する - RareJob Tech Blog

    はじめまして、DMP (データマネジメントプラットフォーム) グループの すぎみつ です。 最近はスキルアップ手当*1で昇降デスクの購入を検討しています。電動式昇降デスクのすゝめによると自分に最適なデスクの高さは74cmでした。 さて、DMP グループでは現在 GCP のリソース管理に CDK for Terraform を利用していまして、CDK for Terraform の利用例についてご紹介します。 はじめに CDK for Terraformとは サンプルの紹介 プロジェクトの作成 実装 デプロイ 結果確認 懸念するところ おわりに はじめに DMP グループはレアジョブグループのデータ基盤の整備をメイン業務の一つとしています。 現在は既にあるデータ基盤を新たに BigQuery を中心とした Google Cloud Platform に移行しています。 レアジョブ英会話を始め

    GCPリソースを CDK for Terraform で作成する - RareJob Tech Blog
    sh19910711
    sh19910711 2022/06/26
    "各サービスは AWS で構成されており、収集対象となるデータは AWS から GCP に転送する流れとなります / リソースの管理は殆ど AWS CDK で統一 > 同じように書ける CDK for Terraform を利用することにしました"
  • データ分析基盤におけるオブザーバビリティの取り組み

    GMOペパボ株式会社では主にGoogle Cloud Platformのサービスを利用してデータ分析基盤を構築し運用しています。その中心となるのがデータウェアハウスのBigQueryとワークフローエンジンのCloud Composerです。また、社内向けのデータ可視化(ダッシュボード)システムではCloud Runを利用しています。 データ分析基盤から得られる情報を重要な意思決定に用いるためには、ユーザーに提供しているインフラと同様に、可用性を明らかにし、継続的に可用性を高める Realiability エンジニアリングが必要となります。講演ではGCPで構築されているデータ分析基盤を題材として、データ分析基盤に求められる可用性や、小規模なチームにおけるオブザーバビリティへの取り組みについてご紹介します。

    データ分析基盤におけるオブザーバビリティの取り組み
    sh19910711
    sh19910711 2022/04/29
    "個別にモニタリングするだけでは、個々のモニタリングデータの関連を把握するのも困難 / データのObservability: システム的には正常にデータ同期処理が完了してもデータが異常な状態になっている可能性がある"
  • タップルSREにおけるSLOの取り組み - Qiita

    皆さんこんにちは。 マッチングアプリ、タップル誕生でSREをしている袴田です。 日は『タップルにおけるSLOの取り組み』と題して、弊社SREがどのようにSLOを運用しているか説明します。 システム品質の目標値であるSLO SLOを一言で言えば、システム品質の目標値です。 e-wordsによるSLOの定義は以下の通りでした。 提供するサービスやサービスを構成するシステムや機材などに関して、性能や可用性、データ管理、運用体制、サポート体制、セキュリティなどの目標水準や目標値を設定し、利用者に提示する。 参考:http://sp.e-words.jp/w/SLO.html SLOを利用して期待値をコントロールする SLOを利用することで、システム提供者と利用者間の期待値をコントロールできます。システム利用者からすれば、不具合ゼロのシステムを期待しますが、そのようなシステムは存在しません。システ

    タップルSREにおけるSLOの取り組み - Qiita
    sh19910711
    sh19910711 2021/12/30
    "足元課題をどの程度まで許容するかの目標値 / 共通の目標とすることで、開発を優先したい開発チームと、信頼性を担保したいSREチームの2チーム間で期待値をコントロールする / SLOの運用は体重測定"
  • 一週間で構築できる! お手軽データウェアハウス

    Legalscape (リーガルスケープ) アドベントカレンダー 2021 の 12/16 (木) のエントリです。 日のエントリは、突貫工事的に一週間程度1で構築したデータウェアハウスについてお送りいたします。 データウェアハウス構築前夜 2021 年 6 月に予定をしている Legalscape 正式版リリースが刻々と迫り、みなが慌ただしく仕事をしている 5 月下旬、ビジネス上の様々な理由からユーザのアクティビティログを保持して分析・集計するデータ基盤、すなわちデータウェアハウスが必要になりました。 Legalscape ではそれまで、プロダクト上でのユーザの行動に伴って発生するアクティビティログはすべて (書籍の全文検索に用いているものと同じ) Elasticsearch クラスタにインデックスしていました。アクティビティログを利用する際は、このインデックスに対して Kibana

    一週間で構築できる! お手軽データウェアハウス
    sh19910711
    sh19910711 2021/12/17
    TerraformでCloud LoggingとCloud SQLのデータをBigQueryに同期するサンプル