タグ

workflowに関するsh19910711のブックマーク (312)

  • 大公開!バッチアプリケーションの品質を高めるZOZOの『バッチ開発ガイドライン』 - ZOZO TECH BLOG

    こんにちは。MA部の田島です。 弊社では開発ガイドラインというものを用いて、システムの品質を担保しています。今回私がテックリードを務めているということもあり、バッチアプリケーションを開発するためのガイドラインを作成しました。記事では「開発ガイドライン」と「バッチ開発ガイドライン」を紹介します。 バッチアプリケーション開発に限定したTipsはまとまっているものが多くないため参考にしていただければと思います。 開発ガイドラインについての紹介 冒頭でも紹介した通り弊社では、開発ガイドラインというものを用いてシステムの品質を担保しています。バッチ開発ガイドラインを紹介する前に、まず開発ガイドラインを紹介します。 開発ガイドラインの種類 開発ガイドラインは現在、以下の種類が存在します。 共通 Android iOS Frontend Backend Infra API Batch DB(Datab

    大公開!バッチアプリケーションの品質を高めるZOZOの『バッチ開発ガイドライン』 - ZOZO TECH BLOG
    sh19910711
    sh19910711 2024/06/10
    "リトライを実装することはバグの原因になるため、ツールのリトライ機構に任せる / 利用しているクライアントライブラリなどにリトライ機構が含まれている場合は適切に設定"
  • Minio + DuckDB + dbt + Airflowでローカルにデータ基盤を立ててみる|FKeisuke

    かなり久しぶりの投稿になりました ここ3年ちょっとほどデータ系の分野が楽しく、データエンジニアをやっています 何年データエンジニアとしてやっていくかはまだ未知数ですがしばらくはこちらの道でやっていきたいと思っています 今日はミニデータ基盤としてMinio + DuckDB + dbt + Airflowでかなり楽にローカルにデータ基盤を立てられるよという紹介をしたいと思います リポジトリこちらとなります (まだ足りていない部分が割とありますが…) 使用するツールのざっくりとした紹介Minio オブジェクトストレージサーバーで、Amazon S3と互換性がある ローカル環境でも簡単にセットアップできる DuckDB 組み込み型SQLデータベースエンジン ポータブルでインストールが簡単 クエリ処理性能が高速 分析用途に適している dbt (Data Build Tool) データ変換ツール S

    Minio + DuckDB + dbt + Airflowでローカルにデータ基盤を立ててみる|FKeisuke
    sh19910711
    sh19910711 2024/06/09
    "ミニデータ基盤: Minio + DuckDB + dbt + Airflowでかなり楽にローカルにデータ基盤を立てられる / Minioでオブジェクトストレージを実現し、DuckDBにデータを取り込み + dbtでデータモデルを宣言的に定義しSQLによるデータ加工"
  • dbtとBigQueryで始めるData Vault入門

    dbt Tokyo Meeup #3の発表内容です 発表のアーカイブはこちらから https://youtu.be/SYsiRFR2LGw #dbt_tokyo

    dbtとBigQueryで始めるData Vault入門
    sh19910711
    sh19910711 2024/06/08
    "Pros: 様々なデータソースが増えていく場合でも最小限の変更で実装することが可能 + データソースの追跡 / 異なるデータソースを追加する場合はSatelliteを追加するだけ / Cons: 構築のために必要とする知識が多い" 2022
  • LangGraphを用いたマルチエージェント

    #kaigieffect LT 2024 - rexml-css_selector:
A REXML extension for
supporting CSS selector

    LangGraphを用いたマルチエージェント
    sh19910711
    sh19910711 2024/06/07
    "時代の流れ: zero shot, few shot → function calling, RAG → agentic workflows, flow engineering / Flow Engineering: タスクをより小さなステップに分解 + LLMに回答を自己改善するように促す / AutoGen, langroid"
  • Azure AI Studioが一般公開(GA)されたので早速色々使ってみました! - CCCMKホールディングス TECH Labの Tech Blog

    こんにちは、CCCMKホールディングス TECH LABの三浦です。 いつの間にかこの会社に勤めて10年が経っていました。10年前はニューラルネットワークやディープラーニングが少しずつ浸透してきたころで、従来の機械学習とは何が違うのか、といったことを調べていた気がします。あれから10年、ディープラーニングの分野ではTransformerが生まれ、いつの間にか人の思考を代理でこなしてくれるようなAIまで誕生し、技術の進化のスピードにびっくりします。次の10年はどうなるんだろうと色々と考えてしまいます。 さて、今年に入ってからずっと楽しみにしていたのですが、ついにMicrosoftのAzure AI Studioが一般公開(generally available)になりました! 今年一番最初に見た動画がAzure AI Studioのデモ動画で、それがとても面白い内容でずっと気になっていました

    Azure AI Studioが一般公開(GA)されたので早速色々使ってみました! - CCCMKホールディングス TECH Labの Tech Blog
    sh19910711
    sh19910711 2024/06/06
    "Model catalog: ローカルで動かせるものを含めて現時点で1,600以上のモデル / それを動かすためのコンピューティングリソースを含めてその場でデプロイ / 基本形のRAGの処理であればコードを書かなくても作ることが ~ "
  • [AWS Step Functions] ステートマシンが無限ループして148ドルも課金が発生した話 | DevelopersIO

    懺悔します こんにちは、のんピ(@non____97)です。 私はここに「ステートマシンを無限ループさせて148ドルも課金が発生してしまった」ことを懺悔します。 いきなりまとめ 検証だからといって雑なEventBridgeのイベントパターンを設定するのはやめよう 何が起こったか ステートマシンが無限ループして148ドルも課金が発生しました。 ここで、クラスメソッドメンバーズ向けポータルサイト「クラスメソッド メンバーズポータル」で、AWS利用料金を確認してみましょう。 まずは明細です。 $148.67のインパクトが凄まじいですね。 USE1-StateTransitionとAPN1-StateTransitionについての課金が大半を占めています。AWS Step FunctionsのStandardワークフローではステートマシンの状態遷移によって課金が発生します。 今回はus-east-

    [AWS Step Functions] ステートマシンが無限ループして148ドルも課金が発生した話 | DevelopersIO
    sh19910711
    sh19910711 2024/06/06
    "us-east-1とap-northeast-1合わせて5,946,978回の状態遷移 / EventBridgeのイベントパターンが雑すぎた / 「ステートマシンの実行が成功/失敗した」というイベントもデフォルトのイベントバスに送信され" 2022
  • Vertex AI PipelinesとKubeflow Pipelinesはじめの一歩 | DevelopersIO

    Vertex AI Pipelinesを全く使ったことがない人向けに、Kubeflow Pipelinesのはじめ方からまとめてみました。 データアナリティクス事業機械学習チームの鈴木です。 この記事は、ブログリレー『Google CloudのAI/MLとかなんとか』の1目の記事になります。 そろそろVertex AIもマスターしないとなと思い、Vertex AI Pipelinesをキャッチアップしています。同僚のじょんすみすさんが以前に以下の『Vertex AIではじめるKubeflow Pipelines』を公開してくれていました。 私はBigQueryなどのデータ分析系のサービスの経験が厚く、Vertex AI PipelinesおよびKubeflow Pipelinesを触るのが初めてだったため、Kubeflow Pipelinesとはなんぞやから始める必要がありました。

    Vertex AI PipelinesとKubeflow Pipelinesはじめの一歩 | DevelopersIO
    sh19910711
    sh19910711 2024/06/06
    "Vertex AI Pipelines: パイプラインを定義するYAMLファイルをローカルで生成 + Kubernetesを構築しなくてもKubeflow Pipelinesを実行できるという強力なサービス / DSLからIR YAMLに変換しVertex AI Pipelinesにアップロードすれば実行できる" 2023
  • Cube Coreでセマンティックレイヤーを体験する - Qiita

    最近話題になっているセマンティックレイヤーを自分も触れてみようと思って、オープンソースである Cube Core を試してみようと思います。 1. セマンティックレイヤーとは ざっくり言うと、以下の特徴を持つ機能と理解しています。 データモデルやビジネスロジック(KPI 算出ロジックなど)の一元提供 データを利活用する様々な BI ツールや分析ツール、プログラムにデータモデルとビジネスロジックを一元的に提供することで、レポートや分析結果の信頼性を向上させます。 データモデルやビジネスロジックの管理がコードベースで可能 これにより、バージョン管理や CI/CD などの実現を容易にします。 詳しい説明は以下がとても分かりやすいです。 2. Cube Core とは セマンティックレイヤーと言うと dbt Semantic Layer が一番有名な気がしますが、これは dbt Cloud(Saa

    Cube Coreでセマンティックレイヤーを体験する - Qiita
    sh19910711
    sh19910711 2024/06/03
    "データモデルやビジネスロジックの一元提供 + データがどのような DB やサービスなどに保存されていても、同じインターフェースでアクセス / Cube Core: データを REST/GraphQL API や SQL API で提供可能 + SQL API は PostgreSQL 互換"
  • CyberAgent AI事業本部2024年度MLOps研修基礎編 / MLOps Basic

    同年度のMLOps研修資料はこちらです。 (1/4) CyberAgent AI事業部2024年度MLOps研修Container編: https://speakerdeck.com/szma5a/container-for-mlops (2/4) CyberAgent AI事業部2024年度MLOps研修基礎編: https://speakerdeck.com/nsakki55/mlops-basic (3/4) CyberAgent AI事業部2024年度MLOps研修応用編: https://speakerdeck.com/tyaba/mlops-handson (4/4) CyberAgent AI事業部2024年度MLOps研修実践編: https://speakerdeck.com/hosimesi11/mlops-practice

    CyberAgent AI事業本部2024年度MLOps研修基礎編 / MLOps Basic
    sh19910711
    sh19910711 2024/05/31
    "MLOps: 機械学習・ソフトウェアエンジニアリング(特にDevOps)・データエンジニアリングの3つの分野を活用 / NeurIPS'15: 「機械学習システムの隠れた技術的負債」論文 + MLシステムの中でMLコードはごく一部でしかない"
  • dbtを導入した話、そしてClassiのデータ基盤「ソクラテス」の現在地 - Classi開発者ブログ

    こんにちは、データプラットフォームチームの鳥山(@to_lz1)です。 Classiでは、2019年ごろからデータ基盤に「ソクラテス」の愛称をつけて運用を続けています。初期の構成は2021年に書かれたエントリ*1にも詳しいですが、数年の間に進化したことも増えてきました。 大きな変化の一例として、最近、私たちのチームではdbt*2を導入してジョブ間の依存管理やメタデータの管理を改善しました。 記事ではこの取り組みをピックアップして紹介します。また、進化したソクラテスの構成図をアップデートするとともに、Classiデータプラットフォームチームの最新版の雰囲気もお伝えできればと思います。 dbt移行前の構成 ジョブ間の依存管理がつらい メタデータの管理がつらい 過去との差分と、移行への機運 周辺ツールのエコシステムが整った エンジニア以外のメンバーがPull Requestを出すことが減った

    dbtを導入した話、そしてClassiのデータ基盤「ソクラテス」の現在地 - Classi開発者ブログ
    sh19910711
    sh19910711 2024/05/30
    "dbt導入以前のジョブはCloud Composer(Airflow)が提供するOperatorが担っており / クエリの依存関係を以下のようなyamlの設定ファイルに書いて対応 / データだけでなくメタデータもきちんと移植できているか"
  • 機械学習パイプラインの作り方を改めて考えてみる

    はじめに もう今年もあと数週間ということで,1年があっという間に終わってしまいますね😅 この記事は MLOps Advent Calendar 2023 の15日目の記事になります!アドベントカレンダーの日付を選ぶ際についつい自分の好きな数字を選びがちですが,皆さんはどうですか?笑 最近,機械学習(ML)パイプラインの良い構成やパイプラインとコンポーネントの良い組み方に興味があり,それをどう管理するかのディレクトリ構成などを考えたりしているのですが,きっかけとしては参考にも載せてある「From MLOps to ML Systems with Feature/Training/Inference Pipelines」という Hopsworks の CEO である Jim Dowling が書いた記事を以前読んでとても良いなと思ったのがきっかけです. また,AB テストなどのオンライン検証

    機械学習パイプラインの作り方を改めて考えてみる
    sh19910711
    sh19910711 2024/05/29
    "機械学習: コンポーネント単位ではなく,パイプライン単位で管理 + 程よくモジュール化 / 再利用することを意識して設計開発する + 一方で最初からそれを意識しすぎると中途半端 + 逆に使いづらい" 2023
  • JenkinsのCronはSafeRestart時にJob起動処理を落とさない - decadence

    これは何 運用されているJenkinsにおいて、SafeRestart時にCronによるJobの発火をlostするのでは、といった懸念があった。 コードを読み、実際に動作確認をすると、再起動処理に2分以上かからなければat least onceでCronによるJobの発火がされることが分かった。 github.com JenkinsをSchedulerとして利用する JenkinsではJobの定義時にcron表記にてJobのscheduleを設定出来る。このcronは発火時刻になると、JobをJenkinsの処理Queueに入れる。 残念なことにJenkinsのHAはActive-Standbyのような構成しか取ることが出来ず、ActiveなJenkins masterのprocess内においてこれらのcronは処理される。もし冗長構成を取りたいのなら、Jenkinsが永続化として利用して

    JenkinsのCronはSafeRestart時にJob起動処理を落とさない - decadence
    sh19910711
    sh19910711 2024/05/28
    "Jenkins: SchedulerがHAになっていない + 再起動時等でJobの起動処理がロストするのでは、といった懸念 + 再起動処理に2分以上かからなければat least onceでCronによるJobの発火がされる" 2021
  • データカタログの最初の一歩 〜データ組織向けに dbt docs を整備している話〜 / Maintaining dbt docs for data organizations

    sh19910711
    sh19910711 2024/05/28
    "データ関係の仕様書があちこちに分散 + クエリを直接読まないと分からない / 早めにデータカタログとしての場所だけ作って運用 + テーブル、クエリ、リネージグラフがサクッと確認できるだけでも十分"
  • dbt exposureによるデータ基盤アウトプットの登録を自動化しました - Timee Product Team Blog

    はじめに 課題感・背景 使用しているBIツールについて BIツールの使用ボリューム感について やったこと:概要 やったこと:詳細 referenced tableにテーブル名ではなくdbtモデル名が入るようにしたことについて 各種アウトプットの公開設定をmeta情報として付与する方針としたことについて tagを追加してexposureの検索性を向上させたこと exposureのnameにシートとダッシュボードのタイトルを反映する方針にしたこと 今後の発展 保守運用の設計 カラムレベルリネージュ ✖️ exposure おわりに We're Hiring!! はじめに こんにちは。okodooonです!! データ基盤を参照したアウトプットが社内に溢れかえっていませんか? 弊社は追いきれていないLookerStudioやConnectedSheetがめちゃくちゃ溢れかえっていました。 そんな折

    dbt exposureによるデータ基盤アウトプットの登録を自動化しました - Timee Product Team Blog
    sh19910711
    sh19910711 2024/05/26
    "exposure: スネークケースにしなくても日本語名でも通ります + データリネージュの可視性を高めるためにLookerStudioとコネクテッドシートのタイトルをnameに含む形で設定している"
  • LangGraphのノード・エッジ・ルーティングを深堀り

    sh19910711
    sh19910711 2024/05/26
    "LangChain: v0.2がPrerelease + LangGraphが推奨されるエージェント構築方法に / LangGraph: Pregel、Apache Beamにインスパイア + NetworkXライクなインターフェース / DAGはLCELで実現 + ハマりどころがたくさんある"
  • Kubernetes でワークフローを組むなら cdk8s-argoworkflow がよさそう!/ cdk8s-argoworkflow is great!

    「 JAWS-UG CDK支部 #14」での登壇資料です。 イベントURL: https://jawsug-cdk.connpass.com/event/317935/

    Kubernetes でワークフローを組むなら cdk8s-argoworkflow がよさそう!/ cdk8s-argoworkflow is great!
    sh19910711
    sh19910711 2024/05/23
    "Argo Workflows: 単体の利用ではYAML特有の悩み / cdk8s-argoworkflow: 補完機能で快適 + 繰り返し処理でコード量をグッと減らせる / スナップショットテストと生成AIで簡単且つ安全にリファクタリング"
  • 難関国際会議の壁

    2021年も 壁 Advent Calendar が開催されることになったわけだが、今回は真面目だが少々青臭い感じの記事を書こうと思う。テーマとして選ぶのは「難関国際会議の壁」である。 難関国際会議は、その定義上明らかなように論文を通すのが難しい学会のことを指す。 このような会議に通りやすい論文をどうやって書くかというのがこの記事の主題である1。 私の論文リストはGoogle Scholarの通りで、主著はある一2を除いては一、二回の投稿で採録されているので、機械学習系の国際会議に論文を通したい場合にはある程度再現性があると考えられる。 ただし物事はそんなに単純ではないので大体このような記事は眉に唾をつけて読んだ方がいい。 「素人発想、玄人実行」の法則 金出先生の有名な言葉だが、これを聞くと「素人発想」に注目しがちであり、私が実際に金出先生の話を聞いた際も素人発想が大事だなと感じたもので

    sh19910711
    sh19910711 2024/05/23
    "学びのある研究をするためには玄人実行 / 早いうちにサーベイ + 研究群を体系化し文脈を作る / 実行手順を書き残していても再実行の心理的ハードルは高い + 再実験しやすいようにプログラムを書く" 2021
  • DataformをGoogle Cloud上から触ってみる(rawデータから集計テーブルを作るまで) - ギークなエンジニアを目指す男

    たかぱい(@takapy0210)です。 正月にGoogle CloudのDataformをゴニョゴニョ触っていたので、その備忘録を残しておこうと思います。 Dataformとは dbtとの違いは...? 使用したデータ 実際に動かしてみる 基的な設定を記載する「dataform.json」 Dataformのディレクトリ構成はどうするのが良いのか 実際に記述するsqlxのコード definitions/sources/mansion.sqlx definitions/outputs/day_aggregated_by_city.sqlx スケジュール実行する Githubと連携してコード管理する おわりに Dataformとは SQL likeなコード(SQLX)でテーブルやビュー作成クエリを記述することで、テーブル間の依存関係を管理することができるデータモデリングツールです。同じよう

    DataformをGoogle Cloud上から触ってみる(rawデータから集計テーブルを作るまで) - ギークなエンジニアを目指す男
    sh19910711
    sh19910711 2024/05/22
    "買収前の従来のDataformのドキュメントには、definitions ディレクトリ配下に「Sources」、「Staging」、「Reporting」を用意することが推奨 / リリース構成で指定した時間よりワークフロー構築で指定する実行時間を最短でも1h開け"
  • プロンプトエンジニアリングを最適化する為のフレームワークSAMMOを実際に使ってみた - Taste of Tech Topics

    いつの間にか春も過ぎ去りすっかり夏模様の今日この頃皆さんいかがお過ごしでしょうか?菅野です。 生成AIの重要性が高まり、生成AIで利用できるテキスト量が長くなるにつれてにつれて、プロンプトエンジニアリングの重要性が高まってきました。 プロンプトエンジニアリングとは、そのプロンプトにどのような命令、事前情報等を入力すると、より適した応答が返ってくるかを設計する技術です。 そんなプロンプトエンジニアリングを最適化する為のPythonライブラリ、SAMMOMicrosoft社から2024年4月18日にリリースされたので紹介していきます。 www.microsoft.com SAMMOとは? Structure-Aware Multi-objective Metaprompt Optimizationの頭文字をとったフレームワークです。 元来、プロンプトエンジニアリングでは、エンジニアが、様々な

    プロンプトエンジニアリングを最適化する為のフレームワークSAMMOを実際に使ってみた - Taste of Tech Topics
    sh19910711
    sh19910711 2024/05/21
    "メタプロンプト: プロンプトはInstruction、Example, Outputなどといった構造 + これらの構造をクラスとして保持する / SAMMO: メタプロンプトの文章の最適化を行うことでより適したプロンプトを高速に模索"
  • Vertex AI Experiments ではじめる機械学習モデルの実験管理 - Qiita

    はじめに この記事では Google Cloud のマネージドサービスである Vertex AI Experiments を使った実験管理方法をご紹介します。 このサービスのメリットは当然 Google Cloud の各種サービスと連携がとてもシームレスに行える点が一番に挙げられますが、個人や大学の研究室で実験管理・共有するためのツールとしても有用だと思いますので、既に MLflow などを使っている方でもぜひご一読ください。 Vertex AI Experiments で何ができる? 端的に言ってしまえば、2023年12月時点では機能的に MLflow とそう違いはありません。まずドキュメントを読んだ感じではバックエンドに MLflow を使っている雰囲気があるので、マネージド MLflow と言っても差し支えないレベルだと思います。 モデルの学習・予測に使用したパラメータを記録する モ

    Vertex AI Experiments ではじめる機械学習モデルの実験管理 - Qiita
    sh19910711
    sh19910711 2024/05/21
    "Vertex AI Experiments: ドキュメントを読んだ感じではバックエンドに MLflow を使っている雰囲気がある / 他の実験管理方法との大きな違いは ~ 「Google Cloud の各種サービスとの連携がシームレスに行える」という点" 2023