*dataの人気記事 111件 - はてなブックマーク

1 - 40 件 / 111件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

*dataの検索結果1 - 40 件 / 111件

複数の企業でデータエンジニアとして求められたスキル - yasuhisa's blog
- 706 users
- www.yasuhisay.info
- テクノロジー
- 2024/04/29
最近「ああ、これ前職でも前々職でもやったことあるなぁ」という仕事があった。データエンジニア(やその関連職種)として働き始めて約5年、3社でフルタイムとして働いてきて「このスキルは業界や組織規模が変わってもデータエンジニアとしてスキルを求められることが多いな」と感じたものをまとめてみることにした。棚卸し的な意味はあるが、特に転職用などではないです。前提どこでも必要とされたスキルデータマネジメントに関する概要レベルの知識と実行力セキュリティや法令に関する知識事業ドメインに関する興味関心他職種とのコミュニケーション能力コスト管理 / コスト削減のスキルソフトウェアエンジニアとしてのスキル DataOpsやアラートのハンドリング能力分析用のSQLを書く力古いテーブルやデータパイプラインを置き換えていくスキルや胆力あるとやりやすいスキル関連部署の動きを何となく把握しておく力
デジタル庁のデータ分析基盤「sukuna」｜デジタル庁
- 625 users
- digital-gov.note.jp
- テクノロジー
- 2023/06/27
はじめまして。デジタル庁ファクト＆データユニット所属、データエンジニアの長谷川です。本記事ではデジタル庁内でデータ活用を推進するための組織と分析基盤についてご紹介します。これまでのデジタル庁noteと比べると、技術寄りの話題が多い記事となりますが、庁内のデータ活用に興味のある方はぜひご覧ください。デジタル庁のデータ活用組織「ファクト＆データユニット」ファクト＆データユニットとはデジタル庁の特徴の一つに、デジタル分野において各種の専門性をもつ「民間専門人材」が多く所属していることが挙げられます。民間の専門人材は、デザイン、プロダクトマネジメント、エンジニアリングなど、領域ごとに「ユニット」と呼ばれる組織を構成しており（参考：デジタル庁 - 組織情報）、必要に応じてさまざまなプロジェクトにアサインされて業務を遂行する、人材プールのような役割を果たしています。ファクト＆データユニットも
- データ
- あとで読む
- 統計
- GCP
- data
- 分析
- 行政
- cloud
- データ分析
- bigquery
大公開！バッチアプリケーションの品質を高めるZOZOの『バッチ開発ガイドライン』 - ZOZO TECH BLOG
- 511 users
- techblog.zozo.com
- テクノロジー
- 2024/06/10
こんにちは。MA部の田島です。弊社では開発ガイドラインというものを用いて、システムの品質を担保しています。今回私がテックリードを務めているということもあり、バッチアプリケーションを開発するためのガイドラインを作成しました。本記事では「開発ガイドライン」と「バッチ開発ガイドライン」を紹介します。バッチアプリケーション開発に限定したTipsはまとまっているものが多くないため参考にしていただければと思います。開発ガイドラインについての紹介冒頭でも紹介した通り弊社では、開発ガイドラインというものを用いてシステムの品質を担保しています。バッチ開発ガイドラインを紹介する前に、まず開発ガイドラインを紹介します。開発ガイドラインの種類開発ガイドラインは現在、以下の種類が存在します。共通 Android iOS Frontend Backend Infra API Batch DB(Datab
Rustでリレーショナルデータベースを自作したときの成果と反省と学び - Yoshisaurのメモ
- 266 users
- yoshisaur.hatenablog.jp
- テクノロジー
- 2024/03/03
はじめにこの記事では、個人プロジェクトとしてRust言語でリレーショナルデータベースを開発した経験（もう五ヶ月も前...）について、その成果と反省、得た学びを共有します。 DBMSを自作した理由自分がDBMSの自作に着手したのは、『Designing Data-Intensive Applications』という本の内容を深く理解するためでした。この本は、データシステムの設計と運用において最も大切な「信頼性」、「拡張性」、「保守性」を保証する方法論を、豊富な文献を引用しつつ、理論と実践の橋渡しを巧みに行いながら、丁寧に説明している名著です。読んだことがない人は速攻購入してくだい。本当にいい本です。この本は、データベースの内部構造に関する話も豊富に含まれていたので、「データベース自作してみようか...」という気持ちになりました。 Rustを採用した理由データベースの実装のついでに、
- rust
- あとで読む
- db
- データベース
- programming
- 開発
- 設計
- database
- techfeed
- ソフトウェア
BigQueryでクエリ一撃で29万円溶かしたけど助かった人の顔
- 252 users
- futurismo.biz
- テクノロジー
- 2024/01/29
SolanaのPublic DataをBigQueryで取得したかった# えー、お笑いを一席. ブロックチェーンSolanaのデータがGoogle Cloud BigQueryで使えるようになったというニュースをたまたまネット推薦記事でみかけた1. おや, 面白そうだ. ちょっとやってみようかな… BigQueryはさわるのが１年以上つかってないかも, どうやるんだっけ… とりあえずカラムとかサンプルでちょっとデータをみたいよな, こんな感じだっけか？とりあえず動かしてみよう, ポチッとな. … 5秒でレスポンスが帰ってくる. おー、速い. えーっと, あれ課金データ309TB？！いちげきひっさつ、ハサンギロチン2. BigQueryでクエリ一撃5 秒で29万円溶かした人の顔# 話題の画像生成AI, DALL･Eをつかって BigQueryでお金溶かした人の顔を表現してもらった3. あ
- bigquery
- あとで読む
- google
- SQL
- コスト
- cloud
- データ
- GCP
CockroachDB はどのくらい「しぶとい」のか？ / How tough is CockroachDB?
- 208 users
- speakerdeck.com/kota2and3kan
- テクノロジー
- 2024/05/08
CockroachDB はどのくらい「しぶとい」のか？ / How tough is CockroachDB?
- DB
- NewSQL
- あとで読む
- database
- NoSQL
- sys*
- データベース
- *data
- *software
GIS に欠かせない Shapefile を深堀ってみる - Qiita
- 107 users
- qiita.com/haystacker
- テクノロジー
- 2024/04/20
1. はじめに地理情報システム (GIS) で、使用するデータとして「Shapefile 形式」でデータ提供されていることがあります。この記事では、この Shapefile が、どのような構造となっているのかについて、説明していきます。 1.1. トポロジ構造とは Shapefile について説明していく前に、まずは GIS データ等でよく利用される「トポロジ構造」について説明しておこうと思います。例えば、トポロジ構造を持つファイルとして、次のようなものがあります。 .gdb: ESRIのファイルジオデータベースは、トポロジを含む複雑な空間データを格納することができます。 .topojson: トポロジを保存するための拡張 GeoJSON 形式で、隣接する地物間の境界を共有することでファイルサイズを削減します。 .gml: 地理マークアップ言語 (Geography Markup La
- GIS
- python
- あとで読む
- geo
- Qiita
- 地図
GitHub - mckinsey/vizro: Vizro is a toolkit for creating modular data visualization applications.
- 79 users
- github.com/mckinsey
- テクノロジー
- 2023/10/01
Rapidly self-serve the assembly of customized dashboards in minutes - without the need for advanced coding or design experience - to create flexible and scalable, Python enabled data visualization applications Use a few lines of simple configuration to create complex dashboards, which are automatically assembled utilizing libraries such as Plotly and Dash, with inbuilt coding and design best pract
- python
- visualization
- データ
- あとで読む
- 分析
- 統計
- GitHub
Snowflake の Copilot が優秀すぎる件について
- 59 users
- ex-ture.com
- テクノロジー
- 2024/05/03
マーケティングテクノロジーの情報やノウハウ・TIPS、エクスチュア社の情報を発信。【ブログネタ募集】ご興味のある分野を教えてください！ご要望の内容を記事に起こします！メニューの「ブログへの」リクエストよりお送りください。 menu こんにちは、喜田です。いままでSnowflakeのライトユーザーで一部機能だけに特化して触っている状態でしたが、最近はData Superheroes 2024になったこともあり、いままで関わりの薄かった製品領域も調査したり、海外リージョンでしか出ていないプレビューを触ったりしています。そのうちの一つがCopilotで、いまは北米など一部リージョンでのみパブリックプレビュー中の、Snowflakeコード開発が一段と捗るAIおしゃべり機能です。この右側のパネルがCopilotとのチャット。出力が多くてチャットっぽくないですが、上から会話が続いております。 C
- SQL
- snowflake
- AI
- あとで読む
- 仕事
検索システムのフロントを SSR・Remix で作り直した - Unyablog.
- 54 users
- nonylene.hatenablog.jp
- テクノロジー
- 2024/03/09
かなり昔に Elasticsearch ベースの検索システム（Heineken）を作っていた。 Elasticsearch で部内 Wiki 検索高速化 - Speaker Deck 特に更新せず数年動かしていたのだけど、サーバーの置き換えに伴って Kubernetes に置きたいよねという話になり、ついでに Elasticsearch も新しくしたいよね、となった結果、現状のフロントエンドだと最新の Elasticsearch では動かないということがわかった。 nonylene.hatenablog.jp フロントエンドの改修が必要なわけだが、ここでフロントエンドの構成を見ると… FlowType create-react-app PureComponent Bootstrap 3 古すぎる！絶対アップデート難しいし触りたくない技術しかない。フロントまわりの構成を変えたいとずっと思っ
入社４ヶ月でBigQueryの課金額を減らすために考えたこと - 弁護士ドットコム株式会社 Creators’ blog
- 47 users
- creators.bengo4.com
- テクノロジー
- 2024/04/19
データ分析基盤室の otobe（𝕏@UC_DBengineer）です。事業規模が拡大し、大規模なデータの管理が必要になるにつれて、SnowFlake や BigQuery のようなハイパワーな DWH サービスでデータを加工するケースは多いです。その際、想定外な高額請求が起こる原因のひとつに、クエリが最適化されておらずスキャン量が増大しているケースがあります。そのため、クエリのスキャン量を監視・管理することが課金額を減らすうえで有効な手段となることがあります。本記事では、前半で BigQuery で課金されるスキャン量を監視・管理するまでのプロセスを振り返り、後半で BigQuery の課金額を減らすために簡単にチェックできることについてお話しします。 BigQuery クエリにおけるスキャン量を監視・管理するに至った理由 BigQuery の課金額が想定より大幅に増加してい
シングルバイナリでローカル実行可能、高速なOLAP用オープンソースDB「DuckDB 1.0」正式リリース
- 47 users
- www.publickey1.jp
- テクノロジー
- 2024/06/06
シングルバイナリでローカル実行可能、高速なOLAP用オープンソースDB「DuckDB 1.0」正式リリースオープンソースとして開発されているOLAP用データベース「DuckDB」が正式版となるバージョン1.0に到達したことが発表されました。 OLAP用のデータベースといえば、クライアント／サーバ方式の大規模なサーバアプリケーションが一般的ですが、DuckDBは、SQLiteのようにローカル環境上でシングルバイナリでローカル環境でも簡単に実行できる点が最大の特徴です。 SQLでクエリを記述すると同時に、Python、Java、Node.js、Rust、Go、C/C++、R、ODBCなどから呼び出せるAPIも備えており、クライアントアプリケーションに組み込むこともできます。対応するプラットフォームはWindows（x86_64）、macOS（Intel/Apple Silicon）、Lin
BigQuery上のデータマートをクラスタ化したらクエリコストが９割カットできた話 - エムスリーテックブログ
- 45 users
- www.m3tech.blog
- テクノロジー
- 2023/07/07
こんにちは、エンジニアリンググループ、データ基盤チームの木田です。最近我が家では手作りピザがブームになっており、週末になると度々生地をこねては家庭内ピザパーティーを開催しております。息子が盛り付けた手作りピザ (本文とは特に関係ありません) さて、エムスリーではBigQueryをメインのデータウェアハウスとして活用していますが、費用最適化の取り組みの 1つとして一部のデータマートでクラスタ化テーブルの活用を始めました。本日はその導入効果をご紹介できればと思います。この記事は【データ基盤チームブログリレー4日目】です。データ基盤チーム設立の経緯についてはブログリレー1日目の鳥山の記事をぜひご覧ください。 www.m3tech.blog はじめに費用最適化のアプローチクラスタ化テーブルとはクラスタ化テーブルの作成方法実際に速く・安くなるのか複合キーによるクラスタリングクラス
- bigquery
- あとで読む
- コンピュータ・IT
- DB
- techfeed
- -
- Google
統計ダッシュボード機能を BigQuery と BI Engine で実装する
- 41 users
- zenn.dev/team_zenn
- テクノロジー
- 2023/07/29
先日、統計ダッシュボード機能(β)をリリースしました。記事をひとつでも公開している場合、Zennにログインすればどなたでも統計情報を表示できます。執筆頻度の確認や閲覧回数の参考にお役立てください。本稿ではどのように実現したかについて課題とともに記録します。 TL;DR 投稿ページの表示イベントは Google Analytics から BigQuery へ連携しており、イベントデータ（BigQuery）と記事データ（Cloud SQL）をどうJOINさせるかが課題外部接続でBigQueryからCloud SQLつなぐことにした統計データ読み出し時、BigQueryを直接使うとクエリ毎に課金されてしまうため、BigQuery BI Engine を使うことにしたスケジュールクエリを使い、BI Engineの容量に収まるように集計データを最小限にまとめるチャートは Chart.js
仮説検定とP値
- 39 users
- speakerdeck.com/shuntaros
- テクノロジー
- 2024/06/05
たびたび議論にあがる仮説検定やP値についてまとめた資料です．
日本におけるデータエンジニアリングのこれまでとこれから
- 39 users
- speakerdeck.com/foursue
- テクノロジー
- 2024/04/16
2024/04/16(火) に行われたイベントの登壇資料です先達エンジニアに学ぶ思考の現在地 Online Conferencehttps://findy.connpass.com/event/313119/
分析基盤へのデータ連携処理をEmbulkからAmazon Aurora S3 Export機能に切り替えた話 - BASEプロダクトチームブログ
- 39 users
- devblog.thebase.in
- テクノロジー
- 2024/03/27
はじめにこんにちは！Data Platformチームでデータエンジニアとして働いている @shota.imazeki です。分析基盤の構築・運用などの側面から社内のデータ活用の促進を行っています。 BASEではAurora MySQLにあるデータをEmbulkを用いてBigQueryに連携しています。BigQueryへ連携されたデータは分析基盤としてLookerなどを通して社内利用されています。このデータ連携処理にはいくつかの課題があり、それを解決するためにEmbulkからAurora S3 Export機能を用いた連携処理に切り替えることにしましたので、それについて紹介していきたいと思います。 ※この切り替えについては現状、試験的に一部のDBのみの切り替えとなっていますが、運用上の大きな課題が出てこなければ徐々に切り替えていく予定です。切替前のデータ連携処理先述した通り、BAS
全社横断データ基盤における部分的セルフサービス化への取り組み - Sansan Tech Blog
- 38 users
- buildersbox.corp-sansan.com
- テクノロジー
- 2023/12/08
研究開発部 Architect Groupの大澤秀一です。ブログ寄稿は約2年ぶりです。半年ぐらい前からランニングを始めて、先日フルマラソン完走してきました。おかげで足はボロボロです（笑）。さて、私たちはBigQueryを中心とした、全社横断データ基盤（以下、データ基盤）の構築とデータ基盤をもとに社内のデータ利活用を推進しています。データ利活用の推進についてチームメンバーが最近登壇した資料をご参照ください。 speakerdeck.com speakerdeck.com データ基盤を拡大していくにあたって、社内の利用者から自部門のデータをアップロードしてデータ基盤上でアドホックに分析したいという要望がありました。また、利用者自身が自由にテーブルとビューを作りたいという声があがりました。今回は、そうしたことができる環境を構築したので仕組みについてご紹介します。なお、本記事はSansan
データマーケティングの強い味方！？BigQueryと大規模言語モデル(LLM)の統合で始める検索意図分析の事例｜田口信元
- 38 users
- note.com/guchey
- テクノロジー
- 2023/08/21
データマーケティングの強い味方！？BigQueryと大規模言語モデル(LLM)の統合で始める検索意図分析の事例初めまして、Ubie Product Platformのグロースチームでエンジニアをしてる田口です。「健康が空気のように自然になる世界」を目指し、症状検索による発症から受診までのサポートするサービス症状検索エンジン「ユビ―」を提供しています。さて、サービスを成長させる上で、ユーザーの行動を理解することが不可欠です。ユーザーが何を求め、どのようにサービスを利用しているのかを知ることで、サービスの満足度を向上させるための改善策が見えてきます。しかし、大規模なウェブサイトの場合、分析すべき検索クエリが膨大になっているという課題がありました。今回は、ML.GENERATE_TEXTを用いてプロンプトベースのデータパイプラインを作り、ユーザーの検索意図分析を行ってみた事例を紹介します
- bigquery
- LLM
- 分析
- 機械学習
- データ
- AI
データベーススペシャリストというキャリアと生存戦略 ~10年後も変わらないこと、変わること / career-spiral
- 37 users
- speakerdeck.com/soudai
- 世の中
- 2023/09/23
Tech BASE Okinawa 2023の登壇資料です。 # 参考資料 - https://speakerdeck.com/twada/worse-is-better-understanding-the-spiral-of-technologies-2019-edition - https://fortee.jp/phperkaigi-2023/proposal/98ad84b9-df03-4449-ab25-377761945005 - https://findy-code.io/engineer-lab/career-spiral -
- データベース
- engineer
- career
- キャリア
- 資料
- database
- db
ダッシュボードを使ってもらうには、現場へのヒアリングが重要だと改めて気づいた話
- 37 users
- speakerdeck.com/zerebom
- テクノロジー
- 2024/06/06
Timee × Commune データチーム勉強会より
- dashboard
- あとで読む
AWS から OCI に移行してコストを約半額にした話 - Qiita
- 36 users
- qiita.com/teckl
- テクノロジー
- 2024/05/15
OCIについて知らない方向け AWSは知ってるがOCIを知らないという方は取り急ぎ以下のようなページを読むとイメージが掴みやすいかと思いますのでリンクを貼っておきます。本件では細かい用語の違いなどの説明は省略します。 OCIへの移行理由今回移行した理由はコスト削減が最大の理由でした。オンプレからAWSに移行したのは3年前の2021年2月で当時のドル円相場は約106円でした。 2021年のAWS移行当時、RDSのReserved InstancesとEC2のSavings Plansを3年で購入していました。（通常は1年などで購入されるケースの方が多いと思いますが、歴史のあるサービスなので急激なリソースの増減はあまり無さそうではと考えたためとなります。結果としては円が強いタイミングで安く買えて助かりました）移行を検討し始めたのはRI/SPが切れる1年前くらいで、その時点のドル円レート
- oci
- aws
QAエンジニアから見た『データモデリングでドメインを駆動する』書評 - ブロッコリーのブログ
- 33 users
- nihonbuson.hatenadiary.jp
- テクノロジー
- 2024/04/30
はじめに本記事は、今年発売された書籍『データモデリングでドメインを駆動する――分散／疎結合な基幹系システムに向けて』を読んだ感想と、QAエンジニアである私*1が日々の業務で役立ちそう（既に役立った）部分を紹介します。今のところ、本書籍は2024年のベストバイな気がします。 gihyo.jp 本記事で一番伝えたいことデータモデリングについての考えが深まるぞ開発者が読むともっと役立てることができると思うぞ QAエンジニアである私が読んでも役立つぞ読み始めてすぐに「良い買い物だった」と思って思わずポストしている様子目次はじめに本記事で一番伝えたいこと目次本書籍で良かったこと：データモデリングをするにあたっての整理と用語の提案がすごい SoAとSoMという整理「残」という概念データベース設計とは違う「データモデリング」という考え方 QAエンジニアとして、業務に役立てそうなこと
BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する
- 31 users
- zenn.dev/cloud_ace
- テクノロジー
- 2024/01/23
はじめにこんにちは、Google Cloud Partner Top Engineer 2024 を受賞いたしました、クラウドエースデータソリューション部の松本です。クラウドエースデータソリューション部についてクラウドエースのITエンジニアリングを担うシステム開発統括部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータソリューション部です。弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があればエントリーをお待ちしております！今回は、BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する方法についてご紹介します。この記事はこんな人にオススメ BigQuery の SQL のみで LLM を使った問合せシステムを構築したい BigQue
- BigQuery
- LLM
- RAG
- gcp
- AI
Cloud Storageへのデータ転送で課金爆死してしまった件 - G-gen Tech Blog
- 28 users
- blog.g-gen.co.jp
- テクノロジー
- 2023/11/21
G-genの田中です。当記事では、Cloud Storage を利用する中で、意図していない高額の請求が発生してしまった事例について解説していきます。はじめに背景 Cloud Storage とは Cloud Storage の料金 Storage Transfer Service とは事件のあらまし背景落とし穴莫大な課金の発生後日譚はじめに背景今回、G-gen でサポートさせて頂いているお客様が Storage Transfer Service を利用して Cloud Storage へデータ移行を行ったところ、3日間で数十万円の課金が発生してしまったという事件があり、注意喚起のために記事化させて頂くことになりました。本記事は、お客様名の許諾を得た上で、実際に起きた内容を少し改変して記事化しました。お客様の社内事情のため数値等を事実とは違うものにして記載していますが
- cloud
- あとで読む
FireLensでログ転送するときは依存関係とHealthcheckを設定しないとログを取りこぼすことがある
- 24 users
- zenn.dev/snaka
- テクノロジー
- 2024/04/19
三行で FireLens を使うことで ECS で稼働するアプリケーションのログ転送を簡単に実装できるしかし、ドキュメントに記載されている設定例をそのまま利用しただけでは実はログの取りこぼしがあったログの取りこぼしを防ぐためにコンテナ間の依存関係とHealthcheckの設定を行った FireLens とは FireLens　を簡単に言うと、「ECS のタスク定義の記述だけで Fluent Bit / Fluentd を使ったログ転送用のサイドカーコンテナが利用できる機能」でしょうか。 FireLens という個別のサービスやソフトウェアが存在するわけでは無いようです。詳細は以下を参照ください。症状私が関わったとあるサービスでは ECS を使ってアプリケーションを稼働させていて、アプリケーションのログは FireLens により Fluent Bit を使ってログ転送を行っていま
- --
- aws
- ログ
- 監視
実験の再現性を高めるデータバージョン管理（DVC）の紹介 - techtekt
- 24 users
- techtekt.persol-career.co.jp
- テクノロジー
- 2024/04/24
データバージョンの管理とは？データバージョンの管理とは、バイナリデータのバージョンを管理することを指します。データバージョンの管理は、Git 等でのコードのバージョン管理をバイナリデータに拡張しています。実験の再現性を高められるメリットがあります。 DVC とは？データのバージョンを管理する機能をもつオープンソースソフトウェアです。データのハッシュをテキストファイルで保持し git でバージョン管理します。また、yaml ファイルで実行パイプラインを定義して監視対象データが更新された際にハッシュを更新することで、新しいハッシュ値を含んだデータをバージョン管理します。更新されたデータファイルはキャッシュディレクトリに保存され、必要なタイミングで自動的に復元されます。データのリモートリポジトリを定義することで、データ一式を簡単なコマンド操作で S3 等へ push / pull すること
- git
- あとで読む
Looker Studioで組織内に魔境を作らないための裏技的Tips集 - Qiita
- 23 users
- qiita.com/SoySoySoyB
- テクノロジー
- 2024/05/27
はじめに Looker StudioはGoogleが無料で提供しているBIツールです。無料でもかなりの機能が揃っており、BIの活用にあたっては大変重宝する存在になっています。ただし、以前「後回しにするとどうしようもなくなる（かもしれない）Looker Studioの権限を理解する」で整理したように、組織管理という観点で難があるのは事実です。それは例えば、レポートを組織的に管理する機能がなかったり、Google CloudのIAMを利用した権限管理ができなかったりすることが挙げられます。Looker Studio Proという有償版のサービスでは、こうした組織管理を円滑にするような機能拡充がされています。とはいえ、実は様々なデータをフル活用すると無料版でもできることは多くあります。今回は、そんな裏技的Tipsを5つ紹介しようと思います。こんな方におすすめ Looker Studioの組
- Looker Studio
- Qiita
- BigQuery
- google
- 組織
BigQuery や Google Workspace のログを使って分析環境を管理する｜Mercari Analytics Blog
- 22 users
- note.com/mercari_data
- テクノロジー
- 2023/09/05
BI Product チームの野本です。メルカリでは Google BigQuery 監査ログと Google Workspace ログイベントを BigQuery にエクスポートして、データ分析環境の管理に活用しています。アクセス履歴を詳細に調べられる BigQuery 監査ログは、分析環境のコスト最適化やテーブルの変更時の影響範囲調査などの管理業務にとても便利です。 BigQuery の利用が増えてくると、過剰に高頻度なクエリジョブや、使われずに放置されたテーブルなどにかかる無駄なコストも増大していきます。これらの使われていないジョブやテーブルを抽出し削減することで、BigQuery の計算やデータの保管にかかるコストを削減することができます。メルカリでは、BigQuery 監査ログ、Google Workspace ログイベントを活用して、分析環境の管理業務に役立てていますので、
データレイクの新しいカタチ：Open Table Formatの紹介 - 流沙河鎮
- 22 users
- bering.hatenadiary.com
- テクノロジー
- 2023/07/18
はじめに Open Table Formatは次世代のデータレイクの基盤となり得る技術で、徐々に導入事例(末尾に列挙)が増えてきているものの、日本での認知度は発展途上な印象がある。本記事ではOpen Table Format登場の背景を紹介する。執筆にあたって、Apache Iceberg: An Architectural Look Under the CoversとAWSにおける Hudi/Iceberg/Delta Lake の使いどころと違いについてを特に参考にした。 Open Table Formatとは？ Open Table Formatとは、従来のデータレイクの技術的な課題&ユースケースの要請に応える形で登場した、データレイクに最適化されたテーブルフォーマットを指す概念で、上手く活用することでクエリプランニング、実行性能の最適化、効率的なUpdateやDelete、タイム
BigQuery データキャンバスでデータモデリングしてみた / I tried data modeling with BigQuery Data Canvas
- 21 users
- speakerdeck.com/sansan_randd
- テクノロジー
- 2024/05/25
■イベント #bq_sushi #19 https://bq-sushi.connpass.com/event/317348/ ■発表者技術本部研究開発部 Architectグループ中根洋平 ■研究開発職採用情報 https://media.sansan-engineering.com/randd ■Sansan Tech Blog https://buildersbox.corp-sansan.com/
- 開発
- あとで読む
Google Cloud Next’24で発表されたBigQueryのアップデート情報をまとめました | DevelopersIO
- 19 users
- dev.classmethod.jp
- テクノロジー
- 2024/04/14
Google CLoudデータエンジニアのはんざわです。 Google Cloud Next'24において、各サービスで多数のアップデート情報が紹介されました。この記事では、BigQueryのアップデート情報、特にデータエンジニア向けの情報をまとめて紹介したいと思います！新機能が発表されたセッションとその内容を簡単に紹介していきます！気になる内容があった方は是非、YouTubeの動画を確認してみてください。注意点本記事の内容にBigQuery ML関連のサービスは含まれていません。不足している情報があれば随時更新します... 2024年4月13日時点では、Google Cloud Next'24で発表された機能のほとんどがリリースノートやドキュメントに反映されていません。そのため今後変更される可能性がありますので注意してください。 Build a unified, open,
Fluentdのプラグインを作ってBigQueryにログを挿入するコストを1/3にした話 - pixiv inside
- 19 users
- inside.pixiv.blog
- テクノロジー
- 2024/06/10
こんにちは。機械学習チームにてレコメンドの改善を行っているgumigumi4fです。この記事では、Fluentdにて収集したログをBigQueryに挿入する際に使用しているプラグインを置き換えることによって、高スループットかつ低コストを実現した話について紹介します。背景 pixivではアクセスログやアプリケーションログ等をBigQueryに収集し、分析できるような仕組みを構築しています。 BigQueryへアクセスログを挿入する際はFluentdとそのプラグインであるfluent-plugin-bigqueryを用いて直接BigQueryへ書き込むようになっていたのですが、その際にログ欠損が起こることが問題となっていました。ログの欠損はピークタイムで発生しており、そのピークタイムのログの流量は概ね毎秒30000logとかなり多く、実際Fluentdのworkerプロセスが1work
PolarsとPanderaで実現する高速でロバストなデータ処理
- 18 users
- speakerdeck.com/chimuichimu
- テクノロジー
- 2024/03/28
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
データ利活用を推進するのためのメタデータ管理術 | 日本発のデータカタログ「COMETA」
- 17 users
- blog.trocco.io
- テクノロジー
- 2024/05/09
データ利活用の推進が行われている昨今、多種多様な企業が散見されているデータの統合を目的としたデータ基盤を構築し、データ利活用できる環境を整備しています。一方、データ基盤を統合したのは良いけれど、どのようなデータが入っているのか探せず、データ利活用につながらないといった課題が生まれています。そのような状況の中、データの意味の管理をする「メタデータ管理」が注目を集めています。メタデータの管理・整備の継続をすることでデータ利活用を促すことができます。本記事では、このメタデータについて、大きく分けて3つのことを説明します。 1つ目は、そもそもメタデータとは何か、2つ目は、メタデータ管理をどのように進めたらよいか、3つ目は、継続してメタデータ管理を続けるための方法です。日頃データ利活用に携わっており、メタデータ管理に取り組みたいと思っている方々に、本記事を参考にしていただけると幸いです。こ
- あとで読む
dbt exposureによるデータ基盤アウトプットの登録を自動化しました - Timee Product Team Blog
- 16 users
- tech.timee.co.jp
- テクノロジー
- 2024/03/18
はじめに課題感・背景使用しているBIツールについて BIツールの使用ボリューム感についてやったこと：概要やったこと：詳細 referenced tableにテーブル名ではなくdbtモデル名が入るようにしたことについて各種アウトプットの公開設定をmeta情報として付与する方針としたことについて tagを追加してexposureの検索性を向上させたこと exposureのnameにシートとダッシュボードのタイトルを反映する方針にしたこと今後の発展保守運用の設計カラムレベルリネージュ ✖️ exposure おわりに We're Hiring!! はじめにこんにちは。okodooonです！！データ基盤を参照したアウトプットが社内に溢れかえっていませんか？弊社は追いきれていないLookerStudioやConnectedSheetがめちゃくちゃ溢れかえっていました。そんな折
- dbt
- ツール
過去のGitHub Actionsのbuild時間を取得して集計してグラフにする - xuwei-k's blog
- 15 users
- xuwei-k.hatenablog.com
- テクノロジー
- 2024/06/07
継続的にメンテナンスするのではなくて、雑な使い捨てでいいならshellscriptとjq職人芸でいけるので頑張ってしまったけれど、継続的にやるならもっと違うもので書いた方がメンテナンスしやすいと思います。細かい部分はいくらでも改善の余地があるとは思いますが、とりあえず動いたのでヨシ・・・!? 以前も多少似たような何か作ったけど、こういうの誰か既にもっと綺麗に作ってないんですかね。 xuwei-k.hatenablog.com GitHub Actionsのログはデフォルトでは90日保存されてるはずなので、その程度の期間をなんとなく集計したいだけならば、こうやって後から集計するだけで十分ですね。もちろん、yamlの内部の構造がすごく変わっていると集計が難しいか実質不可能になるリスクはありますが。もっとしっかり計測したいならば、buildした時点で専用の場所に綺麗に記録して、他のもっとリ
- GitHub
- CI
BigQueryをオンデマンド料金モデルからBigQuery Editionsへ移行した話 - BOOK☆WALKER inside
- 14 users
- developers.bookwalker.jp
- テクノロジー
- 2023/06/21
こんにちは、メディアサービス開発部サービス分析課の佐藤です。ブックウォーカー社で全社横断のデータ基盤を構築しています。今年の3月末にBigQueryの新料金体系、BigQuery Editionsが発表されました。これに伴い来月の7月5日より従来の定額モデルが終了し、オンデマンド料金モデルも25％の値上げとなります。 cloud.google.com これまでブックウォーカー社ではスキャンサイズのバーストを防ぐためにGoogle Cloud（GCP）の「割り当てと上限」を利用し、BigQueryにおいてプロジェクト全体のスキャンサイズとユーザーごとのスキャンサイズを制限していました。これはプロジェクト全体、あるいはユーザーが設定したスキャンサイズを上回るとそれ以上の処理を停止させるという制限です。 Webサービス開発に関わる分析業務ではGoogleAnalyticsのエクスポートログやW
- BigQuery
- あとで読む
データサイエンティストって「4種類」あんねん - Qiita
- 14 users
- qiita.com/tetsuro731
- テクノロジー
- 2023/10/29
データサイエンティストってなんだ？僕は現在とあるコーヒーチェーン企業でデータサイエンティストとして働いている。なんやかんやで社会に出てから約5年ほどが経った。ただ、正直なところ僕自身が最近までデータサイエンティストがどのような職業なのかよくわかっていなかった。「働いてるのに何を言っているんだ？」と思われるかもしれないが、落ち着いて聞いてほしい。おそらくその理由はデータサイエンティストという職業に対するイメージが人によってバラバラであり、自分のやっていることが世間一般で言うところの「データサイエンティスト」なのかよくわかっていなかったからだと思う。そんな中、最近『データ分析失敗事例集』という本で「データサイエンティストには4つの分類がある」という話を読んでしっくりきたので自分の経験も合わせてまとめたい。 4つの分類まずは書籍に載っていた4つのパターンをざっくりまとめてみよう。
- article
OSS 活動を通して貢献できた Meilisearch を紹介したい - Qiita
- 13 users
- qiita.com/mosuka
- テクノロジー
- 2023/12/11
この記事はスタンバイ Advent Calendar 2023 の11日目の記事です。こんにちは。求人検索サービスを提供する株式会社スタンバイでプロダクト開発部長をしている大須賀です。普段の仕事は開発組織運営などのマネジメントが中心です。一般的にマネージャは、業務として直接的に開発に携わることが少なくなり、Individual Contributor (IC) としてスペシャリストを目指すエンジニアから敬遠されがちです。確かにその通りかもしれませんが、幸運なことに私の場合、仕事をではマネージャとして、OSS 活動ではエンジニアとして、今年一年、充実したキャリアを積むことができたと思っています。そこで今回は、会社でマネージャをしながらも、OSS の活動でエンジニアとして貢献できた OSS 全文検索サーバー Meilisearch を紹介したいと思います。私が Meilisearch
- OSS
- Qiita
- search