タグ

*workとdatalakeに関するsh19910711のブックマーク (7)

  • 私流・データ分析基盤の技術調査のコツを整理してみた | DevelopersIO

    データアナリティクス事業部の鈴木です。 自分がデータ分析基盤の技術調査をする際、こういうことに気をつけるとうまく行きやすいなというポイントがまとまってきたので、ブログにしてみました。 あくまで1例として参考になればと考えています。 課題意識 ほかのメンバーで、技術調査に慣れていない方に調査をお願いするとき、初めはある程度やり方を説明したり、レビューを手厚くしたりすると思います。私が初めて技術調査をしたときは、やり方が分からず、先輩にかなりお世話になったことを覚えています。 最近では、私からほかのメンバーに調査をお願いをする側になる場面が少しづつ出てきたので、「お願いしたいことはある程度ブログにしておいた方が、聞く方が言われたことを全部覚えてなくていいし、絶対ええやろな〜」と思い、記事にしてみました。 場面としてはデータ分析基盤を構築する上で必要になる技術調査を想定しています。 技術調査の

    私流・データ分析基盤の技術調査のコツを整理してみた | DevelopersIO
    sh19910711
    sh19910711 2023/02/15
    2022 / "何回かレビューを設けて進めていく / チェックポイント間の時間を1:1:2に分ける / 方向性に問題がないか確認した後、重要なところから詳細に調査し依頼側でさらに調べて欲しいところがないか確認しながら進める"
  • とあるデータ分析/データエンジニアリングの現場からの雑感 - データエンジニアの酩酊日記

    ※基、酩酊状態でクソみたいな与太話を思いついたまま書き捨ててるだけなのであまり真に受けないようにどうぞよろしく。 僕がここ最近ナリワイとしているのは、大企業でデータ利活用を推進している or しようとしている現場に潜り込んで、データ分析周りの諸々の課題を主に技術面で解決する、という役回り。 といっても、自分が主戦場としているのは技術志向の強い人達が好みそうなGoogleとかメルカリとかリクルートとかヤフーといった自社サービスのテック企業ではなく、普通のユーザー企業に対するIT支援、いわゆるシステムインテグレーションです。 ユーザー企業向けのIT支援の領域では、みなさんが嫌悪している大手SIerが今なお幅を利かせており、ユーザーサイドの生え抜きのエンジニア技術面含めてプロジェクトを主導したり、メンバーの中に有名なOSSのコントリビューターがいたり、みたいなシチュエーションにはそうお目にか

    とあるデータ分析/データエンジニアリングの現場からの雑感 - データエンジニアの酩酊日記
    sh19910711
    sh19910711 2022/10/31
    2019 / "高度な分析アプローチが適合するような課題がそこまで存在していない / 分析の手札や効率は分析基盤によって規定 / 見たいデータにいつでもダイレクトにアクセスしてすぐに分析できる環境を整備することが重要"
  • 全社共通データ基盤を廃止して新しいデータ基盤に引越した話 - ZOZO TECH BLOG

    こんにちは、データ基盤の開発、運用をしていた谷口(case-k)です。最近は配信基盤の開発と運用をしています。 ZOZOではオンプレやクラウドにあるデータをBigQueryへ連携し、分析やシステムで活用しています。BigQueryに連携されたテーブルは共通データ基盤として全社的に利用されています。 共通データ基盤は随分前に作られたこともあり、様々な負債を抱えていました。負債を解消しようにも利用者が約300人以上おり、影響範囲が大きく改善したくても改善できずにいました。 記事では旧データ基盤の課題や新データ基盤の紹介に加え、どのようにリプレイスを進めたかご紹介します。同じような課題を抱えている方や新しくデータ基盤を作ろうとしている方の参考になると嬉しいです。 データ基盤の紹介 旧データ基盤の紹介 旧データ基盤の課題 変更があっても更新されないデータ 性質の異なるテーブルを同じ命名規則で管理

    全社共通データ基盤を廃止して新しいデータ基盤に引越した話 - ZOZO TECH BLOG
    sh19910711
    sh19910711 2022/09/20
    "オンプレのSQL ServerにあるテーブルをBigQueryに連携 / 想像以上に過去データを引き続き使いたいとの要望 / 新データ基盤への移行を社内で周知しても、移行期限までにクエリの書き換えは思うように進捗しませんでした"
  • メルカリ社内のデータ分析基盤を効率的に改善する「データ利用監視」の方法|Mercari Analytics Blog

    こんにちは、Mercari Analytics Blog 編集部です。 連載「メルカリのデータアナリストが向き合う11のテーマ」、今回はAnalytics Infraチーム、@nambさんによる記事です。@nambさんはデータアーキテクトとして入社し、メルカリのデータ分析基盤を整備しています。今回は「データ利用監視」というテーマで、仕事の内容を語っていただきました! データ基盤の改善は「利用状況の把握」から始まる――取り組みのミッションは何ですか? データの利用環境の改善を通じて、データに基づいた意思決定をサポートしています。 前提として、データセットやテーブルのメンテナンスにおいては、影響範囲の評価や優先順位の決定が重要だと考えています。メルカリでは、中間テーブル作成などの積極的なデータ環境改善に加え、プロダクトの改善・データフローのリニューアルに伴うデータのリプレースも常に並行して実施

    メルカリ社内のデータ分析基盤を効率的に改善する「データ利用監視」の方法|Mercari Analytics Blog
    sh19910711
    sh19910711 2022/05/26
    "改善は「利用状況の把握」から始まる / データ分析を改善することであらゆる事業の意思決定にインパクトを与えることができる / データ整備の領域は地球上にベストプラクティスが存在しないこともしばしば"
  • データ組織のトポロジー|Jun Ernesto Okumura

    この記事について最近発売された『チームトポロジー』(以後、書)を読んだのですが、チーム体制やコミュニケーションの設計について汎用的にまとめられていてとても良い読書体験でした。私自身、データ組織をどのように設計していくか日頃考えており、書を読み進めながら、考えが構造化され、課題の解像度が高まった気がします。 現在、私は株式会社エウレカで、BIチーム(分析チーム)、AIチーム、Data Managementチーム(データ基盤チーム)、の3チームのマネジメントをしています。日々生まれるデータを価値に転換し、同時にプライバシーやセキュリティなどのガバナンスを徹底するために、全社的なデータ戦略を推進していく立場です。大雑把に「データ活用」と括ってしまいましたが、意思決定をサポートするのための活動(BI)、ユーザー向けの機能開発を伴う活動(AI)、それらの活動を効率よく進めるための活動(Data

    データ組織のトポロジー|Jun Ernesto Okumura
    sh19910711
    sh19910711 2022/05/19
    "データ基盤管理を分離したからといってアナリストの関与がなくなる訳ではなく、引き続きビジネスメタデータの管理やDWH・DMの管理には責任を持ちます / 近年データスチュアードという役割として注目が集まっている"
  • データエンジニアとデータアナリストを兼任して良かったこと

    第2回 データアーキテクト(データ整備人)を”前向きに”考える会でトークをさせて頂きました https://analytics-and-intelligence.connpass.com/event/161997/ -- JapanTaxi, Inc. All Rights Reserved 102-0094 東京都千代田区紀尾井町3-12 3-12 TEL 03-6265-6265 FAX 03-3239-8115 https://japantaxi.co.jp/ 文章·画像等の内容の無断転載及び複製等の行為はご遠慮ください。 Proprietary and Confidential ©2020 JapanTaxi, Inc. All Rights ReservedRead less

    データエンジニアとデータアナリストを兼任して良かったこと
    sh19910711
    sh19910711 2021/10/22
    "データは川上から川下へ流れる > 先を見越した分析基盤の設計が必要でエンジニアとアナリストの2つの観点で考える必要 / 手戻りする場合も対応範囲が広いほうが有利 / 組織規模が大きくなるほど兼任体制が難しくなる"
  • 100倍で考える - Preferred Networks Research & Development

    私が最近強く印象に残った言葉が10倍で物事を考えるです[wired]。 これが私の記憶の中で拡大解釈され、今は100倍で物事を考えるようになっています。 「100倍」というのは一見すると不可能なことの例えのように思えますが、決してそんなことはありません。 どの程度現実的か例をあげて考えてみましょう。 DWH(DBと考えても良いです)という分野を考えてみます*1。 *1 この分野は専門家ではないのであくまで外から見ている素人の意見です。 2014年10月現在 Google BigQueryは1GBの保存に月あたり 約3円、クエリ時1TBスキャンあたり500円という価格設定です。基的なDBの操作は全部できて、その上でユーザーが自由に関数を定義できて、画面とつながって結果が数十秒で返ってきてです。これはこの分野を知る人にとっては衝撃的な価格です。 1昔前、DWHの世界では製品が数千万から数億円

    100倍で考える - Preferred Networks Research & Development
  • 1