タグ

関連タグで絞り込む (212)

タグの絞り込みを解除

data-warehouseに関するnabinnoのブックマーク (453)

  • AWS での分析サービスに関する意思決定ガイド

    データは、アプリケーションやユーザーによって安全にアクセスおよび分析される必要があります。データは新しく多様なソースから得られており、その量は前例のない速度で増大しています。組織はデータの価値を抽出する必要がありますが、今日における先端的なビジネスによって生成されるデータをすべて取得、保存、分析するために苦戦しています。 これらの課題に対処するには、分析とインサイトを得るためにサードパーティーデータを含むすべてのデータサイロを解消し、エンドツーエンドのガバナンスを整えた上で、組織内の全員がそれらのデータを利用できるようにする、最新のデータアーキテクチャを構築する必要があります。また、分析と機械学習 (ML) システムを接続して予測分析を可能にすることもますます重要になっています。 この意思決定ガイドは、AWS サービス上に最新のデータアーキテクチャを構築するために適切な質問をするのに役立ち

    AWS での分析サービスに関する意思決定ガイド
    nabinno
    nabinno 2024/04/17
    AppFlow, Athena, Data Exchange, DataZone, EMR, GLue, Kinesis, Lake Formation, MSK, OpenSearch, QuickSight, Redshift, S3, SageMaker
  • モデリングはキラキラ技術より地味だが役に立つ / modeling-over-shiny-tech

    # Event データモデリングとデータ基盤の構築・運用 (第14回ちゅらコラボ)CARTA HOLDINGS x ちゅらデータ 合同イベント https://churadata.connpass.com/event/254417/ ぼくのかんがえる最高のレポーティング基盤 https://speakerdeck.com/pei0804/hokufalsekankaeruzui-gao-falserehoteinkuji-pan-at-awsdeshi-jian-analytics-modernization ディメンションモデリングモデリング https://zenn.dev/pei0804/articles/dimensional-modeling スタースキーマ https://zenn.dev/pei0804/articles/star-schema-design コンフォ

    モデリングはキラキラ技術より地味だが役に立つ / modeling-over-shiny-tech
  • 読みやすく、再利用しやすいSQL分析クエリを書くコツ

    こんにちは、Wantedlyでデータサイエンティストをしている樋口です! 自分は過去、分析のためにSQLを書いているとき、以下のようなミスをしていました。 メール開封率を集計したら何故か100%を超えてしまった。でもどこが原因かがわからない メール開封率を集計したのち、クリック率も追加で依頼を受けたが、再利用できるクエリになっておらず、一から書き直した クエリのレビューを依頼したら、複雑すぎると言われてしまった こういった経験がある方は自分以外にもいるのではないでしょうか...! SQLは非常に自由度が高く便利である反面、書き方が個人に委ねられ、複雑・難解になりやすいと感じています。 そこで記事では、自分が実務で学んだ、読みやすく、再利用しやすいSQLクエリの書くコツを紹介したいと思います。個人の経験によるものなので、より良い書き方・考え方もあるかもしれないです。ご了承ください🙏 読み

    読みやすく、再利用しやすいSQL分析クエリを書くコツ
  • スノーフレークスキーマ - Wikipedia

    スノーフレークスキーマはスタースキーマのバリエーションであり、ディメンションテーブルの正規化を特徴としている。 情報処理やコンピューティングの分野では、スノーフレークスキーマは、ER図が雪片の形状に似た形になるように、多次元データベースのテーブルを論理的に配置したものである。 スノーフレークスキーマは、複数のディメンションに接続された一元化されたファクトテーブルによって表される。 「スノーフレーク」は、スタースキーマのディメンションテーブルを正規化する方法である。 すべてのディメンションテーブルに沿って完全に正規化されると、結果の構造は、ファクトテーブルが中央にあるスノーフレークに似たものになる。 スノーフレークの背後にある原則は、カーディナリティの低い属性を削除し、個別のテーブルを形成することにより、ディメンションテーブルを正規化することである。 スノーフレークスキーマはスタースキーマに

    スノーフレークスキーマ - Wikipedia
  • スタースキーマ - Wikipedia

    スタースキーマ または 星型スキーマ はデータウェアハウスに利用される最も単純なスキーマである。スタースキーマには唯1つもしくは少数のファクト表と複数のディメンション表が含まれる。スタースキーマはスノーフレークスキーマの一種であるが、多くの用途で利用されている。 モデル[編集] スタースキーマは多次元モデルを表す単純なスキーマである。 ファクト表はデータウェアハウスでの解析で利用され、複数の異なるディメンションに区分される。ファクト表は主要なデータを持つ一方、ディメンション表は相対的にサイズが小さくディメンションのそれぞれの値を表現する。必要に応じて、ディメンション表はファクト表と結合される。 ディメンション表は単純な主キーを持つ一方、ファクト表の主キーは関連するディメンション・キーを組み合わせた複合キーである場合もある。 ディメンション表に冗長なデータを含ませ、第2正規形に留めておくこと

    スタースキーマ - Wikipedia
  • Microsoft Purview による統合データ ガバナンス | Microsoft Azure

    Azure を探索 Azure について 安全かつ将来を見据えた、オンプレミス、ハイブリッド、マルチクラウド、エッジのクラウド ソリューションについて調べる グローバル インフラストラクチャ 他のどのプロバイダーよりも多くのリージョンを備える持続可能で信頼できるクラウド インフラストラクチャについての詳細情報 クラウドの経済性 Azure の財務上および技術的に重要なガイダンスを利用して、クラウドのビジネス ケースを作成する 顧客イネーブルメント 実績のあるツール、ガイダンス、リソースを使用して、クラウド移行の明確なパスを計画する お客様事例 成功を収めたあらゆる規模と業界の企業によるイノベーションの例を参照する

  • Azure Purview : 概要とセットアップ - Qiita

    この記事は、先日発表された Azure Purview について、概要とセットアップを紹介します。 Azure Purview とは 仕事でデータにアクセスする際、以外と多くの課題があります。例えば: どこにデータソースがあるか、そもそも分からない データソースは見つけたがアクセス権がなく、また依頼先が分からない それっぽいファイル/データベース名は見つけたが、中身は開くまで分からない データカタログが複数あり、検索が面倒 またデータの管理者としても、多くの課題があります。例えば: 組織内のデータソースを把握しきれない データソースに個人情報が含まれるかは、開かないと分からない 管理者が分からないデータソースがある データの出所や、利用先が分からない Azure Purview はこれらの課題を解決するマネージドソリューションであり、データソースをカタログ化するサービスです。多くのデータソ

    Azure Purview : 概要とセットアップ - Qiita
  • Azure Purview を触ってみる at SE の雑記

    データと分析によって未来を形作る で発表された Azure Purview (Preview) を触れていなかったので、軽くですが使ってみました。 Azure Purview を活用することで、企業が保有しているデータを自動的に検出 / 分類 / データ系列の付与を行うことができ、企業が保有しているデータ項目の管理と検索性の向上をすることができるようになります。 2021/1 時点では、データソースは Azure 上のデータサービスと Power BI を設定することができ、それ以外のデータサービスに格納されているデータをデータ資産 (アセット) として登録することはできません。 (Azure Data Factory や、Power BI のデータセットとして、上記以外をデータソースとして使用している場合、系列として、データの取り込みのフローを確認することはできます) Purview に

  • Azure SQL Data Warehouse is now Azure Synapse Analytics - Azure のブログ - Microsoft Azure

    Azure を探索 Azure について 安全かつ将来を見据えた、オンプレミス、ハイブリッド、マルチクラウド、エッジのクラウド ソリューションについて調べる グローバル インフラストラクチャ 他のどのプロバイダーよりも多くのリージョンを備える持続可能で信頼できるクラウド インフラストラクチャについての詳細情報 クラウドの経済性 Azure の財務上および技術的に重要なガイダンスを利用して、クラウドのビジネス ケースを作成する 顧客イネーブルメント 実績のあるツール、ガイダンス、リソースを使用して、クラウド移行の明確なパスを計画する お客様事例 成功を収めたあらゆる規模と業界の企業によるイノベーションの例を参照する

    Azure SQL Data Warehouse is now Azure Synapse Analytics - Azure のブログ - Microsoft Azure
  • Data lake zones and containers - Cloud Adoption Framework

  • データマートとは?(データウェアハウスとの違い)

    データマートの3つのタイプデータマートには、従属型、独立型、ハイブリッド型の3種類があります。これらのタイプは、データウェアハウスとの関係や、システムの作成に使用されるデータソースに基づいて分類されます。 1. 従属型データマート従属型データマートは、既存のエンタープライズデータウェアハウスから作成されます。これは、すべてのビジネスデータを中央に一元化して格納したうえで、分析の必要に応じて明確に定義された一部のデータを抽出するというトップダウンのアプローチです。 データウェアハウスからデータマートを作成するには、ウェアハウスから特定のデータセットを集約(クラスター化)して再構成し、データマートにロードしてクエリを実行可能にします。これは、データウェアハウスの論理ビューまたは物理サブセットとなります。 論理ビュー - 物理データベーススキーマの一部ではない仮想テーブル。物理サブセット - デ

    データマートとは?(データウェアハウスとの違い)
  • データマート - Wikipedia

    この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方) 出典検索?: "データマート" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL(2016年2月) データマート (Data Mart) は、データウェアハウスの中から特定の目的に合わせた部分を取り出したもの。通常は利用部門が利用目的に合ったデータのみを所持するものである。 利点[編集] 利用部門ごとに使用するデータや分析内容が異なることが多いため、その利用部門が必要とするデータのみをデータウェアハウスから抽出したり、その利用部門が必要とする分析データをあらかじめ集計することにより、分析レスポンスを向上できる。これは、データ容量が小さくなることやリクエストの

  • データベース アーキテクチャの設計 - Azure Reference Architectures

    この記事では、Azure アーキテクチャ センターで説明した Azure データベース ソリューションの概要を示します。 Apache®、Apache Cassandra®、および Hadoop のロゴは、Apache Software Foundation の米国およびその他の国における登録商標です。 これらのマークを使用することが、Apache Software Foundation による保証を意味するものではありません。 Azure Databaseソリューションには、従来のリレーショナルデータベース管理システム(RDBMSとOLTP)、ビッグデータおよび分析ワークロード(OLAP を含む)、NoSQLワークロードが含まれます。 RDBMS のワークロードには、オンライン トランザクション処理 (OLTP) とオンライン分析処理 (OLAP) が含まれます。 組織内の複数のソースか

    データベース アーキテクチャの設計 - Azure Reference Architectures
  • Amazon Athenaの新しいフェデレーテッド・クエリによる複数データソースの検索 | Amazon Web Services

    Amazon Web Services ブログ Amazon Athenaの新しいフェデレーテッド・クエリによる複数データソースの検索 現在、企業は構築するアプリケーションに最適にフィットした複数のデータストアを利用しています。例えば、ソーシャルネットワークアプリケーションを構築するような場合は、リレーショナルデータベースよりは Amazon Neptune のようなグラフデータベースの方が多くのケースで最適です。同様に頻繁な反復処理(fast iterations)のために柔軟なスキーマが求められるワークロードには、 Amazon DocumentDB (with MongoDB compatibility) がより適しているでしょう。Amazon.com のCTO/VPである Werner Vogels が述べているように、「複数の明確に異なる要件を満たすことが出来る単一のデータベース

    Amazon Athenaの新しいフェデレーテッド・クエリによる複数データソースの検索 | Amazon Web Services
  • Hadoop+Hive検証環境を構築してみる

    Hadoop+Hive検証環境を構築してみる:Hive――RDB使いのためのHadoopガイド(前編)(1/3 ページ) Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。稿ではこのHiveの使い方とレビューを行っていきます。

    Hadoop+Hive検証環境を構築してみる
  • 複雑なデータをシンプルに - プログレス MarkLogic

    Digital ExperienceReal solutions for your organization and end users built with best of breed offerings, configured to be flexible and scalable with you. Infrastructure ManagementProgress infrastructure management products speed the time and reduce the effort required to manage your network, applications and underlying infrastructure. Federal SolutionsSoftware products and services for federal gov

    複雑なデータをシンプルに - プログレス MarkLogic
  • DWHアプライアンスの実力

    出典:日経SYSTEMS 2011年9月号 pp.60-65 (記事は執筆時の情報に基づいており、現在では異なる場合があります) DWHアプライアンスの導入が相次いでいる。製品ラインナップが充実し、選択肢が増えたことが導入を後押ししている。ユーザー事例を基に、その実力を検証した。 DWH(データウエアハウス)を構築・刷新する際に、アプライアンス製品を導入するケースが増えている。京王百貨店、楽天証券、オリンパス、モスフードサービス、化学品専門商社の長瀬産業など、DWHアプライアンスを導入したユーザー企業は数多い。 ここでいうDWHアプライアンスとは、DWH用DBMS(Database Management System)と、ストレージを含む専用ハードを組み合わせたもの(IAサーバー機など汎用ハードを用いたDWHアプライアンス製品もあるが、記事では取り上げない)。代表的な製品としては、米He

    DWHアプライアンスの実力
  • ParAccel - Wikipedia

  • 大規模ログ分析におけるAmazon Web Servicesの活用

    第27回TokyoWebmining 講演資料 http://tokyowebmining27.eventbrite.com/ バンダイナムコスタジオのログ集計・分析基盤”Greco”では、Amazon RDSとEMR、そして最近では様々なデータウェアハウスを検証した上でRedshiftを活用しています。OLTPとOLAP、双方のニーズに応えるためにどんなシステム構成を取っているか、また分析に耐えうる正確なログ出力のためにどんな工夫が必要か、の2点を重点的にお伝えします。 Read less

    大規模ログ分析におけるAmazon Web Servicesの活用
  • マテリアライズドビュー - Wikipedia

    データベース管理システムは関係モデルに従うため、ビュー は仮想的な テーブル であり、データベースに対するクエリの結果を表す。ビューを参照または更新すると、その処理はビューの対象となった実際のテーブルへの参照または更新へ変換され、実行される。 マテリアライズドビュー (Materialized View; 体現ビューともいう)はこれとは異なるアプローチを取り、クエリの結果を実際のテーブルにキャッシュする。キャッシュされたデータは元のテーブルが変更されるたびに更新される。そのため、最新でない状態を取得する可能性はあるが、効率的なアクセスが可能になる。特にデータウェアハウスでは実際のテーブルに対して頻繁にクエリを実行することは非常にコストが高いため、マテリアライズドビューが有効である。 さらに、マテリアライズドビューは実際のテーブルとして実体化されるため、実際のテーブルに対して適用可能な操作は