タグ

統計とデータ分析に関するmisshikiのブックマーク (35)

  • ベイジアン操作変数法でA/Bテストをしよう - Sansan Tech Blog

    こんにちは。4月に24新卒として入社しました、技術部 研究開発部の金髙です。大学院では政治学の研究をしていました。 記事では、筆者が2024年2月から約1カ月間の内定者インターン時代に取り組んだ内容の一部である「ベイジアン操作変数法を用いたA/Bテスト」について紹介します。 背景 なぜA/Bテストで操作変数法なのか? Encouragement design One-sided Noncompliance なぜA/Bテストでベイズなのか? ベイジアン操作変数法 データ生成過程 事後分布 LATEの事後分布推定 シミュレーションしてみる おわりに References 背景 筆者が現在所属している研究開発部のチームでは、データドリブンな意思決定やデータ活用促進を目標に掲げています。その一環として、A/Bテストを積極的に行っており、筆者は中でも「Sansanモバイルアプリ内訴求」に関するA

    ベイジアン操作変数法でA/Bテストをしよう - Sansan Tech Blog
  • 神戸市さん、データ利活用しすぎ……またまたやってくれました! 無料で誰でも使える「統計ダッシュボード」拡充。新たに「日本の地域別将来推計人口」と「住民基本台帳人口移動報告」を公開【地図と位置情報】

    神戸市さん、データ利活用しすぎ……またまたやってくれました! 無料で誰でも使える「統計ダッシュボード」拡充。新たに「日本の地域別将来推計人口」と「住民基本台帳人口移動報告」を公開【地図と位置情報】
  • やさしいデータ分析【確率分布編】 新連載開始!

    この連載は、データをさまざまな角度から分析し、その背後にある有益な情報を取り出す方法を学ぶ『社会人1年生から学ぶ、やさしいデータ分析』連載(記述統計と回帰分析編)の続編で、確率分布に焦点を当てています。 この確率分布編では、推測統計の基礎となるさまざまな確率分布の特徴や応用例を説明します。身近に使える表計算ソフト(Microsoft ExcelGoogleスプレッドシート)を使いながら具体的に事例を見ていきます。 必要に応じて、Pythonのプログラムや統計ソフト「R」などでの作成例にも触れることにします。 数学などの前提知識は特に問いません。中学・高校の教科書レベルの数式が登場するかもしれませんが、必要に応じて説明を付け加えるのでご心配なく。肩の力を抜いてぜひとも気楽に読み進めてください。 筆者紹介: IT系ライターの傍ら、非常勤講師として東大で情報・プログラミング関連の授業を、一橋大

    やさしいデータ分析【確率分布編】 新連載開始!
    misshiki
    misshiki 2024/05/09
    “推測統計の基礎となる確率分布の意味や種類、特徴を解説。離散型分布と連続型分布の違いや種類、確率分布を表す確率質量関数/確率密度関数と累積分布関数の意味や特徴などを見ながら連載の全体像を紹介します。”
  • Python Dashによりデータ分析結果の共有を効率化する取り組み - ZOZO TECH BLOG

    はじめに こんにちは、検索基盤部の伊澤です。検索基盤部では普段から、ZOZOTOWNの検索機能に関するデータ分析や、データ分析を踏まえた検索性能の改善に取り組んでいます。 検索に関するデータ分析では、検索クエリの傾向把握や課題のあるクエリの特定のために、検索クエリごとの検索結果のクリック率やコンバージョン率といったパフォーマンス指標を評価しています。 記事では、検索クエリごとのデータ分析に関する情報共有を効率化するため、ウェブフレームワークの「Dash」で開発したダッシュボードを活用した事例を紹介します。 目次 はじめに 目次 検索クエリごとのデータ分析の重要性 分析結果のチーム内共有時の課題 Dashを用いたダッシュボードの開発 Dashとは Dashを選定した理由 検索クエリごとのパフォーマンス指標のダッシュボード 1. 検索クエリごとのパフォーマンス指標のテーブル 2. 検索クエリ

    Python Dashによりデータ分析結果の共有を効率化する取り組み - ZOZO TECH BLOG
    misshiki
    misshiki 2024/05/07
    “検索クエリごとのデータ分析に関する情報共有を効率化するため、ウェブフレームワークの「Dash」で開発したダッシュボードを活用した事例を紹介します。”
  • ABテストにおける分散削減手法①〜少ないサンプルから小さな改善効果を検出する〜|あならいずパンダ

    マネーフォワード 分析推進部の石田と申します。 社内では、データサイエンティストとして施策効果検証系の案件を中心に担当しています。 稿から2回に渡って、「ABテストにおける分散削減手法」というテーマで記事を執筆したいと思います。 馴染みのない方もいらっしゃるかもしれませんが、ABテストへ分散削減手法を適用することで、例えば以下に挙げたメリットを享受することができます。 必要サンプルサイズを低減できるため、意思決定サイクルを高速化できる より小さな改善効果を検出できる 魅力的だと感じていただけた方は、ぜひ最後まで稿をお読みください! 目次 想定する読者層と書いてある内容稿のメインターゲットは、以下のような方です。 統計的仮説検定の理論を少し勉強したことがあるけど、分散削減と言われてもあまりピンと来ていない 確率変数、標平均、分散、正規分布の意味は分かるけど、t検定の検定統計量がパッと

    ABテストにおける分散削減手法①〜少ないサンプルから小さな改善効果を検出する〜|あならいずパンダ
    misshiki
    misshiki 2024/04/01
    “ABテストへ分散削減手法を適用することで、例えば以下に挙げたメリットを享受することができます。必要サンプルサイズを低減できるため、意思決定サイクルを高速化できるより小さな改善効果を検出できる”
  • 社会人1年生から学ぶ、やさしいデータ分析

    この連載では、データをさまざまな角度から分析し、その背後にある有益な情報を取り出す方法を学びます。 データの収集方法、データの取り扱い、分析の手法などについての考え方を具体例で説明するとともに、身近に使える表計算ソフト(ExcelGoogleスプレッドシート)を利用した作成例を紹介します。 必要に応じて、Pythonのプログラムや統計ソフトRなどでの作成例にも触れることにします。 数学などの前提知識は特に問いません。肩の力を抜いてぜひとも気楽に読み進めてください。 第1回 高校生に負けない! 社会人が学ぶべき、やさしいデータ分析2023/04/20) もはや中学・高校生も学んでいるデータ分析&データサイエンス データ分析/データサイエンスが重要視されるのはなぜ? この連載で取り扱う内容 第2回 データ分析の進め方と、分析前に知っておきたいデータの種類(2023/05/11) データ分析

    社会人1年生から学ぶ、やさしいデータ分析
    misshiki
    misshiki 2024/03/28
    記述統計編と回帰分析編の連載が完結。全17本の記事。次の連載は確率分布編と推測統計編。
  • セル結合を回避しながら表の見た目も確保するなど、「構造化Excelテク」12本まとめ

    Microsoft Excel(エクセル)」で表を作成する際、ついつい見栄えを優先して、セルを結合したり、セル内に単位などを直接入力したりしていないだろうか。単に閲覧するだけの「表」を作るなら、問題ないだろう。しかし、データとして活用する場合には、機械処理する際の障害となるなど不都合な点もある。 総務省統計局が公開した各府省が政府統計の総合窓口(e-Stat)に掲載する統計表の表記方法の統一ルール「統計表における機械判読可能なデータの表記方法の統一ルールの策定」では、こうした機械処理に向かないExcelの表を作成しないことを推奨しており、ガイドラインを示している。 この統一ルールは来、e-Statで統計表を公開する各府省向けのものだ。しかし、一般企業などにおいても参考にすべき点が多い。そこで、Tech TIPSの中で「構造化Excelテク」として、この統一ルールの中から幾つかのルールを

    セル結合を回避しながら表の見た目も確保するなど、「構造化Excelテク」12本まとめ
    misshiki
    misshiki 2024/03/27
    “e-Stat掲載の統計表の表記方法の統一ルールは一般企業でも参考にすべき点が多い。幾つかのルールを紹介し、どのように作表すべきなのか、また既に作られたものを機械処理に向いた表に変換する方法を紹介。”
  • [データ分析]重回帰分析による予測(線形回帰、多項式回帰) ~ 年式、走行距離、排気量から中古車の価格を予測

    筆者紹介: IT系ライターの傍ら、非常勤講師として東大で情報・プログラミング関連の授業を、一橋大でAI関連の授業を担当。書道、絵画を経て、ピアノとバイオリンを独学で始めるも学習曲線は常に平坦。趣味の献血は、最近脈拍が多く99回で一旦中断。さらにリターンライダーを目指し、大型二輪免許を取得。1年かけてコツコツと貯金し、ようやくバイクを購入(またもや金欠)。 前回は単回帰分析により、説明変数xの値から目的変数yの値を予測するための回帰式を求めたり、回帰式を基に予測を行ったりしました。 今回は、説明変数が複数ある場合の重回帰分析に取り組みます。図1の例であれば、年式が説明変数x1、走行距離が説明変数x2、排気量が説明変数x3となり、体価格が目的変数yとなります。図1のデータでは実際のメーカーや車種の名称が使われていますが、体価格などの値は架空のものです。 図1 重回帰分析を利用して中古車の価

    [データ分析]重回帰分析による予測(線形回帰、多項式回帰) ~ 年式、走行距離、排気量から中古車の価格を予測
    misshiki
    misshiki 2024/02/22
    いよいよこの連載の山場の重回帰分析の説明。カテゴリ変数の数値化や多重共線性にも触れている。
  • 第371話|機械学習における多変量代入法:欠損データの克服

    機械学習は、データから学ぶ技術です。しかし、実際のデータは完璧ではありません。特に、データセットにおける欠損データの問題は、機械学習プロジェクトにおいて避けられない課題です。欠損データをどのように扱うかは、モデルの性能に大きな影響を与えます。 伝統的に、欠損データを扱う一般的な方法は「一変量代入法」です。この方法は、欠損値をその変数の平均値や中央値で置き換えるなど、単純明快であり、実装が容易です。しかし、これは各変数を独立して扱うため、変数間の関係を無視してしまうという欠点があります。 ここで、より洗練されたアプローチとして「多変量代入法」が登場します。 この方法は、欠損データのある変数と他の変数との関係を考慮に入れ、欠損値をより正確に推定しようと試みます。多変量代入法は、変数間の相関関係を利用して、欠損データを推測することにより、よりリアルなデータセットを作成することを目指しています。

    第371話|機械学習における多変量代入法:欠損データの克服
    misshiki
    misshiki 2024/01/15
    欠損値を埋める方法として、平均値などの代入ではなく、変数間の関係も考慮してより正確な代入値を推定する方法を説明。主な手法として、回帰分析、K-NN 、MICE (Multiple Imputation by Chained Equations)など。
  • [NumPy超入門]Pythonで単回帰分析:手作業で計算してみよう

    連載概要 連載はPythonについての知識を既にある程度は身に付けている方を対象として、Pythonでデータ処理を行う上で必須ともいえるNumPyやpandas、Matplotlibなどの各種ライブラリの基的な使い方を学んでいくものです。そして、それらの使い方をある程度覚えた上で、それらを活用してデータ処理を行うための第一歩を踏み出すことを目的としています。 前回はCalifornia Housingデータセット(カリフォルニアの住宅価格のデータセット)を基に相関係数を計算してヒートマップを作成したり、'MedInc'列(地域の所得を表すデータ)と'MedHouseVal'列(地域の住宅価格を表すデータ)を軸に散布図を作成したりして、これら2つのデータにはある程度の相関があるのではないかという話をしました。 今回は'MedInc'列と'MedHouseVal'列との関係を数式として表現

    [NumPy超入門]Pythonで単回帰分析:手作業で計算してみよう
    misshiki
    misshiki 2024/01/12
    “PythonとNumPyを使って手作業で、回帰分析のモデルを表す回帰式を求め、その決定係数を計算。回帰分析が初めての方でもステップバイステップで計算内容が理解できます。同計算を手軽に行えるNumPyのpolyfit関数も解説。”
  • [データ分析]相関係数 ~ 気温と電気代に関係はあるのか?

    この連載では、データをさまざまな角度から分析し、その背後にある有益な情報を取り出す方法を学びます。 データの収集方法、データの取り扱い、分析の手法などについての考え方を具体例で説明するとともに、身近に使える表計算ソフト(ExcelGoogleスプレッドシート)を利用した作成例を紹介します。 必要に応じて、Pythonのプログラムや統計ソフトRなどでの作成例にも触れることにします。 数学などの前提知識は特に問いません。肩の力を抜いてぜひとも気楽に読み進めてください。 筆者紹介: IT系ライターの傍ら、非常勤講師として東大で情報・プログラミング関連の授業を、一橋大でAI関連の授業を担当。書道、絵画を経て、ピアノとバイオリンを独学で始めるも学習曲線は常に平坦。趣味の献血は、最近脈拍が多く99回で一旦中断。さらにリターンライダーを目指し、大型二輪免許を取得。1年かけてコツコツと貯金し、ようやくバ

    [データ分析]相関係数 ~ 気温と電気代に関係はあるのか?
    misshiki
    misshiki 2024/01/11
    “変数同士の関係の強さを表す相関係数の計算内容を仕組みから理解します。Excelを使って手を動かしながら、相関係数の意味や求め方、落とし穴などについて学んでいきましょう。”
  • トレードの評価指標のKPI設定(平均利益と平均損失の大きさが同じ場合) - Qiita

    ※この記事の文章は、元々自分用に書いていたメモになります。変な箇所などあればご指摘ください。 はじめに 『データ駆動型ファイナンス』というを読んでいたところ、下の画像のような計算を見つけました。 確率統計をあまりやったことがなくて、調べながらで自分も自信はないんですが…笑 『データ駆動型ファイナンス』の中で正解率(勝率)pからシャープレシオSを計算する例が載ってまして、自分はそちらから期待値や分散を求めていました。この分散から上側5%なども考えられないかなと。 pic.twitter.com/EaU2aog692 — サンセット (@Sunset_Yuhi) October 22, 2023 要するに、「勝率$p$で(平均)利益$r$を得て、敗率$(1-p)$で(平均)損失$-r$を被る戦略」があった時、「その戦略のシャープレシオ$S$は、勝率$p$と取引回数$N$の関数で表せる」という

    トレードの評価指標のKPI設定(平均利益と平均損失の大きさが同じ場合) - Qiita
    misshiki
    misshiki 2023/12/29
    “「トレードの評価指標はどのくらいの値が出ていれば良いか」を把握することは重要に思ったので、期待利得やプロフィットファクターなどの式から「勝率の目標値(KPI)の設定方法」などを検討してみました。”
  • 【Python】噂の”LightweightMMM”を使ってみた

    この記事は GMOアドマーケティング Advent Calendar 2023 21日目の記事です. はじめに こんにちは.GMOアドパートナーズにてインターンシップとして参加させていただいております,kantayamaです.現在は修士課程2年で,確率ニューラルネットモデルに関する理論研究をしています. インターンシップをしていく中で,マーケティング・ミックス・モデリング(MMM)に興味を持ち,まずは実装してみようということで,Googleが公開しているMMMライブラリ「LightweightMMM」を触ってみました.実際に実務で活用するにはより厳密な解析が必要になるかと思いますが,とりあえずMMMの全体像を掴みたいなと思い実装してみたので今回紹介させていただきます. マーケティング・ミックス・モデリング(MMM)とは 概要 MMMとは,メディア運営や広告掲載など,個々のマーケティング施策

    【Python】噂の”LightweightMMM”を使ってみた
    misshiki
    misshiki 2023/12/22
    “Googleが公開しているMMMライブラリ「LightweightMMM」を触ってみました.実際に実務で活用するにはより厳密な解析が必要になるかと思いますが,とりあえずMMMの全体像を掴みたいなと思い実装してみたので今回紹介”
  • 移動平均(Moving Average)とは? SMA/WMA/EMAの違い

    移動平均(Moving Average)とは? SMA/WMA/EMAの違い:AI機械学習の用語辞典 用語「移動平均」について説明。時系列データ(例: 株価)を平滑化すること、具体的には一定期間(例:5日間)の平均値を計算することをデータポイントごとに繰り返し、計算後の一連の平均値を線でつなぐこと(移動平均線)。データの長期的な傾向や短期的な動きを把握するのに役立つ。 連載目次 用語解説 金融分野や数学/統計学/機械学習における移動平均(Moving Average)とは、時系列データ(例えば毎日の株価データ)の変動を平滑化(=なだらかに)することで、データの傾向や動きを見やすくする方法である。 具体的には、計算対象となる1つのデータポイント(例:ある1日の株価)に対して「特定の期間分のデータポイント(例:過去5日間分の株価)の平均値」を計算する。そして、次のデータポイント(例:次の日)

    移動平均(Moving Average)とは? SMA/WMA/EMAの違い
    misshiki
    misshiki 2023/12/21
    移動平均(SMA:単純移動平均/WMA:加重移動平均/EMA:指数移動平均)の違いと使い分け。
  • 「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ

    今回の記事では、ちょっと感覚的でふわっとした話をしようと思います。それは「『仮説ドリブン』という考え方には往々にして落とし穴があるのではないか?」という問題提起です。 そもそも、「仮説ドリブン」(仮説駆動型:hypothesis-driven)というアプローチは実験科学分野出身の我が身にとっては、個人的には馴染み深いものです。まだ僕がポスドクだった頃、国際会議に際して日人研究者同士で集まる会が毎回あったのですが、その席上でお話を聞く機会があった当時のトップ研究者の先生から「この世の森羅万象は網羅しようとするにはあまりにも広大過ぎる、故に森羅万象を区切って『仮説で白黒つけられる範囲』に絞り、これを検証するということを繰り返して前に進むべき」ということを聞かされ、感銘を受けたのを覚えています。 実際、仮説ドリブンの考え方は非常に有用なものであり、今現在僕自身が主戦場とする広告・マーケティング

    「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ
    misshiki
    misshiki 2023/12/21
    “要は「仮説を証明さえ出来ればOK...」という安易な姿勢が、無意識のうちに「自説に都合の良い少量のサンプルだけ集めれば良い」という近視眼的なアプローチに繋がってしまったということですね。”
  • PyMC-MarketingによるBayesian Marketing Mix Modeling - Qiita

    この記事は確率的プログラミング言語 Advent Calendar 202317日目の記事です。 ゼミで勉強したStanとRでベイズ統計モデリング(通称:アヒル)著者である @hankagosa 氏の開催するアドベントカレンダーに参加でき嬉しく思います。このような機会を用意していただきありがとうございます。 それでは題に入ります。 はじめに 2023/4/6にPyMC-Marketingが発表されました。PyMCの派生ライブラリでマーケティング領域に特化しています。 PyMC Labs is excited to announce the initial release of PyMC-Marketing. Unlock the power of marketing analytics with PyMC-Marketing – the open source solution for

    PyMC-MarketingによるBayesian Marketing Mix Modeling - Qiita
    misshiki
    misshiki 2023/12/18
    “Marketing Mix Modeling(MMM)は、マーケティング戦略の効果を評価し、最適化するための統計的アプローチ。企業が製品やサービスを市場に導入する際に、どのような要因がその成功に影響を与えるかを理解するのに役立つ”
  • トリム平均(Trimmed Mean)とは?

    図1のトリム平均の例では、最高点80と最低点20をトリムした後のデータで、算術平均を計算している。この例では各1個という「個数」で除外したが、データが多い場合は、5~25%の「割合」で除外することが一般的だ。適切なトリム平均の個数や割合は、散布図や箱ひげ図を参考に決めるとよい。 用途 トリム平均は、極端な値や外れ値の影響を軽減するために用いられる。例えばオリンピック競技のフィギュアスケートの採点では、最高点と最低点を除外することで、審査員による極端な得点の影響を抑える。また、大きな購入データを外して平均購入額を算出したり、富裕層を除いて平均資産を計算したりする場合にも役立つだろう。 外れ値を含むデータセットでは、算術平均よりもトリム平均の方がデータの中心傾向をより正確に反映することがある。

    トリム平均(Trimmed Mean)とは?
    misshiki
    misshiki 2023/12/11
    “昇順または降順に並べたデータの上位と下位から一定の個数または割合で値を除外(トリム)し、残ったデータで平均を求めること。特に外れ値を含むデータセットで統計的にデータを解釈する際に役立つ。”
  • [データ分析]クロス集計表やヒートマップで「分布」を多角的に可視化 ~ 項目同士の関連を見つける

    この連載では、データをさまざまな角度から分析し、その背後にある有益な情報を取り出す方法を学びます。 データの収集方法、データの取り扱い、分析の手法などについての考え方を具体例で説明するとともに、身近に使える表計算ソフト(ExcelGoogleスプレッドシート)を利用した作成例を紹介します。 必要に応じて、Pythonのプログラムや統計ソフトRなどでの作成例にも触れることにします。 数学などの前提知識は特に問いません。肩の力を抜いてぜひとも気楽に読み進めてください。 筆者紹介: IT系ライターの傍ら、非常勤講師として東大で情報・プログラミング関連の授業を、一橋大でAI関連の授業を担当。書道、絵画を経て、ピアノとバイオリンを独学で始めるも学習曲線は常に平坦。趣味の献血は、最近脈拍が多く99回で一旦中断。さらにリターンライダーを目指し、大型二輪免許を取得。1年かけてコツコツと貯金し、ようやくバ

    [データ分析]クロス集計表やヒートマップで「分布」を多角的に可視化 ~ 項目同士の関連を見つける
    misshiki
    misshiki 2023/11/16
    “グラフを利用して分布や項目同士の関係を多角的に可視化します。ピボットテーブルの詳細な取り扱いとヒートマップによる視覚的な分析について、ケーススタディを通して学びましょう。”
  • 幾何平均とは? 算術平均との違い、使い分け

    最も一般的に使われる「平均」とは、全ての数値を足して合計し、それを数値の総数で割ることである。これは、数学/統計学/機械学習において「算術平均」と呼ばれる。平均には他にも、「加重平均」や「幾何平均」「調和平均」「トリム平均」「移動平均」などがある。稿ではこれらのうち幾何平均について解説する。なお算術平均については、「平均値(Mean)/中央値(Median)/最頻値(Mode)とは?」で説明しているので併せて参照してほしい。 数学/統計学/機械学習における幾何平均(Geometric Mean)とは、n個あるデータの各数値を全て掛け合わせた積(総乗値)のn乗根*1を取ることである。幾何平均は相乗平均とも呼ばれる。 *1 nはデータの数であり、n=2(つまり√)のときは「平方根」、n=3(つまり3√)のときは「立方根」、n=4(つまり4√)のときは「4乗根」、それ以降も「5乗根」「6乗根」

    幾何平均とは? 算術平均との違い、使い分け
    misshiki
    misshiki 2023/11/01
    “データの各数値を掛け合わせた積のn乗根(nはデータ数)を取った値を表す。時間に応じて変化する変化率/比率/倍率のデータ(=乗算後に累積される乗法的なデータ)を平均する場合に適した平均の計算方法だ。”
  • [データ分析]ヒストグラムや箱ひげ図で「分布」を可視化 ~ 集団の特徴や外れ値を見つける

    この連載では、データをさまざまな角度から分析し、その背後にある有益な情報を取り出す方法を学びます。 データの収集方法、データの取り扱い、分析の手法などについての考え方を具体例で説明するとともに、身近に使える表計算ソフト(ExcelGoogleスプレッドシート)を利用した作成例を紹介します。 必要に応じて、Pythonのプログラムや統計ソフトRなどでの作成例にも触れることにします。 数学などの前提知識は特に問いません。肩の力を抜いてぜひとも気楽に読み進めてください。 筆者紹介: IT系ライターの傍ら、非常勤講師として東大で情報・プログラミング関連の授業を、一橋大でAI関連の授業を担当。書道、絵画を経て、ピアノとバイオリンを独学で始めるも学習曲線は常に平坦。趣味の献血は、最近脈拍が多く99回で一旦中断。さらにリターンライダーを目指し、大型二輪免許を取得。1年かけてコツコツと貯金し、ようやくバ

    [データ分析]ヒストグラムや箱ひげ図で「分布」を可視化 ~ 集団の特徴や外れ値を見つける
    misshiki
    misshiki 2023/10/26
    “グラフを使って集団の特徴や外れ値を可視化します。ヒストグラムや箱ひげ図の作成方法と、ピボットテーブル/ピボットグラフによる視覚的な分析のコツを、ケーススタディを通して学びましょう。”