タグ

統計とPythonに関するmisshikiのブックマーク (40)

  • Python Dashによりデータ分析結果の共有を効率化する取り組み - ZOZO TECH BLOG

    はじめに こんにちは、検索基盤部の伊澤です。検索基盤部では普段から、ZOZOTOWNの検索機能に関するデータ分析や、データ分析を踏まえた検索性能の改善に取り組んでいます。 検索に関するデータ分析では、検索クエリの傾向把握や課題のあるクエリの特定のために、検索クエリごとの検索結果のクリック率やコンバージョン率といったパフォーマンス指標を評価しています。 記事では、検索クエリごとのデータ分析に関する情報共有を効率化するため、ウェブフレームワークの「Dash」で開発したダッシュボードを活用した事例を紹介します。 目次 はじめに 目次 検索クエリごとのデータ分析の重要性 分析結果のチーム内共有時の課題 Dashを用いたダッシュボードの開発 Dashとは Dashを選定した理由 検索クエリごとのパフォーマンス指標のダッシュボード 1. 検索クエリごとのパフォーマンス指標のテーブル 2. 検索クエリ

    Python Dashによりデータ分析結果の共有を効率化する取り組み - ZOZO TECH BLOG
    misshiki
    misshiki 2024/05/07
    “検索クエリごとのデータ分析に関する情報共有を効率化するため、ウェブフレームワークの「Dash」で開発したダッシュボードを活用した事例を紹介します。”
  • 機械学習の基礎の基礎、最小二乗法を学ぶ

    機械学習の最も基礎的な手法が最小二乗法だ。この特集では、Pythonで最小二乗法のプログラムを実装することで、その仕組みを学んでいく。 出典:日経ソフトウエア、2024年1月号 pp.6-21 「今から始める機械学習入門 Part1 基礎となる『最小二乗法』をマスターする」を改題、編集 記事は執筆時の情報に基づいており、現在では異なる場合があります。

    機械学習の基礎の基礎、最小二乗法を学ぶ
    misshiki
    misshiki 2024/01/18
    “機械学習の最も基礎的な手法が最小二乗法だ。この特集では、Pythonで最小二乗法のプログラムを実装することで、その仕組みを学んでいく。”
  • [NumPy超入門]Pythonで単回帰分析:手作業で計算してみよう

    連載概要 連載はPythonについての知識を既にある程度は身に付けている方を対象として、Pythonでデータ処理を行う上で必須ともいえるNumPyやpandas、Matplotlibなどの各種ライブラリの基的な使い方を学んでいくものです。そして、それらの使い方をある程度覚えた上で、それらを活用してデータ処理を行うための第一歩を踏み出すことを目的としています。 前回はCalifornia Housingデータセット(カリフォルニアの住宅価格のデータセット)を基に相関係数を計算してヒートマップを作成したり、'MedInc'列(地域の所得を表すデータ)と'MedHouseVal'列(地域の住宅価格を表すデータ)を軸に散布図を作成したりして、これら2つのデータにはある程度の相関があるのではないかという話をしました。 今回は'MedInc'列と'MedHouseVal'列との関係を数式として表現

    [NumPy超入門]Pythonで単回帰分析:手作業で計算してみよう
    misshiki
    misshiki 2024/01/12
    “PythonとNumPyを使って手作業で、回帰分析のモデルを表す回帰式を求め、その決定係数を計算。回帰分析が初めての方でもステップバイステップで計算内容が理解できます。同計算を手軽に行えるNumPyのpolyfit関数も解説。”
  • 【Python】噂の”LightweightMMM”を使ってみた

    この記事は GMOアドマーケティング Advent Calendar 2023 21日目の記事です. はじめに こんにちは.GMOアドパートナーズにてインターンシップとして参加させていただいております,kantayamaです.現在は修士課程2年で,確率ニューラルネットモデルに関する理論研究をしています. インターンシップをしていく中で,マーケティング・ミックス・モデリング(MMM)に興味を持ち,まずは実装してみようということで,Googleが公開しているMMMライブラリ「LightweightMMM」を触ってみました.実際に実務で活用するにはより厳密な解析が必要になるかと思いますが,とりあえずMMMの全体像を掴みたいなと思い実装してみたので今回紹介させていただきます. マーケティング・ミックス・モデリング(MMM)とは 概要 MMMとは,メディア運営や広告掲載など,個々のマーケティング施策

    【Python】噂の”LightweightMMM”を使ってみた
    misshiki
    misshiki 2023/12/22
    “Googleが公開しているMMMライブラリ「LightweightMMM」を触ってみました.実際に実務で活用するにはより厳密な解析が必要になるかと思いますが,とりあえずMMMの全体像を掴みたいなと思い実装してみたので今回紹介”
  • PyMC-MarketingによるBayesian Marketing Mix Modeling - Qiita

    この記事は確率的プログラミング言語 Advent Calendar 202317日目の記事です。 ゼミで勉強したStanとRでベイズ統計モデリング(通称:アヒル)著者である @hankagosa 氏の開催するアドベントカレンダーに参加でき嬉しく思います。このような機会を用意していただきありがとうございます。 それでは題に入ります。 はじめに 2023/4/6にPyMC-Marketingが発表されました。PyMCの派生ライブラリでマーケティング領域に特化しています。 PyMC Labs is excited to announce the initial release of PyMC-Marketing. Unlock the power of marketing analytics with PyMC-Marketing – the open source solution for

    PyMC-MarketingによるBayesian Marketing Mix Modeling - Qiita
    misshiki
    misshiki 2023/12/18
    “Marketing Mix Modeling(MMM)は、マーケティング戦略の効果を評価し、最適化するための統計的アプローチ。企業が製品やサービスを市場に導入する際に、どのような要因がその成功に影響を与えるかを理解するのに役立つ”
  • Pythonの機械学習ライブラリ(pandas)を使って、回帰アルゴリズムで不動産価格を予測しよう

    Pythonでの機械学習を学ぶ入門書『実務で役立つPython機械学習入門』(翔泳社)が発売中です。書では実際にありうるビジネス課題を想定し、機械学習によるデータ分析を用いて解決する手順を解説しています。今回は書から、回帰アルゴリズムを利用して不動産価格を予測する方法を紹介します。 記事は『実務で役立つPython機械学習入門 課題解決のためのデータ分析の基礎』(池田雄太郎、田尻俊宗、新保雄大)の「2-2 回帰アルゴリズム:不動産価格を予測しよう」から抜粋したものです。掲載にあたって編集しています。 また、記事内ではPythonとpandasを利用します。 回帰アルゴリズム:不動産価格を予測しよう あなたは、とある不動産会社に勤務しています。あなたの会社は数百の不動産を保有し、賃貸物件を顧客に貸し出しています。ある日、あなたの上司から、「物件の賃貸価格決定を自動化したい」と要望を受け

    Pythonの機械学習ライブラリ(pandas)を使って、回帰アルゴリズムで不動産価格を予測しよう
    misshiki
    misshiki 2023/11/27
    “回帰アルゴリズムを利用して不動産価格を予測する方法を紹介”
  • 【気象データ】「〇〇年に一度の大雨」の算出 (確率降水量の算出)【統計解析】 - LabCode

    気象庁は観測結果をもとに、各地点について「〇〇年に一度の降水量」を算出し、発表しています。 ある期間内に1回起こると考えられる降水量のことを確率降水量といいます。気象庁の解説ページでは、確率降水量の推定方法が解説されていますので、これに基づいて「〇〇年に一度の大雨」の値を計算してみたいと思います。 大まかには次のような流れになっています。 年最大日降水量のヒストグラムを作成する 分布関数を当てはめる 分布関数の当てはまり具合を確認する 当てはめた分布関数から確率降水量を算出する 今回は、上記3. をとばして、4.の「当てはめた分布関数から確率降水量を算出する」を実際にやってみましょう! 再現年と確率降水量 気象庁の解説ページにもあるように、再現年 $T$ は $$ T = \frac{1}{1 – F(x; \theta)} $$ で与えられます。ここで、$F(x; \theta)$ は確

    【気象データ】「〇〇年に一度の大雨」の算出 (確率降水量の算出)【統計解析】 - LabCode
    misshiki
    misshiki 2023/10/24
    “今回は、前回に引き続き、当てはめた分布関数から「〇〇年に一度の大雨」の値を算出してみたいと思います。”
  • 【気象データ】「〇〇年に一度の大雨」の算出 (分布関数の当てはめ編)【統計解析】 - LabCode

    はじめに ここ最近、大雨のニュースを見るたびに「〇〇年に一度の大雨」という表現を目にします。これは「千年に一人の美少女」や「百年に一度の逸材」といったレトリックではなく、データに基づいて統計的に算出された根拠のある数字です。 気象庁や自治体では観測結果をもとにこのような量を算出し、発表することで防災に役立てています。このシリーズでは、算出方法を確認し、Pythonを使って、実装・計算してみたいと思います。 なお、ここで紹介する手法は、実際に公的機関が発表しているものとは異なる場合が多分にありますので、十分にご注意ください。 今回は、前回に引き続き、分布関数をヒストグラムに当てはめる方法について紹介したいと思います。 「○○年に一度の大雨」の計算方法とは? 気象庁は観測結果をもとに、各地点について「〇〇年に一度の降水量」を算出し、発表しています。 ある期間内に1回起こると考えられる降水量のこ

    【気象データ】「〇〇年に一度の大雨」の算出 (分布関数の当てはめ編)【統計解析】 - LabCode
    misshiki
    misshiki 2023/10/20
    “気象庁の解説ページにあるように、当てはめに用いられる分布関数は次の5種類です。 グンベル分布/ 一般化極値 (GEV) 分布/ 平方根指数型最大値分布/ 対数ピアソンⅢ型分布/ 対数正規分布”
  • データ分析の基礎 - Qiita

    1. データ分析の概要と目的 データ分析とは、大量のデータから有用な情報や知識を抽出するプロセスです。 このプロセスには、データの収集、前処理、探索、モデリング、評価、そして最終的な知識の抽出が含まれます。 データ分析の主な目的は以下の通りです ビジネスの意思決定をサポートする 新しい市場の機会を発見する 顧客の行動や傾向を理解する 製品やサービスの改善 予測や予測モデリングを行う 2. Pythonにおけるデータ分析のライブラリの紹介 Pythonデータ分析のための多くのライブラリを持っています。 以下はその中でも特に人気のあるライブラリです Pandas: データの前処理や探索的データ分析に使用されるライブラリ NumPy: 数値計算を効率的に行うためのライブラリ Matplotlib & Seaborn: データの可視化に使用されるライブラリ Scikit-learn: 機械学習

    データ分析の基礎 - Qiita
    misshiki
    misshiki 2023/09/26
    “ Pythonにおけるデータ分析”
  • アンケート調査の偏ったデータをバランス調整するPythonモデル「balance」 米Metaが開発

    このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 米Metaに所属する研究者らが発表した論文「balance - a Python package for balancing biased data samples」は、参加者グループの範囲指定により発生する、アンケート調査の偏ったデータをバランス調整するオープンソースのPyPythonパッケージを提案した研究報告である。 アンケートは重要な研究ツールであり、他の手段では測定できない感情や意見などの主観的な経験に関するユニークな測定値を提供する。しかし、調査データは自ら選択した参加者グループから収集されるため、そこから対象集団への洞察を直接

    アンケート調査の偏ったデータをバランス調整するPythonモデル「balance」 米Metaが開発
    misshiki
    misshiki 2023/07/24
    “参加者グループの範囲指定により発生する、アンケート調査の偏ったデータをバランス調整するオープンソースのPyPythonパッケージ”
  • 統計学とPython: データの正規性検定と可視化 - Qiita

    記事では、データ分析において重要な役割を果たす正規性検定について説明し、Pythonを用いた具体的な実装方法を紹介します。具体的には、ヒストグラムとQ-Qプロットの作成、そして正規性検定(ダゴスティーノの歪度/尖度検定、オムニバス検定、コルモゴロフ=スミルノフ検定、シャピロ=ウィルク検定)を取り上げます。 ヒストグラムの描画 ヒストグラムは、データの分布を可視化するためのツールです。Pythonでは、matplotlibのhist関数を使って簡単に描画できます。 import matplotlib.pyplot as plt import numpy as np # データ生成 data = np.random.normal(0, 1, 1000) # ヒストグラムの描画 plt.hist(data, bins=30) plt.show() Q-Qプロットの描画 Q-Qプロットは、データ

    統計学とPython: データの正規性検定と可視化 - Qiita
    misshiki
    misshiki 2023/05/17
    “データ分析において重要な役割を果たす正規性検定について説明し、Pythonを用いた具体的な実装方法を紹介”
  • 因果推論100本ノック(1)因果効果とランダム割付

    はじめに 因果推論100ノック(自作)1目~10目の問題とPythonのサンプルコードです. 問題の不備や内容の誤り等ありましたら,ご指摘いただけますと幸いです. 設定 アナリストの分析レポートが営業の受注件数にどれくらい貢献しているかを分析するケースを考えます. 今回は,下記フォルダの「causal_knock1.csv」ファイルのデータを利用します. データのカラムの概要は下記の通りです. 変数名 データの概要 備考

    因果推論100本ノック(1)因果効果とランダム割付
    misshiki
    misshiki 2023/04/10
    “因果推論100本ノック(自作)1本目~10本目の問題とPythonのサンプルコード”
  • Pythonで統計・データ分析!~基本統計量の活用と機械学習の基本

    Pythonで統計・データ分析!~基統計量の活用と機械学習の基数学×Pythonプログラミング入門(1/5 ページ) データ分析において最もよく使われる表形式のデータを取り扱う方法を見ていく。まず、pandasデータフレームの基的な取り扱い方法を確認し、次に、各種の基統計量を求める。また、基統計量の可視化を行い、データの「見方」についても触れる。最後に、scikit-learnを使った回帰と分類の簡単な例を紹介する。

    Pythonで統計・データ分析!~基本統計量の活用と機械学習の基本
    misshiki
    misshiki 2023/01/23
    “pandasデータフレームの基本的な取り扱い方法を確認し、次に、各種の基本統計量を求める。また、基本統計量の可視化を行い、データの「見方」についても触れる。最後に、scikit-learnを使った回帰と分類の簡単な例を紹介
  • プロでもよくある線形回帰モデルの間違い - Qiita

    最近、データサイエンスが流行っていることもあり、線形回帰モデルについても解説記事を見かけることが多くなりました。情報にアクセスしやすくなったのはいいことだと思うんですが、ずっと以前から間違いや解説の不足が多い理論なので、私なりに解説を試みたいと思います。全体的にあまり厳密ではありませんが、線形回帰モデルを学びたての方には有益な記事になるかなと思います。 あと、私も勉強中の身なので、間違いがあったらご指摘いただけたら嬉しいです。 題 さて、よくある間違いとは以下のような解説です。 線形性の仮定が満たされていないので、線形回帰モデルを使ってはいけない 残差が正規分布&等分散ではないので、線形回帰モデルを使ってはいけない 回帰係数に対するt検定の結果をもとに、p値が大きい説明変数を除外する 多重共線性があるとよくないので、変数間で相関が強い、もしくはVIF値が大きい変数を除外する AICが小さ

    プロでもよくある線形回帰モデルの間違い - Qiita
    misshiki
    misshiki 2023/01/06
    “ずっと以前から間違いや解説の不足が多い理論なので、私なりに解説を試み”よくある間違い集。ブコメを読むと内容については気を付けた方がよさそう。
  • Pythonでちゃんと統計・確率の基礎をやってみた(確率編1/3) - Qiita

    はじめに 以下の書籍を参考にしながら,統計の基礎を学び直した軌跡,確率編1/3です. この記事は5部構成の2つ目になっています.以下も参照ください. 準備〜データ編・・・投稿済み 確率編1・・・この記事 確率編2・・・投稿済み 確率編3・・・まだ 推測編・・・まだ この記事を書いた動機,注意点,使用している技術,記事の構成,準備については準備〜データ編に掲載されています. これは主観でしかないのですが,エンジニアにも馴染みのある「データ」と比べて「確率」は扱われる機会が少なく,理解のハードルが高いかと思います.引き続き書籍を参考にしながら,理解を助けるために補足したり,独断で省略している部分もありますので,書籍に沿って進めたい方は書籍を購入ください! また,最初は「確率編」として3部構成を考えていたのですが,確率の基部分を厚くしたため,以下のように確率編を3つに分けることにしました. 確

    Pythonでちゃんと統計・確率の基礎をやってみた(確率編1/3) - Qiita
    misshiki
    misshiki 2022/08/19
    書籍『Pythonで理解する統計解析の基礎』を参考にした記事。“確率編の前半とします.今回は,推測統計と確率モデルの全体像,1次元と2次元の離散型確率変数について”
  • [確率思考の戦略論] 1.確率理論の導入とプレファレンスの数学的説明

    import numpy as np import scipy from scipy.stats import binom %matplotlib inline %config InlineBackend.figure_format = 'svg' import matplotlib import matplotlib.pyplot as plt import seaborn as sns print("numpy version :", np.__version__) print("matplotlib version :", matplotlib.__version__) print("sns version :",sns.__version__) numpy version : 1.18.1 matplotlib version : 2.2.2 sns version : 0.8.1

    [確率思考の戦略論] 1.確率理論の導入とプレファレンスの数学的説明
  • GitHub - trevismd/statannotations: add statistical significance annotations on seaborn plots. Further development of statannot, with bugfixes, new features, and a different API.

    misshiki
    misshiki 2022/03/14
    “オプションで統計的検定を計算し、seabornで生成されたプロットに統計的注釈を追加するPythonパッケージ。”
  • 中心極限定理を Python で確かめる(一様分布,二項分布,コーシー分布を使って) - Qiita

    記事の目的 確率論において重要な定理である「中心極限定理」を Python で確かめます. 具体的には,「ある分布から取り出した標平均の分布が,標を大きくすることで当に正規分布に従うのか?」を確かめます. 中心極限定理とは 数学的に厳密な内容は述べませんが,中心極限定理が何なのかをざっくりと述べます. 定理の内容(ざっくりと) $n$ 個の確率変数 $X_1,\cdots ,X_n$ が独立で同じ分布に従うとする. $E[X_i]=\mu, V[X_i]=\sigma^2, \bar{X}=\frac{1}{n}(X_1 + \cdots + X_n)$ とする. このとき,$n$ を大きくすると,$\bar{X}$ は正規分布 $N(\mu, \sigma^2 /n)$ に近づく. ※ ここで,$n$ が標の大きさ,$\bar{X}$ が標平均です. 記事を書くに至った経緯

    中心極限定理を Python で確かめる(一様分布,二項分布,コーシー分布を使って) - Qiita
  • 相関係数が0.63の散布図を作成する - Qiita

    相関係数が0.63の散布図が話題になっているようなので、相関係数が0.63の散布図を作成するPythonスクリプトを作ってみました。 以下のコードは Google Colaboratory 上での動作を確認しています。 乱数の散布図 まずは乱数を使った散布図の描きかたと、相関係数の計算の仕方です。 import numpy as np n_data = 20 X = np.random.rand(n_data) Y = np.random.rand(n_data) import matplotlib.pyplot as plt coeff = np.corrcoef(X, Y)[0, 1] plt.figure(figsize=(5,5)) plt.title("correlation coefficient = {0:.3f}".format(coeff)) plt.scatter(X,

    相関係数が0.63の散布図を作成する - Qiita
    misshiki
    misshiki 2022/01/20
    “相関係数が0.63の散布図を作成するPythonスクリプト”
  • GitHub - uber/orbit: A Python package for Bayesian forecasting with object-oriented design and probabilistic models under the hood.

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - uber/orbit: A Python package for Bayesian forecasting with object-oriented design and probabilistic models under the hood.
    misshiki
    misshiki 2021/09/21
    Uber“Orbit:ベイジアン予測用のPythonパッケージ”