[B! 統計][Python] misshikiのブックマーク

Python Dashによりデータ分析結果の共有を効率化する取り組み - ZOZO TECH BLOG

はじめにこんにちは、検索基盤部の伊澤です。検索基盤部では普段から、ZOZOTOWNの検索機能に関するデータ分析や、データ分析を踏まえた検索性能の改善に取り組んでいます。検索に関するデータ分析では、検索クエリの傾向把握や課題のあるクエリの特定のために、検索クエリごとの検索結果のクリック率やコンバージョン率といったパフォーマンス指標を評価しています。本記事では、検索クエリごとのデータ分析に関する情報共有を効率化するため、ウェブフレームワークの「Dash」で開発したダッシュボードを活用した事例を紹介します。目次はじめに目次検索クエリごとのデータ分析の重要性分析結果のチーム内共有時の課題 Dashを用いたダッシュボードの開発 Dashとは Dashを選定した理由検索クエリごとのパフォーマンス指標のダッシュボード 1. 検索クエリごとのパフォーマンス指標のテーブル 2. 検索クエリ

misshiki 2024/05/07

“検索クエリごとのデータ分析に関する情報共有を効率化するため、ウェブフレームワークの「Dash」で開発したダッシュボードを活用した事例を紹介します。”

リンク

機械学習の基礎の基礎、最小二乗法を学ぶ

機械学習の最も基礎的な手法が最小二乗法だ。この特集では、Pythonで最小二乗法のプログラムを実装することで、その仕組みを学んでいく。出典：日経ソフトウエア、2024年1月号 pp.6-21 「今から始める機械学習入門　Part1　基礎となる『最小二乗法』をマスターする」を改題、編集記事は執筆時の情報に基づいており、現在では異なる場合があります。

misshiki 2024/01/18

“機械学習の最も基礎的な手法が最小二乗法だ。この特集では、Pythonで最小二乗法のプログラムを実装することで、その仕組みを学んでいく。”

リンク

［NumPy超入門］Pythonで単回帰分析：手作業で計算してみよう

連載概要本連載はPythonについての知識を既にある程度は身に付けている方を対象として、Pythonでデータ処理を行う上で必須ともいえるNumPyやpandas、Matplotlibなどの各種ライブラリの基本的な使い方を学んでいくものです。そして、それらの使い方をある程度覚えた上で、それらを活用してデータ処理を行うための第一歩を踏み出すことを目的としています。前回はCalifornia Housingデータセット（カリフォルニアの住宅価格のデータセット）を基に相関係数を計算してヒートマップを作成したり、'MedInc'列（地域の所得を表すデータ）と'MedHouseVal'列（地域の住宅価格を表すデータ）を軸に散布図を作成したりして、これら2つのデータにはある程度の相関があるのではないかという話をしました。今回は'MedInc'列と'MedHouseVal'列との関係を数式として表現

misshiki 2024/01/12

“PythonとNumPyを使って手作業で、回帰分析のモデルを表す回帰式を求め、その決定係数を計算。回帰分析が初めての方でもステップバイステップで計算内容が理解できます。同計算を手軽に行えるNumPyのpolyfit関数も解説。”

リンク

【Python】噂の”LightweightMMM”を使ってみた

この記事は GMOアドマーケティング Advent Calendar 2023 21日目の記事です．はじめにこんにちは．GMOアドパートナーズにてインターンシップとして参加させていただいております，kantayamaです．現在は修士課程2年で，確率ニューラルネットモデルに関する理論研究をしています．インターンシップをしていく中で，マーケティング・ミックス・モデリング（MMM）に興味を持ち，まずは実装してみようということで，Googleが公開しているMMMライブラリ「LightweightMMM」を触ってみました．実際に実務で活用するにはより厳密な解析が必要になるかと思いますが，とりあえずMMMの全体像を掴みたいなと思い実装してみたので今回紹介させていただきます．マーケティング・ミックス・モデリング（MMM）とは概要 MMMとは，メディア運営や広告掲載など，個々のマーケティング施策

misshiki 2023/12/22

“Googleが公開しているMMMライブラリ「LightweightMMM」を触ってみました．実際に実務で活用するにはより厳密な解析が必要になるかと思いますが，とりあえずMMMの全体像を掴みたいなと思い実装してみたので今回紹介”

リンク

PyMC-MarketingによるBayesian Marketing Mix Modeling - Qiita

この記事は確率的プログラミング言語 Advent Calendar 202317日目の記事です。ゼミで勉強したStanとRでベイズ統計モデリング（通称：アヒル本）著者である @hankagosa 氏の開催するアドベントカレンダーに参加でき嬉しく思います。このような機会を用意していただきありがとうございます。それでは本題に入ります。はじめに 2023/4/6にPyMC-Marketingが発表されました。PyMCの派生ライブラリでマーケティング領域に特化しています。 PyMC Labs is excited to announce the initial release of PyMC-Marketing. Unlock the power of marketing analytics with PyMC-Marketing – the open source solution for

misshiki 2023/12/18

“Marketing Mix Modeling（MMM）は、マーケティング戦略の効果を評価し、最適化するための統計的アプローチ。企業が製品やサービスを市場に導入する際に、どのような要因がその成功に影響を与えるかを理解するのに役立つ”

リンク

Pythonの機械学習ライブラリ（pandas）を使って、回帰アルゴリズムで不動産価格を予測しよう

Pythonでの機械学習を学ぶ入門書『実務で役立つPython 機械学習入門』（翔泳社）が発売中です。本書では実際にありうるビジネス課題を想定し、機械学習によるデータ分析を用いて解決する手順を解説しています。今回は本書から、回帰アルゴリズムを利用して不動産価格を予測する方法を紹介します。本記事は『実務で役立つPython 機械学習入門課題解決のためのデータ分析の基礎』（池田雄太郎、田尻俊宗、新保雄大）の「2-2　回帰アルゴリズム：不動産価格を予測しよう」から抜粋したものです。掲載にあたって編集しています。また、記事内ではPythonとpandasを利用します。回帰アルゴリズム：不動産価格を予測しようあなたは、とある不動産会社に勤務しています。あなたの会社は数百の不動産を保有し、賃貸物件を顧客に貸し出しています。ある日、あなたの上司から、「物件の賃貸価格決定を自動化したい」と要望を受け

misshiki 2023/11/27

“回帰アルゴリズムを利用して不動産価格を予測する方法を紹介”

リンク

【気象データ】「〇〇年に一度の大雨」の算出 (確率降水量の算出)【統計解析】 - LabCode

気象庁は観測結果をもとに、各地点について「〇〇年に一度の降水量」を算出し、発表しています。ある期間内に1回起こると考えられる降水量のことを確率降水量といいます。気象庁の解説ページでは、確率降水量の推定方法が解説されていますので、これに基づいて「〇〇年に一度の大雨」の値を計算してみたいと思います。大まかには次のような流れになっています。年最大日降水量のヒストグラムを作成する分布関数を当てはめる分布関数の当てはまり具合を確認する当てはめた分布関数から確率降水量を算出する今回は、上記3. をとばして、4.の「当てはめた分布関数から確率降水量を算出する」を実際にやってみましょう！再現年と確率降水量気象庁の解説ページにもあるように、再現年 $T$ は $$ T = \frac{1}{1 – F(x; \theta)} $$ で与えられます。ここで、$F(x; \theta)$ は確

misshiki 2023/10/24

“今回は、前回に引き続き、当てはめた分布関数から「〇〇年に一度の大雨」の値を算出してみたいと思います。”

リンク

【気象データ】「〇〇年に一度の大雨」の算出 (分布関数の当てはめ編)【統計解析】 - LabCode

はじめにここ最近、大雨のニュースを見るたびに「〇〇年に一度の大雨」という表現を目にします。これは「千年に一人の美少女」や「百年に一度の逸材」といったレトリックではなく、データに基づいて統計的に算出された根拠のある数字です。気象庁や自治体では観測結果をもとにこのような量を算出し、発表することで防災に役立てています。このシリーズでは、算出方法を確認し、Pythonを使って、実装・計算してみたいと思います。なお、ここで紹介する手法は、実際に公的機関が発表しているものとは異なる場合が多分にありますので、十分にご注意ください。今回は、前回に引き続き、分布関数をヒストグラムに当てはめる方法について紹介したいと思います。「○○年に一度の大雨」の計算方法とは？気象庁は観測結果をもとに、各地点について「〇〇年に一度の降水量」を算出し、発表しています。ある期間内に1回起こると考えられる降水量のこ

misshiki 2023/10/20

“気象庁の解説ページにあるように、当てはめに用いられる分布関数は次の５種類です。グンベル分布／一般化極値 (GEV) 分布／平方根指数型最大値分布／対数ピアソンⅢ型分布／対数正規分布”

リンク

データ分析の基礎 - Qiita

1. データ分析の概要と目的データ分析とは、大量のデータから有用な情報や知識を抽出するプロセスです。このプロセスには、データの収集、前処理、探索、モデリング、評価、そして最終的な知識の抽出が含まれます。データ分析の主な目的は以下の通りですビジネスの意思決定をサポートする新しい市場の機会を発見する顧客の行動や傾向を理解する製品やサービスの改善予測や予測モデリングを行う 2. Pythonにおけるデータ分析のライブラリの紹介 Pythonはデータ分析のための多くのライブラリを持っています。以下はその中でも特に人気のあるライブラリです Pandas: データの前処理や探索的データ分析に使用されるライブラリ NumPy: 数値計算を効率的に行うためのライブラリ Matplotlib & Seaborn: データの可視化に使用されるライブラリ Scikit-learn: 機械学習の

misshiki 2023/09/26

“ Pythonにおけるデータ分析”

リンク

アンケート調査の偏ったデータをバランス調整するPythonモデル「balance」　米Metaが開発

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: ＠shiropen2 米Metaに所属する研究者らが発表した論文「balance - a Python package for balancing biased data samples」は、参加者グループの範囲指定により発生する、アンケート調査の偏ったデータをバランス調整するオープンソースのPyPythonパッケージを提案した研究報告である。アンケートは重要な研究ツールであり、他の手段では測定できない感情や意見などの主観的な経験に関するユニークな測定値を提供する。しかし、調査データは自ら選択した参加者グループから収集されるため、そこから対象集団への洞察を直接

misshiki 2023/07/24

“参加者グループの範囲指定により発生する、アンケート調査の偏ったデータをバランス調整するオープンソースのPyPythonパッケージ”

リンク

統計学とPython: データの正規性検定と可視化 - Qiita

本記事では、データ分析において重要な役割を果たす正規性検定について説明し、Pythonを用いた具体的な実装方法を紹介します。具体的には、ヒストグラムとQ-Qプロットの作成、そして正規性検定（ダゴスティーノの歪度/尖度検定、オムニバス検定、コルモゴロフ=スミルノフ検定、シャピロ=ウィルク検定）を取り上げます。ヒストグラムの描画ヒストグラムは、データの分布を可視化するためのツールです。Pythonでは、matplotlibのhist関数を使って簡単に描画できます。 import matplotlib.pyplot as plt import numpy as np # データ生成 data = np.random.normal(0, 1, 1000) # ヒストグラムの描画 plt.hist(data, bins=30) plt.show() Q-Qプロットの描画 Q-Qプロットは、データ

misshiki 2023/05/17

“データ分析において重要な役割を果たす正規性検定について説明し、Pythonを用いた具体的な実装方法を紹介”

リンク

因果推論100本ノック(1)因果効果とランダム割付

はじめに因果推論100本ノック（自作）1本目~10本目の問題とPythonのサンプルコードです．問題の不備や内容の誤り等ありましたら，ご指摘いただけますと幸いです．設定アナリストの分析レポートが営業の受注件数にどれくらい貢献しているかを分析するケースを考えます．今回は，下記フォルダの「causal_knock1.csv」ファイルのデータを利用します．データのカラムの概要は下記の通りです．変数名データの概要備考

misshiki 2023/04/10

“因果推論100本ノック（自作）1本目~10本目の問題とPythonのサンプルコード”

リンク

Pythonで統計・データ分析！～基本統計量の活用と機械学習の基本

Pythonで統計・データ分析！～基本統計量の活用と機械学習の基本：数学×Pythonプログラミング入門（1/5 ページ）データ分析において最もよく使われる表形式のデータを取り扱う方法を見ていく。まず、pandasデータフレームの基本的な取り扱い方法を確認し、次に、各種の基本統計量を求める。また、基本統計量の可視化を行い、データの「見方」についても触れる。最後に、scikit-learnを使った回帰と分類の簡単な例を紹介する。

misshiki 2023/01/23

“pandasデータフレームの基本的な取り扱い方法を確認し、次に、各種の基本統計量を求める。また、基本統計量の可視化を行い、データの「見方」についても触れる。最後に、scikit-learnを使った回帰と分類の簡単な例を紹介

リンク

プロでもよくある線形回帰モデルの間違い - Qiita

最近、データサイエンスが流行っていることもあり、線形回帰モデルについても解説記事を見かけることが多くなりました。情報にアクセスしやすくなったのはいいことだと思うんですが、ずっと以前から間違いや解説の不足が多い理論なので、私なりに解説を試みたいと思います。全体的にあまり厳密ではありませんが、線形回帰モデルを学びたての方には有益な記事になるかなと思います。あと、私も勉強中の身なので、間違いがあったらご指摘いただけたら嬉しいです。本題さて、よくある間違いとは以下のような解説です。線形性の仮定が満たされていないので、線形回帰モデルを使ってはいけない残差が正規分布&等分散ではないので、線形回帰モデルを使ってはいけない回帰係数に対するt検定の結果をもとに、p値が大きい説明変数を除外する多重共線性があるとよくないので、変数間で相関が強い、もしくはVIF値が大きい変数を除外する AICが小さ

misshiki 2023/01/06

“ずっと以前から間違いや解説の不足が多い理論なので、私なりに解説を試み”よくある間違い集。ブコメを読むと内容については気を付けた方がよさそう。

リンク

Pythonでちゃんと統計・確率の基礎をやってみた（確率編1/3） - Qiita

はじめに以下の書籍を参考にしながら，統計の基礎を学び直した軌跡，確率編1/3です．この記事は5部構成の2つ目になっています．以下も参照ください．準備〜データ編・・・投稿済み確率編1・・・この記事確率編2・・・投稿済み確率編3・・・まだ推測編・・・まだこの記事を書いた動機，注意点，使用している技術，記事の構成，準備については準備〜データ編に掲載されています．これは主観でしかないのですが，エンジニアにも馴染みのある「データ」と比べて「確率」は扱われる機会が少なく，理解のハードルが高いかと思います．引き続き書籍を参考にしながら，理解を助けるために補足したり，独断で省略している部分もありますので，書籍に沿って進めたい方は書籍を購入ください！また，最初は「確率編」として3部構成を考えていたのですが，確率の基本部分を厚くしたため，以下のように確率編を3つに分けることにしました．確

misshiki 2022/08/19

書籍『Pythonで理解する統計解析の基礎』を参考にした記事。“確率編の前半とします．今回は，推測統計と確率モデルの全体像，1次元と2次元の離散型確率変数について”

リンク

[確率思考の戦略論] 1.確率理論の導入とプレファレンスの数学的説明

import numpy as np import scipy from scipy.stats import binom %matplotlib inline %config InlineBackend.figure_format = 'svg' import matplotlib import matplotlib.pyplot as plt import seaborn as sns print("numpy version :", np.__version__) print("matplotlib version :", matplotlib.__version__) print("sns version :",sns.__version__) numpy version : 1.18.1 matplotlib version : 2.2.2 sns version : 0.8.1

misshiki 2022/04/26

リンク

GitHub - trevismd/statannotations: add statistical significance annotations on seaborn plots. Further development of statannot, with bugfixes, new features, and a different API.

misshiki 2022/03/14

“オプションで統計的検定を計算し、seabornで生成されたプロットに統計的注釈を追加するPythonパッケージ。”

リンク

中心極限定理を Python で確かめる（一様分布，二項分布，コーシー分布を使って） - Qiita

本記事の目的確率論において重要な定理である「中心極限定理」を Python で確かめます．具体的には，「ある分布から取り出した標本平均の分布が，標本を大きくすることで本当に正規分布に従うのか？」を確かめます．中心極限定理とは数学的に厳密な内容は述べませんが，中心極限定理が何なのかをざっくりと述べます．定理の内容（ざっくりと） $n$ 個の確率変数 $X_1,\cdots ,X_n$ が独立で同じ分布に従うとする． $E[X_i]=\mu, V[X_i]=\sigma^2, \bar{X}=\frac{1}{n}(X_1 + \cdots + X_n)$ とする．このとき，$n$ を大きくすると，$\bar{X}$ は正規分布 $N(\mu, \sigma^2 /n)$ に近づく． ※ ここで，$n$ が標本の大きさ，$\bar{X}$ が標本平均です．記事を書くに至った経緯

misshiki 2022/03/07

リンク

相関係数が0.63の散布図を作成する - Qiita

相関係数が0.63の散布図が話題になっているようなので、相関係数が0.63の散布図を作成するPythonスクリプトを作ってみました。以下のコードは Google Colaboratory 上での動作を確認しています。乱数の散布図まずは乱数を使った散布図の描きかたと、相関係数の計算の仕方です。 import numpy as np n_data = 20 X = np.random.rand(n_data) Y = np.random.rand(n_data) import matplotlib.pyplot as plt coeff = np.corrcoef(X, Y)[0, 1] plt.figure(figsize=(5,5)) plt.title("correlation coefficient = {0:.3f}".format(coeff)) plt.scatter(X,

misshiki 2022/01/20

“相関係数が0.63の散布図を作成するPythonスクリプト”

リンク

GitHub - uber/orbit: A Python package for Bayesian forecasting with object-oriented design and probabilistic models under the hood.

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

misshiki 2021/09/21

Uber“Orbit：ベイジアン予測用のPythonパッケージ”

リンク

はてなブックマーク

タグ

関連タグで絞り込む (11)

統計とPythonに関するmisshikiのブックマーク (40)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス