タグ

統計に関するmisshikiのブックマーク (339)

  • 決定係数について - Qiita

    はじめに 千葉大学/Nospareの米倉です.今回は決定係数について解説したいと思います. 決定係数とは まずは次のような線形回帰モデルを考えます, $$y=X\beta+\epsilon.$$ ここで$y,X,\beta$はそれぞれ,$n$次元の被説明変数のベクトル,$X$は説明変数ベクトルからなる$n\times d$の行列,$\beta$は$d$次元のパラメータのベクトルとし,$\epsilon$は線形回帰分析の際の適当な仮定を満たす確率ベクトル(誤差ベクトル)とし,その分散は$\sigma^2$であるとします.またこの記事では$X$も確率変数だとしますが,定数として扱っても議論の結論などに影響はないです. この時,最小二乗推定量$\hat{\beta}$は,$$\hat{\beta}=(X^{\top}X)^{-1}X^{\top}y$$と適当な仮定の下で求まります.これを用いると

    決定係数について - Qiita
    misshiki
    misshiki 2022/01/31
    “現代の統計学を用いた実証分析では決定係数を報告する意味はない...決定係数の代わりに,例えばleave-one-out cross-validation (LOOCV,一個抜き交差検証) を用いたモデルの当てはまりの診断がメジャーになってきています.”
  • Regression and Other Stories

    Regression and Other Stories Andrew Gelman, Jennifer Hill, Aki Vehtari Page updated: 2022-11-06 Home page for the book Regression and Other Stories by Andrew Gelman, Jennifer Hill, and Aki Vehtari, including the code and data for the examples. Published by Cambridge University Press in 2020. © Copyright by Andrew Gelman, Jennifer Hill, and Aki Vehtari 2020. Back cover text: Many textbooks on regre

    misshiki
    misshiki 2022/01/31
    『Regression and Other Stories』“ROSオンラインPDF。このPDFは、個人使用のみを目的として無料で表示およびダウンロードできます。再配布、再販売、または二次的著作物での使用はできません。”
  • 統計・機械学習の理論を学ぶ手順 - Qiita

    社内向けに公開している記事「統計・機械学習の理論を学ぶ手順」の一部を公開します。中学数学がわからない状態からスタートして理論に触れるにはどう進めばいいのかを簡潔に書きました。僕が一緒に仕事をしやすい人を作るためのものなので、異論は多くあると思いますがあくまでも一例ですし、社員に強制するものではありません。あと項目の順番は説明のため便宜上こうなっているだけで、必ずしも上から下へ進めというわけでもありません。 (追記)これもあるといいのではないかというお声のあった書籍をいくつか追加しました。 数学 残念ながら、統計モデルを正しく用いようと思うと数学を避けることはできません。ニューラルネットワークのような表現力が高くて色々と勝手にやってくれるような統計モデルでも、何も知らずに使うのは危険です。必ず数学は学んでおきましょう。理想を言えば微分トポロジーや関数解析のような高度な理論を知っておくのがベス

    統計・機械学習の理論を学ぶ手順 - Qiita
  • 相関係数が0.63の散布図を作成する - Qiita

    相関係数が0.63の散布図が話題になっているようなので、相関係数が0.63の散布図を作成するPythonスクリプトを作ってみました。 以下のコードは Google Colaboratory 上での動作を確認しています。 乱数の散布図 まずは乱数を使った散布図の描きかたと、相関係数の計算の仕方です。 import numpy as np n_data = 20 X = np.random.rand(n_data) Y = np.random.rand(n_data) import matplotlib.pyplot as plt coeff = np.corrcoef(X, Y)[0, 1] plt.figure(figsize=(5,5)) plt.title("correlation coefficient = {0:.3f}".format(coeff)) plt.scatter(X,

    相関係数が0.63の散布図を作成する - Qiita
    misshiki
    misshiki 2022/01/20
    “相関係数が0.63の散布図を作成するPythonスクリプト”
  • データサイエンス講座(統計編) | 米国データサイエンティストのブログ

    データサイエンス 【初日で1200人が受講】ゼロから学べる統計学超入門動画講座を公開しました!! 2021.11.25 かめ@米国データサイエンティスト こんにちは,米国データサイエンティストのかめ(@usdatascientist)です. ついに公開しました!! 待望(!?)の統計学超入門動画講座です!! 「米国データサイエンティストが教える統計学超入門講座【Pytho…

    misshiki
    misshiki 2022/01/05
    34回の連載記事。
  • 推測統計フローチャート(推定、検定を考えるにあたっての解法の整理) - あつまれ統計の森

    中心極限定理などに基づいて母集団の確率分布のパラメータの点推定・区間推定や、パラメータに関する仮説の検定を行う推測統計は、基的な考え方は一貫している一方で推定の対象や分散の既知・未知などに置ける場合分けなど、関連する概念が多くわかりにくい。 そのため当稿では解法の整理の補助となるように、推測統計に関連するトピックをフローチャートの形式にまとめる。作成にあたっては、「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の$9$章〜$12$章を主に参考にした。 大枠の整理 推測統計を考える際の前提 推測統計を考える際に前提となるのが母集団(population)と標(sample)である。記述統計学(descriptive statistics)では得られた標についてのみ考えるが、得られた標の裏側の母集団についても考察を行うのが推測統計である。 推測統計では母集団の持つ分布である、母集団分布(

    推測統計フローチャート(推定、検定を考えるにあたっての解法の整理) - あつまれ統計の森
  • 測度論を勉強せずにルベーグ積分を使うための期待値の性質 - HackMD

    # 測度論を勉強せずにルベーグ積分を使うための期待値の性質 ## はじめに 統計・機械学習では確率変数 $X$ に関する期待値 $\mathbb{E} [X]$ について議論することがよくあります

    測度論を勉強せずにルベーグ積分を使うための期待値の性質 - HackMD
    misshiki
    misshiki 2021/12/14
    “多くの統計・機械学習ユーザにとってルベーグ積分(測度論)の勉強はコストが高いです.そこで本記事では期待値を公理的に定義することで測度論をスキップする方法を紹介”
  • 統計検定 準1級、2級、3・4級 公式問題集刊行のお知らせ|統計検定:Japan Statistical Society Certificate

    2021.12.09 株式会社実務教育出版より、準1級試験が開始された2015年から2021年の全6回分(2020年は実施なし)の紙媒体の試験問題を全問収録・解説した『日統計学会公式認定 統計検定 準1級 公式問題集』と『日統計学会公式認定 統計検定 2級 公式問題集 [2018~2021年]』、『日統計学会公式認定 統計検定 3級・4級 公式問題集 [2018~2021年]』が刊行されました。 また、注文を受けてから印刷・製・発送するプリント・オン・デマンド(POD)書籍として、『日統計学会公式認定 統計検定2級 公式問題集 [2016~2017年]』も刊行されました。 詳細は関係図書ページ「過去問題集(公式書籍)」および「過去問題集(オンデマンド)(公式書籍)」をご覧ください。

    misshiki
    misshiki 2021/12/13
    新刊。統計検定の新しい公式問題集が発売中。2021年11月から売っているみたいだけど。
  • コサイン類似度(Cosine Similarity)とは?

    用語「コサイン類似度」について説明。2つのベクトルが「どのくらい似ているか」という類似性を表す尺度で、具体的には2つのベクトルがなす角のコサイン値のこと。1なら「似ている」を、-1なら「似ていない」を意味する。主に文書同士の類似性を評価するために使われている。 連載目次 用語解説 数学/統計学/機械学習におけるコサイン類似度(Cosine Similarity)とは、2つのベクトルが「どのくらい似ているか」という類似性を表す尺度で、具体的には(ベクトル空間における)2つのベクトルがなす角のコサイン値のことである。この値は、2つのベクトルの内積(=向きと大きさを持つベクトル同士の掛け算)を、2つのベクトルの大きさ(=L2ノルム)で割ることで計算される。 この計算によって値が-1~1の範囲に正規化されるので、コサイン類似度が、 1なら「0度で、同じ向きのベクトル=完全に似ている」 0なら「90

    コサイン類似度(Cosine Similarity)とは?
    misshiki
    misshiki 2021/12/08
    “2つのベクトルが「どのくらい似ているか」という類似性を表す尺度で、具体的には2つのベクトルがなす角のコサイン値のこと。1なら「似ている」を、-1なら「似ていない」を意味する。”
  • データ分析やAI予測の基本中の基本「回帰分析」「最小二乗法」の基礎をPythonコードと図で理解する

    データ分析AI予測の基中の基「回帰分析」「最小二乗法」の基礎をPythonコードと図で理解する:「AIエンジニアになるための「基礎数学」再入門(15) AIに欠かせない数学を、プログラミング言語Pythonを使って高校生の学習範囲から学び直す連載。今回は「回帰分析」「最小二乗法」について、図版とPythonコードを交えて解説します。

    データ分析やAI予測の基本中の基本「回帰分析」「最小二乗法」の基礎をPythonコードと図で理解する
  • Courses | UTokyo OCWx

    © 2016 The University of Tokyo Center for Research and Development of Higher Education マイリストを使うと、自身が興味を持つ講義をチェックできます。 チェックした講義は随時マイリストを開くことにより確認できます。 マイリストを使うためにはログインをしてください。 プライバシーポリシー

    misshiki
    misshiki 2021/11/25
    なにこれすごい! 数学や統計データ解析など、データサイエンス関連の講義動画(東京大学)が無料で見られる。自分は全部見る時間はないけど、本格的に勉強したい人には良さそう。
  • 一般財団法人 統計質保証推進協会|統計・データサイエンス教育支援事業

    misshiki
    misshiki 2021/11/15
    高校の先生が無償で受験可能みたい。“2021年度は、統計検定CBT方式2級および統計検定CBT方式3級あわせて、全国で300人分の受験の機会を無償で提供いたします。”
  • ノンパラメトリックな方法を用いた探索的データ分析 - Qiita

    はじめに 千葉大学/Nospareの米倉です.今回はノンパラメトリックな方法(分析で用いる分布を仮定しない)を用いた,探索的データ分析について解説します.ノンパラメトリックな方法を用いることにより,モデルの特定化の失敗の影響を抑えたり,またパラメトリックな方法を用いる際の予備的分析になると思います.また簡単なA/Bテストにもいいのかなと思います. Empirical Cumulative Distribution Function(ECDF) Empirical Cumulative Distribution Function(ECDF)とは,累積分布関数を経験分布を用いて推定(データから推定)したものです.確率変数$X$が$x$以下になる確率$P(X\leq x)$を累積分布関数といいます.これをデータから推定したものがECDFです.推定方法は簡単で,例えば次のJuliaのコードではso

    ノンパラメトリックな方法を用いた探索的データ分析 - Qiita
  • [評価関数]相対絶対誤差(RAE:Relative Absolute Error)/相対二乗誤差(RSE:Relative Squared Error)とは?

    [評価関数]相対絶対誤差(RAE:Relative Absolute Error)/相対二乗誤差(RSE:Relative Squared Error)とは?:AI機械学習の用語辞典 用語「相対絶対誤差」「相対二乗誤差」について説明。相対絶対誤差は、平均絶対誤差を平均絶対偏差(=データの広がり具合)で割ることでスケールを調整(=相対化)した評価値を表す。相対二乗誤差は、平均二乗誤差を分散(=データの広がり具合)で割ることでスケールを調整(=相対化)した評価値を表す。 連載目次 用語解説 統計学/機械学習における相対絶対誤差(RAE:Relative Absolute Error)とは、平均絶対誤差(MAE)を平均絶対偏差(MAD)(=データ/観測値の広がり具合、厳密には「平均値」からのバラツキ具合)で割ることで、スケール(単位)を調整(=正規化)した評価値、またはそれを出力する関数である

    [評価関数]相対絶対誤差(RAE:Relative Absolute Error)/相対二乗誤差(RSE:Relative Squared Error)とは?
    misshiki
    misshiki 2021/11/04
    “データの広がり具合で割ることでスケールを調整(=相対化)した評価値を表す”
  • 選挙で開票率0%(5%)でも当確が出る理由として、味噌汁の味見で例えた統計学の説明文がめっちゃ解りやすいと話題に

    選挙速報で、8時の投票〆切と共に、各TV局・新聞などのメディアが出す開票速報。 まだ開票もされていないのに議席数が大筋で判明したり、既に当確が出たりするのは何故だと疑問に思う人が結構いるようで。 そういった人達向けとして、統計学の重要さを説いた説明文が非常に解りやすいと話題になっておりました。

    選挙で開票率0%(5%)でも当確が出る理由として、味噌汁の味見で例えた統計学の説明文がめっちゃ解りやすいと話題に
  • [評価関数]分散説明率(Explained variance score)とは?

    連載目次 用語解説 統計学/機械学習における分散説明率(explained variance score:説明された分散のスコア、explained variation)とは、主に単回帰分析/重回帰分析といった線形回帰(Linear Regression)*1における回帰式のモデルなどが、「観測データ(正解データ、従属変数、目的変数)*2の分散(=データの広がり具合)のうちどれくらいを説明するか」という割合(通常は0~1.0=100%、マイナスになることもある)を出力する関数である(図1)。決定係数R2の代わりに用いられることがある。 *1 統計学に基づく線形回帰モデルに入力する各種データは「説明変数」や「独立変数」と呼ばれ、これが機械学習での「入力データ」となる「特徴量」に相当する。また線形回帰モデルでは、モデルから出力される「予測値」は「目的変数」や「従属変数」と呼ばれる。稿の趣旨か

    [評価関数]分散説明率(Explained variance score)とは?
    misshiki
    misshiki 2021/10/21
    “線形回帰モデルなどの評価関数の一つで、回帰式のモデルが「観測データの分散」のうちどれくらいの割合を説明するかを表す。決定係数R2の代わりに用いられることがある。”
  • データをデザインするということ 〜 データビジュアライゼーションの方法

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog データ領域、サイエンス領域のデザイン責任者兼クリエイティブディレクションを担当している駒宮大己(コマミヤヒロキ)です。私たちのチームでは、ヤフー・データソリューションサービスをはじめ、Yahoo! JAPAN研究所、サイエンスを活用した最先端技術のインターフェイスデザイン、ヤフーを利用されるお客様のデータ保護やプライバシーに関するUXデザインを担っています。 私たちはビッグデータという、まだ正解のない新しい領域のデザインをしています。その上でビジュアライゼーション時に自分自身が意識していること、学んだことを、チームメンバーの奥村奈々(オクムラナナ)とともに紹介いたします。 ヤフー・データソリューションとは 私たちが主として担当して

    データをデザインするということ 〜 データビジュアライゼーションの方法
    misshiki
    misshiki 2021/10/20
    “それぞれのデータを的確に表すグラフを選びデザインします。それぞれのグラフの特徴を紹介します。”参考になりそう。
  • 卒業論文のためのR入門

    Chapter 1 はじめに この文書は、卒業論文を書くためのRの使い方をできるだけコンパクトにまとめたものです。 読者は立命館大学総合心理学部森ゼミの学生をピンポイントに想定しています。 Rを用いた演習として「心理学データ解析法」の履修を推奨していますが、履修していなくてもわかるように構成しています。 卒業論文自体はWordで作成する想定で、Rで得られた結果をWordに貼り付ける(簡便な)方法を説明します。 一般的なRの入門文書としても参照できます。 説明の都合上、厳密さよりわかりやすさを重視した記述が多々あります。ご了承ください。 1.1 この文書で学ぶこと 具体的には、以下の項目を学習します。 R, RStudioをインストールし、基的な操作ができるようになる データをRStudioにインポートする インポートしたデータを分析可能な形に前処理する 記述統計を整理する データを可視化

    misshiki
    misshiki 2021/10/20
    ドキュメント。
  • 相関係数/ピアソンの積率相関係数とは?

    用語「相関係数(ピアソンの積率相関係数)」について説明。相関係数とは2つの変数間の関係の強さと方向性を表す、1~0~-1の範囲の数値。1(強い正の相関)では、2つの変数が強く同方向に連動する。-1(強い負の相関)では強く逆方向に連動する。相関なしでは、連動しない。 連載目次 用語解説 数学/統計学/機械学習における相関係数(correlation coefficient)とは、2つの変数間の関係の強さと方向性(=相関:correlation)を表す、1~0~-1の範囲の数値である。1に近い値は「強い正の相関」、つまり2つの変数が強く同方向に連動することを意味する。0.3など0に近くなるほど相関は弱まっていき、0に近い値は「相関なし」、つまり2つの変数が連動しないことを意味する。また、-1に近い値は「強い負の相関」、つまり2つの変数が強く逆方向に連動することを意味する。 相関係数には主に、線

    相関係数/ピアソンの積率相関係数とは?
    misshiki
    misshiki 2021/10/13
    “相関係数とは2つの変数間の関係の強さと方向性を表す、1~0~-1の範囲の数値。1(強い正の相関)では、2つの変数が強く同方向に連動する。-1(強い負の相関)では強く逆方向に連動する。相関なしでは、連動しない。”
  • 正規化(Normalization)/標準化(Standardization)とは?

    連載目次 用語解説 一般的に正規化(Normalization)とは、さまざまな大きさや単位の情報/データを、比べやすく考えやすくするために、共通の基準やルールに合わせること、つまりデータを「普通の(Normal)」状態にする作業のことを指す。例えば走った距離を比較する際に、メートル(m)単位とキロメートル(km)単位が混在していると理解しづらいため、共通の単位に合わせる(例えば全てをkmに統一する)ことで情報が扱いやすくなる。 「正規化」や「標準化」という用語はさまざまな分野で用いられており、各分野で意味も異なる場合がある。例えばデータベース設計の「正規化」は、同じテーブル内のデータの重複をなくすなどの目的で、データを複数のテーブルに分割したりして整理することを指す。以下では「数学/統計学/機械学習における正規化」について説明している。

    正規化(Normalization)/標準化(Standardization)とは?
    misshiki
    misshiki 2021/10/07
    “単に「正規化」(Min-Max法)と言った場合は、データを最小値「0」~最大値「1」にスケーリングすることを意味する。また、正規化の一種である標準化は、データを平均「0」、分散「1」にスケーリング”