分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。 データ解析・機械学習でモデルを構築し始める際のサンプル数の目安について、もちろんモデルを構築する時には、可能な限り多くのサンプルを用いることが望ましいです。多くのサンプルを用いることで、サンプルの変化に強い (例えばサンプルが一つ追加されたり一つ削除されたりしても結果の変わりにくい) 頑健なモデルを構築できる可能性が高まります。頑健なモデルにより、より妥当な x の設計やモデルの解釈が可能になります。 ただし、サンプルを集め
この連載は、データをさまざまな角度から分析し、その背後にある有益な情報を取り出す方法を学ぶ『社会人1年生から学ぶ、やさしいデータ分析』連載(記述統計と回帰分析編)の続編で、確率分布に焦点を当てています。 この確率分布編では、推測統計の基礎となるさまざまな確率分布の特徴や応用例を説明します。身近に使える表計算ソフト(Microsoft ExcelやGoogleスプレッドシート)を使いながら具体的に事例を見ていきます。 必要に応じて、Pythonのプログラムや統計ソフト「R」などでの作成例にも触れることにします。 数学などの前提知識は特に問いません。中学・高校の教科書レベルの数式が登場するかもしれませんが、必要に応じて説明を付け加えるのでご心配なく。肩の力を抜いてぜひとも気楽に読み進めてください。 筆者紹介: IT系ライターの傍ら、非常勤講師として東大で情報・プログラミング関連の授業を、一橋大
はじめに こんにちは、検索基盤部の伊澤です。検索基盤部では普段から、ZOZOTOWNの検索機能に関するデータ分析や、データ分析を踏まえた検索性能の改善に取り組んでいます。 検索に関するデータ分析では、検索クエリの傾向把握や課題のあるクエリの特定のために、検索クエリごとの検索結果のクリック率やコンバージョン率といったパフォーマンス指標を評価しています。 本記事では、検索クエリごとのデータ分析に関する情報共有を効率化するため、ウェブフレームワークの「Dash」で開発したダッシュボードを活用した事例を紹介します。 目次 はじめに 目次 検索クエリごとのデータ分析の重要性 分析結果のチーム内共有時の課題 Dashを用いたダッシュボードの開発 Dashとは Dashを選定した理由 検索クエリごとのパフォーマンス指標のダッシュボード 1. 検索クエリごとのパフォーマンス指標のテーブル 2. 検索クエリ
人文系大学生〜学部卒の方々を念頭に置いた講演でのスライドです。Enjoy! *書籍:林岳彦著『はじめての統計的因果推論』(岩波書店)の情報はこちら→ https://www.iwanami.co.jp/book/b639904.html
慶應義塾大学・株式会社Nospareの菅澤です. 今回はベイズ統計学を勉強するための参考書の順番 (私見) について紹介していきます. 3年ほど前に『日本語で学べるベイズ統計学の教科書10冊』を紹介しましたが,今回は「どのような順番でどの参考書を読んでいくと比較的スムーズに勉強が進められるのか」に焦点を当て,比較的最近の書籍や英語の書籍まで含めて紹介していきます. まずは全体的なフローのイメージを提示しておきます. 今回の記事では,「ベイズ統計学を勉強すること」のスタートとゴールを以下のように定めます. (スタート) 統計学の基礎的な内容 (統計検定2級程度の内容) は身についている (ゴール) ベイズモデリングに関する最新の論文がある程度理解して読め,自力でモデルを組んだり実装することができる また,このゴールへの道のりとして,大きく2通りのルートを想定します. (ルートA: フルスクラ
受講するには総務省のWebサイトへの登録が必要だが、登録料や受講料は無料だ。ドコモgaccoが運営するオンライン講座プラットフォーム「gacco」で受講できる。 講座は1回当たり10分程度 社会人のためのデータサイエンス入門は、社会人や大学生を対象とした、統計データ分析の基本的な知識を学べる入門編講座で総務省は「統計学の基礎や統計データの見方などを学習し、身近なデータの活用に役立てられる」としている。2015年3月に開講し、これまで延べ約19万2000人が受講した。 関連記事 密ベクトル(Dense Vector)とは? 疎ベクトル(Sparse Vector)との違い 全てまたはほとんどの成分が0以外の数値を持つベクトルを「密ベクトル」と呼び、その代表例にはテキストなどのEmbedding(埋め込み表現)がある。また、大部分の成分が0で、一部のみが0以外の数値を持つベクトルを「疎ベクトル
はじめに 概要 ベイズ統計を用いてKaggleの1タイタニック問題を解いてみる. 分析は以下の手順で行う. データの可視化・理解 データの加工・前処理 ベイズ統計分析 モデルの記述 デザイン行列・データリストの作成 Stanファイルの記述 MCMC! 結果の評価 実行環境 Mac OS Sonoma 14.1 R version 4.3.1 RStudio version 2023.12.1+402 > R.versions version.string R version 4.3.1 (2023-06-16) > sessionInfo() other attached packages: [1] posterior_1.5.0 cmdstanr_0.6.1 lubridate_1.9.3 forcats_1.0.0 [5] stringr_1.5.0 dplyr_1.1.3 purrr
マネーフォワード 分析推進部の石田と申します。 社内では、データサイエンティストとして施策効果検証系の案件を中心に担当しています。 本稿から2回に渡って、「ABテストにおける分散削減手法」というテーマで記事を執筆したいと思います。 馴染みのない方もいらっしゃるかもしれませんが、ABテストへ分散削減手法を適用することで、例えば以下に挙げたメリットを享受することができます。 必要サンプルサイズを低減できるため、意思決定サイクルを高速化できる より小さな改善効果を検出できる 魅力的だと感じていただけた方は、ぜひ最後まで本稿をお読みください! 目次 想定する読者層と書いてある内容本稿のメインターゲットは、以下のような方です。 統計的仮説検定の理論を少し勉強したことがあるけど、分散削減と言われてもあまりピンと来ていない 確率変数、標本平均、分散、正規分布の意味は分かるけど、t検定の検定統計量がパッと
この連載では、データをさまざまな角度から分析し、その背後にある有益な情報を取り出す方法を学びます。 データの収集方法、データの取り扱い、分析の手法などについての考え方を具体例で説明するとともに、身近に使える表計算ソフト(ExcelやGoogleスプレッドシート)を利用した作成例を紹介します。 必要に応じて、Pythonのプログラムや統計ソフトRなどでの作成例にも触れることにします。 数学などの前提知識は特に問いません。肩の力を抜いてぜひとも気楽に読み進めてください。 第1回 高校生に負けない! 社会人が学ぶべき、やさしいデータ分析(2023/04/20) もはや中学・高校生も学んでいるデータ分析&データサイエンス データ分析/データサイエンスが重要視されるのはなぜ? この連載で取り扱う内容 第2回 データ分析の進め方と、分析前に知っておきたいデータの種類(2023/05/11) データ分析
「Microsoft Excel(エクセル)」で表を作成する際、ついつい見栄えを優先して、セルを結合したり、セル内に単位などを直接入力したりしていないだろうか。単に閲覧するだけの「表」を作るなら、問題ないだろう。しかし、データとして活用する場合には、機械処理する際の障害となるなど不都合な点もある。 総務省統計局が公開した各府省が政府統計の総合窓口(e-Stat)に掲載する統計表の表記方法の統一ルール「統計表における機械判読可能なデータの表記方法の統一ルールの策定」では、こうした機械処理に向かないExcelの表を作成しないことを推奨しており、ガイドラインを示している。 この統一ルールは本来、e-Statで統計表を公開する各府省向けのものだ。しかし、一般企業などにおいても参考にすべき点が多い。そこで、Tech TIPSの中で「構造化Excelテク」として、この統一ルールの中から幾つかのルールを
各年の受験者総数と各級各年の合格率(CBT方式) コンピュータ上で実施するCBT(Computer Based Testing)方式の「統計検定」の各年の受験者総数と各級の各年の合格率を示します。 各年の受験者総数 年受験者数
はじめに こんにちは、検索基盤部の広渡です。検索基盤部では、検索クエリのサジェスト(以下、サジェスト)の改善を行なっています。ここでサジェストは一般的に「Query Auto Completion」と呼ばれる、検索クエリを入力した際に入力の続きを補完したキーワードを提示する機能を指します。 ZOZOTOWNにおいては検索クエリを入力したとき、最大10件の検索クエリのサジェスト(以下、サジェストリスト)が表示されます(なお、ランキングを考慮しない場合はサジェスト集合と呼ぶこととします)。また、サジェストリストのランキングはユーザーの行動ログを用いて計算されたスコアによって決定されます。サジェストの具体的な説明や過去の改善事例は以下の記事を参照してください。 techblog.zozo.com techblog.zozo.com サジェストリストをチーム内で定性評価したところ、類似したサジェス
この記事の概要 p値を理解するには統計学の基礎知識が必要 統計学は「自然界の現象にはばらつきがあり」「測定値には誤差がある」から必要 知りたい事・言いたい事に対し「逆の事」を考える その「逆の事」が正しい確率がp値 p値が十分に小さければ「逆の事」は滅多に起こらないので「言いたい事」が言える この記事の概要 この記事のお題 p値の説明に必要な事 統計学はなぜ必要なのか? 言いたい事を言うために逆の事*1を考える 「p値」とは「逆の事」が正しい確率 この記事のお題 今日のお題は、こちらの記事についてです。 diamond.jp まず、その前に、この記事の前の記事が素晴らしかったんです。 【「0.05」の謎】統計学好きでも意外と知らない「統計的に有意」の本当の正体 | Science Fictions あなたが知らない科学の真実 | ダイヤモンド・オンライン なので、その記事のブクマに次のよう
心理学者。キングス・カレッジ・ロンドンの精神医学・心理学・神経科学研究所の講師。2015年に科学的心理学会(アメリカ)の「期待の星(ライジンング・スター)」賞を受賞。『タイムズ』『ワシントン・ポスト』『ワイアード』などに数多く寄稿し、BBCラジオなどの出演もある。 Science Fictions あなたが知らない科学の真実 スタンフォード監獄実験はイカサマだった! 権威ある心理学研究の100件のうち、再現に成功したのはたったの39%!? 科学の信頼性を根底から揺るがす「再現性の危機」に迫る真実の書、日本上陸! 科学における不正・怠慢・バイアス・誇張が起きる仕組みを多数の実例とともに解説。既存の本で知ったウンチクを得意げに語る人に読ませたい、真実の書。 バックナンバー一覧 「すべての科学研究は真実である」と考えるのは、あまりに無邪気だ――。 科学の「再現性の危機」をご存じだろうか。心理学、
はじめに 二値分類の評価指標について 「AUCとGini係数ってどんな関係だっけ?」 と毎回忘れては調べているので、いい加減覚える意味で体系的にまとめてみる。 この記事では AUCとは何か? Gini係数とは何か 両者はどんな関係があるか? を理解することを目的とする。 最初に結論 AUCとGini係数の間には の関係がある。 AUCは0.5から1の範囲を取るため、Gini係数は0から1までの範囲を取る。 どちらも値が大きいほど分類性能が良いことを表す。 最終的にこの式を理解することを目的としよう。 AUCを理解しよう AUC (Area Under the Curve)は二値分類における有名な評価指標の一つであり、文字通り、「ROC曲線下の面積」を表す。 ROC曲線とは? ROC (Receiver Operating Charastaristic Curve)は受信者操作特性と呼ばれる
筆者紹介: IT系ライターの傍ら、非常勤講師として東大で情報・プログラミング関連の授業を、一橋大でAI関連の授業を担当。書道、絵画を経て、ピアノとバイオリンを独学で始めるも学習曲線は常に平坦。趣味の献血は、最近脈拍が多く99回で一旦中断。さらにリターンライダーを目指し、大型二輪免許を取得。1年かけてコツコツと貯金し、ようやくバイクを購入(またもや金欠)。 前回は単回帰分析により、説明変数xの値から目的変数yの値を予測するための回帰式を求めたり、回帰式を基に予測を行ったりしました。 今回は、説明変数が複数ある場合の重回帰分析に取り組みます。図1の例であれば、年式が説明変数x1、走行距離が説明変数x2、排気量が説明変数x3となり、本体価格が目的変数yとなります。図1のデータでは実際のメーカーや車種の名称が使われていますが、本体価格などの値は架空のものです。 図1 重回帰分析を利用して中古車の価
本章では、二項検定を学びます。二項検定は、本書で学ぶ統計手法の中では、最も使用頻度が低い手法です。しかし、統計学の入門に最適な学習項目です。理由が3つあります。第一に、高校1~2年で学んだ数学だけで、この手法の原理を完全に理解できます。統計手法はたくさんありますが、唯一この手法だけは、全て手作りの計算で実行できます。第二に、面倒な検定統計量の計算を必要としません。第三に、二項検定には、検定の論理の全てが詰まっています。こうした理由から、読者のお父さんやお母さん、もしくは、お爺ちゃんやお婆ちゃんの世代では、二項検定は、高校の数学の教科書で解説されていました。この「とても分かりやすい」という長所を、活用しない手はありません。本書では、統計学の学習を、二項検定から始めます。本章では、当時の大学入試の頻出問題をさらに簡単にした例題を使って、学びます。… 本書の使い方 統計学を学ぶ心がけ/予備知識/
統計検定準1級で最優秀成績書を一発で取得したので勉強方法をまとめようと思います。これから受験される方の参考になれば幸いです。 受験前の私の状況 受験のきっかけ 統計検定準1級概要 統計検定準1級の勉強法 使用した教材 勉強スケジュールと勉強時間 勉強方法 試験本番 試験結果 試験の所感 統計検定準1級取得後 受験前の私の状況 理系院卒 大学時代に教養で統計や数学は習っていましたが、ほとんど忘れている状態。 仕事ではエクセルで簡単なデータ分析をしたことある程度。 統計検定2級を取得済み。 受験のきっかけ 統計検定2級を取得し、統計に興味が湧きました。 詳しく統計を勉強してみたいと思い統計検定準1級の勉強を決意しました。 統計検定準1級概要 統計検定準1級は、2級までの基礎知識をもとに、実社会の様々な問題に対して適切な統計学の諸手法を応用できる能力を問うものです。 詳細は公式HPをご確認くださ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く