タグ

データサイエンスに関するmisshikiのブックマーク (459)

  • チェビシェフ距離(Chebyshev distance)/L∞ノルムとは?

    チェビシェフ距離(Chebyshev distance)/L∞ノルムとは?:AI機械学習の用語辞典 用語「チェビシェフ距離」について説明。2点間の距離を計測する方法の一つで、2つの点座標(n次元)で「次元ごとの距離(=各成分の差)の絶対値」のうち「最大値」を距離として採用する計算方法を意味する。 連載目次 用語解説 数学/統計学/機械学習におけるチェビシェフ距離(Chebyshev distance、Chessboard distance:チェス盤距離)とは、2点間の距離を計測する際に、n次元ベクトルで表現されるそれらの点座標の次元ごとに距離(=成分間の差)の絶対値を求めて、その中の最大値を距離とする方法である。 チェビシェフ距離は、n次元のチェス盤の上をキング(駒)が移動する手数(=ステップ数)によく例えられる(図1)。キングは斜めにも真っ直ぐにも動けるため、例えば左下にあるx地点から

    チェビシェフ距離(Chebyshev distance)/L∞ノルムとは?
    misshiki
    misshiki 2024/05/16
    “2点間の距離を計測する方法の一つで、2つの点座標(n次元)で「次元ごとの距離(=各成分の差)の絶対値」のうち「最大値」を距離として採用する計算方法”
  • 日本の給料が「どの職種でもほぼ同じ」の根本理由、古すぎる「報酬決定メカニズム」

    米国では、ソフトウェアエンジニアといった職種の報酬が著しく高い。日と比較すると、その差は4倍にも及ぶ。職種によって報酬額に差が見られるが、日はどの職種もほとんど同じような額である。それはなぜなのか。そこには、日と米国で大きく異なる報酬決定のメカニズムが関係してくる。 1940年、東京に生まれる。 1963年、東京大学工学部卒業。 1964年、大蔵省入省。 1972年、エール大学Ph.D.(経済学博士号)を取得。 一橋大学教授、東京大学教授(先端経済工学研究センター長)、スタンフォード大学客員教授、早稲田大学大学院ファイナンス研究科教授などを歴任。一橋大学名誉教授。 noteアカウント:https://note.com/yukionoguchi Twitterアカウント:@yukionoguchi10 野口ホームページ:https://www.noguchi.co.jp/ ★連載が書

    日本の給料が「どの職種でもほぼ同じ」の根本理由、古すぎる「報酬決定メカニズム」
    misshiki
    misshiki 2024/05/14
    “ソフトウェアエンジニアやデータサイエンティストでは、米国が日本の4倍程度と、非常に大きい”
  • やさしいデータ分析【確率分布編】 新連載開始!

    この連載は、データをさまざまな角度から分析し、その背後にある有益な情報を取り出す方法を学ぶ『社会人1年生から学ぶ、やさしいデータ分析』連載(記述統計と回帰分析編)の続編で、確率分布に焦点を当てています。 この確率分布編では、推測統計の基礎となるさまざまな確率分布の特徴や応用例を説明します。身近に使える表計算ソフト(Microsoft ExcelGoogleスプレッドシート)を使いながら具体的に事例を見ていきます。 必要に応じて、Pythonのプログラムや統計ソフト「R」などでの作成例にも触れることにします。 数学などの前提知識は特に問いません。中学・高校の教科書レベルの数式が登場するかもしれませんが、必要に応じて説明を付け加えるのでご心配なく。肩の力を抜いてぜひとも気楽に読み進めてください。 筆者紹介: IT系ライターの傍ら、非常勤講師として東大で情報・プログラミング関連の授業を、一橋大

    やさしいデータ分析【確率分布編】 新連載開始!
    misshiki
    misshiki 2024/05/09
    “推測統計の基礎となる確率分布の意味や種類、特徴を解説。離散型分布と連続型分布の違いや種類、確率分布を表す確率質量関数/確率密度関数と累積分布関数の意味や特徴などを見ながら連載の全体像を紹介します。”
  • はじめての「相関と因果とエビデンス」入門:“動機づけられた推論” に抗うために

    人文系大学生〜学部卒の方々を念頭に置いた講演でのスライドです。Enjoy! *書籍:林岳彦著『はじめての統計的因果推論』(岩波書店)の情報はこちら→ https://www.iwanami.co.jp/book/b639904.html

    はじめての「相関と因果とエビデンス」入門:“動機づけられた推論” に抗うために
    misshiki
    misshiki 2024/04/30
    全156ページのスライド資料。
  • Excelで学ぶ、やさしいデータ分析

    データ分析に興味はあるけれど、どこから手を付けていいか分からない……そんなあなたにぴったりなのが、この無料の電子書籍Excelで学ぶ、やさしいデータ分析』です。ここから、データ分析の第一歩を気軽に踏み出してみましょう! この電子書籍は、「Microsoft Excel」「Googleスプレッドシート」など日常的に触れる表計算ソフトウェアを使って、自分の手で体験しながら段階的に学べるように設計されています。概念や手順は誰でも理解できるように丁寧に易しく説明されており、数学やプログラミングの前提知識も必要ありません。 書は、データ分析を初歩から学びたい方々に向けた「包括的な教科書」として、データの取り扱い方から基的な分析方法まで、幅広いテーマを網羅しています。具体的には、以下の全16回で構成されています。 データ分析の基礎: 第1回 データ分析を学ぶべき理由と連載概要 第2回 前提基礎:

    Excelで学ぶ、やさしいデータ分析
    misshiki
    misshiki 2024/04/24
    “表計算ソフトで試しながら、基本的なデータ分析を学べます。”全300ページで無料の電子書籍(PDF)。
  • 【選考直結型】RECRUIT INTERNSHIP for Data Specialists 2024 | EVENT | Engineering at Recruit

    ※上記事例は全て社内セキュリティレベルと同様の環境下にて運用を行い、ご参加いただく学生の皆さんと機密保持に関する誓約を締結し、契約期間のみデータに触れることができる形で情報管理をしております。 過去の参加者の声 ・リクルートのデータスペシャリストとして1ヶ月半インターンシップに参加しました! ・【リクルートインターン参加記】BigQueryの全社的なスロット利用状況を可視化するツールの制作 ・VertexAIを利用した機械学習モデルにおける評価・分析パイプラインの構築 こんな方にオススメ ・国内最大級の膨大なデータを扱い、プロダクトを改善するための施策立案〜推進、新たな機能の拡充・開発、中長期を見据えた事業戦略の提案など、データを使用した専門スキルをベースに新たな価値の創造に貢献したい方。 必須スキル・経験 ※下記のスキルのうちどれか一つ有している方を対象としています。 ・数理統計学/解析

    【選考直結型】RECRUIT INTERNSHIP for Data Specialists 2024 | EVENT | Engineering at Recruit
    misshiki
    misshiki 2024/04/24
    “リクルートのデータスペシャリストとして、実際にプロジェクトにジョインし、社員と同じ目線で業務を行っていただきます。プロジェクトの一員として、自ら課題設定を行い、提案や実装を通して、プロダクトの成長に
  • ベイズ統計学を勉強する参考書のフロー - Qiita

    慶應義塾大学・株式会社Nospareの菅澤です. 今回はベイズ統計学を勉強するための参考書の順番 (私見) について紹介していきます. 3年ほど前に『日語で学べるベイズ統計学の教科書10冊』を紹介しましたが,今回は「どのような順番でどの参考書を読んでいくと比較的スムーズに勉強が進められるのか」に焦点を当て,比較的最近の書籍や英語の書籍まで含めて紹介していきます. まずは全体的なフローのイメージを提示しておきます. 今回の記事では,「ベイズ統計学を勉強すること」のスタートとゴールを以下のように定めます. (スタート) 統計学の基礎的な内容 (統計検定2級程度の内容) は身についている (ゴール) ベイズモデリングに関する最新の論文がある程度理解して読め,自力でモデルを組んだり実装することができる また,このゴールへの道のりとして,大きく2通りのルートを想定します. (ルートA: フルスクラ

    ベイズ統計学を勉強する参考書のフロー - Qiita
  • 総務省、6月11日開講の「社会人のためのデータサイエンス入門」受講生募集を開始

    CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

    総務省、6月11日開講の「社会人のためのデータサイエンス入門」受講生募集を開始
  • 2024年も無料で学べる 総務省が「社会人のためのデータサイエンス入門」を開講

    受講するには総務省のWebサイトへの登録が必要だが、登録料や受講料は無料だ。ドコモgaccoが運営するオンライン講座プラットフォーム「gacco」で受講できる。 講座は1回当たり10分程度 社会人のためのデータサイエンス入門は、社会人や大学生を対象とした、統計データ分析の基的な知識を学べる入門編講座で総務省は「統計学の基礎や統計データの見方などを学習し、身近なデータの活用に役立てられる」としている。2015年3月に開講し、これまで延べ約19万2000人が受講した。 関連記事 密ベクトル(Dense Vector)とは? 疎ベクトル(Sparse Vector)との違い 全てまたはほとんどの成分が0以外の数値を持つベクトルを「密ベクトル」と呼び、その代表例にはテキストなどのEmbedding(埋め込み表現)がある。また、大部分の成分が0で、一部のみが0以外の数値を持つベクトルを「疎ベクトル

    2024年も無料で学べる 総務省が「社会人のためのデータサイエンス入門」を開講
    misshiki
    misshiki 2024/04/12
    “データサイエンスのオンライン講座「社会人のためのデータサイエンス入門」を同年6月11日に開講”
  • scikit-learn入門&使い方 ― 機械学習の流れを学ぼう

    連載目次 前回は、機械学習の基礎と、主要なPythonライブラリの概要を説明しました。 今回は、Pythonを使った機械学習プログラミングの基的な流れを、実際にコードを書きながら体験的に学んでいきましょう。具体的には、データの読み込みと加工から、グラフによる可視化、統計的な数値計算、そして簡単な機械学習モデルの構築まで、基的な一連の流れを体験できます(図1)。 今回で学べること 図1の通り、機械学習プログラミングの基的な流れに沿って進めると、第1回で紹介した主要なPythonライブラリ(pandas、NumPy、Matplotlib、seaborn、scikit-learnなど)を各場面で使い分けることになります。 各ライブラリを深く理解して使いこなすためには、個別に詳しく学ぶことが必要です。ただし連載では、詳細には触れず、実践で役立つ基的な使用例に絞って説明します。もっと深く掘

    scikit-learn入門&使い方 ― 機械学習の流れを学ぼう
    misshiki
    misshiki 2024/04/11
    “Pythonライブラリの基本的な使用例として、データの読み込みと加工(pandas使用)から、数値計算(NumPy使用)とデータ可視化(Matplotlib/seaborn使用)、機械学習(scikit-learnの使い方)までを体験しながら学ぼう。”
  • 「問題」と「課題」の違いを理解しているか 連載『データ分析・AIを実務に活かす データドリブン思考』 第2回 | データ経営|DIAMOND ハーバード・ビジネス・レビュー

    サマリー:データ分析をしていると、「データから新たな気付きを得た」「高精度な予測モデルを作った」「施策の効果を厳密に検証した」といったことに達成感を感じるのではないか。しかし、これらはいずれも「役立つ」データ分... もっと見る析とは言えない。第2回では、データ分析がビジネスへの貢献に失敗した5つのケースについて、「問題」と「課題」の観点から考えていく。稿は、データ分析の第一人者である河薫氏による『データ分析AIを実務に活かす データドリブン思考』(ダイヤモンド社)の一部を抜粋し、紹介したものである。 閉じる 5つのケースから考える「問題」と「課題」の違い 言葉だけではなかなか実感を持ってもらえないと思いますので、データ分析をして「分かる」ことに成功したが「役立つ」ことには失敗したケースを2つ挙げましょう。いずれも架空の話ですが、実際の企業でもこれに類似した失敗談はよくあります。

    「問題」と「課題」の違いを理解しているか 連載『データ分析・AIを実務に活かす データドリブン思考』 第2回 | データ経営|DIAMOND ハーバード・ビジネス・レビュー
    misshiki
    misshiki 2024/04/11
    “●「問題」とは、目標と現状との間にあるギャップのこと。 ●「課題」とは、目標と現状とのギャップを埋めるためにやるべきこと、すなわち、「問題」を解消するためにやるべきこと。”
  • ITスキルロードマップ roadmap.sh がすごい。AI and Data Scientist について対応する本をまとめた - Qiita

    ITスキルロードマップ roadmap.sh がすごい。AI and Data Scientist について対応するをまとめた機械学習データ分析キャリアデータサイエンスデータサイエンティスト Developer Roadmapsというサイトがすごいです。ITエンジニアの分野別にスキルアップのロードマップが示されています。 言語、基盤、アプリ、かなり網羅されています。 その中のAI and Data Scientist Roadmapについての推薦図書まとめです。 雑感 これだけ学んでいれば「こいつ知ってるな」感がありますね。ただ気になる点としては ビジネス、ドメイン知識や分析目的定義などのスキルについて言及がないのは残念。 いきなり数学から入るコースになってますが、一旦は飛ばしてコード写経してから戻ってきても良いと思います。ここで挫折すると勿体無いので。 計量経済学重視の観点はいいですね

    ITスキルロードマップ roadmap.sh がすごい。AI and Data Scientist について対応する本をまとめた - Qiita
  • [pandas超入門]Pythonでデータ分析を始めよう! データの読み書き方法

    連載目次 シリーズと連載について シリーズ「Pythonデータ処理入門」は、Pythonの基礎をマスターした人を対象に以下のような、Pythonを使ってデータを処理しようというときに便利に使えるツールやライブラリ、フレームワークの使い方の基礎を説明するものです。 Pythonだけを覚えれば何でもできるわけではない、というのはハードルが高く感じられるかもしれません。それでもプログラミング言語に関する基礎が身に付いたら、後は各種のツールを使いながら、言語とツールに対する理解を少しずつ、しっかりと深めていくことで自分がやれることも増えていきます。そのお手伝いをできたらいいな、というのがシリーズの目的とするところです。 なお、連載では以下のバージョンを使用しています。 Python 3.12 pandas 2.2.1 pandasとは pandasはデータ分析やデータ操作を高速かつ柔軟に

    [pandas超入門]Pythonでデータ分析を始めよう! データの読み書き方法
    misshiki
    misshiki 2024/04/05
    “Pythonでデータ処理を始めようという人に向けて、pandasとは何か、インストール、データセットの読み込みと書き込み、簡単なメソッド呼び出しまでを説明します。”
  • データ分析のためのSQLを書けるようになるために

    はじめに 稿では分析用クエリをスラスラ書けるようになるまでの勉強方法や書き方のコツをまとめてみました。具体的には、自分がクエリを書けるようになるまでに利用した教材と、普段クエリを書く際に意識していることを言語化しています。 想定読者として、SQLをガンガン書く予定の新卒のデータアナリスト/データサイエンティストを想定しています。 勉強方法 基礎の基礎をサッと座学で勉強してから、実践教材で実際にクエリを書くのが望ましいです。 実務で使える分析クエリを書けるようになるためには、実務経験を積むのが一番良いですが、だからといって座学を御座なりにして良いというわけではありません。SQLに自信がない人は、一度基礎に立ち返って文法の理解度を確認した方が良いと思います。 書籍 SQL 第2版: ゼロからはじめるデータベース操作 前提として、SQLに関する書籍の多くがデータベース運用/構築に関する書籍がほ

    データ分析のためのSQLを書けるようになるために
  • RubyのPolarsでデータサイエンティスト協会の100本ノックやってみた — 1 ~ 15問

    記事の趣旨 記事では、Rust製の高速データフレームであるPolarsRuby版を利用して、データサイエンティスト協会の提供する「データサイエンス100ノック(構造化データ加工編)」をやってみることを目的にしています。 Polarsについては、下記の公式サイトを参照してください。 Ruby版のPolarsは、polars-dfというgem名で開発されています。 Rubyを使用したデータサイエンスライブラリをばりばり開発されているankane(Andrew Kane)さんによるgemです。 深層学習やデータフレーム、LightGBM、ベイズ推定など幅広い用途のRuby用データサイエンスライブラリを開発されているすごい方です。 また、記事では「データサイエンティスト協会スキル定義委員」の「データサイエンス100ノック(構造化データ加工編)」を利用しています。 実際のデータサイエンスの

    RubyのPolarsでデータサイエンティスト協会の100本ノックやってみた — 1 ~ 15問
    misshiki
    misshiki 2024/03/29
    “Rust製の高速データフレームであるPolarsのRuby版を利用して、データサイエンティスト協会の提供する「データサイエンス100本ノック(構造化データ加工編)」をやってみる”
  • 社会人1年生から学ぶ、やさしいデータ分析

    この連載では、データをさまざまな角度から分析し、その背後にある有益な情報を取り出す方法を学びます。 データの収集方法、データの取り扱い、分析の手法などについての考え方を具体例で説明するとともに、身近に使える表計算ソフト(ExcelGoogleスプレッドシート)を利用した作成例を紹介します。 必要に応じて、Pythonのプログラムや統計ソフトRなどでの作成例にも触れることにします。 数学などの前提知識は特に問いません。肩の力を抜いてぜひとも気楽に読み進めてください。 第1回 高校生に負けない! 社会人が学ぶべき、やさしいデータ分析2023/04/20) もはや中学・高校生も学んでいるデータ分析&データサイエンス データ分析/データサイエンスが重要視されるのはなぜ? この連載で取り扱う内容 第2回 データ分析の進め方と、分析前に知っておきたいデータの種類(2023/05/11) データ分析

    社会人1年生から学ぶ、やさしいデータ分析
    misshiki
    misshiki 2024/03/28
    記述統計編と回帰分析編の連載が完結。全17本の記事。次の連載は確率分布編と推測統計編。
  • 大学で読んだ情報科学関連の教科書 - ジョイジョイジョイ

    先日、博士(情報学)になりました。学部と大学院をあわせた 9 年間で読んだ情報科学関連の教科書・専門書を思い出を振り返りつつここにまとめます。私は授業はあまり聞かずに独学するタイプだったので、ここに挙げた書籍を通読すれば、大学に通わなくてもおおよそ情報学博士ほどの知識は身につくものと思われます。ただし、特に大学院で重要となる論文を読み書きすることについては稿には含めておりません。それらについては論文読みの日課についてや論文の書き方などを参考にしてください。 joisino.hatenablog.com 凡例:(半端)とは、数章だけ読んだ場合か、最後まで読んだものの理解が浅く、今となっては薄ぼんやりとしか覚えていないことを指します。☆は特におすすめなことを表します。 学部一年 寺田 文行『線形代数 増訂版』 黒田 成俊『微分積分』 河野 敬雄『確率概論』 東京大学教養学部統計学教室『統計学

    大学で読んだ情報科学関連の教科書 - ジョイジョイジョイ
  • https://twitter.com/_stakaya/status/1769571925683232805

    misshiki
    misshiki 2024/03/19
    “"Jupyterノートブック一本打法"から抜け出すための自学素材。”Beyond Jupyter。
  • 生成AIによる大きな変化の最中でデータサイエンス領域に求められるスキルとは?--データサイエンティスト協会が定義するAI利活用スキル

    生成AIによる大きな変化の最中でデータサイエンス領域に求められるスキルとは?–データサイエンティスト協会が定義するAI利活用スキル 2013年に設立された一般社団法人データサイエンティスト協会は、2023年に設立から10年の節目を迎えた。同年、生成AIをはじめとする急激なAI技術発展・普及に伴い、利活用に向けたスキルの重要性がクローズアップされるようになった。AIの社会実装がいよいよ格化していく最中、同協会は、2023年10月20日に記念すべき第10回目となるデータサイエンティスト協会シンポジウム「データサイエンスの最前線」を開催。「AI利活用スキル」を盛り込んだ「データサイエンティストスキルチェックリスト」の最新版(Ver.5/2023年10月30日発表)の作成に関わったスキル定義委員会のメンバーが集い、短期間の開発サイクルで激変するAIの世界で、現時点で考えられる利活用のためのスキル

    生成AIによる大きな変化の最中でデータサイエンス領域に求められるスキルとは?--データサイエンティスト協会が定義するAI利活用スキル
  • データサイエンス入門以前 データを正しく読み取るための基礎知識

    2024年3月6日紙版発売 2024年3月6日電子版発売 阿部圭一 著 四六判/160ページ 定価1,980円(体1,800円+税10%) ISBN 978-4-297-14067-0 Gihyo Direct Amazon 楽天ブックス ヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle ブックライブ 楽天kobo honto このの概要 データサイエンスや人工知能への関心の高まりとともに,データを読み取る能力の重要性が高まっています。データサイエンティストでなくても,「最近行った販促活動は売上につながっているのか」「広告や報道,SNSに出てくるグラフの読み取り」「ネットの情報の真偽を確かめる」など,私達は仕事や日常で多くのデータを扱っています。 書は,数学が苦手な人にも馴染みやすい身近な例からデータに関する基を学び,数字に強く

    データサイエンス入門以前 データを正しく読み取るための基礎知識
    misshiki
    misshiki 2024/03/08
    “ 2024年3月6日紙版発売”基礎的な主に統計学の内容。