タグ

機械学習に関するsoh3914のブックマーク (3)

  • Pythonでデータ分析:ランダムフォレスト - データサイエンティスト(仮)

    導入 前回、非線形的な効果を表現することの一例として、決定木回帰を紹介しました。 tekenuko.hatenablog.com 決定木は、ざっくりとしたデータの特徴を捉えるのに優れています*1。しかしながら、条件がデータに依存しがちなため、過学習しやすいという欠点もあったのでした。 この欠点を緩和するための方法として、アンサンブル学習という方法があります。これは、データをサンプリングしてモデルを構築、それらを組み合わせて新たなモデルを構築する方法です。ランダムフォレストは、ざっくりいうと多数の決定木を作成し、それらを平均化する手法です。個々のモデルではデータの変化の影響が大きくても、まるっと平均化したものは影響が少なくなるため、一つの決定木でモデルを作るのに比べて過学習が緩和されやすくなります*2。 ランダムフォレストをより深く理解するためには、ある程度しっかりした機械学習を読んだり

  • Kullback-Leiblerダイバージェンス - 機械学習の「朱鷺の杜Wiki」

    2023-12-04 python 2023-11-22 PRML/errata2 2023-11-21 PRML/errata1 2023-11-01 しましま/IBIS2023 2023-10-29 IBIS 2023-06-16 人工知能学会全国大会 2023-06-11 しましま/人工知能学会全国大会2023 2023-03-28 Book 2022-11-27 朱鷺の社 2022-11-24 しましま/IBIS2022 2022-07-08 AutoTicketLinkName 2022-06-17 しましま/人工知能学会全国大会2022 2021-11-13 しましま/IBIS2021 2021-10-29 回帰分析 2021-06-11 しましま/人工知能学会全国大会2021 2021-03-07 MenuBar 2021-02-15 python/numpy 2020-12

    soh3914
    soh3914 2012/07/03
    2つの確率分布の距離を定義することができる
  • RIETI - ビッグデータが迫る研究開発の変革

    最先端の研究開発現場からビジネスまでのありとあらゆる場面で大きな変革―第四のパラダイムと呼称されることが多い―が起きつつある。それは、この一、二年"ビッグデータ"と総称される、質的に極めて多様で膨大な量のデータ群を有効利用することにより、地球から人間にいたるまで様々な対象をモデル化し、目的に応じた、より良い予測情報やサービスを提供する研究開発手段の台頭である。ビッグデータの取扱に必須の基幹的な科学技術は、巨大データベースに関わる工学領域をはじめとして、統計科学、数理工学、機械学習、データマイニングといった、日では人材が量的に不足している研究分野で生まれている。 このBBLセミナーでは、ビッグデータを取りまく日米の現状を概説するとともに、ビッグデータの利活用を阻む日独自の問題点について論じてみたい。 昨今、データを取り巻く環境が激変しています。以前はデータの質・量ともに不足しており、地球

  • 1