[B! LDA] seikennのブックマーク

線形分類器 - Wikipedia

線形分類器（英: Linear classifier）は、特徴の線形結合の値に基づいて分類を行う確率的分類器である。機械学習において、分類は項目群を特徴値に基づいてグループに分類することを目的とする。定義[編集] 分類器への入力特徴ベクトルが実数ベクトルであるとき、出力のスコアは次のようになる。ここで、は重み付けの実数ベクトル、f は2つのベクトルのドット積を必要な出力に変換する関数である。重み付けベクトルはラベル付き訓練例で学習することで変化していく。f はあるしきい値以上の値を第一クラスに分類し、それ以外を第二クラスに分類するといった単純な関数であることが多い（二項分類）。より複雑な f としては、ある項目があるクラスに属する確率を与えるものなどがある。二項分類問題は、高次元の入力空間を超平面で分割する操作として視覚化できる。その超平面の一方の側にある点は分類において "y

seikenn 2011/05/19

LDA

リンク

LDA 追試(訓練データとテストデータを分けたら) - 木曜不足

LDA の評価結果＋Collapsed Variational Bayesian の初期化における工夫 - Mi manca qualche giovedi`? のコメント欄にて、daichi さんに「テストデータを用意して、そちらのperplexityを順次評価してみるとどうなるでしょうか。LWLM等と同様、その場合には smart init が一番高い確率を与える可能性があるかも知れません」とアドバイスをいただいた。多謝。 θ_d が大変そう、とつぶやいてたら同じくコメント欄にて yossy さんから「θ_d周りの実装が少し面倒なせいか、各文書の90%の単語で学習して残り10%で評価することがよく行われます」とさらにアドバイスをいただいた。またまた多謝。というわけで試してみた。 https://github.com/shuyo/iir/blob/master/lda/lda_test

seikenn 2011/05/12

LDA

リンク

http://blog.yuku-t.com/entry/20110508/1304860257

seikenn 2011/05/09

LDA

リンク

[NLP] 第五回自然言語処理勉強会で発表してきました - tsubosakaの日記

id:nokunoさんの主催する自然言語処理勉強会で、Infer.NETを使ってLDAを実装してみたというタイトルで発表してきました。 Infer.NETはMicrosoftが公開しているグラフィカルモデル上でベイズ推定を行うためのフレームワークです。このようなものを使うことにより、具体的な推論アルゴリズムの導出を人が行うことなく、生成モデルを記述するだけで事後分布の推論が可能になり、簡単に確率モデルを問題に合わせて定義するということが行えるようになるといいなと思って、今回紹介しました。 Infer.NETを使ってLDAを実装してみた View more presentations from tsubosaka 参考文献 Infer.NETを使う上で参考になるかと思われる書籍をあげておきます。パターン認識と機械学習上 - ベイズ理論による統計的予測作者: C. M.ビショップ,元田浩

seikenn 2011/04/28

LDA

リンク

lda, a Latent Dirichlet Allocation package

lda, a Latent Dirichlet Allocation package. Daichi Mochihashi NTT Communication Science Laboratories $Id: index.html,v 1.3 2004/12/04 12:47:35 daiti-m Exp $ Overview lda is a Latent Dirichlet Allocation (Blei et al., 2001) package written both in MATLAB and C (command line interface). This package provides only a standard variational Bayes estimation that was first proposed, but has a simple textu

seikenn 2011/04/22

LDA

リンク

ディリクレ分布のパラメータが0のとき - 木曜不足

ディリクレ分布のハイパーパラメータは a_i > 0 なのだけど、a_i = 0 の場合はその要素が縮退したと考えることが出来るよ〜的なことを Furguson の論文で見た覚えがあったので、社内での PRML 勉強会でそれをちらっと言ってみたら、ちゃんと証明してくれないと〜、と西尾さんにフルボッコにされた。というわけで、PRML の範囲でちょっとまじめに考えてみた。まず準備として x = cy と変数変換することで以下の式を示しておく。ただし B(a,b) はβ関数。 K 次のディリクレ分布を考える(Z は正規化定数) ただしなので、 x_K を消すとこれを x_{K-1} で周辺化する。これよりがをハイパーパラメータとする (K-1) 次のディリクレ分布に従うことがわかる。同様に１つずつ変数を減らしていくことで、各 x_k はβ分布に従うことが言える。次に、β分布

seikenn 2011/03/04

LDA

リンク

Latent Dirichlet Allocations の Python 実装 - 木曜不足

LDA とは "Latent Dirichlet Allocation"。文書中の単語の「トピック」を確率的に求める言語モデル。「潜在的ディリクレ配分法」と訳されていることもあるが、その名前だと「それってなんだっけ？」という人のほうが多そうｗ。各単語が「隠れトピック」(話題、カテゴリー)から生成されている、と想定して、そのトピックを文書集合から教師無しで推定することができる。特徴は、果物の apple と音楽の apple とコンピュータ関連の apple を区別することが出来る(ことが期待される)という点。そのために、どのトピックを生成しやすいかという分布を各文章も持つ。細かい話は略。結果の見方としては、定量的にはパープレキシティを見るし(一般に小さいほどいい)、定性的には各トピックがどのような単語を生成するか、その確率上位のものを見てふむふむする。この「各トピックが生成する単語」

seikenn 2011/02/28

LDA

リンク

Latent Dirichlet Allocations(LDA) の実装について - 木曜不足

昨日の "Latent Dirichlet Allocations in Python" の続きで実験結果を載せようかと思ったけど、先にやっぱりもうちょっと LDA を説明しておこう。 LDA の初出は [Blei+ 2003] Latent Dirichlet Allocation 。ただし [Blei+ 2003] で "LDA" としているのはトピック-単語分布がただの多項分布(事前分布無し)のもの。"LDA" としてよく目にするトピック-単語多項分布にディリクレ事前分布が入ったものは "Smoothed LDA" として記載されている(確かにβでスムージングしているのと等価)。今回実装した LDA も後者の "Smoothed LDA"。その LDA はこんな感じ。αとβはハイパーパラメータだから、チビ黒丸で書いて欲しいんだけどね。 (図は Wikipedia-en の LD

seikenn 2011/02/28

LDA

リンク

はてなブックマーク

タグ

関連タグで絞り込む (0)

LDAに関するseikennのブックマーク (8)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス