タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

LDAに関するseikennのブックマーク (8)

  • 線形分類器 - Wikipedia

    線形分類器(英: Linear classifier)は、特徴の線形結合の値に基づいて分類を行う確率的分類器である。機械学習において、分類は項目群を特徴値に基づいてグループに分類することを目的とする。 定義[編集] 分類器への入力特徴ベクトルが実数ベクトル であるとき、出力のスコアは次のようになる。 ここで、 は重み付けの実数ベクトル、f は2つのベクトルのドット積を必要な出力に変換する関数である。重み付けベクトル はラベル付き訓練例で学習することで変化していく。f はあるしきい値以上の値を第一クラスに分類し、それ以外を第二クラスに分類するといった単純な関数であることが多い(二項分類)。より複雑な f としては、ある項目があるクラスに属する確率を与えるものなどがある。 二項分類問題は、高次元の入力空間を超平面で分割する操作として視覚化できる。その超平面の一方の側にある点は分類において "y

    seikenn
    seikenn 2011/05/19
  • LDA 追試(訓練データとテストデータを分けたら) - 木曜不足

    LDA の評価結果+Collapsed Variational Bayesian の初期化における工夫 - Mi manca qualche giovedi`? のコメント欄にて、daichi さんに「テストデータを用意して、そちらのperplexityを順次評価してみるとどうなるでしょうか。LWLM等と同様、その場合には smart init が一番高い確率を与える可能性があるかも知れません」とアドバイスをいただいた。多謝。 θ_d が大変そう、とつぶやいてたら同じくコメント欄にて yossy さんから「θ_d周りの実装が少し面倒なせいか、各文書の90%の単語で学習して残り10%で評価することがよく行われます」とさらにアドバイスをいただいた。またまた多謝。 というわけで試してみた。 https://github.com/shuyo/iir/blob/master/lda/lda_test

    LDA 追試(訓練データとテストデータを分けたら) - 木曜不足
    seikenn
    seikenn 2011/05/12
  • http://blog.yuku-t.com/entry/20110508/1304860257

    seikenn
    seikenn 2011/05/09
  • [NLP] 第五回自然言語処理勉強会で発表してきました - tsubosakaの日記

    id:nokunoさんの主催する自然言語処理勉強会で、Infer.NETを使ってLDAを実装してみたというタイトルで発表してきました。 Infer.NETMicrosoftが公開しているグラフィカルモデル上でベイズ推定を行うためのフレームワークです。このようなものを使うことにより、具体的な推論アルゴリズムの導出を人が行うことなく、生成モデルを記述するだけで事後分布の推論が可能になり、簡単に確率モデルを問題に合わせて定義するということが行えるようになるといいなと思って、今回紹介しました。 Infer.NETを使ってLDAを実装してみた View more presentations from tsubosaka 参考文献 Infer.NETを使う上で参考になるかと思われる書籍をあげておきます。 パターン認識と機械学習 上 - ベイズ理論による統計的予測 作者: C. M.ビショップ,元田浩

    [NLP] 第五回自然言語処理勉強会で発表してきました - tsubosakaの日記
    seikenn
    seikenn 2011/04/28
  • lda, a Latent Dirichlet Allocation package

    lda, a Latent Dirichlet Allocation package. Daichi Mochihashi NTT Communication Science Laboratories $Id: index.html,v 1.3 2004/12/04 12:47:35 daiti-m Exp $ Overview lda is a Latent Dirichlet Allocation (Blei et al., 2001) package written both in MATLAB and C (command line interface). This package provides only a standard variational Bayes estimation that was first proposed, but has a simple textu

    seikenn
    seikenn 2011/04/22
  • ディリクレ分布のパラメータが0のとき - 木曜不足

    ディリクレ分布のハイパーパラメータは a_i > 0 なのだけど、a_i = 0 の場合はその要素が縮退したと考えることが出来るよ〜的なことを Furguson の論文で見た覚えがあったので、社内での PRML 勉強会でそれをちらっと言ってみたら、ちゃんと証明してくれないと〜、と西尾さんにフルボッコにされた。 というわけで、PRML の範囲でちょっとまじめに考えてみた。 まず準備として x = cy と変数変換することで以下の式を示しておく。ただし B(a,b) はβ関数。 K 次のディリクレ分布を考える(Z は正規化定数) ただし なので、 x_K を消すと これを x_{K-1} で周辺化する。 これより が をハイパーパラメータとする (K-1) 次のディリクレ分布に従うことがわかる。 同様に1つずつ変数を減らしていくことで、 各 x_k はβ分布 に従うことが言える。 次に、β分布

    ディリクレ分布のパラメータが0のとき - 木曜不足
    seikenn
    seikenn 2011/03/04
  • Latent Dirichlet Allocations の Python 実装 - 木曜不足

    LDA とは "Latent Dirichlet Allocation"。文書中の単語の「トピック」を確率的に求める言語モデル。 「潜在的ディリクレ配分法」と訳されていることもあるが、その名前だと「それってなんだっけ?」という人のほうが多そうw。 各単語が「隠れトピック」(話題、カテゴリー)から生成されている、と想定して、そのトピックを文書集合から教師無しで推定することができる。特徴は、果物の apple音楽apple とコンピュータ関連の apple を区別することが出来る(ことが期待される)という点。そのために、どのトピックを生成しやすいかという分布を各文章も持つ。細かい話は略。 結果の見方としては、定量的にはパープレキシティを見るし(一般に小さいほどいい)、定性的には各トピックがどのような単語を生成するか、その確率上位のものを見てふむふむする。この「各トピックが生成する単語」

    Latent Dirichlet Allocations の Python 実装 - 木曜不足
    seikenn
    seikenn 2011/02/28
  • Latent Dirichlet Allocations(LDA) の実装について - 木曜不足

    昨日の "Latent Dirichlet Allocations in Python" の続きで実験結果を載せようかと思ったけど、先にやっぱりもうちょっと LDA を説明しておこう。 LDA の初出は [Blei+ 2003] Latent Dirichlet Allocation 。 ただし [Blei+ 2003] で "LDA" としているのはトピック-単語分布がただの多項分布(事前分布無し)のもの。"LDA" としてよく目にするトピック-単語多項分布にディリクレ事前分布が入ったものは "Smoothed LDA" として記載されている(確かにβでスムージングしているのと等価)。 今回実装した LDA も後者の "Smoothed LDA"。 その LDA はこんな感じ。αとβはハイパーパラメータだから、チビ黒丸で書いて欲しいんだけどね。 (図は Wikipedia-en の LD

    Latent Dirichlet Allocations(LDA) の実装について - 木曜不足
    seikenn
    seikenn 2011/02/28
  • 1