タグ

clusteringに関するniamのブックマーク (5)

  • 軽量データクラスタリングツールbayon - mixi engineer blog

    逆転検事を先日クリアして、久しぶりに逆転裁判1〜3をやり直そうか迷い中のfujisawaです。シンプルなデータクラスタリングツールを作成しましたので、そのご紹介をさせていただきます。 クラスタリングとは クラスタリングとは、対象のデータ集合中で似ているもの同士をまとめて、いくつかのグループにデータ集合を分割することです。データマイニングや統計分析などでよく利用され、データ集合の傾向を調べたいときなどに役に立ちます。 例えば下図の例ですと、当初はデータがゴチャゴチャと混ざっていてよく分からなかったのですが、クラスタリングすることで、実際は3つのグループのデータのみから構成されていることが分かります。 様々なクラスタリング手法がこれまでに提案されていますが、有名なところではK-means法などが挙げられます。ここでは詳細については触れませんが、クラスタリングについてより詳しく知りたい方は以下の

    軽量データクラスタリングツールbayon - mixi engineer blog
  • HAC に使える feature selection を試す (nakatani @ cybozu labs)

    プチ間空きましたが、「IIR の「効果的な」階層的クラスタリング」の続き。 「次回は feature selection で次元を落とすのを試してみるべき」と書いたとおり、feature selection(特徴選択)を行ってみます。 要は「25文書しかないのに 8000 語とか多すぎる。文書増えてったらガクブル。よし減らそう。全部必要な訳ないしね。でも、どうやって?」という話です。 IIR では、Chapter 13 にて feature selection を扱っており、 また Chapter 18 では LSI(latent semantic indexing)、乱暴に言えば固有ベクトルを求めることでその空間が来持っている次元数(階数)を導いている。 しかし、Ch.13 の内容は Bayesian のような「教師有り分類」の場合の feature selection しかカバーして

  • R de Isomap - 元データ分析の会社で働いていた人の四方山話

    RでIsomapを書いてみた。 ただそれだけ。 まだあんまりRのことは分かってないんだけど、for文を使うと明らかに実効速度的に不利であることは判明した。 applyとかでうまく回避するんだろうけど、C言語育ちの私にとっては「行列の全ての要素に何らかの処理を行う」ってなるとすぐにfor文が頭に浮かんでしまう。 というわけで、僕の書いたIsomapには二重ループがやたらと登場してきて実行速度的に速度的に非常にだめだめです。 どうしたものか。 まともに固有値・固有ベクトルを求めてソートをかけるのがめんどくさかったので、主成分分析の関数を代用してみたんだけどこれでいいのだろうか? まあ、前にPythonで書いたやつと結果が大きく違わないからいいんだろうけど... あと、eigen(A)とprincomp(A)とprcomp(A)で固有値が違う気がするのは俺だけ? # データ取得 swiss <-

    R de Isomap - 元データ分析の会社で働いていた人の四方山話
  • SLOT88 SumoBet88: Situs Agen Judi Online Slot Gacor Online Terbaru 2023

    🎰Slot Gacor, ⚽️Sportsbook, ♠Live Casino, 🃏Poker Online, 🧮Togel Online, 🐠Tembak Ikan Sumobet88 merupakan salah satu pilihan situs judi Slot Online Indonesia resmi terpercaya dan bisa diandalkan. Kami juga dikenal sebagai salah satu pilihan situs Judi Online 24jam nonstop yang mampu memberikan layanan terbaik bagi seluruh membernya. Kehadiran situs ini tentu saja menjadi sebuah faktor terbaik ba

    SLOT88 SumoBet88: Situs Agen Judi Online Slot Gacor Online Terbaru 2023
  • 最大マージンクラスタリング - DO++

    ここ数日、最大マージンクラスタリング(MMC, maximum margin clustering)なるものをサーベイしていました。 自分用にもメモ Maximum Margin Clustering, NIPS 2004 Maximum margin clustering made practical, ICML 2007 Efficient Maximum Margin Clustering via Cutting Plane Algorithm, SDM 2008 Efficient multiclass maximum margin clustering, ICML 2008 MMCは従来のSVM、Multi-class SVMと全く同じ定式化で次の二点だけが違います (1) 重み(dualの場合は各例に付くalpha)に加えクラス割り当ても含めて最適化問題を解く。 (2) (1)

    最大マージンクラスタリング - DO++
  • 1