[B! 形態素解析] MIZのブックマーク

MIZ id:MIZ

形態素解析に関するMIZのブックマーク (9)

Page2
LinkTree - HOME http://sadako.nobody.jp/ http://monodebank.nobody.jp/ http://okichi.xxxxxxxx.jp/ http://utaneko.gozaru.jp/ http://urananaon.atukan.com/ LinkTree -
MIZ 2008/12/15
形態素解析
リンク
きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる
MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニングするといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力があればコスト値を機械学習的なアプローチで構築することができます。さらに、正解データを人手で作る必要は必ずしもありません。すなわち、Yahoo!の形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。ふだんはあま
MIZ 2007/07/04
形態素解析
リンク
ヤフー、文章を解析できるAPI「日本語形態素解析Webサービス」を公開ニュース - CNET Japan
ヤフーは6月18日、開発者向けサイト「Yahoo!デベロッパーネットワーク」において、日本語の文章を解析できるAPI「日本語形態素解析 Webサービス」を公開した。日本語形態素解析 Webサービスは、ヤフーの日本語処理技術部がYahoo! JAPAN研究所と共同で開発を進めてきた形態素解析エンジン「Web MA」を社外の開発者向けにAPIとして公開するもの。このエンジンは、ヤフーのブログ検索や商品検索などのテキスト処理、ブログ検索の「評判検索機能」、「まとめ検索機能」などのテキストマイニング処理にも利用されている。このAPIを利用することで、開発者は解析対象となる日本語の文章を形態素に分割し、品詞や読み、基本形を取得できるほか、対象となる文章に多く含まれている単語、その文章を構成する特徴的な単語などを把握することが可能だ。また、すでに公開済みのAPIから取得したデータを解析することもでき
MIZ 2007/06/18
よくぞやってくれました

形態素解析
リンク
人工無能を作ろう〜形態素解析(php)
phpでChaSenを使って形態素解析をする際のサンプルです。プログラムの文字コードはEUC-JPで、CGIとして実行できブラウザから実行結果を確認できるように書いてます。下記ソースは汚染チェック・エラーチェック等を行ってませんので、ご利用の際にはご注意下さい。実行結果：このソースを実行すると、以下のように表示されます。僕 / ボク / 僕 / 名詞-代名詞-一般 / / は / ハ / は / 助詞-係助詞 / / 今日 / キョウ / 今日 / 名詞-副詞可能 / / 牛 / ウシ / 牛 / 名詞-一般 / / 丼 / ドンブリ / 丼 / 名詞-一般 / / を / ヲ / を / 助詞-格助詞-一般 / / 食べ / タベ / 食べる / 動詞-自立 / 一段 / 連用形まし / マシ / ます / 助動詞 / 特殊・マス / 連用形た /
MIZ 2006/11/13
PHP

形態素解析
リンク
「すべての漢字を取り出す正規表現」をPHPで試す:phpspot開発日誌
すべての漢字を取り出す正規表現を参考にPHPでトークンを切り出すサンプルを作成しました。 <?php // スクリプトはUTF-8で記述されています $str = <<<EOM ようこそphpspotへ！当サイトではフリーのwindows用php開発環境であるＰＨＰエディタ forWin や、フリーのＰＨＰスクリプト( PHP 掲示板,webshot,webimager,CMS 等 )、ＰＨＰツールバー、テレビバー、便利検索バー(Yahoo,Google,辞典検索)などを配布しています。その他、ＰＨＰ入門やＰＨＰ５ーＴＩＰＳ、ＰＨＰサンプル集、MySQL解説、ＰＨＰレンタルサーバー特集などのコーナーもあります。 EOM; mb_internal_encoding("UTF-8"); mb_regex_encoding("UTF-8"); $token = array(); // すべての
MIZ 2006/03/17
PHP

正規表現

形態素解析
リンク
MeCab: Yet Another Part-of-Speech and MorphologicalAnalyzer
MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧くださいメーリングリスト一般ユーザ向けメーリングリスト開発者向けメーリングリスト新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった一部のコンパイラで正しくコンパイルできなかった問題の修正部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-
MIZ 2006/02/06
Chasenより高速とのこと。

形態素解析
リンク
ChaSen's Wiki - FrontPage
Generated by Hiki 0.5-devel-20030823. Powered by Ruby 1.8.6 and Amrita. Founded by NAIST Computational Linguistics Lab.
MIZ 2006/02/01
形態素解析
リンク
http://www.yohasebe.com/chasen/stdoutput.php
MIZ 2006/02/01
Perlから茶筅を呼び出して分かち書き

PHP

perl

形態素解析
リンク
形態素解析 - Wikipedia
日本語の代表的な形態素解析の手法[編集] 英語の場合と異なり、文節を得るのが目的となることが多い。大まかに言えば文から切り出した単語が属する品詞を辞書（自然言語処理用の）を用いて調べていき、結果得られた並びから正しく文節が構成される並びであるものを正解であるとするといったような方法を取る。日本語文法では、たとえば動詞のあとに格助詞がくることはできない（「ドアを開けるを」などは不可）といったように、ほとんどの付属語について「このようなものの後には付く」「このようなものの後には付かない」という規則性があり、また動詞の活用はその後に来る品詞を制限することがある（たとえば連体形の後は名詞）。このような性質を利用することによって単語の境界の判別を行う。具体的にこの性質を利用する方法には以下の2つがある: 規則による方法確率的言語モデルをもちいる方法規則による形態素解析[編集] 長尾真らの197
MIZ 2006/01/31
形態素解析

Wikipedia
リンク
1