You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
kagomeを使うと、こんな感じで文章が分解され、「読み」や「品詞」が分かります。 ②文中に名詞と同じ「読み」が登場する回数を調べる kagomeで「読み」や「品詞」が分かったので、文章の中にある名詞と同じ「読み」が何回登場するか数えます。 例えば、 猫が寝転んだ という文章は ネコガネコロンダ という読みになります。 そして「猫が寝転んだ」という文の中には「猫」という名詞が含まれていますので、「ネコガネコロンダ」の中に「ネコ」が2回登場することが分かります。 ③文中に名詞と同じ「単語」が登場する回数を調べる もう②だけでダジャレ検出ができるようになった気になっていませんか? 実はこのままでは欠陥があります。 人民の人民による人民のための政治 や 靴を靴箱に入れる がダジャレ扱いされてしまいます。 こんなものダジャレとは言えません。ダジャレをなめてます。 この程度の重複で「今ダジャレ言った
JanomeはPythonの形態素解析エンジン。日本語のテキストを形態素ごとに分割して品詞を判定したり分かち書き(単語に分割)したりすることができる。pipでインストール可能。 mocobeta/janome: Japanese morphological analysis engine written in pure Python Welcome to janome's documentation! (Japanese) — Janome v0.4 documentation (ja) janome package — Janome API reference v0.4 ここでは以下の内容について説明する。 Janomeのインストール JanomeとMeCab 解析結果の精度 形態素解析の速度 Janomeで形態素解析 基本的な使い方 Tokenオブジェクトの属性 Janomeで分かち書
執筆:金子冴 今回は,自然言語処理分野で事前処理として用いられることが多い形態素解析に着目し,形態素解析を行う目的や,主要な形態素解析器の比較を行う.また,形態素解析器の1つであるMeCabを取り上げ,インストール方法や実行例,商用利用の注意点等を確認する.また,次回以降の記事にて,MeCabで用いられている以下のアルゴリズムについて解説する. ●bi-gram マルコフモデル(解析モデル) ●CRF(Conditional Random Fields)(学習モデル) ●Viterbi(解探索アルゴリズム) 初めに,形態素解析の概要とメリット,注意点について確認しよう. 目次 形態素解析(Morphological Analysis)とは 形態素解析器(MeCab,JUMAN,その他)の紹介 MeCabのインストールと辞書の追加手順 MeCabの実行例(コマンドライン, Python) M
言語において意味を成す最小の要素である「形態素」の解析方法について、技術者向けにその理論や実装方法を網羅的、体系的に解説する。実装や高速化等を扱いつつ、辞書やコーパスなどの言語資源の構築・利用についてもカバー。 関連サイト本書の関連ページが用意されています。 実践・自然言語処理シリーズ 第2巻 形態素解析の理論と実装(近代科学社ウェブサイト)内容紹介本書は、汎用形態素解析システムMeCabを開発した著者が、言語において意味を成す最小の要素である「形態素」の解析方法について、技術者向けにその理論や実装方法を網羅的、体系的に解説する。実装や高速化なども扱う点がユニークであるが、辞書やコーパスなどの言語資源の構築・利用といった形態素解析では外せないテーマもきちんと解説している。 本書を読めば、解析ツールを「ブラックボックス」として使っている人も中身を理解したうえで拡張・改良できる道筋ができ、ひい
はじめに 1章では、環境構築をしてきました。しかし、どのようなアプリケーションを作るか、何も考えていませんでした。基盤は整ったものの、何を作るか決めないことにはシステムは開発できません(当たり前)。そこで、本章は以下の順序で記述していきたいと思います。 要件の検討 システム構成の検討 不足していたライブラリ・ソフトウェアの導入 動作確認 まだまだタイトルのdockerに触れるには時間がかかりそうで、タイトル詐欺もいいところですが、是非一読ください。1章同様、指摘・要望お待ちしております。 辞書整理 本文章(第2章)を読む上で頭に入れておいたほうが良い文言をピックアップ。文中分からない文言が出たら見返してください。(不足あれば、コメントいただけたら追記していきます) スクレイピング WebページからHTMLデータを収集・抽出し、整形・加工すること。 似たワードにクローリングがあるが、クローリ
概要 日本語の形態素解析(MeCab)のようなことを英語でもやりたいのでApache OpenNLPを使用する 環境 OS: Windows7 64bit 言語: Java8 IDE: Eclipse4.6.1 目的 MeCabをコマンドラインで使用すると 今日はいい天気ですね。 ↓ ↓ 今日 「名詞,副詞可能,*,*,*,*,今日,キョウ,キョー」 は 「助詞,係助詞,*,*,*,*,は,ハ,ワ」 いい 「形容詞,自立,*,*,形容詞・イイ,基本形,いい,イイ,イイ」 天気 「名詞,一般,*,*,*,*,天気,テンキ,テンキ」 です 「助動詞,*,*,*,特殊・デス,基本形,です,デス,デス」 ね 「助詞,終助詞,*,*,*,*,ね,ネ,ネ」 。 「記号,句点,*,*,*,*,。,。,。」 と形態素に分け、形態素の情報が表示される ※ipadic辞書を使用した場合、 「品詞、品詞細分類1
概要 AWS LambdaでMeCabを動かそうと思ったら、思いのほか大変だったので今後の自分のために手順をまとめた。 (MeCabとは日本語の自然言語処理によく使われるオープンソースの形態素解析エンジン。詳しくは上記の作者のサイトへ。) 参考にさせてもらったサイト https://shogo82148.github.io/blog/2017/12/06/mecab-in-lambda/ http://marmarossa.hatenablog.com/entry/2017/02/03/223423 他にもたくさん「mecab lambda」で片っ端から検索かけて読み漁ったのだけど、もはやどこを読んだのかも覚えていない。上記二つの記事はとにかく作業スタートから完了するまでの間、ブラウザで開かれていた。 結論から述べると一番上の記事の通りにやればいいだけだったのだが、正直自分が次回この作業を
2018/10/13版でbrewインストールを行ったところエラーが発生した。 環境はmacOS Sierra。 $ brew install mecab-ipadic Error: mecab-ipadic: /usr/local/Homebrew/Library/Taps/homebrew/homebrew-core/Formula/mecab-ipadic.rb:39: syntax error, unexpected << <<~EOS ^ /usr/local/Homebrew/Library/Taps/homebrew/homebrew-core/Formula/mecab-ipadic.rb:40: syntax error, unexpected tIDENTIFIER, expecting keyword_do or '{' or '(' ... enable mecab-
ちょっと気になったのでやってみた。 Google Natural Language API https://cloud.google.com/natural-language/ Kuromoji https://www.atilika.com/ja/kuromoji/ COTOHA API https://api.ce-cotoha.com/demo?query=%E3%81%93%E3%81%AE%E5%85%88%E7%94%9F%E3%81%8D%E3%81%AE%E3%81%93%E3%82%8B%E3%81%9F%E3%82%81%E3%81%AB Rakuten MA http://rakuten-nlp.github.io/rakutenma/ 感想 意外と「この先生」「きのこる」とは誰も解析してくれませんでした。 ほかにもwebで試せるものが教えてください。 Registe
ど素人がwindowsにMeCabをいれて遊びたいと思ったのだが、思いのほかハマったので記録として残したいと思います。 はじめに 基本的には、趣味でPHPとpythonを独学でいじくっている、初心者に毛が生えた程度の実力です。 間違いや効率的な方法などありましたら、どんどん教えてください。コードレビューも大歓迎です。 よろしくお願いします。 環境 windows10 home Anaconda3-5.3.0 windowsにMeCab投入 特に難しいことはなく、以下を参考にしながらインストール PythonとMeCabで形態素解析(on Windows) NEologd辞書を入れる。 NEologdを入れるためにはWindows Subsystem for Linuxがひつようなため、下記を参考にUbuntu環境構築 Windows Subsystem for Linuxをインストールして
概要 Amazon SageMaker の Jupyter Notebook ( Python3 ) で MeCab / NEologd を使うためのセットアップ手順です 基本は公式手順どおりですが、下記でエラー回避と便利設定を加えています 外部インターネットへ接続可能なノートブックインスタンスを使います 端的にはページ下部のライフサイクル設定だけ適用すれば使えます 手順 Install mecab ノートブックインスタンスの Jupyter をオープンし、Terminal から次を実行 (インストール作業を行う場所は任意、ここでは別途マウントした EFS を指定しています) $ WORK_BASE="/efs" $ MECAB_ROOT="${WORK_BASE}/mecab" $ cd ${WORK_BASE} $ git clone https://github.com/taku91
自分用メモ。 環境 MeCab 0.996 と UniDic(ver. 2.1.2) をインストールした。 MeCabの設定ファイルを編集して、UniDicを使えるようにした。 参考 👉 MeCabとUNIDICをUbuntu 14.04にインストール - Yura YuLife MeCabの設定ファイルを編集して、語種を表示できるようにした。参考 👉 MeCab + Unidic を使って単語の語種(和語、漢語)を表示する - Qiita ゴール ユーザー辞書を作って解析に使えるようにする。 # 現状 $ mecab タルスキー タル タル タル タル-外国 名詞-固有名詞-人名-一般 固 スキー スキー スキー スキー-ski 名詞-普通名詞-一般 外 EOS
3.termextractで複合語を抜き出しユーザ辞書を作成する 先ほど作ったファイルをインプットファイルとしてtermextractに突っ込んでmecabのユーザ辞書を作成します。コストは後で計算するためここでは入れていません。面倒臭ければ1285,1285,5000など適当な数値にしておいてもいいかもしれません。 また、正しいかどうか分かりませんが、既に複合語としてmecabのシステム辞書に登録されている可能性も考慮して既にある複合語は省く処理も入れています。 (termextractの中身をよく理解していないので、もしかしたら必要のない処理かもしれません。。) #termextractを使ってmecabのユーザ辞書の作成を行う import MeCab import termextract.mecab import termextract.core import collection
技術書典 5、楽しみですね。 どんなサークルさんに出会えるのか、もう楽しみで夜も 8 時間くらいしか眠れないです。 とっても楽しみなのですが当日会場で迷わないためにも事前チェックは欠かせません。 技術書典 5 のサイトにはサークルチェックリストという便利機能があるのでこれを利用するわけですね。 チェックするサークルさんの数を雑に数えてみたら って言われました。すごい。 (2018/10/02 現在) もちろん時間があれば全部 1 つずつ見ていくわけですが、もう少し何とかならないかと devtools で眺めているとサークルさんのデータは API で一覧を取得することができるようになっていました。 なので一覧データに入っているもので単語検索してみた、というのがこの記事の趣旨です。 できたもの Node.js でこんな感じの CLI を作ってみました。 あいまい検索で関連していそうなサークルさ
普段は仕事の合間を縫って、趣味でボードゲームのAI開発や自然言語処理を嗜んでいます。 色々ネタが溜まってきているので備忘も兼ねて少しずつQiitaに書いていこうと思います。 今回の記事では自然言語処理の中でも形態素解析に焦点を当て、最近NTTコミュニケーションズからリリースされたというCOTOHA APIと、形態素解析で有名なOSSであるMecabとの解析特徴の違いについて書こうと思います。 形態素解析 言語処理を経験されてる方には当たり前かもしれませんが、まずは基本から。 形態素解析とは、日本語や中国語のように文中に切れ目が存在しない文を、形態素と呼ばれる意味のある最小単位に分割する解析のことです。 例えば「すもももももももものうち」という文は「すもも/も/もも/も/もも/の/うち」のように分割することができます。 また、単に分割するだけでなく、名詞・動詞などの品詞情報や、表記ゆれ・活用
前回 の続き ユーザ辞書の作成のために専用のシェルが用意されている。 1. ユーザ辞書編集 READMEに書いてある通り、 まずはユーザ辞書CSVに単語を追加。 - user-dic/nnp.csv :固有名詞用 - user-dic/person.csv :人名用 - user-dic/place.csv :場所用 2. シェル実行 シェルの中を見ればわかるが、内部でmecab-dict-indexを実行している。 まず、mecab-koのインストールパスを確認して、パスが異なる場合は修正する。 - readonly MECAB_EXEC_PATH=/usr/local/libexec/mecab + readonly MECAB_EXEC_PATH=/usr/local/Cellar/mecab-ko/0.996-ko-0.9.2/libexec/mecab/
やりたいこと Python3でMeCabを使ってテキストファイルから名詞のみを抜き出し、出現回数ごとにリストアップ コード全文 import MeCab import sys import re from collections import Counter # ファイル読み込み cmd, infile = sys.argv with open(infile) as f: data = f.read() # パース mecab = MeCab.Tagger() parse = mecab.parse(data) lines = parse.split('\n') items = (re.split('[\t,]', line) for line in lines) # 名詞をリストに格納 words = [item[0] for item in items if (item[0] not
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く