[B! morphological-analysis] nabinnoのブックマーク

nabinno id:nabinno

morphological-analysisに関するnabinnoのブックマーク (369)

GitHub - mattn/go-haiku: 俳句(Haiku) detection
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
nabinno 2019/05/17
github

go-haiku

haiku

go

kagome

morphological-analysis
リンク
文章からダジャレのみを抜き出すコマンドを作ってみた - Qiita
kagomeを使うと、こんな感じで文章が分解され、「読み」や「品詞」が分かります。 ②文中に名詞と同じ「読み」が登場する回数を調べる kagomeで「読み」や「品詞」が分かったので、文章の中にある名詞と同じ「読み」が何回登場するか数えます。例えば、猫が寝転んだという文章はネコガネコロンダという読みになります。そして「猫が寝転んだ」という文の中には「猫」という名詞が含まれていますので、「ネコガネコロンダ」の中に「ネコ」が２回登場することが分かります。 ③文中に名詞と同じ「単語」が登場する回数を調べるもう②だけでダジャレ検出ができるようになった気になっていませんか？実はこのままでは欠陥があります。人民の人民による人民のための政治や靴を靴箱に入れるがダジャレ扱いされてしまいます。こんなものダジャレとは言えません。ダジャレをなめてます。この程度の重複で「今ダジャレ言った
nabinno 2019/05/17
qiita

dajarep

kagome

morphological-analysis

analytics
リンク
Python, Janomeで日本語の形態素解析、分かち書き（単語分割） | note.nkmk.me
JanomeはPythonの形態素解析エンジン。日本語のテキストを形態素ごとに分割して品詞を判定したり分かち書き（単語に分割）したりすることができる。pipでインストール可能。 mocobeta/janome: Japanese morphological analysis engine written in pure Python Welcome to janome's documentation! (Japanese) — Janome v0.4 documentation (ja) janome package — Janome API reference v0.4 ここでは以下の内容について説明する。 Janomeのインストール JanomeとMeCab 解析結果の精度形態素解析の速度 Janomeで形態素解析基本的な使い方 Tokenオブジェクトの属性 Janomeで分かち書
nabinno 2019/03/03
mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
【技術解説】形態素解析とは？MeCabインストール手順からPythonでの実行例まで - ミエルカAI は、自然言語処理技術を中心とした、RPA開発・サイト改善・流入改善レコメンドエンジンを開発
執筆：金子冴今回は，自然言語処理分野で事前処理として用いられることが多い形態素解析に着目し，形態素解析を行う目的や，主要な形態素解析器の比較を行う．また，形態素解析器の1つであるMeCabを取り上げ，インストール方法や実行例，商用利用の注意点等を確認する．また，次回以降の記事にて，MeCabで用いられている以下のアルゴリズムについて解説する． ●bi-gram マルコフモデル(解析モデル) ●CRF(Conditional Random Fields)(学習モデル) ●Viterbi(解探索アルゴリズム) 初めに，形態素解析の概要とメリット，注意点について確認しよう．目次形態素解析(Morphological Analysis)とは形態素解析器(MeCab,JUMAN,その他)の紹介 MeCabのインストールと辞書の追加手順 MeCabの実行例(コマンドライン, Python) M
nabinno 2019/01/01
mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
実践・自然言語処理シリーズ第2巻　形態素解析の理論と実装
言語において意味を成す最小の要素である「形態素」の解析方法について、技術者向けにその理論や実装方法を網羅的、体系的に解説する。実装や高速化等を扱いつつ、辞書やコーパスなどの言語資源の構築・利用についてもカバー。関連サイト本書の関連ページが用意されています。実践・自然言語処理シリーズ第2巻　形態素解析の理論と実装（近代科学社ウェブサイト）内容紹介本書は、汎用形態素解析システムMeCabを開発した著者が、言語において意味を成す最小の要素である「形態素」の解析方法について、技術者向けにその理論や実装方法を網羅的、体系的に解説する。実装や高速化なども扱う点がユニークであるが、辞書やコーパスなどの言語資源の構築・利用といった形態素解析では外せないテーマもきちんと解説している。本書を読めば、解析ツールを「ブラックボックス」として使っている人も中身を理解したうえで拡張・改良できる道筋ができ、ひい
nabinno 2019/01/01
mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
Windows7環境なのにdocker入れて開発することになった話【②システム構成編】 - Qiita
はじめに 1章では、環境構築をしてきました。しかし、どのようなアプリケーションを作るか、何も考えていませんでした。基盤は整ったものの、何を作るか決めないことにはシステムは開発できません（当たり前）。そこで、本章は以下の順序で記述していきたいと思います。要件の検討システム構成の検討不足していたライブラリ・ソフトウェアの導入動作確認まだまだタイトルのdockerに触れるには時間がかかりそうで、タイトル詐欺もいいところですが、是非一読ください。1章同様、指摘・要望お待ちしております。辞書整理本文章（第2章）を読む上で頭に入れておいたほうが良い文言をピックアップ。文中分からない文言が出たら見返してください。（不足あれば、コメントいただけたら追記していきます）スクレイピング WebページからHTMLデータを収集・抽出し、整形・加工すること。似たワードにクローリングがあるが、クローリ
nabinno 2018/10/31
mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
OpenNLPでMeCabのような英語の形態素解析 - Qiita
概要日本語の形態素解析(MeCab)のようなことを英語でもやりたいのでApache OpenNLPを使用する環境 OS: Windows7 64bit 言語: Java8 IDE: Eclipse4.6.1 目的 MeCabをコマンドラインで使用すると今日はいい天気ですね。 ↓ ↓ 今日「名詞,副詞可能,*,*,*,*,今日,キョウ,キョー」は「助詞,係助詞,*,*,*,*,は,ハ,ワ」いい「形容詞,自立,*,*,形容詞・イイ,基本形,いい,イイ,イイ」天気「名詞,一般,*,*,*,*,天気,テンキ,テンキ」です「助動詞,*,*,*,特殊・デス,基本形,です,デス,デス」ね「助詞,終助詞,*,*,*,*,ね,ネ,ネ」。「記号,句点,*,*,*,*,。,。,。」と形態素に分け、形態素の情報が表示される ※ipadic辞書を使用した場合、「品詞、品詞細分類1
nabinno 2018/10/25
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
AWS Lambda でMeCabを動かす (2018年9月時点） - Qiita
概要 AWS LambdaでMeCabを動かそうと思ったら、思いのほか大変だったので今後の自分のために手順をまとめた。（MeCabとは日本語の自然言語処理によく使われるオープンソースの形態素解析エンジン。詳しくは上記の作者のサイトへ。）参考にさせてもらったサイト https://shogo82148.github.io/blog/2017/12/06/mecab-in-lambda/ http://marmarossa.hatena blog.com/entry/2017/02/03/223423 他にもたくさん「mecab lambda」で片っ端から検索かけて読み漁ったのだけど、もはやどこを読んだのかも覚えていない。上記二つの記事はとにかく作業スタートから完了するまでの間、ブラウザで開かれていた。結論から述べると一番上の記事の通りにやればいいだけだったのだが、正直自分が次回この作業を
nabinno 2018/10/24
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
brew install mecab-ipadicでsyntax error - Qiita
2018/10/13版でbrewインストールを行ったところエラーが発生した。環境はmacOS Sierra。 $ brew install mecab-ipadic Error: mecab-ipadic: /usr/local/Homebrew/Library/Taps/homebrew/homebrew-core/Formula/mecab-ipadic.rb:39: syntax error, unexpected << <<~EOS ^ /usr/local/Homebrew/Library/Taps/homebrew/homebrew-core/Formula/mecab-ipadic.rb:40: syntax error, unexpected tIDENTIFIER, expecting keyword_do or '{' or '(' ... enable mecab-
nabinno 2018/10/14
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
mecabの出力をpythonで整形 - Qiita
nabinno 2018/10/12
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
「この先生きのこる」を4つの自然言語処理エンジンに食わせてみる - Qiita
ちょっと気になったのでやってみた。 Google Natural Language API https://cloud.google.com/natural-language/ Kuromoji https://www.atilika.com/ja/kuromoji/ COTOHA API https://api.ce-cotoha.com/demo?query=%E3%81%93%E3%81%AE%E5%85%88%E7%94%9F%E3%81%8D%E3%81%AE%E3%81%93%E3%82%8B%E3%81%9F%E3%82%81%E3%81%AB Rakuten MA http://rakuten-nlp.github.io/rakutenma/ 感想意外と「この先生」「きのこる」とは誰も解析してくれませんでした。ほかにもwebで試せるものが教えてください。 Registe
nabinno 2018/10/12
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
NEologdをUbuntuに入れようとしたらMakeエラーが出た。 - Qiita
ど素人がwindowsにMeCabをいれて遊びたいと思ったのだが、思いのほかハマったので記録として残したいと思います。はじめに基本的には、趣味でPHPとpythonを独学でいじくっている、初心者に毛が生えた程度の実力です。間違いや効率的な方法などありましたら、どんどん教えてください。コードレビューも大歓迎です。よろしくお願いします。環境 windows10 home Anaconda3-5.3.0 windowsにMeCab投入特に難しいことはなく、以下を参考にしながらインストール PythonとMeCabで形態素解析(on Windows) NEologd辞書を入れる。 NEologdを入れるためにはWindows Subsystem for Linuxがひつようなため、下記を参考にUbuntu環境構築 Windows Subsystem for Linuxをインストールして
nabinno 2018/10/10
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
Amazon SageMaker の Jupyter で MeCab-NEologd を使う - Qiita
概要 Amazon SageMaker の Jupyter Notebook ( Python3 ) で MeCab ／ NEologd を使うためのセットアップ手順です基本は公式手順どおりですが、下記でエラー回避と便利設定を加えています外部インターネットへ接続可能なノートブックインスタンスを使います端的にはページ下部のライフサイクル設定だけ適用すれば使えます手順 Install mecab ノートブックインスタンスの Jupyter をオープンし、Terminal から次を実行（インストール作業を行う場所は任意、ここでは別途マウントした EFS を指定しています） $ WORK_BASE="/efs" $ MECAB_ROOT="${WORK_BASE}/mecab" $ cd ${WORK_BASE} $ git clone https://github.com/taku91
nabinno 2018/10/10
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
MeCab のユーザー辞書を作る（UniDic） - Qiita
自分用メモ。環境 MeCab 0.996 と UniDic(ver. 2.1.2) をインストールした。 MeCabの設定ファイルを編集して、UniDicを使えるようにした。参考 👉 MeCabとUNIDICをUbuntu 14.04にインストール - Yura YuLife MeCabの設定ファイルを編集して、語種を表示できるようにした。参考 👉 MeCab + Unidic を使って単語の語種（和語、漢語）を表示する - Qiita ゴールユーザー辞書を作って解析に使えるようにする。 # 現状 $ mecab タルスキータルタルタルタル-外国名詞-固有名詞-人名-一般固スキースキースキースキー-ski 名詞-普通名詞-一般外 EOS
nabinno 2018/10/05
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
mecab-ipadic-neologdの辞書をアップデートする - Qiita
Register as a new user and use Qiita more conveniently You get articles that match your needsYou can efficiently read back useful informationWhat you can do with signing up
nabinno 2018/10/02
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
termextractを使って保持データから専門用語を抽出しmecabのユーザ辞書を作成する - Qiita
3.termextractで複合語を抜き出しユーザ辞書を作成する先ほど作ったファイルをインプットファイルとしてtermextractに突っ込んでmecabのユーザ辞書を作成します。コストは後で計算するためここでは入れていません。面倒臭ければ1285,1285,5000など適当な数値にしておいてもいいかもしれません。また、正しいかどうか分かりませんが、既に複合語としてmecabのシステム辞書に登録されている可能性も考慮して既にある複合語は省く処理も入れています。（termextractの中身をよく理解していないので、もしかしたら必要のない処理かもしれません。。） #termextractを使ってmecabのユーザ辞書の作成を行う import MeCab import termextract.mecab import termextract.core import collection
nabinno 2018/10/02
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
楽して技術書典 5 のサークルさんを探したい - Qiita
技術書典 5、楽しみですね。どんなサークルさんに出会えるのか、もう楽しみで夜も 8 時間くらいしか眠れないです。とっても楽しみなのですが当日会場で迷わないためにも事前チェックは欠かせません。技術書典 5 のサイトにはサークルチェックリストという便利機能があるのでこれを利用するわけですね。チェックするサークルさんの数を雑に数えてみたらって言われました。すごい。 (2018/10/02 現在) もちろん時間があれば全部 1 つずつ見ていくわけですが、もう少し何とかならないかと devtools で眺めているとサークルさんのデータは API で一覧を取得することができるようになっていました。なので一覧データに入っているもので単語検索してみた、というのがこの記事の趣旨です。できたもの Node.js でこんな感じの CLI を作ってみました。あいまい検索で関連していそうなサークルさ
nabinno 2018/10/02
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
COTOHA APIとMeCabの比較 - Qiita
普段は仕事の合間を縫って、趣味でボードゲームのAI開発や自然言語処理を嗜んでいます。色々ネタが溜まってきているので備忘も兼ねて少しずつQiitaに書いていこうと思います。今回の記事では自然言語処理の中でも形態素解析に焦点を当て、最近NTTコミュニケーションズからリリースされたというCOTOHA APIと、形態素解析で有名なOSSであるMecabとの解析特徴の違いについて書こうと思います。形態素解析言語処理を経験されてる方には当たり前かもしれませんが、まずは基本から。形態素解析とは、日本語や中国語のように文中に切れ目が存在しない文を、形態素と呼ばれる意味のある最小単位に分割する解析のことです。例えば「すもももももももものうち」という文は「すもも/も/もも/も/もも/の/うち」のように分割することができます。また、単に分割するだけでなく、名詞・動詞などの品詞情報や、表記ゆれ・活用
nabinno 2018/09/29
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
形態素解析：韓国語：その2：mecab-ko ユーザ辞書作成 - Qiita
前回の続きユーザ辞書の作成のために専用のシェルが用意されている。 1. ユーザ辞書編集 READMEに書いてある通り、まずはユーザ辞書CSVに単語を追加。 - user-dic/nnp.csv　：固有名詞用 - user-dic/person.csv ：人名用 - user-dic/place.csv ：場所用 2. シェル実行シェルの中を見ればわかるが、内部でmecab-dict-indexを実行している。まず、mecab-koのインストールパスを確認して、パスが異なる場合は修正する。 - readonly MECAB_EXEC_PATH=/usr/local/libexec/mecab + readonly MECAB_EXEC_PATH=/usr/local/Cellar/mecab-ko/0.996-ko-0.9.2/libexec/mecab/
nabinno 2018/09/18
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
【Python3】MeCabでテキストファイルから名詞を頻出順に抽出 - Qiita
やりたいこと Python3でMeCabを使ってテキストファイルから名詞のみを抜き出し、出現回数ごとにリストアップコード全文 import MeCab import sys import re from collections import Counter # ファイル読み込み cmd, infile = sys.argv with open(infile) as f: data = f.read() # パース mecab = MeCab.Tagger() parse = mecab.parse(data) lines = parse.split('\n') it ems = (re.split('[\t,]', line) for line in lines) # 名詞をリストに格納 words = [it em[0] for it em in it ems if (it em[0] not
nabinno 2018/09/17
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
1 2 3 4 5 6 7 8 9 10 次のページ