タグ

NLPに関するt_otodaのブックマーク (22)

  • セマンティック検索の活用で、Elasticsearchの検索が根本的に変わる!? - Taste of Tech Topics

    こんにちは、@shin0higuchiです😊 業務では、Elasticsearchに関するコンサルティングを担当しています。 最近すっかり春らしく、暖かくなってきました。 新年を迎えたばかりの感覚でしたが、あっという間に時が経ちますね。 さて、今回の記事では、Elasticsearchの検索を根的に変える可能性を秘めたセマンティック検索に関して書かせていただきます。 概要 Elasticsearchは元々、キーワードベースのアプローチを主に取っており、クエリで指定されたキーワードを対象のドキュメント内で検索し、それらの出現頻度や位置に基づいて結果をランク付けしています。この方法では、文脈や意図に関係なく、単純にキーワードの一致度に基づいて検索結果が返されます。 一方、セマンティック検索とは、ユーザーのクエリの背後にある文脈と意図を理解しようとする検索手法で、キーワードだけに頼るのではな

    セマンティック検索の活用で、Elasticsearchの検索が根本的に変わる!? - Taste of Tech Topics
    t_otoda
    t_otoda 2023/04/14
    👍 > 今回ご紹介したセマンティック検索を用いれば、キーワードベースの検索だけではうまく類似度が取れないドキュメントも、上手くヒットさせることができるケースがありそうです。
  • word2vec, fasttextの差と実践的な使い方 - にほんごのれんしゅう

    word2vec, fasttextの差と実践的な使い方 目次 Fasttextとword2vecの差を調査する 実際にあそんでみよう Fasttext, word2vecで行っているディープラーニングでの応用例 具体的な応用例として、単語のバズ検知を設計して、正しく動くことを確認したので、紹介する Appendix (発表用の資料も掲載いたします,小さくて見づらいので、直リンはこちら) 原理の表面的な説明 Skip gramではある特定の単語の前後の単語の出現確率を測定することでベクトル化する 図1. ある目的の単語から、周辺の単語の確率を計算してベクトル化する Word2vecとfasttextではこれを実装したもの ただし、fasttextにはsubwordという仕組みが入っている 図2. softmaxで共起確率を計算する あそんでみよう 2017年2~3月のTwitterのデータ

    word2vec, fasttextの差と実践的な使い方 - にほんごのれんしゅう
  • 形態素解析とNgramを併用したハイブリッド検索をSolrで実現する方法 - ZOZO TECH BLOG

    こんにちは、バックエンドエンジニアの塩崎です。 今まではiQONの全文検索用のインデックスには形態素解析だけを用いていましたが、先日Ngramも併用することで検索を改善しました。 その結果、検索結果のヒット数が向上し、なおかつ検索ノイズの増加を軽微なものに抑えることができました。 この記事では、Ngramを併用することのメリット、およびそれをApache Solrで利用する方法について紹介します。 欲しい情報が見つからないとは そもそも、「検索したけど欲しい情報が見つからない状態」とはどのような状態でしょうか? ここではその状態を以下の2つの状態に分解して考えてみます。 欲しい情報の数が少ない 1つ目の状態は「欲しい情報が検索結果中に少ない」状態です。 例えば、旅行情報サイトで「東京」と検索した時にDBの中には数千件のデータがあるのに検索結果数がわずか数件しかないような状態です。 欲しくな

    形態素解析とNgramを併用したハイブリッド検索をSolrで実現する方法 - ZOZO TECH BLOG
  • 機械学習を使って作る対話システム - Qiita

    このような対話を通じて、レストランの検索に必要な情報をユーザから取得し、レストラン検索を行います。 今回、レストラン検索にはHotPepperグルメサーチAPIを利用させていただきました。ありがとうございます。 システムアーキテクチャ 対話システムは複数のモジュールから構成されています。今回は、各モジュールは独立に動作させず、前段階のモジュールの処理が終わった段階で駆動されるようにしています。 最終的なシステムアーキテクチャは以下の図のようになりました。 今回のアーキテクチャに沿って処理の流れを説明すると以下のようになります。 ユーザがテキストを入力すると、入力したテキストは言語理解部に入力されます。 言語理解部では入力されたテキストを解析して、対話行為と呼ばれる抽象的な意味表現に変換します。 言語理解部から出力された対話行為は、対話管理部に入力されます。対話管理部では入力された対話行為を

    機械学習を使って作る対話システム - Qiita
  • 自然言語処理と深層学習の最先端

    第4回 JustTechTalk の発表資料

    自然言語処理と深層学習の最先端
  • 畳み込みニューラルネットワークによるテキスト分類を TensorFlow で実装する · けんごのお屋敷

    先日、九工大や東工大などの学生さんが LINE Fukuoka に遊びにきてくれました。せっかく学生さんが遊びに来てくれるので LINE Fukuoka の社員と学生さんとで LT 大会をやろうという運びになって、学生さんは普段やっている研究内容を、LINE Fukuoka 側はなんでも良いので適当な話を、それぞれやりました。当日は私を含む LINE Fukuoka の社員 3 人と、学生さん 2 人の合計 5 人が LT をしました。詳細は LINE Fukuoka 公式ブログに書かれていますので、興味のある方は御覧ください。 [社外活動/報告] 学生を招いてのエンジニア技術交流会を開催しました。 LT に使った資料は公開してもいいよ、とのことだったので、せっかくなので公開。当日はテキスト分類のデモをやったのですが、残念ながらデモ環境までは公開できませんでした。ただ、ソースコードは gi

  • Private Presentation

    Private content!This content has been marked as private by the uploader.

    Private Presentation
  • 企業における自然言語処理技術利用の最先端

    1. This document discusses the history and recent developments in natural language processing and deep learning. It covers seminal NLP papers from the 1990s through 2000s and the rise of neural network approaches for NLP from 2003 onward. 2. Recent years have seen increased research and investment in deep learning, with many large companies establishing AI labs in 2012-2014 to focus on neural netw

    企業における自然言語処理技術利用の最先端
    t_otoda
    t_otoda 2015/06/20
  • http://loadfive.com/os/knwl/

    See related links to what you are looking for.

  • 「知識」のDeep Learning

    最先端NLP勉強会�“Learning Language Games through Interaction”�Sida I. Wang, Percy L...Yuya Unno

    「知識」のDeep Learning
  • トピックモデルことはじめ

    All slide content and descriptions are owned by their creators.

    トピックモデルことはじめ
  • 人工知能を用いた言語処理エンジンで、国際コンペティションにて大差で優勝 | Studio Ousia

    Studio Ousia、人工知能を用いた言語処理エンジンで、国際コンペティションにて大差で優勝 大量のテキストデータを高速かつ高精度に解析する新しい言語処理エンジン「Semantic Kernel」を開発 2015年5月18日〜22日にイタリアのフィレンチェで開催された世界最大のウェブ研究に関する学術的な国際会議WWW2015(International World Wide Web Conference)内で行われた「エンティティ・リンキング」に関するコンペティションNamed Entity rEcognition and Linking (NEEL) Challengeで、弊社の提案したシステムが二位以降に大差をつけて優勝しました。 「エンティティ・リンキング(Entity linking)」とは、テキスト中のキーワード(固有表現)をWikipediaなどのナレッジベースに結びつけて

  • 日本語で読める自然言語処理のチュートリアルスライドまとめ

    先日、自然言語処理の講演などをしていたときに、そもそも私なんかが話すよりも公開されているチュートリアルスライドを集めたほうが有用なんではないかと思い立って、これから自然言語処理を学びたい人や、ちょっと新しい分野を知りたい人向けに、日語で読めるチュートリアルスライドを分野別にまとめてみました。 主に、学会のチュートリアルや招待講演、それから研究者の方のWebページなどを参照しながら作りました。 自然言語処理全般系の資料や、少し境界的なテーマは入っていません。 また、ぱっと読めるスライドだけにしています。 幾つか手前味噌な資料も載せてます・・。 頑張って集めてみましたが、思ったほど集まりませんでした。 作っていてわかったのですが、意外とスライドを公開している人は少ないようです。 埋もれてしまうのはもったいないですね。 いずれ、英語で読めるスライドを集めてみようと思います。 そっちはそっちで、

  • 「なぜ」「どうなる」を自然文で検索、多様な回答を示す「WISDOM X」 NICTが試験公開

    独立行政法人・情報通信研究機構(NICT)は3月31日、自然文による質問に対し、Web上の情報から回答する「WISDOM X」を試験公開した。膨大なWeb情報から得た多種多様な回答を示すことで、ユーザーに“気づき”を与えるのが狙いという。 自然文による「なに?」「なぜ?」「どうなる?」といった質問にさまざまな回答を提示することを目指したシステム。検索窓に文章を入力すると、10億件以上の日語Webページの情報をもとに検索結果を示すほか、質問を思いつかない場合、単語を入力すれば質問の提案もしてくれる。 一般のWebサーチエンジンと異なり、「どうなる?」という質問では、原因となる事象と、起こり得る帰結の対応関係をWeb上の文から抽出して回答する仕組みだ。「人工知能が進化するとどうなる?」という質問には「人工知能が進化する」という原因に対応する「人工知能が話し相手となり結婚しない人が増える」とい

    「なぜ」「どうなる」を自然文で検索、多様な回答を示す「WISDOM X」 NICTが試験公開
    t_otoda
    t_otoda 2015/04/01
  • オープンデータ連携へ用語共通化 「共通語彙基盤」プロジェクト:オープンデータ情報ポータル

    2015/02/04 独立行政法人情報処理推進機構(IPA)は2月3日、オープンデータの連携促進を目的とした「共通語彙(い)基盤」プロジェクトの成果として、その中核となる語彙集の正式版を公開した。 行政機関がデータを公開しても、その形式がまちまちだったり、同じ意味の用語が多数存在していては、複数データの横断的な利用や、ある地域で作成したアプリを他の地域でも使う、ということが難しい。そうした状況を打開するために、IPAは経済産業省とともにデータの構造やそこで使う用語を統一させる共通語彙基盤の整備を2013年から進めてきた。 このほど正式版を公開したのは「コア語彙」と呼ばれる、行政事務に共通して使われる用語を構造化したもの。「人」「イベント」といった汎用性の高い48の「クラス用語」と、「氏名」「開催場所」といった具体的な情報を示す206の「プロパティ用語」から成る。 今後はコア語彙に加え、交通

    オープンデータ連携へ用語共通化 「共通語彙基盤」プロジェクト:オープンデータ情報ポータル
  • Deep Learning for Natural Language Processing | Memkite

    This blog post gives a brief overview of recent deep learning for Natural Language Processing (NLP) publications sampled from the NLP category published on http://deeplearning.university (disclaimer: this was quickly put together for a local workshop, but hopefully useful) Best regards, Amund Tveit Sentiment Analysis Adaptive multi-compositionality for recursive neural models with applications to

  • 形態素解析エンジンMeCabにて文章中から短歌を抽出 - inaniwa3's blog

    概要 偶然57577になっている文章を短歌としてつぶやく Twitter の bot を作りました。 フクロウが鳴くと明日は晴れるので洗濯物を干せという意味 #tanka ウィキペディア日語版「フクロウ」より http://t.co/Dm1uHcQdzR— 偶然短歌bot (@g57577) 2014, 12月 31 再帰的アルゴリズムが有効な問題として有名であり #tanka ウィキペディア日語版「ハノイの塔」より http://t.co/vm2ZqwImKi— 偶然短歌bot (@g57577) 2014, 12月 31 文章はウィキペディア日語版を対象としました。 作り方 jawiki-latest-pages-articles.xml.bz2 をダウンロード。 WP2TXT で上記を扱いやすい形式に変換。 このスクリプト で57577になっている文を抽出。数時間かけて(遅い)

    形態素解析エンジンMeCabにて文章中から短歌を抽出 - inaniwa3's blog
  • Python による日本語自然言語処理

    はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日語を対象とする場合、いくつか気をつけなければいけない点があります。日語を扱う場合にも

  • dfltweb1.onamae.com – このドメインはお名前.comで取得されています。

    このドメインは お名前.com から取得されました。 お名前.com は GMOインターネットグループ(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。 日のドメイン登録業者(レジストラ)(「ICANNがレジストラとして認定した企業」一覧(InterNIC提供)内に「Japan」の記載があるもの)を対象。 レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2023年5月時点の調査。

    dfltweb1.onamae.com – このドメインはお名前.comで取得されています。
  • PFIセミナーで生成語彙論についてDeep Learningの文脈で話をしました

    先週のPFIセミナーで生成語彙論とDeep Learning(特に表現学習の領域)の関係について、思っていることを話しました。前半は生成語彙論の入門的な内容で、数式もなくてだれでも読めるような内容になっていると思います。生成語彙論の勉強を始めたのが最近なので、入門という程の内容にもなってないですが、こうした言語学の知見をもう一度紐解くと面白いかもしれません。 発表中にあまりちゃんと話さなかったことをちょっと書いておきます。2012年あたりから、Socherが既存のNLPタスクにバシバシ一連の手法を試していました。私もその辺りで初めて深層学習の話を聞いたわけですが、ちょうど構文解析をnon-terminalのところで表現ベクトルを使うという話がありました。これに対して、「素性構造のような複雑な構造と演算を、ベクトル空間と非線形関数の中に埋め込んでいることになるのでは」という感想を、宮尾さん(

    t_otoda
    t_otoda 2014/10/25