タグ

cs.CLに関するsh19910711のブックマーク (11)

  • [論文メモ] SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations - Qiita

    [論文メモ] SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations機械学習論文読み 前置き SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations 文書ベクトルをお手軽に高い精度で作れるSCDVって実際どうなのか日語コーパスで実験した(EMNLP2017) の記事が圧倒的にわかりやすいのでそっちも見たほうがいいよ!! SCDVの概要 document embeddingの新しい手法。文書分類だけでなく情報探索等にも活用できる。数値実験では既存の方法(doc2vec, LDA, NTSG)に比べ高い精度が出た

    [論文メモ] SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations - Qiita
    sh19910711
    sh19910711 2024/05/24
    "SCDV: 絶対値が小さい要素はゼロにし、スパースなベクトルに変換 + 医療の単語が多く含まれるとき、政治に関係する単語の影響力は小さくなる + クラスタごとに単語の表現ベクトルを足し合わせる" arXiv:1612.06778 2018
  • 【論文要約】TABERT: Pretraining for Joint Understanding of Textual and Tabular Data - Qiita

    【論文要約】TABERT: Pretraining for Joint Understanding of Textual and Tabular Data論文読み 概要 論文では、NL文と(半)構造化テーブルの表現を合同で学習する事前学習済みLMであるTABERTを紹介する。TABERTは2600万個の表とその英語文脈からなる大規模なコーパスで学習される。実験では、TABERTを特徴表現層として用いたニューラル意味解析器が、弱教師あり意味解析ベンチマークであるWIKITABLEQUESTIONSで最良の結果を達成し、テキストtoSQLデータセットのSPIDERでも競争力のある性能を発揮することが分かった。 ACL 2020 第一著者:Pengcheng Yin 団体:Carnelgie Mellon University, Facebook AI Research 提案法 Content

    【論文要約】TABERT: Pretraining for Joint Understanding of Textual and Tabular Data - Qiita
    sh19910711
    sh19910711 2024/05/03
    "TABERT: 文と(半)構造化テーブルの表現を合同で学習 / WDC WebTable Corpus: WikipediaとCommonCrawlから収集した大規模テーブルデータ / 評価: Spiderデータセットを用いてテキストからSQL文を予測するタスク" arXiv:2005.08314 2022
  • 複数の関連度から検索可能な BGE M3-Embedding の紹介 - Algomatic Tech Blog

    こんにちは。Algomatic の宮脇(@catshun_)です。 記事では文書検索において一部注目された BGE M3-Embedding について簡単に紹介します。 Chen+'24 - BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation おことわり 記事では精読レベルの 詳細な解説は含みません。 詳細については 参照元の論文をご確認ください。 不十分また不適切な言及内容がございましたらご指摘いただけますと幸いです。 プロダクト等の利用時は 必ずライセンスや利用規約を参照して下さい。 記事で紹介する 論文 は Work in progress とコメントされており今後内容が更新される可能

    複数の関連度から検索可能な BGE M3-Embedding の紹介 - Algomatic Tech Blog
    sh19910711
    sh19910711 2024/05/02
    "ベクトル表現を用いた類似度算出に基づく検索は sparse retrieval, dense retrieval, multi-vector retrieval に大別 / M3-Embedding: これら 3 つの機能を有する高性能な埋め込みモデルとして提案" arXiv:2402.03216
  • 2021年で面白かったTransformer関連論文 - moriyamaのエンジニアリング備忘録

    この記事はみらい翻訳アドベントカレンダー14日目の記事です。 2021年も終わりを迎える中、個人的には転職してからちょうど1年経ちました。 機械翻訳の研究開発に携わることもあり、自然言語処理や深層学習全般を中心にいろいろな論文を読んだ一年でした。 年末にありがちな今年の論文BEST10のようなランキングを作ってみようと考えたが、選定とランキング基準がなかなか定まらず、それだけで数日かかりそうだったので、Transformer関連論文に絞ってまとめてみようと思います。 今年も昨年に続きTransformer is all you needの色が一層強くなったと感じます。Transformer自体は自然言語処理を題材に提案されたモデルですが、最近は画像領域や音声領域でも高い性能を発揮しています。 強く注目されているモデルということもあり、構造の細部にフォーカスした多くの研究がありましたので、そ

    2021年で面白かったTransformer関連論文 - moriyamaのエンジニアリング備忘録
    sh19910711
    sh19910711 2024/04/29
    "CANINE: 各文字に対して複数のハッシュ化を通じて数値化し、それらを連結して文の数値表現とする + 複数の文字トークンに対して一定幅で畳み込みを行うことで疑似的に単語にあたる表現を得る" arXiv:2103.06874 2021
  • RoFormer: Enhanced Transformer with Rotary Position Embedding - iwiwi 備忘録

    arxiv.org GPT-NeoX等で使われているposition embedding。 そもそも三角関数足す元祖のposition embeddingしか知らなかったので、relative position embeddingがどういうものかも知れてよかった。この手法自体は足す(additive)んじゃなくて回転させる(multicative)で、一見かなりアグレッシブな気もしたけど、足すのもまぁまぁやべーし良いかという気持ちになった。内積の大きさを制御したいと思えば全然普通かもしれない。

    RoFormer: Enhanced Transformer with Rotary Position Embedding - iwiwi 備忘録
    sh19910711
    sh19910711 2024/04/27
    "RoFormer: GPT-NeoX等で使われている + 足す(additive)んじゃなくて回転させる(multicative) / アグレッシブな気もしたけど、足すのもまぁまぁやべーし良いかという気持ちになった" arXiv:2104.09864 2023
  • 【 self attention 】簡単に予測理由を可視化できる文書分類モデルを実装する - Qiita

    はじめに Deep Learning モデルの予測理由を可視化する手法がたくさん研究されています。 今回はその中でも最もシンプルな(しかし何故かあまり知られていない)self attentionを用いた文書分類モデルを実装したので実験結果を紹介します。 この手法では、RNNモデルが文書中のどの単語に注目して分類を行ったか可視化することが可能になります。 2019/04追記 記事で紹介したモデルをAllenNLPを使用して書き直した記事を公開しました。 attentionの復習 attentionとは(正確な定義ではないですが)予測モデルに入力データのどの部分に注目するか知らせる機構のことです。 attention技術は機械翻訳への応用が特に有名です。 例えば、日英翻訳モデルを考えます。翻訳モデルは”これはペンです”という文字列を入力として"This is a pen"という英文を出力しま

    【 self attention 】簡単に予測理由を可視化できる文書分類モデルを実装する - Qiita
    sh19910711
    sh19910711 2024/04/26
    "予測を間違えたデータの分析も予測理由の可視化ができるとわかりやすい / self-attentive sentence embedding: bidirectional LSTM + 隠れ層を入力として各単語へのattentionを出力 + 文書分類" arXiv:1703.03130 2018
  • マルチモーダルモデルによる不正出品の検知 | メルカリエンジニアリング

    はじめまして、メルカリで機械学習エンジニアとしてインターン中の@shidoです。 今回はメルカリ内部で使用する機械学習プロダクトにマルチモーダルモデルを用いることで、予測精度の向上に成功した話をご紹介いたします! マルチモーダルとは マルチモーダル(Multimodal)なデータは、「ひとつのデータに対する情報が複数(multi)の形式(mode)で存在しているデータ」と説明できます。 例えば動画配信サイトで配信されている動画には、映像・音声・説明文と、ひとつのビデオについて少なくとも3つの形式で情報が存在していると考えることが出来ます。 メルカリに出品されている商品について考えると、ひとつの商品について写真・説明文・値段など複数の形式で情報が存在しているので、これもまたマルチモーダルなデータといえます。 メルカリでの応用:不正出品検知 現在メルカリでは1日100万品以上が出品され、売れて

    マルチモーダルモデルによる不正出品の検知 | メルカリエンジニアリング
    sh19910711
    sh19910711 2024/04/25
    "動画には、映像・音声・説明文と、ひとつのビデオについて少なくとも3つの形式で情報が存在 / 特徴量合成によくconcatenate=連結する手法が取られますが、ここに工夫の余地" arXiv:1708.02099 2018
  • paragraph2vecの論文 要訳 (Distributed Representations of Sentences and Documents) - Qiita

    paragraph2vecの論文 要訳 (Distributed Representations of Sentences and Documents)自然言語処理機械学習word2vecparagraph2Vec論文読み 原文: Distributed Representations of Sentences and Documents 要訳者からのお知らせ この要訳はTSGの機械学習分科会での発表のために作られたものです。 雑に内容を理解するためのまとめであり、正確な内容を保証するものではありません。 致命的なミスはコメントか編集リクエストでお知らせください Abstract 機械学習するには入力を固定長のベクトルにする必要がある 既存手法で一番popularなのはbag-of-words だけどBOWはクソ 順序の情報が失われる 単語間のセマンティクスが失われる なので Paragr

    paragraph2vecの論文 要訳 (Distributed Representations of Sentences and Documents) - Qiita
    sh19910711
    sh19910711 2024/04/23
    "BOW: 順序 + 単語間のセマンティクスが失われる / bag-of-n-grams: スパース性と次元の高さに問題 / Paragraph Vector: 文書中に出現する単語を予測できるように学習 + BOWの欠点を乗り越える" arXiv:1405.4053 2016
  • 論文紹介: SentencePieceの原著論文+α - radiology-nlp’s blog

    はじめに 2018年に登場したニューラル言語処理のための教師なしサブワード分割モジュール,SentencePiece。 開発意図や仕様を確認するために原著論文を読みました。 github.com 論文は2018年8月にarXivに投稿されています。 arxiv.org 著者・開発者はMeCab開発者でもある工藤拓さん。自然言語処理に関心のある方で知らない人はいないでしょう。 github.com 1冊まるごと形態素解析という驚異的なも執筆されています。 形態素解析の理論と実装 (実践・自然言語処理シリーズ) 作者: 工藤拓,言語処理学会出版社/メーカー: 近代科学社発売日: 2018/10/04メディア: 単行この商品を含むブログを見る 背景 基的事項をいくつか確認します。 SentencePieceは与えられた文章をサブワードに分割するモデルであり, コーパスからの教師なし学習が可

    論文紹介: SentencePieceの原著論文+α - radiology-nlp’s blog
    sh19910711
    sh19910711 2024/04/22
    "SentencePiece: 文法体系や言語学的観点からみて妥当な分割をするとは限りません(そのような設計を目指していません) > 単位は「形態素」ではなく単に「サブワード」と呼ばれることが多い" arXiv:1808.06226 2019
  • BERTで自動要約を行う論文「BERTSUM」を紹介する+α - Qiita

    こんにちは!@MonaCatです。稿はDeep Learning論文紹介 Advent Calendar 2019の1日目の記事です。画像は全て論文中から引用しています。 概要 稿ではBERTを自動要約に適応させたBERTSUMについて紹介します。 論文:Fine-tune BERT for Extractive Summarization Full paper:Text Summarization with Pretrained Encoders また自動要約全体に関する資料をまとめているので参考にどうぞ。 自動要約とは 自動要約とは自然言語処理におけるタスクの1つです。多くはテキストを対象とした自動要約を指しますが、ここでは区別するために文章要約と呼びます。文章要約は抽出型と生成型(抽象型)に分かれますが、現在は生成型(と抽出型を組み合わせたもの)が主流となっています。 抽出型:元

    BERTで自動要約を行う論文「BERTSUM」を紹介する+α - Qiita
    sh19910711
    sh19910711 2024/04/18
    "BERTSUM: 本来先頭のみに挿入するトークン[CLS]を、文の区切りにも挿入 + 奇数と偶数で異なるラベル(A, B)を振ることで区切りを学習 / Decoderにはランダムに初期化された6層のTransfomerを使用" arXiv:1903.10318 2019
  • Pointer-Generator Networksで要約をしてみる - Qiita

    抽象型要約の手法であるPointer-Generator NetworksをChainerで動くようにしてみました。 Pointer-Generator Networksについて Pointer-Generator Networksは抽象型要約としてsequence to sequenceを使うアイディアを発展させたものです。 先行研究として、CopyNetがあります。CopyNetに関してはqiitaに解説記事があります。 今更ながらchainerでSeq2Seq(3)〜CopyNet編〜 - Qiita 既存のseq2seqは未知語に対して一意な単語IDを付与するという挙動が一般的ですが、特に要約という領域では文中の単語がそのまま要約にも使われるということがよくあります。 そこで、文中に出てくる未知語(Out of Vocabulary)に対しそれぞれに一時的なIDを付与し、要約側

    Pointer-Generator Networksで要約をしてみる - Qiita
    sh19910711
    sh19910711 2024/04/14
    "要約: 本文中の単語がそのまま要約にも使われる / Pointer-Generator Networks: 抽象型要約の手法 + 未知語に対しそれぞれに一時的なIDを付与し、要約側にも同じ単語があればそれを使って表現" arXiv:1704.04368 2018
  • 1