[B! W] sh19910711のブックマーク

[論文紹介] AdaLoRA

ICLR22のLoRA[1]の後続研究であるAdaLoRA[2]（ICLR23にposterで採択）の解説です．書誌情報です． Q. Zhang, M. Chen, A. Bukharin, P. He, Y. Cheng, W. Chen, and T. Zhao, "Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning," in ICLR, 2023. 輪講スライドも公開してるので，良ければそちらも参照していただければ．関連リンクガチプロによる査読であるところのOpen Review Paper ICLR23版 arXiv版 PEFT v0.3.0における実装箇所 src/peft/tuners/adalora.py - class AdaLoraModel src/peft/tuners/adalora.p

sh19910711 2024/06/10

"AdaLoRA: LoRAでは固定だったランク 𝑟 の値をLoRAを適用する層に応じて適応的に変化 / LoRA: 層やモジュールによってパラメータの重要度が異なるという事実を無視 / 既にHuggingFace PEFTに実装されていて ~ " arXiv:2303.10512 2023

リンク

独立成分分析を用いた埋め込み表現の視覚的な理解

sh19910711 2024/06/08

"埋め込み: 各要素の大小は解釈できない + PCAよりもICAの方が上手く解釈できる / ICA: 異なる言語の埋め込みで形と意味が共通 + 尖った形状を見つけられる + モデルやドメインの違いを超えた普遍性" doi:10.18653/v1/2023.emnlp-main.283

リンク

小規模なLLMのMerge(圧縮・強化)、GGUF化と量子化、Ollamaの使い方の注意点 - Qiita

本記事はパラメータが3B（30億パラメータ）以下の比較的小規模なLLMのマージや量子化の効率的な処理方法と、それをローカルで動かす際の、Ollamaの使い方の注意点についてまとめたものです。実際に実行した環境は以下の通りです。・ローカルPC：　M1 Macbook Air Ventura13.6.7 メモリ８GB CPU８コア・GPU７コアモデルのマージ比較的簡単にモデルのマージをしたい場合には、定番のMergekitがお勧めですが、更にインストールや各種設定等の手間も省きたい人にお勧めなのはLazyMergekitです。リンク：LazyMergekitのnotebook(Github: mlabonne/llm-course）このGithubサイトにあるLazyMergekitのnotebookリンクを開き、自分のGoogleDriveにコピーして使います。最初マージに必要な設

sh19910711 2024/05/31

"簡単にモデルのマージをしたい場合には定番のMergekit / 各種設定等の手間も省きたい人にお勧めなのはLazyMergekit / slerp: 複数回マージすると日本語能力が向上したりという裏技的な手法もある"

リンク

Item2Vecを用いて推薦システムを構築するときに気をつけること - Qiita

NTTドコモの久保田です。2度目の登場です。みなさんIt em2Vecという技術をご存じでしょうか。 It em2Vecとは、文章から単語の分散表現を獲得するWord2Vecを推薦システムに適用した技術です。具体的にECサイトでの推薦を考えたときに、Word2Vecの単語を商品に、文章をユーザが評価したアイテム集合として、アイテムの分散表現を獲得し、アイテム間の類似度などをもとに推薦していく感じです。簡単に実装できるので、割とやってみた系の記事が多いですが、実際に推薦システムへの適用を考えたときに気を付けるところがあります。 It em2Vecの実装方針 gensimというトピック分析のライブラリがあり、このライブラリを使えば簡単にIt em2Vecを実装できます。 1行をユーザが評価しているアイテム集合、各アイテムはスペースで区切られたテキストファイル(今回は、it em_buskets.tx

sh19910711 2024/05/30

"ns_exponent (gensim): negative samplingする分布の形状 + デフォルトでは0.75 + 0だとランダムサンプリング + 負の値になると頻度が低いもの / 音楽系のデータセットでデフォルトの2倍ぐらい + Click-Stream datasetでは約10倍の精度向上" 2019

リンク

日本語x-vectorから感情成分を分離するニューラルネットワークを構築してみた −感情分類に敵対的な損失関数の導入− - 備忘録

はじめに本記事は前回記事の続編に相当する．前回記事では声優統計コーパスの3話者・3感情の音声データに対してx-vector抽出器を適用し，UMAPで可視化を試みた．この可視化の実験を通じて，感情成分が分離できていない傾向が見られた．すなわち，本来は話者3クラスにも関わらず，疑似的な9クラス（= 3話者 × 3感情）が存在するように見える，というものである（x-vector抽出器の学習データを考えてみれば，それはそうなのだが）．せっかくx-vectorが手元にあるのだから，感情成分を分離/除去するフィルタの役割を果たす手法を実装してみたいと考えた．本記事はその実装の詳細と簡単な検証実験に関する報告である．感情成分を分離するニューラルネットワーク先行研究と論文今回の実装にあたり下記の論文を参考にした．本論文では，音響特徴量（ベクトル系列）に含まれる話者成分とテキスト情報を表す成分

sh19910711 2024/05/29

"本来は話者3クラスにも関わらず，疑似的な9クラス（= 3話者 × 3感情）が存在するように見える / 損失関数とネットワーク構造を工夫することで特徴量に含まれる特定の成分を分離" doi:10.1109/TASLP.2019.2960721 2023

リンク

深層自己符号化器＋混合ガウスモデルによる教師なし異常検知

[DL輪読会]Understanding Black-box Predictions via Influence Functions

sh19910711 2024/05/28

"DAGMM: 深層自己符号化器によって次元削減 + 再構築エラーをconcatして低次元の特徴を得て ~ / 異常検知の段階では推定密度からあるサンプルに対する確率密度を計算 + 対数をとって-1倍してエネルギーと呼ぶ" 2018

リンク

【論文紹介】1%の性能低下で50%のモデルサイズ削減が可能な蒸留手法 - Qiita

紹介する論文【筆者】Kunbo Ding, Weijie Liu, Yuejian Fang, Zhe Zhao, Qi Ju, Xuefeng Yang, Rong Tian, Zhu Tao, Haoyan Liu, Han Guo, Xingyu Bai, Weiquan Mao, Yudong Li, Weigang Guo, Taiqiang Wu, and Ningyuan Sun. 【タイトル】Multi-stage Distillation Framework for Cross-Lingual Semantic Similarity Matching. 【採択会議】NAACL2022 Findings どんな論文？新たなモデル蒸留手法を提案した論文です．本論文で扱うSTSタスク（後述）はモデルサイズに大きく影響されるそうで，以下の図のようにモデルサイズが大きければ大

sh19910711 2024/05/27

"性能をなるべく維持しつつモデルサイズを小さくする / 蒸留: モデル間のギャップが大きいと性能が低下 / 生徒モデルはアシスタントモデルの最初から3層目までのTransformerモデルの重みで初期化" 2023

リンク

書籍「グラフ深層学習」を参考にGNNのグラフ埋め込みをやってみた - Qiita

本記事の概要 GNNのグラフ埋め込みをpythonでの実装も含めてやってみたよ GNN のライブラリは使わずにやったよ書籍「グラフ深層学習」の4章を参考にしているよ簡単な理論とコードを載せているよ僕と同じくGNNビギナーの方の参考になればうれしいよモチベーショングラフニューラルネットワーク（GNN）について耳にする機会が増えたこと、また今年に入って書籍が続けて発行されたことから、GNN勉強してみたい！という人が増えているのではないでしょうか。わたしもその一人で、独学ですが「グラフ深層学習（2023, ヤオマー＆ジリアンタン）」を読み進めています。「グラフ深層学習」はグラフ理論の紹介から始まり、4章でグラフの特徴を抽出する　グラフ埋め込み　を取り上げています。 LLMなどでも使われる「埋め込み（embedding）」ですが、グラフにおいても特徴抽出の手法（教師なし学習）と

sh19910711 2024/05/27

"「グラフ深層学習」の4章を参考 / タスクに応じた有用なベクトル表現を得ることが重要 / 元のグラフの情報をできるだけ保存する + その後のタスクで使用したい情報をなるべく保存できる写像が良い"

リンク

[論文メモ] SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations - Qiita

[論文メモ] SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations機械学習論文読み前置き SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations 文書ベクトルをお手軽に高い精度で作れるSCDVって実際どうなのか日本語コーパスで実験した(EM NLP2017) の記事が圧倒的にわかりやすいのでそっちも見たほうがいいよ!! SCDVの概要 document embeddingの新しい手法。文書分類だけでなく情報探索等にも活用できる。数値実験では既存の方法(doc2vec, LDA, NTSG)に比べ高い精度が出た

sh19910711 2024/05/24

"SCDV: 絶対値が小さい要素はゼロにし、スパースなベクトルに変換 + 医療の単語が多く含まれるとき、政治に関係する単語の影響力は小さくなる + クラスタごとに単語の表現ベクトルを足し合わせる" arXiv:1612.06778 2018

リンク

ニューラルネットワークの量子化手法の紹介

ニューラルネットワークにおける量子化とLLMや混合精度などの最近のトピックに関して紹介します。

sh19910711 2024/05/22

"PTQ: スケールが小さい→表現できる範囲は小さいが範囲内では正確 + スケールが大きい→表現できる範囲は大きいが範囲内でも誤差 / PyTorch Quantization: ONNXへのexportはサポートされていない + 外部ツールに頼る必要" 2023

リンク

高効率のLLM学習手法ReFTを試してみる | 株式会社AI Shift

こんにちは AIチームの戸田です今回は先月スタンフォード大学が発表した新しいParameter-efficient fine-tuning（PEFT）のReFTを試してみたいと思います。 PEFT PEFTはLLMのような大規模な事前学習済みのニューラルネットワークのモデルを、効率的にfine-tuningする手法の総称です。モデル全体ではなく一部のパラメータだけを更新することで計算コストを大幅に削減できる上に、Full fine-tuning(モデル全体を学習)するのと同等の性能を達成することができると言われています。代表的なものにLow-Rank Adaptation（LoRA）が挙げられます。 ReFT Representation Finetuning (ReFT)は、LoRAとよく似たPEFT手法です。違いは、LoRAがモデルの重みを部分的に更新するのに対し、ReFTはモデルの

sh19910711 2024/05/19

"ReFT; Representation Finetuning: LoRAがモデルの重みを部分的に更新するのに対し、ReFTはモデルの中間層の出力に介入 + LoRAと比べて非常に少ないパラメータの変更でモデルの挙動を制御"

リンク

ゼロショット物体検出の研究動向

sh19910711 2024/05/18

"Zero-Shot Detection: 学習時には存在しないクラスの物体検出 + 単語空間を使うことでデータの補間ができる / Ankan18: BBoxのついていないところを検出する予定のない未知クラスの単語ベクトルに割り当て" arXiv:1804.04340 2021

リンク

深層学習の量子化に入門してみた〜BERTをStatic Quantization〜 - Retrieva TECH BLOG

こんにちは。リサーチャーの勝又です。私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。前々回、深層学習の量子化について簡単な解説記事を公開しました。前回はDynamic Quantizationを試した記事を公開しました。今回はStatic Quantizationを実際に試してみようと思います。 Static Quantizationの概要 ONNX Runtimeを利用した量子化方法紹介データの準備および単語分割を行う量子化のConfigを作成 Calibrationを実行してscale factorを計算する量子化適用前に除外するノードを定義量子化の実行量子化実験実験設定推論速度の比較まとめ Static Quantizationの概要 Static Quantization（Post Tr

sh19910711 2024/05/13

"Static Quantizationを行うことで、量子化を行わない場合より推論速度を高速化 + 一方でStatic QuantizationよりもDynamic Quantizationの方が推論速度が速いこともわかり / optimum: お手軽にPyTorchのBERTを量子化したONNXモデルに変換" 2022

リンク

ポアンカレエンベッディング - にほんごのれんしゅう

ポアンカレエンベッディング Euclid空間にエンベッディングするようなword2vecは意味の上下関係が明示的に記されません。(情報としたあったとしても僅かでしょう) ポアンカレボールという双曲幾何学空間に埋め込むことで、効率的に意味(や木構造)の上位関係をとらえることができます[1] 理解ポアンカレボールはこのような、外周部に行くほど密になる球みたいなものなのです。図1. ハニカム構造のPoincare Ball(Wikipediaより) ポアンカレボールでは外に行くほど情報が密になり、空間が広がっているともとらえます。数式で表現するとこのようになって、 gEというユークリッド距離がxが1に近づけば無限に大きくなることがわかります。このポアンカレボール上にある二点間の距離はこのように表現され、単純なユークリッド距離ではないことが見て取れます。この距離関数に基づいて損失関数L(

sh19910711 2024/05/13

"ポアンカレボール: 外周部に行くほど密になる球みたいなもの + 外に行くほど情報が密になり、空間が広がっている / 情報が何らかの上下関係を持っており、木構造で表現できるとき、ルートノードが真ん中に" 2018

リンク

embeddingを用いた分析・検索・推薦の技術

『Future Tech Night #17「embeddingの活用」と「MLOps」のAI勉強会』(https://future.connpass.com/event/231310/)で発表した資料です。

sh19910711 2024/05/13

"LaBSE: 英語をpivotに109ヵ国語をベクトルへ変換可能 / USE-L: 16ヵ国語に対応 + Transformerを用いており文長Lに対しO(L^2)で動作し重いがその分精度がいい + USEに比べ14倍の実行時間 / faissに実装されているspherical kmeans" 2021

リンク

Autoencoderを用いたOutfitからのスタイル抽出/style auto encoder

sh19910711 2024/05/13

"Autoencoderの仕組みを利用してスタイル混合比と基底スタイルを獲得する / 誤差関数はhinge loss + 復元時に用いる行列について、各行が独立となるように正則化をかける + 行列の各行は基底スタイルを表す" 2018

リンク

Poincaré Embeddings でJ1リーグのチーム・選手を可視化 - u++の備忘録

ふと「Poincaré Embeddings」*1で遊んでみたいと思い立ち、サッカーJ1リーグのデータで試してみました。 Poincaré Embeddings gensimでの実装とデータセット Poincaré Embeddingsの学習活用方法おわりに Poincaré Embeddings Poincaré Embeddingsに関する説明は、ABEJA*2やscouty*3のブログに譲ります。 Poincaré Embeddings は端的に言うと word2vec の埋め込み先をユークリッド空間ではなく双曲空間にするという手法で、階層構造やべき分布をもつデータを埋め込むという問題設定において、低次元でもよい表現を与えられるという特徴があります。 Poincaré Embeddings による職種の類似度計算とその利用 - LAPRAS AI LAB gensimでの実装とデ

sh19910711 2024/05/11

"gensimの実装では正則化の影響で周囲にノードが集結しすぎないような工夫 / チーム名が中心 + 円周側に選手 / 「浦和レッズ」の近くに「サンフレッチェ広島」が配置 + 移籍した選手の影響ではないか" 2019

リンク

小規模データセットに対するニューラルネットの汎化性能の理由に迫る論文：Modern Neural Networks Generalize on Small Data Sets | 10001 ideas

sh19910711 2024/05/09

"大規模ニューラルネットがランダムフォレストのように複数のモデルのアンサンブルとして予測を行っていることを示して / ドロップアウトを使うとさらにランダムフォレストの結果に近づく" doi:10.5555/3327144.3327279 2019

リンク

Self Distillationって何？AlphaFold2では何をしているの？ - magattacaのブログ

先日AlphaFold2についてのPodCastを聞きました。知らないことばかりで「あーなるほどそういう話だったのかー」と興味深かったです。専門の先生方の議論を拝聴できるのはすばらしいですね。 AlphaFold2はディープランニングの専門の方から見ても、面白い技術がたくさん使われているそうですが、ど素人にはそもそもどこが生物学で、どこが深層学習的な話なのかわからないです。というわけで、今回は深層学習の用語らしい「Self distillation」について調べてみました。ついでにAlphaFold2での使用例もちょっと見たいと思います。 www.nature.com 1. Self distillation 1-1. 知識蒸留はモデル圧縮の技術 1-2. 大事な知識はソフトな知識 1-3. 自己蒸留 ~Be Your Own Teacher~ 1-4. どうして自己蒸留で精度が上がるの

sh19910711 2024/05/07

"自己蒸留: どっちも同じモデル（自分自身）にしちゃえば良いんじゃない / 知識蒸留では不正解に対する知識も大事 / 同じモデルを使っていてもアンサンブルのように精度が高くなる" 2021

リンク

Amazon Titan Text Embedding V2 を試してみた | DevelopersIO

特にV2ではベクトルサイズ(dimensions)を柔軟に選択できるようになったため、用途に応じて適切な値を選択すると良さそうです。使用ライブラリ今回使用するライブラリは、boto3のみです。 boto3：1.34.61 コサイン類似度を計算する際、一般的には以下のブログのようにNumPyやSciPyという外部ライブラリを別途導入し利用する事が多いです。今回はあえて外部ライブラリを使わず、boto3以外はPythonの標準ライブラリのみでコサイン類似度を計算します。 boto3がプリインストールされているCloudShell等の環境であれば追加の外部ライブラリなしで実行できるので、ぜひそちらでお試しください。スクリプト内容 Pythonのスクリプトを以下に示します。スクリプト実行時の引数に比較対象となる2つの文を指定して実行すると、コサイン類似度が出力されます。また今回はオレゴ

sh19910711 2024/05/07

"Titan Text Embeddings V2: ベクトルの正規化をサポート + トークンあたりの価格が低下 + 100万トークンあたり 0.02USD / 小さいベクトルサイズを選択する事でデータベースから文書抽出を検索して取得するための待ち時間を短縮"

リンク

はてなブックマーク

タグ

関連タグで絞り込む (37)

Wに関するsh19910711のブックマーク (109)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス