タグ

deeplearningに関するstealthinuのブックマーク (1,632)

  • GitHub - DwangoMediaVillage/pydomino: 日本語音声に対して音素ラベルをアラインメントするためのツールです

    stealthinu
    stealthinu 2024/05/28
    pydominoのgithubページ。C++で書いてある!そんでGPU不要!?onnxモデルちょうちっさい。なんというか完成されたプロダクトだわ。
  • 弁別的素性に基づいた音素アラインメントツール pydomino - Dwango Media Village(ドワンゴメディアヴィレッジ,dmv)

    Dwango Media Village の上田です。 日語音素アラインメントとは、音素単位で書かれた日語文章とその読み上げ音声データを入力として与えて音声のどの区間で文中の何の音素が読まれたかを割り当てるタスクで、 音声変換や音声合成機械学習データセット作成に使われます。 人手による音素アライメントは多くの労力がかかりますが、自動の日語音素アラインメント手法では人間の割り当てに比べて直観に反した推定結果が得られることがある、という問題があります。 そこでより弁別的素性を考慮することでより人間らしい日語音素アラインメントを行うツール pydomino(https://github.com/DwangoMediaVillage/pydomino)を開発しました。 pydomino はオープンソースであり、以下の GitHub レポジトリより pip でインストールしてGPU不要です

    stealthinu
    stealthinu 2024/05/28
    pydominoすごい。これあればあのちゃんと推定できてんだかなぞなMAS(Monotonic Alignment Search)なくてもいいじゃん!これ使って改善出来るのか試したい…
  • Your Transformer is Secretly Linear

    This paper reveals a novel linear characteristic exclusive to transformer decoders, including models such as GPT, LLaMA, OPT, BLOOM and others. We analyze embedding transformations between sequential layers, uncovering a near-perfect linear relationship (Procrustes similarity score of 0.99). However, linearity decreases when the residual component is removed due to a consistently low output norm o

    stealthinu
    stealthinu 2024/05/27
    TransformerのMLP部分がほとんど線形であることを示した論文。最初から線形だとうまく学習されないのかな?なんにしても非常に興味深い話。
  • Retrieval-Augmented Generationシステムの改善方法の紹介 - AITC - ISID | AI トランスフォーメンションセンター コラム

    こんにちは、AI製品開発グループのファイサルです。 この記事では、Know Narrator Searchで使用されている文章参照手法、Retrieval-Augmented Generation(RAG)の精度向上方法について紹介します。 はじめに ChatGPTを始めとした大規模言語モデル(LLM)の登場により、AI業界、特に自然言語処理分野で多くの素晴らしい応用先が提案されるようになりました。 LLMは素晴らしい技術であることは間違いないですが、同時に幻覚(Hallucination)という問題を抱えています。 このHallucinationという問題は、LLMが事実と異なる情報をあたかも真実であるように回答するというもので、LLMの発表当初から指摘されていました。 この問題を解決するために、さまざまな手法が存在しますが、よく用いられるのが「Retrieval-Augmented G

    Retrieval-Augmented Generationシステムの改善方法の紹介 - AITC - ISID | AI トランスフォーメンションセンター コラム
    stealthinu
    stealthinu 2024/05/25
    一番最初に「文書データのクリーニング」を持ってきてるところに信用がある記事だった。ColBERT知らんくて勉強になった。メタデータで日付順は確かにそうだな。
  • AI導入で企業が挫折するのはなぜ?―AI「以外」の壁にどう立ち向かうか|Dory

    はじめにこんにちは、Doryと申します! あらゆる業務をAIエージェントで変革するべく、Algomaticという生成AIスタートアップで自社サービス開発や法人向けのAI導入支援に取り組んでいます。 この記事では、AI技術を現場の実業務に導入しようとしたとき、企業が高確率でぶつかる「3つの壁」について、自身の経験も交えて記載していきます。 【この記事には何が書いてある?】 ・AI技術を使って業務を変革しようとするとき、必ずぶつかるのは「AI以外」の壁であること ・3つの壁を乗り越えなければ、AIによる業務改革は進まないということ 【この記事の想定読者】 ・AIを自社にも取り入れたいと考えている経営者の方 ・AIの社内推進がミッションの、いわゆる「AI推進室・DX推進室」の方 ・その他、AIの力で自社を変えたい!と考えている方 以下、文では簡単のため「AI」という表現を多用しておりますが、具

    AI導入で企業が挫折するのはなぜ?―AI「以外」の壁にどう立ち向かうか|Dory
    stealthinu
    stealthinu 2024/05/25
    LLMを業務へ導入する「障壁」はLLMの性能以外のところにある場合が多いという指摘。全く同意。以外にChatGPTを有効利用できてない人多いよね… 大学生はぼちぼち使ってるらしいが。
  • Team「たぬき」開発振り返りメモ2: Scaling lawの壁は高かったという話

    はじめに チームリーダーの畠山です。開発が終盤に差し掛かってきたので、備忘録として開発の振り返りメモを書いていきます。 前回の記事では、限られたリソースで高性能なモデルを作るために、3つの点に注目しました。 モデルアーキテクチャの最適化 事前学習用データセットの準備 ファインチューニング用データセットの準備 今回は、それぞれのアプローチを試した結果について説明します。タイトルにもあるように、Scaling lawの壁は高く、簡単にはうまくいきませんでした。むしろ、うまくいかない条件がわかったという知見が多く得られました[1]。 モデルアーキテクチャの工夫: Branch-Train-Merge (BTM)もどきを試す BRTもどき戦略はうまくいったのか? チームでは、事前学習の際にランダムにシャッフルしたデータを使う代わりに、以下のようなカリキュラムを設定しました。 各ステージの内容: S

    Team「たぬき」開発振り返りメモ2: Scaling lawの壁は高かったという話
    stealthinu
    stealthinu 2024/05/24
    すっごく面白かった。Llamaベースの8Bモデルで日本語学習されてるがまず良質な学習データを揃えるところが実はだいぶ本質的問題で難しさがあることがわかる。すごく勉強になる。
  • AI を活用したソフトウェア開発のための個人的ガイド - Sun wood AI labs.2

    https://www.reddit.com/r/LocalLLaMA/comments/1cvw3s5/my_personal_guide_for_developing_software_with_ai/?rdt=40405 はじめに 私は個人プロジェクトでコードを書く際、特に自動化のためのものを書く際には、AI を活用しています。この点について、人によって意見が分かれるようです。同じように AI を使っている人もいれば、AI が良いコードを書くことは不可能だと考える人もいます。私の分野の専門家の間でも同様の考え方に遭遇し、AI の使い方が人によって異なるのかもしれないと気づきました。 私自身のバックグラウンドですが、私は開発マネージャーであり、業界で長年の経験を積み、大学院でもソフトウェア開発を学んできました。ですので、このガイドは素人ではなく、大規模システムの構築と運用に関するかなり

    AI を活用したソフトウェア開発のための個人的ガイド - Sun wood AI labs.2
    stealthinu
    stealthinu 2024/05/24
    「AIはコンテキストが大きくなると品質が低下するためコンテキストを低く保つ」「コードレビューさせる場合はそのコードを書いたのは別のAIだと伝える」このあたりは参考になった
  • GPT-4oをわかりやすく解説、専門家が「時代の転換点」と評価するヤバすぎる能力とは

    2024年5月に入ってすぐ、AI研究者の間ではOpenAIにまつわる複数の噂が流れていました。いわく「OpenAIが近日中に生成AIを使った検索サービスをするらしい」、「OpenAIが新型のGPTを発表するらしい」などといったものです。 それに先立ち、4月の後半からは、生成AIの性能を比較するサイトで、正体不明のモデル「gpt2-chatbot」なるものが出現し、制作者が不明である中、当時最高の性能を誇っていたGPT-4を上回る性能を見せつけていました(もちろんOpenAIはすでに「GPT-2」を数年前に発表済みです)。では今更このような名前をつけて暴れ回っているこれは何なのか。OpenAI製なのか、それとも別の機関が開発したのか。 この話は後々答えがわかるのですが、このようにAI研究者たちが落ち着かず、あれこれと噂してOpenAIの動向に注意している中、OpenAIは日時間の5月11日

    GPT-4oをわかりやすく解説、専門家が「時代の転換点」と評価するヤバすぎる能力とは
    stealthinu
    stealthinu 2024/05/22
    GPT-4oについて今井翔太さんの解説記事。ガチ解説記事になるらしくて3回連載の1回目。
  • ベクトルデータの容量を96%削減するBinary Embedding

    導入 こんにちは、株式会社ナレッジセンスの須藤英寿です。普段はエンジニアとして、LLMを使用したチャットのサービスを提供しており、とりわけRAGシステムの改善は日々の課題になっています。 RAGのシステムの中では、どんな情報にアクセスするかを決定する際に、Embeddingと呼ばれる文章をベクトル化する技術が使用されています。そして多くの場合では小数(float)の多次元ベクトルが採用されています。 しかし、Embeddingの中には各ベクトルの数値を1Bitのデータとして扱うBinary Embeddingというものが存在します。 記事では、Embeddingの手法の一つであるそのBinary Embeddingについて解説と検証を行います。 サマリー Binary Embeddingを採用することで以下のような効果を得ることができます。 保管するベクトルデータの容量を96%ほど削減で

    ベクトルデータの容量を96%削減するBinary Embedding
    stealthinu
    stealthinu 2024/05/22
    バイナリembeddingで粗く抽出しといてそれを元のfloatでrerankするとほとんど精度下がらず高速にretrieveできると。なるほどな。今のところここまでretrieve重い案件ないが今後のために。
  • 最近ローカルLLMがアツいらしい

    最近、ローカルLLMがアツくなっているという話をtwitterでチラホラ見かける。 ローカルLLMって何じゃ?というと、オープンに公開されているモデルのウエイトをDLしてきて手元のPC上で推論させる事である。 オープンなAIモデルとは逆の存在として、モデルがDLできないクローズなAIモデルもある。 OpenAIやAnthropicのような最先端AI企業のクローズなAIモデルに比べて、オープンに公開されているオープンなAIモデルの性能は今でもかなり後れを取っている。 だから去年の間はあくまでAI命はChatGPTのようなクローズモデルであって、オープンなAIモデルなんて眼中にありませんみたいな風潮が無くはなかった。だが最近は風向きが少々変わってきている。 GPTのAPI高い問題 & OpenAIAIベンチャー皆殺しにしてしまう問題 まず「結局GPTのAPIを叩いてサービス運営して成功し

    stealthinu
    stealthinu 2024/05/21
    2024/5現在のローカルLLMの状況がまとめられてて今後何年かしたら歴史的資料価値が出そうなくらい。ローカルLLMは絶対に社外に情報だしたくないJTCとかで需要があると思う。
  • Deep Paint v1.0 - GAKU氏によるGrease Pencilを活用した3Dイラスト・立体絵画制作支援ツールセットBlenderアドオンが遂にリリース!

    Blender アドオン プラグイン&アドオン-Plugin&Addon ICity 1.0 Beta - 区画設計から道路生成!プロシージャルビル生成!... 2024-05-21 テクニカルアーティストのHothifa Smair氏によるBlender用の都市生成アドオン『ICity 1.0』のベータ版がリリースされました! 続きを読む Blender アドオン プラグイン&アドオン-Plugin&Addon NijiGPen v0.9 - Grease Pencilでのグラフィックデザイ... 2024-05-20 Chaosinism氏によるGrease Pencilでのグラフィックデザインやイラスト制作を支援する機能拡張が可能な無料&オープンソースのBlenderアドオン『NijiGPen v0.9』がリリースされました! 続きを読む

    stealthinu
    stealthinu 2024/05/15
    水彩画を書くみたいにして3Dモデルを作れるツール。立体を認識する部分でdeeplearningが使われているのかな?
  • Embeddingモデルを使ったベクトル化のしくみ、fine-tuning手法を解説

    自己紹介
 • 名前
 ◦ 早野 康太
 • お仕事
 ◦ 自然言語モデルの改善 • 今期期待のアニメ
 ◦ ユーフォ、無職転生、夜のクラゲ
 このすば、ガールズバンドクライ
 • 最近の映画
 ◦ デデデデおもろかったです
 ▪ 幾田りら声優うまスンギ
 ▪ 原作もバチクソ良かった
 • 今後の映画
 ◦ ウマ娘、ぼざろ、デデデデなど アジェンダ
 • Transformerモデル
 ◦ Attentionについて
 ◦ CLS, mean pooling
 • fine-tuningについて
 ◦ Contrastive Learning
 ◦ データセットのつくりかた
 • 世のEmbeddingモデルたちはどうしてるか
 ◦ m-E5
 ◦ E5-mistral-7b-instruct
 ◦ BGE
 • Embeddingモデルの応用
 ◦ RAGとかStable Diffusi

    Embeddingモデルを使ったベクトル化のしくみ、fine-tuning手法を解説
    stealthinu
    stealthinu 2024/05/14
    Embeddingモデルがどうなってるか、主に学習データと学習方法からの説明。
  • GPT-4o の概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Hello GPT-4o 1. GPT-4o「GPT-4o」 (「omni」の「o」) は、人間とコンピュータのより自然な対話に向けた一歩です。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。 音声入力にはわずか232ミリ秒 (平均320ミリ秒) で応答できます。これは、人間の会話における応答時間とほぼ同じです。英語のテキストおよびコードでは「GPT-4 Turbo」のパフォーマンスに匹敵し、英語以外の言語のテキストでは大幅に改善されており、APIでははるかに高速で50%安価です。「GPT-4o」は、既存のモデルと比較して、特に視覚と音声の理解に優れています。 2. モデルの機能「GPT-4o」以前は、音声モードを使用して、平均2.8秒 (GPT-3.5) および5

    GPT-4o の概要|npaka
    stealthinu
    stealthinu 2024/05/14
    『「GPT-4o」では、テキスト、ビジョン、オーディオにわたって単一の新しいモデルをエンドツーエンドで学習しました』やっぱこれがキモだよな。
  • OpenAI、次世代AIモデル「GPT-4o」を発表

    時間2024年5月14日未明、OpenAIは新たなフラッグシップモデル「GPT-4o」を発表しました。このモデルは、音声、視覚、テキストのリアルタイム処理を可能とし、従来のAIモデルを大きく上回る性能を誇ります。OpenAIのCTOであるミラ・ムクティ氏は、「GPT-4oは、人間とマシンのインタラクションの未来を大きく変える一歩です。このモデルにより、コラボレーションがはるかに自然で簡単になります」と述べました。 「GPT-4o」の主な特徴を以下にまとめました。 他のモデルを凌駕する性能 GPT-4oは、OpenAIの以前のモデルであるGPT-4 Turboや、ライバル会社のClaude 3 Opusなどの大規模言語モデルと比較して、頭ひとつ抜けた性能向上を実現しました。サム・アルトマンCEOは、今年4月に "Chatbot Arena" でgpt2というコードネームでテストされていた

    OpenAI、次世代AIモデル「GPT-4o」を発表
    stealthinu
    stealthinu 2024/05/14
    「gpt2」はGPT-4oだったとのこと。従来のGPT-4と比べて表現力とか理解力がすごく上がってる感じがしたのは従来モデルでも追加学習でよくなった分ということなのか… 日本語出力速度も上がってる
  • 【まるで魔法】GPT-4o(オムニ)が登場。ChatGPTアップデートまとめ|ChatGPT研究所

    5月14日、日時間深夜2時よりOpenAIのイベントが開催されました。 イベントの内容は、AIの新しい時代の幕開けを予感させる衝撃的な発表となりました。 注目すべきは、 最新モデル「GPT-4o」の登場 無料ユーザーへの解放 の二つです。 これにより、より多くのユーザーが高度なAIを手軽に利用できるようになります。 今回は、このOpenAIの最新アップデートの内容を詳しく解説していきます! 新しく発表されたGPT-4oとは?5月14日のイベントで発表された最新モデル「GPT-4o」(oはomniの略:【omniは「全ての」を意味する】)は、音声、視覚、テキストをリアルタイムで処理できる新しいAIモデルです。これにより、より自然な人間とAIの対話が可能になりました。 主な特徴マルチモーダル対応:テキスト、音声、画像の組み合わせを入力として受け取り、同様に多様な形式の出力を生成可能。 高速応

    【まるで魔法】GPT-4o(オムニ)が登場。ChatGPTアップデートまとめ|ChatGPT研究所
    stealthinu
    stealthinu 2024/05/14
    GPT-4.5ではないんだ、と思ったが、音声会話系のアップデートがすごい… めちゃくちゃ自然に会話出来るようになってる。今度は全二重だし歌も歌える。感情表現も豊か。
  • Command R+はどこまで量子化するとアホになってしまうのか?

    今回は、ローカルで動かせるCommand R+の量子化モデルを色々使ってそれぞれにElyzaTasksベンチマークを解かせるという事をやる。 何故そんな事をする必要があるんですか? まず、LLMのパラメータは来1パラあたり16bitの精度で保存されている。しかし、LLMを動かすとメチャクチャメモリやVRAMう。だから、精度を下げちゃえば省メモリになっていんじゃね?という話で、8bitやら4bitやら2bitに精度を下げちゃう事が、特にLlama.cpp界隈では常識的に行われている。これが量子化だ。というか、コンシューマレベルのPCでLLMを実用的に動かしたいと思えば、量子化はもはや必須テクである。 量子化でbit数を下げれば下げるほど、当たり前だがLLMの回答の精度、クオリティは下がっていく。要するにアホになってく。8bitはまったく問題なし。6bit、5bitも全然問題なし。4bit

    Command R+はどこまで量子化するとアホになってしまうのか?
    stealthinu
    stealthinu 2024/05/13
    Command R+を例にした量子化bit数と手法での性能劣化度合いについて。やはり4bitくらいまでならそんなに遜色ない感じ。3090が3毎あればローカルLLMが実用になる時代に。
  • ChatGPTの出力結果が毎回異なる理由|IT navi

    ChatGPTに同じプロンプトを入力しても、毎回同じ出力にはなりません。これは、ChatGPTが多様な文章を生成できるようにランダム性を取り入れているからですが、実は、それだけではありません。 また、画像生成AIでも、同一のプロンプト、同一のシード値などを使用しているにも関わらず、生成された画像が同じものにならないことがあります。 この問題に関して、MathematicaやWolfram Alphaの開発者であるStephen Wolfram氏が書いたブログ記事に面白い内容が書かれていましたので、これを参考に、解説していきたいと思います。 1.ChatGPTへのランダム性の導入ChatGPTのベースとなっている大規模言語モデル(LLM)では、これまでに入力・生成されたテキストに続く次の単語(トークン)を予測して追加していくことによって文章を生成しています。 単語の選択は確率に基づいて行われ

    ChatGPTの出力結果が毎回異なる理由|IT navi
    stealthinu
    stealthinu 2024/05/11
    Temperature=0でも結果揺れるのなんでだろ?と思ってたのだけど、GPUの演算順みたいな細かなところからの揺れで発生していたとは…
  • 「知的単純作業」を自動化する、地に足の着いた大規模言語モデル (LLM) の活用

    LayerX 部門執行役員・AI・LLM事業部長 中村龍矢 2024/5/8 生成AI Conf

    「知的単純作業」を自動化する、地に足の着いた大規模言語モデル (LLM) の活用
    stealthinu
    stealthinu 2024/05/10
    現状のGPTやRAGを使ったシステムの限界や課題がちゃんとわかってる人が書いた内容だった。GPT-4はうまく使えたらそのへんの普通の人より性能高いのだけど、ぼやっとした指示ではぼんくら。
  • ChatGPT�人間のフィードバックから強化学習した対話AI

    東京大学の研究室内で,今井がChatGPTの知見を共有するために使用したスライド資料です. 特に以下のような話題,技術について解説しています. ・ChatGPTの凄さ ・ChatGPT技術 ・言語モデル ・プロンプト ・GPTとは ・InstructGPT ・言語モデルと強化学習 ・RLFH

    ChatGPT�人間のフィードバックから強化学習した対話AI
    stealthinu
    stealthinu 2024/05/09
    InstructGPTで人間のラベラーを使って強化学習させたのがブレークスルーだったんだな。知性はデータに宿っている。
  • 最後にKANは勝つのか?MLPに変わると主張されるKANを試す|shi3z

    コルモゴロフ・アーノルド・ネットワークス(KAN;Kolmogorov–Arnold Networks)は、MITとカルテック、ノースイースタン大学、NSF人工知能および相互作用研究所らの共同研究によって生まれた、これまでの多層パーセプトロン(MLP;Multi Layer Perceptron)に変わるニューラルネットワークだそうな。 先週一番話題になったので知ってる人も多いと思う。 AIの世界は恐ろしく、世界の片隅で新発見がされるとそれが一週間もしないうちに世界中でテストされ、改良され、確認され、解析される。 KANの公式な実装には機械学習屋がHello Worldと呼ぶMNIST(手書き数字6万字を学習させて精度を競うモノ)がなかった。それどころかGPUも使われていなかったので、「一体全体どうすれば?」と困惑するしかなかったのだが、さすが世界は広い。すでにEfficient-KANや

    最後にKANは勝つのか?MLPに変わると主張されるKANを試す|shi3z
    stealthinu
    stealthinu 2024/05/08
    KANが今だとあんまりメリットなくてあと通常の画像認識とかそういうのには向かない(関数推定とかに向く)というテスト結果