並び順

ブックマーク数

期間指定

  • から
  • まで

361 - 400 件 / 1137件

新着順 人気順

LLMの検索結果361 - 400 件 / 1137件

  • Lightblue、商用利用可能な日本語LLM「Karasu」「Qarasu」を公開

    Lightblue、商用利用可能な日本語LLM「Karasu」「Qarasu」を公開既存の日本語公開モデルの中で最高性能を達成、オンプレミス環境でのLLM利用を実現可能に 生成AIの研究開発「LLab」を運営し、日本語LLMの開発・提供を手掛ける株式会社Lightblue(代表取締役:園田亜斗夢、本社:東京都千代田区、以下「Lightblue」)は商用利用可能な日本語LLM「Karasu」「Qarasu」を公開したことをお知らせします。 ■ Karasu/Qarasuシリーズについて Karasuシリーズは70億パラメータのShisa( https://huggingface.co/augmxnt/shisa-7b-v1 )に対して、日本語と英語の学習データを用いて70億トークンで継続事前学習とファインチューニングを実施したモデルです。 またQarasuシリーズは、140億パラメータのQw

      Lightblue、商用利用可能な日本語LLM「Karasu」「Qarasu」を公開
    • (JSConf JP 2023) LLM (大規模言語モデル) 全盛時代の開発プラクティス

      このPDFは「LLM全盛時代の開発プラクティス」というタイトルの資料で、baseballyama氏によって作成されました。内容は主に大規模言語モデル(LLM)を活用した開発プラクティスに関するものです。 主な内容は以下の通りです: 1. **GitHub Copilotについて**: - Copilotの利用が増え、コード提案を受け入れてから精査する流れが一般的になった。 - インターネット接続がないと利用できないことが難点。 - Copilotは開いているファイルを参考にしてコードを提案し、統一されていないコードは提案の精度を低下させる。 2. **AIツールによる効率化**: - AIレビューツールとFigma to Codeツールについて議論。 - AIレビューツールは一般的なアドバイスに留まり、具体的な自社ルールに基づいたレビューが求められる。 - Figma to Codeでは、

        (JSConf JP 2023) LLM (大規模言語モデル) 全盛時代の開発プラクティス
      • 130億パラメータの大規模言語モデル「LLM-jp-13B」を構築~NII主宰LLM勉強会(LLM-jp)の初期の成果をアカデミアや産業界の研究開発に資するために公開~ - 国立情報学研究所 / National Institute of Informatics

        2023/10/20 130億パラメータの大規模言語モデル「LLM-jp-13B」を構築 ~NII主宰LLM勉強会(LLM-jp)の初期の成果をアカデミアや産業界の研究開発に資するために公開~ 大学共同利用機関法人 情報・システム研究機構 国立情報学研究所(NIIエヌアイアイ、所長:黒橋 禎夫、東京都千代田区)は、本年5月から、自然言語処理及び計算機システムの研究者を中心として、大学・企業等から500名以上が参加するLLM勉強会(LLM-jp)を主宰しています。7月から、計算資源としてデータ活用社会創成プラットフォームmdx*1を活用し、パラメータ数*2130億の大規模言語モデル(LLM)の構築を開始しました。このたび、同LLMの事前学習及びチューニングが終了し、モデルを公開しましたので、お知らせします。 同モデルはLLM研究開発としては初期段階のものであり、モデルの性能を示す評価値はこれ

          130億パラメータの大規模言語モデル「LLM-jp-13B」を構築~NII主宰LLM勉強会(LLM-jp)の初期の成果をアカデミアや産業界の研究開発に資するために公開~ - 国立情報学研究所 / National Institute of Informatics
        • ELYZA、コード生成と補完に特化した70億パラメータの日本語LLMを公開

            ELYZA、コード生成と補完に特化した70億パラメータの日本語LLMを公開
          • チャットAIをブラウザのWebGPUだけで実行でき日本語も使用できる「Web LLM」、実際に試してみる方法はこんな感じ

            ChatGPTやBardなど、大規模言語モデルをベースに人間と会話できる対話型AIが登場していますが、これらの対話型AIを動作させるには膨大な演算リソースが求められ、通常はAIが動作するサーバーにアクセスする形で対話を可能にしています。Metaが開発した大規模言語モデルのLLaMAをファインチューニングしたVicuna-7Bをベースにした対話型AI「Web LLM」は、ブラウザ上でのGPU演算を可能にするWebGPUを使うことで、サーバーにアクセスすることなくブラウザ上で対話型AIにアクセスできるのが特徴。日本語にも対応しているとのことなので、実際にWeb LLMと日本語で対話してみました。 GitHub - mlc-ai/web-llm: Bringing large-language models and chat to web browsers. Everything runs in

              チャットAIをブラウザのWebGPUだけで実行でき日本語も使用できる「Web LLM」、実際に試してみる方法はこんな感じ
            • 日本語LLMの学習に向けたデータ前処理

              はじめに 大規模言語モデルの学習にあたり、大規模なデータセットで学習することが重要ですが、高品質なデータを用いることも重要です。 Webなどから大規模に収集したデータを用いることが一般的ですが、そのままだとかなりノイズが多く、モデルの学習が困難です。 本記事では、言語検出、テキスト正規化、テキストのチャンキング、品質フィルタリングのデータ前処理によりノイズを取り除く方法について解説します。 言語検出 Webから大規模に収集したデータには、様々な言語が含まれます。 日本語をターゲットとした言語モデルの学習のためには、日本語のデータのみを抽出する必要があります。 言語検出のPythonライブラリとして、pycld3やlangdetectが有名ですが、2022/1/11にlinguaがリリースされています。開発者のベンチマークによると、性能は他のライブラリと比べて高いです。 特にpycld3はp

                日本語LLMの学習に向けたデータ前処理
              • LLM活用時代に“価値あるデータサイエンティスト”になるには 「食べログChatGPTプラグイン」開発で見えてきた、これから求められるスキル

                大規模言語モデル(LLM)を、実際にプロダクトや実務に役立つかたちで利用している各社が見た使いどころや、実践の上での工夫について学び合うためのイベント第二弾。今回のテーマは「大規模言語モデルがつくる新しい顧客体験」。ここで登壇したのは、株式会社カカクコムの森菜都未氏。食べログにおける大規模言語モデル活用の未来と、データサイエンティストの向き合い方について発表しました。 食べログの先端領域推進を担当する森菜都未氏 森菜都未氏(以下、森):よろしくお願いします。「食べログChatGPTプラグイン導入で見えてきた未来:データサイエンティストの向き合い方」について、株式会社カカクコムから森菜都未が発表いたします。 まず、自己紹介です。森菜都未と申します。株式会社カカクコムの食べログシステム本部技術部データサイエンスチームに所属しています。 学生時代は自然言語処理研究室で研究を行っており、その後、ソ

                  LLM活用時代に“価値あるデータサイエンティスト”になるには 「食べログChatGPTプラグイン」開発で見えてきた、これから求められるスキル
                • Google、LLMの「PaLM 2」と「Codey」で日本語をサポート

                  米Googleは8月22日、東京で開催したイベント「Generative AI Summit」の基調講演で、大規模言語モデル(LLM)の「PaLM 2」を日本語で利用できるようにしたと発表した。 PaLM 2は、5月に開催された年次カンファレンス「Google I/O 2023」で発表され、日本でも利用可能になっていたが、日本語には対応していなかった。 Google Cloudの上級執行役員、小池 裕幸氏は、PaLM 2の日本語は、日本語を母語としない外国人の日本語能力を客観的に測定する試験として知られる「J.TEST実用日本語検定」の上級者向け(A-C)において、94%正解するというベンチマークがあり、細かいニュアンスの理解、生成が可能だと説明した。 また、日本語の細かなニュアンスも認識できるとし、「おでんの予約は? お電話で!」というジョークがなぜおもしろいのかというプロンプトに、これ

                    Google、LLMの「PaLM 2」と「Codey」で日本語をサポート
                  • GPT-4などのLLMが「AはB」から「BはA」を導かない『逆転の呪い』における誤解なき解釈と対策 | AIDB

                    「LLMのふるまい」関連研究 GPT-4に選択肢を与えるとき、順序を入れ替えるだけで性能に大きな変化があることが明らかに 大規模言語モデルにおける課題と応用例を整理した結果 ChatGPTの”ふるまいの変化”を定量的に分析した結果 従来の課題 LLMの登場と期待 大規模言語モデル(LLM)が登場して以来、その能力に多くの期待が寄せられています。LLMが人間のように自然言語を理解しているように見えたり、複雑な構造のテキストを生成する能力には多くの驚きがありました。 論理的一貫性への疑問 しかし、その一方で、LLMが「どれだけ論理的なのか?」という問いに対する明確な答えがない状況が続いています。LLMが高度な自然言語処理能力を持つ一方で、その論理的一貫性や一般化能力についてはまだ十分に理解されていません。 一般化の問題 LLMにおける一般化の能力に対する疑問とは、「LLMは大量のデータで訓練さ

                      GPT-4などのLLMが「AはB」から「BはA」を導かない『逆転の呪い』における誤解なき解釈と対策 | AIDB
                    • LLMアプリ開発の必須ツール?!Langfuseがすごい! - Qiita

                      2024/04/09 続編書きました。 LangChainを使って色々LLMアプリを作って遊んでいます。 体感速度が遅いけど、どこが遅いかわからない サンプルソースをコピペして作ったので、実は中身のことをわかってない 入力と出力だけじゃなくて、中間の状態も知りたい みたいなことってありませんか?そんなときに使えるツールを見つけましたのでご紹介します。 Langfuseとは LangfuseはLLMエンジニアリングプラットフォームです。LLMアプリからメトリクスやトレースを取得し可視化できます。また、評価、プロンプトの管理、データセットの作成なども行えます OSS開発が進められており、開発の主導はFinto Technologies GmbHというドイツの企業のようです。 公式サイト 主要機能(公式サイトより) LangSmithと類似したツールですが、OSSなのでセルフホストできる点がポイ

                        LLMアプリ開発の必須ツール?!Langfuseがすごい! - Qiita
                      • 生成AI・LLM時代における 機械学習エンジニアとしてのキャリア戦略・開発戦略 / my-career-and-development-strategies-for-ml-engineer-2024

                        2024年03月28日 ML Career Night #1|生成AI時代の機械学習エンジニアのキャリア戦略 (https://tech-track.connpass.com/event/304056/) におけるLT資料です。 私の考えている、生成AI・LLM時代における機械学習エンジニアとしてのキャリア戦略や開発戦略について紹介しました。

                          生成AI・LLM時代における 機械学習エンジニアとしてのキャリア戦略・開発戦略 / my-career-and-development-strategies-for-ml-engineer-2024
                        • LLMファインチューニングは機能しない?

                          こんにちは、シバタアキラです。前回書いた「生成AI活用のビジネス戦略」から1ヶ月が経ち、引き続きLLMに翻弄され続けているのは私だけではないようで、世界は目まぐるしく動き続けています。ちなみに日本は人口当たりのChatGPTユーザーがスウェーデン、カナダに続いて世界三位だそうで、これを読んでいる読者の皆さんの周りでも、LLMの社内活用について議論が起こっていない方の方が少ないのではないでしょうか?当初の驚きこそ薄れてきたものの、その余波は広がり続けています。特に私の関心の高いのは企業でのLLM活用への動きや、それを可能にするオープンソースLLMモデル、そしてそれらのモデルからアプリケーションを開発するための手法などについて。本稿ではここ1ヶ月で私が学んだことを共有したいと思います: 先週は日本ディープラーニング協会の勉強会にご招待いただき、「大規模言語モデル(LLM)を事業活用するためのプ

                            LLMファインチューニングは機能しない?
                          • サミュエル・ハモンド「我々は今や皆、ウィトゲンシュタイン主義者だ:大規模言語モデル(LLM)は哲学的問題を解決する」(2023年3月21日)

                            人工知能の開発は、科学的・工学的な営為であると同時に、哲学的な営為でもある。人間の脳の特権的領域と考えられていた能力が、人工知能によって実現されれば、心の哲学での長きにわたる論争が、完全に解明されないにしても、大幅に解決される可能性があるからだ。 人工知能の開発は、科学的・工学的な営為であると同時に、哲学的な営為でもある。人間の脳の特権的領域と考えられていた能力が、人工知能によって実現されれば、心の哲学での長きにわたる論争が、完全に解明されないにしても、大幅に解決される可能性があるからだ。 そして、「脳」は、我々の世界への認知・接触手段となっているため、心の仕組みへの理解が進めば、哲学のあらゆる分野(認識論からメタ倫理学まで)に光を当てることになるだろう。そして、この件において、私の見解は、ノーム・チョムスキーとは正反対だ。チョムスキーは、大規模言語モデル(LLM)の成功からの、科学的・哲

                              サミュエル・ハモンド「我々は今や皆、ウィトゲンシュタイン主義者だ:大規模言語モデル(LLM)は哲学的問題を解決する」(2023年3月21日)
                            • 第6回 LLM 勉強会

                              2023年11月29日(水)に国立情報学研究所にて第6回 LLM 勉強会を開催しました。 プログラム LLM-jp 状況報告(黒橋) [資料] LLMの安全対策サーベイと日本語データ(理研AIP 鈴木久美) [資料] ビジネスのドメインや最新情報に対応した130億パラメータの日本語事前学習モデルの開発(ストックマーク 近江) [資料] 医療における大規模言語モデルの可能性と進歩(東大 小寺) [資料] コーパス構築WG(河原) [資料] モデル構築WG(鈴木) [資料] 評価・チューニングWG(宮尾) [資料] 安全性WG(関根) [資料] 参加者 現地26名・オンライン150名程度

                              • 数値で整理する大規模言語モデル(LLM) のメモ | ドクセル

                                数値で整理する 大規模言語モデル(LLM) の メモ • Kan Hatakeyama Twitter • • • • 2023/7/6 作成 2023/7/7 打ち間違いなど微修正。 GPT-3の必要メモリ(推定値)を追記。 2023/7/8 学習に必要なメモリを修正 2023/7/9 モデルサイズvs学習データ数の情報を追記 • 突貫で作成したため、誤りが多々ありそうです。ご了承(指摘)ください。 1 https://twitter.com/kanhatakeyama

                                  数値で整理する大規模言語モデル(LLM) のメモ | ドクセル
                                • 「世界トップレベルの大規模言語モデルの開発に着手」──産総研らが表明 目指すのは“GPT-3級の日本語LLM”

                                  産業技術総合研究所は10月17日、世界トップレベルの大規模言語モデル(LLM)の開発を始めると発表した。産総研の他にも東京工業大学や、国立情報学研究所が主宰するLLM研究開発チーム「LLM-jp」(東北大学や東京大学、早稲田大学などが参加)も加わる。 LLM-jpが従来の国産LLMの10倍の規模を持つとされるパラメータ数1750億のLLMの構築に着手。産総研は、LLM構築に必要な計算資源として「AI橋渡しクラウド」(ABCI)を提供する。また、3機関で協力して開発に必要な言語データの作成も行う。 産総研は「この取り組みによって、日本で初めてのオープンに利用できるGPT-3級の日本語LLMの構築を目指す」と説明。「これによって、構築の過程が明らかで透明性の高いLLMを用いた、マルチモーダル(画像や言語など複数の入力ソースを扱えること)なデータを処理するAI技術の開発や、生成AIのロボット応用

                                    「世界トップレベルの大規模言語モデルの開発に着手」──産総研らが表明 目指すのは“GPT-3級の日本語LLM”
                                  • AWSのLLM開発支援、採択企業が明らかに サイバーエージェント、マネフォ、PFN、rinna、リコーなど

                                    AWSジャパンは9月4日、7月に発表した大規模言語モデル(LLM)開発支援プログラムについて、参加企業を一部発表した。応募があった約60社のうち、サイバーエージェント、rinna、Preferred Networks、リコー、マネーフォワード、松尾研究所など17社を採択。今後、総額600万ドル規模の利用料補助や、技術支援などを提供する。 対象企業の一覧は以下の通り。ただし発表したのは社名の公開に同意した企業のみ。実際にはもう1社、対象企業がいるという。 カラクリ マネーフォワード サイバーエージェント ユビタス ストックマーク Lightblue Sparticle リクルート Turing リコー Preferred Networks rinna Poetics ロゼッタ 松尾研究所 わたしは LLM開発支援プログラムは、AWSを使ってLLM開発に取り組む日本の企業・団体をサポートする取

                                      AWSのLLM開発支援、採択企業が明らかに サイバーエージェント、マネフォ、PFN、rinna、リコーなど
                                    • Google ColabでサクッとLLMを使ってみよう! - RAKUS Developers Blog | ラクス エンジニアブログ

                                      はじめに こんにちは! 今年も国内外様々な LLM(大規模言語モデル)が公開されましたね! LLM の選定や調査・実験をする際、リソースの要求レベルが非常に高く、ローカル環境での実施はかなりハードルが高いですよね... そこで今回は、Google Colab(正式には Colaboratory)を利用して LLMを動かす方法を紹介します。 サクッと LLM を動かしたい時におすすめです! はじめに Google Colab 基本的な使い方 エラーがでたときは? セッションが多すぎるとき なぜかうまく動かない時 有料プランについて ほかにも使ってみる Google Colab Google Colab は、Google が提供している提供しているサービスで、ブラウザで Python を実行できるツールです。 機械学習の用途で利用されることが多く、操作も簡単です。 基本的な使い方 今回は、ca

                                        Google ColabでサクッとLLMを使ってみよう! - RAKUS Developers Blog | ラクス エンジニアブログ
                                      • Apple、iPhone上でのLLM実行を可能にする手法の論文を発表

                                        米Appleは12月12日(現地時間)、iPhoneのようなメモリ容量の限られた端末上でLLM(大規模言語モデル)を実行するための技術に関する論文「LLM in a flash:Efficient Large Language Model Inference with Limited Memory」を公開した(リンク先はPDF)。 タイトルを直訳すると「一瞬でLLM:限られたメモリでの効率的な大規模言語モデル推論」となるが、「LLM in the flash」はフラッシュメモリに収まるLLMという意味も含まれている。 Appleはメモリ容量が限られた端末上でLLMを実行するアプローチとして、この制約に合わせた推論コストモデルを開発することで革新的な手法を編み出したという。 この手法を用いると利用可能なDRAMの最大2倍のサイズのLLMを実行でき、CPUでは従来の方法と比較して4~5倍、GP

                                          Apple、iPhone上でのLLM実行を可能にする手法の論文を発表
                                        • Vertex AI Embeddings for Text で実現する LLM のグラウンディング | Google Cloud 公式ブログ

                                          Ivan CheungDeveloper Programs Engineer, Google Cloud ※この投稿は米国時間 2023 年 5 月 26 日に、Google Cloud blog に投稿されたものの抄訳です。 いま多くの人々が、ジェネレーティブ AI や大規模言語モデル(LLM)を実運用サービスにどのように導入すればよいか検討を始めています。しかし、例えば「既存の IT システムやデータベース、ビジネスデータと LLM や AI チャットボットをどのように統合すればいいだろうか」、「数千もの製品を LLM に正確に覚えさせるにはどうすれば良いだろうか」、あるいは「信頼性のあるサービスを構築するためにハルシネーションの問題をどのように扱えば良いか」といった課題と直面することになります。 これらの課題に対するシンプルな解決策となるのが、エンべディング(embeddings)と

                                            Vertex AI Embeddings for Text で実現する LLM のグラウンディング | Google Cloud 公式ブログ
                                          • LLM in toB Service and Its UX

                                            LLM in Production #0にて発表

                                              LLM in toB Service and Its UX
                                            • その研究 ChatGPT でいいんじゃないですか?LLM時代の対話システム研究.pdf

                                              K n o w ledge Acquisition & D i a l o g u e R e s e a r c h T e a m 知識獲得・対話研究チーム Knowledge Acquisition & Dialogue Research Team 奈良先端大 ロボット対話知能研究室 Intelligent robot dialogue laboratory, NAIST その研究 ChatGPT でいいんじゃないですか? ~LLM時代の対話システム研究~ 理化学研究所GRP/奈良先端科学技術大学院大学 吉野 幸一郎 その研究ChatGPTでいいんじゃないですか? 1 2023/08/31 ⒸKoichiro Yoshino, Guardian Robot Project, RIKEN K n o w ledge Acquisition & D i a l o g u e R e s

                                              • 【Prompt Engineering】LLMを効率的に動かす「ReAct」論文徹底分解!😎

                                                ReActとは? LLMのpromptingの方法の一つです。LLMに質疑応答させたり、意思決定させたりという場面で力を発揮するほか、外部データベースや外部APIとLLMを組み合わせる場合にも使えます。 また、LangChainでもReActの考え方は多く活用されています(エージェントなど) 今回はReActが提案された論文REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELSを細かくチェックしていきます! 論文のソースはこちら: この記事を見て分かること CoT、ReActのノリが分かる ReActの限界と能力の向上方法について理解できる Let's Go! 元の論文の各章の内容要約+一言コメントでまとめています。ちょっとLangChainとか齧った方なら理解できる程度のものだと思います。(内容要約が分からなかったら所感だけ見

                                                  【Prompt Engineering】LLMを効率的に動かす「ReAct」論文徹底分解!😎
                                                • LLMの出力における問題は「LLMの処理が原因」とは限らない プロンプト以外に考えられる4つの要因

                                                  「FastLabel × LayerX × LINE 3社が語る『生成AI×プロダクト開発』で直面する課題と乗り越え方」は、生成AIをプロダクト開発にどのように活用しているか、その際に直面した課題と克服するためのアプローチなどをFastLabel、LayerX、LINEのエンジニアが共有するイベントです。ここで株式会社LayerXの中村氏が登壇。ここからは、LLMの精度評価における、LLMの処理以外で考えられる原因分析について話します。前回はこちらから。 精度評価 中村龍矢氏:では具体的に、精度評価と改善にいければと思います。 まず精度評価というと、パッとイメージしやすいのが、「どういうスコアをやるか」というところで。これは最近はツールもノウハウもいろいろ出ているので、あまり悩むことはないんじゃないかなと思っています。LLMが吐いた答えが正しいかどうかを判定する方法ですね。 一番シンプルな

                                                    LLMの出力における問題は「LLMの処理が原因」とは限らない プロンプト以外に考えられる4つの要因
                                                  • 自分の癖にあったファインチューニング用データセットをLLMで作ろう!【Calm2】

                                                    まとめ LLMのファインチューニングにおいて、データセットは重要なものとなりつつある 以前までは人力で作る必要があったが、プロンプトが効く7Bモデル(Calm2-chat)を用いることで、LLMでファインチューニング用データセットを作ることができる データセットを作成しつつ、動的にプロンプトを修正していく手法が相当よかった 導入 LLMのファインチューニングには、大量のデータセットが必要です。良く言われているのは「少なくとも数百~数千はあった方が良い」というものです。翻訳など、皆が使うであろうようなタスクのデータセットは存在する一方で、「女の子の日記をLLMで作りたい」のような、完全に自分の癖に従ったようなデータセットは基本的には存在しません。一から自分で作っても良いのですが、人間の時間とやる気は有限なため、かなり無謀な挑戦と言えるでしょう。 この作業にLLMを用いることで、労力を最小限ま

                                                      自分の癖にあったファインチューニング用データセットをLLMで作ろう!【Calm2】
                                                    • オフラインで動作する様々なオープンソースLLMのインタフェース『GPT4All』が開発され公開 | AIDB

                                                      背景 大規模言語モデルへのアクセス問題 ※以下の情報は本論文執筆時点での研究者らによる記述に基づいています。 2023年3月14日、OpenAIはGPT-4をリリースしました。専門的、学術的なタスクで人間レベルのパフォーマンスを達成する大規模言語モデル(LLM)です。しかし、GPT-4のアーキテクチャ、ハードウェア、データセット構築、訓練方法に関する詳細情報はほとんど開示されていません。 GPT-4は、インターネットインターフェースを通してのみアクセス可能であり、ポリシーは厳しく制限され、またいくつかの地域では地政学的な問題などから利用できないといった状況が生まれています。加えて、GPT-4は特定のクエリに対して「AI言語モデルとしては回答できない」という形式でしか応答しません。 以上の状況から、一部からは透明性とアクセシビリティに関する懸念や不満が生じています。 オープンソースへの動き

                                                        オフラインで動作する様々なオープンソースLLMのインタフェース『GPT4All』が開発され公開 | AIDB
                                                      • LLMと調和したプログラミングを体験させてくれるMarvinというライブラリが面白い|mah_lab / 西見 公宏

                                                        過去に「個別の関数を実装をプロンプトで行うような流れは既にきている」と言ってみてはいたものの、考え方としては関数としてプロンプトを実行する、ぐらいの世界観が関の山で、ソフトウェア設計としてLLMとの調和を考えるという域までは達していませんでした。 なんですが、何というかAI時代のプログラムコードってこんな感じになっていくのかなーと思わせるライブラリが登場していたので紹介したいと思います。 Marvinとはどんな感じのライブラリなのかその名もMarvinと言います。 コンセプトから入るとイメージしづらい気がしたので、いきなり実例から説明させてください。 例えばなんか適当にエナジードリンクをリストしてくれるような関数が欲しかったとしますね?(そんなケースあるかな) そういう場合はこんな風に書けます。 from marvin import ai_fn @ai_fn def list_energy

                                                          LLMと調和したプログラミングを体験させてくれるMarvinというライブラリが面白い|mah_lab / 西見 公宏
                                                        • なぜ大規模言語モデル(LLM)はだまされやすいのか?

                                                          大規模言語モデル(LLM)を用いたAIは、驚くほど自然な文章を生成したりさまざまな課題をクリアしたりと、高度で広範な機能を備えています。しかし、LLMに目的の回答をうまくさせるプロンプトがある一方で、意図的にLLMをだまそうと試みれば、簡単にウソを教えたりウソの出力をさせることができたりと、LLMはかなりだまされやすい性質を持っています。なぜLLMは高度な機能があるのにだまされやすいのかについて、ソフトウェアエンジニアのスティーブ・ニューマン氏が解説しています。 Why Are LLMs So Gullible? - by Steve - Am I Stronger Yet? https://amistrongeryet.substack.com/p/why-are-llms-so-gullible LLMは読み込んだものに含まれた指示に従う傾向があるという性質を利用した「プロンプト・イン

                                                            なぜ大規模言語モデル(LLM)はだまされやすいのか?
                                                          • 推論能力をさらに強める戦略『AoT』で、LLMが「直感」に似た能力を示すようになった | AIDB

                                                            推論能力をさらに強める戦略『AoT』で、LLMが「直感」に似た能力を示すようになった 2023/8/30 LLM 論文 AIDB Research 推論能力をさらに強化するための新しい戦略『AoT(Algorithm of Thoughts)』が登場しました。この手法によって、大規模言語モデル(LLM)が「直感」に似た能力を示すようになったとの実験結果が報告されています。この発表は、マイクロソフトの研究者をはじめとする専門家によって行われました。 この研究は、推論タスクにおけるLLMの新たな可能性を広げるものであり、計算負荷の高さや効率の低さといった従来の課題を解決する方向性を示しています。 参照論文情報 タイトル:Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models 著者:Bilgeh

                                                              推論能力をさらに強める戦略『AoT』で、LLMが「直感」に似た能力を示すようになった | AIDB
                                                            • 15 times Faster than Llama 2: Introducing DeciLM - NAS-Generated LLM with Variable GQA

                                                              15 times Faster than Llama 2: Introducing DeciLM – NAS-Generated LLM with Variable GQA 1. Introduction As the deep learning community continues to push the boundaries of Large Language Models (LLMs), the computational demands of these models have surged exponentially for both training and inference. This escalation has not only led to increased costs and energy consumption but also introduced barr

                                                                15 times Faster than Llama 2: Introducing DeciLM - NAS-Generated LLM with Variable GQA
                                                              • Free Dolly: 世界初の真にオープンな指示でチューニングされたLLM - Qiita

                                                                二週間前、ChatGPTのような人間のインタラクティブ性(指示追従性)を示すように、$30以下でトレーニングされた大規模言語モデル(LLM)であるDollyをリリースしました。本日、研究と商用利用にライセンスされた、人の手で生成された指示データセットでファインチューンされた、史上初のオープンソース、指示追従LLMであるDolly 2.0をリリースします。 Dolly 2.0はEleutherAIのpythiaモデルファミリーをベースとした12Bのパラメーターを持つ言語モデルであり、Databricks従業員によってクラウドソースされた人間の手で生成された新たな高品質な指示追従データセットのみを用いてファインチューニングされています。 我々は、すべて商用利用できるトレーニングコード、データセット、モデルの重みを含むDolly 2.0のすべてをオープンソース化します。これは、すべての組織がサー

                                                                  Free Dolly: 世界初の真にオープンな指示でチューニングされたLLM - Qiita
                                                                • KDDI、生成AIのELYZA子会社化 最高性能の日本語LLMを展開

                                                                    KDDI、生成AIのELYZA子会社化 最高性能の日本語LLMを展開
                                                                  • 類似画像検索にLLMを利用する。|tdual

                                                                    画像の類似度って難しいですよね? 同じものを表しているのに、画像としては全然違うものだからEmbeddingしてコサイン類似度を測ると遠くなることがよくあります。 なので、商品や動物などの物体を比較する場合は画像の類似度はあてになるけど、スポーツやビジネスシーン等の状況や場面の類似度は難しいという課題がありました。 例としてスポーツを見てみましょう。 以下の4枚の画像の類似度を出します。 画像1画像2画像3画像4画像1~3は野球で、画像4はバスケの画像です。 とりあえずAugNetで類似度を出しましょう。 結果 この結果を見ると一番似ているのは、画像1と画像4です。 野球画像の画像1~3同士は近く、画像4は他と遠くなって欲しい場合はどうしましょうか? そこでLLMを使ってみます。 ChatGPTのSceneXplainを使います。 SceneXplainはChatGPTのプラグインで、画像

                                                                      類似画像検索にLLMを利用する。|tdual
                                                                    • GitHub - run-llama/llama_index: LlamaIndex is a data framework for your LLM applications

                                                                      LlamaIndex (GPT Index) is a data framework for your LLM application. Building with LlamaIndex typically involves working with LlamaIndex core and a chosen set of integrations (or plugins). There are two ways to start building with LlamaIndex in Python: Starter: llama-index (https://pypi.org/project/llama-index/). A starter Python package that includes core LlamaIndex as well as a selection of inte

                                                                        GitHub - run-llama/llama_index: LlamaIndex is a data framework for your LLM applications
                                                                      • 超長文が処理できるオープンソース商用利用可LLM「MPT-7B」が公開

                                                                        MosaicML Foundationは2023年5月5日(米国時間)、商業利用可能なオープンソースのLarge Language Models(LLM)、MPT(MosaicML Pretrained Transformer)シリーズをリリースした。最初のモデルである「MPT-7B」は、テキストとコードの1兆トークンをゼロから学習したトランスフォーマーモデルである。MPT-7Bにより、ユーザーはデータの準備からトレーニング、ファインチューニング、デプロイまで、プライベートなモデルを自ら構築できる。 MPTモデルシリーズは以下の4種である。 MPT-7B Base ベースモデルの「MPT-7B Base」は、デコーダーのみを持つトランスフォーマーモデルで、67億のパラメータを持つ。1兆トークンのテキストとコードでトレーニングを行った。 関連記事 大規模言語モデル(LLM:Large Lan

                                                                          超長文が処理できるオープンソース商用利用可LLM「MPT-7B」が公開
                                                                        • 数理最適化の練習問題をLLMを使って自動生成する

                                                                          この記事は、数理最適化 Advent Calendar 2023 23日目の記事です。LLMと数理最適化を組み合わせた何かをつくろうということで、数理最適化の練習問題を生成する GPTs、Optima Practiceを作りました。 数理最適化のコミュニティCasual Optimizationを運営していく中で、「数理最適化が世の中に広まらない要因の一つに実践的な練習問題の不足があるのではないか?」という意見を知りました。数理最適化を実ビジネスで利用していく上で必須のスキルとして定式化がありますが、たしかに定式化の力をつけるのにちょうど良い、程よく実践的で複雑な練習問題は案外少ないです。しかし、練習問題を作成するのは結構大変です。そこで、LLMを使って自動化できないか、というのが本取り組みの趣旨になります。 作ったもの Optima Practice は、数理最適化の練習問題を生成する

                                                                            数理最適化の練習問題をLLMを使って自動生成する
                                                                          • LangChainのAgent「zero-shot-react-description」はLLMとどう連携しているのか?調べた - まったり勉強ノート

                                                                            今回はこの中で紹介した例で出てきた「zero-shot-react-description」というAgentを使って以下の質問をしたときに内部でLLMとどういう連携をしているのか?を調べたのでそのまとめになります。 "Who is Leo DiCaprio's girlfriend? What is her current age raised to the 0.43 power?" 今回動作検証に用いたコードは以下の通りです。 import langchain from langchain.agents import load_tools from langchain.agents import initialize_agent from langchain.llms import OpenAI langchain.verbose = True llm = OpenAI(temperat

                                                                              LangChainのAgent「zero-shot-react-description」はLLMとどう連携しているのか?調べた - まったり勉強ノート
                                                                            • LLMで勝負するには、1000億円必要か? - Vengineerの戯言

                                                                              はじめに 学習用AIチップをTSMC 7nmで開発するには、100億円必要だよね。とお話したのが2017年頃 TensorFlow XLAの可能性, Deep Learning Acceleration 勉強会(2017.09.03 TensorFlow XLA とハードウェア, 2017年9月30日(土)のChainer Meetup #6 ざっと、6年前。この頃はまだ 7nm でチップが出てきてない時です。 その後、AI Cloud学習用スタートアップが何社立ち上がります。AI Cloud学習用スタットアップでは、7nmではなく、16nmで最初のチップ(Graphcore、Cerebras)を開発していきます。その後、チップが出来上がり、システムとして組み上げ、量産し、販売するまでに200-300億円ぐらい必要になることがわかりました。 TSMC 7nmを使って、NVIDIAのA100

                                                                                LLMで勝負するには、1000億円必要か? - Vengineerの戯言
                                                                              • TokyoTech-LLM

                                                                                TokyoTech-LLM 東京工業大学情報理工学院の岡崎研究室と横田研究室で大規模言語モデルの研究・開発をしています。 View on HuggingFace

                                                                                  TokyoTech-LLM
                                                                                • GitHub - karpathy/minbpe: Minimal, clean code for the Byte Pair Encoding (BPE) algorithm commonly used in LLM tokenization.

                                                                                  Minimal, clean code for the (byte-level) Byte Pair Encoding (BPE) algorithm commonly used in LLM tokenization. The BPE algorithm is "byte-level" because it runs on UTF-8 encoded strings. This algorithm was popularized for LLMs by the GPT-2 paper and the associated GPT-2 code release from OpenAI. Sennrich et al. 2015 is cited as the original reference for the use of BPE in NLP applications. Today,

                                                                                    GitHub - karpathy/minbpe: Minimal, clean code for the Byte Pair Encoding (BPE) algorithm commonly used in LLM tokenization.