並び順

ブックマーク数

期間指定

  • から
  • まで

241 - 280 件 / 1137件

新着順 人気順

LLMの検索結果241 - 280 件 / 1137件

  • LLMの開発は難しい?簡単?Stability AIの現場から (2023/10/11, W&B Fully Connected)

    LLMの開発は難しい?簡単?Stability AIの現場から (2023/10/11, W&B Fully Connected)

      LLMの開発は難しい?簡単?Stability AIの現場から (2023/10/11, W&B Fully Connected)
    • 国産「小さいLLM」が2024年春に相次ぎ登場、NECとNTTが見いだした2つの勝ち筋

      国内大手ITベンダーが2024年、ついに大規模言語モデル(Large Language Models:LLM)サービスの提供を始める。NTTは2024年3月に「tsuzumi(つづみ)」を、NECは2024年春ごろに「cotomi(コトミ)」をそれぞれ提供する予定だ。さらにソフトバンクも2024年内にLLMを開発するとしている。 NTTやNECが提供する国産LLMはいずれも、「大規模」言語モデルとはいえ米OpenAI(オープンAI)の「GPT」などに比べるとコンパクトにつくられている。実はこの規模を選んだことこそが、2社それぞれの見いだした勝ち筋でもある。果たして2社は「GPT1強」とも言える市場に変化を起こせるか。国内勢と海外勢の違いをひもときながら、2社の狙いを見ていこう。 「大規模」だけど「小さい」国産LLM これまでGPTをはじめとするTransformerベースのLLMは、パラメ

        国産「小さいLLM」が2024年春に相次ぎ登場、NECとNTTが見いだした2つの勝ち筋
      • 「LLMはタスク処理エンジンにすぎない」 日本マイクロソフト・エバンジェリストが語る“生成AI時代のエンジニア”に求められる能力

        「Generative AI 時代のサービス開発者への道」というタイトルで登壇したのは、日本マイクロソフト株式会社・大森彩子氏。Generative AIの歴史、サービス開発にGenerative AIを活用するための心構えとTipsを日本CTO協会が主催の「Developer eXperience Day 2023」で発表しました。全3回。3回目は、サービス開発におけるLLM活用事例。前回はこちら。 ゴールシークプロンプトを基にして目標を設定する 大森彩子氏:もう1つご紹介するのが、目標設定ですね。ゴールシークプロンプトを基にして、さまざまな目標を設定するというものです。 例えば「新製品を出したいです」「新しい調理家電を考えたいです」という時に、市場調査みたいなことをAI、もしくはそういったサービスに委ねることができます。もちろんChatGPTなりGPT-4に「今の調理家電、今のトレンド

          「LLMはタスク処理エンジンにすぎない」 日本マイクロソフト・エバンジェリストが語る“生成AI時代のエンジニア”に求められる能力
        • MacBook Airでもオフラインで動作するLLM「Stable Code 3B」

            MacBook Airでもオフラインで動作するLLM「Stable Code 3B」
          • 大規模言語モデル(LLM)の作り方 Megatron-DeepSpeed編 Part2

            はじめに Turing 株式会社リサーチチームの藤井(@okoge_kaz)です。 Turingでは、自動運転を支える技術のひとつとして大規模言語モデル(Large Language Model: LLM)に注目しており、関連する技術の研究開発を行っています。 つい先日、大規模言語モデルの事前学習を行う際に用いられることが多いmicrosoft/Megatron-DeepSpeedが大きくupdateされました。(日本時間 2023/6/13, 2023/7/21に大きな変更がありました。) 具体的には、fork元であるNVIDIA/Megatron-LMの最新の変更を取り込むことを行ったようです。 セットアップ方法は以下の記事で紹介している通りで、変化はないのですが、Job Scriptの引数や、新機能を使用するためのTipsなど補足するべきことが多数存在します。 そのため、今回は前回の

              大規模言語モデル(LLM)の作り方 Megatron-DeepSpeed編 Part2
            • Sansan LabsのLLM活⽤から考えるLLMプロジェクトの要点整理 / LLM Project Essentials from Sansan Labs' LLM Use

              ■イベント :プロダクトを成長させる生成系 AI のユースケースを考えるワークショップ https://productkintore.connpass.com/event/296335/ ■登壇概要 タイトル:Sansan LabsのLLM活⽤から考えるLLMプロジェクトの要点整理 発表者: 技術本部 研究開発部 SocSci Group マネジャー 西田 貴紀 ◉ 研究開発職 採用情報 https://media.sansan-engineering.com/randd ◉ Sansan Tech Blog https://buildersbox.corp-sansan.com/

                Sansan LabsのLLM活⽤から考えるLLMプロジェクトの要点整理 / LLM Project Essentials from Sansan Labs' LLM Use
              • 専門性の高いデータの読み解きをLLMでスケールさせよう | CyberAgent Developers Blog

                こんにちは.協業リテールメディアdivでデータサイエンティストをしています須ヶ﨑です.本日はLLMを用いて専門性の高いデータを読み解くというトピックをご紹介します. また,実際にオープンデータである気象データと,NYCタクシーデータを読み解く例をご紹介します. 専門性の高いデータの読み解きがスケールする嬉しさ 今回の記事での「専門性の高いデータ」とは,気象データや株価推移,POSデータ,時系列行動データ,車の運転データ,センサーデータなど,データ自体が直感的に理解しにくく,理解するためには一定の分析,及び,その読み解きを必要とするようなデータを指しています. さまざまなビジネスにおいて,色々な分野のデータが当たり前に集められるようになり,データの価値やその活用がとても重視されるようになってきています.これらのデータを基軸としたデータ分析によって、顧客のニーズを的確に把握し、効果的なマーケテ

                  専門性の高いデータの読み解きをLLMでスケールさせよう | CyberAgent Developers Blog
                • 107. LLMをゼロから作るということ w/ Takahiro Omi | fukabori.fm

                  MP3ファイルをダウンロード 内容紹介 ストックマークの近江さんをゲストに、大規模言語モデルをゼロから作る方法、学習のデータセット、モデルアーキテクチャ、学習環境への取り組みなどについて語っていただきました。 出演者 話したネタ どのような大規模言語モデルと作ったのか?特徴は何か? データセットに何を使ったのか? 日本語と英語とのバランスは? 最終的なToken数は? 事前学習モデルを作りたいとして、何から考えるのか? ノイズのクリーニングと、その方法 今回活用したモデルアーキテクチャ(Llama) 前回のアーキテクチャは GPT-NeoX 今回の学習環境は? AWS Trainum 32コア x 16ノード 学習にかかった時間は? 学習時に大変だったこと・上手くいかなかったことは? 学習中のチェックポイントとは何か? なぜ、Token生成が速いのか? 手元でLLMを動かすときの一番のネッ

                    107. LLMをゼロから作るということ w/ Takahiro Omi | fukabori.fm
                  • LLMが巡回セールスマン問題などの最適化問題を解く〜自分自身で優れたプロンプトを作成&活用〜 | AIDB

                    Google DeepMindの最新研究によれば、Large Language Models(LLM)が最適化問題を解決する新たな手法として利用できる可能性が示されました。この研究は、自然言語を用いて最適化タスクを説明し、それに基づいてLLMが新しい解を生成するという方法を提案しています。 さらに、LLMがプロンプト自体を最適化する能力も示されています。LLMはプロンプトの形式に敏感であり、意味的に類似したプロンプトでも性能が大きく異なる可能性があります。したがって、プロンプトエンジニアリングはLLMが良好なパフォーマンスを達成するために重要です。 参照論文情報 タイトル:Large Language Models as Optimizers 著者:Chengrun Yang, Xuezhi Wang, Yifeng Lu, Hanxiao Liu, Quoc V. Le, Denny Z

                      LLMが巡回セールスマン問題などの最適化問題を解く〜自分自身で優れたプロンプトを作成&活用〜 | AIDB
                    • GPT-4oとPhi-3でLLMとSLMの双方を取り込むMicrosoftのAI戦略

                        GPT-4oとPhi-3でLLMとSLMの双方を取り込むMicrosoftのAI戦略
                      • BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する

                        はじめに こんにちは、Google Cloud Partner Top Engineer 2024 を受賞いたしました、クラウドエース データソリューション部の松本です。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があれば エントリー をお待ちしております! 今回は、BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する方法についてご紹介します。 この記事はこんな人にオススメ BigQuery の SQL のみで LLM を使った問合せシステムを構築したい BigQue

                          BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する
                        • OpenAI、LLMの新バージョンや値下げを発表 関数呼び出し可能に

                          米OpenAIは6月13日(現地時間)、LLM(大規模言語モデル)のAPIの更新と一部の値下げを発表した。 gpt-3.5-turboとGPT-4がそれぞれアップデートされ、「gpt-3.5-turbo-0613」と「gpt-4-0613」になった。 新モデルでは、関数呼び出し機能が利用できる。これらのモデルには、関数を呼び出すための引数を含むJSONオブジェクトの出力を選択させることができる。GPTの機能を外部ツールやAPIと接続するための新しい方法だ。 プロンプトから関数を呼び出す必要があると検出すると、関数の署名に準拠したJSONで応答する。 これにより、開発者は例えば、ChatGPTプラグインなどの外部ツールを呼び出して質問に答えるチャットbotを構築したり、自然言語をAPI呼び出しやデータクエリに変換したりすることが可能になる。 また、各モデルにコンテキストウィンドウ(プロンプト

                            OpenAI、LLMの新バージョンや値下げを発表 関数呼び出し可能に
                          • ソフトバンク、3500億パラメーターの国産LLM構築へ 「国内最大級」生成AI計算基盤、稼働スタート

                            ソフトバンクは10月31日、「国内最大級」(同社)の生成AI開発用計算基盤の稼働を始めたと発表した。新設したAI子会社「SB Intuitions」とともに活用し、2024年内に3500億パラメーターの国産LLMの構築を目指す。大学や研究機関、企業などに提供する計画もあるという。 計算基盤は、AI向けスーパーコンピュータ「NVIDIA DGX SuperPOD」と、AIソフトウェアスイート「NVIDIA AI Enterprise」、NVIDIAのネットワーキングで構成された大規模クラスタで、「国内最大級の計算基盤」という。伊藤忠テクノソリューションズの協力を得て構築を進めた。 「ソフトバンクが日本語のデータセットを活用した高品質な国産LLMを開発することで、日本の商習慣や文化に適した生成AIサービスの提供を実現する」としている。 まずソフトバンクとSB Intuitionsで段階的に利用

                              ソフトバンク、3500億パラメーターの国産LLM構築へ 「国内最大級」生成AI計算基盤、稼働スタート
                            • LangGraph を用いた LLM エージェント、Plan-and-Execute Agents の実装解説 - Algomatic Tech Blog

                              はじめに こんにちは。Algomatic LLM STUDIO 機械学習エンジニアの宮脇(@catshun_)です。 Wang+’23 - A Survey on Large Language Model Based Autonomous Agents ChatGPT が発表されてからおよそ 1 年が経ち、AutoGPT, BabyAGI, HuggingGPT, Generative Agents, ChatDev, Mind2Web, Voyager, MetaGPT, Self-Recovery Prompting, OpenCodeInterpreter, AutoAgents などなど、大規模言語モデル (LLM) の抱負な知識および高度な推論能力を活用した LLM エージェント (AIエージェント) が発表されています。 直近ではコード生成からデバッグ、デプロイまで自律的に行う

                                LangGraph を用いた LLM エージェント、Plan-and-Execute Agents の実装解説 - Algomatic Tech Blog
                              • 既存日本語LLMをBitNetで置き換えて実行してみた|はち

                                はじめに昨夜からBitNetという1bit量子化LLMが話題になっていました。 簡単な概要としては、 既存のLLMが1パラメータをFP16やBF16などのfloat型で扱っているものを、1パラメータで{-1, 0, 1}しか扱わない様にした。 計算に使う情報量を削ることで、処理速度の向上、メモリの節約が叶う。 3B params以上ではベンチマークスコアの平均で同サイズのLlamaを上回る結果となった。(量子化手法としては初) ということだと思います。 これは元々、今回の論文と同チームによって提案された"BitNet: Scaling 1-bit Transformers for Large Language Models"という論文を拡張したものです。この時は1パラメータで{-1, 1}として扱ってけれど、{-1, 0, 1}としたらうまくいったというのが今回の"The Era of 1

                                  既存日本語LLMをBitNetで置き換えて実行してみた|はち
                                • NTT版LLM「tsuzumi」に見る国産LLMの意義と戦略【西田宗千佳のイマトミライ】

                                    NTT版LLM「tsuzumi」に見る国産LLMの意義と戦略【西田宗千佳のイマトミライ】
                                  • Raspberry Pi(ラズパイ)のローカル環境でLLMを動かす

                                    ラズパイでLLM 普通にローカル動きました。Raspberry Pi 5です。DockerでOllamaを動かしています。簡単にメモします。 ラズパイのセットアップ 以下でラズパイの基本的なセットアップをします。 Dockerをセットアップします。 Ollamaセットアップ 続いてOllamaをセットアップします。ラズパイでDockerを使えば、以下コマンドを実行するだけでOllamaをインストールできます。 $ docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

                                      Raspberry Pi(ラズパイ)のローカル環境でLLMを動かす
                                    • Google DeepMind、LLM採用AIシステム「FunSearch」で数学的難問を解決

                                      米Google傘下のGoogle DeepMindは12月14日(現地時間)、LLM(大規模言語モデル)とLLMによる幻覚(ハルシネーション)を防止する“評価器”を組み合わせた新たなシステム「FunSearch」を発表した。長年解決不可能な数学問題とされてきた「Cap set問題」を解き、実社会でも役立つ「ビンパッキング問題」のための効果的なアルゴリズムを発見したという。 FunSearch(funは「楽しい」ではなく、「関数」に由来する)は、GoogleのLLM「PaLM 2」をコンピュータコードで微調整したバージョンの「Codey」を使っている。LLMは不正確な情報を幻覚させることが分かっているため、LLMの出力から不正確だったり無意味だったりする部分を拒否する“評価器”アルゴリズムを組み合わせているという。 FunSearchはLLMと評価器による出力と評価を反復させていくことで、自

                                        Google DeepMind、LLM採用AIシステム「FunSearch」で数学的難問を解決
                                      • The architecture of today's LLM applications

                                        We want to empower you to experiment with LLM models, build your own applications, and discover untapped problem spaces. That’s why we sat down with GitHub’s Alireza Goudarzi, a senior machine learning researcher, and Albert Ziegler, a principal machine learning engineer, to discuss the emerging architecture of today’s LLMs. In this post, we’ll cover five major steps to building your own LLM app,

                                          The architecture of today's LLM applications
                                        • 【Phi-3-Medium】GPU2台構成でローカルLLMを動かす【Ubuntu24】

                                          はじめに GMO NIKKOの吉岡です。 みなさん、生成AIは活用してますか? ChatGPTに始まり、Claude3やGeminiなど、実用的なAIがどんどん出てきてますね。 自分も使ってはきましたが、課金が気になってしまいます。 これではサービスに組み込むことは難しいですよね。 そのためローカルで動くLLMを追ってきましたが、今年に入って実用的な日本語を返すことができるモデルがいくつか出てきているので、サーバー構成からインストール方法、LLMの起動まで紹介しようと思います。 ローカルLLMを動かす上で一番重要なのはGPUのVRAMです。 LLMは7B、13B、70Bモデルが多いですが、量子化しない場合、必要なVRAM容量は動かすモデルの大体2倍なので、13Bモデルでは26GのVRAMが必要です。 NVIDIAのGPUを使ったCUDAが前提になっているのですが、一般向けでは24Gモデルが

                                            【Phi-3-Medium】GPU2台構成でローカルLLMを動かす【Ubuntu24】
                                          • 【西川和久の不定期コラム】 340億パラメータのLLMは手元のPCで動く?Metaの「Code Llama 34B」を試してみた!

                                              【西川和久の不定期コラム】 340億パラメータのLLMは手元のPCで動く?Metaの「Code Llama 34B」を試してみた!
                                            • 「脱ブラックボックス化!LLMと一緒に使われるLangChainやLlamaIndexを徹底解説」というタイトルでDevelopersIO 2023に登壇しました #devio2023 | DevelopersIO

                                              こんちには。 データアナリティクス事業本部 インテグレーション部 機械学習チームの中村( @nokomoro3 )です。 先日開催された DevelopersIO 2023 のチョークトークで登壇いたしました。 その際の資料と概要を共有いたします。 資料 登壇資料は以下となります。 概要のご紹介 以下の内容をご紹介しました。 OpenAI APIの話 APIの詳細な使い方 トークンとは何か Function callingの詳細 LangChainの概要 基本的なChain(LLMChain、SequentialChain) 応用的なChain(LLMRouterChain、SQLDatabaseChain、ConversationChain、RetrievalQA) Memoryの種類 Agentの種類 LlamaIndexの概要と仕組み LangChainとの違い、内部的な仕組み カス

                                                「脱ブラックボックス化!LLMと一緒に使われるLangChainやLlamaIndexを徹底解説」というタイトルでDevelopersIO 2023に登壇しました #devio2023 | DevelopersIO
                                              • LLMにまつわる"評価"を整理する

                                                「LLMの評価」というフレーズを見て、どんなことを思い浮かべるでしょうか? おそらく大半はLLMモデル自体の評価のことを思い浮かべると思います。新しいモデルが出てきた時に𝕏で見かける「GPT-4o のMMLUベンチマークは89%!」みたいなアレ。 ですが、プロダクト開発にLLMを使っている人の間では、プロンプト等が十分な品質を出しているかの確認などにも評価という言葉を使っていることは多いのではないかと思います。 うまい具合に後者を区別するためにいい感じの呼び名を付与したい気持ちがあるのですが、英語圏での例を見てみるとシンプルに"Evals"と呼んでることもあれば Evaluating LLM System Evaluating LLM-based Applications などなど表現の仕方は様々になっています。 そしてそのプロダクト開発文脈での評価も、実態としてはオフライン評価やオンラ

                                                  LLMにまつわる"評価"を整理する
                                                • 世界トップレベルのLLM目指す。産総研が複数大学と構築に着手

                                                    世界トップレベルのLLM目指す。産総研が複数大学と構築に着手
                                                  • RAGにおいてLLMが「役立たない情報を無視」できるようにする『RAFT』QAタスクで従来の手法を大幅に上回る結果を達成 | AIDB

                                                    背景 LLMは、膨大な量の公開データで学習することにより、幅広い一般知識推論タスクで著しい進歩を遂げてきました。一方で、LLMが特定の分野のタスクに用いられる場合、一般的な知識推論よりも、与えられた文書に対して正確であることが強く求められています。例えば最新のニュースや企業の非公開文書などに適応させることは課題になっています。 LLMを特定分野に適応させる際、検索拡張生成(RAG)を用いたコンテキスト学習と、教師あり微調整(supervised fine-tuning)の2つの手法が主に考えられます。 RAGベースの手法は、LLMが質問に答える際に文書を参照するものです。この手法では、モデルが事前に学習しているわけではありません。外部のナレッジベースから関連情報を取得することで問題解決能力を向上する(比較的リーズナブルな)アプローチです。 教師あり微調整は、文書からより一般的なパターンを学

                                                      RAGにおいてLLMが「役立たない情報を無視」できるようにする『RAFT』QAタスクで従来の手法を大幅に上回る結果を達成 | AIDB
                                                    • LLM開発のためのデータエンジニアリング - Qiita

                                                      LLM開発のためのデータエンジニアリング MLOps Advent Calendar 2023の24日目です。 Stability AIでデータ系のソフトウェアエンジニアをやっているcvuskです。主な仕事は日本語LLMのためのデータ開発です。Stability AIでは日本語LLMも各種開発しています。LLMの学習というと大量のGPUを用意して巨大なデータでモデルを学習する、というキラキラしたイメージ(?)が強いかもしれませんが、データが重要かつ苦労が耐えない課題であることは他の機械学習やディープラーニングモデルと違いありません。日本語のテキストデータは英語ほど入手しやすいわけではないのと同時に、データエンジニアリングや品質面でもいろいろと大変なことが多々あります。今回はLLMのためのテキストデータの用途やエンジニアリングについて整理します。 LLMの学習 LLMの学習は大きく分けて事前

                                                        LLM開発のためのデータエンジニアリング - Qiita
                                                      • 「アップルAI」は今年発表へ、クックCEOが明言。WWDCでLLM版 Siri搭載のiOS 18発表? | テクノエッジ TechnoEdge

                                                        著書に『宇宙世紀の政治経済学』(宝島社)、『ガンダムと日本人』(文春新書)、『教養としてのゲーム史』(ちくま新書)、『PS3はなぜ失敗したのか』(晋遊舎)、共著に『超クソゲー2』『超アーケード』『超ファミコン』『PCエンジン大全』(以上、太田出版)、『ゲーム制作 現場の新戦略 企画と運営のノウハウ』(MdN)など。 秘密主義のアップルが未発表製品やソフトウェアに言及することはめったにありません。 しかし、2月1日の第1四半期業績発表後の会見で、ティム・クックCEOは生成AI技術に投資を続けていることに言及しつつ、今年(2024年)内に何らかの発表があると語りました。 クック氏は「私たちは将来を見据え、未来を形作る様々な技術への投資を続けていきます」「これにはAIも含まれ、私たちは膨大な時間と労力を投入し続けています。年内には、この分野での進行中の取り組みにつき、詳細をお伝えできることを楽し

                                                          「アップルAI」は今年発表へ、クックCEOが明言。WWDCでLLM版 Siri搭載のiOS 18発表? | テクノエッジ TechnoEdge
                                                        • LLMアプリケーションの新定番、Microsoft guidanceライブラリのgenメソッドを詳細に追ってみる|mah_lab / 西見 公宏

                                                          MicrosoftのguidanceライブラリはLLMアプリケーションを作成する際の新たな定番となりそうな気がしています。そういう訳で、今回はguidanceのgenメソッドについて詳しく追ってみたいと思います。 基本的な使い方import guidance gpt3 = guidance.llms.OpenAI("text-davinci-003") gpt3_5 = guidance.llms.OpenAI("gpt-3.5-turbo") gpt4 = guidance.llms.OpenAI("gpt-4", api_key=API_KEY) guidance.llm = gpt3まずはguidanceライブラリを読み込み、使用するLLMを宣言します。OpenAI APIを使用する場合、初期化パラメータとして以下のパラメータを使用できます。 model 使用するモデルの名前を指定し

                                                            LLMアプリケーションの新定番、Microsoft guidanceライブラリのgenメソッドを詳細に追ってみる|mah_lab / 西見 公宏
                                                          • DifyとローカルLLMを使用して複数のエージェントを設定して議論する方法 - Sun wood AI labs.2

                                                            注意: Modelfile の構文は開発中です。モデルファイルは、Ollamaでモデルを作成・共有するための設計図です。おススメ記事フォーマットModelfile のフォーマット:# コメントINSTRUCTION 引数インストラクション説... モデルプロバイダーの追加 モデルタイプを選択: 「ollama」を選択します。 必要な情報を入力: モデル名: llm-jp-13b-v2 Base URL: http://host.docker.internal:11434 Completion Mode: 「Chat」 モデルコンテキストサイズ: 4096 最大トークン数の上限: 4096 Vision Support: 「No」を選択 ワークフローの作成 4人のエージェントのシステムプロンプトを設定: 楽観的AI研究者、慎重派経済学者、AIジャーナリスト、倫理学者の4人のエージェントを作成

                                                              DifyとローカルLLMを使用して複数のエージェントを設定して議論する方法 - Sun wood AI labs.2
                                                            • Google Cloud、GPUに頼ることなくローカルのCPUとメモリ上でLLMの活用を可能にする「localllm」を公開

                                                              localllmは、コマンドラインユーティリティ経由でHuggingFaceから量子化モデルにアクセス可能なツールとライブラリのセットで、Google Cloud Workstation内にてCPUとメモリ上でLLMをローカル実行するための、包括的なフレームワークとツールを提供する。localllmの利用によって、GPUへの依存が排除されアプリケーション開発のニーズに合わせてLLMの可能性を最大限に引き出せる。 localllmでは、CPUとメモリ上でLLMを実行できるので、希少なGPUリソースが不要になり、パフォーマンスや生産性を損なうことなくLLMをアプリケーション開発ワークフローに統合することが可能になる。また、Google Cloudエコシステム内でLLMを直接使用できるため開発プロセスが合理化され、リモートサーバのセットアップや外部サービスへの依存にともなう煩雑さが軽減される。

                                                                Google Cloud、GPUに頼ることなくローカルのCPUとメモリ上でLLMの活用を可能にする「localllm」を公開
                                                              • 職場の先輩をLLMで作ってみようとした話 - Qiita

                                                                はじめに 皆さんはLLMで何かを作りたいという経験はありますか。 世の中にはアニメキャラクターの作成を指向したチャットハルヒや霧雨魔理沙を言語モデルで作成&ラインbot化した話など様々な実例があります。 今回私は勉強会でお話しするという温度感で、先輩をLLMで作ってみようとした話について述べます。参考になれば幸いです! def convert_symbols_to_fullwidth(text): half_symbols = '!?~' full_symbols = '!?〜' half_to_full = {half: full for half, full in zip(half_symbols, full_symbols)} return ''.join(half_to_full.get(char, char) for char in text) def convert_fullw

                                                                  職場の先輩をLLMで作ってみようとした話 - Qiita
                                                                • 松尾豊が語る「和製AIが世界で勝つ」方法 カギを握る企業特化型LLM

                                                                  日々進化を続ける、ChatGPTに代表される生成AI。米国は数兆円規模で開発予算を投入していて、他国の追随を許さない状況が続いている。日本国内でもNECやソフトバンク、NTTグループなどの多くの企業が生成AIの開発に参入した。 民間企業の参入が相次ぐ中、大学で生成AIの研究と研究者の育成を最前線で進めているのが、東京大学大学院工学系研究科の松尾豊研究室だ。人工知能の研究・開発を長年続けていて、8月には岸田文雄総理も研究室も訪れた。松尾豊教授は、国の「AI戦略会議」の座長も務める。 同じく松尾教授が理事長を務めるのが、日本ディープラーニング協会(JDLA)だ。JDLAは、生成AI利用の企業向けガイドラインを策定していたり、G検定やE資格といったAIに関する資格試験を実施したりしている。 前編【松尾豊東大教授が明かす 日本企業が「ChatGPTでDX」すべき理由】では生成AIの現状と活用可能性

                                                                    松尾豊が語る「和製AIが世界で勝つ」方法 カギを握る企業特化型LLM
                                                                  • 【Zephyr 7B Alpha】HuggingFaceがLlama 2を超えるLLMを出したので、比較レビューしてみた | WEEL

                                                                    Zephyr 7b Alphaは、Hugging FaceがリリースしたMistral AIのMistral 7bのファインチューニングモデルで、なんと10倍ほどモデルサイズが大きいChat Llama 70Bと同等の性能を持っています。 ファインチューニングで10倍の差を埋めるのはすごいですよね! 今回は、Zephyr 7b Alphaの概要や仕組み、実際に使ってみた感想をお伝えします。 是非最後までご覧ください! なお弊社では、生成AIツール開発についての無料相談を承っています。こちらからお気軽にご相談ください。 →無料相談で話を聞いてみる Zephyr 7b Alphaの概要 Zephyr 7B Alphaは、Hugging FaceがリリースしたMistral AIのMistral 7bをファインチューニングしたモデルです。このモデルは、いくつかのベンチマークでChat Llama

                                                                    • [メモ]大規模言語モデル(LLM)のための文章検索に関する勉強・試行錯誤 | ドクセル

                                                                      Retrieve(検索)型のChatBot GPTに最近の情報や先端知識を覚えさせ、回答させるためのテクニック (Context learning, prompt tuning, …) 質問と類似度の高い データを検索して GPTに一次記憶させる GPTの記憶容量: 原稿用紙 数十枚程度 世の中のデータ: 超大量 3 Retrieve型で回答するChatBot 質問 猫の名前は何ですか? 期待する回答 猫の名前はありません。 文献情報を読み込んだ上で、GPTが回答 参考文献 1. 吾輩は猫である。名前はまだ無い。どこで生れたかとんと見当が つかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた 事だけは記憶している。 2. 彼等は我儘なものだと断言せざるを得ないようになった。ことに 吾輩が時々同衾する小供のごときに至っては言語同断である。 3. … 4 文献の検索方法 質問 猫の名前は

                                                                        [メモ]大規模言語モデル(LLM)のための文章検索に関する勉強・試行錯誤 | ドクセル
                                                                      • 独自の日本語LLM(大規模言語モデル)のバージョン2を一般公開 ―32,000トークン対応の商用利用可能なチャットモデルを提供―

                                                                        株式会社サイバーエージェント(本社:東京都渋谷区、代表取締役:藤田晋、東証プライム市場:証券コード4751)は、70億パラメータ・32,000トークン対応の日本語LLM(Large Language Model、大規模言語モデル)を公開したことをお知らせいたします。 当社はかねてより日本語LLMの開発に取り組んでおり、2023年5月には国内の自然言語処理技術の発展への寄与を目的とし、「CyberAgentLM」を一般公開しました。その後もLLMに関する研究開発を続け様々なモデルを開発するとともに、当社が提供する「極予測AI」をはじめとするサービスにおいて活用を進めております。

                                                                          独自の日本語LLM(大規模言語モデル)のバージョン2を一般公開 ―32,000トークン対応の商用利用可能なチャットモデルを提供―
                                                                        • 中国製GPUで学習した純中国製LLM「MT-infini-3B」が「Llama3-8B」を超える性能を示し中国単独で高性能AIを開発できることが明らかに

                                                                          中国に拠点を置くGPUメーカーの「摩爾線程(Moore Threads)」が、自社製GPUを用いて大規模言語モデル「MT-infini-3B」を開発したことを発表しました。MT-infini-3BはNVIDIA製GPUを用いて学習した大規模言語モデルと同等以上の性能を備えているそうです。 摩尔线程携手无问芯穹:基于夸娥千卡智算集群的“MT-infini-3B”大模型实训已完成 | 摩尔线程 https://www.mthreads.com/news/171 アメリカ政府は中国によるAI研究を軍事上の脅威と捉えており、中国に対して高性能半導体の禁輸措置を実施しています。このため中国ではNVIDIAやAMD、Intelなどが開発しているAI研究用チップの開発が困難となっています。 そんな中、Moore Threadsは2023年12月に独自開発のAI研究用GPU「MTT S4000」を発表しま

                                                                            中国製GPUで学習した純中国製LLM「MT-infini-3B」が「Llama3-8B」を超える性能を示し中国単独で高性能AIを開発できることが明らかに
                                                                          • 最近公開された日本語LLMを要約生成タスクで検証してみる|朝日新聞社 メディア研究開発センター

                                                                            こんにちは。メディア研究開発センター(M研)の田口です。 最近、大規模言語モデル(以下、LLM)に関するニュースが毎日のように出ています。直近約1ヶ月の間にもOpenAIのAPIのアップデートが発表されたり、日本語のLLMが公開されたりしました。 少し前(といっても4月末)に「ChatGPT/OpenAI API/LLM活用事例~NewsPicksと朝日新聞の合同勉強会を公開」でLTをしました。このときはChatGPTの見出し生成の簡単な性能検証をしただけなので、この記事では最近公開されたLLMモデルの検証をしてみました。 ※この記事では社内データでなく公開データされているデータセットで実験しています LTの資料はこちらになります。 日本語LLMを要約タスクで検証するさっそく本題に入りましょう。今回は5月以降に発表された以下の日本語LLMを要約タスクで評価してみようと思います。 cyber

                                                                              最近公開された日本語LLMを要約生成タスクで検証してみる|朝日新聞社 メディア研究開発センター
                                                                            • NEC、世界トップレベル性能の高速な大規模言語モデル (LLM) cotomi Pro / cotomi Light を開発

                                                                              NECは、LLM(Large Language Model:大規模言語モデル)「cotomi(注1)」のラインアップ拡充のため、学習データやアーキテクチャを刷新した「cotomi Pro」「cotomi Light」を開発しました。 昨今の生成AIの急速な発展に伴い、様々な企業や公共機関が、LLMを活用した業務変革の検討・検証を進めています。具体的な活用シーンが見えてくる中で、導入・運用に際してレスポンスタイム、業務データ連携や情報漏洩・脆弱性等のセキュリティ面など、お客様ニーズにあったモデル・形態での提供が求められています。 NECは、高速性と高性能の両立がお客様の課題解決に必須と考え、LLMのラインアップを拡充しました。今回開発した「cotomi Pro」「cotomi Light」は、グローバルのLLMと同等の高い性能を、十数倍の速度で実現する高速・高性能なモデルです。一般的に、LL

                                                                                NEC、世界トップレベル性能の高速な大規模言語モデル (LLM) cotomi Pro / cotomi Light を開発
                                                                              • スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 : 富士通

                                                                                PRESS RELEASE 2024年5月10日 東京工業大学 東北大学 富士通株式会社 理化学研究所 名古屋大学 株式会社サイバーエージェント Kotoba Technolgies Inc. スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 日本語能力に長け、研究・ビジネス利用にも期待 要点 日本の計算機技術を用いて開発した日本語能力に優れた大規模言語モデルを公開 スーパーコンピュータ「富岳」の性能を最大限に活用した分散並列学習を実現 AI基盤モデルを科学研究に活用する「AI for Science」など革新的な研究やビジネスにつながる 概要 東京工業大学 学術国際情報センターの横田理央教授の研究チームと東北大学 大学院情報科学研究科の坂口慶祐准教授、富士通株式会社 人工知能研究所の白幡晃一シニアプロジェクトディレクター、理化学研究所 のMohamed

                                                                                  スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 : 富士通
                                                                                • 大規模言語モデル入門 / LLM introduction (SES2023)

                                                                                  ソフトウェアエンジニアリングシンポジウム2023 (SES 2023)

                                                                                    大規模言語モデル入門 / LLM introduction (SES2023)