Release v0.5.9 - あなたのアシスタントとしてAIエージェントを作成し、ツールをカスタマイズしてください。
Release v0.5.9 - あなたのアシスタントとしてAIエージェントを作成し、ツールをカスタマイズしてください。
Googleは2024年2月に、生成AIのGeminiが「人種的に多様なナチス」を生成したことを謝罪し、修正できるまで人物を生成できなくする一時措置を講じました。また、Geminiに限らずほとんどのチャットAIは、センシティブな話題を振ると回答を拒否します。このように、大手AI企業は微妙な問題に直面すると臭いものにフタをするようにそのテーマへの言及そのものを回避する傾向がありますが、そのような対応は言論の自由を害することになりかねないと、専門家が警鐘を鳴らしています。 Report: Freedom of Expression in Generative AI - A Snapshot of Content Policies - The Future of Free Speech https://futurefreespeech.org/report-freedom-of-expressi
この文章の目的 この文章はプログラマ以外の人にも読んで欲しいです。 ChatGPTや大規模言語モデルについて聞いたり使ったことはある ChatGPTの業務利用が出来るか検討したが、機密情報を扱う事やコスト面から断念した その後の大規模言語モデル界隈について、すごく驚く人や難しそうな事を言う人がいっぱい居て怖い みたいな状況にある人が、手元のPC内に完全無料でChatGPTのような物を作ること(これをローカル大規模言語モデル、と呼びます)について分かったつもりになったり、あるいはローカル大規模言語モデルについて興味が出てきたときにググるべき単語を知る事が出来るようになって欲しい、と思って書きました。 ざっと読み飛ばすなら10分程度で現状を知れるようにしつつ、プログラマ向けの記載は折り畳みにしているので必要な人は折り畳みも見て下さい。 なぜローカル大規模言語モデルなのか 以下ローカル大規模言語
大量のデータを用いた学習のおかげで人間の言語を処理できる、人工知能モデルの一種・大規模言語モデル(LLM)は、いろいろなことに答えてくれるものの、違法な内容や暴力的な内容の回答は出力されないように設定されていて答えをくれません。しかしそれ以外にも答えることができない種類の質問が存在します。どういった質問に答えることができないのか、それはなぜなのか、AIの話題を多く扱うサイト・Mind Prisonが説明しています。 The question that no LLM can answer and why it is important https://www.mindprison.cc/p/the-question-that-no-llm-can-answer 「LLMが答えることができない質問」としてMind Prisonが例に挙げたのは、「ドラマ『Seer Gilligan(ギリガン君S
もしあなたがLLMを使ったプロダクトを何かしら開発している、もしくは興味があるのなら、メモリを大量に積んだMac Studioの購入を検討すべきです。 対象読者NVIDIAが絶対にいいという人はこの記事の対象読者ではありません。また、用途によって、ローカルマシンによるローカルLLMが向いてる・向いてないは明確にあるので、向いてない用途にしか使わない人も対象読者ではありません。あしからず。 また、この記事は別にNVIDIAをdisる意図はありません。みんな違っていい。NVIDIAもいい選択肢ですが、Mac Studioも悪くないですよ、と言いたい。 結論LLMプロダクト開発において、今年はもはやローカルLLMを無視できない、してはいけない状況です。 LLMプロダクト開発をする会社の視点でいえば、是非とも80GB以上の十分なGPUメモリを積んだマシンを用意できるようなアジリティを持つのが望まし
","chat_template":[{"name":"default","template":"{{ bos_token }}{% if messages[0]['role'] == 'system' %}{% set loop_messages = messages[1:] %}{% set system_message = messages[0]['content'] %}{% elif false == true %}{% set loop_messages = messages %}{% set system_message = 'You are Command-R, a brilliant, sophisticated, AI-assistant trained to assist human users by providing thorough responses. You
本記事では、「Chain-of-Abstraction (CoA) Reasoning」についてざっくり理解します。軽めの記事です。 株式会社ナレッジセンスでは普段の業務で、生成AIやRAGシステムを活用したサービスを開発しています。 この記事は何 この記事は、最近聞くようになった「Chain-of-Abstraction (CoA) Reasoning」の論文[1]について、日本語で簡単にまとめたものです。 今回も「そもそもRAGとは?」については、知っている前提で進みます。確認する場合は以下の記事もご参考下さい。 本題 ざっくりサマリー LLMが外部ツールを使って回答を生成するときの、回答精度を高める手法についての論文です。Metaの研究者らによって2024年1月に提案されました。「Chain-of-Abstraction (CoA)」という手法を使うメリットは、RAGに応用することで
2024/04/09 続編書きました。 LangChainを使って色々LLMアプリを作って遊んでいます。 体感速度が遅いけど、どこが遅いかわからない サンプルソースをコピペして作ったので、実は中身のことをわかってない 入力と出力だけじゃなくて、中間の状態も知りたい みたいなことってありませんか?そんなときに使えるツールを見つけましたのでご紹介します。 Langfuseとは LangfuseはLLMエンジニアリングプラットフォームです。LLMアプリからメトリクスやトレースを取得し可視化できます。また、評価、プロンプトの管理、データセットの作成なども行えます OSS開発が進められており、開発の主導はFinto Technologies GmbHというドイツの企業のようです。 公式サイト 主要機能(公式サイトより) LangSmithと類似したツールですが、OSSなのでセルフホストできる点がポイ
TL;DR 量子化しても成績が下がりにくいモデルと、大きく下がるモデルがある 一部のモデルは量子化すると回答が極端に短くなる 量子化によって回答が短くなる度合いは、量子化前モデルの回答の長さと相関がある可能性がある はじめに 皆さんは量子化したLLMを使っていますか? 深層学習における量子化(quantization) とは、モデルのパラメータを少ないビット数で表現することです。 通常のモデルは float32 などの高精度なデータ型を使ってパラメータを表現しますが、この精度を float16 や int8 に下げることを量子化といいます。 量子化による最大のメリットは、モデルのメモリ使用量を削減できることです。メモリの大きなモデルを動かすためには、大容量のメモリを搭載したGPUが必要ですが、量子化によってモデルのメモリ使用量を削減することで、より多くのGPUでモデルを動かすことができます
CTO 室の恩田です。 今回は GitHub Copilot Enterprise を評価してみて、現時点ではまだ採用しないことを決めた、というお話をご紹介したいと思います。 きっかけ とあるエンジニアが Slack で自身の times チャネルに時雨堂さんの GitHub Copilot Enterprise のススメという記事を投稿したことが発端でした。特に感想はなく URL に 👀 だけが添えられていたので、後で見るぐらいのメモだったんだと思います。 それを見かけた別のエンジニアが技術雑談チャネルにその投稿を共有して、これは凄そうと話題を向けたところ、CTO の「評価してみる?」の一言で、有志が集って評価プロジェクトが始まりました。 雑談チャネルできっかけとなる投稿が共有されてから、30分足らずの出来事でした(笑)。 この話題が出たのは金曜日でしたが、週明け早々に稟議を終え、火曜
LLM training in simple, pure C/CUDA. There is no need for 245MB of PyTorch or 107MB of cPython. For example, training GPT-2 (CPU, fp32) is ~1,000 lines of clean code in a single file. It compiles and runs instantly, and exactly matches the PyTorch reference implementation. I chose GPT-2 as the first working example because it is the grand-daddy of LLMs, the first time the modern stack was put toge
AIの本体と言える大規模言語モデル(LLM)のトレーニングはほとんどの場合PyTorchやPythonを使用して行われていますが、そうしたトレーニングを純粋なC言語のみで実装したツール「llm.c」が登場しました。まだ最適化が行われておらず従来の手法に速度面では敗北していますが、GPT-2のトレーニングを行う実装を約1000行のクリーンなコードで行えています。 GitHub - karpathy/llm.c: LLM training in simple, raw C/CUDA https://github.com/karpathy/llm.c 作者のアンドレイ・カルパシー氏はOpenAIの創設グループの一員で、テスラのAIディレクターだった事もある人物です。 llm.cを使用することで、245MBの容量を持つPyTorchや107MBの容量を持つcPythonを使用せずに大規模言語モデル
さくらインターネット研究所の坪内(@yuuk1t)です。 私の個人ブログにて、クラウドのプラットフォームやクラウド上に展開されるアプリケーションの障害を大規模言語モデル(LLM)を用いて、自動で診断するための技術を提案する最新の研究動向を紹介する次の調査記事を書きました。 LLM for SRE“の世界探索 – ゆううきブログ 本記事では、この研究動向の調査をさくらインターネット研究所の研究活動の一環として位置づけ、調査の概要と動機、公開後に得られたフィードバック、今後の研究について紹介します。 調査記事の概要 我々は、SRE(Site Reliability Engineering)やAIOps(AI for IT Operations)の分野で、システム障害の自動検知・診断・対応に関する研究を行っています。LLMを使ったシステム障害診断は、SREの知識をLLMが学習し、障害発生時のシス
徳永拓之(LeapMind(株)) 1bit LLMの時代が来る? 2024 年2 月,The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits¹⁾ というタイトルの論文がarXiv上で公開され,にわかに話題となりました.“1.58 Bits” という表現はあまりなじみがありませんが,log₂(3) = 1.58 . . . ということで,パラメーターを三値にした場合の情報量を示しているようです.この論文(以下b1.58 論文とする)は,同じ著者グループによる文献2)を少し拡張したもので,大規模言語モデル(LLM)の効率化についての研究です. 本稿の前半ではこれらの論文の主張を解説し,後半ではその主張の妥当性について検討します. なお,これらの2本の論文は,本稿執筆時点では,査読を経たものではありませんのでご注意くだ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く