すがやみつる @msugaya 私も試してみました。プロンプトは、以下のとおりです。 ***** 『ゲームセンターあらし』というタイトルのマンガがありますが、このマンガに関係なく、タイトルだけのイメージから、美少女がゲームセンターで激しくゲームをプレイする絵を、マンガタッチで描いてください。 ***** こちらの方が年齢が高そうですね(^_^)。 ChatGPT経由でDALL-E3に描いてもらいました。 2024-04-30 22:26:48 ジロー @i9r82k こんこんばんばん 本日夜便は、ゲームセンターあらしより「ゲームセンターあらし」です ゲーセンというか、カラオケじゃないか? 黒髪ショートカットって意外に珍しい気がする なんか悪友というか、腹を割って話せる関係っぽい感じがします #画像生成AI #美少女 pic.twitter.com/8SF9NJb1QR 2024-04-30
MetaがLlamaファミリーの次世代大規模言語モデル「Llama 3」をリリースしました。研究目的のほか、月間アクティブユーザーが7億人以下の場合は無償で商用利用が可能となっています。 Meta Llama 3 https://llama.meta.com/llama3/ Introducing Meta Llama 3: The most capable openly available LLM to date https://ai.meta.com/blog/meta-llama-3/ 今回リリースされたのは80億(8B)パラメーターと700億(70B)パラメーターの2つのモデルです。共に事前トレーニングの後に命令追従用のためのファインチューニングが行われている「Instruct」モデルで、チャットAIとしてのタスクをこなすことができます。 同等のパラメーターを持つモデルとの比較結果
米Metaは4月18日(現地時間)、オープンソースのLLMの最新版「Llama 3」を発表した。80億パラメータと700億パラメータの2モデルで、いずれもほぼすべての主要クラウドサービス(AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM、Snowflake)で間もなく利用可能になる。 昨年リリースの先代「Llama 2」にも700億パラメータモデルはあったが、Llama 3は4000億パラメータの高密度モデル(こちらはまだ公開されていない)のトレーニングも継続中だとマーク・ザッカーバーグCEOは語った。 トレーニングデータセットは、Llama 2よりも7倍大きく、4倍のコードが含まれている。英語以外での利用に備えるため、データセットの5%以上が非英語データで構成されて
多くの研究者や医療従事者にとって、抄読会は情報収集と知識共有の重要な機会ですが、スライド作成には多くの時間と労力を費やしてしまいがちです。そこで、このプロセスを自動化するプロンプトを作成しました。 使い方は簡単です。論文のPDFを添付し、プロンプトを入力するだけで、AIがその論文の要点をまとめたスライドの下書きを自動で生成してくれます。背景、方法、結果、考察、結論の各セクションごとにスライドが作成され、重要な情報が簡潔にまとめられます。 ただし、このプロンプトを最大限活用するには、抄読会で取り上げるべき適切な論文を選ぶことが大切です。抄読会で選ぶべき論文のルールがある場合はそれをよく確認し、他の先生の貴重な時間を使って行うものなので、なるべく価値のある論文を選ぶようにしましょう。自信がない場合には選択が合っているか上級医に確認しましょう。具体的には、以下のような基準を満たす論文がおすすめで
近年の AI の進歩により、論文の読み方も大きく変化を遂げました。AI を活用することで以前と比べてはるかに簡単かつ早く論文が読めるようになりました。 以前私の個人ブログにて、論文の読み方やまとめ方を紹介しました。その時には要約ツールは用いていませんでしたが、最近はすっかり要約ツールを多用するようになりました。 本稿では、最新の AI を使った論文の読み方を丁寧に紹介します。 基本的な流れ 本稿でおすすめするのは ChatGPT か Claude で要約を生成して論文の概要をつかみ、Readable で精読するという方法です。ChatGPT や Claude では単に全体の要約を生成するだけでなく、肝となる箇所を特定したり理解するためにも用います。具体的な手順については後の項で解説します。 私が特定のテーマについて調査を行う場合には、テーマに関係する論文を被引用数の多いものを中心に 10
Command-R+の衝撃! 100Bモデルで本当にこんなことできんの!?ダウンロードしてローカルで実行可能 Transformerの発明者らが起業したCohereAIがとんでもないモデルを出してきた。この業界では毎週のように「えーー!」ということが起きるのだが、その中でも年に1,2回起きる「えーーーっ」が起きたのでブログでも紹介しておきたい。 Command-R+(おそらくコマンダープラスと読むのが正しい)というモデルは、わずか100Bで、GPT-4,Claude-3並と言われるモデルだ。しかし、それを主張するだけのモデルなど腐るほどある。だが、実際に触ってみると期待外れということが多かった。 ところがCommand-R+は、その性能は桁違いである。というか、もはや僕という人間如きがちょっと触ったくらいでは「GPT-4よりいいね」とか「ここら辺甘いね」とか判断がつかなくなってきてる。しか
報道資料 ここに掲載されている情報は、発表日現在の情報です。 検索日と情報が異なる可能性がございますので、 あらかじめご了承ください。 2023年11月22日 ソニーとAP通信、画像の真正性を証明するカメラ内デジタル署名技術の実証実験を実施 フェイク画像に対する懸念への対処に向け、報道ワークフローでの透明性・信頼性を向上する技術開発を加速 ソニーは、米国通信社のAssociated Press(以下AP通信)と、報道ワークフローにおけるソニー製カメラでの撮影画像の真正性を証明する技術の実証実験を実施しました。本技術により、撮影時にカメラ内のハードウェアチップセットで画像にデジタル署名を付与し、カメラで撮影されたことを報道ワークフロー上で証明することを可能にします。 昨今、生成 AIの急速な進化により、従来の画像表現と共に、新しい表現の可能性が広がっています。一方、フェイク画像や虚偽の情報の
「ChatGPTはすぐに嘘をつくから調べものには使えない」という意見をよく聞くが、これには大きな誤解がある。 そもそもChatGPTの心臓部である大規模言語モデル(LLM)は、膨大な知識を元にテキストを「生成」する仕組みだ。 逆に言うと、知識として持っていないことは一切わからないので、知らないことについて説明を求められても能力的に不可能なのだ。 だから、知識にない質問をされると答えられないだけでなく、苦し紛れに幻覚(ハルシネーション)を起こしてしまう。これが「すぐに嘘をつく」と言われる理由だ。 結論を書いてしまうと「ChatGPTは検索ツールではない」のだ。むしろ「ChatGPTがいちばん苦手とすることが検索」なのだ。 今回はこの欠点を補い、AIを活用した新しい検索の形を実現するという触れ込みのサービス「Perplexity.ai」を紹介していく。 Perplexity.aiとは Perp
概要 Sakana AIは進化や集合知などの自然界の原理を応用して基盤モデルを開発することを目指しています。私達の目標は、モデルを自ら訓練し開発することだけではありません。基盤モデルの開発を効率化、高度化、自動化するための新たな手法を生み出すことに挑戦しています。この目標に向けた第一歩として、私たちはプレプリント「Evolutionary Optimization of Model Merging Recipes (モデルマージの進化的最適化)」を公開しました。 このリリースの要点は以下の通りです。 進化的モデルマージという手法を提案します。これは、多様な能力を持つ幅広いオープンソースモデルを融合(マージ)して新たな基盤モデルを構築するための方法を、進化的アルゴリズムを用いて発見する手法です。私たちの手法は、ユーザーが指定した能力に長けた新しい基盤モデルを自動的に作成することができます。既
北海のタコ @ogawa0117 パブコメの中にグッとくる文言があったので、スクショ引用。 「才能の民主化」。ものすごく心に突き刺さる表現。 生成AIを活用すれば、自分の奥底に眠っている才能の一片が開花するかもしれないという希望をパブリックコメントに寄せているのは素晴らしい。これはぜひ読んでもらいたい。 私利私欲と馬事雑言にあふれたパブリックコメントのまとめのなかで、一番きれいな花を咲かせている文面。 #生成AI #才能の民主化 2024-03-20 10:13:05 北海のタコ @ogawa0117 あと少しで還暦。基本的な思想はニュートラル。ゆらゆらと世間様の流れに流されています。BS/80からのPCハードウェア老人会所属。テキストウェブからのネット老人会所属。日々気になったニュース、アニメ関係、IT、競馬、くだらないネタなどをつぶやいています。AI利用者ですが悪事にAIを利用する行為
OpenAIが発表した音声認識モデル「Whisper」は、日本語の音声でも精度高く文字起こしできるツールとして知られています。今回はAIsmiley編集部が「AIニュース原稿の読み上げ音声を素材にどのくらい精度高く文字起こしできるのか」や「生活騒音下における読み上げ音声でも結果は変わらないのか」について調べてみましたので是非やり方を真似して試してみてください。 ■音声認識モデルとは? 音声認識モデルとは、AIが人間の声を認識し、認識した音声をもとに何らかのデータをアウトプットする技術を指します。身近な音声認識モデルには、アレクサでお馴染みのAmazon Echoがあります。Amazon Echoなどのスマートスピーカーは、人間の声を認識し、その音声の意図を把握した後、情報検索を行ったり、接続されている電化製品の操作を行ったりします。 スマートスピーカーの他にも、入力された音声をリアルタイム
claude3を使ってみたら、ライティングの仕事が無くなるかもしれない瞬間を目の当たりして、衝撃を受けた件 ひと言で結論を言うと、昨日はclaude3に衝撃を受けて、興奮して眠れませんでした…。 四の五の言わずにアウトプットを見せちゃいたいんですが、 ●打合せをZoom録画 ↓ ●録音データをCLOVA noteに放り込んでテキスト化 ↓ ●出てきたテキストファイルをノールックでclaude3に添付して、たった4行のプロンプトで指示 CLOVA noteに放り込むところから、トータルの所要時間、長めに見積もっても10分。それで出てきたのがこれです ↓ 【タイトル】 SFプロトタイピングが拓く、KOBIRAの未来 ~物語を通じて、全社で創る10年後のビジョン~ 【本文】 先日、「SFプロトタイピング」という新しい手法について、詳しくレクチャーを受ける機会がありました。講師を務めてくださったの
アップルの研究チームは3月14日、画像とテキストを理解し処理する能力を持つマルチモーダル大規模言語モデル「MM1」を発表した。今のところ論文のみの公開で、一般公開の時期は明かされていない。 一部ベンチマークではGPT-4Vをも凌ぐ性能を発揮 複数(30億、70億、300億)のパラメータサイズを備えるMM1は、10億以上の画像および30兆語以上のテキスト、GitHubのコード例などの多様なデータセットを用い、教師なし学習と教師あり学習を組み合わせる独自の方法で学習され、多様なタスクに対して高い精度を示すという。 各種ベンチマークの結果によると、30億および70億パラメーターのモデルはそれぞれのモデルサイズにおいて過去最高を記録。特にVQAv2(画像理解)、TextVQA(画像内のテキスト情報)、ScienceQA(科学知識)、MMBench(マルチモーダル)、MathVista(数学)などの
「GPT-4超え」とうわさのAI「Claude 3」を試す 仕事は任せられる? 若手記者の所感(1/2 ページ) 3月4日(現地時間)にリリースされたチャットAI「Claude 3」がすごい。筆者も記事の執筆を任せられないか少し試しているが、使い方によっては「そこそこいけるな……少なくともGPT-4よりはイケる」と思う程度にはしっかりしている。 過去に記事でも伝えた通り、ITmedia NEWSではChatGPTを活用した記事の制作も行っている。筆者もたまにGPT-4の力を借りて記事を作っているが、ものすごく効率化につながるかと言われれば、正直そこまでではない。 10の労力が9とか8.5くらいにはなるし、それはそれですごく大事なのだが、劇的な省力化にはつながらない。さらにプロンプトを考える手間もある。その辺を加味してギリギリ黒字くらいだ。特にここ半年くらいは以前より微妙なアウトプットしか出
■ Claude 3に例の「読了目安2時間」記事を解説させてみた Anthropicの先日出たばかりのClaude 3(Opus)が、ChatGPTのGPT-4を超えてきたと聞いて、自分の原稿を解説させてみたところ、確かに革新的な進歩が見られる。もはや内容を「理解」しているようにしか見えない。GPT-4では、昨年11月に試した時には、そうは見えず、優れた文章読解補助ツールという感じでしかなかった。 一昨年のCafe JILIS「高木浩光さんに訊く、個人データ保護の真髄 ——いま解き明かされる半世紀の経緯と混乱」は、発表した当時、長すぎて読めないから誰か要約してという悲鳴があがっていた。その後、ChatGPTの登場で、その要約能力に期待されたが、冒頭のところしか要約してくれなかったり、薄い論点リストが出てくるだけで、その期待に応えられるものではなかった。 もっとも、GPT-4でも、質問力があ
Stable Diffusion Forgeを表示した様子。基本的な操作は既存のStable Diffusion WebUI AUTOMATIC1111とほぼ同じ 画像生成AI「Stable Diffusion」用の新しいユーザーインターフェース「Forge」が2月6日に登場しました。開発したのは、これまで「Controlnet」や「Fooocus」などStable Diffusion関連の様々な重要技術を開発してきたillyasviel(イリヤスベル)さん。何よりインパクトが大きいのは、グラフィックボードのVRAM容量が小さい安価なPCでも最新版のStable Diffusion XL(SDXL)が動かせることです。 RTX 40シリーズが求められたSDXL SDXLは、2023年8月にStablity AIが発表した画像生成AI。高画質な出力ができる一方、コミュニティーサイトで話題にな
また、Gemmaの事前トレーニング済みモデルでは、学習データから特定の個人情報やその他の機密データを除外していると安全性もアピール。開発者や研究者向けに、安全で責任あるAIアプリケーションを構築できるというツールキット「Responsible Generative AI Toolkit」も併せて公開している。 関連記事 Google、“現行最強”の生成AI発表 月2900円で利用可 チャットAIサービスはBard→Geminiに刷新 米Googleは2月8日(現地時間)、「現行最強」をうたう生成AI「Gemini Advanced」を発表した。すでにサービスを提供開始しており、月額2900円で利用可能。2カ月間の無料試用期間も用意する。 Google、「Gemini 1.5 Pro」限定リリース コンテキストウィンドウは100万トークン Googleは、生成AIの次世代モデル「Gemini
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く