東京大学大学院の2024年度講義「知能情報論」で使用した資料です. Vision&Language関連の研究について,深層学習初期から大規模モデルにいたるまでを概観しています. なお,資料作成時期は2024年5月下旬であり,内容はその時点で発表されていた研究等に基づいています.
前書き🤔これは何RIZさんという一見AIイラストレーターを装った風来のシレン廃人にそそのかされて作ったちちぷいチャレンジが多数の愉快犯たちにおもちゃにされた結果書かないといけなくなった記事です。 Stable DiffusionやMidjourney、Nijijourney、NovelAIの使い方を詳しく解説した文書は数あれど、ふだんパソコンを使わない一般の人向けまで踏み込んで網羅している解説記事って案外ないかもな?と思ったのもきっかけではある! 書く前からわかってたんだけどボリュームがヤバいので稚拙な表現や抜け漏れ多数だ。公開後もちょくちょく手を加える可能性大だから、もし更新が気になるようであれば筆者のX, Blueskyアカウントをフォローするなり、気が向いた時にこのnoteに戻ってきてくれよな!! しばらく前提条件を書いておくので、とっとと中身を読みたい人は飛ばしちゃってください。
今度、寝台列車で旅行に行きたいな、と思って先日予約に挑んでみたのですが、残念ながら予約競争に敗北してしまった、菅野です。 寝台列車は、今も人気が高いんですね。 ChatGPTでもDALL·E 3を用いることが出来るようになるなど、生成AIでも画像生成や読み込みなど一般的に用いられるようになってきました。 Amazonで利用できる生成AIプラットフォーム、Amazon Bedrokでも、以前から画像生成モデルとして世界的にも最も有名なStability AIが提供するStable DiffusionSDXLモデルを用いた画像生成が可能でしたが、 AmazonオリジナルのモデルTitanからも画像生成を行えるモデル、Titan Image Generatorも利用できるようになっています。 今回は、Titan Image Generatorを用いて実際にどのような画像生成ができるのかを見ていき
Technology部の町田です。 生成AIが台頭しはじめ早くも1年以上が経ちましたが、特に進歩がすさまじい技術の1つが画像生成AIです。画像生成AIを使えば、数秒で画像を生成できるようになりました。 ただし、自分がイメージしたような画像を生成するには、プロンプトがとても重要です。 そこで今回は、思い通りの画像を生成するためのプロンプト作成のコツをまとめました。 代表的な画像生成AIツールであるStable DiffusionとMidjourneyの使い方とあわせ、プロンプトの作成ポイントをお伝えします。 生成AIを業務で活用するには… 生成AIをビジネスや業務で活用するためには、導入時に直面する課題・リスクについても考慮する必要があります。生成AIの活用をご検討中なら、こちらのページで紹介している生成AIコンサルティング・導入支援を得意とする会社へご相談してみてください! 画像生成AIと
Stable Diffusion Forgeを表示した様子。基本的な操作は既存のStable Diffusion WebUI AUTOMATIC1111とほぼ同じ 画像生成AI「Stable Diffusion」用の新しいユーザーインターフェース「Forge」が2月6日に登場しました。開発したのは、これまで「Controlnet」や「Fooocus」などStable Diffusion関連の様々な重要技術を開発してきたillyasviel(イリヤスベル)さん。何よりインパクトが大きいのは、グラフィックボードのVRAM容量が小さい安価なPCでも最新版のStable Diffusion XL(SDXL)が動かせることです。 RTX 40シリーズが求められたSDXL SDXLは、2023年8月にStablity AIが発表した画像生成AI。高画質な出力ができる一方、コミュニティーサイトで話題にな
まとめ Danbooru タグをいい感じに生成・補完してくれる LLM を作ることができた データセットやトークナイザーの作成、事前学習、SFT、推論の最適化まで一通り体験できた 作成したもの: モデル (SFT): モデル (事前学習): デモ: 🤗 Space はじめに 最近いい感じの画像生成 AI が流行ってきていて、プロンプトを指定するといい感じの画像が生成できるようになってきました。 しかし、いい感じの画像生成モデルを使っていてもプロンプトがしっかりしていないといい感じになってくれません!困りました! DALL-E 3 では画像生成をお願いすると、ChatGPT が指定された情報にさらに詳細な情報を追加し、長いプロンプトにしてから画像を生成するようになっています。 少ない情報から情景を想像して詳しい情報を追加している (実際の生成では英語が使われる) DALL-E 3 の論文に
ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 画像生成AIサービスを提供するMidjourneyは、今後1年間、同社のサービスで政治的な画像を作成すること、特にジョー・バイデン氏とドナルド・トランプ氏の画像生成を禁止することを検討しています。 米国では今年11月に大統領選挙が予定されており、現職のバイデン氏(民主党)と、前職のトランプ氏(共和党)の対決になる可能性が高いとみられています。 Bloombergによると、MidjourneyのCEOであるデビッド・ホルツ氏は、Discordのチャットルームでユーザーに対し、同社は今後12か月間でバイデン氏やトランプ氏の画像などを禁止する予定だと述べました。 ホルツ氏は「トランプ氏の写真を作るのが楽しいのはわか
2024年1月19日、シカゴ大学の研究チームが開発した、AIによる画像の学習を防止するツール「Nightshade」が一般公開され、誰でもダウンロード可能になりました。 Nightshade: Protecting Copyright https://nightshade.cs.uchicago.edu/whatis.html Today is the day. Nightshade v1.0 is ready. Performance tuning is done, UI fixes are done. You can download Nightshade v1.0 fromhttps://t.co/knwLJSRrRh Please read the what-is page and also the User's Guide on how to run Nightshade. It
人気連載『生成AIウィークリー』で取り上げている注目論文を見ると、そこに中国IT企業の名前が頻繁に登場します。 EC大手のアリババ(Alibaba)、ゲーム大手のテンセント(Tencent)、TikTokの運営元であるBytedanceなどが常に顔を出しており、画像・音声・アニメーションと、生成AIのあらゆる分野で中国に勢いがあることがわかります。 そんな中、テンセントがなかなか衝撃的な技術を発表しました。「PhotoMaker」という画像生成AIです。これでなければできない、というものではないのですが、「ファインチューニングの事前作成不要」「元画像が少なくても良い」のに、人物のアイデンティティを維持した画像を生成できるというメリットがあります。 これまでは既存の画像AIモデルに多数の写真を読み込ませて本人性を学習させたものから新たなAIモデルやその簡易版であるLoRAモデルを作ってきまし
パーソルキャリアでUIUXデザイナーをしている比企(ひき)です。 今回は、Midjourney(個人的に課金して使ってます)とChatGPTで漫画を描いてみます。 作画担当:Midjourney 昨年、画像生成AIが次々と公開されているツールを試してみるものの、 生成される画像のクオリティが低い印象でした。 ところが「Midjourney」を使ってみたところとても感動しました。 ひとことでいうと「デッサン狂ってない」。 何を描いてもそれらしく仕上げてきます。 作画前の準備として 画像生成AIの仕組みとMidjourneyのプロンプトについて 理解していきたいと思います。 画像生成AIの仕組み いろいろな画像生成AIを試すと、「これはイケてない」、「これはイケてる」という違いが出てくるのはなぜなのでしょうか。そもそもどのような仕組みで画像が生成されるか調べてみました。 www.busines
10月1日頃、OpenAIの新しい画像生成AI「DALL·E 3(ダリ3)」が徐々に使えるようになり、その性能の高さから話題になっています。まずサプライズで使えるようになったのがマイクロソフトのBingチャット。日本語で「猫の画像を作ってください」などと入れるだけでかわいい猫の画像が出てくると。これが無料で使えるのは衝撃的です。マイクロソフトが巨大資本で他の会社をつぶしに来たなという感じですね。どう考えても、今のところはサーバーコストが果てしなくかかる赤字サービスなのは間違いないので……。 「ラーメンを食べる女の子」が描ける! なにより衝撃的だったのは、「アニメ風の少女と猫が遊んでいる姿を作ってください」というリクエストに対し、一発で完璧な正解を出してきたことです。Stable Diffusionだと苦手とされていた指も適切に描写されています。もうひとつの着目点はオブジェクト間の関係性です
Stability AIは6月26日、画像生成AIの最新モデル「Stable Diffusion XL」を発表しました(「画像生成AI『Stable Diffusion』最高性能の新モデル『SDXL 0.9』一般的なPCで実行可能」)。パラメーター数がオリジナルのStable Diffusionの9億から23億へと大幅に拡大され、描写力が飛躍的に上昇したモデルです。正式版のSDXL 1.0が7月18日に公開予定とあり、あらためて注目されています。ベータ版にあたるSDXL 0.9は先行して、有料課金サービス「DreamStudio」と、Discordでの公開を開始していました。Discordでは1人無料で1回出力可能で、いまもリアルタイムで生成画像が見える状態です。その後SDXL 0.9は研究用に公開されて、ダウンロード可能になりました。 大きな違いは「2回生成する」こと SDXLがこれまで
マイクロソフトは2022年10月、PowerPointのデザイン機能を切り出し、クラウドベースで「Microsoft Designer」を公開した。当初は利用するのに待機リストへ申請する必要があったが、現在はMicrosoftアカウントを持っていれば誰でも無料で利用できるようになっている。 OpenAIの画像生成AI「DALL·E 2」を利用し、イメージする素材を瞬時に生成してくれるので、クリエイティブの時間が圧倒的に短縮できる。 例えば、イベントの告知に入れるイメージ画像やSNSに投稿する画像などは、そこまで手をかけるのもコスパが悪い。そんな時は、「Microsoft Designer」でサクッと作ってしまおう。 Microsoft Designerの使い方 「Microsoft Designer」のウェブサイトを開いたら、「New design」をクリック。「Describe the
先日公開したアニメ絵の実写版を作る記事はおかげさまで好評でした! アニメ絵生成の第二弾に行く前に、アニメ絵実写版生成でも威力を発揮する「雑コラ」をAIでリアルにする手法について今回は説明します。 実はAIアートグランプリの時も「雑コラ」と言われたりしていたのでしたw 渚の妖精ぎばさちゃん対キモノアゲハ/koizoom1/漫画@gibasachan 雑コラに見えるけど すごい技術 登場人物より多いモデル これはゆるキャラの未来きたな…#AIArtGp pic.twitter.com/5A4wMUJsND — Dr.(Shirai)Hakase #AI神絵師本 #技術書典14 (@o_ob) March 12, 2023 AIといえばラーメン(?)ですが、こんな画像も作れちゃいます!ラーメンの中にいる秘書さん! ラーメンの中にいる秘書さん絵面としては結構インパクトがありますが、実は作るのは全然
Christina Darby (ZDNET.com) 翻訳校正: 川村インターナショナル 2022-11-23 08:30 人生が芸術を模倣するのか、それとも芸術が人生を模倣するのか。OpenAIの「DALL•E 2」を使えば、芸術がほぼすべてのものを模倣できる。テキストを画像に変換するこの話題のプラットフォームでは、事実上誰でも画像を生み出せるが、使用するのは絵筆ではなくキーボードだ。 これはあまりにも単純(かつ近未来的)に聞こえるコンセプトだろう。アイデアを検索バーに入力すれば、できあがりだ。ただし、最良の結果を得るには、ここで紹介するヒントとコツに従い、フレーズに込めた自分の意図を極めて現実的かつ正確に表現する必要がある。 DALL•E 2の使用開始前に、以下の3つの基本ルールを押さえておこう。 厳密に言えば、芸術作品のアイデアを考え出すのはあなたなので、デフォルトでは、あなたがA
ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 先週金曜日、オープンソースのAI画像生成ツールとして人気を集めるStable Diffusion(Stability AI)と、Midjourney、最近Stable Diffusionをベースとする独自のAI画像生成ツール「DreamUp」を開発したDeviantArtに対して、3人のアーティストが著作権侵害などを訴える訴訟を起こしました。 昨年以来、AIを使った画像生成は人気のトピックになっています。いくつかのツールは、生身のアーティストが描いたものと同等レベルのアートワークを、入力されたテキストから生成・出力できます。しかしその生成されたアートワークはアーティストたちの間での議論やSNS上での抗議などを
Stable Diffusionがオープンソースで公開されてちょうど1ヶ月が立ちました。OpenAIがDall-E2をリリースしたのが4月。こういう異次元なリソースを使ってモデルを作れるのはごく限られたプレーヤーだけと思い込んでいたものが、若干十数人のチームがMidjourneyをリリースしたのが7月。一連の騒ぎがここ半年程度の出来事で、1ヶ月前に深津さんも予見していた「世界変革」が目の前で怒涛の勢いで進行しています。 このブログも書いた瞬間に古くなるだと思うけど、この文化的特異点とも言える1ヶ月に起こったことを振り返ってみたいと思います。それにしても手書き文字の生成に感動していた2015年から比べるとずいぶん遠いところまで来ましたね。DataRobotでも「AIの民主化」を掲げて様々な企業のAI活用を推進していたけれど、今起こっている変化を見ているとそのスピード感に愕然とします。 少し宣
ホーム ブログ 人工知能(AI)、ビッグデータ法務 Midjourney、Stable Diffusion、mimicなどの画像自動生成AIと著作権|知… はじめに Midjourney、Stable Diffusion、mimicなど、コンテンツ(画像)自動生成AIに関する話題で持ちきりですね。それぞれのサービスの内容については今更言うまでもないのですがMidjourney、Stable Diffusionは「文章(呪文)を入力するとAIが自動で画像を生成してくれる画像自動生成AI」、mimicは「特定の描き手のイラストを学習させることで、描き手の個性が反映されたイラストを自動生成できるAIを作成できるサービス」です(サービスリリース後すぐ盛大に炎上してサービス停止しちゃいましたが)。 で、この手の画像自動生成AIのようなコンテンツ自動生成AIですが、著作権法的に問題になる論点は大体決ま
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く