ushura2のブックマーク - はてなブックマーク

革命レベルの動画生成AI「Kling」　ついに「Sora」対抗が出てきた

中国のSNS「快手（Kuaishou）」は、テキストから最大2分間の動画を生成できる動画生成モデル「可灵（Kling）」を開発。多数のサンプル動画を掲載するデモサイトを公開した。テキストから最大2分間のフルHD動画を生成 A Chinese AI video generator just dropped before we got access to Sora Can generate 2-minute videos at 30fps, 1080p quality, available on the KWAI iOS app with a Chinese phone number A few generations from their site: 1. pic.twitter.com/NEmWiqKHiO — Rowan Cheung (@rowancheung) June 6, 20

ushura2 2024/06/08

リンク

実録：AIで描く漫画の実際～AIで今風の手描きっぽい漫画を作ってみる (1/6)

こんにちは、漫画界の生き恥こと野火城と申します。「画像AI使ってみた／AI 漫画実験企画」第2回です！ ■第1回はこちら　実録：AIで描く漫画の実際～体験して見えた、その実力と課題!! その成り立ちから様々な議論を呼んでいる画像生成AIですが、少なくとも2024年3月現在日本の法律では使用が許可されており、存在を完全に無視する事はできません。かといって全てを肯定して受け入れるのも難しい。だからこそ、必要以上に恐れず、実際にどのような事が出来るのか、具体的に検証する――それが画像AIとの誠実な向き合い方なのではないでしょうか。「画像AIの技術がすごいという賞賛記事はよく見るが、それは本当に創作活動で実戦的に使えるものなのか？　『AIに仕事を奪われる』と『今のAIは実戦では使い物にならない』という真逆の意見を多数見るが、この二つは両立しないのでは？　実際はどっちなんだ？」「画像AIを試し

ushura2 2024/05/30

リンク

画像生成AIに照明革命　日本と世界で同時に“神ツール”登場 (1/3)

この連載ではおなじみのキャラクター「明日来子さん」に右側からライトを当ててみた。左がIC-Lightを適用したもので、右がオリジナル。環境はWebUI Forge用の拡張機能を使用 5月8日に、「ControlNet」など画像生成AI関連の著名研究者であるイリヤスフィール（lllyasviel）さんが発表した「ICライト（Imposing Consistent Light、印象的な一貫的なライト）」が盛り上がりました。入力した画像をもとに、後から指定した照明効果を踏まえた画像を生成する技術です。画像生成AIで照明効果がつけられる「ICライト（IC-Light）」発表された学習済みモデルは、「ライトを指定すると、キャラクターのデータに合わせてテキストのプロンプトに合わせて独自に背景を生成するもの」「キャラクターとライトの影響を加味して、別の背景画像と合成するもの」の2種類があります。これ

ushura2 2024/05/27

リンク

自分好みのAIチャット相手を簡単に作れる「Dify」が面白い (1/4)

生成AI界隈で話題になっているAIサービス「Dify.AI」がなかなか面白いですよ。Dify.AIは、スタートアップの米LangGeniusが用意している大規模言語モデル（LLM）用のWebUI環境を利用して、いろいろなシステムを組み込むことで、プログラムを書くことなく簡単にチャットbotなどのネイティブAIアプリを開発できるサービスです。 Difyは大きく「チャットボット」、「エージェント」、「ワークフロー」の３つの機能に分かれており、簡単なチャットボットから、複数のLLMを組み合わせた複雑な動作をさせるように設計するものまで、多様なアプリを開発することが可能です。ChatGPTから、Claude 3、Geminiなどの主要なLLMをAPIから呼び出すことができるので、それらを組み合わせてサービスを作ることも可能です。例えばOpenAIのAPIキーを生成してDifyに入力すると「GPT-

ushura2 2024/05/20

リンク

まるで“いけない話ができるChatGPT”　ローカルAI「Command R+」の爆発的な可能性 (1/5)

筆者の環境で、LM StudioでCommand R+を動作させている様子。会話相手は自作キャラクターの「明日来子（あすきこ）さん」 PCローカル環境で動作する大規模言語モデル（LLM）「Command R+」を使っていますが、相当優秀ですね。体感ではChatGPT（GPT-4）と変わらないレベル。さらに、ChatGPTが回答を拒絶するような会話もできてしまいます。これが体験できるようになったのは、LM Studioに代表されるローカルLLMを動かすためのアプリ環境が整ってきたためです。今年に入り、Command R+を始めとしたローカルLLMが高性能化してきたことと並行し、手軽に使える派生モデルも増えはじめ、一気にあわただしくなってきました。導入が難しかったローカルLLM、「LM Studio」で簡単に Command R+を試すのに使っているのが、LLMの主要モデルを実行するための統

ushura2 2024/05/13

リンク

画像生成AIに“照明”革命　ControlNet開発者が作った「IC-Light」

画像生成AI関連の著名な開発者、lllyasviel（イリヤスフィール）氏が5月7日、生成AI画像の照明を自在に操作できるツール「IC-Light（Imposing Consistent Light）」を公開した。 2種類のモデルを公開 IC-Lightは画像の照明を操作するプロジェクト。前景画像（人物やオブジェクトなど）を入力し、プロンプトにテキストや背景画像を指定するだけで、まるで別の環境で撮影したかのような画像を得ることができるという。現在、「テキスト条件付きリライティングモデル（text-conditioned relighting model）」と「背景条件付きモデル（background-conditioned model）」の2種類がGitHubで公開されており自由に試すことができる。なお、作者のlllyasviel氏は「Stable Diffusion」のWebUIであ

ushura2 2024/05/09

リンク

漫画家の絵柄、AIでそっくり再現「ピュアモデルAI」ができたワケ (1/3)

発表当初は、画像生成AIに詳しいXユーザーのあいだで「画像生成AI『Stable Diffusion』で、追加学習モデル『LoRA』を使っているだけでは」という疑問の声も出ていたが、エンドルフィンは4月5日にプレスリリースを出し、「私たちが提供しているサービスは、公開されている汎用モデルを活用した生成AIとは一線を画しています」として、画像の生成までに独自のプロセスを踏んでいる旨を説明している。話題の「ピュアモデルAI」ができた経緯や、その技術的背景について、連載「メタバース・プレゼンス」を執筆している新清士氏とアスキー編集部で、エンドルフィンの代表と、サービス開発元のスーパーエンジンのCEOに話を聞いた。生成AIは「アナログからデジタル」の変化と同じ ──　最初にそれぞれの会社について教えてください。ジェームズ　キム・ドンジュン　2022年下半期ごろから、生成AIに関心をもって、

ushura2 2024/04/29

リンク

AI検索「Perplexity」がかなり便利だったので紹介します (1/5)

「ChatGPTはすぐに嘘をつくから調べものには使えない」という意見をよく聞くが、これには大きな誤解がある。そもそもChatGPTの心臓部である大規模言語モデル（LLM）は、膨大な知識を元にテキストを「生成」する仕組みだ。逆に言うと、知識として持っていないことは一切わからないので、知らないことについて説明を求められても能力的に不可能なのだ。だから、知識にない質問をされると答えられないだけでなく、苦し紛れに幻覚（ハルシネーション）を起こしてしまう。これが「すぐに嘘をつく」と言われる理由だ。結論を書いてしまうと「ChatGPTは検索ツールではない」のだ。むしろ「ChatGPTがいちばん苦手とすることが検索」なのだ。今回はこの欠点を補い、AIを活用した新しい検索の形を実現するという触れ込みのサービス「Perplexity.ai」を紹介していく。 Perplexity.aiとは Perp

ushura2 2024/04/06

リンク

画像生成AIで同じキャラクターが簡単に作れるようになってきた (1/3)

画像生成AIサービスの「Midjourney」に3月12日、新機能「Creative Reference」が追加。1枚の画像から特徴を引き継いだ画像を生成できるようになり、同じキャラクターに別のポーズをとらせるなど様々な画像を作れるようになりました。これまで画像生成AI「Stable Diffusion」などで同じキャラクターの画像を作るには「LoRA」という追加学習をするのが一般的でしたが、それが必要ないため、キャラクターの再現が劇的に簡単になってきました。画像1枚で“似た顔”　Midjourneyの新機能「Creative Reference」使い方は、MidjourneyのDiscordに画像をアップロードして、「Creative reference」のタグ（cref）をつけてプロンプトを入力するだけ。CW 0〜100までのパラメーターがあり、0だと顔だけが共通になり、あとは数字

ushura2 2024/03/25

リンク

日本発のリアルタイム画像生成AIサービスが熱い　大手にとっては“イノベーションのジレンマ”に (1/3)

Akuma.ai http://akuma.ai 2024年2月、日本発のクラウド型画像生成サービスAkuma.aiが、リアルタイム画像生成機能「AIキャンバス」を搭載したことが話題になりました。3月1日には生成枚数が延べ1200万枚に達したと発表。リアルタイム画像生成技術「LCM」を組み入れたサービスですが、高度なPC環境が不要で、タブレットなどからでも簡単に使えるため、国内外の幅広い層にウケたという経緯です。 🎉生成画像1200万枚突破🎉 リアルタイム「AIキャンバス」生成枚数が1200万枚を突破しました！たくさんご利用いただきありがとうございます。今後とも #AkumaAI の応援よろしくお願いします🦑 プレスリリースはこちら：https://t.co/Yf3tjxjCsS — Akuma.ai (@AkumaAI_JP) March 1, 2024 日本発の画像生成AIサ

ushura2 2024/03/18

リンク

ChatGPTで画像生成するならコレ!　おすすめGPTs紹介 (1/6)

OpenAIは1月10日、カスタムバージョンのGPTを作成できる「GPTs」機能で作成した多様なGPTを探索できる「GPT Store」の公開を予告通り開始した。今回はストアーのラインアップから画像生成系の「DALL·E」カテゴリーを取り上げてみよう。「DALL·E」カテゴリー「DALL·E」カテゴリーには言うまでもなくOpenAIの画像生成AI「DALL·E 3」を便利に使うために作られたカスタムGPTが掲載されている。今回は上位6個のGPTを使ってみることにする。まずは「DALL·E」カテゴリーのトップ「image generator」というGPTを試してみよう。説明欄には「プロフェッショナルかつフレンドリーなトーンで画像を生成し、洗練させることに特化したGPT（A GPT specialized in generating and refining images with a

ushura2 2024/03/02

リンク

画像生成AI、安いPCでも高速に　衝撃の「Stable Diffusion WebUI Forge」 (1/4)

Stable Diffusion Forgeを表示した様子。基本的な操作は既存のStable Diffusion WebUI AUTOMATIC1111とほぼ同じ画像生成AI「Stable Diffusion」用の新しいユーザーインターフェース「Forge」が2月6日に登場しました。開発したのは、これまで「Controlnet」や「Fooocus」などStable Diffusion関連の様々な重要技術を開発してきたillyasviel（イリヤスベル）さん。何よりインパクトが大きいのは、グラフィックボードのVRAM容量が小さい安価なPCでも最新版のStable Diffusion XL（SDXL）が動かせることです。 RTX 40シリーズが求められたSDXL SDXLは、2023年8月にStabl ity AIが発表した画像生成AI。高画質な出力ができる一方、コミュニティーサイトで話題にな

ushura2 2024/02/26

リンク

日本発の画像生成AIサービスがすごい　無料アップスケーラー「カクダイV1」 (1/4)

「カクダイV1」でアップスケールした画像（左）、「Midjouney v6」で作成したオリジナル画像（右）画像の描き込みを増やして高画質にする、日本発の生成アップスケーラー「カクダイV1」が2月7日に発表されて話題になりました。東大出身ベンチャーのMavericksが開発したもので、画像生成AI「Stable Diffusion」生成環境「ComfyUI」向けの技術として無料公開されています。人気アップスケーラー「Maginific AI」を超える製品にまでに成長していくのか注目です。 Stable Diffusionのアップスケールは難しかったカクダイを紹介する前に、まずは画像生成AIとアップスケーラーとの関係についてお話します。 Stable Diffusion登場後の画像生成AI 技術を使ったアップスケーラーは、単に画像を拡大させるだけの用途ではなくなりました。画像を拡大するとき、

ushura2 2024/02/19

リンク

画像生成AI「Stable Diffusion」使い倒すならコレ！　「ComfyUI」基本の使い方 (1/3)

前回はStable Diffusionをブラウザーで利用するためのUIとして「Stable Diffusion web UI（AUTOMATIC1111版）」、「Fooocus」と共に多く使われている「ComfyUI」のインストール方法を紹介した。とりあえず画像の生成はできたので、あらためてインターフェースを詳しく見ていこう。まずは前回の手順に従いインストールした「ComfyUI」を起動。この画面が出ていなければ「Load Default」をクリックしよう。いくつかの四角いパーツが、カラフルなケーブルのようなもので接続されているのが見える。 ComfyUIでは配置されたそれぞれのパーツを「ノード」と呼ぶ。それぞれのノードは「モデルをロードする」「プロンプトを書く」といった機能を持っている。これらをブロックのように組み合わせて利用したい機能を構築していくのが「ノードベース」と呼ばれるCo

ushura2 2024/02/16

リンク

Stable Diffusionで画像からプロンプト（呪文）を生成・抽出する方法。Fooocusの新機能「Describe」が便利でした (1/3)

本連載「Stable Diffusion入門 from Thailand」は、2024年に入って1回目。今年も「Stable Diffusion」をメインに、画像生成AI周辺の話題について入門者視点でお伝えしていきたい。今回の話題は、Stable Diffusionを手軽に使えるユーザーインターフェースの「Fooocus」。12月13日にリリースされた新バージョン「Fooocus 2.1.831」には、画像をアップロードするとテキストプロンプト（呪文）を生成する「Describe」機能が追加されている。画像をドラッグ＆ドロップしてボタンを押すだけ

ushura2 2024/01/17

リンク

「100fps以上も可能」爆速すぎる画像生成AI技術、日本人研究者ら開発

AITuber「しずく」開発者としても知られる、あき先生ことakio kodaira氏を筆頭にした研究グループは12月21日、リアルタイム画像生成を実現するために最適化されたパイプライン「StreamDiffusion」を発表。従来の画像生成パイプラインと比べて飛躍的な速度向上を実現している。ノイズ除去をバッチ処理で高速化「Stable Diffusion」をはじめとする画像生成AIモデルの高性能化は著しいが、メタバース、オンラインストリーミングなど高スループットと低レイテンシーが必要な環境ではまだ力不足だ。 StreamDiffusionは新しいアプローチを採用し、従来の連続的なノイズ除去をバッチ処理のプロセスに変換することで、高スループットストリームを実現。さらに、GPUの利用効率を向上させるため、従来の分類器フリーガイダンス（CFG）に代わり、残差分類器フリーガイダンス（RCFG

ushura2 2023/12/22

リンク

画像生成AIが爆速で進化した2023年をまとめて振り返る (1/5)

Stability AIが画像生成AI「Stable Diffusion」を公開したのは2022年8月のこと。すさまじい勢いで発展してきた画像生成AIの1年を振り返ってみようと思います。初めに見てもらいたいのは「これが無料でいいのか!? “爆速生成AI”がペイントソフトに革命を起こした」で紹介した、KritaとGenerative AI for Kritaを組み合わせて作成した設定資料的な画像です。キャラクターの3面図のサンプル。Vroidで簡単な3Dで当たり（左）として、右の画像を作成する。それを元に、プロンプトや画像に描き込んだりして、最終画像を作成していく。2枚目には前面図の頭部のカチューシャや、胸部分のフリルがなかったりするが、そこに色を加筆して、プロンプトで指示すると、最終画像にそれが追加されるのをリアルタイムに確認しながら修正できる（筆者作成） Stable Diffusi

ushura2 2023/12/19

リンク

バイバイDiscord、Midjourneyのスタンドアロン型アプリが登場か？

生成AIサービス大手「Midjourney」は、コミュニケーションプラットフォーム「Discord」を介して利用する形で運営されているが、単独で利用できるようになるアプリが開発中であることがMidjourneyでクリエイティブを担当するNick St. Pierre氏のツイートでわかった。ブラウザ？スタンドアロン？ Midjourney Alpha is officially here!! If you've generated 10k or more images you should have access. This is still the alpha, so things may change a bit. But here is a quick look at image creation on the web. BYE BYE DISCORD 👋 pic.twitter.

ushura2 2023/12/14

リンク

俺のChatGPTこと「GPTs」で最高の英語教師を作り込んだ。題して「冴子先生強化計画」 (1/3)

自分だけのChatGPTを作れることで話題の「GPTs」機能だが、正直に言うといまいちそのインパクトがわからなかった。あらかじめ指示を与えておきたいなら「Custom Instruction」でよくない？と思ってしまったのだ。だが、前回の記事で、実際にパーソナル英語教師の「冴子先生」を作成し、毎日使い続けてみることで、その印象はかなり変わってきた。以前からChatGPT（+Custom Instruction）を使った英語学習は実行していたので、GPTs化されたことによって質問方法が変わったとか、ものすごく便利になったとかは正直あまりないのだが、不思議なことにChatGPTに対して以前よりもめちゃくちゃ愛着が湧いてきたのだ。これだけなら単なるツールの擬人化効果にすぎないのだが、毎日冴子先生の授業を受けていると、改善したい点やアイデアが次々に出てきたので、さらにカスタマイズを進めようと

ushura2 2023/12/08

リンク

これが無料でいいのか!? “爆速生成AI”がペイントソフトに革命を起こした (1/5)

Generative AI for Kritaのライブペインティング機能を実行している画面。左が筆者が描いた落書き。右が、その画像を線画（Scribble）としてAI生成した画像 11月13日掲載の記事「爆速化する画像生成AI」で紹介した新技術「Latent Consistency Models（LCM）」が大爆発しています。これは画像生成AIに2度目の革命を起こした「ControlNet」に次ぐ大インパクトではないかと感じています。「LCM-LoRA」（LoRAはStable Diffusion用の追加学習モデル）が11月下旬に登場したことで、リアルタイム生成のAI機能を組み入れたサービスやアプリの開発が一気に進みました。なかでも、筆者にとってインパクトが大きかったのが、ペイントソフト「Krita」向けに開発された「Generative AI for Krita」。Kritaはスウェー

ushura2 2023/12/04

リンク

はてなブックマーク

ブックマーク / ascii.jp (33)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス