AI作曲サービスは、Sunoが先行し、UdioとSonautoがそれを追いかける図式となっています。そのSunoとUdioが相次いで製品強化を発表しました。 まずは、Udio。一度に32秒しか生成できないというUdio最大の弱点が改善されたバージョンを提供開始しました。今度は最大2分10秒の生成が一度で可能となります。 Udioは2分10秒の生成が可能に。ただし今使えるのは月額30ドルProユーザーのみ新バージョン「Udio-130」には、このほかに、プロンプトと歌詞の強度、ハッシュ値、生成をスタートするタイミングなどを調整できる機能も追加されています。 Stable Diffusionに近いパラメータ操作が可能になったわけです。音質パラメータも加わっています。生成をスタートするタイミングはExtendで曲を延長するときに便利でしょう。 さて、このUdio-130ですが、サブスクリプション
Googleは、検索結果にAIで生成した概要を表示する「AIによる概要など(AI Overviews)」を2024年5月14日にアメリカで正式リリースしました。このAIオーバービューを巡って「あきらかに間違った情報が表示される」という問題が多数指摘されているのですが、新たにGoogleがAIのおかしな回答を手動で削除している可能性が浮上しました。 Google scrambles to manually remove weird AI answers in search - The Verge https://www.theverge.com/2024/5/24/24164119/google-ai-overview-mistakes-search-race-openai AIオーバービューは検索結果の上部にAIで生成した「検索結果の概要」を表示する機能で、例えば「布地のソファを掃除するに
このところUdioやSonautoの新機能搭載で押され気味だったAI作曲サービスの「Suno」が反撃に出ました。 バージョン3.5のEarly Access版(有料プランユーザーのみに提供)を利用すると、これまでの2分間制限が最長4分まで拡大。延長時間も従来の1分を2分に伸ばしています。これだけの長さがあれば大抵のポピュラー曲はエンディングまでいけます。 4分の曲をUdioで生成しようとすると、8回の命令が必要になります。さらに、生成に要する時間はUdioの方がはるかに長くかかるので、全体としての作業時間には大きな差が生じます。それがSuno 3.5ならば数秒でできてしまうのです。 また、Style of Musicのキーワードがサジェストされるようになっていて便利です。文字数制限は相変わらずきついですけど。 さらにうれしいのは、日本語歌詞の読み方が、従来は間違いが多かったのが、ほぼ問題な
米Googleが現在Google検索でプレビューとして提供している生成AI「AI Overview」(旧SGE)のおかしな回答が、5月23日ごろからSNSで話題になっている。例えば、「チーズがピザにうまくくっつかない」という検索に対し「無害な接着剤を8分の1カップほど、ピザソースに混ぜる」というアドバイスを表示したという。 この他、犬がNBA(米国のプロバスケットリーグ)でプレイしたことがあるという回答の画像のポストや、バットマンは警官だという画像のポストがあった。 Filecoin Foundationで法務顧問を務めるクルト・オプサール氏は自身のポストで、ピザに接着剤という回答のソースは米Redditに11年前に投稿されたジョークのようだと、投稿の画像を添えて指摘した。 Googleは4月、RedditのデータをAIトレーニングで利用可能にする提携拡大を発表した。米OpenAIも同様の
人工知能(AI)モデルが、人間の感情理解力を測るテストで人間並み、時に上回る成績を収めたことが分かった。ただ、訓練データにそうしたタスクが含まれていた可能性も否定できず、大規模言語モデルが「人のように」考えているわけではない。 by Rhiannon Williams2024.05.22 275 21 人間は複雑な存在だ。私たちのコミュニケーションの方法は多層的であり、心理学者たちは対話から意味や理解を推測する能力を測るためのテストを数多く考案してきた。 人工知能(AI)モデルは、こうしたテストでますます優れた結果を出している。ネイチャー・ヒューマン・ビヘイビア(Nature Human Behavior)に5月20日に掲載された新たな研究によると、一部の大規模言語モデル(LLM)は人の心理状態を追跡する能力(いわゆる「心の理論」と呼ばれる)を測るために設計されたタスクを与えられた場合、人
最近、ローカルLLMがアツくなっているという話をtwitterでチラホラ見かける。 ローカルLLMって何じゃ?というと、オープンに公開されているモデルのウエイトをDLしてきて手元のPC上で推論させる事である。 オープンなAIモデルとは逆の存在として、モデルがDLできないクローズなAIモデルもある。 OpenAIやAnthropicのような最先端AI企業のクローズなAIモデルに比べて、オープンに公開されているオープンなAIモデルの性能は今でもかなり後れを取っている。 だから去年の間はあくまでAIの本命はChatGPTのようなクローズモデルであって、オープンなAIモデルなんて眼中にありませんみたいな風潮が無くはなかった。だが最近は風向きが少々変わってきている。 GPTのAPI高い問題 & OpenAIがAIベンチャー皆殺しにしてしまう問題 まず「結局GPTのAPIを叩いてサービス運営して成功し
Googleは5月14日~15日(現地時間)、年次開発者会議イベント Google I/Oを開催しました。スマートフォンのPixel 8aはイベント直前に発表されていたこともあり、AI一色だったGoogle I/Oですが、一般ユーザーに身近に感じられそうなのが、有料サービス Gemini Advancedに加わった多数のアップデートでしょう。 Google One AI Premium加入者が利用できるGemini Advancedについて、高性能な Gemini 1.5 Proの解禁など、新機能を発表しています。 Gemini 1.5 Proが利用可能にまず大きなところでは、最新のAIモデル「Gemini 1.5 Pro」が、日本語を含む35以上の言語・150か国以上において、Gemini Advancedで利用可能となります。 Gemini 1.5 Pro自体は2月に発表されており、開
問題の部分は、動画開始後1分を過ぎたあたり。レトロなフィルムカメラを手に持つ青年が、「なんでレバーが最後まで動かないの?」と質問したところ、GoogleのAIは即座にいくつかの回答を提示し、最後に最も最適と思われる答えを強調表示しました。 ところが、その強調された答えは「裏蓋を開けて、そっとフィルムを取り出す」というものでした。もし、フィルムカメラ世代の人々やカメラ好きな人々がこの答えを示されたなら、きっと慌てることでしょう。 (▲画像:「裏蓋を開けてそっとフィルムを取り出す」回答をハイライト。) 手巻き式のカメラでフィルム巻き上げレバーが途中で止まるようになったら、それはいま使っているフィルムカートリッジの撮影可能枚数が終了したことを意味します。 そうなった場合は、カメラ内にあるフィルムをカートリッジ内に完全に巻き戻してから取り出し、現像にまわすというのが正しい手順です。 ところがGoo
筆者の環境で、LM StudioでCommand R+を動作させている様子。会話相手は自作キャラクターの「明日来子(あすきこ)さん」 PCローカル環境で動作する大規模言語モデル(LLM)「Command R+」を使っていますが、相当優秀ですね。体感ではChatGPT(GPT-4)と変わらないレベル。さらに、ChatGPTが回答を拒絶するような会話もできてしまいます。これが体験できるようになったのは、LM Studioに代表されるローカルLLMを動かすためのアプリ環境が整ってきたためです。今年に入り、Command R+を始めとしたローカルLLMが高性能化してきたことと並行し、手軽に使える派生モデルも増えはじめ、一気にあわただしくなってきました。 導入が難しかったローカルLLM、「LM Studio」で簡単に Command R+を試すのに使っているのが、LLMの主要モデルを実行するための統
アトラシアン、新AIサービス「Atlassian Rovo」発表。GoogleドライブやGitHub、Slack、Teamsなど同社内外のサービスを横断してAIが学習、ユーザーを支援 アトラシアンは、同社製品およびGoogleドライブやGitHubなどサードパーティのサービスを横断してAIが情報を学習し、統合的な検索やチャットによる回答を実現することでユーザーを支援してくれる新しいAIサービス「Atlassian Rovo」を発表しました。 AI breaks down yet another barrier! Today at Team '24 we announced Atlassian Rovo – a new product that unleashes a company’s knowledge so teams can make better decisions faster.
こうした動きと並行して、OpenAIは一部の映像クリエイターにSoraを試用してもらい、その作品を積極的に公開しています。中でも僕が注目したのは、「パンクロック・ピクサー」の異名を持つshy kidsというカナダの映像プロダクションが制作した「Air Head」です。これは頭が黄色い風船で出来ている主人公が、自転車に乗ったり、サボテンだらけの通路を歩いたり、風に飛ばされた頭を胴体が追いかけるといった内容の、アイデアに満ちていてAI生成動画の可能性を示す1分21秒の小品でした。 ところが、4月半ばにfxguideというオンラインメディアがshy kidsを取材して、Soraの実際の使用感を語った”Actually Using SORA”という記事を掲載したのです。 それによると、Soraも他の動画生成AIと同じく、どのような映像が生成されるかはスロットマシン(昨今の日本風にいえば、ガチャ)の
Intelが2023年12月に正式発表した第14世代CoreプラットフォームのノートPC向けプロセッサ「Core Ultra」は、2023年9月に発表されたMeteor Lakeアーキテクチャがベースになっています。そんなCore UltraにはAI処理に特化したニューラルプロセッシングユニット(NPU)が搭載されており、このNPUについて海外メディアのChips and Cheeseが解説しています。 Intel Meteor Lake’s NPU – Chips and Cheese https://chipsandcheese.com/2024/04/22/intel-meteor-lakes-npu/ Core Ultraに搭載されたNPUは「NPU 3720」と呼ばれています。そんなNPU 3720には2つのニューラルコンピューティングエンジン(NCE)タイルが搭載されており、こ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く