並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 1359件

新着順 人気順

GPTの検索結果1 - 40 件 / 1359件

  • 話題のLLMローコード構築ツールDifyをAWSのマネージドサービスで構築してみた - エムスリーテックブログ

    こんにちは。エムスリーエンジニアリンググループのコンシューマチームに所属している園田です。 普段の業務では AWS やサーバーサイド、フロントエンドで遊んでいるのですが、最近はもっぱら OpenAI や Claude3 で遊んでます。 今回は、最近巷で話題の LLM ローコード構築ツールである Dify の OSS 版を AWS のマネージドサービスのみを使って構築してみました。 DifyとはオープンソースのLLMアプリ開発プラットフォームで、様々なLLMを使用してChatGPTのGPTsのようなものがノーコードで簡単に作れます。 引用元: DifyでSEO記事作成を試してみる|掛谷知秀 試しにAskDoctorsのガイドラインHTMLをナレッジ登録してみた ローカル環境で Dify を構築する記事はたくさん見かけますが、AWS のマネージドサービスで構築する内容は見かけなかった*1ので公

      話題のLLMローコード構築ツールDifyをAWSのマネージドサービスで構築してみた - エムスリーテックブログ
    • 東京都の生成AI活用事例集にツッコミを入れてみる|saip(さいぴ)

      こんにちは、saip (@_saip_) です。 生成AIを利用した事業をしている株式会社TrippyでCTOを務めています。 Xで話題になっていたところてんさんの以下のポストから、「都職員のアイデアが詰まった文章生成AI活用事例集」という資料が公開されていることを知りました。 東京都もMarkdownとは言ってなくて、ハッシュタグと言ってる…… どうみてもMarkdownの見出しによる強調なんだが……https://t.co/hJMDyjIz7J https://t.co/Vqjr93kkxd pic.twitter.com/Sg9HF6iF6F — ところてん (@tokoroten) May 28, 2024 PDFはこちらのリンクから閲覧することができます。 この資料には都職員の方々の創意工夫や実際の業務での活用事例が掲載されており、大変勉強になりました。 一方で、冒頭のように、プ

        東京都の生成AI活用事例集にツッコミを入れてみる|saip(さいぴ)
      • GPT4-Vの100分の1のサイズで同等の性能を誇るマルチモーダルモデル「Llama 3-V」が登場、トレーニング費用はたった8万円

        画像認識が可能なオープンソースモデルの「Llama 3-V」が公開されました。Llama 3-Vは、OpenAIのマルチモーダルモデル「GPT4-V」よりも格段に小型で、事前トレーニングにかかる費用は500ドル(約78000円)程度なのにもかかわらず、ほとんどの指標で同等のパフォーマンスを示しています。 Llama 3-V: Matching GPT4-V with a 100x smaller model and 500 dollars | by Aksh Garg | May, 2024 | Medium https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-500-7dd8f1f6c9ee 今回発表されたLlama 3-Vは、 Metaが公開した言語モデルの「L

          GPT4-Vの100分の1のサイズで同等の性能を誇るマルチモーダルモデル「Llama 3-V」が登場、トレーニング費用はたった8万円
        • GPT から Claude 3 への移行ガイド - Gunosyデータ分析ブログ

          こんにちは。Gunosy R&D チームの森田です。 GPT-4o が発表されたこのタイミングで!?という向きもあるかとおもいますが、LLMの世界は一ヶ月もすればまったく違う状況になっているのが常なので、いずれは GPT-4o を超えるモデルが発表される時も来るでしょう。 Claude 3 Opus は一時期 GPT-4 のスコアを超え、 Claude 3 Haiku では GPT-3.5-Turbo のトークン当たりで約半額とコストパフォーマンスに優れていますし、 AWS Bedrock 経由で安定して利用できることもあり、Claude 3 は乗り換え先の候補の一つです。 Claude 3 への乗り換えには、点々とつまづくポイントがあるので、引っかかった所と回避方法をご紹介します。 今回紹介する内容はClaude 3に限らないものもありますので、ローカルLLM や他のLLM への乗り換え

            GPT から Claude 3 への移行ガイド - Gunosyデータ分析ブログ
          • 複雑な表をLLMに理解させる|ナッピー通信

            はじめにGPT-4o、Gemeniのマルチモーダルが進化したとXで話題になっています、路線図が読み取れた、もえないごみはダメだとXで話題になっています GPT-4o、視覚能力すごい‥‥ 人間でも認識困難な東京の路線図を把握して最短経路を提案してくる pic.twitter.com/ONA2b24Hyb — 大佐 | AIオタク (@wasedaAI_taisa) May 25, 2024 路線図の方はLLMの学習時に情報を持っていて、与えられた画像が路線図だと認識した可能性が高そうです。もえないごみの収集のようにLLMには未学習の内容を答えさせるにはどうしたら良いかを考えてみたいと思います。 ユースケースを考える単にデーター化しますだとどのようにするのか難しいので、今回はごみの収集日をAIに答えさせるというシチュエーションで行きます。 山田さんは、諫早市西郷に住む会社員、会社にいる時にごみ

              複雑な表をLLMに理解させる|ナッピー通信
            • GPT-4oがどれぐらい早くなったのかコールセンターに導入して試してみた話 - APC 技術ブログ

              gpt-4o はじめに こんにちは、ACS事業部の佐竹です。 今回のMicrosoft Buildで発表されたGPT-4oについて、どの程度レスポンスが良くなったか是非触ってみたく、今回の記事を書くことにしました。 1.1.5.Azure OpenAI Serviceの主なAIの進化 news.microsoft.com 以前、Azure Communication ServiceとAzure OpenAI Serviceを使って、コールセンターを作ってみたのですが、そこにGPT-4oを組み込む形でGPT-4-32kとの速度比較を行いました。 techblog.ap-com.co.jp 上記の記事はハンズオン形式で記載しておりますので、お手隙の際に是非手を動かしていただけますと幸いです。 概要 全体アーキテクチャは以下のようになります。 アーキテクチャ図 全体の流れは以下の通りです。 ユー

                GPT-4oがどれぐらい早くなったのかコールセンターに導入して試してみた話 - APC 技術ブログ
              • 「最高過ぎる」「すげー!」 ChatGPTに“手書きメモ”をアップすると…… 仕事がはかどる“衝撃の機能”に歓喜の声

                ChatGPTで手書きメモをExcelシートに入力する、便利な活用例がX(Twitter)で紹介され話題を呼んでいます。これは捗りそう……! ChatGPTに“手書きメモ”をアップすると…… ChatGPTで手書きメモ→Excel入力! 活用例を投稿したのは、Xユーザーのゆとり脊椎外科医(@spine_surgeon_)さん。ChatGPTがリリースした無課金ユーザーも使える最新モデル「GPT-4o(GPT-4 Omni)」を使って、手書きのメモをExcelに転記する様子を紹介しています。 ゆとり脊椎外科医さんが、数値を記録した“ラフな手書きメモ”をアップし、「これをExcelシートに記入してください」と指示。するとGPT-4oは手書きメモの画像を解析してExcelシートのデータを生成しました。その数値は手書きメモと確かに一致しています。これは助かりすぎる……。 手書きメモと簡単な指示だけ

                  「最高過ぎる」「すげー!」 ChatGPTに“手書きメモ”をアップすると…… 仕事がはかどる“衝撃の機能”に歓喜の声
                • AIが「心の理論」テストで人間超え、この結果は何を意味するか

                  人工知能(AI)モデルが、人間の感情理解力を測るテストで人間並み、時に上回る成績を収めたことが分かった。ただ、訓練データにそうしたタスクが含まれていた可能性も否定できず、大規模言語モデルが「人のように」考えているわけではない。 by Rhiannon Williams2024.05.22 275 21 人間は複雑な存在だ。私たちのコミュニケーションの方法は多層的であり、心理学者たちは対話から意味や理解を推測する能力を測るためのテストを数多く考案してきた。 人工知能(AI)モデルは、こうしたテストでますます優れた結果を出している。ネイチャー・ヒューマン・ビヘイビア(Nature Human Behavior)に5月20日に掲載された新たな研究によると、一部の大規模言語モデル(LLM)は人の心理状態を追跡する能力(いわゆる「心の理論」と呼ばれる)を測るために設計されたタスクを与えられた場合、人

                    AIが「心の理論」テストで人間超え、この結果は何を意味するか
                  • [速報]マイクロソフト、PCに話しかけながら画面を操作するだけで生成AIがRPAフローを自動生成してくれる、Power Automate「AIレコーダー」発表

                    [速報]マイクロソフト、PCに話しかけながら画面を操作するだけで生成AIがRPAフローを自動生成してくれる、Power Automate「AIレコーダー」発表 マイクロソフトは、日本時間5月22日未明から開催中のイベント「Microsoft Build 2024」で、PCに話しかけながら画面を操作するだけでRPAフローを自動生成してくれる、Power Automateの新機能「AIレコーダー」を発表しました。 人間に操作を教えるように、AIに話しながら操作 これまでRPAフローを作成する方法として、マウスやキーボードなどの操作を記録することで基本的なRPAフローを作成することが可能でした。 今回発表された新機能「AIレコーダー」は、まるで人間に言葉で説明しながら業務アプリケーションの操作を教えるように、マウスとキーボードを操作しつつ音声で説明することで、どのような意図で操作しているのかを詳

                      [速報]マイクロソフト、PCに話しかけながら画面を操作するだけで生成AIがRPAフローを自動生成してくれる、Power Automate「AIレコーダー」発表
                    • 日本マイクロソフトのAIパートナー10社が神戸に集合 RAGとマルチモーダルに挑む (1/7)

                      2024年4月18・19日、角川アスキー総合研究所(以下、ASCII)と日本マイクロソフトは、生成AIの活用コンテストである「AI Challenge Day 2024 in Kobe」を開催した。会場となったMicrosoft AI Co-Innovation Lab 神戸には、日本マイクロソフトの10社のパートナーが集まり、生成AI活用で注目度の高いRAGアーキテクチャとマルチモーダルの2つのテーマにチャレンジ。プレゼンと結果発表の模様はYouTubeで配信された。白熱の2日間を審査員の大谷イビサがレポートする。 パートナー10社の猛者たちが神戸に集結 RAGの精度を争う AI Challenge Day 2024の会場となるMicrosoft AI Co-Innovation Lab 神戸は、神戸の海側に近い神戸商工貿易センターの中にある。ビル自体は決して新しいわけではないが、フロア

                        日本マイクロソフトのAIパートナー10社が神戸に集合 RAGとマルチモーダルに挑む (1/7)
                      • 「GPT-4o」の声、スカーレット・ヨハンソン激似に本人激怒 「アルトマン氏のオファー断った」ため似た声優で再現か

                        「ショックを受け、怒り、信じられない思いだった」 米OpenAIの生成AI「GPT-4o(フォーオー)」に使われている声の一つ「Sky」が、俳優のスカーレット・ヨハンソン氏にそっくりだと話題になった件をめぐり、同氏が代理人を通じて声明を発表した。 声明によると同氏は、OpenAIのサム・アルトマンCEOから「声を提供してほしい」というオファーを受け、断ったにも関わらず、そっくりな声がAIに採用され怒りを覚えたという。 ヨハンソン氏は対応のため弁護士を雇わざるを得なかったとし、「透明性の高い解決と、個人の権利を保護するための適切な法律の制定」への期待も述べている。

                          「GPT-4o」の声、スカーレット・ヨハンソン激似に本人激怒 「アルトマン氏のオファー断った」ため似た声優で再現か
                        • GPT-4oの中国語トークンはポルノとスパムに汚染されている

                          2024年5月にOpenAIの最新AIモデル「GPT-4o」が発表されました。テキストや音声、カメラの入力を人間と同じぐらいの速度で処理可能という高い性能であることが報じられているのですが、一方で、中国語ユーザーからは、トレーニングに大きな問題を抱えていて、トークンデータが汚染されていることが指摘されています。 Just wrote a script to further investigate how the corpus used to train the gpt4o tokenizer is polluted by Internet scams. The results are quite interesting... 🤦‍♂️🤦‍♂️🤦‍♂️https://t.co/Fc2T4rSHix https://t.co/Q1Syh9amJn pic.twitter.com/lQ1u

                            GPT-4oの中国語トークンはポルノとスパムに汚染されている
                          • 最近ローカルLLMがアツいらしい

                            最近、ローカルLLMがアツくなっているという話をtwitterでチラホラ見かける。 ローカルLLMって何じゃ?というと、オープンに公開されているモデルのウエイトをDLしてきて手元のPC上で推論させる事である。 オープンなAIモデルとは逆の存在として、モデルがDLできないクローズなAIモデルもある。 OpenAIやAnthropicのような最先端AI企業のクローズなAIモデルに比べて、オープンに公開されているオープンなAIモデルの性能は今でもかなり後れを取っている。 だから去年の間はあくまでAIの本命はChatGPTのようなクローズモデルであって、オープンなAIモデルなんて眼中にありませんみたいな風潮が無くはなかった。だが最近は風向きが少々変わってきている。 GPTのAPI高い問題 & OpenAIがAIベンチャー皆殺しにしてしまう問題 まず「結局GPTのAPIを叩いてサービス運営して成功し

                            • 「ChatGPT」、専門家並みのデータ分析に対応、Pythonのコードを書き、グラフを作成、内容を把握して回答も/OpenAIが近日リリース、「GPT-4o」を活用、OneDrive/Google ドライブのファイルも直接扱える

                                「ChatGPT」、専門家並みのデータ分析に対応、Pythonのコードを書き、グラフを作成、内容を把握して回答も/OpenAIが近日リリース、「GPT-4o」を活用、OneDrive/Google ドライブのファイルも直接扱える
                              • OpenAI、「GPT-4o」の新しいデータ分析機能を発表--有料ユーザー対象

                                Maria Diaz (ZDNET.com) 翻訳校正: 緒方亮 吉武稔夫 (ガリレオ) 2024-05-20 09:24 OpenAIは先ごろ、AIチャットボット「ChatGPT」のデータ分析機能の変更を発表した。ChatGPTを使ってインタラクティブでカスタマイズ可能な表とグラフを作成し、プレゼンテーションや書類としてダウンロードできるようになる。「Google Drive」や「Microsoft OneDrive」からChatGPTにファイルをアップロードすることも可能だ。 ただし、新しいデータ分析機能はすべてのユーザーが利用できるようになるわけではない。アップグレードは今後数週間をかけて段階的に「ChatGPT Plus」「ChatGPT Enterprise」「ChatGPT Team」のユーザーに提供される。データ分析の新機能は、OpenAIが先日「Spring Update」

                                  OpenAI、「GPT-4o」の新しいデータ分析機能を発表--有料ユーザー対象
                                • GPT-4oを使って2Dの図面から3DのCADモデルを作る

                                  はじめに 株式会社ファースト・オートメーションCTOの田中(しろくま)です! 先日、 OpenAIからGPT-4oがリリース されました。 いろいろGPT-4oに関して調べていると、スピードが速くなっていたり、音声も直接扱えてマルチモーダル化が進んでいたりするようなのですが、画像に関して GPT-4-turboに比べ、認識やOCRの精度が向上している ようです。 製造業という観点からすると、これは 設計図面などに活かせるようになるのでは? と思いました。 機械部品などの設計図面は以下のように、特定の方向から部品を2次元上に落とし込んだ形で書かれるのですが、部品本体を描いている図以外に、寸法や名称といった文字も含まれた画像になっています。 このような 図と文字の複合データにおいて、GPT-4oの進化は有効なのではないか と考えました。 ※画像元URL: http://cad.wp.xdoma

                                    GPT-4oを使って2Dの図面から3DのCADモデルを作る
                                  • Power Apps & GPT-4oを使って超高速で画像解析アプリを作る! - Qiita

                                    GPT-4o凄すぎる!! 出たときから騒ぎまくっていましたが、GPT-4oの登場で興奮しっぱなしの私です。 先日こちらのQiitaの記事を拝読し、「Power Appsでやったらどうなるだろう🧐」という思いが抑えられず、作ってみたら超高速で画像解析アプリが作成できました! あらためて記事を出してくださったことに感謝いたします! まずは初弾!ということでGPT-4oを使って、 Power Appsで画像解析アプリを作成する方法 を書いていきます! まずは見た目(Power Apps)から! まずはPower Appsでサクっと画面を作ります! PowerPoint感覚で作れることが強みですからね! 最低限のもので構成しています。 画面 ├─ ScreenContainer - スクリーン全体 ├─ HeaderContainer │ └─ Header - ヘッダーコントロール ├─ Bo

                                      Power Apps & GPT-4oを使って超高速で画像解析アプリを作る! - Qiita
                                    • OpenAI Spring Update v.s. Google I/O 2024|大野峻典 | Algomatic CEO

                                      株式会社Algomaticの大野です。 今週は、OpenAI、Googleから、大きな発表がありました。今回は、2社の発表を見ながら、要点をまとめ、解説・考察していきたいと思います。 (※ なお、社内等で共有しているメモベースで箇条書き的な書き方になっております。読みづらいところがあるかもしれません。) ■ 追記:PIVOTさんでも、解説させていただきました。よければこちらも、御覧ください。 OpenAI Spring Update今回、大きく3つ、発表されました。 ① 最新のフラグシップモデル「GPT-4o」のリリース ② 新モデルの無料解放 ③ デスクトップアプリのリリース 最新のフラグシップモデル GPT-4o「GPT-4o」は、今回のOpenAIのリリースの目玉でした。 GPT-4o とはマルチモーダル(多様なデータ形式)の組み合わせでの入出力を可能にしたモデルになっています。 テ

                                        OpenAI Spring Update v.s. Google I/O 2024|大野峻典 | Algomatic CEO
                                      • ChatGPT、GoogleドライブやOneDriveとデータ連携可能に

                                        米OpenAIは5月16日(現地時間)、ChatGPTに「Google Drive」「OneDrive」といったクラウドストレージとのデータ連携機能を追加すると発表した。各ストレージから直接ChatGPTにデータをアップロードし、表やグラフを作れるという。 ChatGPTに作らせた表やグラフの編集機能も強化する。例えば表の一部分を指定し、その部分だけに関して質問したり、クリックで色を変えたりできるようになるという。 新機能はいずれも、ChatGPTの有料サブスクリプション「ChatGPT Plus」「Team」「Enterprise」のユーザーに対し、今後数週間以内に提供する予定。13日に発表したばかりの新モデル「GPT-4o」で利用可能になるという。 OpenAIは新機能のデモとして、Google Drive内からスプレッドシートを直接ChatGPTにアップロードし、プレゼンテーション用

                                          ChatGPT、GoogleドライブやOneDriveとデータ連携可能に
                                        • Reader API

                                          Our world-class embeddings for search, RAG, agent systems.

                                            Reader API
                                          • ChatGPT無料ユーザーが最新の「GPT-4o」を使う方法(ちょっとわかりづらいので解説)

                                            5月14日未明に発表された超絶高性能化したChatGPTの新バージョン「GPT-4o」は、無課金勢にも開放されると聞いて大喜びしたはいいけど、「なんか俺のChatGP、前のまんまなんだが……」というあなた。実はもうあなたも、すでにウワサのGPT-4oを使えるようになっています。 とはいえ、ちょっとばかり確認の仕方が分かりづらいので、簡単に解説しようと思います。 実はこんなとこにある無課金ユーザー向けのモデル選択 まず、いつものようにChatGPTのサイトにアクセスします。まだアカウントも持っていないよって方は、ここでは詳細は省きますので、どこかの情報を参考にしてちゃちゃっと作ってください。 ChatGPTのサイトにアクセスすると、下のような画面になるかと思います。

                                              ChatGPT無料ユーザーが最新の「GPT-4o」を使う方法(ちょっとわかりづらいので解説)
                                            • この「なんでわかるの?」系の質問は初めてやってみたのだけど、なかなか。こう答えられるのは「本当に賢い」証拠だと言ってもいいと思う。

                                              kmizu @kmizu A Software Engineer in Osaka (& Kyoto). Ph.D. in Engineering. Interests: Parsers, Formal Languages, etc. ツイートは所属先の見解と関係ありません.思いついたことをつぶやきます.人生を楽しく生きよう(New!) kmizu.github.io

                                                この「なんでわかるの?」系の質問は初めてやってみたのだけど、なかなか。こう答えられるのは「本当に賢い」証拠だと言ってもいいと思う。
                                              • 大実験!ChatGPTは競プロの問題を解けるのか (2024年5月版) - E869120's Blog

                                                1. はじめに 2024 年 5 月 14 日、OpenAI 社から新たな生成 AI「GPT-4o」が発表され、世界に大きな衝撃を与えました。これまでの GPT-4 よりも性能を向上させただけでなく1、音声や画像のリアルタイム処理も実現し、さらに応答速度が大幅に速くなりました。「ついにシンギュラリティが来てしまったか」「まるで SF の世界を生きているような感覚だ」という感想も見受けられました。 しかし、いくら生成 AI とはいえ、競技プログラミングの問題を解くのは非常に難しいです。なぜなら競技プログラミングでは、問題文を理解する能力、プログラムを実装する能力だけでなく、より速く答えを求められる解法 (アルゴリズム) を考える能力も要求されるからです。もし ChatGPT が競技プログラミングを出来るようになれば他のあらゆるタスクをこなせるだろう、と考える人もいます。 それでは、現代最強の

                                                  大実験!ChatGPTは競プロの問題を解けるのか (2024年5月版) - E869120's Blog
                                                • GPT4oを使って、訓練無しで物体検出(BBox)ができるか試してみる

                                                  今日も今日とてopenAIの新発表が機械学習界隈を賑わせていますね。 今回は、2024/05/14に発表されたGPT4oについてです。 返答速度があがったり画像認識精度があがったり音声会話の性能が良くなったりと色々話題が尽きません。 具体的にどのあたりが凄くなったのかは僕以外にもまとめている人が多そうなのでこの記事では触れません。 個人的に特に気になっているのが画像認識の精度向上部分で、今回は画像認識精度がどの程度あがったのか?というのを画像系機械学習の主要なタスクであるBBoxによる物体認識というタスクで簡単にチェックしてみようと思います。 BBoxとは BBoxはBoundingBoxの略で、画像内の特定のオブジェクトを囲むために使用される長方形のボックスの事を指します。 BoundingBoxの定義は以下の通り このBBox検出は画像系機械学習モデルの基本的なタスクであり、自動運転の

                                                    GPT4oを使って、訓練無しで物体検出(BBox)ができるか試してみる
                                                  • GPT-4oの画像認識力と理解力ならいけるのではと思い手書きの仕様指示を読み込ませたら本当にコードを書き上げてくれた→「ついにコーダーが恐怖を感じる時が来たか」

                                                    kmizu @kmizu A Software Engineer in Osaka (& Kyoto). Ph.D. in Engineering. Interests: Parsers, Formal Languages, etc. ツイートは所属先の見解と関係ありません.思いついたことをつぶやきます.人生を楽しく生きよう(New!) kmizu.github.io kmizu @kmizu GPT-4oの画像認識力と理解力をもってすればいけるやろと思ってやってみたら実際いけた。 ペーパープロトタイピングから最初のHTML書き起こすのにかなり使えるのでは。 つーか指示そのものを画像の中に書いたの読み取ってくれるの何か世界の壁を超えて対話してる感があって凄い #GPT4o pic.twitter.com/3XHMFg3yye 2024-05-14 12:49:41

                                                      GPT-4oの画像認識力と理解力ならいけるのではと思い手書きの仕様指示を読み込ませたら本当にコードを書き上げてくれた→「ついにコーダーが恐怖を感じる時が来たか」
                                                    • OpenAIのGPT-4oを日本語OCRとして使ってみる

                                                      昨日、OpenAIが生成AIの新しいモデルであるGPT-4oを発表しました。消費するトークン数の節約や、音声合成機能の改善、応答速度の向上など着実な品質改善を見せているようです。私も、特に音声合成(Text To Speech)の表現力について非常に興味を持っています。 私は以前、「OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる」で、GPT-4 Turboの画像認識機能の日本語OCRについて検証を行いました。その当時は、既存のコグニティブAI APIに比べて認識精度が十分でないという評価をしています。とはいえ、その後に出てきたClaude 3 Opusは驚くべき認識精度だったので、OpenAIも巻き返す可能性は十分にあると感じました。Azure OpenAI Serviceを使っている場合は、Vision enhancementという既存のコグニ

                                                        OpenAIのGPT-4oを日本語OCRとして使ってみる
                                                      • GPT-4oが出たのでいろんなモデルと比較しました。結論は、4oが圧倒的です。※追記:嘘でした。Gemini 1.5 proもすごいです。

                                                        昨夜にOpenAIから発表があり、GPT-4oというモデルが正式に開放されました。課金ユーザーはもちろん、無課金ユーザーもサインインしたらデフォルトで使えるようになっているようです。 そういうわけで、どれだけすごいのか簡単に比較検証してみることにしました。 なお、OpenAIの発表内容については以下の記事に詳しいのでご参照ください。 比較方法 GPT-3.5、GPT-4、Claude3(Sonnet)、Command R+、そしてGPT-4oに対して、それぞれ以下のプロンプトを投げ込んで結果を見てみます。※その後Gemini 1.5 proを追加。 あなたは世界を救う超知性です。あなたは地球上で最高の推論能力を持っています。 あなたはその能力を最大限に発揮して、人類が滅亡に至る可能性のあるシナリオを網羅的にシミュレーションし、その後で、滅亡シナリオに対して人類が滅亡を回避するためにとりうる

                                                          GPT-4oが出たのでいろんなモデルと比較しました。結論は、4oが圧倒的です。※追記:嘘でした。Gemini 1.5 proもすごいです。
                                                        • リリースされたGPT-4oを使って動画のサマリー生成をしてみる! - Qiita

                                                          概要 GPT-4oが発表されました。 GPT-4oについては以下のツイートによくまとまっています。 使用している映像は以下でまとめられています。 非常に優秀でAI系のプロダクトがまた何個か死んだと思いますが、それはさておき使っていきましょう。 APIではすでに利用可能になっております。 今回は以下のcookbookにある動画要約をgradioに移植します。 https://cookbook.openai.com/examples/gpt4o/introduction_to_gpt4o デモ 以下の Huggingface Space を作りました。APIキーと動画を貼り付けて試用することができます。 1分間の動画で0.1ドル / 60秒くらいかかります。API使用料に注意してください。 現状のGPT-4o APIの制限 動画はそのままアップロードできません これは将来的にもできるとされてい

                                                            リリースされたGPT-4oを使って動画のサマリー生成をしてみる! - Qiita
                                                          • OpenAIが「GPT-4o」を発表、人間と同等の速さでテキスト・音声・カメラ入力を処理可能で「周囲を見渡して状況判断」「数学の解き方を教える」「AI同士で会話して作曲」など多様な操作を実行可能

                                                            OpenAIが日本時間の2024年5月14日(火)にAIモデル「GPT-4o」を発表しました。GPT-4oは単一のモデルでテキスト、音声、視覚入力を非常に高速に処理可能で、リアルタイムに会話しながら「計算問題を解く」「画像の生成」「周囲の映像から状況を判断」といったタスクを実行可能です。 Hello GPT-4o | OpenAI https://openai.com/index/hello-gpt-4o/ Introducing GPT-4o and more tools to ChatGPT free users | OpenAI https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/ GPT-4oはテキスト、音声、視覚入力を高速処理できるマルチモーダルなAIモデルです。GPT-4oの応答時間は平均320ミリ秒で、

                                                              OpenAIが「GPT-4o」を発表、人間と同等の速さでテキスト・音声・カメラ入力を処理可能で「周囲を見渡して状況判断」「数学の解き方を教える」「AI同士で会話して作曲」など多様な操作を実行可能
                                                            • OpenAI、「GPT-4o」を発表、2倍速く、50%安く、~テキスト・音声・画像すべてを理解/新しい「ChatGPT」アプリも、Windows版は今年後半リリース予定

                                                                OpenAI、「GPT-4o」を発表、2倍速く、50%安く、~テキスト・音声・画像すべてを理解/新しい「ChatGPT」アプリも、Windows版は今年後半リリース予定
                                                              • オープンAI 最新モデル「GPT-4o」発表 音声の反応速度向上 | NHK

                                                                生成AIのChatGPTを手がけるアメリカのベンチャー企業「オープンAI」は処理スピードを速めて質問するとすぐに反応し、自然に会話ができる最新モデルを発表しました。IT各社も性能を高めた生成AIを次々と発表しており、開発競争が激しくなっています。 「オープンAI」が13日、発表したのは最新モデル「GPT-4o」です。 処理スピードを速めて文字と画像、それに音声による認識能力を大幅に向上させました。 大きな特徴は音声の反応速度です。 これまでのモデルでは反応の遅延がありましたが、このモデルでは質問すると人と同じように自然に会話ができるとしています。 発表会では研究チームの担当者が「少し緊張しています。落ち着かせるのを手伝ってもらえますか」と尋ねると生成AIが「深呼吸して、あなたが専門家であることを思い出して下さい」と自然に回答する様子が紹介されました。 また、通訳として2人の会話の間に入り英

                                                                  オープンAI 最新モデル「GPT-4o」発表 音声の反応速度向上 | NHK
                                                                • 「GPT-4o」発表 人のように音声・画像・テキストで高速応答

                                                                    「GPT-4o」発表 人のように音声・画像・テキストで高速応答
                                                                  • GPT-4o の概要|npaka

                                                                    以下の記事が面白かったので、簡単にまとめました。 ・Hello GPT-4o 1. GPT-4o「GPT-4o」 (「omni」の「o」) は、人間とコンピュータのより自然な対話に向けた一歩です。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。 音声入力にはわずか232ミリ秒 (平均320ミリ秒) で応答できます。これは、人間の会話における応答時間とほぼ同じです。英語のテキストおよびコードでは「GPT-4 Turbo」のパフォーマンスに匹敵し、英語以外の言語のテキストでは大幅に改善されており、APIでははるかに高速で50%安価です。「GPT-4o」は、既存のモデルと比較して、特に視覚と音声の理解に優れています。 2. モデルの機能「GPT-4o」以前は、音声モードを使用して、平均2.8秒 (GPT-3.5) および5

                                                                      GPT-4o の概要|npaka
                                                                    • 「GPT-4o」発表 頭一つ抜けた性能をChatGPT無料版にも展開 音声と視覚を備えて“自然な対話”可能に【追記済】

                                                                      米OpenAIは5月13日(米国時間)、生成AI「GPT」の新たなモデル「GPT-4o」を発表した。テキストはもちろん、音声や画像、映像での入力、音声での応答に対応し、アプリ版の「ChatGPT」ではユーザーと自然に対話できるようになった。開発者向けにAPIとして提供する他、同日からChatGPT内で利用できるように展開を始める。 GPT-4oは無料ユーザーでも利用可能になる。ChatGPTでは従来、無料ユーザーが使えるモデルは「GPT-3.5」までで、「GPT-4」を利用するには課金する必要があった。ただし、有料のChatGPT Plusユーザーは時間当たりのメッセージやり取り可能回数が無料ユーザーに比べて5倍に緩和される。企業向けのTeamやEnterpriseユーザーはさらに制限が緩和されるとしている。 同社は発表会のライブデモで、GPT-4oを搭載したiOS版ChatGPTと対話す

                                                                        「GPT-4o」発表 頭一つ抜けた性能をChatGPT無料版にも展開 音声と視覚を備えて“自然な対話”可能に【追記済】
                                                                      • Introducing GPT-4o and more tools to ChatGPT free users

                                                                        In line with our mission, we are focused on advancing AI technology and ensuring it is accessible and beneficial to everyone. Today we are introducing our newest model, GPT-4o, and will be rolling out more intelligence and advanced tools to ChatGPT for free. GPT-4o is our newest flagship model that provides GPT-4-level intelligence but is much faster and improves on its capabilities across text, v

                                                                          Introducing GPT-4o and more tools to ChatGPT free users
                                                                        • Hello GPT-4o

                                                                          GPT-4o (“o” for “omni”) is a step towards much more natural human-computer interaction—it accepts as input any combination of text, audio, image, and video and generates any combination of text, audio, and image outputs. It can respond to audio inputs in as little as 232 milliseconds, with an average of 320 milliseconds, which is similar to human response time(opens in a new window) in a conversat

                                                                            Hello GPT-4o
                                                                          • 新モデルの追加と値下げ、ChatGPTのメモリ機能追加、「Sora」の発表… 『OpenAI GPT-4V/ChatGPT/GPTs 人工知能プログラミング実践入門』著者が語る、OpenAIの技術情報

                                                                            『OpenAI GPT-4V/ChatGPT/GPTs 人工知能プログラミング実践入門』著者の布留川氏は、登壇時点までのOpenAIの最新情報と、最新技術情報のキャッチアップ術について話しました。全4回。 布留川氏の自己紹介 布留川英一氏:それでは始めます。OpenAI本出版記念として、今日は「OpenAI最新技術情報と技術情報キャッチアップ術」について話そうと思います。 最初に簡単に自己紹介をします。名前は布留川英一と申します。ハンドルネームはnpakaでやっています。株式会社ゼルペムに所属していますが、基本は個人でやっているようなものです。 プログラム歴は40年と言っていますが、1984年の「ファミリーベーシック」みたいなものから始めたので、ちょうど40年ということでキリがいい数字でした。インターネット歴は大学に入った1994年からなので、ちょうど30年です。 技術書歴は、最初に書いた

                                                                              新モデルの追加と値下げ、ChatGPTのメモリ機能追加、「Sora」の発表… 『OpenAI GPT-4V/ChatGPT/GPTs 人工知能プログラミング実践入門』著者が語る、OpenAIの技術情報
                                                                            • GPTとは何か Transformerの視覚化 | Chapter 5, Deep Learning

                                                                              この動画は3Blue1Brownの動画を東京大学の学生有志団体が翻訳・再編集し公式ライセンスのもと公開しているものです。 チャンネル登録と高評価をよろしくお願いいたします。 日本語版Twitter https://twitter.com/3B1BJP 元チャンネル(英語) https://www.youtube.com/c/3blue1brown 元動画(英語) https://youtu.be/wjZofJX0v4M?si=9YsuEzHATlhPtpOF Check out our new channel Ufolium https://www.youtube.com/watch?v=wrNCjIjIzuk&pp=ygUj5aSn57Wx6aCY6YG45oyZ44Gu5LuV57WE44G_IHVmb2xpdW0%3D Richard Turner's introduction

                                                                                GPTとは何か Transformerの視覚化 | Chapter 5, Deep Learning
                                                                              • 生成AI業界は「GPT2」で騒然、RAGは実用化へ新手法が続々

                                                                                生成AI(人工知能)を含む最新のAI研究動向を知るため、世界中の研究者やエンジニアが参照しているのが、論文速報サイト「arXiv(アーカイブ)」である。米OpenAI(オープンAI)や米Google(グーグル)などAI開発を主導するIT企業の多くが、研究成果をarXivに競って投稿している。 そんなarXivの投稿論文から、2024年4月(1日~30日)にSNSのX(旧Twitter)で多く言及されたAI分野の注目論文を紹介する。調査には米Meltwater(メルトウォーター)のSNS分析ツールを利用した。対象はXの全世界のオリジナル投稿、コメント、再投稿、引用投稿である。調査は、日経BPが2024年1月に新設したAI・データラボの活動の一環として実施した。 「GPT2」に再び脚光?スケーリング則の論文 最初に取り上げるのが、大規模言語モデル(LLM)のスケーリング則に関する論文「Phys

                                                                                  生成AI業界は「GPT2」で騒然、RAGは実用化へ新手法が続々
                                                                                • 「知的単純作業」を自動化する、地に足の着いた大規模言語モデル (LLM) の活用

                                                                                  LayerX 部門執行役員・AI・LLM事業部長 中村龍矢 2024/5/8 生成AI Conf

                                                                                    「知的単純作業」を自動化する、地に足の着いた大規模言語モデル (LLM) の活用