OpenAIからChatGPT-4oが発表されましたが、皆さんガンガンつかっていますでしょうか? さて、このChatGPT-4oですが、テキスト以外のデータも使用できるようになっているという特徴があります。 普通にテキストでのやり取りをしつつも画像データを扱えるということで、「実はこれいい感じのOCRとして使えるんじゃね?」って思っちゃったわけです。 ということで、今回はChatGPT-4oを使ってOCRを使うとどんなもんなのかやってみたいと思います。 やりたいこと やってみる とりあえずやってみる 請求書 名刺 参考文献 感想 やりたいこと 今回やりたいことはOCRです。早い話が画像ファイルを突っ込んでテキストを読み取りたいって感じです。 ただ、当たり前のようにOCRって言葉を使用していますがOCRって結構奥が深いです。 mediadrive.jp 単純に画像から文字を見つけて対応するテ
GeminiやPaLM 2といった大規模言語モデルを使って任意のテキストの要約や提案をしてくれるGoogleのメモ作成アプリ「NotebookLM」が、日本語を含む200以上の国や地域に対応しました。記事作成時点では試験的に無料提供されているとのことで、実際に「NotebookLM」を使ってみました。 NotebookLM | Note Taking & Research Assistant Powered by AI https://notebooklm.google/ NotebookLM goes global with Slides support and better ways to fact-check https://blog.google/technology/ai/notebooklm-goes-global-support-for-websites-slides-fac
Googleは、AIがまとめた概要を検索結果に表示する「AIオーバービュー(AIによる概要)」をテストしています。このAIオーバービューの動向についてマーケティング企業のBrightEdgeがまとめ、結果を共有しました。 BrightEdge Releases Post Google I/O Data on The Impact of https://www.globenewswire.com/news-release/2024/06/04/2893289/0/en/BrightEdge-Releases-Post-Google-I-O-Data-on-The-Impact-of-AI-Overviews.html 2023年11月から2024年6月までの統計によると、ユーザーが何かを検索してAIオーバービューに出くわす確率はピーク時の84%から15%以下に激減しているとのこと。AIオーバ
画像生成AI「Stable Diffusion」の開発元として知られるStability AIが、オープンソースの音楽生成AI「Stable Audio Open」を公開しました。Stable Audio Openは、文章で指示するだけで最長47秒の音楽を生成できます。 Stable Audio Open — Stability AI https://stability.ai/news/introducing-stable-audio-open We’re excited to announce Stable Audio Open, an open source model optimised for generating short audio samples, sound effects and production elements using text prompts. This
「いつか」は想像していたよりも、ずっと早く来る。 そう実感するに十分な進化を、今年5月に発表された各社の生成AI最新モデルは見せつけた。 性能が大幅に向上したことで、オンラインミーティングに参加して議事録を作成するのはも […] 「いつか」は想像していたよりも、ずっと早く来る。 そう実感するに十分な進化を、今年5月に発表された各社の生成AI最新モデルは見せつけた。 性能が大幅に向上したことで、オンラインミーティングに参加して議事録を作成するのはもちろんのこと、家庭教師や翻訳者、時には相談相手になってくれるほど、人間に近づいた生成AI。驚異的なスピードで革新し続けるテクノロジーによって、暮らしの根幹である衣食住の「衣」を担うファッションの世界はどう変わるのか。 Advertisement ファッション業界に向けた生成AI活用支援ツール「Maison(メゾン) AI」を提供し、今年2月にはAI
デジタルプロダクション「factory4」でアプリやさまざまなIoTプロジェクトのUIUXデザインを手がける新谷友樹さんが、UIやUXにまつわるトピックについて解説する本連載。今回のテーマは「GPT4oを活用したウェブサイトづくり」です。 こんにちは!株式会社Cosmowayが組織するデジタルプロダクション「factory4」のUIUXデザイナー新谷です。 今回は先日OpenAIが発表した新たなAIモデル「GPT-4o」を使ってウェブサイト(LP)を作成してみました。GPT-4oのパフォーマンスを知ること、そしてデザイナーが生成AIとどう関わっていくべきかを探るきっかけにすることが、今回の目的です。 前提として「GPT-4o」がゼロベースでウェブページを作成することに向いているツールではないと思いますが、チュートリアルの要素と今後の可能性を知るためにあえて取り組んでみました。 GPT-4o
Appleが「WWDC24」で発表する「iOS 18」や「macOS 15」にはAI機能が搭載されるとみられていますが、BloombergのMark Gurman氏によると、AppleのAI機能は「Apple Intelligence」というブランド名がつけられるようです。 「Apple Intelligence」は、「iOS 18」「iPadOS 18」「macOS 15」にオプトイン方式(オプション)で搭載され、詩を書いたり、画像を作ったりすることに焦点を当てるのではなく、大規模な言語モデルを使用して、要約や豊富な自動返信提案のような機能でユーザーの日常生活全体を支援する機能を提供するものになるとのこと。 また、同機能はiPhoneでは「iPhone 15 Pro」もしくは「iPhone 16」シリーズでのみ利用可能で、iPadとMacは少なくともM1チップが必須条件となるとみられてい
GPT-4oやClaude 3 Opus, Gemini、Llama 3などに素早くアクセスできるMac用パーソナルアシスタント「Invisibility」がリリースされています。詳細は以下から。 米サンフランシスコのInvisibility Inc.(i.inc)でAIサービスを開発するSulaiman Ghoriさんらは、Macのデスクトップ上からOpenAIのGPT-4oやAnthropicのClaude 3 Opus, GoogleのGemini、MetaのLlama 3などのAIアシスタントに素早くアクセスできるクライアント「Invisibility for Mac」をリリースしたと発表しています。 Invisibility is a next-generation personal assistant designed specifically for your Mac. Wi
こんにちは、Technology部のジョシュです。 先月13日にリリースされた「ChatGPT-4o」は、ChatGPT-4の後継モデルとして、前モデルからの性能の向上や、新たに追加された機能に世界中から注目が集まりました。 そこで今回は、「ChatGPT-4o」と前モデルの「ChatGPT-4」の違いを深掘りし、それぞれの機能や性能、そして応用の可能性を詳しく解説します。 「結局、どっちのモデルを使ったら良いの?」「ChatGPT-4oは何ができるようになったの?」など、 ChatGPTの最新情報をキャッチアップしたい方はぜひご覧ください。 ChatGPT-4oの概要 ChatGPT-4oは、OpenAIの最新の生成AIモデルで、より強化された自然言語処理(NLP)機能を備えています。GPT-3.5とGPT-4をベースに、テキスト、音声、画像をリアルタイムでシームレスに統合処理します。
OpenAIのチャットボットであるChatGPT、AnthropicのAIアシスタントであるClaude、Perplexity.aiのチャットボットであるPerplexityという3つの人気AIツールが、同時にシステム障害を起こし利用不可能となりました。 AI apocalypse? ChatGPT, Claude and Perplexity all went down at the same time | TechCrunch https://techcrunch.com/2024/06/04/ai-apocalypse-chatgpt-claude-and-perplexity-are-all-down-at-the-same-time/ アメリカ太平洋標準時の2024年6月4日、ChatGPTですべてのプランのユーザーに影響を与える大規模な障害が発生しました。OpenAIのサービス
米OpenAIの現従業員、元従業員のグループは6月4日(現地時間)、Google DeepMindの2人の従業員とともに、OpenAIを含むAI企業に対し、AIに関する安全性対策の改善と、危険性を報告した従業員の保護を求める書簡を公開した。 署名した13人中4人はOpenAIの現従業員として匿名で記載されている。 研究者が報復を恐れることなくAIの危険性について「警告する権利」を持てるよう、AI関連企業に強力な内部告発者保護を確立するよう求めている。 「私たちは最先端のAI企業の現従業員および元従業員であり、AIが人類に前例のない利益をもたらす可能性を信じている」が、「AI企業には効果的な監督を回避する強い経済的インセンティブがあり、企業統治の特注構造ではこれを変えるのに十分ではないと考えている」という。 グループは、「AI企業はAIの危険に関する膨大な非公開情報を保有しているが、こうした
こんにちは。Gunosy R&D チームの森田です。 GPT-4o が発表されたこのタイミングで!?という向きもあるかとおもいますが、LLMの世界は一ヶ月もすればまったく違う状況になっているのが常なので、いずれは GPT-4o を超えるモデルが発表される時も来るでしょう。 Claude 3 Opus は一時期 GPT-4 のスコアを超え、 Claude 3 Haiku では GPT-3.5-Turbo のトークン当たりで約半額とコストパフォーマンスに優れていますし、 AWS Bedrock 経由で安定して利用できることもあり、Claude 3 は乗り換え先の候補の一つです。 Claude 3 への乗り換えには、点々とつまづくポイントがあるので、引っかかった所と回避方法をご紹介します。 今回紹介する内容はClaude 3に限らないものもありますので、ローカルLLM や他のLLM への乗り換え
関連記事 「Raspberry Pi 5」発表 拡張性や処理速度が向上 国内の販売時期は未定 英Raspberry Pi財団は、小型コンピュータ「Raspberry Pi 5」シリーズを発表した。英国では10月から販売予定だが、日本国内での販売時期は不明。 AI処理に適した「Copilot+ PC」、各メーカーが続々発表 ラインアップ一覧 米Microsoftは、AIアシスタント「Copilot」などAIの実行に適したWindows PCカテゴリー「Copilot+ PC」を発表した。各メーカーが6月18日以降に発売するSnapdragon搭載のCopilot+PCを紹介する。 AI対応“Copilot+ PC”でArm搭載の新「Surface Pro/Laptop」 「M3 MacBook Airより高速」とうたう性能と価格は? 要点まとめ 米Microsoftが発表した、新しい「Sur
サイバーエージェントは23年にもMLOpsに関する研修資料を公開していたが、この際に公開したのはMLOpsの応用編に関する資料のみだった。「より良いMLOpsを構築するには、アプリケーションやインフラの知識も必要。そのため、24年は、MLエンジニアだけでなくソフトウェアエンジニアも講義に参加し、新たに実践編が加わえて、より業務を意識した講義が追加した」(同社) 関連記事 サイバーエージェント、AI開発手法「MLOps」の研修資料を無償公開 全140ページ サイバーエージェントは、新入社員の研修で使ったという資料を無償公開した。内容は、AIや機械学習アルゴリズムの開発手法「MLOps」に関するもので、全140ページ。 サイバーエージェント、新卒エンジニアの研修資料を2つ無料公開 「システム運用」と「オブザーバビリティ」を解説 サイバーエージェントは、同社の新入社員研修で使った資料「システム運
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く