GPTとネットに関するdokoのブックマーク (16)

  • GPT-4oをOCRとして使う - Re:ゼロから始めるML生活

    OpenAIからChatGPT-4oが発表されましたが、皆さんガンガンつかっていますでしょうか? さて、このChatGPT-4oですが、テキスト以外のデータも使用できるようになっているという特徴があります。 普通にテキストでのやり取りをしつつも画像データを扱えるということで、「実はこれいい感じのOCRとして使えるんじゃね?」って思っちゃったわけです。 ということで、今回はChatGPT-4oを使ってOCRを使うとどんなもんなのかやってみたいと思います。 やりたいこと やってみる とりあえずやってみる 請求書 名刺 参考文献 感想 やりたいこと 今回やりたいことはOCRです。早い話が画像ファイルを突っ込んでテキストを読み取りたいって感じです。 ただ、当たり前のようにOCRって言葉を使用していますがOCRって結構奥が深いです。 mediadrive.jp 単純に画像から文字を見つけて対応するテ

    GPT-4oをOCRとして使う - Re:ゼロから始めるML生活
  • 金子勇さんのED法のシンプルな解説を試みた - Qiita

    はじめに @pocokhc(ちぃがぅ)さんが、金子勇さんのED法を実装してMNISTの学習に成功しました。 金子勇さんの失われたED法 金子勇さんの失われたED法発掘の経緯 ここではちぃがぅさんのコードを元に、ED法をシンプルに解説していきたいと思います。 ED法をわかりやすく解説するため、今入力を(1,0)としたとき(0)を推論するXOR問題を考えてみましょう。 ED法の場合, 入力、重みともに正負(p,n)2つ分の変数を用意する必要があります。 例えば 入力を(1,0)とすると 1 (p) ,1 (n), 0 (p), 0 (n) の4つとバイアス分の2つの p n が必要です。 また, 3層構造として中間層のニューロンをp, n 2つのみとします。 中間層のニューロンを2つとしたときは、 p, n の2つと, バイアス用のp, n の2つが必要です。 中間層のニューロン各々は、そのニ

    金子勇さんのED法のシンプルな解説を試みた - Qiita
  • ChatGPTでどんなリモート会議でもクリアに録音&自動テキスト化で文字起こし&要約作成できる「HiDock H1」を最大6人の会話で使ってみたレビュー

    ChatGPTと連携した会話の録音・自動文字起こし・要約が可能な11in1オーディオドック「HiDock H1」は、クラウドファンディングでの目標金額50万円に対して記事作成時点で4270万円もの応援購入が殺到している大注目プロジェクトです。HDMIやUSB Type-Cなど合計11個のポートが搭載されたボディに、10m離れても通話できるワイヤレスイヤホンやノイズキャンセリング、そして面倒な議事録作成を丸投げできるAI機能がてんこ盛りになったドッキングステーションを実際に使い倒して、生産性を爆上げしてみました。 ChatGPT連携AI要約作成+11in1オーディオドック|HiDock H1|マクアケ - アタラシイものや体験の応援購入サービス https://www.makuake.com/project/hidock_h1/ ・目次 ◆1:HiDock H1の内容物はこんな感じ ◆2:H

    ChatGPTでどんなリモート会議でもクリアに録音&自動テキスト化で文字起こし&要約作成できる「HiDock H1」を最大6人の会話で使ってみたレビュー
  • Winnyの金子さんのED法について | やねうら王 公式サイト

    Winnyの金子勇さんが考案された機械学習アルゴリズムED法を再現して実装した人がいていま話題になっている。 『Winny』の金子勇さんの失われたED法を求めて…いたら見つかりました https://qiita.com/kanekanekaneko/items/901ee2837401750dfdad いまから書くことは私の記憶頼りなので間違ってたらコメント欄で教えて欲しい。 1998年ごろだと思うのだが、私はWinnyの金子勇さんのホームページの熱心な読者だった。(ページも全部保存してたので私のHDDを漁れば出てくると思うが、すぐには出せない。) Winnyのβ版が発表されたのが2002年なのでそれよりはずいぶん前である。 当時、金子さんはNekoFightという3D格闘ゲームを公開されていた。そのゲームには、自動的に対戦から学習するAIが搭載されていた。 当時の金子さんのホームページの

  • (PDF)文化審議会 著作権分科会 法制度小委員会「AIと著作権に関する考え方について」|文化庁著作権課

  • AIといえばドラクエⅣ、当時の開発話が論文に 今に導かれしAI観:朝日新聞デジタル

    ","naka5":"<!-- BFF501 PC記事下(中⑤企画)パーツ=1541 -->","naka6":"<!-- BFF486 PC記事下(中⑥デジ編)パーツ=8826 --><!-- /news/esi/ichikiji/c6/default.htm -->","naka6Sp":"<!-- BFF3053 SP記事下(中⑥デジ編)パーツ=8826 -->","adcreative72":"<!-- BFF920 広告枠)ADCREATIVE-72 こんな特集も -->\n<!-- Ad BGN -->\n<!-- dfptag PC誘導枠5行 ★ここから -->\n<div class=\"p_infeed_list_wrapper\" id=\"p_infeed_list1\">\n <div class=\"p_infeed_list\">\n <div class=\"

    AIといえばドラクエⅣ、当時の開発話が論文に 今に導かれしAI観:朝日新聞デジタル
  • AI検索「Perplexity」がかなり便利だったので紹介します (1/5)

    ChatGPTはすぐに嘘をつくから調べものには使えない」という意見をよく聞くが、これには大きな誤解がある。 そもそもChatGPTの心臓部である大規模言語モデル(LLM)は、膨大な知識を元にテキストを「生成」する仕組みだ。 逆に言うと、知識として持っていないことは一切わからないので、知らないことについて説明を求められても能力的に不可能なのだ。 だから、知識にない質問をされると答えられないだけでなく、苦し紛れに幻覚(ハルシネーション)を起こしてしまう。これが「すぐに嘘をつく」と言われる理由だ。 結論を書いてしまうと「ChatGPTは検索ツールではない」のだ。むしろ「ChatGPTがいちばん苦手とすることが検索」なのだ。 今回はこの欠点を補い、AIを活用した新しい検索の形を実現するという触れ込みのサービス「Perplexity.ai」を紹介していく。 Perplexity.aiとは Perp

    AI検索「Perplexity」がかなり便利だったので紹介します (1/5)
  • 正直、AIは実用に耐えるレベルではない…企業が「結局は人間がやらざるを得ない」と導入をためらうワケ メタのエンジニアは「ネコにも劣る」と発言

    AI関連企業の株価が上昇している。この勢いはいつまで続くのか。ジャーナリストの岩田太郎さんは「今のAIはまだまだ技術的な課題が多いことが専門家によって指摘されている。企業での格導入が進んでいない以上、『AIバブル』はいずれ崩壊するだろう」という――。 ウォール街はAIバブルに沸いている 生成型人工知能AI)へのウォール街の熱狂が止まらない。 「地球上で最も重要な銘柄」と呼ばれ、年初来の上げ幅が約90%というAI半導体大手の米エヌビディアを筆頭に、メタ(年初来40%近い上げ)、アマゾン(同20%近く)、マイクロソフト(同およそ15%)などAI銘柄が超元気だ。注目すべきは、そのほとんどの上昇分が将来のAI実需を前提とした「期待先行型」であることだ。 将来の生成AI市場についても、非常に楽観的で景気のいい予測がなされている。 米ブルームバーグ・インテリジェンスは2023年6月、グローバル生成

    正直、AIは実用に耐えるレベルではない…企業が「結局は人間がやらざるを得ない」と導入をためらうワケ メタのエンジニアは「ネコにも劣る」と発言
    doko
    doko 2024/04/02
    コメントを読んで安堵しつつも、逆に自分のアプローチがおかしなことになってるんじゃないか疑惑もありつつ、でもLangChainにそういうAPIがあるんだから大丈夫ってなる
  • 東浩紀「訂正可能性の哲学」はAI関係者必読だ!|shi3z

    先週、今週とあちこちへ出張が続いているので、移動時間の合間、ネットが途切れる山奥にさしかかったあたりで東浩紀「訂正可能性の哲学」を読んだ。東さんのはいつもそうなのだが、あまりの内容に驚愕した。 そして昨日はたまたま東さんにVisionProを体験させる約束をしていた日なので、会う前に一気に読み終えた。すごい。もっと早く読めばよかった。 東さんのは基的に「凄すぎる」ので、読むと影響を受けすぎてしまってしばらく自分の思考が戻ってこない状態になる。しかし最近の僕は、むしろ忙しすぎて誰かの思考を取り入れたいモードになっていたのだ。 その意味で、まさに今の時代に必要とされているだと思うし、当にすごい。10年前に上梓された「一般意志2.0」の続編でもあり、なおかつアップデートでもある。もちろん読んでなくても全然良い。 特に舌を巻いたのは、落合陽一の「デジタルネイチャー」や成田雄介の「無意識デ

    東浩紀「訂正可能性の哲学」はAI関係者必読だ!|shi3z
    doko
    doko 2024/02/21
    これね、東浩紀が嫌いな憲法判例がそうなんですよ。東浩紀は「素晴らしく現実主義なので」憲法改正しろって言うけど「現実には」変えられないから、まさに訂正可能性の考え方によって漸進していくのが憲法判例
  • ドラクエ4のAI戦闘と作戦、完全に理解した|frenchbread

    30年ぶりにファミコン版ドラクエ4をプレイしたので、AI戦闘の仕様についてまとめます。ソースは主に下の記事と自分でプレイした検証結果です。 件に関しては下の記事以上に詳しい情報はないと思われますが、仕様解析というコンセプトで非常に詳細に記載してくださっているため、この記事では自分なりに実プレイ上有用かなと思えるレベルでまとめました。 ご一読いただければ「なぜブライやミネアがいまいち使えなかったのか」といった疑問も解消すると思います。 なお、以下に記載の内容は100%正確とは限りません。 ソースの解析記事を私が誤読している可能性があるのと、一部自分で補完した内容はあくまでプレイ検証して「おそらくこうだろう」と結論づけているに過ぎないためです。ご了承ください。 基礎知識まず基礎知識。 ある程度詳しい方、少し調べたことがある方ならこの辺りはご存じの内容になるかもしれません。 AIは「モンスター

    ドラクエ4のAI戦闘と作戦、完全に理解した|frenchbread
  • 脳スキャンから脳内画像を再現する新手法

    機能的核磁気共鳴画像法(fMRI)による脳のスキャンデータから、人が見ている画像を可視化する新しい手法が開発された。ニューラル・ネットワークの深層学習を用いることで、従来の手法よりも、知覚している画像を正確に再構成できるとしている。 by Emerging Technology from the arXiv2017.08.15 122 91 8 1 神経科学における興味深い目標の1つに、脳をスキャンしたデータを分析して、人が知覚している画像を再構成することがある。人が何を見ているのかを、視覚野の活動を監視することで知ろうというのである。 問題となるのはもちろん、機能的核磁気共鳴画像法(functional MRI:fMRI)のスキャンで得たデータを、効率的に処理する方法を見つけることである。脳内の3次元ボクセルの活動を、画像の2次元ピクセルに対応付けなければならないからである。 困難である

    脳スキャンから脳内画像を再現する新手法
    doko
    doko 2023/12/28
    「夢」のダウンロード!
  • 「指示の出し方が悪い人」は、一体どこがダメなのか。

    「指示の出し方が悪い人」が、いる。 例えばこんな具合だ。 「安達さん、web制作会社からあがってきたページの確認をしておいて!」 そんな指示が上司から飛んだとする。 実際にそれを体験してみると、この指示が「良い指示」だと思うビジネスパーソンは、ほとんどいないだろう。 なぜならば、 1.「あがってきた」とは何か。メールで届いたものか。メッセンジャーで来たものか。他にもあるのか。何が全てか。 2.「ページ」とは何か。webページのことか、または別の形式・フォーマットを指すのか。 3.「確認」とは何か。何を基準とするのか。どうすれば作業終了となるのか。 など、作業を進めようとすればするほど、次々に疑問が湧くからだ。 酷いときには、よくわからない書類をぽんと渡されたり、謎のメールを転送されて 「これやっといて」 などという指示をする人もいる。 要するにこれらはすべて、「手抜き指示」だ。 こういう指

    「指示の出し方が悪い人」は、一体どこがダメなのか。
  • 写真をAIに文章で説明してもらう→それをもとにまた画像を作る→外国になる

    文章から画像を生成するツールがあるが、画像から文章を生成するツールもある。ある画像から始めて両者の間を往復させ続けるとどうなるだろうか。 画像の伝言ゲームをやってみたい 文章から画像を生成するAIツールが話題になったが、いっぽうで画像から状況を説明する文章を生成するAIツールもある。 文章をもとに画像を生成するツールがある(DALL·E、Stable Diffusion など) いっぽう、画像をもとに文章を生成するツールもある(SceneXplain など) それらを組み合わせて画像→文章→画像→文章→・・と変換していくとどうなるだろうか。 ようは伝言ゲームなので、再現なくどんどん違う画像になっていくことが予想されるが、どこかでうまく収束するかもしれない。 とにかくやってみよう。 ※記事では文章から画像を生成するために Image Creator from Microsoft Bing 

    写真をAIに文章で説明してもらう→それをもとにまた画像を作る→外国になる
  • 「ChatGPT Plus」にWebブラウジングとプラグインをβ機能として追加へ

    OpenAIは5月12日(現地時間)、3月に発表したWebブラウジング機能とサードパーティ製プラグインを、実験的な新機能として「ChatGPT Plus」ユーザーに提供開始すると発表した。15日の週に全Plusユーザーにロールアウトしていく。 利用できるようになると、ChatGPT Plusの画面左下のユーザー名をクリックし、[Settings]→[Beta features]を開くと「Web browsing」と「Plugins」という項目が表示されるようになる。これらの項目を有効にすれば、機能を利用できるようになる。 筆者の環境ではまだWebブラウジング機能しか使えないが、例えば「Sam Altomanの最新ツイートを教えてください」と尋ねると、米Microsoftの「新しいBing」と同様に検索、読み込みの過程を表示しつつ、答えを表示する。この場合、正しい答えが得られた。

    「ChatGPT Plus」にWebブラウジングとプラグインをβ機能として追加へ
  • Bard が日本語に対応

    Bard は、ジェネレーティブ AI を活用してユーザーをサポートする Google の試験運用中のサービスです。旅行プランの案を出したり、ブログ記事の構成案を作成したりと、英語での公開から 2 か月弱の間に、すでに多くのユーザーに様々な方法でお使いいただいています。 そして、日より Bard が日語でも利用できるようになりました。「おいしい卵焼きを作るためのコツを教えて」や「夏休みの自由研究のアイデアを出して」など、 創造性と生産性を高めるパートナーとして、 bard.google.com から、Bard をぜひお試しください。 Bard とは Bard は、Google の大規模言語モデル( LLM : Large Language Model )である PaLM 2 を利用しています。LLM は言語のパターンを拾い上げること、それを使って文章の中で次に来る確率の高い単語を予測する

    Bard が日本語に対応
    doko
    doko 2023/05/11
    まだちょっとしか試してないけど、わりといけそうな感じするけどなぁ
  • ChatGPT使い方総まとめ - Qiita

    こんにちは!sakasegawaです! ( https://twitter.com/gyakuse ) 今日は今流行のChatGPTについて紹介します! ChatGPTとは OpenAIが開発するGPT-3(※)というめちゃくちゃすごい言語モデルをベースとしたチャットアプリです。 色んな質問にすぐ答えてくれます。 この記事ではさまざまな使い方を紹介します。 https://chat.openai.com/ ちなみにGPT-3関連では、noteの以下記事も便利なのでぜひ読んでみてください AIがコミットメッセージ自動生成!神ツール『auto-commit』『commit-autosuggestions』の紹介 ※正確にはGPT-3.5シリーズと呼ばれています ChatGPTの仕組みを考えながらプロンプトを作る手法はこちらに別途まとめています 文章 質問-応答 〜について教えて Wikiped

    ChatGPT使い方総まとめ - Qiita
  • 1