並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 28 件 / 28件

新着順 人気順

音声入力の検索結果1 - 28 件 / 28件

  • superwhisperでの音声入力を試す

    superwhisperという、whisper.cppを使った音声入力ができるmacOSアプリケーションを最近使っています。 基本的にはggerganov/whisper.cppのモデルを使って、音声認識しながら文字入力ができるアプリケーションです。 特徴 Whisperの認識精度が高い かなり早く喋っても認識してくれる 日本語も認識してくれるモデルがある 日本語で喋って英語に翻訳してくれる機能もある オフライン対応 有料: サブスク と 買い切り の2種類のプランがある 無料で15分のトライアル、その後は選べるモデルが制限される 公式サイトのデモをみると、かなり早く喋っても認識してくれるのがわかります。 大抵の人にとっては、多分文字入力するよりしゃべったほうが早いぐらいの入力速度が出ると思います。 superwhisper 長文はそこまで得意じゃないけど、1行とか2行ぐらいの文章はかなり

      superwhisperでの音声入力を試す
    • Metaが音楽生成AIモデルをオープンソースで公開、テキスト&音声入力で誰でも高品質な音楽を作成できるように

      Metaの研究チームが音楽を生成するAIモデル「MusicGen」を公開しました。オープンソースでの公開となっているため誰でも無料でモデルを利用できるほか、作例やデモが公開されており、その品質を実際に確かめることが可能になっています。 [2306.05284] Simple and Controllable Music Generation https://doi.org/10.48550/arXiv.2306.05284 MusicGen: Simple and Controllable Music Generation https://ai.honu.io/papers/musicgen/ MusicGenはChatGPTなどの大規模言語モデルと同様にTransformerを利用したモデルです。言語モデルは文の次の言葉を予測しますが、MusicGenは音楽の次のセクションを予測する仕組

        Metaが音楽生成AIモデルをオープンソースで公開、テキスト&音声入力で誰でも高品質な音楽を作成できるように
      • GeForce RTX搭載PCで動くローカルAI「ChatRTX」刷新。画像認識や音声入力に対応

          GeForce RTX搭載PCで動くローカルAI「ChatRTX」刷新。画像認識や音声入力に対応
        • 日本では一ヶ月かかる論文を海外は7日で書き終える→まさかの”音声入力”がカギ

          りっく @marudewakaran40 留学先のボスに『日本の研究者は国際会議の論文1本書くのに1ヶ月かけるって本当かい?ウチのスタッフは3日で書いて3日でリバイスして1日かけて最終確認&投稿する、7日のワークと決めている。報告書は鮮度が命だからね』と言われて、そんなことができるのかと思っていたら、(1/2) 2023-08-20 12:07:23 りっく @marudewakaran40 ある日ラボのスタッフがなにやらブツブツ言っていて『なにしてるのん?』と聞いたら『論文書いてる。打つの面倒だからディクテーション機能で書いてる。これが早いんだよ』と言っていて当時は目から鱗なのん。 最近の私は、口頭で書き殴ってGPTに文法ミス指摘させてるのん(2/2) 2023-08-20 12:10:53

            日本では一ヶ月かかる論文を海外は7日で書き終える→まさかの”音声入力”がカギ
          • VSCodeで日本語の音声入力が可能に、Copilotがコードに合った変数名を提案など新機能。2024年2月のアップデート

            VSCodeで日本語の音声入力が可能に、Copilotがコードに合った変数名を提案など新機能。2024年2月のアップデート コードエディタのVisual Studio Code(以下、VSCode)は2024年2月のアップデートで、音声入力やCopilotによる変数名の提案などの新機能が追加されました。 More developer goodness in the February update of @code Use your voice to write code (in your language!) Code faster with multi-cursor suggestions Renaming gets easier (because it's AI powered) Release notes: https://t.co/zwokiQvbPU Download: http

              VSCodeで日本語の音声入力が可能に、Copilotがコードに合った変数名を提案など新機能。2024年2月のアップデート
            • AirPodsを乗っ取り、スマホにこっそり音声入力する超音波攻撃 成功率は8割超 米研究者らが開発

              Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2 米ミシガン州立大学に所属する研究者らが発表した論文「■https://dl.acm.org/doi/10.1145/3581791.3596837■」は、被害者に気が付かれることなくスマートイヤフォン(Airpods、Pixel Budsなど)からスマートフォンに音声入力する不可聴攻撃を提案した研究報告である。被害者の近くから超音波を発して、スマートイヤフォンに音声コマンドを送り、音声入力を行う。 スマートイヤフォンはBluetoothを使って近くの機器(スマートフォン、スマートスピーカー、スマートホームデバイスなど)に接続し、音声認識技術を駆使して音

                AirPodsを乗っ取り、スマホにこっそり音声入力する超音波攻撃 成功率は8割超 米研究者らが開発
              • 「Bing」のAIチャット、デスクトップでも音声入力が可能に ~日本語を含む5カ国語で/回答も声で、おしゃべり感覚

                  「Bing」のAIチャット、デスクトップでも音声入力が可能に ~日本語を含む5カ国語で/回答も声で、おしゃべり感覚
                • 【GPT-4V】ChatGPTが画像入力と音声入力に対応!使い方〜実践まで徹底解説 | WEEL

                  ChatGPTがついに、目と耳を手に入れました。 9月25日、OpenAIがChatGPTに、画像解析機能と音声出力機能のGPT-4Vが追加され、マルチモーダルAIになったと発表しました。 とうとうChatGPTで画像入力と音声出力ができるようになりました!GPT-4V機能を使うと実際にこんなことができちゃうんです! 今回は話題沸騰中のGPT-4Vの概要や新機能について、特徴を踏まえながら紹介いたします。是非最後までご覧ください! なお弊社では、生成AIツール開発についての無料相談を承っています。こちらからお気軽にご相談ください。 →無料相談で話を聞いてみる GPT 4Vの概要 GPT-4Vは、Open AI社が開発した従来のGPT-4に画像解析機能と音声出力機能を持たせたマルチモーダルAIです。 これは、つまりGPT-4を搭載したChatGPTに「目」と「声」が実装されるということ! テ

                  • NVIDIAのローカルAI「ChatRTX」、AIモデル追加で画像認識や音声入力が可能に/

                      NVIDIAのローカルAI「ChatRTX」、AIモデル追加で画像認識や音声入力が可能に/
                    • Pixel8来ました。そして、音声入力ボタンが押しやすくなったということに大きな価値があります!! - 勝間和代が徹底的にマニアックな話をアップするブログ

                      発売したてのPixel8すぐにセットアップしてみました。 そして、私が無印のピクセルを使うのは外に持ち歩くというよりは、用途としてはほとんどパソコンのための音声入力としてリモートマウスを使うためです。 右側がPixel7、左側がPixel8なのですが、これ写真ではほとんど分かりませんが、私の触感として大きな違いがあります。それは何かというと、キーボードの一番右の Google の音声入力のボタンを押した時に、Pixel7までは、指に右側のベゼルの横にある枠の銀色のところが当たってしまうのですが、Pixel 8から指が当たらなくなりました。 これは毎日何十回もこのボタンを押す私にとってはとても気持ちが良いもので、これまで逆にこの銀色の枠にボタンのところが指がかかっていたのは気持ち悪かったんだということがよくわかりました。 もちろん Pixel のProであれば、銀の枠のところに指は当たらなか

                        Pixel8来ました。そして、音声入力ボタンが押しやすくなったということに大きな価値があります!! - 勝間和代が徹底的にマニアックな話をアップするブログ
                      • 新しい「Outlook for Windows」に今後搭載される新機能をMicrosoftが紹介/Copilotや音声入力、送信取り消し機能など

                          新しい「Outlook for Windows」に今後搭載される新機能をMicrosoftが紹介/Copilotや音声入力、送信取り消し機能など
                        • macOS 14 Sonomaでは、音声入力を止めることなく、途中でキーボード入力を行うことが可能に。

                          macOS 14 Sonomaでは、音声入力を止めることなく、途中でキーボード入力を行うことが可能になりました。詳細は以下から。 Appleは2020年にApple Siliconを搭載したMacを発表以降、Apple SiliconのNeural Engineを利用した「音声入力(Dictation)」機能を強化し、現在Apple Siliconを搭載したMacでは、多くの言語で音声入力リクエストはオンデバイスで処理されるようになっていますが、 Appleシリコンを搭載したMacでは、一般的なテキストの音声入力リクエスト(例えば、メッセージやメモの作成は含まれますが、検索ボックスへの音声入力は含まれません)は多くの言語についてデバイス上で処理され、インターネット接続は必要ありません。また、音声入力できるテキストの長さに制限はなく、タイムアウトもありません。 Macでメッセージや書類を音声

                            macOS 14 Sonomaでは、音声入力を止めることなく、途中でキーボード入力を行うことが可能に。
                          • 奇妙な音声信号を解析に掛けるとそこには…「音」ももはや例外ではない、そこにあるのは初代『DOOM』―なんと音声入力でプレイも可能 | Game*Spark - 国内・海外ゲーム情報サイト

                              奇妙な音声信号を解析に掛けるとそこには…「音」ももはや例外ではない、そこにあるのは初代『DOOM』―なんと音声入力でプレイも可能 | Game*Spark - 国内・海外ゲーム情報サイト
                            • Amazon ConnectとLexでのコールセンター向けAIチャットボットの構築において、「音声入力の最大時間」「発話の最大待機時間」「発話終了判定の最大時間」の仕様を確認してみた | DevelopersIO

                              はじめに 最近、下記の記事にある、クラウド型コンタクトセンターサービスであるAmazon Connectと、高度な自然言語モデルを備えたフルマネージド型チャットボットであるAmazon Lexを組み合わせて、コールセンター向けAIチャットボットを構築する機会がありました。 【RAG】Amazon BedrockとConnect、Kendraを利用し、社内情報や社外の最新情報などの取り込んだデータをもとに回答するコールセンター向けAIチャットボットを構築してみた Amazon BedrockのClaudeとAmazon Connectを利用し、電話で色々な質問に答えてくれるコールセンター向けAIチャットボットを構築してみた Connectと組み合わせてLexを採用する際、ユーザーからの音声入力について、以下の3つの仕様が理解できていなかったため、ドキュメントや実際に試しながら確認しましたので

                                Amazon ConnectとLexでのコールセンター向けAIチャットボットの構築において、「音声入力の最大時間」「発話の最大待機時間」「発話終了判定の最大時間」の仕様を確認してみた | DevelopersIO
                              • 【Mac Info】 まだキーボード入力?macOS Sonomaで強化された「音声入力」を活用しよう!

                                  【Mac Info】 まだキーボード入力?macOS Sonomaで強化された「音声入力」を活用しよう!
                                • 「Visual Studio Code」が音声入力に対応、日本語もOK ~2024年2月更新v1.87が公開/マルチカーソルのインライン補完の導入、スティッキースクロールの既定有効化なども

                                    「Visual Studio Code」が音声入力に対応、日本語もOK ~2024年2月更新v1.87が公開/マルチカーソルのインライン補完の導入、スティッキースクロールの既定有効化なども
                                  • 「Visual Studio Code」バージョン1.87リリース 日本語音声入力やCopilotによる変数名提案機能も

                                    【お詫びと訂正:2024年3月22日午後20時】初出時、バージョン1.87でリモート開発拡張機能がフル機能になったかのような誤解を招く表現となっていたため、バージョン1.87で追加された機能が「開発コンテナ構成ファイルをワークスペースに追加するときに、GitHub Copilot Chatがテンプレートと機能(ツール)を提案」するものであると分かるよう修正いたしました。お詫びして訂正させていただきます。 Microsoftは2024年2月29日(米国時間)WindowsやLinux、macOSに対応するクロスプラットフォームのエディタ「Visual Studio Code」(VS Code)の「February 2024」(バージョン1.87)アップデートをリリースした。今回の主なアップデート内容を紹介する。 VS Code Speech 音声入力機能 拡張機能「VS Code Speec

                                      「Visual Studio Code」バージョン1.87リリース 日本語音声入力やCopilotによる変数名提案機能も
                                    • 脱タイピング!Macの音声入力機能で文章作成が驚くほどに時短になる実践例【今日のワークハック】 | ライフハッカー・ジャパン

                                      「これ、マストだわ」モニター購入して気づいた、あったほうがいい周辺機器4選 #Amazon新生活セール

                                        脱タイピング!Macの音声入力機能で文章作成が驚くほどに時短になる実践例【今日のワークハック】 | ライフハッカー・ジャパン
                                      • 音声入力はどこか「返事」を待ってしまう - Jazzと読書の日々

                                        Backlink | Photo by Jean-Louis Paulin on Unsplash これは書き言葉と話し言葉の違いなのかな。 音声入力 最近音声コントロールをいじっていることもあり、あれこれ試しています。 コマンドモードはいいんです。 「使える」って感じがする。 キーボードで文字を打ちながら、メタレベルの操作を音声で扱う。 「行選択」とか、キーボードから指を離さなくていい。 こちらには「道」がひらけている感じがします。 ところが「音声入力モード」ですね。 これ、ちゃんとチェックしてないのでしょうか。 せっかく自動句読点が音声入力にあるのに、このモードだと使えません。 「てん」や「まる」で句読点を打つことになります。 たぶんSafariでの検索を想定しているのかな。 キーワードの入力には句読点は要らないですからね。 でもテキストを書くときには欲しいです。 その使い分けを何か考

                                          音声入力はどこか「返事」を待ってしまう - Jazzと読書の日々
                                        • Google Chromeの拡張機能4選!AI、音声入力を使いこなせ | ライフハッカー・ジャパン

                                          1TBでこの価格。PCやテレビ、ゲームの容量不足を解消するシリコンパワーのmicroSD【楽天セール】

                                            Google Chromeの拡張機能4選!AI、音声入力を使いこなせ | ライフハッカー・ジャパン
                                          • macOS Sonomaの生産性アップに驚き!音声入力が劇的に便利&ウィジェット機能でタスク管理も楽々に

                                            macOS Sonomaの生産性アップに驚き!音声入力が劇的に便利&ウィジェット機能でタスク管理も楽々に Appleは9月26日、新しいmacOS Sonomaをリリースしましたが、OSのグレードアップとあってインストールを躊躇している人も多いのではないでしょうか? ここでは実際にSonomaをインストールしてみて特に便利だと感じた2つの機能を紹介します。日頃からmacOSを使うクリエイターに役立ちそうな機能なので、ぜひ使ってみて欲しいです。 macOS Sonomaの魅力と新機能macOS Sonomaは、Macの使用体験をさらに向上させるための多くの新機能を持っています。紹介ページには「仕事も遊びも一段とパワフルに」という表現があるように、ビデオ通話中に自分の姿をプレゼンテーション画面にオーバーレイ表示できたり、スローモーションを採用したスクリーンセーバなど、仕事や日常をより便利に、そ

                                              macOS Sonomaの生産性アップに驚き!音声入力が劇的に便利&ウィジェット機能でタスク管理も楽々に
                                            • BingのチャットAIが日本語での音声入力に対応、実際にマイクでAIに質問してみた

                                              Microsoftがデスクトップ向けのEdgeで、Bingの音声モードにアクセスできるアップデートを配信しました。このアップデートによって、Bingに統合された対話型AIによるチャット「Bing Chat」に音声を使って質問を行えるようになりました。また、日本語にも対応しているとのことで、実際にマイクを使ってBing Chatに日本語で質問をぶつけてみました。 Bing Preview Release Notes: Voice Chat on Desktop | Bing Search Blog https://blogs.bing.com/search/june-2023/Bing-Preview-Release-Notes-Voice-Chat-on-Desktop Bing’s chatbot now lets you ask questions with your voice on

                                                BingのチャットAIが日本語での音声入力に対応、実際にマイクでAIに質問してみた
                                              • 音声入力したものをAIにまとめてもらって日記とする - 43号線を西へ東へ

                                                近頃、いろいろ忙しいです。朝から一時間強も運動しているのが一番の理由ですが、そのせいでブログを書く時間が無くなりつつあります。 一時期音声入力にはまっていたのですが、最近電車移動を増えことですっかり音声入力のことを忘れていました。電車の中ではブツブツしゃべれないですからね。 昨晩、車の中で久しぶりにiPhoneの音声入力でメモを取りました。この音声入力メモをChatGPTに食わせて、いい感じにまとめてもらい、日記としたいと思います。 法人登記の挑戦と学び 忘れていた音声入力とアウトプットの停滞 ブログ再開への模索 最後に 法人登記の挑戦と学び 2024年6月4日、法人の登記を終わらせようと計画していたが、ネットで手続きができることを知り、挑戦してみた。 マイナンバーカードを使って法務局への届け出を行うには、同時に税務署や社会保険庁への届け出も必要であることが判明。 直接法務局に行けばスムー

                                                  音声入力したものをAIにまとめてもらって日記とする - 43号線を西へ東へ
                                                • ジャストシステム、音声入力もサポートする「一太郎2024」を発表 ATOK Passportも強化

                                                  ジャストシステムは、日本語ワープロソフト「一太郎」シリーズの最新版を発表した。2024年2月9日に発売される予定で、日本語入力アプリ「ATOK Passport」の機能強化も行われる。 ジャストシステムは2024年2月9日、日本語ワープロソフト「一太郎」シリーズの最新版「一太郎2024」「一太郎2024 プラチナ」を発売する。想定ライセンス価格(税込み)は、一太郎2024が2万500円、一太郎2024 プラチナが3万8830円となる。 両者には、既存の一太郎ユーザー向けの「バージョンアップ版」、同社アプリやMicrosoft Officeのライセンスを持っている人向けの「特別優待版」、学生/教員向けの「アカデミック版」、同社のサブスクリプションサービス「ATOK Passport」の契約者向けの「ATOK Passportユーザー優待版」のも用意される(価格は後述する)。

                                                    ジャストシステム、音声入力もサポートする「一太郎2024」を発表 ATOK Passportも強化
                                                  • 【入門】英会話は「ChatGPTの音声入力」で学べ

                                                    こちらのトピックス“生成AI最前線「IKIGAI lab.」”は、学び合うことを目的としたオンラインビジネスコミュニティ「OUTPUT CAMP meets AI」のメンバーで運営しています。 昨日から3話に分けて、「生成AIに興味はあるけど、何から始めればいいのかわからない...」という方に向けて、はじめの一歩を踏み出す3つの方法を掲載しています。 (今回は第二弾、ChatGPTとの対話!) 1️⃣ 画像生成に触れてみよう! 2️⃣ ChatGPTと話してみよう! 3️⃣ 作詞・作曲してみた! 早速ですが、ChatGPTのスマホアプリは使っていますか? スマホアプリに隠された機能。それは音声入力です。 Siriのような返答を思い浮かべた人もいると思いますが、ChatGPTはクオリティが違います。絶対に驚くので、ぜひ使ってみてください! 2️⃣ ChatGPTと話してみよう! GPTと話す

                                                      【入門】英会話は「ChatGPTの音声入力」で学べ
                                                    • マイクからの音声入力でLLMと話す(Whisper.cpp の example を利用) - Qiita

                                                      TL;DR WhisperはOpenAIによって開発された音声認識システムで、多言語対応の高精度なテキスト変換機能を提供します。 whisper.cppはWhisperモデルのC++実装であり、マイク入力からのリアルタイム文字起こしや、音声ベースのアプリケーション開発を容易に行うことができます。 修正されたwhisper.cppとllama.cppを組み合わせることで、マイクからの日本語音声入力を基にLLMと日本語で対話するシステムを構築できます。 使用環境 MacBook Pro CPU : Apple M2 Pro, 12core MEM : 32 GB OS : Sonoma 14.2.1 whisper と whisper.cpp WhisperはOpenAIによって開発された最先端の音声認識システムであり、様々な言語の音声をテキストに変換する能力を持っています。このシステムは、公

                                                        マイクからの音声入力でLLMと話す(Whisper.cpp の example を利用) - Qiita
                                                      • 議事録をとる時も便利!iPhoneやAndroidスマホでも使えるGoogleドキュメントの音声入力機能|@DIME アットダイム

                                                        Microsoft Officeの文書作成ソフト「Word」に似た機能が基本無料で使用できるグーグルの「Google ドキュメント」。同一のGoogleアカウントでログインしていれば、PCやスマートフォン、タブレットといったさまざまなデバイスから同じデータが確認できる、便利なアプリです。 そんなGoogleドキュメントには、キーボードを使わなくても文字入力ができる「音声入力」という機能があります。正確性は使用しているデバイスのマイク性能などによってある程度左右されますが、議事録作成のサポートなどにも活用できる機能で、PC、スマートフォンアプリのどちらでも使用できます。 本記事では、iPhone、Androidスマートフォン、Windows PCにて、Google ドキュメントの音声入力機能を使う方法を紹介していきます。 iPhone版Google ドキュメントアプリで音声入力を行う方法 ま

                                                          議事録をとる時も便利!iPhoneやAndroidスマホでも使えるGoogleドキュメントの音声入力機能|@DIME アットダイム
                                                        • ほぼテク9月27日ChatGPTの新機能で音声入力による会話が可能に!世界で先駆けて体験した感動をシェア!!!!!!!! — GROWTH JAPAN TECHNOLOGIES

                                                          ほぼテク9月27日ChatGPTの新機能で音声入力による会話が可能に!世界で先駆けて体験した感動をシェア!!!!!!!! ほぼテク読者の皆様、いつも大変ありがとうございます! 我妻裕太です。 GPTに関する連続投稿約155日目です! 本日のテーマはこちらです! ChatGPTの新機能で音声入力による会話が可能に!世界で先駆けて体験した感動をシェア!!!!新しいテクノロジーが登場する度に、我々の生活は劇的に変わっていきますが、今回は特に画期的な進化がありました。 OpenAIがリリースしたChatGPTの新バージョンには、テキスト生成だけでなく、画像と音声の理解、さらには音声出力も可能となりました。 この新機能を世界で先駆けて体験し、その感動を皆さんと共有したいと思います。 音声入力の素晴らしさ文字でのコミュニケーションは便利ですが、音声でのやり取りには比べ物にならないほどの直感性があります

                                                            ほぼテク9月27日ChatGPTの新機能で音声入力による会話が可能に!世界で先駆けて体験した感動をシェア!!!!!!!! — GROWTH JAPAN TECHNOLOGIES
                                                          1