Whisperで文字起こしした文章をいい感じにしたい 注:あくまで個人的な使用を前提とした文字起こしの方法の紹介です。許可なく、他人のコンテンツを全部文字起こしして公開すると、著作物の改変などの問題になる可能性があると思います タイトル通りです。 Whisperで文字起こしをしました。 ただ、以下のように句読点がない文章になってしまい、読みづらいです。 樋口 世界の歴史キュレーションプログラム コテンラジオ樋口 世界の歴史キュレーションプログラム コテンラジオパーソナリティーの株式会社ブック代表樋口清則 です深井 そして株式会社コテンの深井 隆之介です樋口 そして株式会社コテンの楊 英史です樋口 このラジオは歴史を愛し歴史 の面白さを知りすぎてしまった深井さんを代表とする株式会社 コテンのお二人と一緒に学校の授業ではなかなか学べない国内外 の歴史の面白さを学んじゃおうという番組ですよろしく
自分の備忘録としてのやってみた系の話。OpenAIが提供するモデルを使って文字起こしをするC++実装のwhisper.cppを試してみた。 環境 Apple M1 MacBook Air 2020 (Memory 16GB) uname -a Darwin hogehoge.local 22.3.0 Darwin Kernel Version 22.3.0: Mon Jan 30 20:39:35 PST 2023; root:xnu-8792.81.3~2/RELEASE_ARM64_T8103 x86_64 whisper.cppのビルド 以下のコマンドを実行してビルドする。 git clone https://github.com/ggerganov/whisper.cpp.git cd whisper.cpp make ビルドが成功すると、カレントディレクトリに main という名
LINEの音声認識AIによるテキスト変換機能を無料提供 複数名の話者分離を可能とした会議の議事録作成や書き起こしにマルチデバイスで対応 LINE株式会社(本社:東京都新宿区、代表取締役社長:出澤 剛)は、LINEのAIテクノロジーブランド「LINE CLOVA」より、「会話を目で見る」ことができる無料のAI音声認識アプリ「CLOVA Note(クローバ・ノート)」のβ版の提供を本日5月24日(火)より開始しましたので、お知らせいたします。 「CLOVA Note」は、LINE CLOVAのAI技術である「CLOVA Speech(音声認識)」の音声認識AIによって、録音した声をテキストに変換するAI音声認識アプリです。アプリをインストールし、スマートフォンやタブレットの録音ボタンを押すだけで、誰でも簡単にご利用いただけます。学校での授業やセミナーなどの書き起こしメモだけでなく、録音時の複数
アプリや専用デバイスを使った、日本語の「自動文字起こし」に関連するサービスには、近年多くの関心が集まっている。背景にはスマホやAIを活用する音声認識のテクノロジーが飛躍を遂げたことや、コロナ禍の影響を受けてリモートワークが普及したことなどがある。iPhoneに対応する「UDトーク」も自動文字起こしに対応する注目のアプリだ。開発者に特徴を聞いた。 iPhone/iPadでも使える日本語対応の自動文字起こしアプリ コミュニケーション支援・会話の見える化アプリをうたう「UDトーク」は、Shamrock Records(シャムロック・レコード)の代表兼エンジニアである青木秀仁氏が開発を手がけている。 モバイル版アプリはiOS/Android/Fire OSの各プラットフォームに対応する。ほかにも音声認識の結果を修正したり、事前に作成した原稿をスマホやタブレットに送信する一部機能を搭載するMac版/
本連載は、マイクロソフトのソリューション「Microsoft 365」に含まれるSaaS型デスクトップ&Webアプリケーション(以下、アプリ)「Office 365」について、仕事の生産性を高める便利機能や新機能、チームコラボレーションを促進する使い方などのTipsを紹介する。 Office 365を使いこなして仕事を早く終わらせたい皆様にお届けする本連載。今回はWord Onlineのトランスクリプト機能に注目する。 もう1つの音声テキスト化機能「トランスクリプト」とは 以前の記事でもご紹介したように、デスクトップ版Wordは音声から文字を書き起こす「ディクテーション」機能を備えているが、他方でWebブラウザーから使用するWord Onlineはディクテーションとは別に「トランスクリプト」機能を用意している。
米アマゾン・ウェブ・サービス(Amazon Web Services)は2019年11月21日(米国時間)、音声からの文字起こしAI(人工知能)サービス「Amazon Transcribe(トランスクライブ)」の対応言語に、日本語など7言語を追加したと発表した。Amazon Transcribeを利用すると、コールセンターや動画配信などのシステムに日本語の文字起こし機能を組み込みやすくなる。 Amazon Transcribeは保存された音声・動画ファイルからの文字起こしに加え、音声・動画のストリームデータを基にした即時の文字起こしも可能だ。今回はこれらのうち音声・動画ファイルからの文字起こしで日本語に対応した。
前回、自動文字起こしについて書きましたが、 note103.hateblo.jp 今回は、文字起こしをせずにインタビュー記事を書く方法について書いてみます。 事例 作業の流れ 原稿編 キーワード起こし編 キーワード起こし/キーワードマップ キーワードマップの効果と由来 時短・省力化 木彫か粘土か 原稿作成の手順 1. 事前に用意した質問を並べて原稿の叩き台にする 2. 質問の内容やカテゴリ(小見出し)を実態に即して調整 3. 想像力で回答を埋めていく 4. 記憶が曖昧な箇所をキーワードマップで確認する 5. 通して読める原稿に仕上げる(分量は調整不要) 6. 原稿の仕上げ。分量調整 まとめ 事例 これについてはすでに適用事例がありまして、もう1ヶ月以上前になりますが、以下の記事をこの方式で書きました。 geek-out.jp 普段引きこもりがちなぼくにしては珍しく、このときは山口まで出張し
文章を書く仕事をしている多くのライターが苦手にしている作業のひとつに、かつて「テープ起こし」と呼ばれ、いまは「文字起こし」と呼ばれるものがあります。 これは取材やインタビューを行う際に録音したものを聞き返して、逐一正確に文字にしていく作業なのですが、とにかく単調で集中力が必要です。僕はこの作業が苦手ですぐ集中力が切れてしまうので、たとえば60分のインタビューの文字起こしをしようとすると、だいたいその3倍以上の時間がかかることを覚悟しなければなりません。 ある日、たまたま後輩と一緒にインタビューの仕事をしているときに、後輩が僕にこう言いました「新野さん、もし文字起こしを自動でやってくれるソフトがあったら僕は100万円出してもいいですよ」と。 まったく同感でした。この先ずっと、必要な時にいつでも機械がその場で自動的に文字起こしをしてくれるのなら、100万円ぐらい払ってもいい(僕もたまにクラウド
森永です。 発表多すぎててんやわんやです。すごい! Amazon Transcribe – Accurate Speech To Text At Scale | AWS News Blog Amazon Transcribeとは 音声ファイルをS3に配置してAmazon Transcribeを実行すると、スピーチを文字に起こしてくれるサービスです。 鮮明な音声だけでなく、電話音声など不鮮明なものでもかなりの精度で文字起こし可能とのことです。 コールセンターなどでめちゃくちゃ使えそうですね。 現在対応している言語は英語(US)とスペイン語です。 音声ファイルの形式はWAV, MP3, Flacなど様々な形式に対応している模様です。 今後、複数話者がいる場合に話者を認識してテキストに属性をつけたり、専門用語や造語などを追加登録したりできるようになるようです。 現在はプレビューでの提供のみです。
クラウドの音声認識APIはライターの「文字起こし」に使えるか? ライターたちが実際のインタビューの録音データで評価してみた ライターの仕事のなかでも手間がかかるのが、インタビューや講演などの録音データを聞きながら逐一正確に文字にしていく、いわゆる「文字起こし」と呼ばれる作業です。 この作業が高度化するクラウドの音声認識APIを使って自動化できたなら、どんなに楽か。多くのライターがそう夢見ていることでしょう。僕もそうです。 もちろんそれはライターの仕事だけでなく、会社の議事録や講演録などにも応用できるでしょうから、そのインパクトは非常に大きいものでしょう。 そこで、僕は現時点で音声認識APIは文字起こしの用途にどれだけ使えるのかを調べるため、クラウド関連の開発で有名な「ハンズラボ」さんと一緒に音声認識クラウドAPIを評価するプロジェクトを立ち上げました。 この経緯については9月27日の記事「
こんにちは、ryoです。 講義や会議など「録音しておいたけど、確認したい箇所がなかなか見つからない…」なんて経験、意外とありますよね。 この手間が省けるのがICレコーダーアプリ『Recoco』。なんと音声を認識して自動で文字に起こしてくれるんです。 今回はその精度も試してみましたよ! 音声認識システム搭載のボイスメモアプリ「Recoco」 今回ご紹介するアプリ『Recoco』はただ音声を保存するだけではなく、発言内容を音声認識によって自動で文字に起こしてくれる機能を持っています。 後から内容を確認したい時に音声をそのまま聞き直すよりも、テキストを読み直すの方が圧倒的に速いですよね。 また、自分でタグを付けられる機能がついているので、重要な発言の見落としも少なくなりますよ。 しかし気になるのが音声認識の精度。今の技術では十分な音量がある場合でも、音声を完璧に文字化するのは難しいのでは…? そ
「“音声認識を使って効率的にテープ起こしをする”をテーマに、現在の代表的な音声認識ソフトやサービス、テープ起こしをする際におすすめのもの、音声認識を使ってテープ起こしを効率的にする方法などについて、まとめる」 次の表は(1)でも紹介した、代表的な音声認識ソフトやサービスをまとめたものだ。スタンドアロン型のものだと選択肢は少なく対応環境も限られるが、クラウド型のものも含めるとユーザーは多くの選択肢からその環境や用途に合ったものをチョイスできるようになる。 機密情報を含んだ音声を起こす場合は(2)で述べたように基本的にオフラインで音声認識が使えるスタンドアロン型のものをおすすめするが、クラウド型のものはその仕組みからスタンドアロン型のものより高精度な認識が期待できるだけでなく、無料あるいは安価で使用できるものも多い。特に機密情報を含んだ音声でもなく、またクラウド型の音声認識を使っても問題ないと
仕事のできる人はメモ上手だ。どんな仕事でも話を聞いてメモを取るのは基本中の基本。新聞記者はあらゆるシーンで取材メモを書くプロ。すぐに使えるベテラン記者のマル秘メモテクニックを紹介しよう。 工夫して自分流に略語を開発する 作家の開高健は、「文章力はメモ次第。メモがうまく取れていれば、作品はできたようなものだ」と力説していたという。作家に限らず人の話を聞いてメモを取ることは、どんな仕事をするうえでも基本中の基本だ。特に新聞記者は毎日の取材の中でメモを取り、文章という形に仕上げていくプロ。新聞記者はテープレコーダーに頼らず、メモだけで1時間程度の談話であれば文章にすることができるように訓練をするという。 政治部のデスクとして現場を仕切った経験もある50代の全国紙編集委員の唐澤武樹氏(仮名)は、「若い部下にはICレコーダーを使っている人が多いが、自分は断然メモ派です。テープ起こしは結構な時間がかか
気づき そもそも文字起こしとは そもそも文字起こしとは(2) 音声入力による文字起こしの実践法(Mac) 1. 素材音声の再録音 2. Soundflowerの準備 3. Mac内部で再生+聞き取り 4. 音声ファイルが終わるまで再読み込みなどのケア まとめ 〜そしてtextlint編へ〜 続編 気づき 少し前にこのようなことに気がついた。 ひえーすごい発見をした。音声入力で文字起こし作業をナシにできないかなあ、と思って対談の音声データをiPhoneのそばで大音量で再生したけど全然認識せず。ですよねー、と一旦諦めた後にふとイヤホンで聴きながらシャドウイング的に自分で喋ったらだいぶテキスト化された(笑)これはいいのでは— Hiroaki Kadomatsu (@note103) 2016年7月6日 「いずれそうなるだろう」とは思っていたが「まだしばらく先のことだろう」とも思っていた現実が、想
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く