並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 374件

新着順 人気順

音声処理の検索結果1 - 40 件 / 374件

  • やる夫で学ぶディジタル信号処理

    やる夫cry2 実験データの解析とかで信号処理をしなくちゃならないことが多くなってきたお… やる夫cry 数学でフーリエ解析とか習ったけど,真面目に聞いてなかったのでさっぱりわからないお… やる夫 だからやらない夫に教えてもらうお! やる夫で学ぶディジタル信号処理 東北大学 大学院情報科学研究科 鏡 慎吾 更新履歴 (最終更新: 2016.01.08 ) PDF版 アスキーアートがないと読む気にならないという方は,ページ上部の「アイコンを表示する」をクリックしてください.アスキーアートではないけど多少は助けになるかも知れません. 講演の機会を頂きました.ご関係各位に感謝します: やる夫で信号処理は学べるか ―東北大学機械知能・航空工学科における信号処理教育とウェブ教材― (依頼講演), 電子情報通信学会総合大会, AS-2-8, 九州大学伊都キャンパス, 2016年3月16日. [PDF]

    • 「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化

      Search, watch, and cook every single Tasty recipe and video ever - all in one place! News, Politics, Culture, Life, Entertainment, and more. Stories that matter to you. 「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化2月にβ版がリリースされたGoogle製の音声文字変換(Live Transcribe)アプリ。もともと聴覚障害者のために作られたアクセシビリティ機能だが、精度の高さから文字起こしとしても使えるのではないかと話題だ。来日中のプロダクトマネージャー、ブライアン・ケムラー氏に話を聞いた。

        「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化
      • Windowsでも自動文字起こしができる!議事録はGoogleドキュメントに任せろ

        情報管理LOGの@yoshinonです。 ここ最近は、「自動化」「音声入力」といったキーワードが、賑わっていますね。情報管理LOGでも、かなりこれについては激推ししています。さて今回は、文字起こしの自動化についてやってみたいと思います。文字起こしの自動化については、Macが先行していてWindowsの情報があまり見られなかったので、今回はWindowsについて深く掘り下げてみたいと思います。文字起こしの自動化が出来るようになると、議事録の作成などがほぼ自動化できるので、今まで苦痛だった仕事がとても楽になりますよ。 ※追記:Virtualが、Visualになっていましたので、修正しました…(恥ずかしい)。 ここ最近の自動文字起こし界隈(?)では、Mac勢がかなり優勢で盛り上がりを見せています。ここ最近の記事をいくつかご紹介します。 「神なの?」文字起こしが自動になる未来がやってきたとライター

          Windowsでも自動文字起こしができる!議事録はGoogleドキュメントに任せろ
        • 3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。MSが非公開にした技術のOSS版を試して実感した(CloseBox) | テクノエッジ TechnoEdge

          わずか3秒の元音声から本人そっくりな音声合成が可能な技術「VALL-E X」が誰でも使える形で公開されました。オープンソース版で、ローカルマシンからWebUIで利用できます。さっそくインストールして使ってみました。 以前、ディープラーニングベースの音声・歌声合成ソフトであるDiff-SVC、リアルタイム処理が可能なAIボイチェンRVCを紹介したとき、自分は記事タイトルに「驚異の」という形容詞を付けました。それでも学習には数十分の本人による音声データが必要で、そこまでのデータを用意するのは容易ではありません。それに対してVALL-E Xでは元データが3秒あれば本人に似た声を生成できるのです。

            3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。MSが非公開にした技術のOSS版を試して実感した(CloseBox) | テクノエッジ TechnoEdge
          • KORG AUDIO UTILITYがかなり使える!

            ここのところ、ポータブルレコーダーがいろいろ発売されているのでそのうちまとめてご紹介でもしようかと見ていたら、KORGがレコーダーの支援ソフトとして無料配布している「KORG AUDIO UTILITY」がいろいろと使いやすいことがわかりました。 KORG AUDIO UTILITYは、音声ファイルの簡易編集ができるソフトで、WavやAIFFといったファイルをWav、AIFF、MP3、WMAに変換(サンプリング周波数やビット数、ステレオorデュアルモノを選択可)して保存したり、音量レベルやバランスの調整、フェードイン/アウトの処理やメタデータ(ファイルのアーティストやタイトル、画像等)の一括変更、音声ファイルの統合やチャンネルリンク(モノラルのファイルを左右のステレオに分配)、音楽CDの読み込みやCD-R/CD-RWに書き出し(ノーマライズも可能)したりすることができる簡易的な音声編集ソフ

              KORG AUDIO UTILITYがかなり使える!
            • 高性能で無料、誰の声にでもなりきれるAIボイチェン「RVC WebUI」がついに日本語表示に対応(CloseBox) | テクノエッジ TechnoEdge

              オープンソースのAI声質変換(ボイスチェンジャー)ソフトウェア「RVC WebUI」が、日本語での表示に対応しました。 VITSという声質変換技術をベースにしたRVC(Retrieval-based Voice Changer)に、Webユーザーインタフェースを付加したのが「RVC WebUI」です。

                高性能で無料、誰の声にでもなりきれるAIボイチェン「RVC WebUI」がついに日本語表示に対応(CloseBox) | テクノエッジ TechnoEdge
              • AI歌声合成は、もう人の歌声と区別できないレベルに。東北イタコも追加されたNEUTRINOの新バージョン、0.400が無料でリリース|DTMステーション

                今年に入り、AI歌声合成の動きが激しく、その進化のすごさ、クオリティーの高さには驚くばかりです。中でも注目すべきは今年2月に彗星のように登場し、フリーウェアとして公開されたNEUTRINO(ニュートリノ)です。これはSHACHI(@SHACHI_NEUTRINO)さんが開発するフリーのソフトであり、これまで東北きりたん、謡子、そしてJSUT(いずれも学術的に公開されている歌声データベースを利用して開発している)の3つの歌声ライブラリが同梱されてました。そこに9月18日、新たに東北イタコが追加されたのです(9月18日現在、公開されている0.400には東北きりたん、東北イタコのみが同梱。それ以外については後日公開される模様です)。 先日、「AIきりたんに次ぐ第2のAIシンガー、東北イタコの歌唱データベース制作プロジェクトのクラウドファンディングスタート」という記事でも紹介し、無事にクラウドファ

                  AI歌声合成は、もう人の歌声と区別できないレベルに。東北イタコも追加されたNEUTRINOの新バージョン、0.400が無料でリリース|DTMステーション
                • 19歳・東工大2年生が社長。音声合成界に衝撃を与えたCoeFont STUDIOが目指すこれからの世界|DTMステーション

                  4月23日、彗星のように現れたネット上のサービス、CoeFont STUDIO(コエ・フォント・スタジオ)は、誰でも無料で使える音声合成サービスということで、瞬く間に広がり、2日で累計ユーザー数が6万人を突破。すでに20万人を超えるところまで来ているようです。日本語でテキストを入力すれば、非常に滑らかな声でしゃべってくれ、その音声をユーザーは商用を含めて自由に利用できるという画期的ともいえるサービスとなっているのです。 このサービスを立ち上げたのは、なんと東京工業大学2年生、19歳の早川尚吾さん。株式会社Yellstonを立ち上げ、その新サービスとして、CoeFont STUDIOをスタートさせたのです。もちろん株式会社ですから、今後ビジネス展開をしていくことを目論んでいるわけですが、それはCoeFont STUDIOの延長線上にあるもので、世の中を大きく変えていく可能性もありそうです。先

                    19歳・東工大2年生が社長。音声合成界に衝撃を与えたCoeFont STUDIOが目指すこれからの世界|DTMステーション
                  • Podcastle

                    Podcastle (ポッドキャッスル) とは Podcastle は、ポッドキャストの音声を日本語で検索できるサービスです。音声認識技術によって音声を文字に変換しています。その認識誤りは、ユーザが自由に訂正できます。詳しくは「Podcastleとは」をご覧下さい。

                    • Clubhouse リアルタイム配信の仕組みについて (妄想編)

                      Cloubhouse はすでに OSS である Janus Gateway に切り替えており Agora は使用していないようです ライセンス Creative Commons — 表示 - 非営利 - 改変禁止 4.0 国際 — CC BY-NC-ND 4.0 前提 @suthio_さんがつぶやいていたのがきっかけ https://twitter.com/suthio_/status/1353945619577008128?s=20 招待してくれた @dmnlk さんに感謝 DNS パケット見ただけ 他の方の解析は見ていない クライアント側の処理は知らない 気が向いたら更新している 著者 商用 WebRTC SFU 開発者 WebRTC プロトコルスタック実装者 End to End Encryption プロトコルスタック実装者 IRIAM 配信サーバ設計者 妄想 求人にメディアサーバ

                        Clubhouse リアルタイム配信の仕組みについて (妄想編)
                      • Clubhouse リアルタイム配信の仕組みについて (解説編)

                        Cloubhouse はすでに OSS である Janus Gateway に切り替えており Agora は使用していないようです ライセンス Creative Commons — 表示 - 非営利 - 改変禁止 4.0 国際 — CC BY-NC-ND 4.0 前提 ざっくりと雑に解説。 どんな技術を使っていてこんな感じだろうという妄想は以下をどうぞ。 Clubhouse リアルタイム配信の仕組みについて (妄想編) 著者 商用 WebRTC SFU 開発者 WebRTC プロトコルスタック実装者 End to End Encryption プロトコルスタック実装者 Clubhouse の仕組みはとてもシンプルで配信者が N 人で、それを数千人が聞くという co-streaming と呼ばれる仕組みの一つ。この方式は今までは主に映像ありでパネルディスカッション的な使い方が主だっだ。それを

                          Clubhouse リアルタイム配信の仕組みについて (解説編)
                        • ウェブアクセシビリティ支援音声読み上げサービスの第一人者 リードスピーカー・ジャパン

                          DIGITAL VOICE DESIGN あらゆるシーンに人の声を。 企業のDXをリードする 世界基準AI音声、 「リードスピーカー」

                            ウェブアクセシビリティ支援音声読み上げサービスの第一人者 リードスピーカー・ジャパン
                          • AIでボーカル・ドラムを取り出す、無料音声分離「Demucs」を試す【藤本健のDigital Audio Laboratory】

                              AIでボーカル・ドラムを取り出す、無料音声分離「Demucs」を試す【藤本健のDigital Audio Laboratory】
                            • AIボイチェン「RVC」の精度と学習・変換速度が革命的。コナンの蝶ネクタイ的リアルタイムボイチェンも可能(CloseBox) | テクノエッジ TechnoEdge

                              おいおいまたかよ、驚き屋かお前はと言われそうですが、またゲームチェンジャーなんですよ。ほんとすいません。全部AIが悪いんです。 AI関連はちょっと目を離すと取り残されてしまいます。後から来たのに追い越され、泣くのが嫌なら歩いていくしかないのです。今回、それが再びAI音声合成で起きました。 筆者はAIアートグランプリを受賞したおかげでいろいろなところから取材を受けたり自分でも解説記事を書いたりしていますが、その中で、Diffusion(拡散)モデルを使ったDiff-SVCというAI声質変換によってリアルな元音声を再現できると説明してきました。ですが、これからは「実は今は新しいAI技術を使っているんですよ」と付け加えなければいけません。 妻の歌声を合成するのに使っていたDiff-SVCから別の新しい技術に乗り換えてしまったのです。 Diff-SVCが出た後に、So-VITS-SVC(SoftV

                                AIボイチェン「RVC」の精度と学習・変換速度が革命的。コナンの蝶ネクタイ的リアルタイムボイチェンも可能(CloseBox) | テクノエッジ TechnoEdge
                              • 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

                                株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日 株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。 プロジェクトwebサイト:https://

                                  超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
                                • 絶対に覚えたい iPhone+Google音声検索・10の技 (1/4)

                                  12月に入ってから、グーグルはビックニュースを連発していた。 3日に公開した日本語入力システム「Google日本語入力」を皮切りに、7日にはリアルタイム検索サービスと画像を使った検索サービス「Google Goggles」を、英語向けサービスとして発表。8日にはGoogle Chromeで、Windows向けの拡張機能とMac版をリリースした(以上、すべてベータ版)。 そうした中で、iPhoneユーザーが絶対に注目しておきたいのが、7日に登場した「Google 音声検索」の日本語対応だ。現在はiPhoneとドコモの「HT-03A」といったAndroidで使える。 新要素のラッシュで埋もれてしまった感があるが、これはiPhoneの使い方を大きく変えるかもしれない重要な発表だ。音声入力というと、まだ「これからの技術」と考えている人も多いはず。しかし、このGoogle音声入力は、日本語の認識精度

                                    絶対に覚えたい iPhone+Google音声検索・10の技 (1/4)
                                  • AIきりたんの仕掛け人、森勢将雅准教授に聞く、AI歌声合成の世界で今起こっていること|DTMステーション

                                    すでにご存じの方も多いと思いますが、2月22日にAIきりたんなるものが登場し、大騒ぎとなりました。正確にはSHACHI(@SHACHI_KRTN)さんという方が開発したNEUTRINOというAI歌声合成ソフトがフリーウェアで公開されるとともに、それで歌わせた楽曲が、くろ州さんなどによって公開され、話題になったのです。2月22日は、ちょうどMIDI 2.0の日米合意があった日で、そのドタバタでネットをチェックできておらず、私が気づいたのは24日になってから。その歌声を聴いて驚愕しました。 実際どんなものなのかと、さっそくNEUTRINOをダウンロードし、手元にあったMusicXMLデータを元に歌わせてみると、従来のVOCALOIDなどとは別次元の人間的な歌声で、東北きりたんが歌ってくれてさらに驚いたのです。どういうことなのか知りたいと思い、開発者のSHACHIさんに連絡してみたところ「種々の

                                      AIきりたんの仕掛け人、森勢将雅准教授に聞く、AI歌声合成の世界で今起こっていること|DTMステーション
                                    • 高品質な音声変換ソフトウェア | Seiren Voice

                                      AIの技術を用いてクオリティを追求した、今までにない音声変換ソフトウェア。 いつもと違う声で表現することの楽しさを、ぜひ体験してみてください。 AI技術を用いた高品質な音声変換ソフトウェアです。 誰の声でも狙ったキャラクターの声に変換することができます。 クオリティを追求することで、ボイスチェンジャーらしいノイズが乗らない、 人間らしい声を実現することができました。 キャラクター紹介

                                        高品質な音声変換ソフトウェア | Seiren Voice
                                      • 美少女声への変換と合成

                                        Introduction今までは主に可愛い女の子の画像(or 動画)を生成することに取り組んできましたが、画面上に映せるようになったらやはり可愛い声で話して欲しいものです。そこで今回は、別の人の声が与えられた時に美少女声へと変換するための声質変換と、テキストが与えられた時に美少女声を生成するText-to-Speech(TTS)を行なった試行結果について述べようと思います。 Voice ConversionIntroduction声質変換のデータには2種類あります。それが、パラレルデータとノンパラレルデータです。以下にそれぞれの特徴を述べていきます。 パラレルデータを用いた声質変換 同じセリフを発する2種類の声を学習データとして用います。発話内容が同じのため、言語特徴を気にせず音響特徴量の変換を行うことが可能です。しかし、話速の違い等によって言葉を発するタイミングがずれてしまうのでDyna

                                          美少女声への変換と合成
                                        • ピアノの音だけなのに本当に人が話しているように聞こえる、驚異的なしゃべるピアノのムービー

                                          しゃべるピアノといってもスピーカーから声が出るわけでも、人間の会話の音階だけを再現したわけでもなく、コンピューター制御により演奏されるアコースティックピアノの複雑な分散和音が本当に人間の声のように聞こえるという驚異的なムービーです。 これはオーストリアの文化団体Wien Modernと作曲家Peter Ablinger氏によるプロジェクトで、10月2日からベネチアで開催されたWorld Venice Forum 2009でピアノが「Proclamation of the European Environmental Criminal Court(ヨーロッパ環境犯罪撲滅宣言)」を読み上げました。 詳細は以下から。YouTube - Speaking Piano - Now with (somewhat decent) captions! ナレーションはドイツ語ですが、ピアノがしゃべるのは英語

                                            ピアノの音だけなのに本当に人が話しているように聞こえる、驚異的なしゃべるピアノのムービー
                                          • OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能

                                            画像生成AI「DALL・E 2」や文章生成AI「GPT-3」といった高性能AIを開発してきたAI開発組織のOpenAIが、新たに音声を超高精度で認識して文章に書き起こせるAI「Whisper」を発表しました。発表と同時に公開されたサンプルでは「早口のセールストーク」や「ハイテンポな曲の歌詞」などの音声でも問題なく文字起こしできる性能の高さが示されています。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper Whisperはインターネット上から収集された合計68万時間におよぶ音声データでトレーニングされた文字起こしAIです。OpenAIのブログ記事には「早口のセールストーク」「K-POPの曲」「フランス語」「独特なアクセン

                                              OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能
                                            • 超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた

                                              東京に拠点を置くテクノロジー企業「レアゾン・ホールディングス」が、1万9000時間に及ぶ国内最大級の日本語音声コーパス「ReazonSpeech」を無償公開しました。同時に、OpenAIが開発した超高性能音声認識AI「Whisper」に匹敵する性能をアピールする文字起こしサービスも公開されていたので、実際に使ってみました。 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開 - Reazon Human Interaction Lab https://research.reazon.jp/news/reazonspeech.html ReazonSpeech - Reazon Human Interaction Lab https://research.reazon.jp/projects/ReazonSpeech/ レアゾン・ホールディングスは「R

                                                超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた
                                              • SpotifyがPythonオーディオエフェクトライブラリ「Pedalboard」をオープンソース化 - すでに約1年間の社内使用を経ていてstage ready

                                                  SpotifyがPythonオーディオエフェクトライブラリ「Pedalboard」をオープンソース化 - すでに約1年間の社内使用を経ていてstage ready
                                                • 音楽とサウンド生成のための「Stable Audio」を発表 — Stability AI Japan

                                                  Stability AI は、音楽とサウンド生成のための初のAIモデルとなる Stable Audio を発表しました。 Stable Audio は、最新の生成 AI 技術を駆使し、使いやすい Web インターフェースを介して、より高速で高品質な音楽とサウンドエフェクトを提供する世界初の製品です。Stability AI は、45秒までのトラックを生成してダウンロードできる Stable Audio の基本無料版と、商用プロジェクト用にダウンロード可能な90秒のトラックを提供する「Pro」サブスクリプションを提供しています。 StabilityAI の CEO である Emad Mostaque は、「唯一の独立した、オープンでマルチモーダルな生成 AI の会社として、音楽クリエイターをサポートする製品を開発するために私たちの専門知識を活用できることを嬉しく思います。私たちの願いは、St

                                                    音楽とサウンド生成のための「Stable Audio」を発表 — Stability AI Japan
                                                  • リアルタイム声質変換ライブラリ「Realtime Yukarin」を公開しました

                                                    はじめにリアルタイム声質変換アプリケーション、Realtime Yukarinを開発し、 OSS(オープンソースソフトウェア)として公開しました。 ここで言う声質変換とは、「誰でも好きな声になれる」技術のことを指します。 好きな声になれる声質変換は夢があって流行りそうなのですが、まだ全然普及していないと思います。 それは現時点で、声質変換を実際にリアルタイムで使えるフリーな仕組みが無いためだと考えました。 そこで、自由に使えるリアルタイム声質変換アプリケーションを作り、ソースコードと合わせて公開しました。 声質変換とは声を変える方法で有名なのは、声の高さや音色を変える手法、いわゆるボイスチェンジャーです。 既存のボイスチェンジャーは、元の声を起点として、変換パラメータを自分で調整する必要があります。 一方ここでの声質変換は、元の声と好きな声を用いて機械学習し、変換パラメータを自動で調整しま

                                                    • 初音ミクと「ゆっくり」の声、何が違う? アクエスト社に聞く (1/5)

                                                      ニコニコ動画好きなら、東方Projectの派生キャラクター「ゆっくり」の声はご存知のはず。 「SofTalk」(ソフトーク)という無償ソフトを使って作られた、独特の間延びした口調はまさに「ゆっくり」としか言いようがないわけだが、そのソフトークが使っている音源ライブラリの名を「AquesTalk」(アクエストーク)という。 またUTAU(関連記事)のデフォルト音声として有名な「唄音ウタ」、通称デフォ子の音源も、実はこのAquesTalkだ。 AquesTalkは株式会社アクエストが開発し、無償頒布している音声ライブラリ。元来組み込み向けに開発されたため、非常に容量が小さい。現在はAquesTalk2に発展したが、それでも音声データ込みでわずか約50KBという軽さ。これは競合するものがない。 アクエスト社自身でも、このAquesTalkのライブラリを使った歌唱ソフト「AquesTone」を開発

                                                        初音ミクと「ゆっくり」の声、何が違う? アクエスト社に聞く (1/5)
                                                      • AquesTalk - テキスト音声合成ミドルウェア

                                                        規則音声合成エンジン AquesTalkシリーズ 組み込み用に開発された小型軽量のエンジンで、テキスト情報(音声記号列)をリアルタイムに音声に変換して出力します。 これまで数百万台の機器に実装されています。現在、AquesTalk10/AquesTalk pico/AquesTalk2/AquesTalk1の4種類のエンジンがあります。 それぞれ音声生成アルゴリズムが違うため、声質が異なります。声質や動作に必要なリソース量を考慮してエンジンを選択します。 エンジン種類 AquesTalk pico シリーズ中、最小サイズのエンジンです。RAM500byte、ROM30Kbyte、8bit CPUという比類ない極小リソースでリアルタイムの音声合成ができます。リソース制約の厳しい小型の組み込み機器に適しています。 このエンジンを1チップマイコンに組み込んだ音声合成LSI AquesTalk p

                                                        • 「ローゼン」真紅が思い通りにしゃべります NECの音声合成実験サイト

                                                          NECビッグローブ、東京放送(TBS)、マウスプロモーションは12月17日、テキストを入力すると、アニメ「ローゼンメイデン」のヒロイン・真紅が読み上げるアニメを作成できる「Alice Project」を開設した。音声合成エンジンの精度向上が目的で、2~3カ月の期間限定。ユーザー登録すれば誰でも利用できる。 100文字までのせりふを入力すると1秒ほどで音声合成し、せりふに合わせて口を動かす真紅の動画を作成・公開できる。真紅の声を担当する声優の沢城みゆきさんの声のデータベースをもとに、NEC共通基盤ソフトウェア研究所が開発した音声合成エンジンで合成する。 発音は自然で、真紅のツンとした感じも伝わってくる。ただ文章によっては、アクセントの位置がおかしかったり、言葉を区切る位置が不自然な場合もあり、修正ページで調整できる。 アクセントの位置や音の高さ、話すスピードなどを調整し、より自然な声に近づけ

                                                            「ローゼン」真紅が思い通りにしゃべります NECの音声合成実験サイト
                                                          • vozMe - From text to speech

                                                            • ggsoku.com

                                                                ggsoku.com
                                                              • あなたの声で歌うソフト「UTAU」の奇妙な世界 (1/5)

                                                                歌声合成ソフトと言えばVOCALOID(ボーカロイド)シリーズだが、今やそれに次ぐ勢力と言えるのが、フリーソフト「UTAU」だろう。2008年3月の登場以降、徐々に進化を続け、ネット発の楽曲制作ツールとして独自の存在感を持つに至った。 VOCALOIDとの大きな違いは「中の人」を自前で作れること。指定された130個程度の音素を録音し、UTAU側で設定すれば、誰でも自分の声で歌わせられる。UTAUの魅力はそうした自由度の高さにあり、ユーザーが制作した音源、UTAUで作成された楽曲が大量に公開されている。 このようにVOCALOIDと比較されがちなUTAUだが、どうやら商用ソフトとはまったく異質の進化を遂げるに至ったようだ。その経緯を開発者の飴屋・菖蒲(あめや・あやめ)さんに伺っている。(以下、文中では飴屋さん) 音響信号処理は専門外だった ―― 飴屋さんは音響信号処理を研究されているとか?

                                                                  あなたの声で歌うソフト「UTAU」の奇妙な世界 (1/5)
                                                                • 自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO

                                                                  自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた はじめに 今回は、OpenAIのWhisper APIとAmazon Transcribeという2つの音声文字起こしサービスを試し、それぞれの精度を比較してみました。 Amazon Transcribeは、音声をテキストに変換する自動音声認識サービスです。 ストリーミングとバッチ処理のどちらでも文字起こしが可能です。 攻撃的な言葉を指定すると、Amazon Transcribeがそれらの言葉を文字起こしから自動的に削除する語彙フィルタリングなどの機能もあります。 Amazon Transcribeの詳細は、下記の記事をご参考ください。 OpenAIには音声をテキストに変換する「Whisper」という音声認識モデルがあり、WhisperをAPIの形で呼び

                                                                    自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO
                                                                  • 特定楽器の音を抜き出せる画期的ソフト、SpectraLayers Pro誕生!|DTMステーション

                                                                    DTMソフトというかオーディオエディットソフトに、またトンでもなくすごいものが現れました。ある種、革命的ソフトといってもいいと思うのですが、米SONY CREATIVE SOFTWAREのSpectraLayeres Pro(標準価格39,900円)というのがそれ。ご存知ソニーのアメリカ子会社であり、ループシーケンサのACIDや波形編集ソフトのSoundForgeなどを開発しているところが出した今回の製品は、従来とはまったく概念の異なるアプローチで音を加工できるソフトなのです。 私も、以前ニュース記事を見て、その存在は知っていたのですが、難しそうで何をするソフトなのか、理解できていませんでした。しかし、実際に触ってみると、ちょっと驚くべき内容でした。国内では12月21日より発売される製品の評価版を一足早く借り、私もインストールしたばかり。そのため、まだ使い方をしっかり把握できているわけでは

                                                                      特定楽器の音を抜き出せる画期的ソフト、SpectraLayers Pro誕生!|DTMステーション
                                                                    • Stability AI、無料で起承転結のある最大3分の音楽を生成可能な「Stable Audio 2.0」を公開/テキストだけでなくアップロードしたオーディオから音楽を生成可能に

                                                                        Stability AI、無料で起承転結のある最大3分の音楽を生成可能な「Stable Audio 2.0」を公開/テキストだけでなくアップロードしたオーディオから音楽を生成可能に
                                                                      • AI作曲「Suno」新バージョンがWAV高音質化、最長4分の曲を一発でエンディングまで完成。無修正で良曲量産可能に(CloseBox) | テクノエッジ TechnoEdge

                                                                        このところUdioやSonautoの新機能搭載で押され気味だったAI作曲サービスの「Suno」が反撃に出ました。 バージョン3.5のEarly Access版(有料プランユーザーのみに提供)を利用すると、これまでの2分間制限が最長4分まで拡大。延長時間も従来の1分を2分に伸ばしています。これだけの長さがあれば大抵のポピュラー曲はエンディングまでいけます。 4分の曲をUdioで生成しようとすると、8回の命令が必要になります。さらに、生成に要する時間はUdioの方がはるかに長くかかるので、全体としての作業時間には大きな差が生じます。それがSuno 3.5ならば数秒でできてしまうのです。 また、Style of Musicのキーワードがサジェストされるようになっていて便利です。文字数制限は相変わらずきついですけど。 さらにうれしいのは、日本語歌詞の読み方が、従来は間違いが多かったのが、ほぼ問題な

                                                                          AI作曲「Suno」新バージョンがWAV高音質化、最長4分の曲を一発でエンディングまで完成。無修正で良曲量産可能に(CloseBox) | テクノエッジ TechnoEdge
                                                                        • wav ファイルフォーマット

                                                                          'fmt ' チャンク構造体 #define FormatID 'fmt ' /* chunkID for Format Chunk. NOTE: There is a space at the end of this ID. */ typedef struct { ID chunkID; long chunkSize; short wFormatTag; unsigned short wChannels; unsigned long dwSamplesPerSec; unsigned long dwAvgBytesPerSec; unsigned short wBlockAlign; unsigned short wBitsPerSample; /* Note: there may be additional fields here, depending upon wFormatTa

                                                                          • Introducing ChatGPT and Whisper APIs

                                                                            Developers can now integrate ChatGPT and Whisper models into their apps and products through our API. ChatGPT and Whisper models are now available on our API, giving developers access to cutting-edge language (not just chat!) and speech-to-text capabilities. Through a series of system-wide optimizations, we’ve achieved 90% cost reduction for ChatGPT since December; we’re now passing through those

                                                                              Introducing ChatGPT and Whisper APIs
                                                                            • PENTAX 製品紹介:音声ソリューション

                                                                              いつも「ペンタックス音声合成ソフトウェア」のWEBサイトを ご利用いただきまして誠にありがとうございます。 WEBサイトのアドレスが変更となりましたのでお知らせ致します。 大変お手数ですが、下記の新アドレスからのご利用をお願い致します。 新アドレス 「 http://voice.pentax.jp/ 」 今後とも「ペンタックス音声合成ソフトウェア」を宜しくお願い致します。

                                                                              • 自分の声をキャラクターの声にリアルタイム変換するSFのような技術、リアチェンvoiceが楽器フェアに登場!|DTMステーション

                                                                                音声信号処理により、自分の声をまったく別の人の声に変換するというSFのような技術が登場してきました。東京・世田谷区にあるクリムゾンテクノロジーが開発した「リアチェンvoice」というのがそれ。リアル&リアルタイムに音声を変換する、ということから名付けられているそうですが、すでに8月から販売も開始されているという現実となっている技術なのです。 奈良先端科学技術大学院大学の戸田智基客員教授(名古屋大学教授)の戸田智基教授の研究グループとクリムゾンテクノロジーによる共同開発で、製品は標準版とプロ版の2種類。実際、どのくらい使えるものになっているのかを見てきましたので、紹介してみたいと思います。 リアルタイムにしゃべる声をキャラクターの声に変換するリアチェンvoice 最近、ゆるキャラの着ぐるみが各地で活躍しています。ただ、ゆるキャラをしゃべらせるとなると、なかなか無理も生じてきます。アニメなどの

                                                                                  自分の声をキャラクターの声にリアルタイム変換するSFのような技術、リアチェンvoiceが楽器フェアに登場!|DTMステーション
                                                                                • writeout.ai

                                                                                  Transcribe and translate any audio file. Upload your audio file and get a transcript in seconds. Writeout.ai is a free online transcription service.

                                                                                    writeout.ai