並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 374件

新着順 人気順

音声処理の検索結果1 - 40 件 / 374件

  • 高校レベルの数学から大学の教養数学くらいまでを独学/学び直した - razokulover publog

    去年の12月頃から数学の学び直しを始めた。 職業柄少し専門的な、特に機械学習の方面の書籍などに手を出し始めると数式からは逃れられなかったりする。とはいえ元々自分は高校時代は文系で数学1A2Bまでしか履修していない。そのせいか少し数学へ苦手意識があり「図でわかるOO」とか「数学無しでもわかるOO」のような直感的に理解出来る解説に逃げることが多かった。実務上はそれで問題ないにしてもこのまま厳密な理解から逃げているのも良くないなと感じたのでもう少し先の数学に取り掛かることにした。 巷には数学の学び直しについての記事が既にたくさんある。それに自分の場合は何かの受験に成功した!とか難関の資格を取得した!というような華々しい結末を迎えている状態ではない。そんな中で自分が何か書いて誰の役にたつかもわからないが、少なくとも自分と似たようなバックグランドを持つ人には意味のある内容になるかもしれないので、どの

      高校レベルの数学から大学の教養数学くらいまでを独学/学び直した - razokulover publog
    • 無償で使えるプロ仕様の映像編集ソフト「DaVinci Resolve」を導入する(for Win/Mac/Linux) | DevelopersIO

      弊社主催のオンラインイベント、Developers.IO 2020 CONNECT! みなさんはもう参加されましたでしょうか。 今回ぼくもこちらに参加し、2本の動画をあげました。 その動画編集につかったのが、標題にも書きました Blackmagic Design 社製の「DaVinci Resolve 16」です。 こちらはプロユースの本格的な機能が備わっている一方で無償でも使え1、今回のようなセッション動画向けの編集程度であれば、3年落ちのMacBook Pro 13inch2でもそこそこの速度で動きます。 むしろZoomやQuickTime Playerで撮ったままの720p・1080pサイズのMP4ビデオ・AACオーディオ、つまり不可逆圧縮された素材をそのままタイムラインに配置してストレスなく動いてくれるので、サブスクリプションなし・登録のみで使えることを考えれば、今回の用途において

        無償で使えるプロ仕様の映像編集ソフト「DaVinci Resolve」を導入する(for Win/Mac/Linux) | DevelopersIO
      • 「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化

        Search, watch, and cook every single Tasty recipe and video ever - all in one place! News, Politics, Culture, Life, Entertainment, and more. Stories that matter to you. 「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化2月にβ版がリリースされたGoogle製の音声文字変換(Live Transcribe)アプリ。もともと聴覚障害者のために作られたアクセシビリティ機能だが、精度の高さから文字起こしとしても使えるのではないかと話題だ。来日中のプロダクトマネージャー、ブライアン・ケムラー氏に話を聞いた。

          「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化
        • 3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。MSが非公開にした技術のOSS版を試して実感した(CloseBox) | テクノエッジ TechnoEdge

          わずか3秒の元音声から本人そっくりな音声合成が可能な技術「VALL-E X」が誰でも使える形で公開されました。オープンソース版で、ローカルマシンからWebUIで利用できます。さっそくインストールして使ってみました。 以前、ディープラーニングベースの音声・歌声合成ソフトであるDiff-SVC、リアルタイム処理が可能なAIボイチェンRVCを紹介したとき、自分は記事タイトルに「驚異の」という形容詞を付けました。それでも学習には数十分の本人による音声データが必要で、そこまでのデータを用意するのは容易ではありません。それに対してVALL-E Xでは元データが3秒あれば本人に似た声を生成できるのです。

            3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。MSが非公開にした技術のOSS版を試して実感した(CloseBox) | テクノエッジ TechnoEdge
          • 高性能で無料、誰の声にでもなりきれるAIボイチェン「RVC WebUI」がついに日本語表示に対応(CloseBox) | テクノエッジ TechnoEdge

            オープンソースのAI声質変換(ボイスチェンジャー)ソフトウェア「RVC WebUI」が、日本語での表示に対応しました。 VITSという声質変換技術をベースにしたRVC(Retrieval-based Voice Changer)に、Webユーザーインタフェースを付加したのが「RVC WebUI」です。

              高性能で無料、誰の声にでもなりきれるAIボイチェン「RVC WebUI」がついに日本語表示に対応(CloseBox) | テクノエッジ TechnoEdge
            • AI歌声合成は、もう人の歌声と区別できないレベルに。東北イタコも追加されたNEUTRINOの新バージョン、0.400が無料でリリース|DTMステーション

              今年に入り、AI歌声合成の動きが激しく、その進化のすごさ、クオリティーの高さには驚くばかりです。中でも注目すべきは今年2月に彗星のように登場し、フリーウェアとして公開されたNEUTRINO(ニュートリノ)です。これはSHACHI(@SHACHI_NEUTRINO)さんが開発するフリーのソフトであり、これまで東北きりたん、謡子、そしてJSUT(いずれも学術的に公開されている歌声データベースを利用して開発している)の3つの歌声ライブラリが同梱されてました。そこに9月18日、新たに東北イタコが追加されたのです(9月18日現在、公開されている0.400には東北きりたん、東北イタコのみが同梱。それ以外については後日公開される模様です)。 先日、「AIきりたんに次ぐ第2のAIシンガー、東北イタコの歌唱データベース制作プロジェクトのクラウドファンディングスタート」という記事でも紹介し、無事にクラウドファ

                AI歌声合成は、もう人の歌声と区別できないレベルに。東北イタコも追加されたNEUTRINOの新バージョン、0.400が無料でリリース|DTMステーション
              • 19歳・東工大2年生が社長。音声合成界に衝撃を与えたCoeFont STUDIOが目指すこれからの世界|DTMステーション

                4月23日、彗星のように現れたネット上のサービス、CoeFont STUDIO(コエ・フォント・スタジオ)は、誰でも無料で使える音声合成サービスということで、瞬く間に広がり、2日で累計ユーザー数が6万人を突破。すでに20万人を超えるところまで来ているようです。日本語でテキストを入力すれば、非常に滑らかな声でしゃべってくれ、その音声をユーザーは商用を含めて自由に利用できるという画期的ともいえるサービスとなっているのです。 このサービスを立ち上げたのは、なんと東京工業大学2年生、19歳の早川尚吾さん。株式会社Yellstonを立ち上げ、その新サービスとして、CoeFont STUDIOをスタートさせたのです。もちろん株式会社ですから、今後ビジネス展開をしていくことを目論んでいるわけですが、それはCoeFont STUDIOの延長線上にあるもので、世の中を大きく変えていく可能性もありそうです。先

                  19歳・東工大2年生が社長。音声合成界に衝撃を与えたCoeFont STUDIOが目指すこれからの世界|DTMステーション
                • Clubhouse リアルタイム配信の仕組みについて (妄想編)

                  Cloubhouse はすでに OSS である Janus Gateway に切り替えており Agora は使用していないようです ライセンス Creative Commons — 表示 - 非営利 - 改変禁止 4.0 国際 — CC BY-NC-ND 4.0 前提 @suthio_さんがつぶやいていたのがきっかけ https://twitter.com/suthio_/status/1353945619577008128?s=20 招待してくれた @dmnlk さんに感謝 DNS パケット見ただけ 他の方の解析は見ていない クライアント側の処理は知らない 気が向いたら更新している 著者 商用 WebRTC SFU 開発者 WebRTC プロトコルスタック実装者 End to End Encryption プロトコルスタック実装者 IRIAM 配信サーバ設計者 妄想 求人にメディアサーバ

                    Clubhouse リアルタイム配信の仕組みについて (妄想編)
                  • Clubhouse リアルタイム配信の仕組みについて (解説編)

                    Cloubhouse はすでに OSS である Janus Gateway に切り替えており Agora は使用していないようです ライセンス Creative Commons — 表示 - 非営利 - 改変禁止 4.0 国際 — CC BY-NC-ND 4.0 前提 ざっくりと雑に解説。 どんな技術を使っていてこんな感じだろうという妄想は以下をどうぞ。 Clubhouse リアルタイム配信の仕組みについて (妄想編) 著者 商用 WebRTC SFU 開発者 WebRTC プロトコルスタック実装者 End to End Encryption プロトコルスタック実装者 Clubhouse の仕組みはとてもシンプルで配信者が N 人で、それを数千人が聞くという co-streaming と呼ばれる仕組みの一つ。この方式は今までは主に映像ありでパネルディスカッション的な使い方が主だっだ。それを

                      Clubhouse リアルタイム配信の仕組みについて (解説編)
                    • AIでボーカル・ドラムを取り出す、無料音声分離「Demucs」を試す【藤本健のDigital Audio Laboratory】

                        AIでボーカル・ドラムを取り出す、無料音声分離「Demucs」を試す【藤本健のDigital Audio Laboratory】
                      • AIボイチェン「RVC」の精度と学習・変換速度が革命的。コナンの蝶ネクタイ的リアルタイムボイチェンも可能(CloseBox) | テクノエッジ TechnoEdge

                        おいおいまたかよ、驚き屋かお前はと言われそうですが、またゲームチェンジャーなんですよ。ほんとすいません。全部AIが悪いんです。 AI関連はちょっと目を離すと取り残されてしまいます。後から来たのに追い越され、泣くのが嫌なら歩いていくしかないのです。今回、それが再びAI音声合成で起きました。 筆者はAIアートグランプリを受賞したおかげでいろいろなところから取材を受けたり自分でも解説記事を書いたりしていますが、その中で、Diffusion(拡散)モデルを使ったDiff-SVCというAI声質変換によってリアルな元音声を再現できると説明してきました。ですが、これからは「実は今は新しいAI技術を使っているんですよ」と付け加えなければいけません。 妻の歌声を合成するのに使っていたDiff-SVCから別の新しい技術に乗り換えてしまったのです。 Diff-SVCが出た後に、So-VITS-SVC(SoftV

                          AIボイチェン「RVC」の精度と学習・変換速度が革命的。コナンの蝶ネクタイ的リアルタイムボイチェンも可能(CloseBox) | テクノエッジ TechnoEdge
                        • 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

                          株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日 株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。 プロジェクトwebサイト:https://

                            超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
                          • AI・Python活用レシピ100選 - Qiita

                            ※ 一部ガイドラインに反する内容がありましたので、該当箇所を修正のうえ再投稿しております。 はじめに Axross は、エンジニアの"教育"と"実務"のギャップに着目し、「学んだが活用できない人を減らしたい」という想いで、ソフトバンク社内起業制度にて立ち上げたサービスです。 現役エンジニアによる実践ノウハウが"レシピ"として教材化されており、実際に動くものを作りながら、具体的な目的・テーマをもってプログラミングを学ぶことができます。 今回は、Axross運営が厳選した『AI・Python活用レシピを100選』をご紹介します。是非、みなさまのAIやPython学習の参考にしてみてください。 Axross:https://axross-recipe.com 公式Twitter:https://twitter.com/Axross_SBiv 基礎 スクレイピング 01 . JUMPの掲載順をスク

                              AI・Python活用レシピ100選 - Qiita
                            • AIきりたんの仕掛け人、森勢将雅准教授に聞く、AI歌声合成の世界で今起こっていること|DTMステーション

                              すでにご存じの方も多いと思いますが、2月22日にAIきりたんなるものが登場し、大騒ぎとなりました。正確にはSHACHI(@SHACHI_KRTN)さんという方が開発したNEUTRINOというAI歌声合成ソフトがフリーウェアで公開されるとともに、それで歌わせた楽曲が、くろ州さんなどによって公開され、話題になったのです。2月22日は、ちょうどMIDI 2.0の日米合意があった日で、そのドタバタでネットをチェックできておらず、私が気づいたのは24日になってから。その歌声を聴いて驚愕しました。 実際どんなものなのかと、さっそくNEUTRINOをダウンロードし、手元にあったMusicXMLデータを元に歌わせてみると、従来のVOCALOIDなどとは別次元の人間的な歌声で、東北きりたんが歌ってくれてさらに驚いたのです。どういうことなのか知りたいと思い、開発者のSHACHIさんに連絡してみたところ「種々の

                                AIきりたんの仕掛け人、森勢将雅准教授に聞く、AI歌声合成の世界で今起こっていること|DTMステーション
                              • 高品質な音声変換ソフトウェア | Seiren Voice

                                AIの技術を用いてクオリティを追求した、今までにない音声変換ソフトウェア。 いつもと違う声で表現することの楽しさを、ぜひ体験してみてください。 AI技術を用いた高品質な音声変換ソフトウェアです。 誰の声でも狙ったキャラクターの声に変換することができます。 クオリティを追求することで、ボイスチェンジャーらしいノイズが乗らない、 人間らしい声を実現することができました。 キャラクター紹介

                                  高品質な音声変換ソフトウェア | Seiren Voice
                                • 「音源分離」の最新手法を解説した、中級者以上向けの実践的な技術書『Pythonで学ぶ音源分離』を8月24日に発売

                                  「音源分離」の最新手法を解説した、中級者以上向けの実践的な技術書『Pythonで学ぶ音源分離』を8月24日に発売 インプレスグループでIT関連メディア事業を展開する株式会社インプレス(本社:東京都千代田区、代表取締役社長:小川 亨)は、「音源分離」技術の基礎から実装までを解説した書籍『Pythonで学ぶ音源分離 機械学習実践シリーズ』を2020年8月24日(月)に発売いたします。 ■身近なものにも活用される技術「音源分離」の基礎と実装を解説する一冊 近年、AIスピーカをはじめとした、人が話した音声を理解する音声認識システムがさまざまな場面で使われています。一般的に音声認識システムは、1人の声を聞き取ることを想定しており、聞きたい声以外の音が入ってきたときには、聞きたい声を正確に聞き取ることが難しくなります。「音源分離」とはこのようにさまざまな音が混ざった中から、欲しい音だけを抽出する技術で

                                    「音源分離」の最新手法を解説した、中級者以上向けの実践的な技術書『Pythonで学ぶ音源分離』を8月24日に発売
                                  • Rustでファミコンとスーパーファミコンのエミュレーターを書いた

                                    ゲームボーイエミュレーター、ゲームボーイアドバンスエミュレーターに続いて、Rustでファミコンエミュレーター"Sabicom"とスーパーファミコンエミュレーター"Super Sabicom"を書きました。 名前にRustっぽさを出してみました。 前回作ったマルチエミュレーターMERUのコアとして実装したので、ステートセーブや巻き戻しなどの機能も使えます。MERUの対応コアはこれで4つになりました。 こちらからWindowsとLinuxのプリコンパイルバイナリがダウンロードできるようになっています。 他のプラットフォームおよびソースコードからコンパイルする場合は ファミコンとスーパーファミコンどちらも一通り本体の機能は実装してあるつもりです。スーパーファミコンは割と細かいところまでちゃんと動くようにしてあるはずなので、動かなかったり表示がおかしかったりするソフトがあればバグですので、ぜひご報

                                      Rustでファミコンとスーパーファミコンのエミュレーターを書いた
                                    • OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能

                                      画像生成AI「DALL・E 2」や文章生成AI「GPT-3」といった高性能AIを開発してきたAI開発組織のOpenAIが、新たに音声を超高精度で認識して文章に書き起こせるAI「Whisper」を発表しました。発表と同時に公開されたサンプルでは「早口のセールストーク」や「ハイテンポな曲の歌詞」などの音声でも問題なく文字起こしできる性能の高さが示されています。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper Whisperはインターネット上から収集された合計68万時間におよぶ音声データでトレーニングされた文字起こしAIです。OpenAIのブログ記事には「早口のセールストーク」「K-POPの曲」「フランス語」「独特なアクセン

                                        OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能
                                      • 超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた

                                        東京に拠点を置くテクノロジー企業「レアゾン・ホールディングス」が、1万9000時間に及ぶ国内最大級の日本語音声コーパス「ReazonSpeech」を無償公開しました。同時に、OpenAIが開発した超高性能音声認識AI「Whisper」に匹敵する性能をアピールする文字起こしサービスも公開されていたので、実際に使ってみました。 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開 - Reazon Human Interaction Lab https://research.reazon.jp/news/reazonspeech.html ReazonSpeech - Reazon Human Interaction Lab https://research.reazon.jp/projects/ReazonSpeech/ レアゾン・ホールディングスは「R

                                          超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた
                                        • SpotifyがPythonオーディオエフェクトライブラリ「Pedalboard」をオープンソース化 - すでに約1年間の社内使用を経ていてstage ready

                                            SpotifyがPythonオーディオエフェクトライブラリ「Pedalboard」をオープンソース化 - すでに約1年間の社内使用を経ていてstage ready
                                          • 音楽とサウンド生成のための「Stable Audio」を発表 — Stability AI Japan

                                            Stability AI は、音楽とサウンド生成のための初のAIモデルとなる Stable Audio を発表しました。 Stable Audio は、最新の生成 AI 技術を駆使し、使いやすい Web インターフェースを介して、より高速で高品質な音楽とサウンドエフェクトを提供する世界初の製品です。Stability AI は、45秒までのトラックを生成してダウンロードできる Stable Audio の基本無料版と、商用プロジェクト用にダウンロード可能な90秒のトラックを提供する「Pro」サブスクリプションを提供しています。 StabilityAI の CEO である Emad Mostaque は、「唯一の独立した、オープンでマルチモーダルな生成 AI の会社として、音楽クリエイターをサポートする製品を開発するために私たちの専門知識を活用できることを嬉しく思います。私たちの願いは、St

                                              音楽とサウンド生成のための「Stable Audio」を発表 — Stability AI Japan
                                            • リアルタイム声質変換ライブラリ「Realtime Yukarin」を公開しました

                                              はじめにリアルタイム声質変換アプリケーション、Realtime Yukarinを開発し、 OSS(オープンソースソフトウェア)として公開しました。 ここで言う声質変換とは、「誰でも好きな声になれる」技術のことを指します。 好きな声になれる声質変換は夢があって流行りそうなのですが、まだ全然普及していないと思います。 それは現時点で、声質変換を実際にリアルタイムで使えるフリーな仕組みが無いためだと考えました。 そこで、自由に使えるリアルタイム声質変換アプリケーションを作り、ソースコードと合わせて公開しました。 声質変換とは声を変える方法で有名なのは、声の高さや音色を変える手法、いわゆるボイスチェンジャーです。 既存のボイスチェンジャーは、元の声を起点として、変換パラメータを自分で調整する必要があります。 一方ここでの声質変換は、元の声と好きな声を用いて機械学習し、変換パラメータを自動で調整しま

                                              • ソニーによる世界最高の音源分離技術で実現した、ボーカルだけをキレイに抽出できるSoundmain Studioの新機能|DTMステーション

                                                以前DTMステーションで紹介したことのある、ソニー・ミュージックエンタテインメントのプロジェクトSoundmain(サウンドメイン)。ここでは、ソニーグループが研究・開発する最新の音楽関連テクノロジーがいち早く機能として実装され、クリエイターが利用できるようになっているのですが、今回ボーカル抽出という新機能が追加されました。これは、ブラウザ上で使える音楽制作プラットフォームSoundmain内の音楽制作サービスSoundmain Studio上で使える機能で、音源からボーカルのみを抜き出し、手軽に高品質なボーカル音源を作成することができます。 つまり楽器などの演奏も消せるわけなのですが、驚くべきはその精度。ボーカル抽出といえば、さまざまなソフトで行うことが可能ですが、声がシュワシュワになってしまったり、オケが残ってしまったりすることがありますよね。それに対し、Soundmain Studi

                                                  ソニーによる世界最高の音源分離技術で実現した、ボーカルだけをキレイに抽出できるSoundmain Studioの新機能|DTMステーション
                                                • 自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO

                                                  自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた はじめに 今回は、OpenAIのWhisper APIとAmazon Transcribeという2つの音声文字起こしサービスを試し、それぞれの精度を比較してみました。 Amazon Transcribeは、音声をテキストに変換する自動音声認識サービスです。 ストリーミングとバッチ処理のどちらでも文字起こしが可能です。 攻撃的な言葉を指定すると、Amazon Transcribeがそれらの言葉を文字起こしから自動的に削除する語彙フィルタリングなどの機能もあります。 Amazon Transcribeの詳細は、下記の記事をご参考ください。 OpenAIには音声をテキストに変換する「Whisper」という音声認識モデルがあり、WhisperをAPIの形で呼び

                                                    自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO
                                                  • Stability AI、無料で起承転結のある最大3分の音楽を生成可能な「Stable Audio 2.0」を公開/テキストだけでなくアップロードしたオーディオから音楽を生成可能に

                                                      Stability AI、無料で起承転結のある最大3分の音楽を生成可能な「Stable Audio 2.0」を公開/テキストだけでなくアップロードしたオーディオから音楽を生成可能に
                                                    • AI作曲「Suno」新バージョンがWAV高音質化、最長4分の曲を一発でエンディングまで完成。無修正で良曲量産可能に(CloseBox) | テクノエッジ TechnoEdge

                                                      このところUdioやSonautoの新機能搭載で押され気味だったAI作曲サービスの「Suno」が反撃に出ました。 バージョン3.5のEarly Access版(有料プランユーザーのみに提供)を利用すると、これまでの2分間制限が最長4分まで拡大。延長時間も従来の1分を2分に伸ばしています。これだけの長さがあれば大抵のポピュラー曲はエンディングまでいけます。 4分の曲をUdioで生成しようとすると、8回の命令が必要になります。さらに、生成に要する時間はUdioの方がはるかに長くかかるので、全体としての作業時間には大きな差が生じます。それがSuno 3.5ならば数秒でできてしまうのです。 また、Style of Musicのキーワードがサジェストされるようになっていて便利です。文字数制限は相変わらずきついですけど。 さらにうれしいのは、日本語歌詞の読み方が、従来は間違いが多かったのが、ほぼ問題な

                                                        AI作曲「Suno」新バージョンがWAV高音質化、最長4分の曲を一発でエンディングまで完成。無修正で良曲量産可能に(CloseBox) | テクノエッジ TechnoEdge
                                                      • 2022年の深層学習ハイライト - Qiita

                                                        はじめに 2023年になって日が経ってしまいましたが、今年も深層学習の個人的ハイライトをまとめたいと思います。今回は研究論文5本と応用事例4つを紹介します。他におもしろいトピックがあれば、ぜひコメントなどで教えて下さい。 AIの研究動向に関心のある方には、ステート・オブ・AIガイドの素晴らしい年間レビューもおすすめします。また、私が過去に書いた記事(2021年、2020年、2019年)もよろしければご覧ください。 * 本記事は、私のブログにて英語で書いた記事を翻訳し、適宜加筆修正したものです。元記事の方も拡散いただけると励みになります。 ** 記事中の画像は、ことわりのない限り対象論文からの引用です。 研究論文 Block-NeRF: Scalable Large Scene Neural View Synthesis 著者: Matthew Tancik, Vincent Casser,

                                                          2022年の深層学習ハイライト - Qiita
                                                        • Introducing ChatGPT and Whisper APIs

                                                          Developers can now integrate ChatGPT and Whisper models into their apps and products through our API. ChatGPT and Whisper models are now available on our API, giving developers access to cutting-edge language (not just chat!) and speech-to-text capabilities. Through a series of system-wide optimizations, we’ve achieved 90% cost reduction for ChatGPT since December; we’re now passing through those

                                                            Introducing ChatGPT and Whisper APIs
                                                          • writeout.ai

                                                            Transcribe and translate any audio file. Upload your audio file and get a transcript in seconds. Writeout.ai is a free online transcription service.

                                                              writeout.ai
                                                            • Intel・NVIDIA・TSMCは半導体業界でどんな役割を果たしているのか?

                                                              世界的な半導体不足が続く中、毎日のように半導体関連のニュースが話題となっていますが、半導体関連企業は「ファウンドリ」や「ファブレス」といった分かりづらいジャンル名で呼ばれることが多く、どの企業がどんな役割を果たしているのかは分かりづらいものです。それらの企業の役割について、半導体関連情報をまとめているウェブサイト・SemiWikiが解説しています。 The Semiconductor Ecosystem Explained - SemiWiki https://semiwiki.com/semiconductor-manufacturers/307494-the-semiconductor-ecosystem-explained/ 半導体はスマートフォンやPCの計算処理チップやエアコンの温度センサーなど、電化製品の部品として広く使われています。そんな半導体の生産には設計・生産・材料となる物

                                                                Intel・NVIDIA・TSMCは半導体業界でどんな役割を果たしているのか?
                                                              • 俺が考える最強の「麻雀点数申告練習アプリケーション」を作ってみる ~ Pythonによる麻雀点数計算問題の自動生成と音声による点数申告 ~ - エムスリーテックブログ

                                                                こちらはエムスリー Advent Calendar 2023 1日目の記事です。 Overview エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。趣味は麻雀でフリー雀荘で毎年200半荘以上打ちます。好きな麻雀プロは園田賢さんです。 麻雀を始めるときに一番の障壁になるのは点数計算ではないでしょうか? 特に符計算が初心者の関門のようです。一方私のような初中級者でも突然のレアな点数申告にまごつくことがあります。 そこで、今回はその人に合った麻雀の点数計算問題(主に符計算が焦点となる問題)を生成して、自分で点数計算&点数申告の練習をする方法を探求したのでその紹介をします。麻雀用語が少しだけ登場するので、対象読者は麻雀を少しでもかじったことのあるエンジニアの方です。 Overview 麻雀の点数計算の難しさ 現状の点数計算の練習

                                                                  俺が考える最強の「麻雀点数申告練習アプリケーション」を作ってみる ~ Pythonによる麻雀点数計算問題の自動生成と音声による点数申告 ~ - エムスリーテックブログ
                                                                • 老舗音声編集ソフトのAudacityをインストール不要でブラウザでも使える「Wavacity」

                                                                  無料で提供されているオープンソースの音声編集ソフトウェア「Audacity」をフォークし、ブラウザ上で動作するようにした「Wavacity」が公開されています。 Wavacity https://wavacity.com/ 上記のリンクにアクセスすると、以下のような画面が表示されます。本家のAudacityは表示言語を日本語に設定する必要がありますが、Wavacityは最初から日本語で表示されるので、日本語ネイティブユーザーにとってかなり取っ付きやすくなっています。 記事作成時点で最新バージョンとなる本家Audacity(v3.3.3)の画面が以下。 比較するとこんな感じ。スライダーを右に動かすとWavacityが、左に動かすとAudacityが表示されます。 楽曲ファイルをインポートするには「ファイル」から「開く」をクリックし、ファイルを選択します。 タイムライン上でドラッグすると、編集

                                                                    老舗音声編集ソフトのAudacityをインストール不要でブラウザでも使える「Wavacity」
                                                                  • Meta、新音声生成AIモデル「Voicebox」 短い音声から自在に声を生成

                                                                      Meta、新音声生成AIモデル「Voicebox」 短い音声から自在に声を生成
                                                                    • TypeScriptでGPT-3.5を使ってChatGPTクローンを作る1 - GPTで検索エージェント

                                                                      OpenAI が提供している ChatGPT は非常に面白いですね。今年以後、GPTやChatGPT周りがさらに流行ると思います。 この記事は、TypeScriptでChatGPTクローンを作る第一弾です。長くなりすぎるため、この記事では、GPTを使った検索エージェントを実行するまでを取り上げます。 検索エージェントは「ぼっち・ざ・ろっくの作者は?」と尋ねたら検索エンジンとGPTを使って「はまじあき」という結果を生成できる技術です。 またこの記事や、続く記事でLangChainのプロンプトをあれこれ読み解いていこうと考えています。 筆者は機械学習の初心者であるため、間違ったことが書かれている可能性があります。間違いがあった場合は、ぜひご指摘いただけると幸いです。 なお、この記事では添削にChatGPTおよびGPT-3.5を使っています[1]。 どうやってTypeScriptでChatGPT

                                                                        TypeScriptでGPT-3.5を使ってChatGPTクローンを作る1 - GPTで検索エージェント
                                                                      • GPUを使ったノイズキャンセリングがすごかった(5月12日追記)【高橋忍のにゃんともWindows】

                                                                          GPUを使ったノイズキャンセリングがすごかった(5月12日追記)【高橋忍のにゃんともWindows】
                                                                        • GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence

                                                                          Muzic is a research project on AI music that empowers music understanding and generation with deep learning and artificial intelligence. Muzic is pronounced as [ˈmjuːzeik]. Besides the logo in image version (see above), Muzic also has a logo in video version (you can click here to watch ). Muzic was started by some researchers from Microsoft Research Asia and also contributed by outside collaborat

                                                                            GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence
                                                                          • OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる

                                                                            OpenAIがSpeech-To-Text AIのWhisperを発表しました。Githubからpipでインストールすれば簡単に使えます。私のM1 Max MacBook Proでも動作しましたので、作業内容を書いておきます。 GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Robust Speech Recognition via Large-Scale Weak Supervision – GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Python仮想環境を作る Python自体のインストールは既に終わっているところから書くことにします。私の環境は

                                                                              OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる
                                                                            • なぜネイティブ英語が聞き取れないのか?原因は? 単語耳と英語舌の作り方・外国語認知メカニズム - ポリグロットライフ | 言語まなび∞ラボ

                                                                              はじめに 今回はなぜネイティブの英語・子音が聞き取れない?その原因や英語耳と英語舌の作り方を解説していきます。まぜ、日本人がネイティブの話す英語や子音を上手く聞き取れないのか?という原因について考えていきながら、外国語の認知メカニズムを明らかにします。まずは、外国語聴解に必要な要素(英語が聞き取れない原因)を整理します。その次は、理解される外国語音声の表出するために意識するべきことを確認します。それらの基礎理論を踏まえ、ネイティブの英語耳・英語舌を作りのための具体的なトレーニング方法を説明していきます。最後に、発音の学び方として、トレーニングにおすすめの教材を紹介していきます。 今回のブログではリスニング力の音声認識・認知メカニズムに焦点をあてています。頭の中で日本語から英語に翻訳してしまうなどの問題に対してはチャンク学習(パターンプラクティス)がおすすめです。 www.sunafuki.

                                                                                なぜネイティブ英語が聞き取れないのか?原因は? 単語耳と英語舌の作り方・外国語認知メカニズム - ポリグロットライフ | 言語まなび∞ラボ
                                                                              • 音楽ストリーミングにはびこる毒:AI生成楽曲

                                                                                2023年5月末現在、昨年から続く生成系AIの進化は目覚ましいものがあり、私も技術の進化は楽しみにしています。 しかしながら、良くない使い方をする輩がわんさか湧いて出てくるのも世の常。 自分は音楽ストリーミングサービスはSpotifyを主に使っているのですが、RadioにおけるAI楽曲のプレイリスト汚染がシャレにならないレベルで鬱陶しいので私から見えているものを書いてみます。 自動再生Radioに引っかかってくる変な曲達 Spotifyでは探した楽曲が聴き終わるとそのままアルバムや楽曲のRadioが始まります。似たような曲を勝手に選んで再生してくれるもので、これによる偶然の出会いは結構楽しみに使っていました。 メジャーな楽曲であれば近しい同じぐらい有名な楽曲であったり同系統のジャンルからそれなりな楽曲を再生してくれるのですが、いつからかマイナーだったりアングラな曲を聞いたあとのRadioに

                                                                                  音楽ストリーミングにはびこる毒:AI生成楽曲
                                                                                • Suno AI の作り方 (技術者の観点から) · あらゆる現実のはなし

                                                                                  日本音響学会 学生・若手フォーラム Advent Calendar 2023 24日目 Suno AI とは、歌詞と曲のスタイル(と曲名)を指定するだけで、自動で歌詞入りの楽曲を作成してくれる生成 AI サービスです。 Suno AI 最近ではこのほかにも様々な音楽生成AIが発表されていますが、 Suno AI が特にバズっている要因はおそらく歌詞入力という他サービスではあまり無い UI と、 ボーカルが付加されることにより生成楽曲の面白さが格段に上がる点が大きいのではないでしょうか。 Suno AI 自体の使い方や詳細は多くのブログで紹介されているため特に取り上げる必要はないかと思いますが、 本記事では技術者の観点から Suno AI のようなシステムをどのようにすれば作れるか具体的に解説します。 個人的には Suno AI について、以下のような所見を持っています。 Suno AI は

                                                                                    Suno AI の作り方 (技術者の観点から) · あらゆる現実のはなし