並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 120 件 / 1261件

新着順 人気順

音声合成の検索結果81 - 120 件 / 1261件

  • WindowsのPythonでデスクトップ通知(トースト)作ってみた【WinRT】 - Qiita

    from win11toast import toast toast('Hello Python', 'Click to open url', on_click='https://www.python.org') from win11toast import toast toast('Hello', 'Lorem ipsum dolor sit amet, consectetur adipisicing elit. Earum accusantium porro numquam aspernatur voluptates cum, odio in, animi nihil cupiditate molestias laborum. Consequatur exercitationem modi vitae. In voluptates quia obcaecati!')

      WindowsのPythonでデスクトップ通知(トースト)作ってみた【WinRT】 - Qiita
    • AI生成インフルエンサーが 24時間稼ぎ続ける 中国ライブコマース新事情

      Deepfakes of Chinese influencers are livestreaming 24/7 AI生成インフルエンサーが 24時間稼ぎ続ける 中国ライブコマース新事情 中国で真夜中のライブ配信を見ると、熱心に商品を売り込むストリーマーの姿が目立つ。だが実はこのストリーマー、わずか数分の動画からAIが生成したもので、24時間年中無休で働き続けることができる。 by Zeyi Yang2023.09.21 211 19 中国で最も人気のあるEコマース・プラットフォームであるタオバオ(Taobao:淘宝)のライブ配信映像を午前4時にスクロールしてみると、奇妙なほどに活況を呈している。ほとんどの人が熟睡しているこの早朝の時間帯に、多くの熱心なストリーマー(配信者)がカメラに向かって商品を紹介し、割引価格で販売している。 しかし、よく目を凝らすと、これらのライブ配信インフルエンサー

        AI生成インフルエンサーが 24時間稼ぎ続ける 中国ライブコマース新事情
      • YouTubeの「未成年のASMR動画投稿NG」に波紋 動画の非公開化相次ぐ【訂正あり】

        YouTubeでASMR動画を投稿するとアカウントが停止される――そんなうわさがTwitterで広がっている。6月5日ごろから、YouTubeが未成年が出演するASMR動画を明確に投稿禁止していると注意喚起するツイートが複数投稿されたことが発端とみられる。 【訂正履歴:2022年6月13日午後1時 初出時、「子供の安全に関するポリシー」が改訂されたことが発端とみられるとしていましたが、ポリシーの改定は2020年のことでした。お詫びして訂正いたします。】 YouTubeは「子供の安全に関するポリシー」で2020年から、未成年が出演する動画について、個人宅の寝室や浴室などで撮影したもの、知らない人と会う企画、成人向けの話題を論じるもの、ASMR動画、個人情報を公開するもの――などを明確に禁止している。 ASMR動画とは、環境音や声などで心地良さやぞわぞわ感を誘発する動画のこと。Twitterで

          YouTubeの「未成年のASMR動画投稿NG」に波紋 動画の非公開化相次ぐ【訂正あり】
        • 進化する音声合成技術は声優の敵か味方か、大手事務所トップが本音で語る

          音声合成技術の進化が目覚ましい。人間に近い“自然な発話”が可能になったことで、用途が急速に広がった。歌声合成技術や声質変換技術といった派生技術も実用化に向けた動きが進んでいる。 今の音声合成技術では、声優などによる良質な収録音声が欠かせない。声をなりわいとする声優からすると、音声合成技術の普及は声優から「仕事を奪う」リスク要因ともいえる。にもかかわらず、音声合成技術の活用に積極的なのが大手声優事務所の81プロデュースだ。その狙いについて、同社代表取締役社長の南沢道義氏に聞いた。(聞き手は高野 敦、東 将大=日経 xTECH) なぜ音声合成技術の活用に積極的なのですか。 数多くの人気声優や実力派・ベテラン声優が所属する81プロデュース、およびアニメ関連の音響制作や外国映画の日本語版制作を手掛けるハーフ・エイチ・ピー・スタジオの代表を務め、多方面から声優、俳優を支援する。さらに、一般社団法人デ

            進化する音声合成技術は声優の敵か味方か、大手事務所トップが本音で語る
          • 好きな人の声で歌える、破壊的でヤバい「Diff-SVC」はAI歌声合成を民主化するのか(CloseBox) | テクノエッジ TechnoEdge

            それを、完全とは言えないまでも、かなり元の人に肉薄する品質で再現できる技術がDiff-SVCです。元になる音声データが1時間くらいあれば、与えた音声を、希望する声質に変換することが可能になるのです。 しかも、基本的にお金はかかりません。AI歌声合成が、ちょっとハードルは高いものの、無料で使えて、データさえ集めてくれば誰でも手が出せる。AI歌声合成の民主化と言っていいでしょう。 筆者は10年近く前に旅立った妻の歌声を、UTAU-Synthという、短く切り出した音素をピッチや長さを合わせながら組み合わせていくソフトウェアで再構成しています。1フレーズずつ音素を繋いで、できるだけ不自然にならないように調整していくため、短くて数日、長いと数カ月も時間をかけて完成させていきますが、もうその作業をしなくてもよくなります。 ただ、自分で歌って、もしくは他のボーカルシンセソフトでボーカルトラックをDiff

              好きな人の声で歌える、破壊的でヤバい「Diff-SVC」はAI歌声合成を民主化するのか(CloseBox) | テクノエッジ TechnoEdge
            • “VOCALOIDじゃない初音ミク”登場 プロトタイプ版の先行予約スタート

              クリプトン・フューチャー・メディア(CFM)は12月25日、自社製の歌声合成ソフト「Piapro Studio」専用の音源「初音ミク NT(ニュータイプ)」を2020年8月下旬に発売すると発表した。従来の初音ミクはヤマハが開発した歌声合成ソフト「VOCALOID」向けの音源として販売されてきたが、初音ミク NTはVOCALOIDでは使えない。 Piapro Studioは初音ミクなどのバーチャルシンガーを歌わせるためのエディタで、初音ミクをはじめとするCFM製品に付属している。 従来は、歌声を合成するためのシステムとしてVOCALOIDのエンジンを借りる形で使っていたが、新バージョンのPiapro Studioには独自に開発した歌声合成エンジンを搭載。ソフトウェア全体を内製化した。初音ミク NTはその専用音源として調整を加えたもの。 自社製エンジンの採用により、新しいPiapro Stud

                “VOCALOIDじゃない初音ミク”登場 プロトタイプ版の先行予約スタート
              • “ゆっくりボイス”でお馴染みの「SofTalk」から、ゆっくりボイスが消える。ライセンスとフリーソフトの複雑な関係 - AUTOMATON

                国内のソフトウェア個人開発者であるCNCC氏は7月23日、音声読み上げソフト「SofTalk」において、音声合成ミドルウェア「AquesTalk」への対応を中止することを発表した。また、同氏はしばらくSofTalkの開発自体を休止する意向を示している。 「SofTalk」は、CNCC氏が開発する音声読み上げフリーソフトウェア。テキストを入力すると合成音声を出力してくれる仕組みで、実況動画の音声などに広く用いられてきた。代表的なのは、一頭身化された「東方Project」キャラクターが掛け合いを繰り広げる動画での利用。いわゆる「ゆっくりボイス」だろう。同ソフトは複数の合成音声ライブラリに対応しており、ユーザー側で切り替えが可能。ライブラリの種類で声質も変化する。ゆっくりボイスとして認知されている声は、国内企業AQUEST(アクエスト)が開発する音声合成ミドルウェア「AquesTalk」シリーズ

                  “ゆっくりボイス”でお馴染みの「SofTalk」から、ゆっくりボイスが消える。ライセンスとフリーソフトの複雑な関係 - AUTOMATON
                • うみゆき@AI研究 on Twitter: "なにやら中国の方が作られた音声合成AI「MoeGoe」の2891人の日本アニメキャラの音声モデルが公開されてしまった!!Hugging Faceでデモが試せる!早速まどマギの5人に喋ってもらった!!うわうわうわ!ヤバいよヤバい本当… https://t.co/IsmQsTS8is"

                  なにやら中国の方が作られた音声合成AI「MoeGoe」の2891人の日本アニメキャラの音声モデルが公開されてしまった!!Hugging Faceでデモが試せる!早速まどマギの5人に喋ってもらった!!うわうわうわ!ヤバいよヤバい本当… https://t.co/IsmQsTS8is

                    うみゆき@AI研究 on Twitter: "なにやら中国の方が作られた音声合成AI「MoeGoe」の2891人の日本アニメキャラの音声モデルが公開されてしまった!!Hugging Faceでデモが試せる!早速まどマギの5人に喋ってもらった!!うわうわうわ!ヤバいよヤバい本当… https://t.co/IsmQsTS8is"
                  • AI翻訳「人間超え」へ 技術が急発展 自動翻訳の衝撃(上) - 日本経済新聞

                    語学の勉強をしなくても世界の人々と意思疎通できる時代がやってきた。人工知能(AI)を用いた「ニューラル機械翻訳(NMT)」技術が猛烈な勢いで発展しているからだ。言葉の壁は大幅に低くなった。翻訳業界は再編が始まった。街中では自動翻訳機が急増中で、観光業界や店舗、運輸、病院などに普及し始めた。将来的には自動翻訳機が1人に1台、普及する可能性も出てきた。【次回記事】自動翻訳機、1人1台時代へ 観光・交通で活躍30年分の技術を一気に凌駕「翻訳業界全体が、雷に打たれたような衝撃を受けた。これは50年に一度の破壊的技術であると」──。自動翻訳サービスを手掛けるXtra(エクストラ、東京・千代田)社長でロゼッタ執行役員の古谷祐一氏は

                      AI翻訳「人間超え」へ 技術が急発展 自動翻訳の衝撃(上) - 日本経済新聞
                    • rinna社、日本語に特化したGPT-2の大規模言語モデルを開発しオープンソース化

                      rinna株式会社(本社:東京都渋谷区/代表取締役:ジャン“クリフ”チェン、以下rinna社)は、日本語に特化したGPT-2の大規模言語モデルを構築し、オープンソースとして公開しました。 ■背景 rinna社は、MicrosoftのAI&リサーチ部門でAIチャットボットの研究を行っていたチームがスピンアウトして2020年6月に設立したAI開発企業です。ディープラーニング技術を活用し、AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かな感情表現を可能にする「音声合成システム」などの技術を発表してきました。これらの最新技術は、当社が運営するAIチャットボット「りんな」や、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボットである「AIキャラクター」の開発に応用され、企業のマーケティングなどにお使いいただいています

                        rinna社、日本語に特化したGPT-2の大規模言語モデルを開発しオープンソース化
                      • 一番星はてのがYOASOBIのアイドルを歌ってみた - 一番星はての開発ブログ

                        www.youtube.com 一番星はてのに推しの子のOPのアイドルを歌ってもらった。 この曲の「金輪際現れない一番星の生まれ変わり」という部分を聴いたときに、これをはてのに歌ってもらったら面白いなと思い、AIに歌ってもらう方法をいろいろと調べてなんとか公開することができた。ボーカロイド系を触るのが初めてなどころか、楽譜もほぼ読めないところから始めたのでクオリティは高くないけどやりたいことはできたのでよかったと思う。歌詞の打ち込みとか字幕を作るのは楽しかったのでまたやりたい。 ツールについて 楽譜ツールにMuseScore、歌声合成にNEUTRINOを使用している。NEUTRINOには別で調声ツールもあり、タイミングやピッチ、音量なども調整することができる。 なるほど、こんな風に作るのかとやってみて初めてわかり面白かった。 NEUTRINO自体AI学習で調声なしでもそこそこちゃんと歌って

                          一番星はてのがYOASOBIのアイドルを歌ってみた - 一番星はての開発ブログ
                        • [CEDEC 2023]「スト6」の対戦を盛り上げる「自動実況機能」は,どのように作られたのか。システム構築や技術を解説するセッションをレポート

                          [CEDEC 2023]「スト6」の対戦を盛り上げる「自動実況機能」は,どのように作られたのか。システム構築や技術を解説するセッションをレポート 編集部:Junpoco ゲーム開発者会議「CEDEC 2023」の初日となる2023年8月23日,カプコンの薮下剛史氏,岩本卓也氏,アンドリュー・アルフォンソ氏によるセッション「『ストリートファイター6』対戦を熱く盛り上げる自動実況機能の取り組み」が行われた。 「ストリートファイター6」(PC / PS5 / Xbox Series X|S / PS4)で対戦中に使用できる「自動実況機能」を導入した目的や,システム構築,膨大なセリフ量を処理する工夫などが語られた講演の模様をレポートしよう。 そもそもなぜ,実況機能の導入を企画したのか 最初に薮下氏から,「そもそもなぜ,実況機能をゲームに導入したのか」が語られた。 実況機能導入で目指したところには,

                            [CEDEC 2023]「スト6」の対戦を盛り上げる「自動実況機能」は,どのように作られたのか。システム構築や技術を解説するセッションをレポート
                          • 商用可・無料の音声読み上げツール「VOICEVOX」が公開 ~素人でも手軽に満足のいく品質が得られる丁度よさが魅力【8月6日追記】/イントネーションや感情の表現もある程度可能

                              商用可・無料の音声読み上げツール「VOICEVOX」が公開 ~素人でも手軽に満足のいく品質が得られる丁度よさが魅力【8月6日追記】/イントネーションや感情の表現もある程度可能
                            • Nintendo Switch新作『カブトクワガタ』が“あまりにも尖っている”として注目集める。配分の偏りがすごすぎる低予算パンチ - AUTOMATON

                              小学館は3月15日、『カブトクワガタ』を発売した。対応プラットフォームはNintendo Switch。本作のリアルなムシたちのグラフィックが注目される一方、荒削りでシュールな要素もユーザー間に反響を呼んでいる。筆者は同作を購入しプレイしたことを踏まえて、その内容を紐解いていく。 『カブトクワガタ』は、甲虫バトルゲームだ。舞台となるのは巨大なムシたちが住む異世界。カブトムシとクワガタムシ(以下、カブトクワガタ)が大好きな主人公はある日、現実世界からこの地に迷い込んでしまう。異世界では目の赤く光る凶暴化したムシたちが現れ、人々を襲っていた。主人公はカブトクワガタを育成して戦い、ムシたちが凶暴化した謎に迫っていくことになる。 本作は、ゲーム開発を題材とする漫画「ゲーつくっ!!」との完全連動企画として制作されたタイトル。「ゲーつくっ!!」は、小学館「コロコロコミック」の公式サイトコロコロオンライ

                                Nintendo Switch新作『カブトクワガタ』が“あまりにも尖っている”として注目集める。配分の偏りがすごすぎる低予算パンチ - AUTOMATON
                              • 花譜の歌声合成ソフト「可不」 花譜本人が違和感を抱き発売延期に

                                発売延期となっている人工歌唱ソフトウェア「音楽的同位体 可不(KAFU) collaboration with Synthesizer V AI / The Right Stuff ver.」について4月12日、KAMITSUBAKI STUDIOのプロデューサー・PIEDPIPERさんが自身のXを通じて理由を明らかにした。 「可不」は、KAMITSUBAKI STUDIO所属のバーチャルシンガー・花譜さんの歌声をもとにした歌声合成ソフト。その最新版の発売延期が2023年12月下旬に発表され、今後の動向に注目が集まっていた。 https://twitter.com/i/status/1778731096445968819 PIEDPIPERさんの投稿によれば、Synthesizer V AI版の可不が歌った「フォニイ」の反響を受け、花譜さんから懸念の声が上がり、発売延期の打診があったという

                                  花譜の歌声合成ソフト「可不」 花譜本人が違和感を抱き発売延期に
                                • 岸田総理のAI音声で「解散宣言」も…「ひるおび」の悪ノリに批判殺到

                                  他人の声になりすますことができる「AI音声」が注目を集めている。TBS系情報番組「ひるおび」では、スタジオで岸田文雄総理に似せた声を再現したものの、あまりの悪ノリに《不謹慎すぎる》《シャレになっていない》などと批判の声が殺到している。 5月24日の放送では、スタジオにAIスタートアップ創業者の安野貴博氏を招いて、AIによる音声の変換を実演。宇内梨沙アナウンサーが白いマイクを手に取って紹介すると、安野氏は「その機器はマイクなんですけど、向こうのノートパソコンの中で動くAIの学習をさせていただきました」と解説。マイクに音声を吹き込むと、ほぼリアルタイムで岸田総理そっくりの声に変換されていくという。 宇内アナがマイクに向かって声を吹き込むと、スタジオには「こんにちは。恵さん、どうですか」と総理そっくりの声が響く。司会の恵俊彰をはじめ、出演者からは驚きの声があがった。 司会の恵は「『G7サミット、

                                    岸田総理のAI音声で「解散宣言」も…「ひるおび」の悪ノリに批判殺到
                                  • 語尾だけで朗読の印象を変えるコツ

                                    以前「朗読での間(ま)と緩急でこれだけ変わる」という記事で、一部分を少しかえるだけで、印象が変わる、ということを書きました。 今日は、「語尾」を変えるだけで、これだけ変わる、ことを詳しく紹介します。 語尾に関しては、今までにも 「朗読が暗く聞こえる要因」 「朗読のセリフで喜怒哀楽を表現するコツ」でも語尾の読み方で印象が変わることを紹介しています。 また語尾のくせについても 「朗読の助詞上げのくせを直すコツ」でふれています。 このように「語尾」の扱いは案外難しいのです。 私がナレーションをするときに、いつも難しく感じるのが語尾の扱いです。 実は語尾の扱いひとつで、全体の印象が全く変わるのです。 ということは、語尾の扱いで全体の印象を変えることができるのです。 これはナレーションだけではなく、朗読でも、日常生活でも同じです。 かなり細かい話になっていきますが、チャレンジしてみてください。 なお

                                      語尾だけで朗読の印象を変えるコツ
                                    • あの大御所デュオ「ビリー・バンバン」が、自身ネタの「アイマスMAD」に反応 取材を申し込むと、なんと本人が...!

                                      菅原孝さん(75)と菅原進さん(72)の兄弟デュオグループ「ビリー・バンバン」のツイッターアカウントが、ニコニコ動画に投稿されていた本人のボーカルを合成した「アイドルマスター」(アイマス)のMAD動画をチェックし、「公式巡回済み」とツイートまでしていた――こんな事実が、ネットの驚きを呼んでいる。 芸歴50年超えのベテランデュオが、なぜニコニコ動画上の、それもアイマスのMADに興味を? J-CASTニュースが経緯を取材すると、なんと本人から感想を得られた。 動画を「公式巡回済み」と引用RT ニコニコ動画に2020年1月8日、「メカP」さんによる「ビリーバンバンが歌うエミリー スチュアート「はなしらべ」」という動画が投稿された。 もちろんこれは本人が歌ったものではなく、既存の音源を編集合成し、「アイドルマスターミリオンライブ!」のキャラクターであるエミリー スチュアートの楽曲「はなしらべ」を、

                                        あの大御所デュオ「ビリー・バンバン」が、自身ネタの「アイマスMAD」に反応 取材を申し込むと、なんと本人が...!
                                      • AIが人間のように歌い上げる「CeVIO Pro (仮)」がベータ版に、正式名は「VoiSona」に決定/ボイスライブラリ「知声」(Chis-A)を同梱し、商用でも無料で利用可能

                                          AIが人間のように歌い上げる「CeVIO Pro (仮)」がベータ版に、正式名は「VoiSona」に決定/ボイスライブラリ「知声」(Chis-A)を同梱し、商用でも無料で利用可能
                                        • 月ノ美兎さんの音声合成ツール(Text To Speech) を作ってみた - Qiita

                                          何をした? Youtube上に公開されている動画の音声から、ディープラーニング技術を用いた音声合成ツールを構築しました。 今回対象にしたのは、バーチャルユーチューバー・にじさんじの委員長こと 月ノ美兎 さん(Youtubeチャンネル) です。 ※選出理由は、単純に私がYoutube上で一番推している方だからです。 成果 動画から抽出した音声と、音声を文章に起こしたテキストの組み合わせのデータセット約50分ぶんを教師データとして学習した結果 ※学習に必要なデータ量は最低でも1時間程度と言われているので、まだまだ足りていません… 月ノ美兎さんの音声合成ツールを作ってみた https://t.co/YVdWW9vREb via @YouTube — K2 (@K2ML2) May 29, 2020 発話内容が不明瞭な箇所がありますが、一応ご本人の声に近い音声を作成することができているかと思います

                                            月ノ美兎さんの音声合成ツール(Text To Speech) を作ってみた - Qiita
                                          • 商用利用もOK。AI音声合成や膨大な音素材ライブラリも使える定番波形編集ソフト、SOUND FORGE Pro 18誕生|DTMステーション

                                            ドイツMAGIXから定番の波形編集ソフトの新バージョン、SOUND FORGE Pro 18およびSOUND FORGE Pro 18 Suiteがリリースされました。今回のバージョンアップの目玉はAIを利用した音声合成機能を搭載し、日本語でテキストを入力すると、非常にリアルで自然な声で、そして高音質なサウンドで喋り声が生成されることです。VOICEPEAKやVOICEVOX、A.I.Voice、CoeFont……などなど、ここ数年で急速に進化し、数々のソフトが出てきたTTS=Text to Speech(音声読み上げソフト)の世界にSOUND FORGEが殴り込みをかけてきた格好です。しかも単なるTTSに留まらず、翻訳機能も搭載。これによって最大100言語へ翻訳して喋らせることも可能になっているため、グローバルなコンテンツ制作も可能になっています。 さらにStoryblocksという音素

                                              商用利用もOK。AI音声合成や膨大な音素材ライブラリも使える定番波形編集ソフト、SOUND FORGE Pro 18誕生|DTMステーション
                                            • オペレーティング・システムから、オペレーティング・エージェントへ|深津 貴之 (fladdict)

                                              今回の発表で強く感じたことは、やはりOpenAIの目指すChatGPTが単なるチャットアプリケーションではないということだ。 従来のオペレーティングシステム(OS)はハードウェアとアプリケーションの架け橋である。だがOpenAIはChatGPTを「言語で命令できるオペレーティングエージェント」と位置付け、人生のあらゆるタッチポイントで新たなゲートキーパーとなろうとしているように思える。 IT競争は手前の取り合い歴史を振り返れば、IT競争の常道とは、ゲートウェイを手前に築くことにあったようだ。PCの争いをOSが無意味化し、OSの争いをブラウザが、ブラウザの争いを検索エンジンがと、そしてそれをスマホとアプリが…このようにITの争いは常に手前を争うものだった。こうして一番手前を抑えた企業は、大きな利益を手に入れた。 今、OpenAIの動きは、このメタゲームに大きな変化を加えつつある。 OpenA

                                                オペレーティング・システムから、オペレーティング・エージェントへ|深津 貴之 (fladdict)
                                              • NEUTRINO - Neural singing synthesizer

                                                NATURAL & SMOOTH実際に歌手が楽曲を歌ったデータから特徴を抽出しており、本人の声質だけではなく癖・歌いまわしなどを最新の歌声生成AIで再現します。歌詞とメロディーを入力するだけで簡単に歌わせることができ、実在の歌手に依頼するような感覚で制作を進めることができます。 QUICK STARTインストールはワンクリックで完了。すぐに制作を開始いただけます。 Windows / MacOS / Linux / Onlineでの動作に対応しており、環境を問わずご利用いただけます。 CLEAN DATA & CLEAN MODELモデルの学習には声優・演者様の許諾の上収録した音声データ、もしくは大学などの公的機関から公開されている音声データのみを利用しております。既存の学習済みモデルは利用しておらず、上記データを用いてフルスクラッチで学習を行っております。権利的・倫理的にクリーンな

                                                  NEUTRINO - Neural singing synthesizer
                                                • 達人出版会

                                                  探検! Python Flask Robert Picard, 濱野 司(訳) BareMetalで遊ぶ Raspberry Pi 西永俊文 なるほどUnixプロセス ― Rubyで学ぶUnixの基礎 Jesse Storimer, 島田浩二(翻訳), 角谷信太郎(翻訳) 知る、読む、使う! オープンソースライセンス 可知豊 きつねさんでもわかるLLVM 柏木餅子, 風薬 R/RStudioでやさしく学ぶプログラミングとデータ分析 掌田津耶乃 データサイエンティストのための特徴量エンジニアリング Soledad Galli(著), 松田晃一(訳) 実践力をアップする Pythonによるアルゴリズムの教科書 クジラ飛行机 スッキリわかるサーブレット&JSP入門 第4版 国本 大悟(著), 株式会社フレアリンク(監修) 徹底攻略 基本情報技術者教科書 令和6年度 株式会社わくわくスタディワール

                                                    達人出版会
                                                  • クラフトワークの創設者の一人 フローリアン・シュナイダーが死去 - amass

                                                    【Update:2020/05/07 06:13】 クラフトワーク(Kraftwerk)の創設者の一人、フローリアン・シュナイダー(フローリアン・シュナイダー=エスレーベン/Florian Schneider-Esleben/Florian Schneider)が癌のため死去。73歳でした。 クラフトワークは声明を発表。 「クラフトワークの共同創設者でエレクトロニック・ミュージックのパイオニアであるラルフ・ヒュッターは、何十年にもわたって彼の友人であり仲間であったフローリアン・シュナイダーが73歳の誕生日から数日後にの短い癌のために亡くなったという非常に悲しいニュースをを私たちに送ってきました」 「1968年、ラルフ・ヒュッターとフローリアン・シュナイダーが芸術的および音楽的なコラボレーションを開始しました。1970年、彼らはデュッセルドルフにエレクトロニック・スタジオ“クリング・クラング

                                                      クラフトワークの創設者の一人 フローリアン・シュナイダーが死去 - amass
                                                    • オーディオブックの“倍速視聴”が話題 “等倍で聴く人いない”は本当か? 声優からは「衝撃」の声

                                                      続けて「若い女性 壮年の男性 子供 ご老人 体格や今までの経験、全てが喋り方に影響してくる。地の文も内容によって読むリズムや音の大きさは変わってくる。全てを均一にしたいのならば、朗読ではなく、スマホの読み上げ機能をおすすめします」と書き込んだ。この投稿は話題となり、投稿から約4時間でインプレッション数は280万を超えた。 他ユーザーからもさまざまな意見が上がっている。「これは読み手に求めることではない」「聞き手が調整すべきこと」「倍速で聴くのは好きにすればいいけど、作り手に配慮を求めるのはライン超え」など池澤さんの考えを擁護する声が多く挙がっている。 中には、朗読と音読の違いを指摘する意見も。「音読だと、スマホ読み上げで済む話だけど朗読は感情がこもってこそ。朗読は、間のとり方とか強弱の付け方とか好きなだけいじっていいもの」「朗読をただの読み上げと思ってるユーザーが一定数いるのはそうなのだろ

                                                        オーディオブックの“倍速視聴”が話題 “等倍で聴く人いない”は本当か? 声優からは「衝撃」の声
                                                      • 声優・小岩井ことりさん、電子情報通信学会で表彰される 研究向けオリジナル曲を50曲作り貢献

                                                        声優の小岩井ことりさんは9月15日、明治大学の森勢将雅専任准教授らと共同執筆した論文が電子情報通信学会で船井ベストペーパー賞を受賞したと発表した。作曲で音声合成分野の研究に貢献した。 受賞した論文は「レアなモーラを含む日本語歌唱データベースの構築と基礎評価」。著者は小岩井さん、森勢専任准教授、ライターの藤本健さん。内容は、AI歌声合成技術などの研究に使えるオリジナル曲を集めたデータベースを作成したというもの。 収録したオリジナル曲には、日本語の音素をできる限り含んだ歌詞、さまざまなパターンのメロディーが織り込んである。これまで歌声合成の分野では、著作権などの問題から童謡を使うことが多かったが、オリジナル曲のみでデータベースを構築することで利用条件の緩和を目指した。

                                                          声優・小岩井ことりさん、電子情報通信学会で表彰される 研究向けオリジナル曲を50曲作り貢献
                                                        • 第一回AIアートグランプリを受賞したので自分の作品解説とファイナリスト作品への感想。そしてその先(CloseBox) | テクノエッジ TechnoEdge

                                                            第一回AIアートグランプリを受賞したので自分の作品解説とファイナリスト作品への感想。そしてその先(CloseBox) | テクノエッジ TechnoEdge
                                                          • OpenAIのGPT-4oを日本語OCRとして使ってみる

                                                            昨日、OpenAIが生成AIの新しいモデルであるGPT-4oを発表しました。消費するトークン数の節約や、音声合成機能の改善、応答速度の向上など着実な品質改善を見せているようです。私も、特に音声合成(Text To Speech)の表現力について非常に興味を持っています。 私は以前、「OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる」で、GPT-4 Turboの画像認識機能の日本語OCRについて検証を行いました。その当時は、既存のコグニティブAI APIに比べて認識精度が十分でないという評価をしています。とはいえ、その後に出てきたClaude 3 Opusは驚くべき認識精度だったので、OpenAIも巻き返す可能性は十分にあると感じました。Azure OpenAI Serviceを使っている場合は、Vision enhancementという既存のコグニ

                                                              OpenAIのGPT-4oを日本語OCRとして使ってみる
                                                            • 開発に使える?ChatGPTとプロンプトエンジニアリング - Qiita

                                                              こんにちは!逆瀬川 (@gyakuse) です! 今日は開発に使うときのプロンプトの例を紹介します。ただ、これは一例に過ぎず、もっと雑な表現や工夫されたプロンプトを使っても良いでしょう。大事なのは、どのように情報を与えるとうまくin-context learningしてくれそうか、ということを考えながらプロンプトを渡してあげることだと思います。 だいじなこと ChatGPTのGPT-4を使いましょう ChatGPTをそのまま使う場合、オプトアウト申請し、受理されたことを確認しましょう オプトアウトしていても他者に会話履歴が見える状態になる等のトラブルもあったため、API経由のほうが安全です 会社のプログラム等は情シス部門と連携を取り、会社のポリシーを検討をしましょう 実装を依頼するプロンプト 「行いたいこと」「処理の流れ」「参照ドキュメント」という順で書いてあげると良いです。 サンプルプロ

                                                                開発に使える?ChatGPTとプロンプトエンジニアリング - Qiita
                                                              • 環境音認識のコンペティションDCASE2020で世界1位を獲得しました

                                                                LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog DataLabsのSpeech teamに所属している小松です。環境音認識に関する基礎研究を行っています。環境音認識とは我々の身の回りで起こる多種多様な音、たとえば咳や話し声、物音などを機械に自動的に検出・認識させる技術です。この技術は音に関する分野の中で最もホットで急成長しているトピックの一つであり、環境音を専門に扱う国際コンペティション/ワークショップ、DCASEも毎年開催されています。 そのコンペティション部門であるDCASE2020 Challengeのtask 4に、LINEは昨年度のインターン成果 [1] を主軸にした名古屋大学、ジョンズ・ホプキンス大学との合同チームで参加し、世界1位を獲得することができました。本

                                                                  環境音認識のコンペティションDCASE2020で世界1位を獲得しました
                                                                • 「AI安倍晋三」ネットで物議 合成音声のYouTube動画、“東京大学AI研究会”が公開

                                                                  Twitterアカウント(@AIAbeShinzo)も開設しており、最初に投稿したツイートは26日正午時点で1万件以上リツイートされるなど関心を集めている。ユーザーからは「素晴らしい」や「ありがとう」など絶賛する声の他、「死者への冒涜ではないか」や「AIで美空ひばりの新曲作ったのと同じ感じがして複雑」など疑問を呈する声も見られる。 「東京大学AI研究会」とは何者か? 発起人である東京大学AI研究会のWebサイトによると、同研究会は東京大学教養学部・工学部有志と学生有志が2021年5月10日に設立。5月時点では「東大13名、京大10名、大阪大学6名、早稲田大学9名、慶応義塾大学1名、筑波大学1名、立命館大学3名」(原文ママ)の43人が在籍し、代表者は東京大学・教養学部・理科一類に所属しているという。 目的は「飛躍的・未到達領域のAI開発」としており、最新の活動記録として4月に「SOTA(特定

                                                                    「AI安倍晋三」ネットで物議 合成音声のYouTube動画、“東京大学AI研究会”が公開
                                                                  • GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること

                                                                    GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること2023.11.08 17:009,334 Maxwell Zeff・Gizmodo US [原文] ( mayumine ) これは嬉しい進化です。 OpenAIの開発者向けカンファレンス「DevDay」で、サム・アルトマンCEOよりGPT-4 Turboの公開が発表されました(こちらの記事もどうぞ)。 いちばん大きなアップデートは、今回で扱えるトークン数が128Kになって、従来の16倍となる300ページを超える長い文書を1つのプロンプトに入れられるように。本をまるごと一冊読み込ませられるようになったということです。長い文章を要約させたり、気になる箇所を教えてもらったりできるようになったことで、活用の幅はさらに大きく広がると思います。 さらにGPT-4 Turboでは、JSONモードが実装され、JS

                                                                      GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること
                                                                    • Webのルビ仕様にはアクセシビリティを阻害している面がある。「日本DAISYコンソーシアム」が改善を求めてブラウザベンダ、WHATWG、W3Cらに公開書簡

                                                                      Webのルビ仕様にはアクセシビリティを阻害している面がある。「日本DAISYコンソーシアム」が改善を求めてブラウザベンダ、WHATWG、W3Cらに公開書簡 すべての人が等しく情報にアクセスできることを目指し、国際規格であるDAISY(Digital Accessible Information System:アクセシブルな情報システム)規格の開発・維持・普及のために設立された国際団体「DAISYコンソーシアム」の正会員である「日本DAISYコンソーシアム」は、Web上の文書の文字や熟語にルビを振るためのWeb標準仕様が、弱視や失読症などを含むさまざまなハンディキャップを持つ人々にとってのアクセシビリティを阻害している面があるとして、改善を求める公開書簡をWebブラウザベンダ、WHATWG、W3C宛てに送付しました。 その一部を引用します。 The historical purpose of

                                                                        Webのルビ仕様にはアクセシビリティを阻害している面がある。「日本DAISYコンソーシアム」が改善を求めてブラウザベンダ、WHATWG、W3Cらに公開書簡
                                                                      • 最近のAIボイスチェンジャー(RVC、so-vits-svc)

                                                                        私は趣味で機械学習を学ぶ初学者であり、説明に間違いや勘違いがある可能性があります。そういった点がありましたらコメントで指摘していただけると助かります。 また、so-vits-svcやRVCは論文ベースでの技術発表が無いため、以下はコードや周辺情報からの想像を含みます。 修正履歴 2023/04/15 RVCの動作について誤りがあったので修正しました。nadare🌱さんご指摘ありがとうございます。 AIボイスチェンジャーとは ある発話音声の入力を特定の話者が発話したような声質の発話音声に変換するための、深層学習を使用したアプローチがそう呼ばれている印象です。 以前から、深層学習を用いたリアルタイムボイスチェンジャーはMMVCなどが存在していました。 最近(2022年11月頃から2023年4月頃)では、Retrieval-based-Voice-Conversion 通称RVC や、Soft

                                                                          最近のAIボイスチェンジャー(RVC、so-vits-svc)
                                                                        • 今年の書初めコーディングはAITuberを創る!

                                                                          はじめに あけましておめでとうございます。去年は何といってもAIの年でした。ChatGPTやStableDiffusionが2022年末に登場してから、想像を超えてAI周りが進化しましたね。今回は年の初めという事もあり、前から興味のあったAITuberを作ってみる事にしました。 「AITuberを作ってみたら生成AIプログラミングがよくわかった件」 って本も買ったし。LLM部分だけでは無く、OBSやYouTubeのコメント取得などAITuberに必要な内容が一式揃っていて非常に参考になりました。 また、私はプログラミングは多少できますが、イラストや音楽に関しては全くスキルの無い人間です。そのためそのあたりに関してはStable DiffusionやSunoAIの力を借りて作っているので、結果的にオール生成AIという感じですね。そのあたりも含めて記事にまとめたいと思います。 TL;DR 素の

                                                                            今年の書初めコーディングはAITuberを創る!
                                                                          • OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる

                                                                            OpenAIがSpeech-To-Text AIのWhisperを発表しました。Githubからpipでインストールすれば簡単に使えます。私のM1 Max MacBook Proでも動作しましたので、作業内容を書いておきます。 GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Robust Speech Recognition via Large-Scale Weak Supervision – GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Python仮想環境を作る Python自体のインストールは既に終わっているところから書くことにします。私の環境は

                                                                              OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる
                                                                            • 【悪用厳禁】自分の声を推しの声にリアルタイム変換する方法(全体公開)|めーぷるしろっぷ|pixivFANBOX

                                                                              皆様はrvcというAIをご存知でしょうか? RVCはAIボイスチェンジャーとも言うべき代物で、 推しの声をAIに学習させることで、推しの声でおしゃべりすることが出来るようになります! 学習させた音声は推しに迷惑が掛からないように、自己責任で利用してください。 今回はRVCを使った音声の学習から、それを実際に使う方法...

                                                                                【悪用厳禁】自分の声を推しの声にリアルタイム変換する方法(全体公開)|めーぷるしろっぷ|pixivFANBOX
                                                                              • 【特集】音声合成ソフトの進化がすごい!無料で使えるVOICEVOXや有料のVOICEPEAKを試してみた - PC Watch

                                                                                  【特集】音声合成ソフトの進化がすごい!無料で使えるVOICEVOXや有料のVOICEPEAKを試してみた - PC Watch
                                                                                • プレースホルダーのアクセシビリティ上の課題と解決策 - SmartHR Tech Blog

                                                                                  こんにちは!SmartHRプロダクトエンジニアのhimiです。 この記事ではプレースホルダーのアクセシビリティとユーザビリティについての課題と、その解決手段についての話を書きます。 プレースホルダーって何? Webアプリでよく見る、フォームコントロールに値が無いときに表示するテキストのことです。 主な用途としては、フォームの入力例や入力内容の説明テキストが設定されることが多いです。 HTML Standardでは The placeholder attribute represents a short hint (a word or short phrase) intended to aid the user with data entry when the control has no value. A hint could be a sample value or a brief de

                                                                                    プレースホルダーのアクセシビリティ上の課題と解決策 - SmartHR Tech Blog