はじめに DiscordやVRChatなど、オンラインでの会話を楽しむプラットフォームが近年賑わいを見せています。 そんな中で「さまざまな声質の音声で会話ができたら面白いだろう」と思い立ち、音声間での声質の変換ができる機械学習モデルを実装してみました。例えば以下の紹介動画のように変換できます。 機械学習の一手法「VITS」でアニメ声(つくよみちゃん)へ変換できるボイスチェンジャーを実装しました。https://t.co/LX0TV13uAD pic.twitter.com/vVWcDbUSpn — zassou (@zassouEX) February 25, 2022 また、今回用いたモデルではテキストの読み上げを実行することもできます。 読み上げを行うこともできます。 (こちらに関してはもう少しファインチューニングが必要そうです。) pic.twitter.com/xKPhTL7A0E