音声生成AI
音声生成AIとは、おちつきAIラジオでは、人の声を学習・生成する技術として、この2年での精度向上の速さとともに語られているテーマである。番組ではしぶちょー自身が自分の声を作った体験をもとに、その大変さと現在の手軽さの落差が具体的に話された。
番組での扱われ方
しぶちょーは、2年前に自分の声を作ろうとしたときは、早口言葉のような原稿を読まされ、おしゃべりひろゆきメーカー(西村ひろゆきメーカー)レベルのものを作ろうと思ったら8時間とか10時間、最低でも2〜3時間読まされてとても大変だったと振り返っている。当時は「使えなくはないな」ぐらいのクオリティだったという。該当箇所を聴く
それが今では全然違うとしぶちょーは話す。精度が上がり、10秒あれば結構その人の声が生成できてしまうほどになったという。該当箇所を聴く
番組内では実際に生成音声が披露され、しぶちょーは、言われなければスルーしてしまうクオリティの音声が簡単に生成・学習できてしまうと語った(番組内では、これでもツールの中でも少しハイクオリティなものを使っているとも添えられている)。該当箇所を聴く
さらに、喋っている音源だけ提供すれば、喋っている人をすっかり入れ替えることもできるとされている。該当箇所を聴く
クオリティと学習データ量
番組のクイズで使われた高クオリティ音声AとBについて、しぶちょーは、これはポッドキャスト2本分、つまり自分の収録音源を学習させたものだと説明している。該当箇所を聴く かねりんは、2時間分の声を入れれば見分けがつかないレベルまで来ているということだね、とまとめている。該当箇所を聴く
仕組み
しぶちょーは、なぜここまで精度が上がったのかについて、音声をトークン化したからだと説明している。該当箇所を聴く 具体的には、音の波形のその瞬間ごとの音を「このベクトルのこの位置だよね」という形でID化し、すごく大きな領域に保存・学習させているという。これは言語モデルが意味領域に単語を配置するのと同じ方式だと語られている。該当箇所を聴く
そうすることで、発音や意味、声のトーン、その人の声色といったものを抽象的な領域に転写でき、人の声が変わっても転用できるとしぶちょーは説明する。該当箇所を聴く この学習済みモデルから声を探しに行く方式になったため、すごく短い音声でもその人っぽいものを持ってこれるし、長く入れれば入れるほどより精度の高いところから引っ張ってこれる、と語られた。該当箇所を聴く
実運用での使われ方と発音の崩れ
ep.75では、しぶちょーが、音声生成AIを実際の制作に日常的に組み込んでいることを語っている。番組内では、ボイスクローンについて、最近は毎週土曜日に自分の声のクローンを使ってポッドキャストを上げている、と話されている。該当箇所を聴く
一方で、その実運用の中で出てくる弱点についても率直に語られた。しぶちょーは、ボイスクローンは発音がすごく崩れたり、漢字の読み間違いをしたりすることがある、と話している。番組内では、ボイスクローンで発音がすごく崩れたり、漢字の読み間違えをしたりすることがすごくある、と語られている。これは、ep.67までで語られてきた「10秒で生成できる」「2時間分入れれば見分けがつかない」という精度の高さと並んで、実際に毎週使う中で見えてきた音声生成AIの限界として記録された語られ方である。該当箇所を聴く
他との関係
番組では、この音声生成AIの進化の早さの起点として おしゃべりひろゆきメーカー が、そして実際に番組で使われた具体的なツールとして ElevenLabs が語られている。
ここにも登場
出典エピソード
- 0c79d8f66e94df9640b47b
- 5c5e063809cc5efe3e9613
各セクションの「該当箇所を聴く」リンクから、番組の発話そのものを確認できます。