ゆっくりボイス

音声合成従来型音声合成ゆっくり実況リアルタイム合成音声生成AIの歴史

ゆっくりボイスとは、おちつきAIラジオでは、ディープラーニング以前の従来型の音声合成の代表例として語られている合成音声である。しぶちょーは、音声生成AIの進化を振り返るなかで、断片をつなぎ合わせる古い方式の音声としてゆっくりボイスを取り上げ、その特徴と、それでも今なお使われている実用性の両方を説明していた。波形そのものを生成するWaveNetなどの新しい方式と対比される、出発点側の技術として位置づけられている。

概要

しぶちょーは、従来の音声合成について、断片と断片を繋いでいるから、その繋ぎ目がすごく不自然に聞こえたり、普通の発音とは違うような感じがして滑らかさに欠ける、という趣旨で話していた。タイプライターみたいなものだ、という言い方もされており、おちつきAIラジオでは、ゆっくりボイスがこうした断片接続型の不自然さを代表する音として語られている。しぶちょーは、あの音がもう頭に染み付いてしまっている、とも話していた。該当箇所を聴く

番組での扱われ方

一方でしぶちょーは、ゆっくりボイスはめっちゃ軽量で、とにかくリアルタイムで音声合成するのがめちゃくちゃ速い、と話していた。そのため、ゆっくり実況やコメントを読むといった用途にすごく使われており、まだまだ全然実用されている技術ではある、と説明している。おちつきAIラジオでは、ゆっくりボイスが、音質の滑らかさよりも軽さと速さという強みで現役の技術として扱われている。該当箇所を聴く

他との関係

この「断片をつないで滑らかさに欠けるが軽くて速い」という従来型の音声合成は、おちつきAIラジオでは、何もないところから波形そのものを生成するWaveNetや、短い音声からでもその人っぽい声を作れるようになった現在の音声生成AI、ElevenLabsを使った渋町（しぶちょー）の声のクローン実験などと対比される形で語られている。番組では、不自然な繋ぎ目が頭に染み付いていた時代から、言われなければ気づかないクオリティへと音声合成が進化していった、その出発点としてゆっくりボイスが紹介されている。

ここにも登場

WaveNet

💬 この話題をAIに質問する（RAG検索へ）→

出典エピソード

5c5e063809cc5efe3e9613

各セクションの「該当箇所を聴く」リンクから、番組の発話そのものを確認できます。