WaveNet

音声生成AIディープラーニングDeepMind波形生成音声合成の歴史

WaveNetとは、おちつきAIラジオでは、音声生成AIの大きな転機をもたらしたDeepMindの音声合成モデルとして語られている。しぶちょーは、音声合成の歴史を振り返るなかで、ディープラーニングを使った音声合成のモデルが出たことが転機だったと話しており、その代表例としてWaveNetを取り上げていた。音声生成AIの進化を説明する文脈で、従来のゆっくりボイスのような断片をつなぐ方式から、波形そのものを生成する方式へと変わった節目の存在として紹介されている。

概要

しぶちょーは、転機が訪れたのは2016年で、ディープラーニングを使った音声合成のそういうモデルが出た、と話していた。該当箇所を聴く

そのうえで、DeepMindのWaveNetが何をしたかというと、音声そのものを生成するようなモデルなのだ、と説明していた。おちつきAIラジオでは、それまでの音声合成が音をつなぎ合わせるものだったのに対し、WaveNetは何もないところから音声自体を生み出すAIとして語られている。該当箇所を聴く

仕組みとして語られたこと

しぶちょーは、WaveNetの作り方について、そういう波形の前の波形から次の波形の形を予想する、という趣旨で話していた。番組では、過去の波形から次に来る波形を予測しながら音声を作っていく方式として説明されている。該当箇所を聴く

またしぶちょーは、その人っぽい声を作るには、その人の声の場合はこういう波形になるよね、というのを全部学習したデータが大量にないと、その人っぽい声は作れない、と話していた。おちつきAIラジオでは、WaveNet方式で個人の声を再現するには、その人の波形を大量に学習させる必要があった、と語られている。該当箇所を聴く

他との関係

しぶちょーは、従来のこの方式では、かねりんボイスを作るとそれはもうかねりんボイス用のモデルになってしまう、と話していた。番組では、WaveNetのように波形を大量に学習させて声を作る方式は、その人専用のモデルになってしまい、ほかの人の声へ転用できないという限界があった、と語られている。該当箇所を聴く

この「一人ぶんの専用モデルになってしまう」という制約は、おちつきAIラジオでその後語られる、音声をトークン化して短い音声からでも声を引っ張ってこられるようになった現在の音声生成AIや、しぶちょー自身の声を学習させたElevenLabsの実験(渋町（しぶちょー）の声で行われたAIクイズなど)と対比される、出発点としての技術として位置づけられている。波形をゼロから生成する発想という点では、VALL-Eのような後続の方式へとつながる流れの中で語られている。

ここにも登場

ゆっくりボイス

💬 この話題をAIに質問する（RAG検索へ）→

出典エピソード

5c5e063809cc5efe3e9613

各セクションの「該当箇所を聴く」リンクから、番組の発話そのものを確認できます。