VALL-E

音声生成AIMicrosoftテキスト読み上げ言語モデル

VALL-Eとは、おちつきAIラジオでは、Microsoftが出したテキスト・トゥ・スピーチ（テキスト読み上げ）のモデルとして紹介されている固有のモデルである。しぶちょーは、これが2023年の1月に出ており、音声生成において大きなパラダイムシフトを起こしたと語った（該当箇所を聴く）。

番組での扱われ方

しぶちょーは、音声生成AIの歴史を解説する中でVALL-Eを取り上げた。番組では発音の揺れも含め「バリーE」と呼びながら、Microsoftが出したモデルだと説明している（該当箇所を聴く）。

パラダイムシフトとしての位置づけ

しぶちょーは、VALL-Eが何をしているかについて、もともとは音声専用の、その人専用のモデルを作ってその人の音声を生成するという時代から、言語モデルを使って音声を生成するという時代になった、と説明した（該当箇所を聴く）。番組では、この「専用モデルから言語モデルへ」という転換こそがVALL-Eの起こしたパラダイムシフトの中身として語られている。

他との関係

おちつきAIラジオでは、VALL-Eが切り開いた言語モデルによる音声生成の流れが、その後の音声生成AI の精度向上につながっていると位置づけられている。番組では、再学習させずにプロンプトの中で声を学ばせるインコンテキストラーニングの手法もこの転換の延長線上で語られ、従来の音声生成が抱えていた過学習（過学習）の難しさと対比する形で紹介された。

ここにも登場

💬 この話題をAIに質問する（RAG検索へ）→

出典エピソード

5c5e063809cc5efe3e9613

各セクションの「該当箇所を聴く」リンクから、番組の発話そのものを確認できます。