メルスペクトログラム
音声生成AI音声処理信号処理音声編集
メルスペクトログラムとは、おちつきAIラジオでは、音声生成AIの仕組みを解説する流れで持ち出された音声の表現方法として語られている。しぶちょーは、普通のスペクトログラムをメル尺度に変えたものがメルスペクトログラムだと説明し、メル尺度とは人が聞きやすいように周波数を表したものだと話した。
概要
しぶちょーは、普通のスペクトログラムだと周波数があまりにもまっすぐすぎて、人の可聴領域ではないところまで結構大きく表示されてしまうと話した。それをメル尺度に変えたのがメルスペクトログラムであり、人が聞きやすいような表し方になっていて、いつも編集でも使われていると語っている。該当箇所を聴く
主な論点
しぶちょーは、メルスペクトログラムはかなりその人の音っぽいものを表しているとしながらも、ここから予想できる波形は無数にあって、一意には定まらないと話した。つまり、本来メルスペクトログラムからは音声自体を一つに決めて生成することはできなかった、という点を音声生成の難しさとして説明している。該当箇所を聴く
他との関係
このメルスペクトログラムの話は、おちつきAIラジオで音声生成AIの仕組みを解き明かしていく一連の解説の中で語られた。番組ではこの後、音声をトークン化してその人っぽい声を生成できるようになった経緯が紹介されており、ElevenLabsのような音声生成ツールやVALL-Eの文脈とつながる話題として扱われている。
出典エピソード
- 5c5e063809cc5efe3e9613
各セクションの「該当箇所を聴く」リンクから、番組の発話そのものを確認できます。