ElevenLabs
ElevenLabsとは、おちつきAIラジオでは、しぶちょーが番組内で「しぶちょーボイス」を作るのに実際に使った音声生成ツールとして語られている存在である。番組では、これが 音声生成AI(音声生成AI)の現在地を示す具体例として、その手軽さと精度、そして料金が紹介された。
番組での扱われ方
しぶちょーは、最終的に紹介するツールはお金(サブスク)がかかるが、ポッドキャストで読ませても使えてしまうくらいのクオリティだと語っている。番組では、このツールで作った音声を使い「今からどっちがしぶちょーでしょう」というクイズが出された。該当箇所を聴く
学習データの与え方
しぶちょーは、このツールではテキストの正解データを与えているわけではなく、自分が雑に喋った時間、ポッドキャストなどの収録音源をそのままボンッと入れているだけだと説明している。結構な量ではあるが、正解テキストとのペアを用意する必要はないという。該当箇所を聴く
クローンの容易さへの懸念
しぶちょーは、ElevenLabsは和写分離(話者分離)をちゃんとしてくれるからと前置きしたうえで、「かねりんちょっと電話しようぜ」と言って2時間くらい喋れば、もう音声を取られてクローンできてしまう、と語っている。さらに、あと1年くらいしたら2時間もいらなくなるだろう、もっと早くできるだろうとも話した。該当箇所を聴く
料金プラン
しぶちょーは、しぶちょーボイスのようなものを作るには「クリエイタープラン」が必要で、これでないとできないと説明している。料金は月額22ドルで、初月50%オフだったため今はそれで使っており、この収録が終わったらなるべく早く解約しようと思っている、と語った。該当箇所を聴く
クリエイタープランはプロフェッショナル用途のプランで、月10万文字までの利用と、しぶちょーが使った「プロフェッショナルボイスクローン」が使えるようになるという。本格的なナレーションなど、企業レベルのコンテンツでも十分使えるかな、とまとめられている。該当箇所を聴く
APIを使った自動化
かねりんは、ElevenLabsのAPIを使って、自分の喋り方とかを網羅した音声を作った、と語っている。番組内でのElevenLabsは、ここで、収録音源を入れてボイスを作るツールとしてだけでなく、APIを通じて自分の話し方を再現した音声を生成する仕組みとしても扱われている。該当箇所を聴く
そのうえでかねりんは、ポッドキャスト制作の流れの中で、ElevenLabsのAPIを叩きに行って、しぶちょーで作ったボイス音源があるから、それに読ませる、と説明している。番組内でのElevenLabsは、ここで、しぶちょーボイスのようなクローン音源にAPI経由でテキストを読ませる、制作工程の一部として位置づけられている。該当箇所を聴く
これらの語られ方は、しぶちょーがClaude Codeを駆使してポッドキャスト制作を進める回の中で出てきたもので、ElevenLabsは、AIエージェント(AIエージェント)や ハーネスエンジニアリング による制作の自動化、そして ビデオポッドキャスト の制作術と地続きの形で、APIで呼び出して音声を生成するパーツとして語られている。
プリセット音声の読み上げ精度
ep.75では、ElevenLabs(11ラボス)の読み上げ精度について、声の種類による違いがしぶちょーから語られた。番組内では、自分の声では発音が崩れることがある一方で、すでにプリセットされている11ラボスの声だったら結構ちゃんと読んでくれる、と話されている。これは、ep.75で 音声生成AI(音声生成AI)のボイスクローンが発音を崩したり漢字を読み間違えたりすると語られたのと対比される形で、プリセットされた既存の声であれば読み上げが安定する、という使い分けとして記録された語られ方である。該当箇所を聴く
ここにも登場
出典エピソード
- 0c79d8f66e94df9640b47b
- 5c5e063809cc5efe3e9613
- ad2c3f921aa25896873caf
各セクションの「該当箇所を聴く」リンクから、番組の発話そのものを確認できます。