音楽生成

音楽生成生成AIオープンソースローカルAISuno作曲DeepMind

おちつきAIラジオでは、音楽生成は「音楽にはルールがある」という観点から語られた。Suno（スノウAI）を扱う回の中で、しぶちょー／かねりんの対話では、キーや拍子、コード進行のような決まりを利用すれば、機械的に音を置くだけでも“それっぽい”曲を作れるのではないか、という見立てが示された。該当箇所を聴く

音楽にはルールがある、という出発点

番組では、音楽生成を考える前提として「音楽って結構ルールあるじゃん」と話されていた。ここで言われていたルールは、キー、拍子、コード進行などの、曲を曲らしく感じさせる枠組みとして扱われている。おちつきAIラジオでは、このルール性があるために、厳密な創作性や高度なモデルの話に入る前でも、まずはルールに沿って音を並べることで、ある程度“音楽っぽいもの”を作れるという見方が示された。該当箇所を聴く

Cメジャーのコード進行に音を置くだけでも曲っぽくなる

より具体的な例として、番組では「Cメジャーのコード進行」が流れているところに、ドレミファソラシドのような音を適当に打つだけでも、なんとなく曲っぽくなる、という説明がなされた。これは、音楽生成がまったく無秩序な音の羅列から始まるのではなく、コード進行やスケールのような土台に支えられている、という語られ方だった。該当箇所を聴く

この回での位置づけ

この時点の語りでは、音楽生成は「人間の感性をそのまま再現する」というより、まずは音楽が持つ構造を利用して、曲らしさを成立させるものとして説明されていた。番組内では、キーや拍子、コード進行といったルールがあるからこそ、それらを使えば一応は曲のように聞こえるものを作れそうだ、という方向で話が進んでいた。該当箇所を聴く

ep.41での語られ方：ローカルで爆速・無料の音楽生成AI

ep.41「[2月10日:速報回]」では、音楽生成は、ローカル環境で爆速かつ無料で使える音楽生成AIという観点から語られた。しぶちょーは、その生成速度について「だってRTXの3090で10秒以下で一曲生成できるって書いてあったから」と話しており、RTX 3090で10秒以下で一曲生成できると書いてあった、と紹介していた。番組内では、音楽生成が、一定のマシンスペックさえあれば非常に短時間で一曲を作れるところまで来ている、という形で語られている。該当箇所を聴く

このAIの生成内容についても説明された。しぶちょーは「普通にテキストプロンプトから完全な楽曲、ボーカル、歌詞とか伴奏すべてを含むものを生成できるし、日本語にも対応してると」と話しており、テキストプロンプトから、ボーカル・歌詞・伴奏を含む完全な楽曲を生成でき、日本語にも対応している、と紹介していた。番組内では、音楽生成が、テキスト指示だけで歌詞や歌声まで含む一曲をまるごと作れるものとして語られている。該当箇所を聴く

ローカル生成ならではの位置づけ

しぶちょーは、このローカルでの作曲について「そうそうマシンスペックも結構寄っちゃうんだけど、ローカルでこれだけすごく爆速で作曲できるのはなかなかない」と話していた。番組内では、相応のマシンスペックは要るものの、ローカルでこれだけ爆速で作曲できるものはなかなかない、という形で評価されている。該当箇所を聴く

加えて、コスト面についても語られた。しぶちょーは「一度セットアップすれば永久に使い放題」と話しており、番組内では、ローカルで動かすこの音楽生成AIは、一度セットアップすれば永久に使い放題である、という点が、無料で使える音楽生成AIとしての魅力として語られている。該当箇所を聴く

Sunoとの比較

このローカル音楽生成AIの品質や使い勝手は、番組ではSuno（スノウAI）と比較しながら語られた。しぶちょーは、作られた曲を聞いた限りの品質について「Sunoと同等と言っていいと思う多分」と話しており、品質はSuno（スノウAI）と同等と言っていいと思う、という受け止め方を示していた。該当箇所を聴く

使い勝手については、思い通りの曲が出せる感はSuno（スノウAI）と一緒なのか、という問いに対して、しぶちょーは「Sunoよりもかなりカスタマイズ性が高いっていうのはある」と答えていた。番組内では、思い通りに出せる感はSuno（スノウAI）と同等としつつ、カスタマイズ性はSuno（スノウAI）よりかなり高い、という違いが語られている。該当箇所を聴く

その高い自由度の背景として、オープンソースであることも挙げられた。しぶちょーは「やっぱカスタマイズできるっていうのとAPIで他のツールと連携させるとかオープンソースのものだからそういうこともできるから自由度がかなり高いっぽい」と話しており、カスタマイズができることに加え、オープンソースなのでAPIで他のツールと連携でき、自由度がかなり高いっぽい、という見方を示していた。該当箇所を聴く

苦手だった点：抑揚のないバッキングが作れない

一方で、番組では、このAIで思うように作れなかった例も率直に語られた。しぶちょーは、ポッドキャストのBGM用に、自分の声の領域と被らない低音重視のインスト曲を作ろうとしたという。発話では「低音が良くて自分の声の領域と被らないところを埋めて欲しいからベースが効いてる低音が良くてそういうのをいっぱいやろうとしたんだけど本当に抑揚のないバッキングだから後ろの音楽みたいなものができなくて結構主旋が出てきちゃって」と話されており、ベースの効いた、抑揚のないバッキング（後ろで流れるBGMのような曲）を作ろうとしたが、うまく作れず、主旋律が出てきてしまった、という苦労が語られている。番組内では、テキストから一曲をまるごと作るのは得意でも、主張しすぎない伴奏のような曲は思い通りに出しにくい、という限界も示されている。該当箇所を聴く

ep.46での語られ方：DeepMind発のテキストからジャケット画像とボーカル音源を出すモデル

ep.46「[2月24日:速報回]Gemini 3.1からGrok 4.2まで」では、別の音楽生成モデルが取り上げられた。しぶちょーは、その生成内容について、テキストから、画像（CDのジャケットのようなもの）とボーカル付きの音源が出てくる、と話していた。発話では「テキストとテキストからその画像とCDのジャケットみたいなやつとボーカル付きの音源が出てくるよと」と語られており、この回での音楽生成は、曲だけでなくジャケット画像まで一緒に出る一方で、インスト曲（ボーカルなしの曲）は作れないものとして語られている。該当箇所を聴く

しぶちょーは、このモデルの来歴についても触れ、買収などではなく、元々Googleというか、DeepMindが作ったものだと話していた。番組内では、このモデルが、もともとGoogle系のDeepMindで作られた音楽生成モデルとして紹介されている。該当箇所を聴く

品質については、しぶちょーが「素のよりはダメ?クオリティ自体は素のとはあんまり変わらないかなと思う」と話しており、クオリティ自体は素のものとあまり変わらないと思う、という受け止め方が示された。番組内でのこのモデルは、品質面では大きく見劣りするわけではないものとして語られている。該当箇所を聴く

そのうえでしぶちょーは、お試しで30秒くらいの曲がポンとできることを挙げ、Suno（スノウAI）とかを使っていなかった人が「やべえ歌ができる、音楽ができるぞ」と体験できるくらいのものができる、と話していた。番組内では、このモデルが、これまで音楽生成AIに触れていなかった人にとっては十分に驚ける体験を提供するものとして語られている。該当箇所を聴く

さらにしぶちょーは、すでに、いいなと思える、アニメのオープニングとしてもありそうな曲がパンパンできる、とも話していた。発話では「でもすでに確かにいいなっていうアニメのオープニングとしてもありそうだなみたいな曲とかってパンパンできるよね」と語られており、番組内では、このモデルが、それっぽく聴ける曲を次々と量産できるものとして評価されている。該当箇所を聴く

一方で、かねりんは、こうした音楽生成について、結局自分で作ったほうが早いんじゃないか、と最終的には感じる、という趣旨で話していた。発話では「そう結局自分で作ったほうが早いんじゃないかみたいな最終的には」と語られており、番組内では、手軽に曲を量産できる便利さと、思い通りのものを得るには自分で作ったほうが早いと感じる場面がある、という両面が示されている。該当箇所を聴く

語られ方の変遷

初期のSuno（スノウAI）を扱う回では、音楽生成は「音楽にはルールがある」という観点から、キーや拍子、コード進行のような枠組みを使えば曲らしさを作れる、という構造面から語られていた。該当箇所を聴く

これに対しep.41では、音楽生成は、ローカルで爆速かつ無料に動き、テキストプロンプトからボーカル・歌詞・伴奏を含む完全な楽曲を生成でき、品質はSuno（スノウAI）と同等、カスタマイズ性はそれ以上、というところまで具体的に語られるようになった。これは初期の語りと矛盾するものではなく、音楽の構造を利用するという出発点から、実際にローカルで使える無料の音楽生成AIの実力と限界（抑揚のないバッキングが作りにくい点など）にまで、番組内での語られ方が広がっていることを示している。該当箇所を聴く該当箇所を聴く

さらにep.46では、テキストから曲とジャケット画像、ボーカル付き音源を出すDeepMind発のモデルが語られ、品質は素のものとあまり変わらず、Suno（スノウAI）を使っていなかった人なら十分に驚けるくらいのもの、アニメのオープニングにありそうな曲がパンパンできる、という評価が加わった。一方で、インスト曲は作れないこと、そして最終的には自分で作ったほうが早いと感じる場面があることも語られ、便利さと限界が同居する形で記録されている。該当箇所を聴く該当箇所を聴く該当箇所を聴く

おちつきAIラジオでは、これまでにもSuno（スノウAI）やSoundrawといった音楽生成サービスが取り上げられてきたが、ep.41で語られたローカル音楽生成AIや、ep.46で語られたDeepMind発のモデルは、無料・お試しで気軽に曲を作れるという点で、それらと並ぶ新たな選択肢として位置づけられている。該当箇所を聴く該当箇所を聴く

ここにも登場

💬 この話題をAIに質問する（RAG検索へ）→

出典エピソード

1fa6c8178765cf5ddc2797
b04550c3a65646bd8b886a
d41ff99ae008e88402ea67

各セクションの「該当箇所を聴く」リンクから、番組の発話そのものを確認できます。