拡散モデル

画像生成AI音楽生成AI生成AIの仕組みノイズ除去番組での語られ方の変遷

おちつきAIラジオでは、拡散モデル（ディフュージョンモデル）は、まず画像生成AIの多くを支える仕組みとして語られた。しぶちょーとかねりんの会話では、画像生成を不思議に感じる流れの中で、その背景にある基本的な仕組みとして拡散モデルが紹介されていた。該当箇所を聴く

その後、音楽生成の話題でも、画像のノイズを加える過程と逆算する過程を学習するディフュージョンモデルの考え方が音楽にも使われている、と述べられた。番組では、現在話題になっている音楽生成の多くも、結局ディフュージョンモデルを使っているという説明がなされていた。該当箇所を聴く該当箇所を聴く

番組での位置づけ

番組では、画像生成の仕組みを説明する文脈で「ディフュージョンモデル」「拡散モデル」という呼び方が出され、画像生成の多くがこの仕組みに基づいている、という形で紹介された。該当箇所を聴く

この時点での語られ方は、画像生成AIを理解するための中心的な仕組みの一つとして拡散モデルを置くものだった。番組は、詳細な構成名である潜在拡散モデル＋トランスフォーマー構成のような話にはここでは踏み込まず、まず「ノイズを扱う生成の考え方」として説明していた。

音楽生成の話題では、しぶちょーは、画像におけるノイズを加える過程と、それを逆算していく過程を学習するディフュージョンモデルの考え方が、音楽にも使われていると説明した。発話では「ディフュージョンモデルを使ってやってるんだね」と述べられていた。該当箇所を聴く

さらに、現在話題の音楽生成の多くについても、「結局ディフュージョンモデルを使ってるの」と説明されていた。これにより、おちつきAIラジオ内での拡散モデルは、画像生成AIだけでなく、音楽生成AIの仕組みを語る際にも出てくる概念として位置づけが広がった。該当箇所を聴く

拡散モデルについて、番組では「ノイズ」を扱う仕組みとして説明された。発話の中では、ノイズを一つ一つ除去していく処理として扱われており、画像に対してその処理を行うものとして語られていた。該当箇所を聴く

音楽生成の話題では、この考え方が、画像のノイズを加える過程と逆算する過程を学習するものとして説明され、その考え方が音楽にも使われていると語られた。該当箇所を聴く

しぶちょーは、拡散モデルが本来ノイズを一つ一つ除去していく処理であるため、画像に対してその処理を行うと「すげえ時間かかる」と話していた。おちつきAIラジオではこの点が、拡散モデルの計算量の大きさや処理時間の問題として説明されていた。該当箇所を聴く

現時点で、番組内の語られ方に明確な矛盾はない。初期の説明では、拡散モデルは画像生成AIの多くを支える仕組みとして紹介されていた。該当箇所を聴く

その後、音楽生成の話題では、画像のノイズを加える過程と逆算する過程を学習する考え方が音楽にも使われているとされ、現在話題の音楽生成の多くもディフュージョンモデルを使っていると説明された。該当箇所を聴く該当箇所を聴く

そのため、このページでは、拡散モデルを「画像生成AIの仕組み」としてだけでなく、「音楽生成AIにも広がって語られた仕組み」として蓄積している。

各セクションの「該当箇所を聴く」リンクから、番組の発話そのものを確認できます。