Stable Diffusion
Stable Diffusionは、おちつきAIラジオでは拡散モデルの中でも「潜在拡散モデル」という考え方によって、生成モデルをより身近な環境で動かせるようにした存在として語られた。番組では、研究室にあるような大きなパソコンでなければ動かせなかったものが、家庭の「ちょっといいGPU」を入れたマシンでも動くようになった背景として、Stable Diffusionの登場が説明されていた。ep.22では、オープンソース文化の良さと、ナノバナナに押されている現状が語られている。さらにep.48では、かねりんが時代に逆行してまたStable Diffusionの環境構築をしたものの、思い通りの画像を出せるモデルがまだ見つかっていない、という話が加わった。ep.65では、しぶちょーが「これは衰退ではなくて変化したという結論」と述べ、Stable Diffusionは消えたのではなく映像制作のインフラとしてどこにでも存在している、という見方が示された。該当箇所を聴く
番組での位置づけ
しぶちょー/かねりんの対話では、Stable Diffusionは単なる画像生成AIの名前としてではなく、生成モデルを動かすための計算量を圧縮した技術的な転換点として扱われていた。具体的には、拡散モデルの中でも「潜在拡散モデル」と呼ばれるアイデアによって、それまで研究室レベルの大きな計算機でないと難しかった処理が、家庭用の比較的よいGPUでも「ガンガン動く」ようになった、という文脈で説明された。該当箇所を聴く
家庭用GPUで動くようになったという語られ方
この回でのStable Diffusionの特徴は、画像生成AIを一般の利用環境に近づけた点にある。番組では、以前は「研究室にあるようなデカいパソコン」でなければとても動かなかった生成モデルが、家庭のマシンに入れた少し良いGPUでも動くようになった、と語られていた。その理由として、Stable Diffusionが拡散モデルの中で潜在拡散モデルを用いたことが挙げられている。該当箇所を聴く
潜在拡散モデルの説明としての補足
Suno(スノウAI)を扱ったエピソード8では、Stable Diffusionそのものの説明というより、前提となる「潜在拡散モデル」という考え方が補足されていた。番組では、潜在拡散モデルについて、次元を変換して別の領域、つまり潜在空間で計算することで扱いやすくする手法だと説明されていた。該当箇所を聴く
この補足により、以前の回で語られていた「Stable Diffusionは潜在拡散モデルによって家庭用GPUでも動かしやすくなった」という説明は、単にハードウェアが強くなったという話ではなく、計算する場所や表現を変えることで生成モデルを扱いやすくする、という技術的な工夫として位置づけられる。
ep.22:オープンソース文化の良さと、ナノバナナに押される現状
ep.22「ベンチマークの読み方」では、Stable Diffusionがオープンソースの文化の文脈で語られた。しぶちょーは「Stable Diffusionもオープンソースの文化だから」と述べ、自分たちで作り込めること、そしてローカルで動くことがその良さだと話している。こうしたオープンソースのモデルは、Hugging Faceのようなプラットフォームで共有・改良されていく。該当箇所を聴く
一方で、かねりんは「MidjourneyとStable Diffusionが俺の中で過去の存在になってて」と語り、NanoBananaが強すぎることで、これらが自分の中で過去の存在になりつつあると述べた。番組では、ナノバナナの登場によってStable Diffusionなどが以前ほど話題になりにくくなっている、という現状が率直に語られている。該当箇所を聴く
ep.48:時代に逆行した環境構築と、思い通りのモデルが見つからない
ep.48「[3月3日:速報回]」では、Stable Diffusionについて、かねりんが自分の最近の体験を語った。かねりんは、最近また時代に逆行してStable Diffusionの環境構築をした、と話している。発話では「最近ちょっとまた時代に逆行してStable Diffusionを環境構築しましたこの間ね。」と述べられており、番組内では、画像生成が手軽に使えるようになってきた流れの中で、あえてStable Diffusionの環境構築をやり直した、という形で語られている。該当箇所を聴く
そのうえでかねりんは、思い通りの画像を出せるモデルがまだ見つかっていない、と話した。発話では「いいモデルがちょっと見つかんなくて、思ったような画像がGPTでポンって出てくるようなモデルがちょっと今見つかってなくてさ。」と述べられており、ChatGPTならポンと出てくるような思い通りの画像を、Stable Diffusion側ではまだ出せるモデルが見つかっていない、という体感が語られている。番組内では、Stable Diffusionで思い通りの画像を出すには、よいモデルを探す手間がかかる、という現状が率直に語られている。該当箇所を聴く
ep.65:呪文と呼ばれたプロンプトと「民主化」
ep.65「画像生成Stable Diffusionの衰退と復活劇?」では、しぶちょーとかねりんが、Stable Diffusion黎明期のプロンプトの扱われ方を振り返った。番組では、プロンプトは単語を括弧で括ると強調になり、先に持ってくるとより強い影響を与えるなど、単語の順番が大事だったと語られている。発話では「その単語も括弧で括ると強調とか、先に持ってくとより強い影響を与えるよみたいな順番が大事みたいなね。」と述べられている。該当箇所を聴く
こうした入力は当時「呪文」と呼ばれていた、と番組では語られている。発話では「それ呪文って言われてて。」とあり、狙った絵を召喚するための呪文のような感覚だったと振り返られた。該当箇所を聴く 番組では、当時は「おっぱいを大きくするプロンプト」のようなものまですごく研究されていた、という具体例も挙げられている。発話では「前はねなんかそのいきなり下ネタなんだけど、おっぱいを大きくするプロンプトみたいなやつもすごい研究されててさ。」と語られた。該当箇所を聴く
そのうえで番組では、こうした使いこなしは技術や理解のある人でないと難しく、だからこそ「これを民主化しよう」という人がいた、と語られている。発話では「でもさ、それはやっぱり技術とか理解ある人じゃないと使えないから、じゃあこれを民主化しようっていう人がいて。」と述べられた。該当箇所を聴く スライダーのような作り込みの仕組みも、公式というよりオープンソースの文化によるものだ、と語られている。発話では「公式というかオープンソースの文化なんだよ。」とある。該当箇所を聴く
ep.65:2022年8月登場と「無料で使える」という強み
しぶちょーは、Stable Diffusionが2022年8月に出てきて、何が一番すごかったかというと、まず無料で使えるということだったと語った。発話では「そういうオープンソースの作り込む文化みたいなやつも一つスティーブルディフュージョンを盛り上げる要因の一つだったとなるほどねいろいろ特性はあるんだけど2022年の8月に出てきて何が一番すごかったかというとまず無料で使えますよってことなんだよね」と述べられている。該当箇所を聴く
さらにしぶちょーは、オープンソースで公開されていたので、GPUさえあれば誰でもデスクトップパソコンでもGPU搭載のノートパソコンでも使えた、と話した。発話では「オープンソースで公開されてたからGPUさえあれば手元に誰でもデスクトップパソコンがありゃいいしノートでもできるよねそうノートパソコンでもGPUが積んでいればできるし俺の場合はそのGoogleコラボラトリーっていう聞いたことあんなGoogle」と述べられている。番組では、誰の手元でも動かせるというこの性質が、後のローカル画像生成の楽しみ方につながっていく前提として語られた。該当箇所を聴く
ep.65:開発者の不在とB2Cでの主役交代
ep.65では、その後のStable Diffusionの停滞も率直に語られた。番組では、Stable Diffusionは骨抜きにされ、そもそも開発する人がいなくなった状態になっていた、と語られている。発話では「そもそも開発する人がいなくなったっていう。」と述べられた。該当箇所を聴く
しぶちょーは、一般のB2Cユーザーが使うのはもはやStable DiffusionではなくFLUXなどがメインになってきた、と話した。発話では「彼らは成功はしてるんだけど、我々そういうB2Cの一般ユーザーが使うのはスティーブルディフュージョンじゃなくて、さっき言ったFLUXとかそういうところがメインになってきましたよっていう。」と述べられている。該当箇所を聴く
それでもなお触る理由として、しぶちょーは、Stable Diffusionはアニメ系でやっぱり強いから、今でも触る理由の一つになっていると語った。発話では「スティーブ・ディフュージョンはアニメ系でやっぱ強いから触る理由の一つかなっていう感じだね。」と述べられている。該当箇所を聴く
ep.65:「衰退ではなく変化」という結論
そのうえでしぶちょーは、Stable Diffusionについて「これは衰退ではなくて変化したという結論」だと締めくくった。発話では「これは衰退ではなくて変化したという結論でございます。」と述べられている。該当箇所を聴く
しぶちょーは続けて、Stable Diffusionは聞かなくなったのではなく、映像制作の部分で大きなインフラとしてもはや存在している、と語った。発話では「の部分では結構大きいインフラとしてもはやスティーブリーディフュージョンというのは存在してますよというお話でございますまとまりましたはいまとまりでございますだからあの人は今ですね実はいなくなったんじゃなくてどこにでもいる実は我々がプレイしてい」と述べられている。番組では、Stable Diffusionは表舞台から消えたように見えても、実は映像制作のインフラとしてどこにでも存在している、という形でまとめられた。該当箇所を聴く
語られ方の変遷・矛盾
現時点で提供されている番組内の発言では、Stable Diffusionについての語られ方に大きな矛盾は確認されていない。初期の説明では、Stable Diffusionが潜在拡散モデルによって計算量を圧縮し、家庭用GPUでも生成モデルを動かせるようにした革新として説明された。該当箇所を聴く
その後、エピソード8では、潜在拡散モデルについて、次元を変換して潜在空間で計算することで扱いやすくする手法だという説明が加わった。該当箇所を聴く そのため、このページではStable Diffusionを、潜在拡散モデルという発想を通じて生成AIの計算を身近な環境へ近づけた存在として記録している。
さらにep.22では、Stable Diffusionの技術的革新そのものを否定するものではないが、勢力図の上ではナノバナナに押され、Midjourneyとともに「過去の存在」と感じられるようになってきた、という受け止め方が加わった。これは性能の優劣というより、話題の中心が移ったという番組内の実感として語られている。該当箇所を聴く
そしてep.48では、「過去の存在になりつつある」というep.22での受け止めとは少し別の角度として、かねりんが、最近また時代に逆行してStable Diffusionの環境構築をした、と語った。話題の中心がナノバナナに移ってきた一方で、自分たちで作り込めてローカルで動くというオープンソースの良さに改めて立ち返り、あえて環境構築をやり直す、という動きが番組内で記録されている。該当箇所を聴く ただし、その環境構築では、ChatGPTならポンと出てくるような思い通りの画像を出せるモデルがまだ見つかっていない、とも語られており、Stable Diffusionで狙い通りの画像を出すにはよいモデルを探す手間がかかる、という現状の難しさも同時に示されている。該当箇所を聴く
ep.65では、この「過去の存在になった/逆行して触り直す」という個人レベルの受け止めが、より大きな見立てへと整理された。しぶちょーは、B2Cの一般ユーザーが使う主役はFLUXなどに移り、Stable Diffusion自体は開発する人がいなくなって骨抜きにされた状態になった、と認めつつ、該当箇所を聴く それでもアニメ系には強く触る理由が残ると語り、該当箇所を聴く 最終的に「衰退ではなくて変化した」、映像制作の大きなインフラとしてどこにでも存在している、という結論でまとめた。該当箇所を聴く つまり番組内では、表舞台での話題性が下がったという受け止め(ep.22)と、衰退ではなく裏方のインフラへ変化したという見立て(ep.65)が、矛盾ではなく同じ流れの別の側面として記録されている。該当箇所を聴く
ここにも登場
出典エピソード
- 10c823ac802afc9b977a71
- 5bd27d42864664c26b24b8
- b04550c3a65646bd8b886a
- b246a1e8382029ffb73fd6
- cc91280b55e7cf7da96683
各セクションの「該当箇所を聴く」リンクから、番組の発話そのものを確認できます。