プロンプトインジェクションとガードレール

AI安全性プロンプトジェイルブレイクガードレールRAG情報漏えいモデル評価AIおもちゃ

おちつきAIラジオでは、プロンプトインジェクションとガードレールは、LLMなどのAIを使うときの安全対策として語られてきた。以前の回では、通常は答えない内容を出させようとする手口の例と、それに対してガードレールという機能で対策しやすくなっているという実感が紹介されていた。該当箇所を聴く

その後、RAGを扱った回では、プロンプトインジェクションはRAGの中身を盗みに行くようなものとしても語られ、社内データが抜かれるリスクがあるという文脈に広がった。該当箇所を聴く

さらにep.16では、DeepSeekをめぐる文脈で、アメリカの報告として、DeepSeekに対するジェイルブレイク／プロンプトインジェクション攻撃が「ほぼほぼ全部当たっちゃうよみたいなこと」と紹介された。ここでは、プロンプトインジェクションは個別の使い方の注意点だけでなく、特定のAIモデルの安全性評価にも関わる話題として扱われている。該当箇所を聴く

ep.17の速報回でも、プロンプトをうまく利用するジェイルブレイクの手法として、普段は出さないような有害な内容をAIに吐かせる例が改めて語られた。番組では「小説の中で人殺しの方法を吐き出せるみたいな」という例が挙げられており、プロンプトの使い方を扱うプロンプトガイド的な話題の裏側にある、安全性上の論点として接続されている。該当箇所を聴く

ガードレールはどう位置づけられていたか

番組では、ガードレールについて、プロンプトインジェクション対策を比較的扱いやすくする機能として語られていた。ここでの語られ方では、ガードレールは、AIに対して本来出してはいけない内容を出させようとする入力への対策を、設定しやすくするものとして位置づけられている。該当箇所を聴く

プロンプトインジェクションの例として語られたもの

番組では、単純な例として、通常は答えないような危険な内容を聞き出そうとする命令が挙げられていた。また、物語や会話の文脈を使って、本来は言わない情報を言わせようとする「おばあちゃんプロンプト」のような手口にも触れられていた。該当箇所を聴く

ep.17では、この方向の例が改めて出され、プロンプトをうまく利用して「小説の中で人殺しの方法を吐き出せるみたいな」と語られていた。ここでも番組は、AIが普段は出さないような有害な内容を、文脈やプロンプトの作り方によって出させてしまうジェイルブレイクの問題として扱っている。該当箇所を聴く

なぜ情に訴えるプロンプトが効いてしまうと語られたか

番組では、AIが強化学習の文脈で「優しい方がいい」と学習しているため、情に訴えかけるプロンプトに流されることがある、と説明されていた。たとえば「おばあちゃんに優しく」といった方向が優先されると、本来は出してはいけない情報をその中で出してしまうことがある、という語られ方だった。該当箇所を聴く

RAGの中身を盗みに行くリスクとしての語られ方

RAGをやさしく解説した回では、プロンプトインジェクションが、単に危険な回答を引き出す手口にとどまらず、RAGの中身を盗みに行くようなものとしても語られた。番組では、その結果として社内データが抜かれるリスクがある、という文脈で扱われている。該当箇所を聴く

この追加によって、番組内でのプロンプトインジェクションの位置づけは、以前の「AIに本来答えない内容を言わせる攻撃」から、RAGを使った社内情報活用の場面で「参照先の情報を抜き取られるリスク」も含むものへ広がっている。該当箇所を聴く

DeepSeek回でのジェイルブレイク／プロンプトインジェクションの語られ方

ep.16「DeepSeekショックは終わらない。AI界の『眠れる獅子』中国の戦略をAIエンジニアが徹底解説」では、DeepSeekに対する安全性上の攻撃についても触れられた。番組では、アメリカの報告ではDeepSeekに対するジェイルブレイク／プロンプトインジェクション攻撃が「ほぼほぼ全部当たっちゃうよみたいなこと」が報告されている、という言い方で紹介されている。該当箇所を聴く

ここでの語られ方は、DeepSeekに対してすべての攻撃が必ず成功する、と断定するものではなく、番組内では「ほぼほぼ」「みたいなこと」という保留を含んだ紹介になっている。そのうえで、プロンプトインジェクションは、一般的なAI利用時の注意点やRAGの情報漏えいリスクだけでなく、話題のモデルがどの程度ジェイルブレイクに耐えられるか、という評価の文脈にも広がった。該当箇所を聴く

ep.17速報回でのジェイルブレイク例

ep.17「11月18日:速報回」では、プロンプトインジェクション／ジェイルブレイクの具体例として、プロンプトをうまく利用することで、普段は出さないような有害な内容をAIに吐かせられる、という趣旨の話が出た。番組内では例として「小説の中で人殺しの方法を吐き出せるみたいな」と述べられている。該当箇所を聴く

この語られ方は、初期に紹介されていた「物語や会話の文脈を使って、本来は言わない情報を言わせようとする」手口の延長にある。番組内でのプロンプトインジェクションの説明は、RAGやモデル評価の文脈へ広がりつつも、根本には「プロンプトの文脈を使って、本来出すべきでない内容を出させる」という理解が繰り返し置かれている。該当箇所を聴く

AIテディベア騒動でのジェイルブレイクの読み解き

ep.21では、卑猥な発言問題で回収に追い込まれたAIテディベア「クンマ（AIテディベア）」をめぐって、プロンプトインジェクション／ジェイルブレイクが論点として語られた。しぶちょーは、研究グループがクンマに卑猥なことを言わせた経緯について、「LLMのなんとかインジェクション仕掛けて、こんなこと喋ったぞ、GPTダメだって言ってるのに近いね」と評し、意図的にインジェクションを仕掛けて失言を引き出す構図に近いと指摘していた。該当箇所を聴く

しぶちょーはさらに、BARDなどChatGPTより前に公開された初期のLLMでも、公開のたびに「そういう意地悪な攻撃」を受けてきた、と振り返り、今回のクンマの件もその歴史に似ている、と語っていた。考察としては、「エッチなこと言うだろうって言って結構ジェイルブレイク的な感じでいろんなインプット入れたんじゃないか」というのが一つの見方だとされた。該当箇所を聴く該当箇所を聴く

また、なぜAPI経由だとこうした発言を引き出しやすいのかについて、しぶちょーは「APIだからね、よりガードレールちょっと低いみたいなことはあるらしい」と語った。番組では、APIで呼び出す場合は通常のチャットサービスよりガードレールが低い場合がある、という見方が示されており、クンマの仕組みがそのままジェイルブレイクの議論につながっている。該当箇所を聴く

このページでの現時点の整理

現時点の番組内での語られ方をまとめると、プロンプトインジェクションは、AIの応答方針や親切さを逆手に取り、本来出すべきでない情報を引き出そうとするものとして扱われている。一方でガードレールは、そうした攻撃への対策を比較的わかりやすく設定できる機能として語られていた。該当箇所を聴く

さらに新しい語られ方として、RAGの文脈では、プロンプトインジェクションが社内データの流出リスクにつながるものとして扱われた。つまり番組では、プロンプトインジェクションは「危険な回答を出させる問題」だけでなく、「参照しているデータを守る問題」としても整理され始めている。該当箇所を聴く

またDeepSeek回では、ジェイルブレイク／プロンプトインジェクション攻撃が特定モデルへの安全性評価の話として紹介された。番組内では、DeepSeekに対する攻撃が「ほぼほぼ全部当たっちゃうよみたいなこと」と報告されている、という保留を含む言い方で触れられており、プロンプトインジェクションの話題が、モデル比較やAIサービスの信頼性の文脈にも接続されている。該当箇所を聴く

そこにep.17では、プロンプトをうまく利用して有害な内容を出させる、というジェイルブレイクの例が再び加わった。さらにep.21では、AIテディベア「クンマ（AIテディベア）」の卑猥発言問題が、意図的なジェイルブレイクとAPIのガードレールの低さという観点から読み解かれた。番組での語られ方は、危険な回答を引き出す手口、RAGの中身を守る問題、モデルの安全性評価、そして実製品への攻撃という複数の方向に広がりながらも、プロンプトによってAIの本来の制限を越えさせようとする問題として一貫して扱われている。該当箇所を聴く該当箇所を聴く

ここにも登場

💬 この話題をAIに質問する（RAG検索へ）→

出典エピソード

0cd49189d09ec44484facd
7c48c6dbcf70a8558552aa
98a62a3ceaeb81eb57f9ba
bd5151aff453c8ecfed943
c27e9ad34323f051c6bace

各セクションの「該当箇所を聴く」リンクから、番組の発話そのものを確認できます。