おちつきAIラジオ Wiki
🕸 グラフ

RAG(検索拡張生成)

RAG検索拡張生成外部知識カンペデータ保護個人のAI化ロングコンテキストAPI費用

おちつきAIラジオでは、RAG(ラグ)は「生成AIに外部の知識を与えて、それを参照して答えさせる仕組み」として説明されていた。番組内では、AIに何かを新しく覚え込ませるというより、LLMに参照用の情報を渡して回答を作らせる「カンペ」のようなものとして語られた。該当箇所を聴く

RAGは何をしている仕組みなのか

しぶちょーは、RAGについて「ユーザーの質問に対して使えそうな情報」を引っ張ってきて、それをLLMに渡す仕組みだと説明していた。つまり、質問そのものだけをLLMに投げるのではなく、回答に使えそうな材料を先に集め、それを渡したうえで回答を作らせる流れとして語られていた。該当箇所を聴く

番組ではこのイメージを「カンペ」と表現していた。RAGはLLMそのものに知識を埋め込むというより、「この中に答えが書いてあるから、この中から答えて」と参照情報を渡すものとして説明されている。該当箇所を聴く

回答の根拠を示しやすくなることがある

番組では、RAGを使うことで「ここの部分を見てこの回答を作りました」といった参照箇所の示唆を出せるようになることがある、と語られていた。ここでは、RAGが回答の材料を外部情報から持ってくるため、どの情報を見たのかを示しやすくなるという文脈で説明されていた。該当箇所を聴く

実用化と運用のしやすさ

しぶちょーは、RAGについて「もう実用化のレベルまで達して、いろんな企業で普通に使われるようになった」と話していた。番組では、RAGが特別に驚かれる技術というより、企業利用の現場で普通に使われる段階に来ているものとして扱われていた。該当箇所を聴く

また、RAGは最初に作るのは大変だが、一度作ってそれなりに精度が出る状態になれば、その後は情報を追加していきやすいという利点が語られていた。番組では「一回作っちゃってそれなりに精度出るなと思ったら、あとは追加していける」と説明されている。該当箇所を聴く

データを守らないと中身が見えてしまう危険がある

番組では、RAGの便利さだけでなく、内部に入れたデータを守る必要性も話されていた。しぶちょーは、RAGの中のデータを守らないと、検索経由でどんどん出されてしまい「何が入ってるか分かっちゃう」と説明していた。RAGは参照用データを扱う仕組みであるため、プロンプトインジェクションとガードレールのような防御・制御の話題ともつながるものとして読める。該当箇所を聴く

個人のデータを入れた「その人っぽいRAG」

エピソード後半では、個人のデータを全部入れた「カネリンラグ」のようなものが作れるのか、という話題も出ていた。これに対して、番組では「できると思う」と語られている。該当箇所を聴く

さらに、配信などで蓄積された文章が多ければ多いほど、その人物の口調や特徴を参照して、似せた回答をさせることは可能だという話もされていた。番組では、かねりん風の口調で回答するような使い方について「そういうのに使える」と語られている。該当箇所を聴く

芸能人や有名人のように本や文章が大量にある人についても、そうしたテキストをRAGに入れて「その人をAI化しました」的なことを実際にやっている例がある、という趣旨で語られていた。ただし、文章が多いほど、RAGを組むときやチャンク分け(chunking)のように情報を分ける工程でコストがかかるとも話されている。該当箇所を聴く

ロングコンテキスト対応に伴う使い方の変化

ep.25「[12月16日:速報回]」では、入力できるトークン数が大きく増えたロングコンテキストの話題に続けて、しぶちょーが、このぐらいの量のテキストであれば、もうRAGにせずに全部渡して回答させた方がいい、というように、ロングコンテキストに対応してくるとそういう使い方になってくる、という話があると語った。少量のテキストであれば、わざわざRAGを組まずに、テキストをそのままChatGPTに渡して回答させる方が向いている場面が出てきている、という最近の使い方として話されている。該当箇所を聴く

ReplitでRAGが作れてしまったという体験

ep.36「Replitで爆誕!番組専用AI検索ツール『おちつきAI RAG』公開!」では、RAGが番組専用の検索ツールおちつきAI RAGとして実際に作られた文脈で語られた。番組では、RAGはデータベースを持つ必要があり、難易度が高めなイメージだと受け止められていたが、その「ラグの」データベースがReplitでできてしまった、と話されている。該当箇所を聴く

また、RAGの本来の仕組みとして、OpenAIなど他のAIのサービスのAPIが必要だという点も語られた。しぶちょーは、RAGにはOpenAIとか他のAIのサービスのAPIがいるのね、と説明しており、本来はそのAPI費用を自分で払わなければいけない仕組みであることが話されている。該当箇所を聴く

語られ方の変遷・矛盾

RAGについては当初、外部知識を参照させる「カンペ」として、実用化が進み企業で普通に使われる仕組みとして肯定的に語られ、個人のデータを入れて「その人っぽいRAG」を作る応用まで広く扱われていた。該当箇所を聴く 該当箇所を聴く

その後のep.25では、ロングコンテキストの進展に伴い、少量のテキストならRAGを組まずに全部渡して回答させた方がいい場面が出てきている、という使い方の変化が語られた。これはRAGの有用性を否定するものではなく、扱うテキスト量や用途によって、RAGとロングコンテキストでの直接入力を使い分けるという、選択肢の広がりとして追記できる。該当箇所を聴く

さらにep.36では、データベースが必要で難易度が高めとされていたRAGが、Replitで実際に作れてしまったという体験として語られた。本来はOpenAIなど他のAIサービスのAPIが必要で、そのAPI費用を自分で払う仕組みだとされていたRAGが、より手元で作れるものへと近づいたかたちで語られ方が広がっている。該当箇所を聴く 該当箇所を聴く

ここにも登場

💬 この話題をAIに質問する(RAG検索へ)→

出典エピソード

  • 174963eac99c2e948c4bd1
  • 60caa94d8feacdf0be2ad4
  • bd5151aff453c8ecfed943

各セクションの「該当箇所を聴く」リンクから、番組の発話そのものを確認できます。