おちつきAIラジオ Wiki
🕸 グラフ

チャンク分け(chunking)

RAG検索情報参照チャンク分け精度改善

「チャンク分け」は、おちつきAIラジオでRAG(検索拡張生成)を説明する中で、検索時に情報をどの単位で取り出すかに関わる重要なテーマとして語られた。番組では、入力に対して「この1個の丸々の1000文字の中にきっとそれが入ってるぞ」というように、情報をユニット単位で持ってくると説明されていた。該当箇所を聴く

番組で語られたチャンク分けとは

おちつきAIラジオでは、検索時の情報取得は、必要な文章を一文ずつ直接探すというよりも、あるまとまりごとの単位で持ってくるものとして説明されていた。しぶちょーは、たとえば「カネリの趣味」と入力したときに、その答えが入っていそうな「丸々の1000文字」のような単位、つまりユニット単位ごとに情報を持ってくると話した。該当箇所を聴く

なぜ切り方が重要なのか

番組では、チャンク分けそのものは基本的に自動化できるとしつつも、「どこで切るか」は非常に重要だと語られていた。つまり、単に文章を機械的に分割すればよいというより、検索時に役立つまとまりとして切れているかが、参照のしやすさに関わるものとして扱われていた。該当箇所を聴く

精度が出ないときの泥臭い調整

しぶちょーは、RAG(検索拡張生成)を一度組んで実際に使ってみたものの「あんま精度出ないね」となった場合、チャンク分けを変えたり、オーバーラップを変えたりする必要があると説明していた。番組内では、この作業はきれいに一発で決まるものというより、「泥臭い作業」として語られていた。該当箇所を聴く

語られ方の変遷・矛盾

このページ作成時点で提供されている範囲では、チャンク分けについての語られ方に明確な矛盾はない。おちつきAIラジオでは、チャンク分けは自動化できる一方で、どこで切るかが非常に重要であり、精度が出ない場合には分け方やオーバーラップを変える調整対象として位置づけられていた。該当箇所を聴く

ここにも登場

💬 この話題をAIに質問する(RAG検索へ)→

出典エピソード

  • bd5151aff453c8ecfed943

各セクションの「該当箇所を聴く」リンクから、番組の発話そのものを確認できます。