評価・報酬バイアス

LLM評価バイアス報酬設計ハルシネーションLLM-as-a-Judge

おちつきAIラジオでは、評価・報酬バイアスは、LLMが「わからない」と答えるよりも、何かをはっきり答える方向へ寄ってしまう背景として語られた。ep.2では、AIの嘘やハルシネーションの原因を説明する流れで、評価の仕組み、人間のフィードバック、得点を高く取ることの目的化が取り上げられている。ep.22では、AIにAIを評価させるLLM-as-a-Judgeの文脈で、評価に生じる具体的なバイアスが掘り下げられた。該当箇所を聴く

番組での位置づけ

このページで扱う「評価・報酬バイアス」は、番組内では、モデルが本当にわからない場面でも「わからない」と言いにくくなる評価上の力として説明された。しぶちょーは、わからないときに「わからない」と答えると点数が得られない、という評価の構造に触れ、そこから適当な回答をしてしまう方向が生まれると話していた。該当箇所を聴く

「わからない」と答えると点が入らない問題

番組では、評価の仕組みが「答えた内容が良ければ高得点」という形になっているため、モデルにとって「わからない」と答えることが不利になりうる、と語られた。しぶちょーは「もしもわからなかったとき、わからないって答えたら絶対点数もらえない」と説明し、回答を控えるよりも、何かを出した方が評価されやすい構造を問題として扱っていた。該当箇所を聴く

人間のフィードバックが「はっきり答える」方向を強める

さらに番組では、人間がフィードバックを返していることも要因として挙げられた。しぶちょーは、人間が評価する場面では、はっきり答えている方が良く見えやすく、その結果として、自信満々の誤答の方が報酬を得やすくなる、という趣旨で話していた。ここでは、RLHF（人間のフィードバックによる強化学習）のように人間の評価が入る仕組みが、望ましい振る舞いだけでなく、誤った答えを堂々と出す方向にも働きうるものとして扱われている。該当箇所を聴く

得点を高く取ることが目的化する

番組では、ベンチテストについても、正しい答えそのものより「得点を高く取る」ことが目的になってしまうと説明された。しぶちょーは、わからなくても答えを出した方がAIの会社としてもよい、という力学に触れ、点数を上げるために答える方向へモデルが寄ると、「わからないときは答えない方がよい」という振る舞いが抑えられやすいと語っていた。該当箇所を聴く

ep.22：LLMによる評価に生じるバイアス

ep.22では、AIにAIを評価させるLLM-as-a-Judgeの話の流れで、評価そのものに生じる偏りが具体的に語られた。

まず、しぶちょーは、AIには「順番を出される順番でバイアスがある」という位置バイアスがあると述べた。出力をどの順番で見せるかによって、評価が変わってしまう傾向があるという。該当箇所を聴く

次に、「冗長性バイアス」が挙げられた。しぶちょーは「内容が薄くても長くてそれっぽい文章の方が高評価されるみたいな、これもね、やっぱねバイアスがある」とし、これは人間も同じだ、と語った。AIのこのバイアスは、もともと人間のバイアスを学習したものではないか、という見方も示されている。該当箇所を聴く

さらに、AIが出力した文章をそのAIが高く評価する、という自己選好的なバイアスも語られた。しぶちょーは「これは俺たちの仲間の出力だ、つって高い点数を付けてやろう」というように、同種のAIの出力に高い点をつけてしまう傾向を紹介し、「人間っぽいよね」と受け止めていた。該当箇所を聴く

この回でのまとめ

ep.2での語られ方では、評価・報酬バイアスは、AIの嘘やハルシネーションを単なるモデル内部の問題だけでなく、評価のされ方からも説明するための観点になっていた。番組では、関連する論文解説の文脈で、なぜ言語モデルがもっともらしい回答を出してしまうのかを考える入口として、Why Language Model Hallucinate（論文）にもつながるテーマとして扱われている。ep.22では、この「評価のされ方の偏り」が、LLM-as-a-Judgeにおける位置バイアス・冗長性バイアス・自己選好バイアスとして、より具体的に整理された形で蓄積された。該当箇所を聴く該当箇所を聴く

ここにも登場

LLM-as-a-Judge

💬 この話題をAIに質問する（RAG検索へ）→

出典エピソード

b246a1e8382029ffb73fd6
f029eeb0e32ddaa8177786

各セクションの「該当箇所を聴く」リンクから、番組の発話そのものを確認できます。