ベンチマーク汚染

ベンチマークLLM評価データ汚染カンニングAI評価の限界

ベンチマーク汚染は、おちつきAIラジオのep.22「ベンチマークの読み方を知り『自分軸』で性能評価する技術」で語られた、学習データにベンチマークの問題や正解が混入することで、テスト自体が正しい結果を出せなくなる問題である。番組では、ベンチマーク性能の信頼性を揺るがす中心的な論点として扱われた。

ベンチマークが抱える構造的な問題

しぶちょーは、かねりんの問題提起を受けて、「このベンチマークってAIが進化すればするほどにどんどん意味がなくなっていくというか、問題を抱えていく、テスト自体が」と語った。番組では、AIが進化するほどテストそのものが問題を抱えていく、という構造的な難しさが指摘されている。該当箇所を聴く

その理由として、ベンチマークは公開されていないと意味がない一方で、公開されているがゆえに「その中にベンチマークのテスト問題が含まれちゃうよね」という話があると説明された。つまり、モデルの学習データの中にテスト問題そのものが入り込んでしまう、というジレンマである。該当箇所を聴く

入力汚染とラベル汚染

しぶちょーは、汚染の度合いを二つに分けて説明した。問題文だけを知っている状態を「入力汚染」、問題と正解の両方を知っている状態を「ラベル汚染」と呼ぶ。番組では、ラベル汚染が最も深刻な状態であり、「こうなっちゃうと、ベンチマークテストやっても正しい結果出てこない」と語られた。該当箇所を聴く

受験勉強に特化しすぎたモデル

番組では、こうした汚染やベンチマーク偏重の結果として、「本当にその受験勉強特化しすぎて」というように、ベンチマークの枠外で能力を使えないモデルが増え始めてしまう、という問題が語られた。これは指標が目標になってしまうグッドハートの法則とも結びつけて論じられている。該当箇所を聴く

ブラックボックスにすればよいわけではない

では汚染を防ぐためにベンチマークの中身を隠せばよいのか、という問いに対して、番組では否定的な見方が示された。しぶちょーは、ブラックボックスにしたベンチマークは「ベンチマークとして保証できない」「何の能力が高いのか分かりません、みたいな感じ」になるのでダメだ、と語っている。汚染は防げても、何を測っているか分からなくなっては意味がない、という整理である。該当箇所を聴く

汚染を検出する研究

一方で、汚染（カンニング）が完全に防げないとしても、それを検出する取り組みがあることも語られた。しぶちょーは「カンニングをしてるかしてないかを評価するっていう研究もある」と述べ、関連する論文も出ていると話した。性能が突出して高いモデルについては、個別にカンニング学習していないかをチェックする仕組みを走らせる、という話はGemini 3 ProやHugging Faceの文脈でも触れられている。該当箇所を聴く

ここにも登場

💬 この話題をAIに質問する（RAG検索へ）→

出典エピソード

b246a1e8382029ffb73fd6

各セクションの「該当箇所を聴く」リンクから、番組の発話そのものを確認できます。