動的ベンチマーク
ベンチマークLLM評価チャットボットアリーナAI評価の限界
動的ベンチマークは、おちつきAIラジオのep.22「ベンチマークの読み方を知り『自分軸』で性能評価する技術」で語られた、問題が繰り返し生まれ続けて飽和しにくいベンチマークの考え方である。番組では、固定されたベンチマーク性能が汚染・飽和する弱点を乗り越えるための発想として紹介された。
番組での説明
しぶちょーは、「問題がもうずっと繰り返し繰り返し生まれ続けるようなベンチマーク、こういう形が非常にいいよね」と述べ、こうした動的ベンチマークを作らなきゃいけない、という流れで説明した。固定された問題は学習データに混入してベンチマーク汚染を起こしたり、みんなが高得点を取れて飽和したりするが、問題が次々に生まれ続ければそうした弱点を避けやすい、という考え方である。該当箇所を聴く
チャットボットアリーナの誕生
しぶちょーは、こうした動的ベンチマークを作らなければいけないという問題意識から生まれたのがチャットボットアリーナだ、と語った。番組では、人間が主観で使いやすさを評価し続けるLMアリーナや、AIにAIを評価させるLLM-as-a-Judgeが、この動的ベンチマークの具体例として位置づけられている。該当箇所を聴く
ここにも登場
出典エピソード
- b246a1e8382029ffb73fd6
各セクションの「該当箇所を聴く」リンクから、番組の発話そのものを確認できます。