MMLU
ベンチマークLLM評価知識テストMMLU Pro
MMLUは、おちつきAIラジオのep.22「ベンチマークの読み方を知り『自分軸』で性能評価する技術」で紹介された、LLMの知識の総合力を測るベンチマークである。番組では、しぶちょーが代表的なベンチマーク性能のひとつとして取り上げた。
番組での説明:知識の総合力を見るテスト
しぶちょーは、MMLUについて「知識の総合力を見るようなテスト」だと説明した。番組では、いろんな専門家の知識をちゃんと答えられるかを問う、センター試験のようなものとして語られている。該当箇所を聴く
飽和という問題
番組では、MMLUは「結局これほぼみんないい点数取れるようになっちゃう」と語られた。つまり、モデルの性能が上がるにつれてみんなが高得点を取れるようになり、実力差が見えにくくなる(飽和する)という問題が指摘されている。該当箇所を聴く
上位版MMLU Proの登場
この飽和への対応として、しぶちょーは「より高度なバージョンが最近開発されて、それがMMLU Proってやつ」だと紹介した。番組内では、MMLU Proは実力差をより明確にするための、より難しいバージョンとして位置づけられている。該当箇所を聴く より難しい問題を扱うベンチマークという点では、博士レベルの難問を出すGPQAとも並べて語られていた。
ここにも登場
出典エピソード
- b246a1e8382029ffb73fd6
各セクションの「該当箇所を聴く」リンクから、番組の発話そのものを確認できます。