GPQA
ベンチマークLLM評価推論専門知識
GPQAは、おちつきAIラジオのep.22「ベンチマークの読み方を知り『自分軸』で性能評価する技術」で紹介された、博士レベルの難問を扱うLLMベンチマークである。番組では、しぶちょーが代表的なベンチマーク性能のひとつとして取り上げた。
番組での説明:Googleプルーフ Q&Aベンチマーク
しぶちょーは、GPQAについて「これはGoogleプルーフQ&Aベンチマーク」だと説明した。番組では、検索しても分からない、つまりGoogleで調べても答えにたどり着けないような問題で構成されており、生物・物理・化学の博士号レベルの先生が作る問題だと語られている。該当箇所を聴く
番組内では、知識の総合力を見るMMLUがみんな高得点を取れるようになって飽和してきたという話の流れの中で、より難しく、検索では太刀打ちできない推論寄りの問題を扱うベンチマークとしてGPQAが位置づけられていた。
ここにも登場
出典エピソード
- b246a1e8382029ffb73fd6
各セクションの「該当箇所を聴く」リンクから、番組の発話そのものを確認できます。