おちつきAIラジオ Wiki
🕸 グラフ

GPQA

ベンチマークLLM評価推論専門知識

GPQAは、おちつきAIラジオのep.22「ベンチマークの読み方を知り『自分軸』で性能評価する技術」で紹介された、博士レベルの難問を扱うLLMベンチマークである。番組では、しぶちょーが代表的なベンチマーク性能のひとつとして取り上げた。

番組での説明:Googleプルーフ Q&Aベンチマーク

しぶちょーは、GPQAについて「これはGoogleプルーフQ&Aベンチマーク」だと説明した。番組では、検索しても分からない、つまりGoogleで調べても答えにたどり着けないような問題で構成されており、生物・物理・化学の博士号レベルの先生が作る問題だと語られている。該当箇所を聴く

番組内では、知識の総合力を見るMMLUがみんな高得点を取れるようになって飽和してきたという話の流れの中で、より難しく、検索では太刀打ちできない推論寄りの問題を扱うベンチマークとしてGPQAが位置づけられていた。

ここにも登場

💬 この話題をAIに質問する(RAG検索へ)→

出典エピソード

  • b246a1e8382029ffb73fd6

各セクションの「該当箇所を聴く」リンクから、番組の発話そのものを確認できます。