Gemini 3 Pro
LLMGoogleチャットボットアリーナベンチマークAI性能
Gemini 3 Proは、おちつきAIラジオのep.22「ベンチマークの読み方を知り『自分軸』で性能評価する技術」で、LMアリーナの総合表をほぼ占めるトップクラスのLLMとして語られたGoogleのモデルである。番組では、ベンチマーク性能を実際に読むときの具体例として登場した。
アリーナの総合表をほぼ占める
かねりんは、チャットボットアリーナの総合的な表を見て「ほぼほぼGemini3プロじゃん」と述べた。番組では、収録時点でGemini 3 Proがオーバーオールでほぼ上位を占めている、という状況が語られている。該当箇所を聴く
配信時点では順位が変わりうる
ただし番組では、この順位がいつまでも続くとは限らない点も強調された。かねりんは「真逆だし、本当にこれ配信日にはもうなんかひっくり返ったりしたらもう恥ずかしいじゃん」と述べ、収録から配信までの間に順位が入れ替わる可能性があるため、今日はGeminiがすごいという話をしたいわけではない、と釘を刺している。番組のテーマである「自分軸で性能評価する」という姿勢が、ここに表れている。該当箇所を聴く
上位モデルとカンニング学習のチェック
また、性能が突出して高い上位モデルについては、汚染の検証の話題が及んだ。かねりんは「明らかに性能高い上位のやつは個別にカンニング学習してないかどうかをチェックする何かを走らせるみたいな、そういう感じ?」と確認し、しぶちょーも同意した。番組では、Gemini 3 Proのように明らかに高性能なモデルに対しては、ベンチマーク汚染がないかを個別にチェックする仕組みを走らせる、という流れで語られていた。該当箇所を聴く 同じアリーナの文脈では、Grokも意外と上位で頑張っている存在として触れられている。
ここにも登場
出典エピソード
- b246a1e8382029ffb73fd6
各セクションの「該当箇所を聴く」リンクから、番組の発話そのものを確認できます。