LMアリーナ
LMアリーナは、おちつきAIラジオで、生成AI同士を一対一で比べる「対マン勝負」のような場として紹介された。しぶちょー(渋町(しぶちょー))は、ベンチマークのスコアを単に競うのではなく、人間がA/Bのどちらが良いかを選び、その結果でランキングが付く仕組みとして語っていた。ep.22では、このチャットボットアリーナの仕組みや使い方がより詳しく掘り下げられている。該当箇所を聴く
番組で語られた仕組み
しぶちょーは、LMアリーナについて「生成AI同士を戦わせる場」と説明していた。番組内では、世界の人たちがそこで比較を行い、その結果がランキングになる、リーグ戦のようなものとして語られている。該当箇所を聴く
また、比較のされ方については、ベンチマークのスコアを競う形ではなく、「一対一」の勝負だと説明されていた。人間がA/Bのどちらが良いかを選ぶ、ブラインドテスト的な仕組みとして扱われており、その積み重ねで順位が付くものとして紹介された。該当箇所を聴く
ep.22:主観を動的に評価するチャットボットアリーナ
ep.22では、しぶちょーが、使いやすい・使いにくいといった「何とも言えない指標」を、人間が主観で・動的に評価してベンチマークにしようとしたのがチャットボットアリーナだ、と説明した。これは固定された問題が飽和・汚染する弱点を避ける動的ベンチマークの代表例として位置づけられている。該当箇所を聴く
具体的な流れとして、どちらがGemini 3 ProでどちらがClaudeかを伏せて二つの出力を見せ、選んだ方にポイントが入る、というのを世界中でやっていると語られた。番組では、しぶちょーもかねりんも実際にやったことがある、というやり取りがあった。該当箇所を聴く
無料で使える「ガチャ」のような楽しさ
しぶちょーは、アリーナのメリットとして「別に無料で使えるからさ、いいモデルが」と述べ、いいモデルを無料で使えること、そしてどのモデルが出てくるか分からないガチャのような楽しさがインセンティブになっていると語った。該当箇所を聴く
さらに、「全国にただで公開されてるから、ちょっと触るだけでもだいぶそこに貢献できる」とも述べ、ずっとやらなくても、少し触るだけでベンチマークに貢献できる、という参加のしやすさが強調された。該当箇所を聴く
指標の見方:オーバーオールと用途別
しぶちょーは、チャットボットアリーナには複数の指標があり、「全部の指標を合わせて、とりあえず一番賢いのはどれって知りたい時はもうオーバーオールってやつ見ればいい」と説明した。該当箇所を聴く 用途別の指標として、数学、クリエイティブライティング(創作や文章制作)、ロングテキストなどもあると挙げられている。該当箇所を聴く
しぶちょーの勧め:自分の位置を知る
しぶちょーは、LMアリーナくらいはちょっと覗いてみて、「前自分が使ってるモデルとか、今自分が使ってるのはこのぐらいの位置にいるんだな」というのを見ておくとよい、と勧めていた。番組の「自分軸で性能評価する」というテーマに沿って、自分が使っているモデルの現在位置を把握する入口としてLMアリーナが位置づけられている。該当箇所を聴く
しぶちょーの受け止め方
しぶちょーは、LMアリーナの仕組みに対して「めっちゃ面白い」と反応し、この話だけでいつか話したいぐらいだとも述べていた。番組内では、LMアリーナそのものが今後さらに掘り下げられそうな題材として扱われており、ep.22でその掘り下げが実現した形になっている。該当箇所を聴く
ここにも登場
出典エピソード
- 72b2b1d178fdacefe1f403
- b246a1e8382029ffb73fd6
各セクションの「該当箇所を聴く」リンクから、番組の発話そのものを確認できます。