学習データの偏り

AIバイアス学習データ機械学習公平性

学習データの偏りとは、AIが学習に用いるデータそのものに含まれる偏りを指すテーマであり、おちつきAIラジオではAIバイアスの根本的な原因として語られた。番組では、出力に現れる偏りの多くが、もとをたどれば学習データ自体の偏りに行き着くという観点から論じられている。

番組での扱われ方

しぶちょーは、トレーニングデータの偏りによって「白人男性っていうのが過剰に生成されるようなバイアス」が、ずっと指摘されてきたと話した。番組では、これを一時的な不具合ではなく、長く指摘され続けてきた構造的な問題として捉えている。該当箇所を聴く

主な論点

しぶちょーは、対処の方向性として「学習データ自体の偏りみたいなものをちゃんと無くした状態で学習させた方がいいよね」と語った。出力の段階で調整するのではなく、学習させるデータの段階で偏りを取り除くべきだという考え方が、番組では示されている。該当箇所を聴く

他との関係

番組では、この学習データの偏りという論点が、具体的な炎上事例とともに語られた。2015年に黒人をゴリラとタグ付けしてしまったGoogleフォトの事件は、人間の学習に使われたデータが白人に偏っていたことが原因とされ、学習データの偏りの典型例として位置づけられている。一方で、Geminiの画像生成Imagenの炎上は、こうした偏りを無くそうとして多様性を重視するあまり、かえって歴史の改変や別の偏りを生んでしまった事例として語られ、学習データの偏りを取り除くことの難しさを示す両面の例として並べて論じられた。

ここにも登場

💬 この話題をAIに質問する（RAG検索へ）→

出典エピソード

31e7fdc74e6b188722346d

各セクションの「該当箇所を聴く」リンクから、番組の発話そのものを確認できます。