事前学習（プレトレーニング）

事前学習生成AI自己教師あり学習言語モデルハルシネーション誤情報

おちつきAIラジオでは、事前学習（プレトレーニング）は、生成AIが大量の文章を使って「次に来る単語」を予測するように学ぶ段階として語られていた。しぶちょーは、この段階が終わるとAIは言語を喋れるようになる一方で、人間世界の常識やモラルまではまだ学んでいない状態だと説明していた。該当箇所を聴く

番組での定義：文章を隠して、次の単語を当てる学習

この回でしぶちょーは、事前学習を「文章の一部を隠し、そこに入る単語を予想する」ような学習として説明していた。予想が合っていればよく、間違っていればモデルを更新する、という形で「自分でいっぱい問題を作ってどんどん学習していく」と語っている。番組内では、これは生成AIで行われている自己教師あり学習として位置づけられており、教師あり・教師なし学習とも関係する説明になっていた。該当箇所を聴く

事前学習後の状態：言語は喋れるが、常識やモラルはまだない

しぶちょーは、プレトレーニングが終わるとAIは「言語を喋れる」ようになると話した。ただし、それは赤ちゃんが言語を取得したのと同じように、喋れるだけであって、まだ人間世界の常識やモラルを学んでいない状態だと説明していた。おちつきAIラジオでは、事前学習はLLMが言語らしい出力を身につける重要な段階として語られつつ、それだけでは人間にとって望ましい振る舞いにはならない、という位置づけで扱われていた。該当箇所を聴く

嘘や誤情報との関係

このエピソードでは、AIの嘘「ハルシネーション」の話題の中で、事前学習時に学習する文章に嘘が含まれていることが原因のひとつとして語られていた。しぶちょーは、事前学習で使う文章に嘘が含まれているため、それを学んでしまうという趣旨で説明していた。該当箇所を聴く

「正しいこと」ではなく「次に来そうな単語」を当てている

番組では、生成AIが行っていることは、あくまでも「次に来そうな単語を当てる」ことだと説明されていた。しぶちょーは、この仕組みから、モデルが直接「正しいこと」を出すことを目的にしているわけではない、という文脈で語っていた。該当箇所を聴く

この回での位置づけ

この回のおちつきAIラジオでは、事前学習は「言語を喋れるようにするための最初の大きな学習」として説明されていた。一方で、学習対象の文章に嘘が含まれることや、目的が正しさそのものではなく次の単語の予測であることから、AIの嘘と呼ばれる現象を理解するための前提として扱われていた。該当箇所を聴く

ここにも登場

Why Language Model Hallucinate（論文）

💬 この話題をAIに質問する（RAG検索へ）→

出典エピソード

f029eeb0e32ddaa8177786

各セクションの「該当箇所を聴く」リンクから、番組の発話そのものを確認できます。