ハルシネーション
おちつきAIラジオでは、ハルシネーションは単に「AIが学習した文章に嘘が入っていたから起きる」とだけ説明されるものではなく、言語モデルの仕組み上、起きやすい要因があるものとして語られていた。しぶちょーとかねりんの会話では、この回で紹介された論文の論点として、事前学習中のデータの嘘とは別に、確率的な出力の構造や自己学習・事後学習が関わるという見方が示された。さらにep.57では、AIの出力の偏りについて、それがバイアスなのかハルシネーションなのか区別が難しい、という論点も加わっている。該当箇所を聴く
番組Wiki上では、ハルシネーションは生成AIの応答をどう扱うかという意味で、AIへの指示設計や、Claudeのようなモデル利用時の注意とも隣接するテーマとして整理する。Claudeに関する話題は、Wiki上ではAnthropic周辺の項目とも接続される。
「学習データに嘘があるから」だけではない説明
番組では、従来の分かりやすい説明として「事前学習の時に学習する文章に嘘が含まれているからハルシネーションが起きる」という見方が取り上げられていた。発話では「それってめっちゃ分かりやすいんだけど、事前学習の時の学習する文章に嘘が含まれてるから」と説明されている。該当箇所を聴く
ただし、この回で紹介された論文については、番組内でその説明とは別に「仕組み的に起きる要因」があるものとして扱われていた。つまり、おちつきAIラジオでの語られ方では、ハルシネーションは学習データの真偽だけに還元されず、モデルが次に出す語を選ぶ構造そのものにも関わる問題として位置づけられていた。該当箇所を聴く
特定の事実情報がずれる仕組み
しぶちょーは、特定の人物の誕生日のような事実情報を例に、元の事実とは違う日付が出てしまう仕組みを説明していた。番組では「誰々さん」と「誕生日」のつながりよりも、「誕生日」という単語の後に続く日付のデータの多さが強く働く場合、確率的に出やすい日付が出力されてしまう、という趣旨で語られている。該当箇所を聴く
この語り方では、ハルシネーションは「完全に無から嘘を作る」というより、ある単語の後に続きやすいものを確率的に選んだ結果、特定の事実とは違う答えになる現象として説明されている。番組内の例では、「誕生日」という語に続く日付の傾向に引っ張られることが、誤った日付の出力につながるとされていた。該当箇所を聴く
自己学習や事後学習がさらに助長する
番組では、ハルシネーションが起きる仕組みを説明したうえで、それをさらに助長しているものとして「自己学習」が挙げられていた。発話では「これハルシネーション起こるよねって絶対起こっちゃうよねっていう話なんだけど、それをさらに助長してるのが自己学習」と述べられている。該当箇所を聴く
このページ作成時点の材料では、自己学習や事後学習の詳細な手順まではここに追加しないが、おちつきAIラジオでは、ハルシネーションの原因を「事前学習データに嘘があること」だけでなく、その後の学習の仕組みによっても強められるものとして語っていた。該当箇所を聴く
体験談としての「いいハルシネーション」
別の速報回では、あるモデルが自分について事実でないことを多数生成し、いわゆる強いハルシネーションをしていたという経験が共有された。番組内では、その挙動について「いいハルシネーションしてたわ」と話されている。該当箇所を聴く
この追記によって、おちつきAIラジオでのハルシネーションの語られ方は、仕組みの説明だけでなく、実際にモデルを使ったときに「自分について事実でないことを多数生成される」ような体験としても記録されるようになった。該当箇所を聴く
Claudeにもハルシネーションはあり、注意が必要
今回の速報回では、文章を書く用途ではChatGPTよりもClaudeの方がよい気がする、という感覚的な評価に触れつつも、Claudeにもハルシネーションはあるという注意が語られていた。発話では、Claudeについての評価に続けて、ハルシネーションが「結構あった」と受け止められている。該当箇所を聴く
このため、おちつきAIラジオでのハルシネーションの語られ方は、「どのモデルなら安全か」という単純な比較ではなく、文章生成で好ましく感じるモデルであっても、出力内容には注意が必要だという実践的な話にも広がっている。番組内では、ディープリサーチのような調べる用途に触れながらも、当然ながら裏側の確認が必要だというニュアンスで語られていた。該当箇所を聴く
ユーモア生成とハルシネーションの線引き
AI-1グランプリの回(ep.30)では、AIにユーモアを生成させる文脈で、ハルシネーションがあらためて論点として持ち出されていた。しぶちょーは、AIが面白いことを言いにくい理由を挙げる中で「もう一つはハルシネーションの問題がある」と話している。該当箇所を聴く
ここで語られていたのは、ジョークとハルシネーションの区別が難しいという問題である。しぶちょーは「これってさ、ジョーク、どこまでがジョークでどこまでがハルシネーションなのかってすごく線引きが曖昧なんだよね」と述べていた。該当箇所を聴く
つまり、おちつきAIラジオでの語られ方では、事実と違う出力(ハルシネーション)と、意図的なボケ・冗談(ジョーク)は、外から見ると同じように「事実でないこと」を言っているため、両者の境目が曖昧になるとされていた。この論点は、AIに大喜利をさせる試み(大喜利)やAIによるユーモア生成(AIのユーモア生成)と地続きで語られている。該当箇所を聴く
さらにしぶちょーは、ハルシネーションを起こさないよう真面目に作られたAIは、かえって冗談を言えなくなりそうだという見立ても示していた。発話では「なんかすごい真面目に優等生で育てられてきた人って冗談とか言えなさそうじゃん」と、人にたとえて語られている。該当箇所を聴く
この語り方では、ハルシネーションを抑え込むことと、笑いに必要な意外性・逸脱を許すことが相反しうるものとして並べられていた。これは、同じ回で語られた確率的な単語予測の性質(驚きの最小化)とも結びつく論点であり、ファインチューニング(Fine-tuning)したモデルやChatGPTに大喜利をさせる企画の背景として位置づけられていた。該当箇所を聴く
ep.57での語られ方:バイアスなのかハルシネーションなのかという区別の難しさ
ep.57「Googleの炎上事例から考える、AIバイアスを取り除くことの難しさ」では、AIの出力に現れる偏りをどう呼ぶべきかをめぐって、ハルシネーションが論点として持ち出された。かねりんは、AIの出力の偏りについて、バイアスというかそれハルシネーションですか? ハルシネーション偏り? なんだろう、と話し、それがAIバイアスなのかハルシネーションなのか、それとも単なる偏りなのか、という区別が難しいと述べていた。該当箇所を聴く
このep.57での語られ方は、これまで番組内で積み上がってきた「ジョークとハルシネーションの線引きが曖昧だ」という論点と地続きにある。すなわち、AIが事実と違うことを言ったり偏った出力を出したりしたとき、それをハルシネーションと呼ぶのか、バイアスと呼ぶのか、外から見ると境目がはっきりしない、という問題である。番組内でのハルシネーションは、ここで、言語モデルの仕組みやユーモアとの関係に加えて、AIの偏りをめぐる議論の中で、バイアスとどう区別されるのかが曖昧なものとして位置づけられている。あわせて、AIエージェントのように複数のAIがやり取りする場面では、こうした事実と違う出力が伝言ゲーム的に出てきやすいという論点とも接続して語られてきた。該当箇所を聴く
ep.73での語られ方:音声入力ツールの整形でも出るときは出る
ep.73「【音声入力AI】キーボードはもうオワコン!? 最新AI音声入力AIツール4選と「喋る方が疲れる説」の真相」では、AI音声入力ツールが文字起こしの内容をLLMで整形する文脈で、ハルシネーションがあらためて話題に上った。しぶちょーは、設定のバー(しきい値)を調整しないとハルシネーションが出やすくなる場合があると聞きつつも、「結構バーを調整しないとそういうのハルシネーション出やすいみたいなのもあるらしいけど、でも調整しても出るとき出るよね」と話していた。該当箇所を聴く
このep.73での語られ方は、これまで番組内で積み上がってきた「仕組み上どうしても起きてしまう」という論点と地続きにある。すなわち、おちつきAIラジオでは、設定を調整することで出にくくできる余地はあるとしつつも、調整してもなお出るときは出る現象として、ハルシネーションが位置づけられていた。この回はSuperWhisperやAquaVoiceのような音声入力ツール(音声入力)を扱った回であり、ハルシネーションは、文章生成だけでなく、喋った内容を文章に整形する場面でも注意すべきものとして語られていた。該当箇所を聴く
ここにも登場
出典エピソード
- 007b871cb2495cf4d91752
- 31e7fdc74e6b188722346d
- 41ef0a753ed23e6a76f12d
- 5c8998f8687908b3fb05d3
- 8042cdca61b1258f1e0142
- f029eeb0e32ddaa8177786
各セクションの「該当箇所を聴く」リンクから、番組の発話そのものを確認できます。