ディープQネットワーク(DQN)
強化学習DQN状態の評価表を使わない学習
おちつきAIラジオでは、ディープQネットワーク(DQN)は強化学習の文脈で、「全部の状態をちゃんと表で持たなくても」扱えるようになった方法として説明されていた。番組内では、状況ごとの点数をその場で計算してくれるような賢い方法、というニュアンスで語られている。該当箇所を聴く
番組での説明
この回でしぶちょーは、強化学習において「全部の状態をちゃんと表で持たなくても」よくなったものとして、ディープキューネットワークに言及した。番組では、DQNを、あらゆる状態を事前に表として列挙しておくのではなく、その場で状況の点数を計算できるようにする方法として位置づけていた。該当箇所を聴く
「表で持つ」方法との対比
おちつきAIラジオでの語られ方では、DQNの要点は「全部の状態を表で持たなくてもよい」という対比に置かれていた。つまり番組内では、状態をすべて表にして管理するやり方から、状況に応じて評価を計算するやり方へ進んだものとして説明されている。該当箇所を聴く
語られ方の変遷・矛盾
現時点でこのページに蓄積されている範囲では、ディープQネットワークについての説明はこの回の発言のみであり、番組内での語られ方の変遷や矛盾はまだ確認されていない。確認できる内容としては、DQNは「全部の状態をちゃんと表で持たなくても」強化学習を扱えるようにした方法として紹介されていた。該当箇所を聴く
出典エピソード
- c1a31f17d6e240a620ca0c
各セクションの「該当箇所を聴く」リンクから、番組の発話そのものを確認できます。