前回
Alpha Go Zeroのすごさを機械学習とか知らない人向けに説明してみる
で紹介した、下記の論文を自分の理解のために翻訳していこうと思います。
Mastering the game of Go without human knowledge
https://www.nature.com/articles/nature24270.epdf?author_access_token=VJXbVjaSHxFoctQQ4p2k4tRgN0jAjWel9jnR3ZoTv0PVW4gB86EEpGqTRDtpIz-2rmo8-KG06gqVobU5NSCFeHILHcVFUeMsbvwS-lxjqQGg98faovwjxeTUgZAUMnRQ
今回から、Deep learningの知識がある方向けです。
ちなみに、英語がつらかったw
そして、私は論文を読むのに慣れてるわけでもなく、ただのプログラマーですので、間違いなどあるとは思いますが、ご容赦頂ければと思います。
間違いあれば、ぜひ指摘してください!m(_ _)m
最初の部分は、今までのAlpha Goである、Alpha Go FanとAlpha Go Lee,の説明。
Alpha Go Fanは2つの深層ニューラルネットワークからできていた。
一つはポリシーネットワーク。移動の確率と、バリューを生み出す。
人間のエキスパートの動作を予測して強化学習によりその値を新しくしていた。
バリューネットワークは、ポリシーネットワークで生み出されたポリシーを使って、勝者を予測する。
モンテカルロ木探索をこれらの2つのネットワークと融合。ポリシーネットワークを使ってより可能性の高い手を選択、バリューネットワークを利用して(モンテカルロ木探索のRollout(勝負を最後まで疑似的にしてみる)を利用)その手の価値を計算していた。
次の世代のAlphaGo LeeもほぼFanと一緒。
Alpha zeroはLee、Fanと違って、人間のエキスパートの動きの予測は一切しない。(ので、人間のエキスパートのデータはいらない)
インプットするのは、盤面の白い石、黒い石の位置だけ。
たった一つのニューラルネットワークを使用する。
シンプルな木探索で、モンテカルロ木探索のRolloutみたいなことがいらない。
あっ あっさり終わっちゃいましたね。
ま、これは冒頭部分だけですから!
次回がAlpha Go zero実装に関係ある部分ですね。(`・ω・´)