空梅雨なんでしょうか?
意外と晴れの日が続いてうれしいですね!!ヾ(´ω`○).
の続きです。
またまた、間違いなどありましたら、指摘してください。m(_ _)m
原文はこちら。
https://www.nature.com/articles/nature24270.epdf
Empirical analysis of AlphaGo Zero training
Alpha Go Zeroにはランダムなアクションから初めて、450万回のセルフプレイをさせたそうです。
セルフプレイ中、それぞれ1600回のMCTS(モンテカルロ木探索)を行います。
つまり、MCTSが7,200,000,000回、回ったわけですね。
7200億回ですよ。ほげーー!!!
それぞれの手を進めるのに、0.4秒だそうです。
学習に使うミニバッチは2048のポジションのミニバッチで、70万個あるそうです。
上記でいうと、かなり大変な演算をしているように思いますが、Alpha Go Zeroは、たった1台のマシン・4TPUで、多くの(笑)マシン・48TPUのAlpha Go Leeを打ち負かしています。
しかも、トレーニングを始めて、わずか37時間後に、Alpha Go Leeが何か月もかかって到達したレベルに達したんです。
すごい。すごすぎる。
72時間後には、Alpha Go Leeがリ・セドルさんを負かした、あの記録的な試合の状態と同じAlpha Go LeeとAlpa Go Zeroが戦って、Alpa Go Zeroが100戦100勝しています。
どんだけ強いんだ!範馬勇二郎みたいですね!
この章は、後はどれだけAlpa Go Zeroが今までのAlphaシリーズより優れているか、というデータなどになります。
ので、割愛します。
Knowledge learned by AlphaGo Zero
Alpha Go Zeroは、囲碁の伝統的な手法も覚えたけれども、まったく新しい手法も覚えたということです。
定石も覚えたのですが、新しい定石の方を好んで使うらしいです。
最初はランダムだったプレイが、だんだんと碁のコンセプトを理解した洗練されたうち筋になり、布石とかテスジ?とかコ、ヨセなどの手法も取り入れていくそうです。(この辺、囲碁がわからないのでわからない…(>_<))
しかし、シチョーという人間だったら最初に覚えるような手法は、Alpha Go Zeroは相当後に覚えたそうです。
Final performance of AlphaGo Zero
もっと大きなニューラルネットワークに投入してみたらどうだったかという話。
40日間かけて、トレーニングしてみました。
2900万回のセルフプレイ、2048個のミニバッチが3100万個でトレーニングしました。
このニューラルネットワークは40個の residual blockでできています。
その場合、グラフを見てもらった方がよいのですが、Eloの指標が5日で4000を突破し、25日後ぐらいに5000を超え、その後も緩やかに増えています。
前述したパターンだと、4000に到達するのは35日あたりで、5000に届いていなかったので、こちらのやり方の方が強くなる、ということです。
その後は、他のAlphaシリーズと対戦させてみたけど、やっぱりAlpha Go Zeroが強かったよという話。
すごいぞ!かっこいいぞー!
Conclusion
結論!
…結局のところ、教師あり学習よりも、純粋な強化学習はよい結果を残せる。
さらに、この純粋な強化学習は、教師データがいらないし、数時間しかトレーニングにかからないし、それでいて教師あり学習よりずっと強い。
最後に妙に残酷なこと書いてありますが…。
人間は、何百万もの棋譜を数千年かけてつみあげ、パターンにし、本にして囲碁を研究してきた。
しかし、Alpha Go Zeroは数日で、何もないところから、囲碁の知識を再発見したり、今までに考えられなかった手法も生み出したのだ。
なんか、最後の方、真面目に囲碁に取り組んでこられている方々に石を投げられそうな話ですね(>_<)
ジブリでいえば完全に悪役ですね。
論文に書いてあるママなので、ご容赦ください。m(_ _)m
余談ですが、「ヒカルの碁」がすきだったのですが、サイがこの話を聞いたら嘆きそうですね。。。ρ(。・_・、)
それとも、喜んでAIと対戦するのでしょうか??
以上でこの論文は終わりですが、この翻訳はまだまだ続きます!
おまけの部分に、実装の詳しい部分が掘り下げられているのでその部分を次回に紹介します~。