今日は創立記念日 12周年を迎えました!

♪ありふれたー朝ーでもー 私にはー記念日~

 

というわけで!

今日、10月2日は弊社の創立記念日です。

2006年に創業したので、なんと12周年で、13年目に突入します!

弊社がここまでやってこれたのも、日ごろご愛顧いただいているお客様、パートナー企業の皆様、がんばっているスタッフのみんなのおかげです。

本当に感謝×100です。o(>▽<)o ありがとうございます。m(_ _)m

さて、去年の今日はこんなことを書いてました。

今日は創立記念日 11周年を迎えました。

今日も、秋晴れのよい一日でしたね!

 

ところで、会社も13年目なんですよ~ って言うと、皆さん

「すごいね~」

って言ってくださるのですが、もちろんありがたいお話なんですけれども、そんなにすごくもないと思います。

 

というのは、確かに、会社経営ってすっごく難しいんですよ!!。゚(゚´ω`゚)゚。

例えば、弊社のSmart動態管理はたったの月々950円ですが!

これを払っていただくために、どれだけ努力しているか…(>_<)

これを一体何個売れば、社員さんの給料が払えて、会社の家賃が払えて、私もそこそこのレベルで生きていけるか… というと、これ本当にムズゲーなんです。

で、ほかの会社さんも同じだと思います。

人様からお金を頂く、というのは大変に難しいわけです。

 

知らない人がやってきて

「おい、スタバでコーヒーおごれよ!」

って言われれば、350円でも、なんでおごらなきゃいかんの!!ってなりますよね?

 

「いや、サラリーマンなら、会社に入っちゃえば、お給料は座ってれば出るし」

というのも本当のことです。日本の法律では、業績が下がらない限り、犯罪でも侵さないかぎり、解雇というのはほぼほぼできません。

座ってネットを見ているだけでも、月に数十万円手に入るのはすごいことですよね!!

 

で・す・が!!

 

その人に払うお給料は、結局その会社のお客様から出ているわけです。(公務員さんとかはまたちょっと別)

視点をもっと引いて、大局を見れば、その方が務めている会社は会社単位でムズゲーに取り組んでいるわけです。

なので、サラリーマンさんでも、会社員という難しいことに取り組んでいらっしゃるので、別に私がすごいといわれるほどのこともない、と最近思うのです。

 

今日、会議が多かったんですけど、弊社のスタッフさんはみんないろんなことをお客さんのために考えていて、どうすれば使い勝手がよくなるか… とか考えてくれてまして、なんか感動しました。(艸□`*◆)うぁ゙うぁ゙ぁ゙ぁ゙

今も隣で二人が夜間作業やってくれてますし、お疲れ様です&よい仲間に恵まれて、幸せです!

 

さてさて、今日は創立記念日ということで、去年はケーキでお祝いしたんですけど、今年は近くのシェラトンでランチバイキングしてきました!o(>▽<)o
今日は社員さんだけです。

おいしかった~💛

しかし、めちゃくちゃ食べたな…。デザートだけでこれwww

このクレープめちゃくちゃおいしかった~( ˊᵕˋ )

 

おめでとうとか言ってましたら、女性の店員さんが

「今日はお祝いですか?お写真おとりしますよ」

って言って、なんとフレームにもしてくださいました!o(>▽<)o

素晴らしいカスタマーサービス精神₍ᐢ⑅•ᴗ•⑅ᐢ₎♡

毎年、創立記念日のイベントを何かしらやってまして、去年はリムジンパーティーをやりました。

今年は何しようかな?

今のところ、スカイダイビングが私の中では有力ですが、みんなの大反対にあってますw

 

これからも、世の中の役に立てるように努力していきますので、何卒よろしくお願いいたします。

LOGISTICS TODAYさん並びに多数媒体で「集荷・配送」機能をご紹介いただきました m(_ _)m

先日発表した、

待望の「集荷・配送」機能がSmart配送計画に追加されました!!

ですが、LOGISTICS TODAYさんに掲載していただきました!

スマート動態管理に集荷・配送の最短経路計算機能

スマート動態管理に集荷・配送の最短経路計算機能

ありがとうございます。m(_ _)m

LOGISTICS TODAYさんは、国内最大の物流業界の情報サイトです。

また、ほかの業界紙さんにも先日取材を頂きました。

記者さんが

「これは… すごい機能ですね!」

とコメントされていました。そうなんです。地味だけど、すごいんですよ!!o(>▽<)o

その業界紙さんには掲載されたら、またここでご報告したいと考えております。

 

そして、その他にも多数媒体で取り上げて頂きました!!

FineNews Today http://www.finenews-today.com/release_208221_1.html
チェッカーズ! http://www.checker-s.com/release_208221_1.html
LOGISTICS TODAY https://www.logi-today.com/326047
BtoBプラットフォーム https://b2b-ch.infomart.co.jp/news/detail.page?5624&IMNEWS5=1150999
SEO TOOLS http://www.seotools.jp/news/id_208221.html
startup http://www.s-venture.jp/release/cont/36406/
産学連携ニュース http://www.san-gaku-renkei.com/release_208221_1.html
オトナの会社設立 http://www.otonano-kaisha.com/release_208221_1.html
ネット選挙ドットコム http://www.net–election.com/release_208221_1.html
Chu-Kans http://www.chu-kans.com/release_208221_1.html
インターンシップニュース http://www.internship-news.net/release_208221_1.html
ネットベンチャーニュース http://www.netventure-news.com/release_208221_1.html
BusinessItem通信 http://www.business-item.com/release_208221_1.html
投資信託最新情報 http://www.japan-market.jp/release_208221_1.html
海外投資最新情報 http://www.kigyo-kaigyo.jp/release_208221_1.html
ValuePress! https://www.value-press.com/pressrelease/208221
VFリリース http://release.vfactory.jp/release/86738.html
エヌプラス・ニュースリリース http://news.nplus-inc.co.jp/index.php?number=447353&action=ViewDetail
クイックオーダー http://www.quickorder.jp/q_news/banneta/press3.php?rssfile=http%3A%2F%2Fwww.value-press.com%2Frss%2Fquickorder_index.rdf&press_link=https%3A%2F%2Fwww.value-press.com%2Fpressrelease%2F208221
Tumblr http://tumblr.value-press.com/post/178239021751/中小の運送配送会社の人手不足問題を解決-配送計画作成機能に集荷配送対応機能を追加月額
財経新聞 http://www.zaikei.co.jp/releases/685608/
Daily News Online http://dailynewsonline.jp/article/1523889/
カメリオ https://web.kamel.io/article/17001375992427900301
アラサーマン http://www.ala30.net/release_208221_1.html
ResearchNews[リサーチニュース] http://www.research-news.jp/release_208221_1.html
Twitnews(ツイットニュース) http://www.twitnews.jp/release_208221_1.html
リファイド ニュース http://news.leaf-hide.jp/release_208221_1.html
mixiappsnews(ミクシィアップスニュース) http://www.mixiappsnews.com/release_208221_1.html
遊びに行こうぜ! http://www.asobiniikoze.com/release_208221_1.html
パロパロ http://www.paroparonews.com/release_208221_1.html
満点笑 http://www.mantenshou.com/release_208221_1.html
Level High! http://www.level-high.com/release_208221_1.html
オモーション http://www.omo-shon.com/release_208221_1.html
イベニュー http://www.evenew.net/release_208221_1.html
G-Renda http://www.g-renda.com/release_208221_1.html
テレネック http://www.teleneck.com/release_208221_1.html
オトさが http://www.otosaga.com/release_208221_1.html
断食コム http://www.fast-fasting.com/release_208221_1.html
今にみてろよドットコム http://www.imanimiteroyo.com/release_208221_1.html
モテまんがな http://www.motemangana.com/release_208221_1.html
スマホ&モバイルクーポン最新情報 http://www.ktai-coupon.com/release_208221_1.html
レンタル&シェアニュース http://www.rental-share.com/release_208221_1.html
大人の社会見学ニュース http://www.shakai-kengaku.com/release_208221_1.html
障害者雇用インフォメーション http://www.challenged-info.com/release_208221_1.html
子育て支援ニュース http://www.ikuji-support.com/release_208221_1.html
防災グッズマガジン http://www.disaster-goods.com/release_208221_1.html
女の悩みドットコム http://www.onnanonayami.com/release_208221_1.html
おごりまっせ http://www.ogorimasse.com/release_208221_1.html
ドロヌマ http://www.doronumanews.com/release_208221_1.html
ベスト&ワースト http://www.best-worst.net/release_208221_1.html
日刊!目のニュース http://www.daily-eye-news.net/release_208221_1.html
チャリティニュース http://www.charity-news.net/release_208221_1.html
マピオン http://www.mapion.co.jp/news/release/vp208221/
ブックPRネット http://www.books-pr.com/release_208221_1.html
お~い高知 http://www.kochi-news.net/release_208221_1.html
まちづくりニュース http://www.machi-news.net/release_208221_1.html
Snacks! http://www.snack-news.com/release_208221_1.html
麺にゅ~ http://www.men-new.com/release_208221_1.html
留学ニュース.com http://www.ryugaku-news.com/release_208221_1.html

ありがたや×2!!
掲載して頂いた媒体さんに感謝です。

おかげさまで、多くのお客様にお問い合わせを頂いております!( ゚Д゚)
ちょっぴり忙しいです( ˊᵕˋ )

待望の「集荷・配送」機能がSmart配送計画に追加されました!!

本日、Smart動態管理が8.0にアップデートし、「集荷・配送」機能がSmart配送計画に追加されました。

 

 

例えば、トラックが工場・物流センターなどによって、荷物をピックアップし、それから個別の配送先へ配送する場合の最短経路を自動で計算します。

人間が行うのは、目的地と、どこが集荷先で配送先かを入力するだけです。

複数の車両でのルート計算も可能です。

配車マンが不在、配送計画作成にコストをあまりかけられない場合でも、最適な配送計画を作成できます。

多くのお客様からご希望のあった、「集荷・配送」機能の待望のリリースとなります。⊂(^-^)⊃

 

で、この件でプレスリリースも配信しております。

プレスリリースの詳細はこちら。

 

いや、地味な機能ではありますが、作るのが大変だったんですよ!!

普通にですね、配送計画を作るというのは量子コンピューターで行っても最適化ができない複雑な問題なのです( ゚Д゚) エエエ

それがさらに、「集荷・配送」とか入れると大変なのです(´ω`)

UIとしては、ドラッグアンドドロップで集荷配送できるとことか!

 

ガントチャートで閲覧できるところとか!

今回4か月超のプロジェクトになりまして。

配送計画のAPIを作成してくれた天才のT、サーバー側、クライアント側を作成してくれた、H、S、M、Nに感謝×2です。⊂(^-^)⊃

全員がずっとこの仕事をしていたわけではないのですが、実のところ…10人月ぐらいはつぎ込んでるということですね( ゚Д゚)

実は、今日リリースの前に重大なバグが見つかりまして(;^ω^) あわやリリースできないかと思いましたが、できました!⊂(^-^)⊃

よかった×よかった。

 

 

ポーカーとAI

最近はAIの開発をしていまして、最近はAlpha Zeroの話をよく書いてました。

Alpha Go Zeroの論文の翻訳 その4

 

で、これを読んだ人から疑問をもらいまして

「後藤さんが取り組んでるようなAIって、囲碁みたいな完全情報ゲームにしか使えないんでしょ?」

と言われました。

そんなことはありません。応用次第で、いろんなことに使えますよ!

それに、AIと言っても、本当に幅広いのです。

 

加えて、AIが使える分野は完全情報ゲームだけではなく、不完全情報ゲームでも実績を上げ始めているので、それは証明されている、と思います。

 

で、不完全情報ゲームと言えば、ポーカー、麻雀などですが、最近、テキサスホールデムというポーカーのゲームにはまってるので、ちょうどそのテキサスホールデムをAIでやるという話を書いておきます。

不完全情報ゲームのポーカーで人間を倒したAI「Libratus」が採っていた戦略が論文で公開される

 

なぜ人間はポーカーでAIに負けたのか? 日本トッププロが解説する“違和感” (1/2)

 

ニュースなどで報じられているカーネギーメロン大学のAI

Libratus

 

さんについては、論文とかしか情報がなさそうなので、おいておいて…(;^ω^)

Deep Stack

 

さんのサイトを見ました。で、動画も見ました…が、英語、むずい… 一回見ただけじゃあまりわからなかった(;^ω^)

その場で行う再計算(re-solving)、の完全にゲームを計算して推理するのではなく、ある程度の当て水量でゲームをするDeepStack’s “intuition”(本能的にという意味) 、Sparse lookahead Trees(完全に計算するのではなく、ある程度のツリーで計算する)など、がミソと書いてますね。

へぇぇ~ なるほど(´ω`)

だいぶ、人間っぽい!!

 

ちなみにポーカーの戦略の組み合わせは、10の160乗あるらしいです。(ー_ー) 10の160乗は、宇宙全体の物質の数より多いらしいです( ゚Д゚)

 

なんとプログラムもダウンロードできるので、時間あれば見てみたいなと思ってます。

実際のゲームの動画もあるので、見てみると、特徴としては、微妙な手で微妙な金額を賭けてくる、ということでしょうか?

もっとポーカー好きで詳しい人が見れば人間とは違うところがわかるのでしょうが、私はまったくのシロートなので、そんぐらいしかわかりませんでした。


なんというか、手が強いとか、弱いとかより、いかに報酬を最大化するか、ということに気を配るべき、というのも思いましたね~。

 

話はそれますが、Deep Stackのサイトの中で、ジョン・F・ノイマンという有名な科学者の名言(?)がありまして、

“Real life consists of bluffing, of little tactics of deception, of asking yourself what is the other man going to think I mean to do.”

 

「現実の人生は、ブラフや、戦略や欺瞞や、自分自身への自分がすることにより、他人がどう思うかという問いかけによってなりたっている」

というのが紹介されています。ふっ 深いィィィィ

 

ジョン・F・ノイマンは、ITの方なら、「ノイマン式コンピューター」という言葉を聞いたことがある方もいるかもしれませんが、そのノイマンさんです。

超天才のノイマンでしたが、ポーカーがあまり得意ではなく、そのためにゲーム理論を考え出した…などと言われております。

へぇぇ

ノイマンさんの方に興味が移ってしまい、色々調べていると、本当にすごい人ですね。

私の仕事的な興味とすれば、モンテカルロ法、マージソートもノイマンが考案したものらしい。SUGEEE

Wikipediaさんの抜粋ですが

「ENIACとの計算勝負で勝ち、「俺の次に頭の良い奴ができた」と喜んだ。」

「赤狩りのときには、エドワード・テラーと対立してロバート・オッペンハイマーを擁護し、さらにソ連のスパイだったクラウス・フックス水素爆弾を共同で開発していたこともあり、非難されている。また、日本に対して原爆投下の目標地点を選定する際には「京都が日本国民にとって深い文化的意義をもっているからこそ殲滅すべき」だとして、京都への投下を進言した。このような側面を持つノイマンは、スタンリー・キューブリックによる映画『博士の異常な愛情』のストレンジラヴ博士のモデルの一人ともされている。」

らしいです。へぇぇ。(´ω`)

 

そういえば、ゲーム会社で働く友人から、

「歴史上の人物で、そんなに有名じゃないけど、聞けば、あー、あの人ね(´ω`)ってなる人教えて~」

って聞かれてた。今って歴史上の人物がカードになるカードバトルとか、とにかく流行じゃないですかwww 歴史上の有名人、枯渇してきてるよな~。

ノイマンさん使ったらどうですかね?中二病的要素は非常に多いと思われ。あっ、でも有名じゃないか。

 

博士の異常な愛情、見てみたいですね。しかし、キューブリックの映画って怖いんだよな(´ω`)

Smart動態管理 Android版4系での不具合

昨日のGoogle Playからのアップデート(9.0.3)でSmart動態管理 Android版4系で起動しなくなる、という不具合がありまして、誠に申し訳ございませんでした。

実は私自身が担当して修正した箇所でした。

もちろん、弊社で起こることのすべて私の責任ですが、これはもう、ド直球で私に責任があります。

朝から多くのお客様にご迷惑をおかけしました。

午後には9.0.4を急きょリリースし、修正ができております。

重ねてお詫び申し上げます。

今後ともSmart動態管理を何卒よろしくお願いいたします。

働き方改革っていうアレ

働き方改革っていうのが進んでますね。

しかし、いつも不思議に思うんですが、残業規制ってするだけで、残業って減るんですか??

そんなに世の中の普通の会社の人々は、夏休みのノビタ君みたいに、締め切りがないからダラダラやってたり、付き合い残業をされたりしているわけなんですか?

残業規制があったほうがいいとは思うんですけどね。そこが一番不思議なんですよ~。

 

というのも、私は一番忙しかったのは新卒で入った外資系の会社ですけど、ほんっとうにめちゃくちゃ忙しくって。

9時半ごろから仕事を始めて、夜の9時に帰れればいいほうだし、他の人は大体終電か、終電をわざと逃してタクシーとかってのが多かったですね。

でも、付き合い残業なんてしている人もいないし、さぼってるわけでもなく、みんな仕事中はほんっとうに一生懸命やっててもそれぐらいにしか終わらなかったんですよ。

今思うと、あの会社にはシステムがなかったので(ITの会社だったのに)、なんでも人力でやっていて、人がやることだから、ミスだらけ、そのカバーでまた人員がさかれって悪循環ばっかりでしたね。。。

なので、私は残業ばっかりで忙しい~!!って会社さんの話を聞くと、残業規制だけで残業が減るものなの??( ゚Д゚)とおもっちゃうのです。

 

なので、残業対策にはシステムを入れるのが一番じゃないですかね。

 

で、弊社のSmart動態管理は配送会社さん向けに特化したシステムなので、業務効率が上がります!

Smart動態管理についてのお問い合わせはこちらから

OLYMPUS DIGITAL CAMERA

 

Smart動態管理の導入企業社数が、1800社になりました

昨日(2018/8/7)の時点でSmart動態管理の導入企業社数が、1800社になりました。

 

https://doutaikanri.com/smart%e5%8b%95%e6%85%8b%e7%ae%a1%e7%90%86%e3%81%ae%e5%b0%8e%e5%85%a5%e7%a4%be%e6%95%b0%e3%81%8c1800%e7%a4%be%e3%82%92%e8%b6%85%e3%81%88%e3%81%be%e3%81%97%e3%81%9f/

 

ご導入頂いた皆様、ありがとうございます。

日々業務をしていると、至らない点も多々あるとよく思います。

弊社の全員が、その点をカバーするためにがんばってます。

そして、より高度な機能、使い勝手の向上に取り組んでいます。

近日中に、新機能が発表できる…予定です。

 

「動態管理」という分野も、大企業さんが多数参入されています。

その中でも、弊社製品を選んでいただいたことに心から感謝を申し上げます。

Smart動態管理は、特に配送業に特化した動態管理です。それが、ほかの動態管理と違う面だと思います。

機能面で配送業さん向けの機能が充実していますので、ご選択の際には、それがポイントにもなっているのではないでしょうか。

特に、人手不足は配送業界において大きな問題で、それを解決する一つの手段になっているかとも思います。

 

また、業界の中でのパイオニアでありつづけるという気概を持って、他社さんが取り組まないことにもどんどん取り組んでいきたいと考えていますので、これからもご期待ください。

 

Smart動態管理にご興味のある方は、下記のマンガをご一読ください。m(_ _)m

 

Smart動態管理マンガ

 

今日は若干涼しい過ごしやすい日ですね。⊂(^-^)⊃

しかし、まだ暑さが戻ってきそうですので、体調にはくれぐれもお気をつけてお過ごしください。

 

Alpha Go Zeroの論文の翻訳 その4

途中で挫折しそうだったこのシリーズ…。

Alpha Go Zeroの論文の翻訳 その3

の続きでございます。

またまた、間違いなどありましたら、指摘してください。m(_ _)m

原文はこちら。
https://www.nature.com/articles/nature24270.epdf

 

論文本体はもう翻訳し終わってますが、付録みたいなのがまだでした。

今回は、その付録

METHODS

の翻訳です。

ハァハァ(´Д`)ハァ… がんばろう…!!

Reinforcement learning

ポリシーの繰り返しは、昔からあるアルゴリズムで、ポリシーを改善する一連の流れである。

どのように実現するかというと、ポリシーの測定と、ポリシーの改善(ポリシーの測定を使う)を繰り返し行って、ポリシーを改善していくのである。

ポリシー改善のシンプルなアプローチ方法としては、どん欲にバリュー関数に沿って、手を選んでいくというのがある。

広大な選択肢の空間では、大体でやる、というのが必須である。

分類をベースとした強化学習はシンプルなモンテカルロ探索を使ってポリシー改善をしている。

ゲームを最後まで行ってみる。平均的に価値が最大になる手だけが正の値で、それ以外の手は負の値として、トレーニングのサンプルが記録される。

こうやって、ポリシーは手を正か負かに分類さて、次のゲームに使われる。

このやり方の後継版のようなことを、Alpha Go Zeroでも、γが0に近い場合、ポリシー部分のトレーニングアルゴリズムで使っている。

 

最近の例で行くと、分類ベースのポリシー改善は(CBMPIというらしい)、ポリシーの測定をゲームの結果に向かって回帰するバリュー関数で行っている。(これもAlpha Go Zeroでやっていることに近い)

この手法は、テトリスなどでは非常に良い結果を残している。

しかし、これらの研究結果はシンプルなゲーム結果とか手作りの近似的な関数に頼っていた。

 

Alpha Go Zeroのセルフプレイのアルゴリズムは、前述のやり方によく似ている。

ポリシーの改善は、ニューラルネットワークのポリシーで始まり、MCTSベースのポリシーの推薦と、より強いポリシーを探索してまたニューラルネットワークに返す。

これらのステップはニューラルネットワークをトレーニングして、探索の確率を、セルフプレイの結果に近づけていくことにより達成される。

 

グオさんは、同じくMCTSの結果をニューラルネットワークに入れることを試みた。

探索結果に回帰するバリューネットワークを使うか、MCTSによる分類のどちらかによってである。

この試みは、アタリのゲームをニューラルネットワークを使って解くことに使われた。しかし、MCTSが固定されていて、ポリシーの反復がなかったことと、訓練されたニューラルネットワークを利用していなかった。

 

Self-play reinforcement learning in games.

 

我々のアプローチは、完全情報ゲームで、ゼロサムゲームには直接応用ができるだろう。

その後の一文、ちょっと意味がわかんなかったです。(^_^;

We follow the formalism of alter­ nating Markov games described in previous work12, noting that algorithms based  on value or policy iteration extend naturally to this setting39.

 

セルフプレイ+強化学習という手法は、以前も碁につかわれたことがある。

「ニューロ碁」はバリュー関数にニューラルネットワークを使っていたし、碁の知識をベースにした洗練されたアーキテキチャーを持っていた。

このニューラルネットワークは、タイミングをずらした学習で、セルフプレイの次の手でのテリトリー(碁の陣地のことでしょうね)を予想していた。

関連した試みで、「RL碁」はバリュー関数を線形の組み合わせではなく、3×3の石の置き方のパターンを数え上げる方法だった。そのニューラルネットワークはタイミングをずらした学習で、セルフプレイの勝者を予想するというものだった。

「ニューロ碁」も、「RL碁」も、弱いアマチュアのレベルにしかならなかった。

MCTS自体もセルフプレイの強化学習ともいえる。

探索木のノードはポジションに応じたバリュー関数を持っている。これらのバリューはセルフプレイのシミュレーションでの勝者を予想する。

MCTSのプログラムは碁ではそれなりに強いアマチュアレベルまでは達成している。しかし、それは手作りの早くゲームを終わらせる関数を作ったりしていて、ポリシーも手作りの関数でできている。

セルフプレイの強化学習のアプローチは、チェス、チェッカー、バックギャモン、オセロ、スクラブル、つい最近ではポーカーで非常によいパフォーマンスを残している。

すべての例で、バリュー関数は回帰、あるいはタイミングをずらした、セルフプレイの結果による学習でトレーニングされている。

トレーニングされたバリュー関数は、アルファ・ベータサーチ(シンプルなモンテカルロ探索)あるいはの counterfactual regret  minimization中で評価関数として使われる。

しかし、これらの手法は手作りの特徴入力を使ったり、手作りの特徴のテンプレートを使ったりしている。

加えて、学習のプロセスで教師あり学習を最初の「重み」を算出するために使ったり、手作業でコマの価値を出したり、手作業で手の制限をしたり、すでにある別のプログラムを使って敵手の戦績を作ったりしている。

最も成功し、広く使われている強化学習の手法は、ゼロサムゲームの分野で、最初に登場した。それは、タイミングをずらした学習で、最初にチェッカーのプログラムで使われた。一方で碁にはMCTSがつかわれていた。

しかし、似たようなアルゴリズムは、その後ビデオゲームやロボティクスや、産業用、レコメンデーションシステムなどで使われた。

 

AlphaGo versions.

 

我々は、Alpha Goの3つのバージョンを比べてみることにする。

(1)AlphaGo Fanは以前公開したプログラムで、ファン フイさんと2015年に対戦したプログラム。176GPUも使っていた。

(2)AlphaGo Leeは2016年3月にリーセドル氏に4-1で勝利したプログラム。

これは公開していないが、AlphaGo Fanとだいぶ似ている。しかし、公正な比較のためにいくつかのカギとなる違いを上げておく。

最初に、バリューネットワークは、ポリシーネットワークによるものではなく、素早いゲームの結果によってトレーニングされていた。

これらは何度も繰り返される。

次に、ポリシーとバリューのネットワークは、もともとの論文に書かれているより大きい。

256個の平面のレイヤーのある、12個の畳み込みネットワークと、さらに反復回数が多かった。

このバージョンはGPUでなく、48TPUを利用し、探索の間にニューラルネットワークをより早く評価できるようになっていた。

(3) AlphaGo Masterは2017年の1月に人間のトッププレーヤーを60-0で負かしたプログラムである。

このプログラムは公開されておらず、この論文に載っているのと同じニューラルネットワークと、強化学習とMCTSのアルゴリズムを使っている。しかし、まだ手作りの特徴とAlpha Go Leeと同じゲームを最後まで行う手法、そしてトレーニングは教師あり学習により初期化されていた。

(4) AlphaGo Zero この論文のプログラムである。セルフプレイの強化学習であり、ランダムな重みを最初に使い、ゲームを最後まで行わず、教師は必要ない。ただ単に、ボードの状態があればよいのである。Google Cloud上のたった4TPUしか使わない。

 

まだ続くよ!

 

OCテックノートができました。

弊社の新しいオウンドメディア、OCテックノートができました!

OCテックノート

 

パチパチパチパチ。(๑•̀ㅂ•́)و✧

実は、以前、「でじうぃき」って名前で運営していたWikiで作った情報サイトがあったのですが、それをWordPressに移行した形になります。

理由は、「でじうぃき」はPukiwikiというWikiのクローンでできていましたが、もう10年ぐらい前からあるので、劣化が激しかったからです…。

Pukiwikiも進化しないしね…。

移行はちょっと大変だったんですけど、弊社のMが移行プログラムを書いてくれました。ありがとう!⊂(^-^)⊃

こだわったのは、コードが見やすいこと。

どうでしょうか?

 

でじうぃきは、名刺を渡したりすると、

「あ、このロゴ見たことあります」

って言ってもらえることが多かったりして、それなりに世間の役にたってたのかなと思ったりしました。

 

んで、OCテックノートはどういう位置づけかっていうと、いわゆる、ITの会社が運営するテックブログとは違います。

もっと現場に近い形で、じゃんじゃん書いて、じゃんじゃん検索してもらえるサイトを目指しています。(๑•̀ㅂ•́)و✧

誰かがノートのはしっこに書いたことが、誰かの役にたてばいいな~。っと。

でじうぃきから変わらない方針ですね。

 

この業界って、日本語情報ってやっぱり全然少ないんですよね。

なので、Stack Overflow見て解決したことでも、誰かが日本語で書き直してくれると、助かりませんか?

私的には大変ありがたいです。

 

後は、

「みんなが!驚くような!最先端かつ全く間違いのない記事を書いてやるぜ!!ハハハ (゜∀゜)」

とか思っていると、おそらく永遠に書く日が来ません。。。(´ω`)

なので、勉強中でもいいし、間違っててもいいので、アウトプットすることが大切と思っています。⊂(^-^)⊃

アウトプットしていると、間違ってると誰かが教えてくれて、それが自分の進化につながりますからね!

それがこの業界っぽいじゃないですか!

 

後は、アウトプットすると、アウトプットした分、自分のものになるって側面ありますよね。

Alpha Go Zeroの論文の翻訳 その3

空梅雨なんでしょうか?
意外と晴れの日が続いてうれしいですね!!ヾ(´ω`○).

Alpha Go Zeroの論文の翻訳 その2

の続きです。

またまた、間違いなどありましたら、指摘してください。m(_ _)m

原文はこちら。
https://www.nature.com/articles/nature24270.epdf

 

Empirical analysis of AlphaGo Zero training

 

Alpha Go Zeroにはランダムなアクションから初めて、450万回のセルフプレイをさせたそうです。

セルフプレイ中、それぞれ1600回のMCTS(モンテカルロ木探索)を行います。

つまり、MCTSが7,200,000,000回、回ったわけですね。

7200億回ですよ。ほげーー!!!

それぞれの手を進めるのに、0.4秒だそうです。

学習に使うミニバッチは2048のポジションのミニバッチで、70万個あるそうです。

 

上記でいうと、かなり大変な演算をしているように思いますが、Alpha Go Zeroは、たった1台のマシン・4TPUで、多くの(笑)マシン・48TPUのAlpha Go Leeを打ち負かしています。

しかも、トレーニングを始めて、わずか37時間後に、Alpha Go Leeが何か月もかかって到達したレベルに達したんです。

すごい。すごすぎる。

72時間後には、Alpha Go Leeがリ・セドルさんを負かした、あの記録的な試合の状態と同じAlpha Go LeeとAlpa Go Zeroが戦って、Alpa Go Zeroが100戦100勝しています。

どんだけ強いんだ!範馬勇二郎みたいですね!

この章は、後はどれだけAlpa Go Zeroが今までのAlphaシリーズより優れているか、というデータなどになります。

ので、割愛します。

Knowledge learned by AlphaGo Zero

 

Alpha Go Zeroは、囲碁の伝統的な手法も覚えたけれども、まったく新しい手法も覚えたということです。

定石も覚えたのですが、新しい定石の方を好んで使うらしいです。

最初はランダムだったプレイが、だんだんと碁のコンセプトを理解した洗練されたうち筋になり、布石とかテスジ?とかコ、ヨセなどの手法も取り入れていくそうです。(この辺、囲碁がわからないのでわからない…(>_<))

しかし、シチョーという人間だったら最初に覚えるような手法は、Alpha Go Zeroは相当後に覚えたそうです。

 

Final performance of AlphaGo Zero

 

もっと大きなニューラルネットワークに投入してみたらどうだったかという話。

40日間かけて、トレーニングしてみました。

2900万回のセルフプレイ、2048個のミニバッチが3100万個でトレーニングしました。

このニューラルネットワークは40個の residual blockでできています。

その場合、グラフを見てもらった方がよいのですが、Eloの指標が5日で4000を突破し、25日後ぐらいに5000を超え、その後も緩やかに増えています。

前述したパターンだと、4000に到達するのは35日あたりで、5000に届いていなかったので、こちらのやり方の方が強くなる、ということです。

その後は、他のAlphaシリーズと対戦させてみたけど、やっぱりAlpha Go Zeroが強かったよという話。

すごいぞ!かっこいいぞー!

 

Conclusion

結論!

…結局のところ、教師あり学習よりも、純粋な強化学習はよい結果を残せる。

さらに、この純粋な強化学習は、教師データがいらないし、数時間しかトレーニングにかからないし、それでいて教師あり学習よりずっと強い。

最後に妙に残酷なこと書いてありますが…。

 

人間は、何百万もの棋譜を数千年かけてつみあげ、パターンにし、本にして囲碁を研究してきた。

しかし、Alpha Go Zeroは数日で、何もないところから、囲碁の知識を再発見したり、今までに考えられなかった手法も生み出したのだ。

 


 

なんか、最後の方、真面目に囲碁に取り組んでこられている方々に石を投げられそうな話ですね(>_<)

ジブリでいえば完全に悪役ですね。

論文に書いてあるママなので、ご容赦ください。m(_ _)m

余談ですが、「ヒカルの碁」がすきだったのですが、サイがこの話を聞いたら嘆きそうですね。。。ρ(。・_・、)

それとも、喜んでAIと対戦するのでしょうか??

 

以上でこの論文は終わりですが、この翻訳はまだまだ続きます!

おまけの部分に、実装の詳しい部分が掘り下げられているのでその部分を次回に紹介します~。