SU/CAR-ST-APi-cells

悪を告発し危険な目に遭い撤退中のブログ

自作DSLで株シストレ
Esgrsdnl

ある詐欺グループとの戦い
危険ですので撤退します
Sort Uniq / C Awk R Sed Tcl/Tk
Shell Unix (percentile) Compile Assembly Run
Stock Trading APi cells
ローマは一日にしてならず R,C

53歳限界プログラマの憂鬱
mix of AB

気持ちが戻らないので撤退します。。。

このブログのコメントについて

2019/4~
運用資金250万
カラクリあり

アルファ碁は実は何も考えていない?

にほんブログ村 株ブログ 株 自動売買へ

アルファ碁vs.イ・セドルの第4局を見てたんですが、イ・セドルが放った妙手の割り込みの後、明らかにアルファ碁の着手がおかしくなりました

囲碁はそれほど実力はないのですが(トレードもですがw)、一応解説聞くと

  • 取れない石を取りに行っている
  • 攻め合い負けているのが明らかなのに
  • 結果持ち込み
  • 更に形を決めてしまい、その後の寄せで損してしまう

こんな感じでした

将棋やチェスと異なり、囲碁はその手の評価が難しいので、モンテカルロ法を使って評価し、アルファ碁もこのモンテカルロ法を使っているようです

勿論以下説明するような単純な原始モンテカルロではなく、いろいろ工夫はあると思いますが、モンテカルロ法というのは

  • 乱数を使って、適当にどんどん終局まで進める(プレイアウト)
  • 終局まで行くと地の計算ができるので結果がわかる
  • とはいえ、乱数で適当に進めたのでその結果が正しいわけではない
  • なので、プレイアウトの数を時間が許す限り増やす(例えば1万回とか)
  • 回数が増えれば、乱数で適当に進めたプレイアウトでも統計的に結果が確率的にわかる

って、やつです

囲碁の評価の場合、勝つか負けるかです 30目以上の大差で負けようが半目負けようが、負けは負け、逆も勝ちは勝ちで同じです

なので、モンテカルロの結果はなるべく勝率が高い手を選ぶようにプログラムされています たぶんアルファ碁も、、、

モンテカルロ法の統計的な結果として、例えば

  • 70%の勝率の手
  • 50%の勝率の手

の2つがあったら、当然70%の勝率の手が選ばれるでしょう

一見暴走しておかしな手を選択したかのように見えたアルファ碁も、モンテカルロ法で正しく勝率最大の手を選択したのかもしれません

  • 負けている攻め合いを果敢に取りに行く手に
  • 相手が正しく対応する手は限定される
  • しかし、乱数でそれが選ばれる確率は低い
  • なのでモンテカルロ法のプレイアウトでは相手が正しく対応しなかった結果が高い確率で出現する
  • プライアウトの結果、高い確率で「負けているはずの攻め合いに勝つ」ので、大きな得をし、勝率が上がる(=大きな得をしないと勝てないほど形勢が悪くなっている
  • 結果、負けている攻め合いを果敢に取りに行く手が選択された

ってことなのかもしれません

勿論、囲碁の強い人間が見れば、一目で攻め合いには正しく対応しますので、実際はモンテカルロのプレイアウトの勝率にはならず、全然おかしな手になってしまうわけで、、、

つまり、アルファ碁は実は何も考えていない、のではないかと、、、

シストレモンテカルロ法使っているわけではないですが、統計的、確率的にバックテストから計算した結果に基づいていますので、似たような罠に陥ることはありそうですね(とにかく期待値最大とかね)

まあ、適当な独り言です

とにかく、大きな得をしないと勝てないほど形勢が悪くなっている、というのはイ・セドルの放った妙手の割り込みの結果ですから、恐るべしイ・セドルってことです

 

f:id:sucar:20150414192227p:plain

CとRでス・パ・カー・エス・ティー
高級アセンブラC言語と統計分析R言語を
駆使して生まれたその名は、ス・パ・カー・エス・ティー!

f:id:sucar:20150414193802p:plain