五月祭で爆打ちの中の人にきいたこと

2
kmo2 @kmo2

五月祭で爆打展示で聞いたこと。 将棋ソフトの場合、既に棋士を教師として学んではいない。麻雀の場合、天鳳位の人を教師として学んでいる、ことしのGPWで爆打ちの中の人が強化学習にチャレンジしたが、上手く入っておらず。いま天鳳で動いているものも強化学習版ではないそう。<つづく>

2017-05-21 23:46:01
kmo2 @kmo2

いっぽう、探索は、単純モンテカルロ、ここをucb0にしても強くはならないし、プレイアウト回数を増やしても強くならない。 <つづく>

2017-05-21 23:47:02
kmo2 @kmo2

ぽなんざちぇいんなーが、0手読みで、アマチュア有段者レベル。これは凄いけれど、所詮はアマチュア優先段者。 天鳳のプレイヤーからしか学べないなら天鳳のプレイヤーの牌効率をこえられないと思うが、どうやって、人より強くなるか? <つづく>

2017-05-21 23:49:19
kmo2 @kmo2

そんな、疑問を爆打ちのなかの人にぶつけてみたが、割と楽観視していた。 人の強さは今の手法で超えられるという認識。 <つづく>

2017-05-21 23:51:14
kmo2 @kmo2

ようするに、聴牌率や点数状況判断、山読み、危険牌読みは、人から学習しておらず、その部分で十分人は凌駕できるとの見解の模様。 厳密爆打ちの中の人がそういったわけではなく、私の解釈もコミだが、まあ、はずれてないはず。

2017-05-21 23:53:03
kmo2 @kmo2

最近どこを変えたら強くなったか?という質問もした

2017-05-21 23:54:47
kmo2 @kmo2

ざっくり回答をいうとモンテカルロシミレート部分のモデルの精細化ということのよう。「具体的には、現在の局面から数手先の局面に進めていくうちに自分が相手の危険牌を抑えながら手を作れるか、それとも危険牌をきらないと手を作れないかということか?」といったら肯定していた。

2017-05-21 23:56:54
kmo2 @kmo2

大学の博士課程を卒業してからもせっかくだし続けるとのことで当面進化はするだろう。

2017-05-21 23:57:45
kmo2 @kmo2

麻雀の開発は相当に地味で、技術的に(学術的に)面白いところは案外少なく、とにかく面倒くさいと私は思っている。はおそらく、私だけでなく爆打の手法でも一緒のようだが、続けてほしいと思う。

2017-05-22 00:00:14
kmo2 @kmo2

麻雀に興味をもって聞きに来ていた別の若い人(学生か高校生か)が、無限に時間が吸われそうで辛い研究に見えたから麻雀県境は選択肢からはずす的なことを言ってたのが多少気になる

2017-05-22 00:01:53
kmo2 @kmo2

爆打の人に色々質問したが、 選んでいる手法は私の全く真逆だなという印象。 いかに私がセンスなかったか実感した。

2017-05-22 00:03:16
kmo2 @kmo2

爆打の人はこれが最善と決まるほど多くの人が試行錯誤したわけではないから、それはそれでやってみるのが面白いのではとはいっていたけど。

2017-05-22 00:04:03
kmo2 @kmo2

思考時間は1.5秒だが十分で、これ以上長くしても強くならない。(思考時間を短くすると弱くはなる)。ということは、爆打では、プログラミングテクニックで高速化は(現行のままの手法では)強くなることにはならないようだ。

2017-05-22 00:07:20
kmo2 @kmo2

私の奴は遅すぎて話にならないんで困っているが、爆打は当面速度面で困ることはない模様。

2017-05-22 00:07:59
kmo2 @kmo2

強化学習手法の取入れなどの、論文用の挑戦と、地味な強くなるための手法を両方並行して(?)作業していたようだ。 GPWの論文では強くならないといいつつ。天鳳でプレイさせているやつは論文にはならないような地味な改良をしてつよくしていた。

2017-05-22 00:09:42
kmo2 @kmo2

見学していた(おそらく天鳳の上位プレイヤーの)ある人は、割と上から目線で、基本はできているが、まだ不可解な面があり、鳳凰卓で打たせたら、7段程度だろうと言ってたが、特上卓でも八段上位であり、おそらくは甘く見過ぎではないかな。

2017-05-22 00:12:36
kmo2 @kmo2

私が見ていて変な打牌に見えたのが七対子の一向聴の3つの孤立牌の選択で、振聴になる牌を残していたことだけど、何か理由があったのかどうか。

2017-05-22 00:13:44
kmo2 @kmo2

プログラム的には七対子も一般手も同じ評価パラメータで評価しているとのこと。自分の捨て牌が評価パラメータに入ってない?まさかな

2017-05-22 00:14:35
kmo2 @kmo2

ただ、表情的にそこらへんで、曇ったように感じたんで

2017-05-22 00:15:07
kmo2 @kmo2

プレイアウト回数も効いたけどわすれた、一手というか一選択300だか1000だかのオーダーだった。モンテカルロでその程度の試行回数でも、最善手として選ばれる手の選択にランダム性はほとんどなくいつも一緒とのこと。

2017-05-22 00:17:46
kmo2 @kmo2

探索の初手はルール上選べる全パターン。探索中のモンテカルをパーセプトロンの評価関数で常に同じ状況なら同じ1手を選択、ツモと相手の行動モデルでランダム性がでるとのこと。

2017-05-22 00:19:13
kmo2 @kmo2

学習は平均化パーセプトロンとからしい。 正則化項とかは質問しそびれた。

2017-05-22 00:20:30
kmo2 @kmo2

今後改造したいところは?との質問には、たくさんあるとのこと。

2017-05-22 00:21:13
kmo2 @kmo2

とにかく地味でやること多い麻雀ソフトは。これは将棋以上だと思っている。将棋はライブラリが公開されていて、新しいアイデアを出した人がすぐに選手権上位にくるが麻雀は、そうではない。継続は大事だと思うんで、続けないとダメだが、私は

2017-05-22 00:24:26
kmo2 @kmo2

機械学習で学習させなければならないものが一つではないというだけでも、将棋より大変。

2017-05-22 00:25:07