五月祭で爆打展示で聞いたこと。 将棋ソフトの場合、既に棋士を教師として学んではいない。麻雀の場合、天鳳位の人を教師として学んでいる、ことしのGPWで爆打ちの中の人が強化学習にチャレンジしたが、上手く入っておらず。いま天鳳で動いているものも強化学習版ではないそう。<つづく>
2017-05-21 23:46:01ぽなんざちぇいんなーが、0手読みで、アマチュア有段者レベル。これは凄いけれど、所詮はアマチュア優先段者。 天鳳のプレイヤーからしか学べないなら天鳳のプレイヤーの牌効率をこえられないと思うが、どうやって、人より強くなるか? <つづく>
2017-05-21 23:49:19ようするに、聴牌率や点数状況判断、山読み、危険牌読みは、人から学習しておらず、その部分で十分人は凌駕できるとの見解の模様。 厳密爆打ちの中の人がそういったわけではなく、私の解釈もコミだが、まあ、はずれてないはず。
2017-05-21 23:53:03ざっくり回答をいうとモンテカルロシミレート部分のモデルの精細化ということのよう。「具体的には、現在の局面から数手先の局面に進めていくうちに自分が相手の危険牌を抑えながら手を作れるか、それとも危険牌をきらないと手を作れないかということか?」といったら肯定していた。
2017-05-21 23:56:54麻雀の開発は相当に地味で、技術的に(学術的に)面白いところは案外少なく、とにかく面倒くさいと私は思っている。はおそらく、私だけでなく爆打の手法でも一緒のようだが、続けてほしいと思う。
2017-05-22 00:00:14麻雀に興味をもって聞きに来ていた別の若い人(学生か高校生か)が、無限に時間が吸われそうで辛い研究に見えたから麻雀県境は選択肢からはずす的なことを言ってたのが多少気になる
2017-05-22 00:01:53思考時間は1.5秒だが十分で、これ以上長くしても強くならない。(思考時間を短くすると弱くはなる)。ということは、爆打では、プログラミングテクニックで高速化は(現行のままの手法では)強くなることにはならないようだ。
2017-05-22 00:07:20強化学習手法の取入れなどの、論文用の挑戦と、地味な強くなるための手法を両方並行して(?)作業していたようだ。 GPWの論文では強くならないといいつつ。天鳳でプレイさせているやつは論文にはならないような地味な改良をしてつよくしていた。
2017-05-22 00:09:42見学していた(おそらく天鳳の上位プレイヤーの)ある人は、割と上から目線で、基本はできているが、まだ不可解な面があり、鳳凰卓で打たせたら、7段程度だろうと言ってたが、特上卓でも八段上位であり、おそらくは甘く見過ぎではないかな。
2017-05-22 00:12:36プレイアウト回数も効いたけどわすれた、一手というか一選択300だか1000だかのオーダーだった。モンテカルロでその程度の試行回数でも、最善手として選ばれる手の選択にランダム性はほとんどなくいつも一緒とのこと。
2017-05-22 00:17:46探索の初手はルール上選べる全パターン。探索中のモンテカルをパーセプトロンの評価関数で常に同じ状況なら同じ1手を選択、ツモと相手の行動モデルでランダム性がでるとのこと。
2017-05-22 00:19:13とにかく地味でやること多い麻雀ソフトは。これは将棋以上だと思っている。将棋はライブラリが公開されていて、新しいアイデアを出した人がすぐに選手権上位にくるが麻雀は、そうではない。継続は大事だと思うんで、続けないとダメだが、私は
2017-05-22 00:24:26