2017年5月23日

五月祭で爆打ちの中の人にきいたこと

プログラミング

kmo2
5990
23
2
0

2

五月祭で爆打展示で聞いたこと。将棋ソフトの場合、既に棋士を教師として学んではいない。麻雀の場合、天鳳位の人を教師として学んでいる、ことしのGPWで爆打ちの中の人が強化学習にチャレンジしたが、上手く入っておらず。いま天鳳で動いているものも強化学習版ではないそう。＜つづく＞

2017-05-21 23:46:01

いっぽう、探索は、単純モンテカルロ、ここをucb0にしても強くはならないし、プレイアウト回数を増やしても強くならない。＜つづく＞

2017-05-21 23:47:02

ぽなんざちぇいんなーが、０手読みで、アマチュア有段者レベル。これは凄いけれど、所詮はアマチュア優先段者。天鳳のプレイヤーからしか学べないなら天鳳のプレイヤーの牌効率をこえられないと思うが、どうやって、人より強くなるか？＜つづく＞

2017-05-21 23:49:19

そんな、疑問を爆打ちのなかの人にぶつけてみたが、割と楽観視していた。人の強さは今の手法で超えられるという認識。＜つづく＞

2017-05-21 23:51:14

ようするに、聴牌率や点数状況判断、山読み、危険牌読みは、人から学習しておらず、その部分で十分人は凌駕できるとの見解の模様。厳密爆打ちの中の人がそういったわけではなく、私の解釈もコミだが、まあ、はずれてないはず。

2017-05-21 23:53:03

最近どこを変えたら強くなったか？という質問もした

2017-05-21 23:54:47

ざっくり回答をいうとモンテカルロシミレート部分のモデルの精細化ということのよう。「具体的には、現在の局面から数手先の局面に進めていくうちに自分が相手の危険牌を抑えながら手を作れるか、それとも危険牌をきらないと手を作れないかということか？」といったら肯定していた。

2017-05-21 23:56:54

大学の博士課程を卒業してからもせっかくだし続けるとのことで当面進化はするだろう。

2017-05-21 23:57:45

麻雀の開発は相当に地味で、技術的に（学術的に）面白いところは案外少なく、とにかく面倒くさいと私は思っている。はおそらく、私だけでなく爆打の手法でも一緒のようだが、続けてほしいと思う。

2017-05-22 00:00:14

麻雀に興味をもって聞きに来ていた別の若い人（学生か高校生か）が、無限に時間が吸われそうで辛い研究に見えたから麻雀県境は選択肢からはずす的なことを言ってたのが多少気になる

2017-05-22 00:01:53

爆打の人に色々質問したが、選んでいる手法は私の全く真逆だなという印象。いかに私がセンスなかったか実感した。

2017-05-22 00:03:16

爆打の人はこれが最善と決まるほど多くの人が試行錯誤したわけではないから、それはそれでやってみるのが面白いのではとはいっていたけど。

2017-05-22 00:04:03

思考時間は１．５秒だが十分で、これ以上長くしても強くならない。（思考時間を短くすると弱くはなる）。ということは、爆打では、プログラミングテクニックで高速化は（現行のままの手法では）強くなることにはならないようだ。

2017-05-22 00:07:20

私の奴は遅すぎて話にならないんで困っているが、爆打は当面速度面で困ることはない模様。

2017-05-22 00:07:59

強化学習手法の取入れなどの、論文用の挑戦と、地味な強くなるための手法を両方並行して（？）作業していたようだ。 GPWの論文では強くならないといいつつ。天鳳でプレイさせているやつは論文にはならないような地味な改良をしてつよくしていた。

2017-05-22 00:09:42

見学していた（おそらく天鳳の上位プレイヤーの）ある人は、割と上から目線で、基本はできているが、まだ不可解な面があり、鳳凰卓で打たせたら、７段程度だろうと言ってたが、特上卓でも八段上位であり、おそらくは甘く見過ぎではないかな。

2017-05-22 00:12:36

私が見ていて変な打牌に見えたのが七対子の一向聴の３つの孤立牌の選択で、振聴になる牌を残していたことだけど、何か理由があったのかどうか。

2017-05-22 00:13:44

プログラム的には七対子も一般手も同じ評価パラメータで評価しているとのこと。自分の捨て牌が評価パラメータに入ってない？まさかな

2017-05-22 00:14:35

ただ、表情的にそこらへんで、曇ったように感じたんで

2017-05-22 00:15:07

プレイアウト回数も効いたけどわすれた、一手というか一選択３００だか１０００だかのオーダーだった。モンテカルロでその程度の試行回数でも、最善手として選ばれる手の選択にランダム性はほとんどなくいつも一緒とのこと。

2017-05-22 00:17:46

探索の初手はルール上選べる全パターン。探索中のモンテカルをパーセプトロンの評価関数で常に同じ状況なら同じ１手を選択、ツモと相手の行動モデルでランダム性がでるとのこと。

2017-05-22 00:19:13

学習は平均化パーセプトロンとからしい。正則化項とかは質問しそびれた。

2017-05-22 00:20:30

今後改造したいところは？との質問には、たくさんあるとのこと。

2017-05-22 00:21:13

とにかく地味でやること多い麻雀ソフトは。これは将棋以上だと思っている。将棋はライブラリが公開されていて、新しいアイデアを出した人がすぐに選手権上位にくるが麻雀は、そうではない。継続は大事だと思うんで、続けないとダメだが、私は

2017-05-22 00:24:26

機械学習で学習させなければならないものが一つではないというだけでも、将棋より大変。

2017-05-22 00:25:07

1 2 次へ

いま話題のタグ

日本語1612 ゼルダの伝説244 犬2512 ゲーム67961 退職205 追放されたチート付与魔術師は気ままなセカンドライフを謳歌する。12 フランス909 SF2384 ドラえもん896 ザ!鉄腕!DASH!!526 リュウジ70 くまモン143 マナリス15 バニーガーデン5 ファッション3704