実験の環境はDockerを使っていました コードは基本的にjupyterの上で動かしてモジュールとして切り出せそうなら.pyファイルを書いてimportしてました
2017-07-15 01:35:25augmentも「色だから何しても大丈夫っしょwww」って感じでtranslation, xflip, yflip, 0~360 degree rotate, zoom等やりまくったけど、冷静に考えるともっときちんと実験するべきだった
2017-07-15 01:36:20du -h src/logs/ したら332GBありました data augmentationは初期に色々条件変えて試したけどいまいち効果がなかった
2017-07-15 01:38:00「条件変えて試した」って言ってるけど1回しか試行してなくて,seedを固定しても実行のたびに結果が変化するDeep Learningに対する戦略としては悪かったかも
2017-07-15 01:38:55てか、テストデータ8901枚でPublicに4450枚、privateに4450枚使ってるとすると、きちんとstratifyして切られていれば、一番少ないクラス(khaki)は14枚しかないはずなので、一枚違うだけで100/24/14= 0.3%ぐらい変わる
2017-07-15 01:41:49というわけで、balanced accuracy はimbalanced dataに対しては結構分散が大きすぎてやばい指標な気がした(割とガチャ)
2017-07-15 01:42:28あとまず最初にやったこととしては,出力が全部0とか全部1のcsvをsubmitしてLBのデータのバランスがどうなってるか調べました.結果多分全て同じ割合ぽかった
2017-07-15 01:44:01@odan3240 balanced accuracyだから自明にそうなのでは・・・
2017-07-15 01:45:35クラスタリングしてみた限りだと、train/testは完全なrandom splitではなく、一定の商品ラインごとに分けているみたいです
2017-07-15 01:48:08@odan3240 @threecourse (トレーニングデータとテストデータの9801 : 12399は整数比でないので、どこかのクラスの割合が必ず違うはずってことです)
2017-07-15 01:55:26@mamas16k @odan3240 私の推測だと、商品ラインIDみたいなのがあって、それでsplitしていると思います。だから割合は絶対違うのですが、ルールに則って推察する方法が難しい
2017-07-15 01:56:43@mamas16k テストデータが1枚しかなくても同じ予測値になること、と解釈していました。なので比率を分析するのはアウトかなと。真実は運営しかわかりませんがw
2017-07-15 02:02:01ユニクロ,chainerを一通り触ることを目的としていたので殆ど何もやっていないに等しい(24クラス分類をAlex netに突っ込んだ)
2017-07-15 02:03:51@threecourse 考えられる中で最も厳しい基準はそれだと思いますが、ページには「testデータを使った学習禁止」としか書いていないので、LBから分布判断をアウトにするのはちょっとやり過ぎな気もします(全く学習してないので)
2017-07-15 02:04:31@mamas16k LB情報のみだと確かにそうですね。私はtest dataの分布を学習結果から予測して使えないかなーと考えていたので。。
2017-07-15 02:07:13@threecourse それはかなりグレーなゾーンですね・・・まあ、メールでいくつか質問したところ(学習の再現性について等)、運営さんは真面目に素早く返信してくれたので、聞いてみるのもアリだったかもしれないですね
2017-07-15 02:09:46@mamas16k そうですね。ルール違反か迷ったのがいくつかあったので、そういうのはさっさと聞いておけば良かった
2017-07-15 02:11:15最終的にチームでDeepLearningでしたが、多分コンペ始まるまで誰もまともにDeepLearning触ってなかったはず。
2017-07-15 02:30:04