signate「国立公園の観光宿泊者数予測」コンペ

signate「国立公園の観光宿泊者数予測」コンペの解法
1
tomikki @tomikkki

signateの公園コンペ、参加された方々お疲れ様でした。自分は途中で心が折れましたが… 解法は公園別に2016年のlag値を平均化して2017年の同日に当て込むだけのものです(なのでno ML)。34位でした。上位陣の解法が凄く知りたいです…

2018-12-14 01:59:50
stat @stat67316766

signateの国立公園 privateで大きく順位下がりました。publicはあてにならないですね。投稿ファイルを見るとcvの結果がいいものが良かったわけで。またもやですね。。。

2018-12-14 12:38:21
u++ @upura0

はてなブログに投稿しました #はてなブログ signate「国立公園の観光宿泊者数予測」コンペで10位でした - u++の備忘録 upura.hatenablog.com/entry/2018/12/…

2018-12-20 19:00:12
copypaste @copypaste_ds

解法が全く違っていてびっくり。。こういうモデルも作ってアンサンブルしてみたかった。 twitter.com/upura0/status/…

2018-12-20 19:29:37
copypaste @copypaste_ds

循環性考慮したエンコードとかすっかり忘れてたし、そもそも1ファイルしか使ってなかったし、1サンプルの定義も間違えた感あるし、やれることまだまだあったんだなぁ〜

2018-12-20 20:27:00
copypaste @copypaste_ds

ラグの特徴量は私も上手くいきませんでした。

2018-12-20 20:28:49
ktr @ktr_wtb

「循環性をsin, cosに落とし込んだ値」は全く知識がなかった。こういう数学関数をさらっと特徴量に落とし込むの憧れる twitter.com/upura0/status/…

2018-12-20 21:11:18
ktr @ktr_wtb

私はラグばっかり考えてたので上位陣とはそこが違ってたのかな

2018-12-20 21:12:56
326 @mfjwr326

公園コンペ、公園別に推定する方法あんまりうまくいかなかったけど、モデルによっては精度上がる場合があるんですね

2018-12-20 21:33:01
copypaste @copypaste_ds

@mfjwr326 私は日光と日光以外で分けてモデリングをして少し精度が上がりました。(モデルはLightGBMです。)

2018-12-20 21:44:24
copypaste @copypaste_ds

日光と日光以外でモデルを分けて少し精度向上したけど、あれはサンプル作成方法が少し独特だったのと、oversamplingの相乗効果だったのだろうか..

2018-12-20 21:52:03
copypaste @copypaste_ds

@mfjwr326 日光は2015年->2016年で訪問者数が増加傾向にありました。(約1.2倍増くらい...??)私も公園毎にモデルを作成した場合は上手くいかなかったので、upuraさんの解法には驚きです。他の方の解法はとても勉強になりますね^^

2018-12-20 22:00:46
u++ @upura0

@ktr_wtb ご覧いただき、ありがとうございます〜〜。僕はラグがうまく使いこなせなかったので、ぜひ解法ご共有いただきたいです!

2018-12-20 22:22:42
ktr @ktr_wtb

熱いうちにということで...結果は17位なので空いた時間の暇つぶしにでも〜 #はてなブログ SIGNATE公園コンペの反省 - ktr.wのブログ ktrw.hatenablog.com/entry/2018/12/…

2018-12-20 23:32:41
ktr @ktr_wtb

@upura0 コレログラムが公園毎に異なっていたので、単純にcvが下がるように公園毎にラグの組み合わせを選定した感じです〜。記事にも書きましたが、使いこなすとは程遠いですw

2018-12-20 23:33:01
あさ @aasasan

公園ごとの方が良かったかー。迷った結果、まとめてモデル作った。時間あればどっちもするべきでした。祝日情報は手入力したので面倒臭さは共感(笑) signate「国立公園の観光宿泊者数予測」コンペで10位でした - u++の備忘録 upura.hatenablog.com/entry/2018/12/…

2018-12-20 23:33:01
ktr @ktr_wtb

公園毎勢と公園一括勢に分かれてるっぽいのちょっと面白い。みなさんの解法がますます気になる。

2018-12-20 23:35:57
u++ @upura0

@ktr_wtb ありがとうございます、ブログ拝見しました!「シフト365日」は曜日がずれるので、単純にやると逆効果かと思いました。僕の場合は曜日を考慮してズラすとかは試しました。閏年があって少し面倒だった記憶があります。でも、あまり効かなかった気がします笑

2018-12-20 23:42:05
copypaste @copypaste_ds

lag と diff を勘違いしてた。。lagはとても寄与しました。。

2018-12-21 00:12:22
hmdhmd @hmd_kaggle

公園コンペですが、私はfbprophetのforecastを特徴に加えたlightgbmでした。日光国立公園だけ怪しい伸び方をしていたので、手動でcap調整して、公園別に予測を行いました。路線検索ログはいくつかの公園で重要度の高い特徴になっていました。

2018-12-21 00:49:56
ktr @ktr_wtb

@upura0 わーいつもありがとうございます😊やっぱり対して効果ないんですね〜。ちなみに日付を円と仮定して三角関数で特徴量を抽出する際に、どうやって日付の円を作るんでしょうか?一番効果を発揮したみたいなので気になります💦

2018-12-21 06:21:33
u++ @upura0

@ktr_wtb 「日付の円を作る」というより、循環性の数に応じて角度を増やしていく感じですね。例えば月単位なら、ひと月当たり360/12=30度増やしていけば良いので、1月を(cos0, sin0)にしたら、2月は(cos30, sin30)といった具合です。

2018-12-21 16:12:48
stat @stat67316766

signateの「国立公園の観光宿泊者数予測」u++さんの「循環性をsin, cosに落とし込んだ値」というのは今後の参考になりそう。

2018-12-21 21:04:45
stat @stat67316766

signate公園コンペのやったことを参考にメモ。 (submitは違いましたが、一番良いもので1884くらいでした。) あんまり参考にした文献はないです。 手法は、SVRとLGBMのアンサンブル。 単独では、SVRが圧倒的に良かったです。

2018-12-21 21:08:26