PyData.Tokyo Meetup #21 LightGBM / Optuna
catboost君ロスの可視化をインタラクティブにやってくれたりで痒いとこに手が届くような機能があるので好き #PyDataTokyo
2019-09-27 18:36:30Ordered BoostingがCatBoostの強み。ということはLightGBMでもランダムに並び替えた方が良い??? #PyDataTokyo
2019-09-27 18:36:47binary symmetric decision treeだから、ハイパラの変化に安定する理由がよくわからない。。 #PyDataTokyo
2019-09-27 18:38:391件目の発表にて。OptunaはLightGBMのintegrationをもってます optuna.readthedocs.io/en/stable/refe… #PyDataTokyo pic.twitter.com/bJIhpFhChB
2019-09-27 18:40:05CatBoostの長所 ・カテゴリカル変数に強い ・binary symmetric decision treeのおかげでデフォパラが悪くない&推論が早い ・ドキュメントが充実 binary symmetric うんたらのところの話よく聞くけど全然理解できてない…。 #PyDataTokyo
2019-09-27 18:40:35CatBoostの登場 学習データという本来あるべきデータの一部を用いてモデルの学習を行うことで新のモデルとのズレを抑えようと努力したもの カテゴリカル変数の効率的な前処理(Orderd TLS) Sortを変えながら学習 #PyDataTokyo
2019-09-27 18:41:01決定木にbinary symmetric decision tree を利用 ・過学習を抑える ・ハイパーパラメータの変化に安定する ・並列化に向いた構造のため、推論が早い カテゴリカル変数の前処理が不要 ・ライブラリに様々なアプローチが実装されている ドキュメントがとても充実している(?????) #PyDataTokyo
2019-09-27 18:41:23AlpahImpactでは競馬予想予想に200GBぐらいのデータを対象にしている。競馬のデータでそんなにデータサイズあるんや…。 #PyDataTokyo
2019-09-27 18:41:3218:45 を持ちまして受付を撤収いたします。ビルのセキュリティ管理の都合上、撤収以降は個別にご連絡いただいても受付手続が行えません。何卒ご理解ください。 #PyDataTokyo
2019-09-27 18:43:28LightGBMのドキュメントは最低限のことしか書かれたないから突っ込んだ設定いじろうとした時困る。 #PyDataTokyo
2019-09-27 18:43:28