ディープラーニングのモデリングの経験則を語る会についての有識者からの反応まとめ

ディープラーニングのモデリングの経験則を語る会をやってみたい。理論的な背景は不要（あってもいい）で、こういうときはこうする、こういうデータにはこうすると上手くいく、初手はいつもこれ、などのヒューリスティックを無責任に語る会。

2020-08-03 12:23:09

画像だとデータの特徴と合わせてこの辺り話してみたい。・image sizeとmodelの大きさ・batch sizeの決め方とBatch norm ・fp16使うか・デバイス(GPU/TPU)の違い・間違いないaugmentation ・間違いないscheduling ・frameworkの違い(tf/pytorch) ・lossの選び方・optimizerの違い・headの設計方法

2020-08-03 12:46:04

かまろ/Camaro @mlaass1

ちなみに私は・基本的に大きいほうがいい、特に画像が複雑だと・2^nでメモリに載る最大・nanにならない限り使う・たまに精度が違う、謎・labelの付け方を考えつつreasonableな程度に・ReduceLROnPlateauかcosine ・たまに精度が違う、謎・基本BCEでclassの分布等に応じて適当に・Adam ・適当 twitter.com/mlaass1/status…

2020-08-03 13:47:20

phalanx @ZFPhalanx

・データによる・データによる・使わない・TPU使ったことない・データによる・cosine annealing ・知らない・よく使うやつ+直近の学会のやつ・そんなに変わらない。適当・適当 twitter.com/mlaass1/status…

2020-08-03 13:19:04

かまろ/Camaro @mlaass1

@ZFPhalanx ありがとうございます！一番phalanxさんに聞きたいと思ってました🙇笑　データによるところなんですが、何かこういう画像だとこう、というヒューリスティックってあったりしますか？それとも基本的には実験しつつ判断していく感じでしょうか？

2020-08-03 13:32:17

phalanx @ZFPhalanx

@mlaass1 augmentation: flipですら良くない(ベンガルコンペ)とかあるので、EDAして決めます。 image size: 衛星画像、医療画像はでかいことが多いので、resize, random cropして結果見ながら判断します。雲コンペ２位のような手法も良さそうです。 kaggle.com/c/understandin…

2020-08-03 13:49:25

phalanx @ZFPhalanx

@mlaass1 batch_sizeはデータによるというより、cnn ensembleの際はbatch_sizeによって精度が大きく変わるので、適当に変えてやってます。このへんは良く分かってないです。

2020-08-03 13:52:03

phalanx @ZFPhalanx

@mlaass1 ensembleじゃなかった、stacking

2020-08-03 13:58:31

俵 @tawatawara

・data/task次第. img は無理のない程度に大きく・可能な限り大きく. BN は BS と相談・使ったこと無い・TPU 経験なし・data/Taskに悪影響がないように・cosine系・tf 経験なし・task次第. 分類なら CE, BCE, Focal ・NesterovAG, Adam ・task次第. Linear->ReLU->Dropout->Linear が好み twitter.com/mlaass1/status…

2020-08-03 14:22:48

ふぁむたろう @fam_taro

・データ(とタスク)による・データによる(8の倍数だと嬉しい) ・両方試す・TPU分からない・データによる・脳死CosineAnnealingLR ・tfシラナイ・データによる・脳死Adam ・データによる twitter.com/mlaass1/status…

2020-08-03 14:24:53

かくりん🥚 @kakulin_real

・オリジナルサイズでbs32で計算機に乗る範囲でできるだけでかいモデル・計算機に乗る範囲でできるだけでかく、BNはつかう・使わない(万が一NaNになるより倍遅い方がマシ) ・TPUの方が性能がいい・わからない・cosineかlinear ・型付言語かそうじゃないか・タスクによる・AdamW ・わからない twitter.com/mlaass1/status…

2020-08-03 14:24:15

しゅんけー @shunk031

雰囲気 - 画像もモデルも大きければ大きいほど良いと思っている - 2^nでGPUに乗るだけ乗せる - バカデカモデルだったら使うことを検討 - TPUつかったことなし - Random ErasingとMixupは試す - Cosine annealing - PyTorch (テンソル風呂わからん) - CEとか重み付きCE - Adam - いい感じにする twitter.com/mlaass1/status…

2020-08-03 13:22:40

ひるね @hirune924

個人的には・image sizeは画像の特徴が潰れない程度に保つ、モデルの大きさは問題による・batch sizeは8以上128以下で出来るだけ32以上にする、BNは学習済みモデルを学習した時から変えない・使う・TPU使ったことないけどTFユーザーでGPU貧民なら使ってたと思う・データによる続く... twitter.com/mlaass1/status…

2020-08-03 14:24:04

ひるね @hirune924

・CyclicLRがマイブーム・pytorchが好き・初手はCEとかMSEとか一般的なやつ、あとは問題による・Adam ・問題による

2020-08-03 14:24:50

𝙎𝙝𝙞𝙠𝙤𝙖𝙣𝙓🔞：12/31🔞C103 2日目東U-46ab @koshian2

・モデルとデバイス、計算量による・VRAMが許す限り大きく・必要なほど煮詰まった状況に遭遇してない・G/TPU両対応可能なモデル組みたい・間違いないの定義不明・TFはわかるがPyTorchのTPUがわからない・モメンタムの論文が多いからそれ使ってる・それ以外はテンプレ　twitter.com/mlaass1/status…

2020-08-03 14:28:52

トウ @NASNETou

参考程度に今使ってる某アレの設定です (cifar100 87.44±0.10%) ・32*32 26M ・32/GPU * 4GPUs ・No ・GPU ・AutoAugment ・CosineAnnearing ・Chainer ・CE ・NesterovAG ・Classificationのため使わない

2020-08-03 14:16:14

tattaka @tattaka_sun

Expertなのでアレですが・image sizeはできるだけ大きく・modelは様子見ながら・BSはできるだけ大きく、GPU数の倍数・複数GPUでやることが多いのでSync Batch norm使う・fp16は初手で使う・augmentationはEDAしてから決める・CosineAnnealing(T_max=max_epoch) 続く twitter.com/mlaass1/status…

2020-08-03 14:35:01

tattaka @tattaka_sun

・pytorch ・初手メジャーなやつで後から最近のを試していく・SGD以外気分で・タンパク質のコンペのbestfitting氏参考に

2020-08-03 14:36:07

Hiroki Yamamoto @tereka114

・タスク依存（ただし、最初は小さく実験する）・32にしたい（タスク依存）・Detection/Segmentationの場合は使う・基本GPU ・データ依存・Cosine/ReduceLRonPlateau（CVの信頼度次第）・PyTorch ・タスク依存・Adam/RAdam/AdamW 　うまくいくのでトライ、SGDは使わない・タスク依存 twitter.com/mlaass1/status…

2020-08-03 15:03:46

arutema47 @arutema47

・後半につれて大きくしてく。最初にres18,34,50順番に見て傾向を掴む・最近batchnorm freezeばかり使ってる・使わない・GPUのみ・データによるけどcutout? ・reduce_lr_on..の方が好きだけど両方試す・tf嫌い・データによる・adam一択・適当 twitter.com/mlaass1/status…

2020-08-03 15:04:31