チーム開発の問題を解決 機械学習におけるデータの再現性を高めるライブラリ『akagi』 #pyconjp #pyconjp_202

機械学習におけるデータの再現性について Yuichiro Someya @ayemos_y チームで機械学習のタスクに取り組む際、過去の自分や他人が利用したデータの再現をするのに苦労する事があります。 本トークでは、データの再現性が低下する原因について体系的に解説し、akagi というオープンソースのPython ライブラリを利用してデータの再現性を高める方法について紹介します。
0
覚悟 @YuK_Ota

これで防げるの、手で落としてきてディレクトリ違うやんとかそういうのはなんとかなりそうだけど #pyconjp_202

2017-09-09 14:29:21
みょうが 🇺🇦 @mrkn

解決したかった問題が何だったのかわからなくなった #pyconjp_202

2017-09-09 14:29:24
skozawa @5kozawa

問題提起の話はすごくわかる #pyconjp_202

2017-09-09 14:29:41
Aki Ariga @chezou

うーん、、、この辺の話、普通にPySparkでETLして、それでparquetフォーマットのテーブル作ってそっからゴリゴリやれば、後から他の人も再利用できるし問題ないんだよなぁ... #pyconjp_202

2017-09-09 14:31:08
うさたーん @usaturn

「akagi」はどのホストで実行しても redshift から同じようにデータを取得している #pyconjp #pyconjp_202

2017-09-09 14:31:39
リンク GitHub Data Version Control <div></div>
ごうじん @gaujin_jp

遠く(クラウドなど)にあるデータをいつも、同じ状態に保たないといけない。 つまり、随時更新されるところではデータの再現はできないが、方法(手順)は再現できる。 #pyconjp #pyconjp_202

2017-09-09 14:32:03
うさたーん @usaturn

Data Version Control ってのがあるのか #pyconjp #pyconjp_202

2017-09-09 14:32:14
覚悟 @YuK_Ota

ですよね。失礼しました。 #pyconjp_202

2017-09-09 14:34:53
Aki Ariga @chezou

データの再現の問題は、モバイルやセンサーから遅延して到達したものや、updateが走って違いが出たもの、欠損値が発生したものが混じったときにどうするかというのはあって、バージョン管理はしたいというのはわかるんだが... #pyconjp_202

2017-09-09 14:35:32
ごうじん @gaujin_jp

熱い想いは伝わりました。 素晴らしかった #pyconjp #pyconjp_202

2017-09-09 14:35:39
matoba @mtb_beta

#pyconjp_202 引き継ぎを考えたデータ分析の話は、これから色々考えていかないといけないところだと思う。

2017-09-09 14:35:45
みょうが 🇺🇦 @mrkn

なるほど、今はまだ取得の部分を共通化しただけで、データの固定化までは到達してないってことか。今後に期待。 #pyconjp_202

2017-09-09 14:35:55
みょうが 🇺🇦 @mrkn

異なるデータソースに対する問い合わせが統一されてるだけでもだいぶ便利そうではある #pyconjp_202

2017-09-09 14:37:28
Hiroshi Tajima🌗 @Hiroshi_Taz

次はカシノさんの発表。難しくてもいつも楽しい。 「ディープニューラルネット確率的プログラミングライブラリEdward」 #pyconjp_202

2017-09-09 14:37:57
susumuis/いしがみプロ @susumuis

データの取得方法のコード化、自分はLuigiで対応したけど、コードレビュー者にわかりづらいとか、色々あったので、こういう仕組みが何か一般化したら良いと思いました。 #pyconjp_202

2017-09-09 14:38:21
utrhira @uhtter

@ayemos_y 問題意識に非常に共感できました!うちの現場ではデータ置き場のファイルサーバをnfsで共有してますが、何でもおける分どれが何だったかが迷子になる問題が起きてます。 #pyconjp_202

2017-09-09 14:39:39
susumuis/いしがみプロ @susumuis

そうか、レビューする人に「そもそもデータが色々なことをしないと準備できない」「それをコード化したい」という前提の気持ちがよく伝わっていなかったのかもしれないな。 #pyconjp_202

2017-09-09 14:39:55
FJ @FJKei

#pyconjp #pyconjp_202 前のセッションの話。機械学習のデータの話。あまり考えが及んでなかったことだから気にすることにしよう。

2017-09-09 14:41:16