チーム開発の問題を解決 機械学習におけるデータの再現性を高めるライブラリ『akagi』 #pyconjp #pyconjp_202
うーん、、、この辺の話、普通にPySparkでETLして、それでparquetフォーマットのテーブル作ってそっからゴリゴリやれば、後から他の人も再利用できるし問題ないんだよなぁ... #pyconjp_202
2017-09-09 14:31:08「akagi」はどのホストで実行しても redshift から同じようにデータを取得している #pyconjp #pyconjp_202
2017-09-09 14:31:39遠く(クラウドなど)にあるデータをいつも、同じ状態に保たないといけない。 つまり、随時更新されるところではデータの再現はできないが、方法(手順)は再現できる。 #pyconjp #pyconjp_202
2017-09-09 14:32:03データの再現の問題は、モバイルやセンサーから遅延して到達したものや、updateが走って違いが出たもの、欠損値が発生したものが混じったときにどうするかというのはあって、バージョン管理はしたいというのはわかるんだが... #pyconjp_202
2017-09-09 14:35:32akagiのアプローチはすごいいいと思った! github.com/ayemos/akagi #pyconjp_202
2017-09-09 14:37:01次はカシノさんの発表。難しくてもいつも楽しい。 「ディープニューラルネット確率的プログラミングライブラリEdward」 #pyconjp_202
2017-09-09 14:37:57データの取得方法のコード化、自分はLuigiで対応したけど、コードレビュー者にわかりづらいとか、色々あったので、こういう仕組みが何か一般化したら良いと思いました。 #pyconjp_202
2017-09-09 14:38:21@ayemos_y 問題意識に非常に共感できました!うちの現場ではデータ置き場のファイルサーバをnfsで共有してますが、何でもおける分どれが何だったかが迷子になる問題が起きてます。 #pyconjp_202
2017-09-09 14:39:39そうか、レビューする人に「そもそもデータが色々なことをしないと準備できない」「それをコード化したい」という前提の気持ちがよく伝わっていなかったのかもしれないな。 #pyconjp_202
2017-09-09 14:39:55#pyconjp #pyconjp_202 前のセッションの話。機械学習のデータの話。あまり考えが及んでなかったことだから気にすることにしよう。
2017-09-09 14:41:16