最適化を極めろ! データ解析ライブラリPandasのデータ構造とアルゴリズム徹底解説 #PyConJP_C #pyconjp
Series, DataFrame, Panel のデータ構造がある。それぞれ 1d, 2d, 3d #pyconjp #PyConJP_C
2015-10-11 13:45:42pandas、解析の途中までは結構ノリノリで使うんだけど、いつもそのうちよくわからなくなって list(df) とか set(df) とかしちゃうから組織に消される #pyconjp #PyConJP_C
2015-10-11 13:49:16IntBlock, FloatBlock, ObjectBlockのように型ごとにDataFrameの値を管理しているのか。納得。 #pyconjp #PyConJP_C
2015-10-11 13:49:37外から見たら型が混ざっているみたいだけど、内部的には型ごとに分類して保存されている。だから型を指定することで速度を向上している Cython を上手く使えるのか。 #pyconjp #PyConJP_C
2015-10-11 13:51:58(´-`).。oO(Pandas とか DataFrame という単語、Julia Tokyo で知ったなんて言えない) #pyconjp_c
2015-10-11 13:52:00Reindexは指定の順番でIndexを並び替える。Indexの値がuniqueかそうでないかでロジックが違う。(多分) #pyconjp #PyConJP_C
2015-10-11 13:54:04より詳細なやつ a look inside pandas design and development wesmckinney.com/blog/nycpython… #pyconjp #PyConJP_C
2015-10-11 13:58:39pandasはコミットごとに650以上のパフォーマンスベンチマークを出して、速度の向上、低下をみている。この取り組みは素晴らしい #pyconjp #PyConJP_C
2015-10-11 13:59:17文字列の接続なんかも、ループよりは pandas の override された演算子を使った方が良いってのは matlab と同じやな #pyconjp #Pyconjp_c
2015-10-11 14:02:22Efficiently Strea Pandas Data Frames. matthewrocklin.com/blog/work/2015… #pyconjp #PyConJP_C
2015-10-11 14:07:45I/Oについては保存する対象により(テキストや、数値など)によって適切な保存方法を選択する。全てのタイプでおしなべて最速なものがないので。 #Pyconjp_c #Pyconjp
2015-10-11 14:08:58わかりやすい英語だったけど、聞くのにいっぱいいっぱいでメモが何もない #pyconjp #PyConJP_C
2015-10-11 14:13:20applyよりvectorizedな操作が速いとか。indexはsortedで uniqueが速いとか。まーそうだよね #pyconjp #pyconjp_c
2015-10-11 14:16:21