最適化を極めろ! データ解析ライブラリPandasのデータ構造とアルゴリズム徹底解説 #PyConJP_C #pyconjp

pandas internals Masaaki Horikoshi https://pycon.jp/2015/ja/schedule/presentation/58/
1
じぇーでぃーさん@がんばらない @j_doby

Series, DataFrame, Panel のデータ構造がある。それぞれ 1d, 2d, 3d #pyconjp #PyConJP_C

2015-10-11 13:45:42
手首 @wrist

PyTables, SQLAlchemyとかとも連携できるのか #pyconjp #PyConJP_C

2015-10-11 13:48:02
すずどら @sz_dr

seabornはよく使うけどBokeh使ったことないですね… #pyconjp #PyConJP_C

2015-10-11 13:49:05
Takuya Kitazawa @takuti

pandas、解析の途中までは結構ノリノリで使うんだけど、いつもそのうちよくわからなくなって list(df) とか set(df) とかしちゃうから組織に消される #pyconjp #PyConJP_C

2015-10-11 13:49:16
Atsushi Kanaya @todogzm

IntBlock, FloatBlock, ObjectBlockのように型ごとにDataFrameの値を管理しているのか。納得。 #pyconjp #PyConJP_C

2015-10-11 13:49:37
手首 @wrist

DataFrameは型別の列ごとにブロック単位でまとめて内部的にデータを持っている #pyconjp #PyConJP_C

2015-10-11 13:50:10
Takeshi Mizumoto @mzmttks

外から見たら型が混ざっているみたいだけど、内部的には型ごとに分類して保存されている。だから型を指定することで速度を向上している Cython を上手く使えるのか。 #pyconjp #PyConJP_C

2015-10-11 13:51:58
禁じられたオタク@飲酒は精神疾患 @__masalo23

(´-`).。oO(Pandas とか DataFrame という単語、Julia Tokyo で知ったなんて言えない) #pyconjp_c

2015-10-11 13:52:00
Atsushi Kanaya @todogzm

Reindexは指定の順番でIndexを並び替える。Indexの値がuniqueかそうでないかでロジックが違う。(多分) #pyconjp #PyConJP_C

2015-10-11 13:54:04
Takeshi Mizumoto @mzmttks

より詳細なやつ  a look inside pandas design and development wesmckinney.com/blog/nycpython… #pyconjp #PyConJP_C

2015-10-11 13:58:39
Aki Ariga @chezou

pandasはコミットごとに650以上のパフォーマンスベンチマークを出して、速度の向上、低下をみている。この取り組みは素晴らしい #pyconjp #PyConJP_C

2015-10-11 13:59:17
Takeshi Mizumoto @mzmttks

自分で書くより組み込み関数を使った方が速いので良い #pyconjp #pyconjp_c

2015-10-11 14:01:06
Takeshi Mizumoto @mzmttks

文字列の接続なんかも、ループよりは pandas の override された演算子を使った方が良いってのは matlab と同じやな #pyconjp #Pyconjp_c

2015-10-11 14:02:22
まつけん @Kenmatsu4

uniqueメソッドはNumpyよりpandasの方が早いんだ! #Pyconjp_c #Pyconjp

2015-10-11 14:04:03
まつけん @Kenmatsu4

Groupbyのときは、対象をCategoricalにしておいた方が処理が早くなる。 #Pyconjp_c #Pyconjp

2015-10-11 14:05:07
Takeshi Mizumoto @mzmttks

Categorical は enum みたいな感じかな。#pyconjp #pyconjp_c

2015-10-11 14:05:20
リンク matthewrocklin.com Efficiently Store Pandas DataFrames
まつけん @Kenmatsu4

I/Oについては保存する対象により(テキストや、数値など)によって適切な保存方法を選択する。全てのタイプでおしなべて最速なものがないので。 #Pyconjp_c #Pyconjp

2015-10-11 14:08:58
Yutaro Muta @yutailang0119

わかりやすい英語だったけど、聞くのにいっぱいいっぱいでメモが何もない #pyconjp #PyConJP_C

2015-10-11 14:13:20
takapy@🗺✈️⛺️🏔 @takahiro0129

applyよりvectorizedな操作が速いとか。indexはsortedで uniqueが速いとか。まーそうだよね #pyconjp #pyconjp_c

2015-10-11 14:16:21