ARG 第7回Webインテリジェンスとインタラクション研究会 in 東京(ARG-SIGWI2) #sigwi2

第7回WI2研究会のまとめです。 http://www.sigwi2.org/
1
前へ 1 2 3 ・・ 7 次へ
Taro Sugihara @ts_pawn

居住地推定はホットトピックで,山ほど論文が出ている.時間の都合で割愛.・・・残念. #sigwi2

2015-11-28 13:58:56
Taro Sugihara @ts_pawn

メッセージ中の地名認識の実装.使えるようであれば,他のサービスを利用する.location popularityとlocation context を考慮する.Toponym resolution, entitiy linking など有名. #sigwi2

2015-11-28 14:04:13
Taro Sugihara @ts_pawn

メッセージの発信場所.ジオタグを利用する.使いやすいのは,昔ならFoursquare.今ならSwarmを利用する.ただし,ジオタグ付きのツイートは少ない.全体の0.46%. #sigwi2

2015-11-28 14:05:54
Y.OCHI @oyouji

ジオタグつけるのは心理的に避けたいですね。#sigwi2

2015-11-28 14:06:37
Taro Sugihara @ts_pawn

twitterにおける位置情報を利用した分野の案.居住地は,地域・国レベルで話題の特徴を比較する分析,メッセージ中の地名は,ノイズを許容できる分析に留める必要があるが,特定の場所についての具体的な話題分析に向く. 発信場所は,異動パターンの分析などに使う. #sigwi2

2015-11-28 14:08:45
Taro Sugihara @ts_pawn

佐々木さん.データ分析でよく使う前処理の生理と対処についてプレゼンする.ビジネスの意思決定や科学技術政策のためのデータ分析を研究テーマにしている. #sigwi2

2015-11-28 14:11:54
Taro Sugihara @ts_pawn

学術文献や特許の引用関係ネットワークをクラスタリング・ラベリングによって構造化.学術関係のデータには引用関係があるので,それを使う. #sigwi2

2015-11-28 14:13:08
Taro Sugihara @ts_pawn

過去データの分析をするだけではなく,機械学習などを用いて科学技術予測も行う. #sigwi2

2015-11-28 14:14:04
Tadahiko Kumamoto @MorinoKumazo

Tipsをまとめた講演資料が欲しい。 #sigwi2

2015-11-28 14:17:25
Taro Sugihara @ts_pawn

データ分析プロセスのフレームワーク.KDDなどにも前処理やデータ加工などはしれっと書かれているが,実務上は大事.仕事の8割は前処理. #sigwi2

2015-11-28 14:17:43
Taro Sugihara @ts_pawn

なぜ前処理が大変なのか.データフォーマットの多様性,データソースの多様性,容量(テラバイト以上は当たり前),信頼性,不十分なメタデータ,ツールの使い分けなどが必要で,分析前に決めなければならないことも沢山ある. #sigwi2

2015-11-28 14:19:41
Taro Sugihara @ts_pawn

前処理でよくやること.その1,欠損値の対応.欠損値の発生要因は増えてきている.加工が難しくなるし,場合によっては分析できない. #sigwi2

2015-11-28 14:20:44
Taro Sugihara @ts_pawn

欠損値は,ぱっと見でわかりやすくする.どこにどれくらいあるかを見る.どのようなデータで共起するかを見る.欠損値がどういうものかわかれば,削除する,尤度推定をする,代入する,のいずれかで解決を図る. #sigwi2

2015-11-28 14:22:56
Taro Sugihara @ts_pawn

欠損のメカニズムを理解する.欠損がランダムかどうかを理解する.完全にランダム(MCAR),データ内で欠損を統制すればランダム(MAR),欠損がランダムではない(NMAR)の中からどれかを考える #sigwi2

2015-11-28 14:24:06
Taro Sugihara @ts_pawn

完全なランダムはないので,MARと仮定して業務を行う.削除するとしても,リストワイズではなくペアワイズを使うほうが良いのではないか. #sigwi2

2015-11-28 14:25:30
Kazuhiro Kazama @kazuhiro_kazama

この資料は公開してほしいな…. #sigwi2

2015-11-28 14:25:45
Taro Sugihara @ts_pawn

前処理その2.外れ値の対処.統計定期アプローチ.例えば,スミルノフ・グラブス (Smirnov‐Grubbs) 検定を使う. #sigwi2

2015-11-28 14:27:43
Taro Sugihara @ts_pawn

前処理その3.連続値の離散化.離散化すると,回帰問題を分類問題に変換できるのが利点.トップダウン(区間を逐次分割する)/ボトムアップ(統合していく)で考える. #sigwi2

2015-11-28 14:30:28
Taro Sugihara @ts_pawn

前処理その4.データ操作.行抽出/追加,列抽出/追加などをすること.手戻りが最も多いプロセスなので,大変.データラングリングチートシートを作って/もらって見ながら作業する #sigwi2

2015-11-28 14:32:12
Taro Sugihara @ts_pawn

何をどこまでやるかの合意形成をする.データの前処理とはデータの品質管理のこと.限られた資源の中で歩留まりを下げるという観点が重要. #sigwi2

2015-11-28 14:34:18
Taro Sugihara @ts_pawn

「前処理8割」をクライアントやマネジメント再度と共有する.日頃からビジネス側の人達との会話を密にする.前処理の重要性を分かり易い言葉で表現する. #sigwi2

2015-11-28 14:35:58
Takeshi Sakaki@ @tksakaki

「データの前処理とはデータの品質管理工程である」。これは名言。 #sigwi2

2015-11-28 14:36:54
Taro Sugihara @ts_pawn

前処理とデータ分析は同一人物が行う.前処理は分析の枠組みを理解した上で行う必要がある.ルーチンワークになっている場合は別人でも良いかもしれないが,もしそうなら自動化出来るのではないか #sigwi2

2015-11-28 14:37:23
Taro Sugihara @ts_pawn

エクセル前処理は禁止.エクセルは,ログが残らない,ロジックが残らない(処理の時系列が残らない).つまり,不十分なメタデータが作られるのが問題. #sigwi2

2015-11-28 14:38:39
前へ 1 2 3 ・・ 7 次へ