ICDE2012勉強会メモ

2012年6月2日に開催されたICDE2012勉強会のメモです。
0
chiemi @chiemi

R8-1 保存期間に制限のある時空間DBの処理。ストリームデータ処理の考え方を利用。SWST(空間をセル分割し、対応する時間情報を二つのB+-treeで管理)を提案。#dbreading

2012-06-02 12:45:17
chiemi @chiemi

R8-2 曖昧な時空間データ問合せの効率化。各時刻の時空間データは独立するので実際に起こり得ない軌跡も拾い上げる場合がある→時間依存性を取りいれた。マルコフチェーンの導入など。クエリベース手法(問合せ領域からたどって該当するオブジェクトを発見)が速い #dbreading

2012-06-02 12:47:31
chiemi @chiemi

R8-4 LSHを用いたkNN問合せ処理。RP木木構造をを作り、クラスタに対してLSHを構築。E8-Latticeという8次元の特殊な格子に落とし込む。#dbreading

2012-06-02 12:53:16
chiemi @chiemi

R10-3 最短路探索におけるランドマークに基づくアプローチ。最短路を早く求められるローカルなランドマークを見つける。 #dbreading

2012-06-02 13:05:29
chiemi @chiemi

ICDE2012勉強会午後の部は14:00からです。 #dbreading

2012-06-02 13:52:50
chiemi @chiemi

R9-1 機械学習を使った問合せ最適化。ワークロードから学習して見積もりモデルを生成。先行研究のPlan-levelに新たにoperator-level(未知のクエリの見積もり能力が良)を組み合わせた。切り替え戦略を3つ提案。#dbreading

2012-06-02 14:08:26
chiemi @chiemi

R9-2 パラメタライズドクエリの問合せ最適化を過去のプランのキャッシュ再利用により効率化。選択率等によっていくつかのプランを用意する。パラメタによる特徴空間上に過去の結果を当てはめる(density-based plan prediction)。 #dbreading

2012-06-02 14:12:13
chiemi @chiemi

R9-3 結合の実行プランを探すための候補プラン列挙アルゴリズムと枝狩りの改良。ICDE2011BasePaperの続き。実装しやすくて高速になったらしい。ICDE2011とSIGMOD07の論文を熟読すれば差分が分かるよ #dbreading

2012-06-02 14:16:20
chiemi @chiemi

R9-4 DBMSの処理にプリファレンスの機能を組み込む。PreferenceスコアとConfidenceがつく。これを使ってprefer演算を行う。#dbreading

2012-06-02 14:19:36
chiemi @chiemi

R12-1 MapReduceで大量のデータに対しサンプリングする。Mapでk件抽出→Reduceまとめてk件残す。この時サンプル溜まった時点でReduceでの収集やめる。(微妙な時はwait-and-see) #dbreading

2012-06-02 14:24:26
chiemi @chiemi

R12-2 Similarity JoinをMRでやる。Reducerにばらまくときに、例えば距離d以内のものの文字列をshuffle keyとしてばらまけばSimilarityJoinができる。shuffleの方法を4つ提案。用途により善し悪しあり。 #dbreading

2012-06-02 14:27:58
chiemi @chiemi

R12-3 Top-k Similarity JoinをMRでやる。Top-kのcloset pairをMRで探す。明らかにtop-kにならないペアを同じReducerに行かないように前処理を頑張る #dbreading

2012-06-02 14:32:45
chiemi @chiemi

R12-1 辺を使ったコミュニティ抽出。Edgeをクラスタリングしてから両端のノードをクラスタに加える。接続行列をエッジの特徴とノードの特徴を表す行列に分解。 #dbreading

2012-06-02 14:45:38
chiemi @chiemi

R12-2 クロスドメインサーチをするのにタグを使用するが、表記ゆれを吸収するためにタグとWikipediaの記事(これがコンセプトかな)の関連を使って,データやクエリをコンセプトベクトルで表わして検索。 #dbreading

2012-06-02 14:45:51
chiemi @chiemi

R12-3 ツイートの索引を作る。情報伝搬の経路を明らかにする形で索引を生成。トピックや時間的に類似するツイートをbundleにし、bundle単位で索引を作る。新たなツイートは類似するbundleの類似したツイートにつなぐ。 #dbreading

2012-06-02 14:49:57
chiemi @chiemi

R24-1 センサノードの異常値発見手法。類似度が閾値を超えたら異常値とする。特徴空間上にマッピングした後にGeometric Approachを応用して必要以上の通信を避ける。#dbreading

2012-06-02 15:00:35
chiemi @chiemi

R24-2 センサの値が確率分布のときのETMを求める。確率分布の合計をするのにマルコフ不等式を使って上限を押さえる。期待値を使えば従来の方法が使える。さらにChebyshev Chernoff boundを使うなど。 #dbreading

2012-06-02 15:04:04
Toshiyuki AMAGASA @amagasa

ハリケーンの分類なんていう論文があったのか.タイトルだけを見ていてもわからない.あとで見てみよう: Incorporating Duration Information for Trajectory Classification #dbreading

2012-06-02 15:06:11
chiemi @chiemi

R24-4 GPSの観測点から移動経路を推定する。GPS観測点はまばらでよく通りそうな道を選んで経路を補完。分割統治法を使う。#dbreading

2012-06-02 15:13:09
biwapa @biwapa

R13-1 分散システムにおけるDRJN.結合属性ごとにヒストグラムで表現して必要なデータのみ結合 #dbreading

2012-06-02 15:29:43
biwapa @biwapa

R13-2 データ分布の累積合計値を用いてサンプリングノードを決定して広範囲のデータ密度を推定 #dbreading

2012-06-02 15:32:06
myui @myui

mapreduce使った類似エンティティ抽出 #dbreading ブロッキングキーってなんぞ?

2012-06-02 15:37:35
biwapa @biwapa

R13-4 大規模テキストデータのクラウド環境類似エンティティ抽出.M/Rを2段階実行(1.エンティティのブロッキングキー出現回数合計 2.BlockSplit,PairRange) #dbreading

2012-06-02 15:39:34
biwapa @biwapa

R16-3 問合せ結果に満足いかなかったときに,えっと..あやまってくれる..(違) #dbreading (資料が4コマスライドになってるので参照すべし)

2012-06-02 15:43:09
biwapa @biwapa

R13-2 ネットワークノードの入出量保存の法則を考える.時間区間の「信頼度」測定の3モデルの提案 #dbreading

2012-06-02 15:48:16