SIGIR2012勉強会

2012年12月16日に開催されたSIGIR2012勉強会(http://qwik.jp/dbreading/74.html)の当日tweetをまとめました。 #dbreadingタグがついたもののうち、紹介された論文に内容に関するものだけを抽出してます。
0
Yukino Baba @yukino

センテンス単位でのコンテンツ再利用検出のためのハッシュを学習。単語のハッシュを、共起頻度の高い単語ペアのハッシュ間距離最小化問題として定式化して求める。コンテンツ再利用検出の高速化に貢献。http://t.co/xxkgKekT #dbreading

2012-12-16 16:54:07
Yukino Baba @yukino

ページの特徴を使ったスパムページ検出はスパマーと検索エンジン運営側のいたちごっこになりがち。スパマーは特定のクエリを狙うことに着目してクリックスルーログから作ったクエリ-URLの二部グラフ上でspamicity伝搬。http://t.co/KIszQFKW #dbreading

2012-12-16 16:49:45
Yukino Baba @yukino

自分で発表したやつ。億単位のウェブページの中から他のページをつぎはぎして作ったページ(quilted)を見つける。パクリ元ページをset cover problemとを解いて発見、多かったらquiltedだとする。http://t.co/FH3VEdaT #dbreading

2012-12-16 16:38:28
Yukino Baba @yukino

検索結果多様化では「重複した文書よりも新規な文書が好まれる」「『新規な文書』より『新規かつ重複した文書』が好まれる」「新規な文書は多い方がいい」という仮説がある。MTurkで検証。1番めは必ずしも正しくないという結果。http://t.co/pInxjwC4 #dbreading

2012-12-16 16:15:34
Yukino Baba @yukino

Deliciousのデータから個人の興味を推定し検索多様化の仕方をパーソナライズ。ユーザがブックマークしてるページを使って文書に対する好みを推定。MTurkで、deliciousアカウント持ってる人を対象に実験。http://t.co/YbZ9VMkb #dbreading

2012-12-16 16:11:05
ponta(冷凍保存完了) @_akisato_

素人からすると,search result diversificationはけっこう面白いと思う.検索に限らず,いろんなものの結果提示において,けっこう重要な技術になり得る,かも #dbreading

2012-12-16 16:08:29
ponta(冷凍保存完了) @_akisato_

1997年の論文.適当に言った15年がぴったり当たった… http://t.co/7l4mz5Nu #dbreading

2012-12-16 16:01:39
Yukino Baba @yukino

個人的には、各研究のオチはきちんと知りたいです(上手くいったとかいかなかったとか)。#dbreading

2012-12-16 15:59:58
ponta(冷凍保存完了) @_akisato_

何か,15年前のJohn R Smithの時代に戻った気がするな… > Where is who #dbreading

2012-12-16 15:58:49
Yukino Baba @yukino

「観光はそのリージョンの気候がよい時期にいく」ってすごいな #dbreading

2012-12-16 15:55:58
Yukino Baba @yukino

ある本の翻訳版を見つけたい。アイデア:「各本に1度しか登場しない単語」は翻訳先にも出現し順序関係も保たれてるはず。このunique wordをキーとして探す。OCR誤りにもロバストで、発見精度はMAP1.0(すごい)。http://t.co/LItSTupA #dbreading

2012-12-16 15:47:02
ponta(冷凍保存完了) @_akisato_

bag of audio wordsの引用でこれが出てきたことなんて見たことない http://t.co/XdxBO5Xf #dbreading

2012-12-16 15:46:53
Yukino Baba @yukino

類似音楽を検索するときに、時系列を考慮して特徴作成。音楽を区間に分割して、各区間ごとに特徴を作成(サビとかイントロとかの区間によって特徴は全然違うはず、というきもち)。http://t.co/kL3LAbtV #dbreading

2012-12-16 15:41:42
ponta(冷凍保存完了) @_akisato_

音響特徴ベクトルとタグとの共起性をCCAで分析…って… (^_^;) #dbreading

2012-12-16 15:40:49
Yukino Baba @yukino

Flickrの画像ランキングにBrowseRank(PageRankをユーザの滞在時間で補正)を適用して、Popularity, Interesting, Diversityの観点で分析。http://t.co/bGqIjqPE #dbreading

2012-12-16 15:37:43
ponta(冷凍保存完了) @_akisato_

Flickrってログデータを出してるんだ…まぢか…と思ったら,中の人だから持ってるのか.だからこそ,この研究に意味があるのか #dbreading

2012-12-16 15:37:01
Yukino Baba @yukino

メディア研究者(テレビとか)支援のための検索インターフェース。「xxはテレビでどう表現されてるか」とかいうような研究課題を洗練化(詳細化?)していく過程を支援。http://t.co/RDmGTcbK #dbreading

2012-12-16 15:29:35
Yukino Baba @yukino

探索型検索で、さまざまな図や表に対してクエリとの関連性を視覚化しするインターフェース。「原子力」で検索すると世界地図で関連が深い国は濃く色付けしたり、周期表でプルトニウムを濃く色づけしたり、タイムラインだしたり。http://t.co/O5Dv6LmZ #dbreading

2012-12-16 15:25:40
ponta(冷凍保存完了) @_akisato_

探索型検索=検索目的が定まっていない検索,確かによくある.それをどう実現するか?というときに,interfaceとvisualizationが鍵になるのは間違いない.それ以外には,何があるだろう? Recommendation? #dbreading

2012-12-16 15:23:45
Yukino Baba @yukino

難しいクエリ(低nDCG)に対するクエリの推薦。 特徴:クエリ推薦候補と検索結果のマッチ度、元クエリとクエリ推薦候補の検索結果のマッチ度、クエリ推薦候補の推定nDCGを使ってLearning to rank。http://t.co/sJFoFOj2 #dbreading

2012-12-16 15:19:20
ponta(冷凍保存完了) @_akisato_

IR素人なので許して下さい / normalized Discounted Cumulative Gain (nDCG) http://t.co/sk2ogDMQ #dbreading

2012-12-16 15:17:04
Yukino Baba @yukino

文書コレクションから獲得した概念の包含関係を利用したクエリ推薦。クエリ遷移データを使って、概念間のエッジに重みつけ。http://t.co/Ldshnau8 #dbreading

2012-12-16 15:15:32
Yukino Baba @yukino

クエリ推薦の主な手法:クエリログ or クリックスルーデータ利用による推薦、入力クエリの書き換えによる推薦 トレンド:クエリ推薦の多様化、クエリ推薦の有用性の考慮、レアクエリに対するクエリ推薦。 クエリ推薦の利用率は実は4%程度。 #dbreading

2012-12-16 15:11:22
Yukino Baba @yukino

掲示板における類似スレッドの検索。著者複数、トピックが飛躍する、構造あり、という特徴がある。スレッドをコンポーネント(単一ポスト or ポスト-replyペア)に分解。先頭ポストの類似度と、お互いのカバー率を考慮。http://t.co/uiCCBlG4 #dbreading

2012-12-16 14:58:50
Yukino Baba @yukino

Liked Open dataに対するad-hocオブジェクト検索手法を提案。クエリ拡張+キーワード検索で中間結果を生成、グラフ構造を利用して最終的なランキング。http://t.co/zRLeLwpK #dbreading

2012-12-16 14:52:44