質問3:スプログの定義は? 回答:自動生成された商品やサービスなどへのリンクの多いブログ.(と回答していたが,ユーザの主観が大きいように思いますね) #webdbf2010
2010-11-11 17:05:47RT @nakamura: ドワンゴさん研究用のデータ提供の用意があるんだ.クロールしてスミマセンでした #webdbf2010
2010-11-11 17:08:29ブログをHTMLの木構造を用い,DIVタグでまとめられているところを切り出す.2つのブログの比較をするのに,各ブロックごとの一致,置換,削除を考慮して,edit distanceを取る.(DIVタグでのまとめあげで,そんなに一致するものなのか!) #webdbf2010
2010-11-11 17:15:364. HTML構造の類似性およびアフィリエイトを用いたスプログの分析 片山 太一, 森尻 惇宜史(筑波大学), 石井 聡一(東京電機大学), 宇津呂 武仁(筑波大学), 河田 容英(ナビックス), 福原 知宏(産業技術総合研究所) #webdbf2010
2010-11-11 17:16:17専門性の高いページをクリックするユーザーは専門性が高い。また、同じページをクリックするユーザーの専門性は類似している。 #webdbf2010
2010-11-11 17:19:03質問1:edit distanceを取る時に,一致はタグ内の内容まで見ているのか?コンテンツを使うともっと抽出効率は上がるのか? (と私が質問しました) #webdbf2010
2010-11-11 17:28:36preparing for the poster sessions at the WebDB Forum 2010. #webdbf2010 http://twitpic.com/35suac
2010-11-11 17:34:52今日の全発表おわた。「検索支援」というテーマの発表が4つあって、そのうちの3つがQAコンテンツについて言及または分析しているのが興味深かった。ほんと、いろんなアイデアがあるなぁ。 #webdbf2010
2010-11-11 17:42:08WebDBタグで機械学習と叫んでいる人が多い.キラーアプリケーションとしての需要があるのだろーな.I田さんがセカンドやサードで載っている共同研究などをあとで見に行こう. #webdbf2010
2010-11-11 17:54:49#index 「WebDB Forum 2010 (2010/11/11 午前のみ)」<http://twilog.org/nsiena/date-101111/asc > #webdbf2010
2010-11-11 17:55:15RT @nakamura: 淡々とMMDな登場人物の名前を連呼しながらプレゼンする姿はシュールだ (#webdbf2010 live at http://ustre.am/pYpD)
2010-11-11 18:11:21RT @i2k: Fusion-io ioDrive Duoを導入、4台(サーバの数?)で捌いているとのこと。 RT @nakamura: アメーバピグは14万クエリ/秒.それを捌く (#webdbf2010 live at http://ustre.am/pYt4)
2010-11-11 18:24:04RT @k4403: ニコ動は学術研究に対してデータ提供の用意があるのでご連絡下さい.わかりやすく言うと「クロールすんな」. #webdbf2010
2010-11-11 20:18:43