第2回 テキストマイニング・シンポジウム

8/30、8/31におこなわれた「第2回 テキストマイニング・シンポジウム」のまとめ。 http://goo.gl/3vrpy
1
前へ 1 2 3 ・・ 7 次へ
shuyo @shuyo

テキストマイニング・シンポジウムでまさか Dynamic Topic Model (Blei 06) なんて名前聞くとかw DTM を言語横断に拡張……って話ではなく、日中の記事をそれぞれ DTM にかけて、トピックの対応は後付けだった。

2012-08-30 16:44:36
Нiroshi Кanayama @kanayama_h

第2回テキストマイニングシンポジウム@富士ゼロックス。休憩時間に出される飲み物・食べ物は、信学会のイベント史上最強の豪華さではなかろうか #signlc

2012-08-30 16:56:19
Нiroshi Кanayama @kanayama_h

検索・ブログ・Twitterで流行語のバーストがどの順番で起こるかの分析。社会科学的な面白さがありそう #signlc

2012-08-30 16:59:32
shuyo @shuyo

言語横断のトピックモデルもいくつかあったかと思うんだけど、そっちを使わなかったのは何か理由あるのかなあ。

2012-08-30 17:01:19
Нiroshi Кanayama @kanayama_h

よく知らないけど声優の田中理恵さんはTwitterで結婚の発表をしたみたいですね #signlc

2012-08-30 17:09:42
黒霧 @kuromu_mk

驚異的でしたwww @kanayama_h: 第2回テキストマイニングシンポジウム@富士ゼロックス。休憩時間に出される飲み物・食べ物は、信学会のイベント史上最強の豪華さではなかろうか #signlc

2012-08-30 17:11:03
Takahiro Miura @hariktriam

菊井ら「検索ホットワードとブログ系テキストの関係を探る」検索バースト語の由来の6割が時事ニュース、3割がテレビ番組。概ねWeb上ではTwitterが一番早い。次に検索クエリ、ブログの順でバーストが起こる感じか。ブログは沢山ピークがあり、Twitterは一過性。 #signlc

2012-08-30 17:13:59
黒霧 @kuromu_mk

twitterでは話題が一度のことが多く、ブログでは一日に何度かくる。そのタイミングは22-23、8-9、12時とか、こう、聞いてるとあれこれ想像してしまうなぁw こういう分析好きです。 #signlc

2012-08-30 17:18:09
Takahiro Miura @hariktriam

承前)ブログの書き込み時刻は22-24時、8-10時頃が多い。 検索バースト語の由来はTwitterから7割程度は検出可能。#signlc

2012-08-30 17:20:16
shuyo @shuyo

検索バースト語とブログとtwitterの関係(どちらかが先行指標となりうるか、要因由来がブログ類から抽出可能か)。それぞれのバースト傾向が異なっていておもしろい。ツイートの抽出は検索バースト語をtwitter検索してるので、ツイッターが先行指標になりうるかはここからは言えないかと

2012-08-30 17:22:59
Takahiro Miura @hariktriam

一つ前のツイートに間違いが。8-10時じゃなくて8ー9時でした。失礼しました。 #signlc

2012-08-30 17:37:16
Takahiro Miura @hariktriam

但馬ら「コメントとしてつぶやかれた短文の感情推定」ニコニコニュースを分析。知性的というよりも感情的なコメントが多そうゆえ。感情のラベリングは手作業。ナイーブベイズと最大エントロピー法で推定。適合率、再現率ともに後者の方が高い。 #signlc

2012-08-30 17:44:31
shuyo @shuyo

ナイーブベイス(精度5~6割)が最大エントロピー(精度9割前後)に比べて成績が悪すぎるなあ。なんでだろう。実際の推定とやらの数字が出てきたけど、最大エントロピーの方は推定確率らしき値が全部ぴったり1/2とか1/3で、なんか変……。

2012-08-30 17:47:27
Takahiro Miura @hariktriam

ただし、学習データに評価対象データの9割が入っていたため、この結果になったのでは?という意見も。大体5割程度しか入っていない場合は、ナイーブベイズの方が良くなりやすいそうな。勉強になる。 #signlc

2012-08-30 17:54:58
shuyo @shuyo

10-fold CV は「世界の正解データの9割を知っている」という意味ではさすがにないと思うけどなあw 10-fold CV ではテストデータが少なすぎる(傾向が高い)というのなら同意だけど。

2012-08-30 17:55:01
shuyo @shuyo

「twitterのStreaming APIでパブリックにとれる奴はサンプリングされているから、そこからはなにも出てこない」 え? どゆこと? 件数が少なすぎるってこと?

2012-08-30 18:03:44
shuyo @shuyo

第1回が神回だったので、期待値が高すぎたかなあ。明日は招待講演まで参加予定。ハッシュタグは付け忘れてたり、140字ぴったりで入らなかったり、めんどくさかったりしてつけてないけど、今日明日のツイートの大半はこれ > #signlc

2012-08-30 18:33:53
山本 和英(言語商会 広報部) @y8o

#signlc テキストマイニングシンポジウム1日目が終了しました。通常の研究会の3倍くらいの方にご参加いただき、本当に感謝しています。あと、会場の立地と設備がすばらしすぎてご協力いただいた富士ゼロックスの関係各位に本当に感謝です。あんなに景色がいいところで仕事してみたい。

2012-08-30 22:45:16
山本 和英(言語商会 広報部) @y8o

@y8o 研究会では来年度計画の検討を始めています。これに関連して次回はぜひ弊社の会場でテキストマイニングシンポジウムをやってほしい、などのご提案も本気で募集しています。何かございましたらご連絡いただければありがたいです。どうぞよろしくお願いいたします。 #signlc

2012-08-30 22:56:30
Нiroshi Кanayama @kanayama_h

テキストマイニング・シンポジウム、第2日のセッションが始まりました #signlc

2012-08-31 10:08:44
黒霧 @kuromu_mk

そういえば、昨日の印象だけど、結局タスクごとに辞書を作ってるように見えて、研究界隈だと大きな知識を組んでそれを使おうという流れがあるけど、実は結局特定の課題に使うにはそれ用にチューンしたものが必要になってしまうのかな、と疑問を感じた。 #signlc

2012-08-31 10:17:54
黒霧 @kuromu_mk

でも知識というか辞書を組むというのは手間なわけで、ならいっそ少しでも手間を軽減させるという狙いで支援ツールか方法論的なものがあれば便利なのかな、とか思った。 #signlc

2012-08-31 10:20:33
Takahiro Miura @hariktriam

瀬川ら「障害対応記録からの関連キーワード抽出と可視化手法の検討」顧客意見分析,技術情報分析をターゲット.現象内容と事後対応の関連性を考慮した分析・可視化手法を開発.緩い共起関係にグラフマイニング/ノードとエッジ(意味的関係)にフィルタリングをかけキーワード抽出.#signlc

2012-08-31 10:20:46
黒霧 @kuromu_mk

で、今聞いている発表(グラフマイニングの話)を聞いていて、こういうのを使ってささっと、あ、これとこれとこれ使おう、的にできたらなぁと思った。 #signlc

2012-08-31 10:22:43
黒霧 @kuromu_mk

でもそうすると、今度は因果関係のパタンを集めなきゃとなって、それも文脈で変わるから、と進んで同じ問題に落ち着くのかな……。でも、話題ごとに集めるより、文体ごとに気を使えばいいパタンの方が種類少なくて楽、かな? #signlc

2012-08-31 10:28:27
前へ 1 2 3 ・・ 7 次へ