第2回 テキストマイニング・シンポジウム
テキストマイニング・シンポジウムでまさか Dynamic Topic Model (Blei 06) なんて名前聞くとかw DTM を言語横断に拡張……って話ではなく、日中の記事をそれぞれ DTM にかけて、トピックの対応は後付けだった。
2012-08-30 16:44:36第2回テキストマイニングシンポジウム@富士ゼロックス。休憩時間に出される飲み物・食べ物は、信学会のイベント史上最強の豪華さではなかろうか #signlc
2012-08-30 16:56:19検索・ブログ・Twitterで流行語のバーストがどの順番で起こるかの分析。社会科学的な面白さがありそう #signlc
2012-08-30 16:59:32驚異的でしたwww @kanayama_h: 第2回テキストマイニングシンポジウム@富士ゼロックス。休憩時間に出される飲み物・食べ物は、信学会のイベント史上最強の豪華さではなかろうか #signlc
2012-08-30 17:11:03菊井ら「検索ホットワードとブログ系テキストの関係を探る」検索バースト語の由来の6割が時事ニュース、3割がテレビ番組。概ねWeb上ではTwitterが一番早い。次に検索クエリ、ブログの順でバーストが起こる感じか。ブログは沢山ピークがあり、Twitterは一過性。 #signlc
2012-08-30 17:13:59twitterでは話題が一度のことが多く、ブログでは一日に何度かくる。そのタイミングは22-23、8-9、12時とか、こう、聞いてるとあれこれ想像してしまうなぁw こういう分析好きです。 #signlc
2012-08-30 17:18:09承前)ブログの書き込み時刻は22-24時、8-10時頃が多い。 検索バースト語の由来はTwitterから7割程度は検出可能。#signlc
2012-08-30 17:20:16検索バースト語とブログとtwitterの関係(どちらかが先行指標となりうるか、要因由来がブログ類から抽出可能か)。それぞれのバースト傾向が異なっていておもしろい。ツイートの抽出は検索バースト語をtwitter検索してるので、ツイッターが先行指標になりうるかはここからは言えないかと
2012-08-30 17:22:59但馬ら「コメントとしてつぶやかれた短文の感情推定」ニコニコニュースを分析。知性的というよりも感情的なコメントが多そうゆえ。感情のラベリングは手作業。ナイーブベイズと最大エントロピー法で推定。適合率、再現率ともに後者の方が高い。 #signlc
2012-08-30 17:44:31ナイーブベイス(精度5~6割)が最大エントロピー(精度9割前後)に比べて成績が悪すぎるなあ。なんでだろう。実際の推定とやらの数字が出てきたけど、最大エントロピーの方は推定確率らしき値が全部ぴったり1/2とか1/3で、なんか変……。
2012-08-30 17:47:27ただし、学習データに評価対象データの9割が入っていたため、この結果になったのでは?という意見も。大体5割程度しか入っていない場合は、ナイーブベイズの方が良くなりやすいそうな。勉強になる。 #signlc
2012-08-30 17:54:5810-fold CV は「世界の正解データの9割を知っている」という意味ではさすがにないと思うけどなあw 10-fold CV ではテストデータが少なすぎる(傾向が高い)というのなら同意だけど。
2012-08-30 17:55:01「twitterのStreaming APIでパブリックにとれる奴はサンプリングされているから、そこからはなにも出てこない」 え? どゆこと? 件数が少なすぎるってこと?
2012-08-30 18:03:44第1回が神回だったので、期待値が高すぎたかなあ。明日は招待講演まで参加予定。ハッシュタグは付け忘れてたり、140字ぴったりで入らなかったり、めんどくさかったりしてつけてないけど、今日明日のツイートの大半はこれ > #signlc
2012-08-30 18:33:53#signlc テキストマイニングシンポジウム1日目が終了しました。通常の研究会の3倍くらいの方にご参加いただき、本当に感謝しています。あと、会場の立地と設備がすばらしすぎてご協力いただいた富士ゼロックスの関係各位に本当に感謝です。あんなに景色がいいところで仕事してみたい。
2012-08-30 22:45:16@y8o 研究会では来年度計画の検討を始めています。これに関連して次回はぜひ弊社の会場でテキストマイニングシンポジウムをやってほしい、などのご提案も本気で募集しています。何かございましたらご連絡いただければありがたいです。どうぞよろしくお願いいたします。 #signlc
2012-08-30 22:56:30そういえば、昨日の印象だけど、結局タスクごとに辞書を作ってるように見えて、研究界隈だと大きな知識を組んでそれを使おうという流れがあるけど、実は結局特定の課題に使うにはそれ用にチューンしたものが必要になってしまうのかな、と疑問を感じた。 #signlc
2012-08-31 10:17:54でも知識というか辞書を組むというのは手間なわけで、ならいっそ少しでも手間を軽減させるという狙いで支援ツールか方法論的なものがあれば便利なのかな、とか思った。 #signlc
2012-08-31 10:20:33瀬川ら「障害対応記録からの関連キーワード抽出と可視化手法の検討」顧客意見分析,技術情報分析をターゲット.現象内容と事後対応の関連性を考慮した分析・可視化手法を開発.緩い共起関係にグラフマイニング/ノードとエッジ(意味的関係)にフィルタリングをかけキーワード抽出.#signlc
2012-08-31 10:20:46で、今聞いている発表(グラフマイニングの話)を聞いていて、こういうのを使ってささっと、あ、これとこれとこれ使おう、的にできたらなぁと思った。 #signlc
2012-08-31 10:22:43でもそうすると、今度は因果関係のパタンを集めなきゃとなって、それも文脈で変わるから、と進んで同じ問題に落ち着くのかな……。でも、話題ごとに集めるより、文体ごとに気を使えばいいパタンの方が種類少なくて楽、かな? #signlc
2012-08-31 10:28:27