第2回 テキストマイニング・シンポジウム

8/30、8/31におこなわれた「第2回 テキストマイニング・シンポジウム」のまとめ。 http://goo.gl/3vrpy
1
前へ 1 2 ・・ 7 次へ
shuyo @shuyo

@y_shindoh ついったしている人がそもそも他にいない気がw

2012-08-30 15:12:10
Yasutaka SHINDOH  @y_shindoh

@shuyo あらら…。 そういう意味でも前回と違いますね…。 ;(

2012-08-30 15:13:23
Takahiro Miura @hariktriam

承前)世の中には活用されてないデータが溢れている。活用することで大きなチャンス。テキストマイニングの長所:膨大なデータを対象にでき、全体的な傾向を把握可能。短所:使いこなすのに慣れが必要、機械処理におけるノイズ。 #signlc

2012-08-30 15:14:13
Takahiro Miura @hariktriam

承前)IBM content analyticsのデモ。90年代のpcヘルプセンターのデータの解析。月間4万件の問い合わせに対し、キーワード抽出、カテゴリを分けてファセット抽出など。機種名とファセットの共起数や相関などを表示。特に数値が大きいのが機種特有の問題。 #signlc

2012-08-30 15:24:09
shuyo @shuyo

@y_shindoh #signlc でつぶやいている人がちらほら。

2012-08-30 15:27:18
Takahiro Miura @hariktriam

承前)具体的には、特定のPCと特定のプリンタの相性に関する問題が抽出された。件数以上に分布の偏りに着目。目的設定とデータ分析の試行錯誤が必要。 #signlc

2012-08-30 15:27:52
Takahiro Miura @hariktriam

承前)社内向け/社外向けのFAQを解析。1,2名で取りまとめで1日かかったのが、本システムで15分で。この結果、2003年のIBMのパソコンの満足度が向上。特にWebサポートを通じた問題解決度が向上。さらにコール数が減少したことでコスト削減を実現。。#signlc

2012-08-30 15:32:02
Takahiro Miura @hariktriam

承前)サポートセンターの新人エージェントの教育への適用事例。ベテランに回した回数の多い事例を抽出し、新人に集中的に研修。 #signlc

2012-08-30 15:35:42
Takahiro Miura @hariktriam

承前)サポセンの人たちのスキルチェックテストの再作成。実際のサポートの例から、実態を特に反映している項目を抽出し、テストに反映。現場のサポートセンターの人たちに好評。 #signlc

2012-08-30 15:38:36
Yasutaka SHINDOH  @y_shindoh

. @shuyo おお。 テキスト・マイニング・シンポジウム、今日・明日を通して #signlc でツイートされそうですね。 会場でもそれっぽいこと通知してくれると良いのですが…。 :)

2012-08-30 15:44:24
Takahiro Miura @hariktriam

承前)口コミデータからの評判分析。深い言語処理が必要に。特に否定語周り。係り受けを解析すると精度向上。また、分野特有の表現へ対応。評判パタンを自動学習させて、さらに精度向上。デジカメや映画のレビューからネガティブ/ポジティブ表現を抽出。 #signlc

2012-08-30 15:44:59
Takahiro Miura @hariktriam

承前)会話分析の例。これもサポートセンター支援。サポートの音声を認識した上で分析。レンタカー会社の予約トラブルがデビットカードのトラブルに起因するのが多いなどの例を抽出。 #signlc

2012-08-30 15:49:51
Takahiro Miura @hariktriam

承前)多言語対応。複数言語で相関の高いところを比較?ぼくには詳しくは解らない。今後はこの比較をベースに翻訳まで持っていければ。 #signlc

2012-08-30 15:52:35
Takahiro Miura @hariktriam

承前)丁寧表現、乱暴表現が使われる時間帯を調査。あるグループは20時台は丁寧、1時台には乱暴。ぼくの実体験でもそんな雰囲気かもw。 #signlc

2012-08-30 15:55:27
Takahiro Miura @hariktriam

承前)同義表現の使い方を基に、発言者の素姓を分析。◯◯ファンと◯◯信者の使い分けとか。後者は某巨大掲示板の表現らしい。 #signlc

2012-08-30 15:58:36
Takahiro Miura @hariktriam

承前)(質問に対して)テキストデータをデータマイニング的に扱うとうまくいかない。テキストデータはノイズが大きい。 #signlc

2012-08-30 16:02:33
Нiroshi Кanayama @kanayama_h

英語だと単語が区切られているのでデータマイニングの発想でテキストマイニングをやった。形態素解析が必要な日本人のほうがきちんと言語を処理しようと思ったので良いモノが作れた。 #signlc

2012-08-30 16:02:34
shuyo @shuyo

今回のテキストマイニング・シンポジウム会場の富士ゼロックスさんのカフェスペースは、真下に横浜Fマリノスの練習場かな? が見えて楽しい。

2012-08-30 16:09:27
shuyo @shuyo

基調講演の前半はテキストマイニングの活用事例を積み重ね、コストを大きく低減したり、新人教育の効率が上がったりと有用性すごいでしょ? という話。基本うんうんだけど、事例がサポートセンターの話ばかりなのが残念。また相関度に注目して発見していたので、ベースが大きくないと当てはまらない。

2012-08-30 16:17:34
黒霧 @kuromu_mk

日中間の記事のトピック対応で、経済系の記事が精度をさげてる。数値や経済用語を手がかかりにしてるけどそれがトピック(の内容の)対応を保証してくれてないらしい。 #signlc

2012-08-30 16:31:24
黒霧 @kuromu_mk

この話って、さっきの招待講演でもあったなぁ。数字が何を表してるのかはコンテキストで変わるって。でも現状コンテキスト求めるのに内容語や事態性のある語や述語を使うわけで、ループしてるイメージ、という雑感を覚えた。 #signlc

2012-08-30 16:34:15
Takahiro Miura @hariktriam

胡ら「日中時系列ニュース・ブログにおけるトピックモデルの推定と分析」日中のニュースソースのトピック対応付け。Wikipediaより対応関係を抜いてきてから、ニュース間、トピック間で対応付け。経済ニュースを除くと精度が向上。また、中国語のニュースとブログも同様に分析 #signlc

2012-08-30 16:35:24
Takahiro Miura @hariktriam

承前)中国語のニュースとブログの対応分析をしたのは、ニュースそのものが当てにならないことが多いからだそうな。 #signlc

2012-08-30 16:38:00
shuyo @shuyo

基調講演後半はテキストマイニングの今後をアラカルトっぽく。全体的に昨年のシンポジウムでも聞いたことあるような? という印象だったのだが(失礼!)、「(テキストマイニングは)見るべき原文のあたりをつける(ためのもの)」という言葉が ぐっときた。

2012-08-30 16:40:05
前へ 1 2 ・・ 7 次へ