第2回 テキストマイニング・シンポジウム

8/30、8/31におこなわれた「第2回 テキストマイニング・シンポジウム」のまとめ。 http://goo.gl/3vrpy
1
山本 和英(言語商会 広報部) @y8o

木曜から開催する #signlc のテキストマイニングシンポジウムは1日目終了後に懇親会を行います。今日現在で35名もの方に申し込みいただいていますので人脈作りにぜひ参加をご検討ください。会合と同様に申し込み募集しています。 http://t.co/lTfMJ9We

2012-08-27 19:29:25
山本 和英(言語商会 広報部) @y8o

#signlc のテキストマイニングシンポジウムがいよいよ明日開催です。参加者は私の把握しているNLC研究会主催の会合で過去最多となりました。本日も受け付けていますので参加ご希望の方はフォームにご記入ください。 http://t.co/lTfMJ9We

2012-08-29 10:36:57
shuyo @shuyo

今日はテキストマイニング・シンポジウム@みなとみらいに行くで。お昼いっしょできる人いないかな?

2012-08-30 09:08:03
Yasutaka SHINDOH  @y_shindoh

テキスト・マイニング・シンポジウム、抽出セッションと2つの講演は聴いておきたかった…。 ここは @shuyo さんのレポートに期待するしかない! :)

2012-08-30 11:24:46
Takahiro Miura @hariktriam

IEICE NLC (言語理解とコミュニケーション研究会)に参加中.自然言語処理に関する研究会で,今回は「第2回テキストマイニング・シンポジウム」と銘打たれている.プログラム等々はこちら:http://t.co/wpWsAvBW #signlc

2012-08-30 13:00:16
Takahiro Miura @hariktriam

開催の言葉「15%が構造化情報で,85%は非構造化情報.電子化されているけど活用されていない.サイロ化された情報を如何に内部で共有するか.」#signlc

2012-08-30 13:08:34
Нiroshi Кanayama @kanayama_h

第2回テキストマイニング・シンポジウム(@横浜・富士ゼロックス)のセッションが始まりました #signlc

2012-08-30 13:27:31
Takahiro Miura @hariktriam

葦原ら「節の分類情報を用いた地方議会会議録における要求・要望表現抽出」地方議会会議録の可読性の向上のために,議員の質問から自治体への要求・要望の表現を抽出.モダリティ表現のみ,これと節の構文情報との2パタンを考慮.節分類を用いると有効に抽出.再現率は今後の課題. #signlc

2012-08-30 13:34:52
山元 @kamiyammmm

モダリティー表現と節分類のパターンを組み合わせて要求要望を抽出精度が上がる? #signlc

2012-08-30 13:37:13
山元 @kamiyammmm

営業日報から課題抽出。#signlc

2012-08-30 13:45:20
黒霧 @kuromu_mk

要求や要望という形でひとくくりにされているけど、その要望の強度が低いとか曖昧なものほどモダリティとの相関を下げそうな気もしたり。ターゲットをもう少し掘り下げられそうな気がする。 #signlc

2012-08-30 13:45:34
Нiroshi Кanayama @kanayama_h

課題記述文抽出ってことで @chopstickexe が refer されておる #signlc

2012-08-30 13:51:20
Takahiro Miura @hariktriam

杉原ら「営業支援システム内に蓄積されたテキストデータからの課題記述文抽出」日報テキストから課題を記述した文を抽出し,意思決定支援や製品などの改善に繋げようという試み.課題記述文はポジティブ/ネガティブの双方.SVMにより分類判定.精度に最も寄与したのは語彙リソース.#signlc

2012-08-30 14:06:56
黒霧 @kuromu_mk

課題探し。テキストマイニングでは鉄板の課題にわくわく。肯定否定表現より、不具合表現を使う方がタスクにあうかもと思った。 #signlc

2012-08-30 14:07:50
shuyo @shuyo

タイトルや発表者から想像ついてたけど、今回は研究の話が多めだな>テキストマイニング・シンポジウム 発表者層が第1回と変わったのは何か理由があるんだろうか。たまたま?

2012-08-30 14:10:11
shuyo @shuyo

SVMうんぬん以前に、データセットが1000件未満の状態で 10-fold CV して、 precision なり recall なりが 0.39 から 0.41 になったのが統計的に有意かどうかとか議論する意味もない気がするんだけど。

2012-08-30 14:17:08
Takahiro Miura @hariktriam

田中ら「特許文書からの化学物質情報の抽出」特許文書から化学物質名と化学式の対応関係を抽出,ルールに基づき化学式の部品化した上で,既知の化学式部品から式を生成. CとHを含む物質に限定.炭素数が10未満でカバー率7割超だが,炭素数増加で減.固有の慣用名が増加するため.#signlc

2012-08-30 14:35:10
いたろれ3号 @itarore

抽出セッション、タスク設定に対してテストデータが足りないような…と全体的に思った。やっばコストか… #signlc

2012-08-30 14:40:09
shuyo @shuyo

特許文書から取り出した物質名と化学式のペアから、化学式の部品と部分名を抽出して、未知の化学物質を推定するような話。ニッチだw 8000対もあればそこそこいくんじゃあないかと思ったが、精度は55%程度のこと。

2012-08-30 14:47:05
shuyo @shuyo

10個ほど用意した変換ルール(-ンをとって-ノールをつける、など)を再帰的に3回適用して部品を抽出するというルールベースアプローチだったが、持橋さんの無教師単語分割を科学物質名に当てはめたらどうなるのかなあ、などと夢想。

2012-08-30 14:50:28
Нiroshi Кanayama @kanayama_h

やっぱ要望表現で使うモダリティは一筋縄じゃいかないんですよ。機械翻訳とかで使ってる構文構造だけでは捉えきれないことが多くて。 #signlc

2012-08-30 15:02:10
shuyo @shuyo

抽出セッションの最後に、岡山大の竹内先生から投げかけられた「企業がこれまでに作ってきた膨大な辞書リソースはどこに行ったの?」という問いかけはおもしろかった。あまり具体的な回答は得られなかった気がするけど。

2012-08-30 15:05:06
Takahiro Miura @hariktriam

那須川「[基調講演]テキストマイニングの可能性 ー有用性と研究の発展性ー」本質的な役割、活用事例、技術展開について講演。テキストマイニング:個々のテキストを読んだだけでは獲得できない知見を獲得する技術。 #signlc

2012-08-30 15:07:56
shuyo @shuyo

基調講演始まり。「テキストを分類整理しただけでは「ごくろうさま」と言われて終わってしまう」たしかにw

2012-08-30 15:09:51
1 ・・ 7 次へ