言語処理屋さんが連携していく様子

大量のテキストから適切に情報収集&抽出するには、対象になる言葉を適切に見つけることが必須。それらを互いに情報出し合って取り組みが進んでいく様子を目の当たりにしました。凄い。(必要に応じて適宜編集してください) 関連1: まとめサイト http://trans-aid.jp/ANPI_NLP/index.php/ 関連2: INTERNET Watchに取り上げられた記事 http://bit.ly/dHfmHX
0
Masato Hagiwara (萩原正人) @mhagiwara_ja

こういう緊急時にも自然言語処理が役に立てることはたくさんある。情報抽出、データマイニング、情報の信頼性判定、同時翻訳、等々。落ち着いたら自分たちに何ができるかを改めて考えてみても良いかも。

2011-03-14 10:16:03
Masato Hagiwara (萩原正人) @mhagiwara_ja

特に今必要性が高いのは名寄せ技術だと思う。被災者・安否不明者の表記揺れに困っている自治体とか多そう。外国人は特に深刻 RT @mhagiwara こういう緊急時にも自然言語処理が役に立てることはたくさんある。情報抽出、データマイニング、情報の信頼性判定、同時翻訳、等々。...

2011-03-14 10:58:47
Masato Hagiwara (萩原正人) @mhagiwara_ja

自然言語処理研究者のみなさん、東北地方の人名や地名、組織名をロバストに解析できる形態素解析器および固有表現抽出器は間違いなく今日本全国で需要が高いので、公共財として共有するのはどうでしょう。もしくは、関連する情報をお持ちの方いますか。辞書やモデルだけでもきっと役に立ちます。

2011-03-14 11:14:42
Taku Kudo @taku910

@mhagiwara Mozcの人名辞書が、人名の読み・表記の揺れ対応に使えるかもしれないです。ちょっと作業します。

2011-03-14 12:00:15
Masato Hagiwara (萩原正人) @mhagiwara_ja

すごい!ありがとうございます! RT @taku910 @mhagiwara Mozcの人名辞書が、人名の読み・表記の揺れ対応に使えるかもしれないです。ちょっと作業します。

2011-03-14 12:31:22
Taku Kudo @taku910

@mhagiwara リストぐらいしかできないので、誰か活用してください。関係者が使えそうなMozcのユーザー辞書なんてのも考えてみましたが何を基準に集めればいいかまだアイデアが… 皆さんの知恵を!

2011-03-14 12:39:51
Masato Hagiwara (萩原正人) @mhagiwara_ja

東北地方、市町村レベルまでなら良いけど、それ以下の地名はやはりIPADic や JUMANDic じゃカバレッジ足りてないなぁ。郵便番号データhttp://bit.ly/da0EVv を追加するだけでもだいぶ違うと思う

2011-03-14 12:55:12
matumura @matumura

「地震」を含むツイートを収集しておりました。収集したツイートは11日15時16分9秒から13日8時59分19秒までの469,504ツイートです。興味のある研究者とデータをシェアしたいと思いますので、その折はメールでご連絡ください。

2011-03-14 13:16:56
matumura @matumura

地震データ(「地震」を含む11日15時16分9秒から13日8時59分19秒までの469,504ツイート)はここからDLできます。震災研究に役立ちますように (-人-) http://mtmr.jp/earthquake20110311.zip (約37MB)

2011-03-14 13:26:38
matumura @matumura

やっぱり公開しました。誰でもいいので役立ててくださいませ。

2011-03-14 13:27:23
Taku Kudo @taku910

Mozcの辞書から人名だけを抜き出したデータです。読みと表記とコスト(出現しやすさの数値)が入っています。名寄せシステムなどに役に立ちますように... http://chasen.org/~taku/software/misc/personal_name.zip

2011-03-14 13:47:36
Masato Hagiwara (萩原正人) @mhagiwara_ja

あと画像処理分野も需要あると思う。顔認識と避難者名簿画像のOCR。こういう状況なので精度を犠牲にしてもリコールを高くして検索にヒットするようにすれば実用的だと思います。

2011-03-14 13:56:57
Graham Neubig @neubig

. @mhagiwara さんのツイートで、東北の人名・地名を検出する必要があるかもしれないと書いてあったので、KyTeaの人名・地名モデルを作りましたhttp://bit.ly/fn9i3Z 。今は人名は@taku910 さんのものを含めて、約24万入っています。

2011-03-14 14:06:13
Graham Neubig @neubig

ちなみに、東北関係の名前を今のところ特別扱いしていませんが、だれかが集めてくれたらモデルに入れます。出力に「人名」または「UNK」を探せば、ある程度人の名前が取れると思います。地名はまだあまりうまくいっていないので、続けて作業します。

2011-03-14 14:08:12
Masato Hagiwara (萩原正人) @mhagiwara_ja

.@neubig GJ です!さっそく人名・地名モデル拝見しましたがが、「太白/人名・性 区/名詞 八木/人名・姓 山/名詞」のように、人名の FP がけっこう出ているようです。地名辞書を入れたら改善しますかね?

2011-03-14 14:43:57
langstat @langstat

.@matumura 先生の地震データ(「地震」を含む11日15時16分9秒から13日8時59分19秒までの469,504ツイート)をDLなう。 http://mtmr.jp/earthquake20110311.zip (約37MB)

2011-03-14 14:59:12
Graham Neubig @neubig

. @mhagiwara 地名の辞書を更新して、地名が結構よくなりましたhttp://bit.ly/fn9i3Z 。どのようなテキストを処理したいですか?ツイート?生コーパスがあったら分野適応をして精度を上げます。ちなみに、今はリコール重視で、FPは少し多いです。すみません。

2011-03-14 14:59:54
Masato Hagiwara (萩原正人) @mhagiwara_ja

.@neubig いえいえ、実用を考えるとリコールの方が大切なので、大きな問題は無いかもしれません。必要なのはツイートが主です。大阪大の松村先生(@matumura)のデータが使えるかもしれません。

2011-03-14 15:09:16
Masato Hagiwara (萩原正人) @mhagiwara_ja

.@neubig モデル ver 1.1 でだいぶ解決されていますね> FP また問題がありましたら報告します。あと、コーパスにアノテートが必要でしたら言ってください。手伝いますよ!

2011-03-14 15:12:51
Taiichi Hashimoto @taiichi84

@kmura @mhagiwara あー、乗り遅れました。人名、地名のタグ付きデータあります。何か手伝うことがありますか。今、ネット難民なので、対応が少し遅れます。

2011-03-14 15:35:59
Taiichi Hashimoto @taiichi84

@mhagiwara @neubig @kmura 毎日新聞と日本語コーパスのデータがあります。毎日新聞の方が量も多いのでいいかもしれません。95年の日外のデータを持っていれば提供可能です。

2011-03-14 15:43:39
Taiichi Hashimoto @taiichi84

@kmura え、えー。きっと日本語コーパスのモニターデータなんかもないよね?

2011-03-14 15:56:16
Taiichi Hashimoto @taiichi84

@kmura 使用目的を明確にできますか?前川先生に交渉してみます。

2011-03-14 16:00:31