言語処理屋さんが連携していく様子
こういう緊急時にも自然言語処理が役に立てることはたくさんある。情報抽出、データマイニング、情報の信頼性判定、同時翻訳、等々。落ち着いたら自分たちに何ができるかを改めて考えてみても良いかも。
2011-03-14 10:16:03特に今必要性が高いのは名寄せ技術だと思う。被災者・安否不明者の表記揺れに困っている自治体とか多そう。外国人は特に深刻 RT @mhagiwara こういう緊急時にも自然言語処理が役に立てることはたくさんある。情報抽出、データマイニング、情報の信頼性判定、同時翻訳、等々。...
2011-03-14 10:58:47自然言語処理研究者のみなさん、東北地方の人名や地名、組織名をロバストに解析できる形態素解析器および固有表現抽出器は間違いなく今日本全国で需要が高いので、公共財として共有するのはどうでしょう。もしくは、関連する情報をお持ちの方いますか。辞書やモデルだけでもきっと役に立ちます。
2011-03-14 11:14:42すごい!ありがとうございます! RT @taku910 @mhagiwara Mozcの人名辞書が、人名の読み・表記の揺れ対応に使えるかもしれないです。ちょっと作業します。
2011-03-14 12:31:22@mhagiwara リストぐらいしかできないので、誰か活用してください。関係者が使えそうなMozcのユーザー辞書なんてのも考えてみましたが何を基準に集めればいいかまだアイデアが… 皆さんの知恵を!
2011-03-14 12:39:51東北地方、市町村レベルまでなら良いけど、それ以下の地名はやはりIPADic や JUMANDic じゃカバレッジ足りてないなぁ。郵便番号データhttp://bit.ly/da0EVv を追加するだけでもだいぶ違うと思う
2011-03-14 12:55:12「地震」を含むツイートを収集しておりました。収集したツイートは11日15時16分9秒から13日8時59分19秒までの469,504ツイートです。興味のある研究者とデータをシェアしたいと思いますので、その折はメールでご連絡ください。
2011-03-14 13:16:56地震データ(「地震」を含む11日15時16分9秒から13日8時59分19秒までの469,504ツイート)はここからDLできます。震災研究に役立ちますように (-人-) http://mtmr.jp/earthquake20110311.zip (約37MB)
2011-03-14 13:26:38各位:情報をまとめる方向に向かいましょう http://www.sinsai.info/ushahidi/index.php/main
2011-03-14 13:42:57Mozcの辞書から人名だけを抜き出したデータです。読みと表記とコスト(出現しやすさの数値)が入っています。名寄せシステムなどに役に立ちますように... http://chasen.org/~taku/software/misc/personal_name.zip
2011-03-14 13:47:36あと画像処理分野も需要あると思う。顔認識と避難者名簿画像のOCR。こういう状況なので精度を犠牲にしてもリコールを高くして検索にヒットするようにすれば実用的だと思います。
2011-03-14 13:56:57. @mhagiwara さんのツイートで、東北の人名・地名を検出する必要があるかもしれないと書いてあったので、KyTeaの人名・地名モデルを作りました: http://bit.ly/fn9i3Z 。今は人名は@taku910 さんのものを含めて、約24万入っています。
2011-03-14 14:06:13ちなみに、東北関係の名前を今のところ特別扱いしていませんが、だれかが集めてくれたらモデルに入れます。出力に「人名」または「UNK」を探せば、ある程度人の名前が取れると思います。地名はまだあまりうまくいっていないので、続けて作業します。
2011-03-14 14:08:12.@neubig 宮城、福島、岩手、栃木に特徴的な名字のリストこちらにありますhttp://bit.ly/ekicQa http://bit.ly/dHh3J5 http://bit.ly/gjBYM7 http://bit.ly/g6M7Bt via @violairline
2011-03-14 14:27:07.@neubig GJ です!さっそく人名・地名モデル拝見しましたがが、「太白/人名・性 区/名詞 八木/人名・姓 山/名詞」のように、人名の FP がけっこう出ているようです。地名辞書を入れたら改善しますかね?
2011-03-14 14:43:57.@matumura 先生の地震データ(「地震」を含む11日15時16分9秒から13日8時59分19秒までの469,504ツイート)をDLなう。 http://mtmr.jp/earthquake20110311.zip (約37MB)
2011-03-14 14:59:12. @mhagiwara 地名の辞書を更新して、地名が結構よくなりました: http://bit.ly/fn9i3Z 。どのようなテキストを処理したいですか?ツイート?生コーパスがあったら分野適応をして精度を上げます。ちなみに、今はリコール重視で、FPは少し多いです。すみません。
2011-03-14 14:59:54.@neubig いえいえ、実用を考えるとリコールの方が大切なので、大きな問題は無いかもしれません。必要なのはツイートが主です。大阪大の松村先生(@matumura)のデータが使えるかもしれません。
2011-03-14 15:09:16.@neubig モデル ver 1.1 でだいぶ解決されていますね> FP また問題がありましたら報告します。あと、コーパスにアノテートが必要でしたら言ってください。手伝いますよ!
2011-03-14 15:12:51@kmura @mhagiwara あー、乗り遅れました。人名、地名のタグ付きデータあります。何か手伝うことがありますか。今、ネット難民なので、対応が少し遅れます。
2011-03-14 15:35:59@mhagiwara @neubig @kmura 毎日新聞と日本語コーパスのデータがあります。毎日新聞の方が量も多いのでいいかもしれません。95年の日外のデータを持っていれば提供可能です。
2011-03-14 15:43:39