言語処理屋さんが連携していく様子

大量のテキストから適切に情報収集&抽出するには、対象になる言葉を適切に見つけることが必須。それらを互いに情報出し合って取り組みが進んでいく様子を目の当たりにしました。凄い。(必要に応じて適宜編集してください) 関連1: まとめサイト http://trans-aid.jp/ANPI_NLP/index.php/ 関連2: INTERNET Watchに取り上げられた記事 http://bit.ly/dHfmHX
0
Masato Hagiwara (萩原正人) @mhagiwara_ja

.@neubig あと、KyTea 人名・地名モデルのタグで「人名・姓」と「人名・性」というのが両方出ますが、後者は誤植だと思われます。

2011-03-14 16:37:32
Taiichi Hashimoto @taiichi84

@kmura @mhagiwara 新旧字の対応表がありますが,送りましょうか?

2011-03-14 16:57:39
Masato Hagiwara (萩原正人) @mhagiwara_ja

今のところ、被災者人名の形態素解析には KyTea の人名・地名モデルが良さげ。(<人名・姓>+)?<人名・名>+ のパターンで NE Tagger をトレーニングしなくてもかなりの再現率で人名を抽出できる。

2011-03-14 17:01:43
Graham Neubig @neubig

. @mhagiwara 指摘していただいた誤植を直し、東北の人名と@kmura さんにもらった地名データも追加しました: http://bit.ly/fn9i3Z

2011-03-14 17:29:47
Masato Hagiwara (萩原正人) @mhagiwara_ja

すごい、仕事早い!直ってますね。ありがとうございます!RT @neubig @mhagiwara 指摘していただいた誤植を直し、東北の人名と@kmura さんにもらった地名データも追加しました: http://bit.ly/fn9i3Z

2011-03-14 17:36:41
Taiichi Hashimoto @taiichi84

@mhagiwara @neubig @kmura コーパスの提供のOKが出ました.@kmura さんに提供方法をメールしています.

2011-03-14 18:07:54
Taiichi Hashimoto @taiichi84

@mhagiwara @neubig @kmura 2時間ほど席を離れます.コーパスの詳細でわからないことはメールしてください.

2011-03-14 18:09:13
Koji Murakami @kmura

@masaoutiyama @rtokuhisa @inuikentaro @jmizuno @underspecified @yotarow @mhagiwara ありがとうございます!集めた情報に関してアクションの検討中です。決まり次第、お手伝いお願いするかと思います!

2011-03-15 10:13:27
Masato Hagiwara (萩原正人) @mhagiwara_ja

東日本大震災のためのデータマイニング・自然言語処理に関する情報にハッシュタグをつけたいのですが、何か良いアイデアはありますか?当面の主な目的は安否情報の抽出・解析・集約等です。

2011-03-15 10:28:36
Junta MIZUNO @jmizuno

@rtokuhisa @mhagiwara 単語区切りが分かりづらそうなので,#anpi_nlpでどうでしょうか?

2011-03-15 10:52:39
Masato Hagiwara (萩原正人) @mhagiwara_ja

#anpi_nlp いいですね。使わせていただきます! @jmizuno @rtokuhisa 単語区切りが分かりづらそうなので,#anpi_nlpでどうでしょうか

2011-03-15 11:04:09
Ryoko TOKUHISA / 徳久良子 @rtokuhisa

@kmura @jmizuno @mhagiwara @inuikentaro @underspecified @yotarow 先程、乾さんと電話で話しました。内容詳細は乾さんと萩原さんにメールしましたのでそちらをご覧ください。 #anpi_nlp

2011-03-15 11:57:05
masaoutiyama @masaoutiyama

@kmura @mhagiwara #anpi_nlp media wiki でしたら本日中に立ち上げられると思います。

2011-03-15 12:08:50
Masato Hagiwara (萩原正人) @mhagiwara_ja

.@masaoutiyama @kmura ありがとうございます!そこに #anpi_nlp 的な情報を集約させていただければと思います。

2011-03-15 12:14:18
Junta MIZUNO @jmizuno

#anpi_nlp NHK教育で流れている安否情報の音声って自動書き起こしできないのかな?漢字変換までやって間違えるとかえって混乱しそうだから,平仮名のままとか.

2011-03-15 13:58:15
Masato Hagiwara (萩原正人) @mhagiwara_ja

昨日の安否関連ツイートに人名・地名・組織名をタグ付けしたデータ、数は少ないですがあります。欲しい方は連絡ください #anpi_nlp

2011-03-15 16:58:07
Taiichi Hashimoto @taiichi84

@mhagiwara 安否ツイートダウンロードしました.私の手元にある固有表現抽出器で解析できます.抽出してほしい情報は人名,場所以外にありますか?

2011-03-15 17:07:51
Masato Hagiwara (萩原正人) @mhagiwara_ja

お、すごい!今のところ人名、場所だけで大丈夫です。ちなみに、その抽出器のタグは IREX の8種類とかですか? RT @taiichi84 安否ツイートダウンロードしました.私の手元にある固有表現抽出器で解析できます.抽出してほしい情報は人名,場所以外にありますか?

2011-03-15 17:10:21
Masato Hagiwara (萩原正人) @mhagiwara_ja

あ、それも。避難所の名前とかどれに分類されてるんだろう RT @kmura @taiichi84 Organizationかな

2011-03-15 17:11:00
Koji Murakami @kmura

@taiichi84 @mhagiwara いや、目的によるけど、避難所なんかも(今とは違うタスクだけど)とれると使える情報じゃないですかね

2011-03-15 17:11:17
Taiichi Hashimoto @taiichi84

@mhagiwara @kmura 拡張固有表現のモデルがあります.ノートなので,全部で6時間ぐらいかかると思います.組織名を追加して,解析をはじめます.たぶん,提供できるのは夜中かな. #anpi_nlp

2011-03-15 17:12:13
masaoutiyama @masaoutiyama

@kmura @mhagiwara #anpi_nlp media wiki のページを作成しました。 http://trans-aid.jp/ANPI_NLP/ 誰でもがアカウントを作成してファイルをアップロードできるようになっています。

2011-03-15 17:13:22
Koji Murakami @kmura

@masaoutiyama @mhagiwara #anpi_nlp 早速ありがとうございます!こちらで整えたデータなど、実体、リンクなど、共有できる情報を上げさせていただきます。

2011-03-15 17:22:50