言語処理屋さんが連携していく様子
.@neubig あと、KyTea 人名・地名モデルのタグで「人名・姓」と「人名・性」というのが両方出ますが、後者は誤植だと思われます。
2011-03-14 16:37:32今のところ、被災者人名の形態素解析には KyTea の人名・地名モデルが良さげ。(<人名・姓>+)?<人名・名>+ のパターンで NE Tagger をトレーニングしなくてもかなりの再現率で人名を抽出できる。
2011-03-14 17:01:43. @mhagiwara 指摘していただいた誤植を直し、東北の人名と@kmura さんにもらった地名データも追加しました: http://bit.ly/fn9i3Z
2011-03-14 17:29:47すごい、仕事早い!直ってますね。ありがとうございます!RT @neubig @mhagiwara 指摘していただいた誤植を直し、東北の人名と@kmura さんにもらった地名データも追加しました: http://bit.ly/fn9i3Z
2011-03-14 17:36:41@mhagiwara @neubig @kmura コーパスの提供のOKが出ました.@kmura さんに提供方法をメールしています.
2011-03-14 18:07:54@mhagiwara @neubig @kmura 2時間ほど席を離れます.コーパスの詳細でわからないことはメールしてください.
2011-03-14 18:09:13@masaoutiyama @rtokuhisa @inuikentaro @jmizuno @underspecified @yotarow @mhagiwara ありがとうございます!集めた情報に関してアクションの検討中です。決まり次第、お手伝いお願いするかと思います!
2011-03-15 10:13:27東日本大震災のためのデータマイニング・自然言語処理に関する情報にハッシュタグをつけたいのですが、何か良いアイデアはありますか?当面の主な目的は安否情報の抽出・解析・集約等です。
2011-03-15 10:28:36@jmizuno @mhagiwara @rtokuhisa @inuikentaro @underspecified @yotarow Rawデータくれればどんどん追加できます。
2011-03-15 10:54:24#anpi_nlp いいですね。使わせていただきます! @jmizuno @rtokuhisa 単語区切りが分かりづらそうなので,#anpi_nlpでどうでしょうか?
2011-03-15 11:04:09@kmura @jmizuno @mhagiwara @inuikentaro @underspecified @yotarow 先程、乾さんと電話で話しました。内容詳細は乾さんと萩原さんにメールしましたのでそちらをご覧ください。 #anpi_nlp
2011-03-15 11:57:05@kmura @mhagiwara #anpi_nlp media wiki でしたら本日中に立ち上げられると思います。
2011-03-15 12:08:50.@masaoutiyama @kmura ありがとうございます!そこに #anpi_nlp 的な情報を集約させていただければと思います。
2011-03-15 12:14:18#anpi_nlp NHK教育で流れている安否情報の音声って自動書き起こしできないのかな?漢字変換までやって間違えるとかえって混乱しそうだから,平仮名のままとか.
2011-03-15 13:58:15昨日の安否関連ツイートに人名・地名・組織名をタグ付けしたデータ、数は少ないですがあります。欲しい方は連絡ください #anpi_nlp
2011-03-15 16:58:07@mhagiwara 安否ツイートダウンロードしました.私の手元にある固有表現抽出器で解析できます.抽出してほしい情報は人名,場所以外にありますか?
2011-03-15 17:07:51お、すごい!今のところ人名、場所だけで大丈夫です。ちなみに、その抽出器のタグは IREX の8種類とかですか? RT @taiichi84 安否ツイートダウンロードしました.私の手元にある固有表現抽出器で解析できます.抽出してほしい情報は人名,場所以外にありますか?
2011-03-15 17:10:21あ、それも。避難所の名前とかどれに分類されてるんだろう RT @kmura @taiichi84 Organizationかな
2011-03-15 17:11:00@taiichi84 @mhagiwara いや、目的によるけど、避難所なんかも(今とは違うタスクだけど)とれると使える情報じゃないですかね
2011-03-15 17:11:17@mhagiwara @kmura 拡張固有表現のモデルがあります.ノートなので,全部で6時間ぐらいかかると思います.組織名を追加して,解析をはじめます.たぶん,提供できるのは夜中かな. #anpi_nlp
2011-03-15 17:12:13@kmura @mhagiwara #anpi_nlp media wiki のページを作成しました。 http://trans-aid.jp/ANPI_NLP/ 誰でもがアカウントを作成してファイルをアップロードできるようになっています。
2011-03-15 17:13:22@masaoutiyama @mhagiwara #anpi_nlp 早速ありがとうございます!こちらで整えたデータなど、実体、リンクなど、共有できる情報を上げさせていただきます。
2011-03-15 17:22:50