言語処理屋さんが連携していく様子その2
RT @mhagiwara: #anpi_nlp が 記事になりました 「Twitterなどの安否情報を「Google Person Finder」に、研究者がプロジェクト開始」 http://bit.ly/f24e6i
2011-03-16 21:15:19RT @fuba: とりあえず #anpi_nlp 用の UI 作りました http://dl.dropbox.com/u/336399/anpi_annotation.html
2011-03-16 21:16:58@niam 手順のたたき台です。よろしければどうぞ。1) 簡単なテキストフィルタ 2) 単語分割, POS&NE-tag, 3)情報(文)の分類, 4) 安否などの極性判別(?), 5) 集計, 6) 元の情報源(文?)へのリンクがある表。でしょうか。 #anpi_nlp
2011-03-16 21:17:13RT @zelchmixijp: @niam 手順のたたき台です。よろしければどうぞ。1) 簡単なテキストフィルタ 2) 単語分割, POS&NE-tag, 3)情報(文)の分類, 4) 安否などの極性判別(?), 5) 集計, 6) 元の情報源(文?)へのリンクがある表。でしょうか。 #anpi_nlp
2011-03-16 21:22:35部外者ですが <org>石巻赤十字病院</org>麻酔科 か <loc>石巻</loc><org>赤十字病院</org>麻酔科 じゃないかと.麻酔科は<org>の<division>かな? RT @issei_sato: 「石巻赤十字病院麻酔科」は 組織? #anpi_nlp
2011-03-16 21:23:43@kow_k @issei_sato 今回は、<division>タグはなくて、<organization>タグだけなので、僕は、<organization>石巻赤十字病院麻酔科</organization>としてしまっています。 #anpi_nlp
2011-03-16 21:31:13整形して訓練データっぽくしてみました. 適合率は高いものの再現率はかなり低い感じですね http://bit.ly/hs4eZD QT @hjtakamura #anpi_nlp ここから自動的に訓練データ作れないんだろうか? … http://anpi.tv/entry
2011-03-16 21:31:18person typeって「<person type="M">A</person>さんを探しています。<person type="I">B</person>より」のように書くのですね。探しているということでtype="S"にしちゃってたので変更しておこう。 #anpi_nlp
2011-03-16 21:32:31RT @naltoma: person typeって「<person type="M">A</person>さんを探しています。<person type="I">B</person>より」のように書くのですね。探しているということでtype="S"にしちゃってたので変更しておこう。 #anpi_nlp
2011-03-16 21:33:50おっと、さらに【「〇〇さんを探しています。××より」→ML】とあるので、そもそも「××」さんについてもタグを付ける必要があるのか。 #anpi_nlp
2011-03-16 21:37:17このファイル(http://bit.ly/hs4eZD)、文字コードはutf8で、①anpiレポートから取ってきた情報、②関連するツイート、③前者を後者に反映させたもの(名前と地名を付与、安否情報タグはanpiレポートのもの)の3つ組になってます #anpi_nlp
2011-03-16 21:39:52「山田太郎、花子を探しています。」の場合は、「<person type="M">山田太郎</person>、<person type="M">花子</person>」でしょうか…?両方にtype="M"を書かないとだめ? #anpi_nlp
2011-03-16 21:41:18可能なら「<person type="M">\(山田\)太郎</person>、<person type="M">\1花子</person>」みたいに参照も必要かも @niam: 「山田太郎、花子を探しています。」の場合は… #anpi_nlp
2011-03-16 21:46:35RT @mhagiwara: #anpi_nlp が 記事になりました 「Twitterなどの安否情報を「Google Person Finder」に、研究者がプロジェクト開始」 http://bit.ly/f24e6i
2011-03-16 21:47:22#anpi_nlp 安否ハッシュタグが付いていないけど、安否情報持っていそうなtweetを集めました。今分類中で、ファイル拡大中: http://www.lr.pi.titech.ac.jp/~takamura/pubs/tweet.classified.tsv
2011-03-16 21:52:00RT @niam: 自然言語処理(NLPer)の方へ:みんなで安否情報ツイートにタグづけています。僕もやっています。専門家として、東北関東大震災に貢献できる貴重な機械ですので、ぜひ参加しましょう。 http://trans-aid.jp/ANPI_NLP/ ハッシュタグは #anpi_nlp です
2011-03-16 21:52:24@kow_k @niam 僕はそういった場合,<P>山田太郎</P><P>山田花子</P>という風に「山田」を追加してしまうのが楽かなと思いそうしているのですが,どうでしょう? #anpi_nlp
2011-03-16 21:52:38細かく考えると悩ましくて type 付け難いケースがどうしても出てくるな。良く分からない場合にはtype無しにするか。(e.g., 被災を受けていないAの家族について、友人らしいBが「Aさん(フルネーム)の家族」と書いているときの「Aさん」のtype。) #anpi_nlp
2011-03-16 21:53:58安否情報関連ツイートコーパスと同じ形式で、一応最後のSVMのスコアを加えてあります。手持ちのデータの解析が終わったらgzipかけます。言っていただければ出力フォーマット変えられます。元のtweetに入っている情報はすべて出力可能です。#anpi_nlp
2011-03-16 21:55:31編集が可なら,それでもいいです @kakenman @niam 僕はそういった場合…「山田」を追加してしまうのが楽かなと思いそうしている… #anpi_nlp
2011-03-16 21:55:32#anpi_nlp すばらしい〜! 元データが大きくなってくれれば使えるかも。 RT @cacaho 整形して訓練データっぽく・・・
2011-03-16 21:58:02安否情報関連ツイートコーパスから正しそうなものを抜き出し正例とし、地震が起こる前のデータを負例として学習しました。食わせたデータは、うちでとっていたデータですが、停電その他の理由により、全部でない。そもそもAPIで全体の15%だけ。そこを解決すれば被覆率上がる。#anpi_nlp
2011-03-16 22:02:50@kakenman @kow_k うーん、元のテキストを編集するのは、ちょっとまずいような…実データでは、奥さんは名前だけで「山田」が削られていることが大半です。今回は実用が目的なので、綺麗になっていない元のテキストに適応できてくれないと困るのでは。 #anpi_nlp
2011-03-16 22:03:10