言語処理屋さんが連携していく様子その2

「現在、東北関東大震災に関して様々なところで種々の情報が飛び交っています。その中でも、特に被災された方々の安否情報は最も重要な情報であり、できるだけ正確な情報を大量に整理する必要があります。しかしながら実際は情報は大量でかつ様々なところに分散して存在しているために探しにくいだけでなく(略)」ということで多くの専門家が協力し、必要な言語資源を重複すること無く構築する試みが行われています。 進展の様子がハッシュタグ #anpi_nlp として進んでいますが、その記録として現時点までの全ツイートを残しておきます。 関連1: プロジェクトとして動き出すまでの様子 http://togetter.com/li/111529 続きを読む
1
前へ 1 ・・ 21 22 次へ
'//, Yohsuke @yohsuke_furuta

RT @mhagiwara: #anpi_nlp が 記事になりました 「Twitterなどの安否情報を「Google Person Finder」に、研究者がプロジェクト開始」 http://bit.ly/f24e6i

2011-03-16 21:15:19
Zelch @zzzelch

@niam 手順のたたき台です。よろしければどうぞ。1) 簡単なテキストフィルタ 2) 単語分割, POS&NE-tag, 3)情報(文)の分類, 4) 安否などの極性判別(?), 5) 集計, 6) 元の情報源(文?)へのリンクがある表。でしょうか。 #anpi_nlp

2011-03-16 21:17:13
イルカ人間 @niam

RT @zelchmixijp: @niam 手順のたたき台です。よろしければどうぞ。1) 簡単なテキストフィルタ 2) 単語分割, POS&NE-tag, 3)情報(文)の分類, 4) 安否などの極性判別(?), 5) 集計, 6) 元の情報源(文?)へのリンクがある表。でしょうか。 #anpi_nlp

2011-03-16 21:22:35
Kow KURODA @kow_k

部外者ですが <org>石巻赤十字病院</org>麻酔科 か <loc>石巻</loc><org>赤十字病院</org>麻酔科 じゃないかと.麻酔科は<org>の<division>かな? RT @issei_sato: 「石巻赤十字病院麻酔科」は 組織? #anpi_nlp

2011-03-16 21:23:43
宇佐美ゆう @yusmi

mod 100 = 19 の614文のアノテーション終わりました。最後がLタグで救われた気分に... #anpi_nlp

2011-03-16 21:24:32
宇佐美ゆう @yusmi

自宅に着き次第、作業完了分をupします #anpi_nlp

2011-03-16 21:26:14
イルカ人間 @niam

@kow_k @issei_sato 今回は、<division>タグはなくて、<organization>タグだけなので、僕は、<organization>石巻赤十字病院麻酔科</organization>としてしまっています。 #anpi_nlp

2011-03-16 21:31:13
Ryohei Sasano @cacaho

整形して訓練データっぽくしてみました. 適合率は高いものの再現率はかなり低い感じですね http://bit.ly/hs4eZD QT @hjtakamura #anpi_nlp ここから自動的に訓練データ作れないんだろうか? … http://anpi.tv/entry

2011-03-16 21:31:18
Naruaki TOMA 温泉旅行... @naltoma

person typeって「<person type="M">A</person>さんを探しています。<person type="I">B</person>より」のように書くのですね。探しているということでtype="S"にしちゃってたので変更しておこう。 #anpi_nlp

2011-03-16 21:32:31
イルカ人間 @niam

RT @naltoma: person typeって「<person type="M">A</person>さんを探しています。<person type="I">B</person>より」のように書くのですね。探しているということでtype="S"にしちゃってたので変更しておこう。 #anpi_nlp

2011-03-16 21:33:50
Naruaki TOMA 温泉旅行... @naltoma

おっと、さらに【「〇〇さんを探しています。××より」→ML】とあるので、そもそも「××」さんについてもタグを付ける必要があるのか。 #anpi_nlp

2011-03-16 21:37:17
Ryohei Sasano @cacaho

このファイル(http://bit.ly/hs4eZD)、文字コードはutf8で、①anpiレポートから取ってきた情報、②関連するツイート、③前者を後者に反映させたもの(名前と地名を付与、安否情報タグはanpiレポートのもの)の3つ組になってます #anpi_nlp

2011-03-16 21:39:52
イルカ人間 @niam

「山田太郎、花子を探しています。」の場合は、「<person type="M">山田太郎</person>、<person type="M">花子</person>」でしょうか…?両方にtype="M"を書かないとだめ? #anpi_nlp

2011-03-16 21:41:18
Kow KURODA @kow_k

可能なら「<person type="M">\(山田\)太郎</person>、<person type="M">\1花子</person>」みたいに参照も必要かも @niam: 「山田太郎、花子を探しています。」の場合は… #anpi_nlp

2011-03-16 21:46:35
hatthin @hatthin

RT @mhagiwara: #anpi_nlp が 記事になりました 「Twitterなどの安否情報を「Google Person Finder」に、研究者がプロジェクト開始」 http://bit.ly/f24e6i

2011-03-16 21:47:22
Hiroya J. Takamura @hjtakamura

#anpi_nlp 安否ハッシュタグが付いていないけど、安否情報持っていそうなtweetを集めました。今分類中で、ファイル拡大中: http://www.lr.pi.titech.ac.jp/~takamura/pubs/tweet.classified.tsv

2011-03-16 21:52:00
じゅん @jun617

RT @niam: 自然言語処理(NLPer)の方へ:みんなで安否情報ツイートにタグづけています。僕もやっています。専門家として、東北関東大震災に貢献できる貴重な機械ですので、ぜひ参加しましょう。 http://trans-aid.jp/ANPI_NLP/ ハッシュタグは #anpi_nlp です

2011-03-16 21:52:24
清水信哉/Elephantech/Climate Tech @shinyashimizu_j

@kow_k @niam 僕はそういった場合,<P>山田太郎</P><P>山田花子</P>という風に「山田」を追加してしまうのが楽かなと思いそうしているのですが,どうでしょう? #anpi_nlp

2011-03-16 21:52:38
Naruaki TOMA 温泉旅行... @naltoma

細かく考えると悩ましくて type 付け難いケースがどうしても出てくるな。良く分からない場合にはtype無しにするか。(e.g., 被災を受けていないAの家族について、友人らしいBが「Aさん(フルネーム)の家族」と書いているときの「Aさん」のtype。) #anpi_nlp

2011-03-16 21:53:58
Hiroya J. Takamura @hjtakamura

安否情報関連ツイートコーパスと同じ形式で、一応最後のSVMのスコアを加えてあります。手持ちのデータの解析が終わったらgzipかけます。言っていただければ出力フォーマット変えられます。元のtweetに入っている情報はすべて出力可能です。#anpi_nlp

2011-03-16 21:55:31
Kow KURODA @kow_k

編集が可なら,それでもいいです @kakenman @niam 僕はそういった場合…「山田」を追加してしまうのが楽かなと思いそうしている… #anpi_nlp

2011-03-16 21:55:32
Hiroya J. Takamura @hjtakamura

#anpi_nlp すばらしい〜! 元データが大きくなってくれれば使えるかも。 RT @cacaho 整形して訓練データっぽく・・・

2011-03-16 21:58:02
Hiroya J. Takamura @hjtakamura

安否情報関連ツイートコーパスから正しそうなものを抜き出し正例とし、地震が起こる前のデータを負例として学習しました。食わせたデータは、うちでとっていたデータですが、停電その他の理由により、全部でない。そもそもAPIで全体の15%だけ。そこを解決すれば被覆率上がる。#anpi_nlp

2011-03-16 22:02:50
イルカ人間 @niam

@kakenman @kow_k うーん、元のテキストを編集するのは、ちょっとまずいような…実データでは、奥さんは名前だけで「山田」が削られていることが大半です。今回は実用が目的なので、綺麗になっていない元のテキストに適応できてくれないと困るのでは。 #anpi_nlp

2011-03-16 22:03:10
前へ 1 ・・ 21 22 次へ