奈良先端未来開拓コロキウム: 自然言語処理の最前線

2011年9月21日に開催された奈良先端未来開拓コロキウム:自然言語処理の最前線のまとめです。
1
Tomohide Shibata @stomohide

明後日のパネル、何しゃべろうかなあ。 http://t.co/KaNQ4bTu

2011-09-19 15:59:58
Daisuke Okanohara / 岡野原 大輔 @hillbig

奈良先端未来開拓コロキアムはじまりました。ダヌシカさん(東大)、荒瀬さん(MSRA)、石野さん(広島市立大)、岡崎さん(東北大)、岡野原(PFI)、笹野さん(東工大)、柴田さん(京大)、小町さん(奈良先端大)の順で話します。#yans2011

2011-09-21 10:04:22
Daisuke Okanohara / 岡野原 大輔 @hillbig

ダヌシカさん:ドメイン適応、ある分野の学習データを他分野に適用する技術。評判分析の例:本では"素晴らしい"、"面白い"が+側の特徴として有効だが、台所製品では、"高性能", "プロフェッショナル"が有効で全然違う。特徴ベクトルの拡張で解決 #yans2011

2011-09-21 10:12:24
Daisuke Okanohara / 岡野原 大輔 @hillbig

荒瀬さん: HCIの研究から、MSRAに入ってNLPをするように。統計的機械翻訳の肝は質の高い大量対訳データ。大量のデータを集めて、それをクリーニングして質を高くすることに注力。集めたデータの47.6%にノイズ、主に非対訳、非文法的、一部分だけ対訳#yans2011

2011-09-21 10:19:28
Prof. Danushka Bollegala @Bollegala

open questions: handling OOV words, tone expressions, near-duplicate sentence detection #yans2011

2011-09-21 10:21:27
Daisuke Okanohara / 岡野原 大輔 @hillbig

フィルタリングは翻訳テーブル、文長、表記パターンのルール、品詞パターンで行う。今の課題は、抽出してきた文の質をどのように評価するか、文法評価、頻度、自然さをどう評価できるか(翻訳自体の評価が難しいのに似ていると思う)。#yans2011

2011-09-21 10:22:32
Prof. Danushka Bollegala @Bollegala

石野さんの発表です。広島市立大学D

2011-09-21 10:24:08
Yuki Arase (荒瀬 由紀) @Yuki_arase

石野さん、Twitterからの被災者の避難経路の抽出 #yans2011

2011-09-21 10:27:54
Prof. Danushka Bollegala @Bollegala

タグの周りの語をfeatureにCRFで学習。精度が高いがrecallが低いのが課題。 #yans2011

2011-09-21 10:28:09
Naoaki Okazaki @chokkanorg

旅行ブログマイニング/被災者の避難経路の抽出(石野さん): timeやfromなどのタグをCRFでタグ付け #yans2011

2011-09-21 10:28:13
Daisuke Okanohara / 岡野原 大輔 @hillbig

石野さん:旅行ブログエントリからの旅行者の行動経路抽出し、旅行本にかいていないようなお薦め行動経路をブログから抽出。場所(from, to)、経路(via)、移動手段(via)、移動時間(time)を文から抽出 twitterでの避難経路抽出も同じモデルで実現 #yans2011

2011-09-21 10:28:38
uchiumi kei @uchumik

再現率が低めなのは前後文脈を素性に使ってて, 学習事例が少ないせいで素性がスパースなためかな.

2011-09-21 10:28:44
Yuki Arase (荒瀬 由紀) @Yuki_arase

ブログからの旅行経路抽出手法をANPI NLPで収集したTweetに適用。いまは都市間移動くらいの粒度。もうちょっと細かい粒度で避難経路が取れると面白そう。#yans2011

2011-09-21 10:31:18
Yuki Arase (荒瀬 由紀) @Yuki_arase

経路抽出、gazetteerなんかの知識を入れたら上手くできないかな。以前GeotagがついたFlicker photoから旅行経路抽出をやっていたときも同じ問題に直面した。#yans2011

2011-09-21 10:34:52
Yuki Arase (荒瀬 由紀) @Yuki_arase

岡崎さん。震災の混乱は(Twitter上で)いまだ収束せず。Twitterによる情報流通スピードが速すぎ、人間が処理できる限界を越えている。差別、偏見、デマが広がる恐れ。#yans2011

2011-09-21 10:37:37
Daisuke Okanohara / 岡野原 大輔 @hillbig

岡崎さん:文書自動要約->生命・医学分野のテキストマイニング。震災のため、4月は被害があった建物からの引越しなどあったが、今は震災前の状態に戻る。しかしネットでは混乱は収束せず。背景に、情報化社会、高度に専門化された社会があり、誤った情報の拡散が頻出 #yans2011

2011-09-21 10:38:59
Daisuke Okanohara / 岡野原 大輔 @hillbig

エンティティの知識、エンティティ間の関係知識、含意、因果関係知識の技術を組合せることで知識の自動獲得と、論理構造の分析を実現したい。NLPは、統計的手法による成熟、テキストデータからの知識の自動獲得、自動獲得した知識を有効活用とながれてきている #yans2011

2011-09-21 10:41:12
uchiumi kei @uchumik

知識を獲得したソースの信頼性などは別途判別するのかな。

2011-09-21 10:41:24
Naoaki Okazaki @chokkanorg

PFI岡野原さん: NLPの利用例: 検索エンジン,文書レコメンド,キーワード抽出(重要文,フレーズ抽出),チャンキング(情報抽出),データマイニング(クエリログ,ウェブログ分析,SNS分析),フィルタリング(規約違反の投稿監視など)#yans2011

2011-09-21 10:46:04
Yuki Arase (荒瀬 由紀) @Yuki_arase

岡野原さん、開発と研究のギャップ:研究では問題設定が型にはまりすぎている(データは与えられたもののみ、入力と出力が固定)、研究しやすいものを研究している場合も多い(評価できるもののみ、既存手法のあるもののみ、ベースラインがあるもののみ、評価しやすいもの) #yans2011

2011-09-21 10:48:13