奈良先端未来開拓コロキウム: 自然言語処理の最前線
奈良先端未来開拓コロキアムはじまりました。ダヌシカさん(東大)、荒瀬さん(MSRA)、石野さん(広島市立大)、岡崎さん(東北大)、岡野原(PFI)、笹野さん(東工大)、柴田さん(京大)、小町さん(奈良先端大)の順で話します。#yans2011
2011-09-21 10:04:22ダヌシカさん:ドメイン適応、ある分野の学習データを他分野に適用する技術。評判分析の例:本では"素晴らしい"、"面白い"が+側の特徴として有効だが、台所製品では、"高性能", "プロフェッショナル"が有効で全然違う。特徴ベクトルの拡張で解決 #yans2011
2011-09-21 10:12:24荒瀬さん: HCIの研究から、MSRAに入ってNLPをするように。統計的機械翻訳の肝は質の高い大量の対訳データ。大量のデータを集めて、それをクリーニングして質を高くすることに注力。集めたデータの47.6%にノイズ、主に非対訳、非文法的、一部分だけ対訳。#yans2011
2011-09-21 10:19:28open questions: handling OOV words, tone expressions, near-duplicate sentence detection #yans2011
2011-09-21 10:21:27フィルタリングは翻訳テーブル、文長、表記パターンのルール、品詞パターンで行う。今の課題は、抽出してきた文の質をどのように評価するか、文法評価、頻度、自然さをどう評価できるか(翻訳自体の評価が難しいのに似ていると思う)。#yans2011
2011-09-21 10:22:32タグの周りの語をfeatureにCRFで学習。精度が高いがrecallが低いのが課題。 #yans2011
2011-09-21 10:28:09旅行ブログマイニング/被災者の避難経路の抽出(石野さん): timeやfromなどのタグをCRFでタグ付け #yans2011
2011-09-21 10:28:13石野さん:旅行ブログエントリからの旅行者の行動経路抽出し、旅行本にかいていないようなお薦め行動経路をブログから抽出。場所(from, to)、経路(via)、移動手段(via)、移動時間(time)を文から抽出 twitterでの避難経路抽出も同じモデルで実現 #yans2011
2011-09-21 10:28:38ブログからの旅行経路抽出手法をANPI NLPで収集したTweetに適用。いまは都市間移動くらいの粒度。もうちょっと細かい粒度で避難経路が取れると面白そう。#yans2011
2011-09-21 10:31:18経路抽出、gazetteerなんかの知識を入れたら上手くできないかな。以前GeotagがついたFlicker photoから旅行経路抽出をやっていたときも同じ問題に直面した。#yans2011
2011-09-21 10:34:52岡崎さん。震災の混乱は(Twitter上で)いまだ収束せず。Twitterによる情報流通スピードが速すぎ、人間が処理できる限界を越えている。差別、偏見、デマが広がる恐れ。#yans2011
2011-09-21 10:37:37岡崎さん:文書自動要約->生命・医学分野のテキストマイニング。震災のため、4月は被害があった建物からの引越しなどあったが、今は震災前の状態に戻る。しかしネットでは混乱は収束せず。背景に、情報化社会、高度に専門化された社会があり、誤った情報の拡散が頻出 #yans2011
2011-09-21 10:38:59エンティティの知識、エンティティ間の関係知識、含意、因果関係知識の技術を組合せることで知識の自動獲得と、論理構造の分析を実現したい。NLPは、統計的手法による成熟、テキストデータからの知識の自動獲得、自動獲得した知識を有効活用とながれてきている #yans2011
2011-09-21 10:41:12PFI岡野原さん: NLPの利用例: 検索エンジン,文書レコメンド,キーワード抽出(重要文,フレーズ抽出),チャンキング(情報抽出),データマイニング(クエリログ,ウェブログ分析,SNS分析),フィルタリング(規約違反の投稿監視など)#yans2011
2011-09-21 10:46:04岡野原さん、開発と研究のギャップ:研究では問題設定が型にはまりすぎている(データは与えられたもののみ、入力と出力が固定)、研究しやすいものを研究している場合も多い(評価できるもののみ、既存手法のあるもののみ、ベースラインがあるもののみ、評価しやすいもの) #yans2011
2011-09-21 10:48:13