NL研(@mamorukさんのつぶやき)

勝手につくらせていただきました(^^;)
0
Mamoru B Komachi @mamoruk

パネル討論始まり〜まず松本先生のパネル #signl200

2011-01-28 13:07:56
Mamoru B Komachi @mamoruk

手でルールを書いていた時代('80)から統計('90)へ、そして機械学習('00)へ。最近は同時学習、大域学習('10) #signl200

2011-01-28 13:09:48
Mamoru B Komachi @mamoruk

解決されていない問題。ウェブの拡大、文法的に正しい入力という仮定が満たされないので、形態素解析や構文解析もまだまだ終わっていない。形態素解析では未知語の問題。構文解析ではattachment(並列)の問題。#signl200

2011-01-28 13:11:40
Mamoru B Komachi @mamoruk

応用の観点からは形態素解析や構文解析を積み上げるのではなく一足飛びに意味解析ができないか? 述語項構造が大事。述語と述語の関係、つまり事象間関係(event chain)はスクリプトのリバイバル。実は昔は非常に高度なことをやっていた。#signl200

2011-01-28 13:13:16
Mamoru B Komachi @mamoruk

本当に必要なのは意味的類似性と意味的相違性。機械翻訳、自動校正、言語教育支援、質問応答、意見分類、etc... いろんな応用に使える。そのために必要な技術はなにか?#signl200

2011-01-28 13:15:13
Mamoru B Komachi @mamoruk

これからのNLPは規則と学習の棲み分けが必要。典型的には機械翻訳。パターンと統計の融合。制約付き機械学習モデルも提案されている。学習も大域素性、同時学習(形態素解析と統語解析とか)、半教師あり学習(大規模データの利用、転移学習)など。#signl200

2011-01-28 13:17:17
Mamoru B Komachi @mamoruk

JAIST島津先生、昔は電電公社で Lisp の処理系を作っていたらしい。#signl200

2011-01-28 13:21:17
Mamoru B Komachi @mamoruk

この10年の変化。言語処理学会とNL研に言語学者が来なくなった。昔はよくいらしていて、厳しいコメントをされたりしていた。互いに交流がなくなってしまった? 日本語の generator として次から次に例文を生成できる方がいた。コーパスだけでは生成できない(笑) #signl200

2011-01-28 13:23:21
Mamoru B Komachi @mamoruk

NLPのツール、コーパス、コンテストが整備されてきた。技術の普及、標準化。ウェブとかケータイに関わるNLPの需要の増加。国際会議も論文数も増えている。10年でワークショップの数が3倍に!#signl200

2011-01-28 13:24:58
Mamoru B Komachi @mamoruk

いろんなジャンルのテキストが使われるようになった。Opinion, Bio, Blog, Medical, Patent, ... 一般性も大事だが、個別のドメイン(分野)の知識も必要。知識の爆発(ウェブ)と細分化への対応。#signl200

2011-01-28 13:27:26
Mamoru B Komachi @mamoruk

若い人は「規則を人手で書くのは悪、自動化せよ」という人が多いが、本当にそれでいいのか?もっと人を使うような方向を考えたほうがよい!(いまは就職難で人が余っているから(笑))#signl200

2011-01-28 13:28:26
Mamoru B Komachi @mamoruk

若い人は成果を焦りすぎているのではないか。昔の自然言語処理の人たちがやっていたようなことを周辺分野の人たちがリバイバルしてやっていたりする。流行に流されずやることも重要。#signl200

2011-01-28 13:30:35
Mamoru B Komachi @mamoruk

社会システムや政策の設計やシミュレーションに数理科学的手法を適用するぺき。行政文書に言語処理。法令工学。法令は社会というシステムの仕様書。社会システムの首尾一貫性をチェックしたりする必要がある。#signl200

2011-01-28 13:35:16
Mamoru B Komachi @mamoruk

耳が痛いです…RT @ikkn: 以前はたまに見に行っていたけれど、自然言語処理の人たちの発表を聴いても言語を扱っているように見えなかったですから。機械学習しているだけで。 RT @mamoruk: この10年の変化。言語処理学会とNL研に言語学者が来なくなった#signl200

2011-01-28 13:36:57
Mamoru B Komachi @mamoruk

意味はカメラのズームレンズのようなもので、見たいドメインによって調整しないといけない。結論としてはみなさんがんばってください (笑) #signl200

2011-01-28 13:39:02
Mamoru B Komachi @mamoruk

3番手は中川先生のパネル。2009年までの4年間NL研の主査。#signl200

2011-01-28 13:39:53
Mamoru B Komachi @mamoruk

TermExtract をNL研のアブストラクトにかけてみた。この4年は「情報抽出」「翻訳」などのアプリケーションがトレンド。「質問応答システム」みたいなのは先細り。あと「評価」も大事。実は「機械学習」はNL研では重要ではない。#signl200

2011-01-28 13:46:29
Mamoru B Komachi @mamoruk

NL研関係のトップ会議 ACL, NAACL-HLT, COLING, SIGIR, WWW, KDD, ICML, NIPS, とあるが、NL研のレベルではほとんど通用しない。悲しい。どうしたらいいんだろうか。#signl200

2011-01-28 13:49:00
Mamoru B Komachi @mamoruk

NL研は最新の機械学習の技術が使えてない。日本からの貢献がない。日本のNLPがそもそも弱い。東大ですら機械学習の授業が存在しない。学生も基礎的なことを知らない。画像・パターン認識の分野では最新の機械学習に通中しているように見える(隣の芝は青く見える?) #signl200

2011-01-28 13:50:43
Mamoru B Komachi @mamoruk

日本の機械翻訳は数が多いだけで海外に通用しない。日本の機械翻訳のレベルは低い。外国からの知識獲得としての翻訳からビジネスツールとしての翻訳へと日本の翻訳が変わったことに対応しきれていない。日本語ローカルな研究をするための場所としてはNL研の存在意義はある。#signl200

2011-01-28 13:52:50
Mamoru B Komachi @mamoruk

トップ会議に通用するようなレベルの研究をNL研はできていない。実用化志向を目指す方向性はあるが、NL研はなぜかアカデミック志向。泥臭いことをやりたがらない。起業の人の参加が(言語処理学会と比べると?)少ない。NL研は内輪で閉じていて、社会性がない。#signl200

2011-01-28 13:54:48
Mamoru B Komachi @mamoruk

中川先生なので学習・検索寄りですね(^^;RT @zelchmixijp: Speech はでませんね。 @mamoruk NL研関係のトップ会議 ACL, NAACL-HLT, COLING, ... とあるが、NL研のレベルではほとんど通用しない。悲しい。#signl200

2011-01-28 13:55:35
Mamoru B Komachi @mamoruk

見落としている応用はないか? ウェブ、検索エンジン、インタフェース、(言語)教育支援、信憑性、ストリームテキスト、著作権、...。インタフェースの研究は可能性がある。第二外国語としての日本語教育、ビジネス語としての中国語教育など、教育も重要になるはず。#signl200

2011-01-28 13:57:17
Mamoru B Komachi @mamoruk

日本の大学はなかなかカリキュラムに柔軟性がないですからね〜 大学間の学生の移動もないのに。。。RT @Tzawa: まぁ海外では「機械翻訳」っていう授業があるぐらいだからな RT @mamoruk: 日本の機械翻訳は数が多いだけで海外に通用しない。日本の機械翻訳のレベルは低い。

2011-01-28 13:58:53