係り受け解析に文節の概念は必要か否か?

.@zzzelch さんと @taku910 さんの長〜い議論もようやく収束してきたのでまとめます.
17
Zelch @zzzelch

繰り返しになるが、BCCWJ&UniDicは相当の一貫性をもって単語(短単位)を定義しているよ。KyTea の分割精度は99.7%です。文節の係り受けでは多くの場合不十分というのには同意? @taku910 ry) 単語係り受けは単語定義が決まらないと決まりませんが、(ry

2011-07-20 22:07:00
Zelch @zzzelch

文節係り受けのCaboChaは、文節内を単語(形態素)列として扱っているはず。単語の定義が信頼できん、あるいは不要というなら、文節内を文字列としてのみ参照する係り受け解析をやってみるべきではなかろうか。

2011-07-20 22:10:10
Zelch @zzzelch

ま、この多くの場合というのは曲者ではある。が、( 日本 ( 歯科 医師 ) 連盟 ) を「日歯連」と略して、「医」を入れない(他の3つより省略されやすい)のは、単語の係り受けで説明できる。@zzzelch 文節の係り受けでは多くの場合不十分というのには同意?

2011-07-20 22:19:13
Zelch @zzzelch

【緩募】 ということで、単語単位の係り受けがついた日経新聞にある複合語から略称を生成するお客さん、もしくはアルバイト。もちろん、仮名漢字変換や音声認識の未知語処理精度が上がるというところもOK。

2011-07-20 22:23:26
Zelch @zzzelch

しかし、いずれにせよ、より有用なのは単語(の定義)であって、文節(の定義)ではないでしょう。検索でも、仮名漢字変換でも、音声認識でも、音声合成でも、好きな言語処理に「でも」つけて続けてくれ。@zzzelch あるいは、単に単語の定義より文節のそれのほうが安定だと?

2011-07-20 22:29:08
Zelch @zzzelch

半分くらい同意。「を」の係り先を決めるのに、左側の単語列が"*+「を」+動詞+*"にマッチするかや"*+「を」+*"にマッチするかは効くかも。@taku910 単語係り受けを高精度にかつ高速にするには、文節という制約がいい素性を抽出し探索空間を狭めるのに役に立つということです。

2011-07-20 22:40:50
Manabu Sassano @sassano

@zzzelch 趣旨と違うかもしれませんが、文節の文字列だけを使う係り受け解析は前にやってみました。素性は文字1-gramと2-gramだけ。形態素区切りがなくても、品詞がなくても、それなりの精度は出ました。 http://t.co/85CnIC7

2011-07-20 22:42:12
Zelch @zzzelch

あくまでも、分野適応性のために、点予測を可能にしようとして、構造は参照しない。@zzzelch 半分くらい同意。「を」の係り先を決めるのに、左側の単語列が"*+「を」+動詞+*"にマッチするかや"*+「を」+*"にマッチするかは効くかも。

2011-07-20 22:43:08
Zelch @zzzelch

あ、ありましたか。面白いと思います。単語分割位置や品詞は、それ自体文字列から推定されているので、それほど精度を向上させないってことですよね。単語係り受けでも、単語の部分文字列は効くのだろうか。@sassano 文節の文字列だけを使う係り受け解析は前にやってみました。ry)

2011-07-20 22:47:16
Zelch @zzzelch

文節内を確率的に単語分割したり、確率的に品詞付与して精度が上がるか知りたいです。文字{1,2,..n}-gramの場合と、決定的単語分割&品詞推定との場合との比較で。@sassano 文節の文字列だけを使う係り受け解析は前にやってみました。ry)

2011-07-20 22:50:19
Zelch @zzzelch

@sassano ちなみに、この論文での文節分割は、人手ですか、推定ですか。文字列からの文節分解って、ルールは書きにくそうだと思えるのです。とすると、分類器ですかね。

2011-07-20 22:51:49
Zelch @zzzelch

逆も可能かな。つまり、「日歯連」と「日本歯科医師連盟」から ( 日本 ( 歯科 医師 ) 連盟 ) を吐く。@zzzelch ( 日本 ( 歯科 医師 ) 連盟 ) を「日歯連」と略して、「医」を入れない(他の3つより省略されやすい)のは、単語の係り受けで説明できる。

2011-07-20 23:01:40
Zelch @zzzelch

今読んだが、なんと言っていいか難しいね。全国大会だからしょうがないけど、実験部分の拡大が望まれますね。主張に実験がついていってないということですか。@murawaki @taku910 @combinational http://t.co/kR8Yegl

2011-07-20 23:17:54
Taku Kudo @taku910

@zzzelch IMEをやって文節の難しさと有用さに毒されたので、もしかしたら文節のほうがいいかもしれないです。一般人には文節分割のほうがはるかに簡単なタスクですし。前にも言いましたが、文節単位の言語モデルでIME作りたいぐらい。

2011-07-20 23:40:01
Taku Kudo @taku910

@murawaki @zzzelch @combinational 全く覚えていない。その時と主張が変わってるかもしれないしw

2011-07-20 23:41:07
Taku Kudo @taku910

@zzzelch 短単位で分割そのものが簡単になるので別に驚かないです。(MeCabでも99.7%です)。それはおいといて、わたしの周りでは単語係り受けが必要となるようなタスクはないですね... IMEでもいらないし。

2011-07-20 23:45:58
Zelch @zzzelch

読ませていただきます。文節区切りは、別に解くということですね。@sassano 実験には、京大コーパスの文節区切りを使いました。形態素区切りや品詞情報を使わない係り受け解析と、使うものとを比較しています。

2011-07-20 23:48:57
Zelch @zzzelch

まずは、係り受けが必要となるタスクがあるかと問う。単語となれば、たとえば、Tree-to-String (or Tree) MT ですかね。他に、文内要約やら。@taku910 ry) わたしの周りでは単語係り受けが必要となるようなタスクはないですね... IMEでもいらないし。

2011-07-20 23:51:33
Zelch @zzzelch

文節の難しさって何ですか。IME には単語程度の粒度は必要でしょう。文節からいきなり単漢では、推敲時につらいよ。@taku910 IMEをやって文節の難しさと有用さに毒されたので、(ry) 文節単位の言語モデルでIME作りたいぐらい。

2011-07-20 23:53:51
Taku Kudo @taku910

@zzzelch 文節は[自立語+付属語列]が単位ですが、この付属語列いわゆる機能表現がだらだら続くのが、3-gramで扱えない現象を増やし、機械翻訳をめんどうにしています。とてもradicalですが、機能表現はいっそ1語でいいのではないかと。

2011-07-20 23:54:00
Taku Kudo @taku910

@zzzelch もちろん機能表現がスパースになりますが、これはhttp://t.co/xbv4sI1 のようにメタなカテゴリーにマッピングするのが現実的には使いやすい。

2011-07-20 23:55:46
Zelch @zzzelch

品詞細分類を捨てるというのには大賛成。品詞も捨てたいが、いまのところ自動分類より単語係り受け精度が上がる。品詞やめて、単語内も含め文字係り受けで統一というのもある。 @murawaki @taku910 @combinational http://t.co/kR8Yegl

2011-07-20 23:57:19
Taku Kudo @taku910

@zzzelch SMTでも現状の単語の単位がいいかどうか謎です。少なくともIPA品詞体型は英語の粒度より細かすぎてアラインメントが...

2011-07-20 23:59:37
Zelch @zzzelch

昨日はその機能表現の定義で悩んでましたよ。私というよりは、つつじ http://t.co/ogwd6LB の人が。機能表現は、内部の係り受けが閉じているのかというのが私の質問でして。 @taku910 機能表現はいっそ1語でいいのではないかと。

2011-07-20 23:59:57
Zelch @zzzelch

ううん、その定義、やっぱり文節の定義は単語の定義によりませんか。「緑の党」が1単語か否かで、「緑の党は」の文節数が決まるような。単語内に文節境界あってもいいといえば、事情は違うが、それこそ問題を複雑にする。@taku910 文節は[自立語+付属語列]が単位ですが、

2011-07-21 00:05:07