係り受け解析に文節の概念は必要か否か？ (5ページ目)

Good Job (上から目線 -_-) でした。確か(Google) ＩＭＥの文節は、係り受けの文節とは違ったはずとの記憶だけがあった。ＩＭＥ文節と呼ぶのがよさそうですね。@neubig ああ、ネーミングが紛らわしかったですけど、その記事における「IME文節」は(ry

2011-07-21 11:59:45

Taku Kudo @taku910

@zzzelch IMEの文節と係り受けの文節は名詞句の扱いだけでその定義は単語区切りの曖昧性とほぼ同等であるため、本質的には同じだと思います。IMEの文節はUXからの制約で決まるところもあるので言語の話と一概に言い切れません。(名詞をまとめると望んだ結果がでない可能性がある)

2011-07-21 18:41:57

Taku Kudo @taku910

@zzzelch Mozcの場合、高頻度の名詞句を単語化しているので、ある状況では学校文法のような文節になります。

2011-07-21 18:43:57

Zelch @zzzelch

@taku910 IME文節が係り受け文節とほぼ同等だとして、それらが単語係り受けの議論とどういう関係があるのでしょう。また、学校文法文節と、IME文節や係り受け文節との差異はどうなんですか。実は、文節の定義が曖昧なのでは。どれかひとつの確実な定義の文節で議論してはどうでしょう。

2011-07-21 18:56:46

Zelch @zzzelch

文節の定義を与えなくて良くなるだけでも、単純化だと思えるのですよねぇ。単語の定義を与えるのも容易ではないですが、国語研がいい仕事をしてくれているし。

2011-07-21 19:00:01

Zelch @zzzelch

単語（短単位）の定義を知りたければ、"『現代日本語書き言葉均衡コーパス』形態論情報規程集", 小椋ほか, 独立行政法人国立国語研究所, 2008. をどうぞ。文節の定義が知りたい。そいつが、単語の定義を参照してなければ、別の単純化があるね。

2011-07-21 19:05:46

Zelch @zzzelch

単語の定義を参照しない文節の定義があって、その係り受けを考えるなら、そりゃ文字列の係り受けってことで、単語（文字列）係り受けと本質的に同じですぜ。それなら単純化ですね。違うのは、文字列の定義だけ。文字列の定義の記述長が気になる貴兄は、文字係り受けか、教師なし単語分割をどうぞ。

2011-07-21 19:13:45

Taku Kudo @taku910

@zzzelch その2つは違うとおっしゃっていたので、誤解のないように補足しただけです。

2011-07-21 19:51:03

Zelch @zzzelch

@taku910 いやいや、私が尋ねていた。答えるまえに @neubig さんが http://t.co/K0PZdrj を教えてくれた。RT @zzzelch @taku910 で、もう一つ質問。ＩＭＥの文節と係り受け解析（CaboCha）の文節は（本質的に？）同じなんですか？

2011-07-21 20:19:44

Taku Kudo @taku910

@zzzelch アノテーションの立場だと定義が重要になるのは分かります。話がかみ合っていないのはアノテーションを目指していることを私が理解していないからです。私はそんな難しいことを言いたいのではなくて、単語に盲目的に固執してしまうと、本質を見失うおそれがあることです。

2011-07-21 20:42:12

Taku Kudo @taku910

@zzzelch 例えば、n-gramは単語単位によって扱える言語現象の幅が変わります。短単位だと不利です。単語単位を機械的に固定し、SMTに放り込んで上手くいかないーみたいな本質を見ない研究はやってほしくない。検証は必要ですがIMEだと文節レベルが本質かなと思っているだけです。

2011-07-21 20:52:06

Taku Kudo @taku910

@zzzelch IMEのN文節最長一致は、文節文法を使うだけの単純な手法ですが、今でも現役で使われているぐらい有効な手法です。Nは文節レベルのN-gramに相当しますが単に最長一致です。これも文節という単位の有効性を示すいい例かと思います。

2011-07-21 21:00:02

Zelch @zzzelch

ご忠告ありがとう。でもまあ、文節の定義を明確にしてほしいね。単語列が有効というのは同意するよ。多くのアプリでは自動獲得でいいとおもっているけどね。 RT @taku910 IMEのN文節最長一致は、(ry) これも文節という単位の有効性を示すいい例かと思います。

2011-07-21 21:08:04

Zelch @zzzelch

で、最初のつい～と。 @zzzelch 日本語の係り受けが文節単位な件について。今やガラパゴスなんだがなぜか。京大コーパスが原因か。先行していて規模も大きいＥＤＲコーパスは単語単位だった。言語資源の設計が言語処理を決めて来たと言って良いか思案中。機械学習屋さんは興味無かろうし。

2011-07-21 21:09:56

Taku Kudo @taku910

@zzzelch SMTを応用と考えながら、Unidic短単位を推すというのも、あまりピンとこない。SMTだと言語モデル的にもフレーズテーブル的にももう少し大きい単位のほうがいいような気がします。あくまもで直感ですが。

2011-07-21 21:10:17

Zelch @zzzelch

@taku910 係り受けが何に使えるかを示すのは業界共有の問題だと思う。SMTに関しては概ね同意。SMTだと、もう一方の言語の単位と粒度が同じくらいがいいでしょうね。しかし、文節は印欧系の言語から見ればそれらの単語とは全然粒度が合わないでしょ。

2011-07-21 21:15:41

Taku Kudo @taku910

@zzzelch EDRのクオリティが低いのと、そもそも応用として単語単位は扱いにくいからじゃないですか? 単語単位にしたからこそ、日本でのガラパゴスになった。すなわち単語単位が違うJumanやChasenの体系に係り受け情報を再利用できない。（がんばればできたかもしれません）

2011-07-21 21:17:22

Taku Kudo @taku910

@zzzelch SMTだとたしかに文節は広すぎますが、いまわしい機能表現列が n-gram を狂わし、フレーズテーブルをスパースにしています。文節の中に機能表現(付属語)があるので、文節単位の処理というのはあながち間違っていないと思います。

2011-07-21 21:27:13

Zelch @zzzelch

@taku910 賛否はともかく歴史認識としてはそうでしょうね。EDR準拠のフリーの形態素解析が出なかったとかね。で、「応用として単語単位は扱いにくいか」というのには、頑張って回答を見いだしていくことにするよ。言語モデルとしてはすでに「扱いやすい」といえるが、自然言語処理は広い。

2011-07-21 21:29:37

いま話題のタグ