係り受け解析に文節の概念は必要か否か?

.@zzzelch さんと @taku910 さんの長〜い議論もようやく収束してきたのでまとめます.
17
Zelch @zzzelch

日本語の係り受けが文節単位な件について。今やガラパゴスなんだがなぜか。京大コーパスが原因か。先行していて規模も大きいEDRコーパスは単語単位だった。言語資源の設計が言語処理を決めて来たと言って良いか思案中。機械学習屋さんは興味無かろうし。

2011-07-18 15:38:19
Zelch @zzzelch

やっと明日の資料が出来た。言語屋さんにも機械学習屋さんにも色々できて楽しそうよ。単語単位の係り受け。文節単位はまあ、それはそれで良かったけど、不足というかサボってる感があるね。係り受けが交差したら困るとか、受身や使役の係り受けはどうすんねんとか。

2011-07-18 20:02:31
Taku Kudo @taku910

@zzzelch 文節単位が妥当だと思います。かな漢字変換も単語単位より文節単位のほうが日本語の性質をよくモデル化できます。また単語単位は曖昧ですが文節は曖昧性があまりありません。単語の切り方次第でどうにでも精度をごまかせるので単語単位では継続的かつ公平な評価ができません。

2011-07-18 22:44:32
Zelch @zzzelch

文節単位の係り受け情報は単語単位のそれに概念含まれると思うよ。 ちなみに、仮名漢字変換の文節は係り受けの文節と同じではないでしょう。精度のごまかしを理由にするのはやめましょう。真理とは無関係でしょう。@taku910 文節単位が妥当だと思います。(ry

2011-07-18 22:53:40
Taku Kudo @taku910

@zzzelch 文節単位が単語単位に含まれるのは文節内の係り受けの定義が明確に決まればでしょう? 少なくとも私には便宜的・機械的には定義できても、何が正解か分かりません。仮に機械的な定義しかないとしたら、それを評価して意味があるんですか? (多言語パーザでは意味がありますが)

2011-07-19 00:19:34
Zelch @zzzelch

単語間の係り受けの基準は文節があろうがなかろうが必要ですね。ただ、部分的アノテーションでは、全てを網羅している必要はない。一部の複合名詞など、明確なのはある。@taku910 文節単位が単語単位に含まれるのは文節内の係り受けの定義が明確に決まればでしょう? (ry

2011-07-19 08:43:16
Zelch @zzzelch

文節係り受けの後に、複合名詞や使役や受身(≒複合動詞)の解析が必要になるでしょう。文節という層を設けるかは、それほど重要ではないと思うよ。私は、simple is best という思考ですね。あとは、文節が心内に本当にあるか、あるいは学校文法の産物かという点。@taku910

2011-07-19 08:46:34
Taku Kudo @taku910

@zzzelch 現実的な話をすれば単語単位では精度が出せません。文節単位のいいところは単語の集合から単語の集合への係り受けになっていることです。もやっとした定義で文節内の単語係り受けは Don't care なので、素性の設計という意味で自由度があります。

2011-07-19 11:45:59
Taku Kudo @taku910

@zzzelch 文節の係り受けを決めているのは、統語的には格助詞、意味的には主辞です。単語係り受けだとこの関係を親子に分解してしまいます。そうなると、単語間係り受けを独立に推定するような1次の手法ではなくて、2次以上のモデルを最低でも使わないといけません。

2011-07-19 11:53:05
Taku Kudo @taku910

@zzzelch 現実的には二重表層格をとりにくいといった現象があって、文節レベルだとようやく2次のモデルが登場となります。こういう現象を単語でやろうとすると、兄弟の子供を見る必要があり、モデルの複雑性が増しデコードが困難になります。

2011-07-19 11:55:51
Taku Kudo @taku910

@zzzelch 高精度で現実的な時間でデコードできるパーザを作るためエラー分析などをつきつめていくと、文節とは言わないまでも局所的な言語現象を素性として表現せねばならず、それって文節文法と何が違うの?ってなことになりそうです。

2011-07-19 11:58:41
Zelch @zzzelch

それがそうでもない。単に前後の単語を素性に入れればOK。格助詞の係り先の判断に、直前の単語が効く。それと格助詞との関係をしる必要はない。@taku910 単語係り受けだとこの関係を親子に分解してしまいます。そうなると、単語間係り受けを独立に推定するような1次の手法ではなくて、

2011-07-19 12:17:19
Zelch @zzzelch

単語係り受けは、文節係り受けのほぼスーパーセットよ。@taku910 高精度で現実的な時間でデコードできるパーザを作るためエラー分析などをつきつめていくと、文節とは言わないまでも局所的な言語現象を素性として表現せねばならず、それって文節文法と何が違うの?ってなことになりそうです。

2011-07-19 12:18:32
Zelch @zzzelch

現在、言語処理 = コーパス設計 + 機械学習 なので、総合設計を考えないといけません。特に、コーパス設計(作業を含む)は人間的なので、そう簡単ではない。@taku910

2011-07-19 12:24:48
Zelch @zzzelch

グラフ理論にのっかって、コンピュータサイエンス的には単純化と思う。言語学的に一般性もある。@taku910 ry) 文節レベルだとようやく2次のモデルが登場となります。こういう現象を単語でやろうとすると、兄弟の子供を見る必要があり、モデルの複雑性が増しデコードが困難になります。

2011-07-19 12:27:59
Zelch @zzzelch

文節係り受けって、単語係り受けとして見ると…。パターンマッチにより係り受け問題を文節内と外に分けて、文節内問題を解かず(あるいは右分岐として)、文節外問題を係り先の文節(単語列)までの曖昧性解消として解いている。単語係り受けは、残った問題も一気に解く。しかも、単純な定式化で。

2011-07-19 12:35:24
Zelch @zzzelch

ありがとう。読みます。ウイグル語とかもそうですね。言語モデル論文で空白で分けられた文字列を「単語」と読んでたりして、混沌としてます。@murawaki トルコ語が参考になるんじゃないかと思います。(ry) http://t.co/ElV7w1e (ry)

2011-07-19 13:53:34
Zelch @zzzelch

いいですね。単位を考えないといけないというところが。日本語は空白ないから避けられないです。@murawaki 位格の -da などは名詞 şura にひっつけています。ただし、akıllısı や kızdır にあるような派生辞やコピュラは分割しています。自身に係る要素の(ry

2011-07-19 14:48:33
Graham Neubig @neubig

@taku910 @zzzelch 単語単位の係り受けは有用な気がします…「日米中経済戦略会議」を解析して「経済戦略について日米中が会議をしている」ということが分かったり「NAIST東京事務所」を解析して「東京にあるNAISTの事務所」が分かったり。QAで役立ちそうです。

2011-07-19 15:33:40
Zelch @zzzelch

国研での議論終了。単語単位の係り受けは、つけられれば嬉しいという雰囲気かな。要らなきゃ捨てればいい。でも、付いてれば無視する機械学習屋はおるまい。曰くそこにデータがあるから。

2011-07-19 18:42:21
Zelch @zzzelch

単語単位の確率的係り受けとかもどうっすか。PFI的には何か応用ない?OCaml でも ML でもいいよ。時代はErlang (ry @unnonouno 昔書いた日本語係り受け解析器とかアップしようかなーと思ったら、全部ocamlで書かれてた。たしかにc++で書いたことない・・・

2011-07-19 22:58:52
Yuya Unno @unnonouno

@zzzelch 係り受けと検索ってあまり相性よくないんですよね。もっと選択的に、つまり係り受けの種類を特定する、あるいは述語項構造を直接とれたほうがいいのかなーと思ってます

2011-07-19 23:12:31
Yuya Unno @unnonouno

@mamoruk @caesar_wanya @zzzelch bow以上の情報が検索で有効な事例がたくさんある一方で、係り受けだけでは案外それらを解決してくれていないように感じます。もう少し上流の情報をリーズナブルに取れたらいいなと思います

2011-07-19 23:42:11
Zelch @zzzelch

大学の先生は問題を解いたことにするのが仕事ですからね。@Tzawa @unnonouno @mamoruk @caesar_wanya TSUBAKIが解決してくれた・・・、ことになってる・・・、はず・・・ RT bow以上の情報が検索で有効な事例がたくさんある一方で、(ry

2011-07-19 23:50:00
Yuya Unno @unnonouno

@Tzawa TSUBAKIはボクの中のアプリケーションのイメージのひとつになってますよ

2011-07-19 23:50:45
残りを読む(94)

コメント

コメントがまだありません。感想を最初に伝えてみませんか?