係り受け解析に文節の概念は必要か否か?

.@zzzelch さんと @taku910 さんの長〜い議論もようやく収束してきたのでまとめます.
17
前へ 1 2 ・・ 5 次へ
Zelch @zzzelch

ちなみにkwhr研は、プロアクティブです。詳しくは ping @caesar_wanya でどうぞ。@unnonouno RT @Tzawa TSUBAKIはボクの中のアプリケーションのイメージのひとつになってますよ

2011-07-20 00:00:05
Zelch @zzzelch

文節なんていらんよ。ただの飾り。偉いひとにはそれが (ry。 これまた、連文節変換とかのレガシーじゃね。 (統計的仮名漢字変換の初期の|我輩の)論文には、文節という単語はない。と思う。 @takeda25 文節区切りはいらないのですか?

2011-07-20 00:14:31
Taku Kudo @taku910

@zzzelch 単語位置に依存する素性は単にうまくいっているだけで、本質をとらえていません。もし主辞が格助詞にかかるという定義なら、格助詞脱落の係り受けがうまくできません。脱落していない現象からの情報を使いまわせないので。

2011-07-20 17:25:27
Zelch @zzzelch

言語の本質を捉えたいのか、それとも言語を処理したいのか。前者の発言だが、まず係り受けは、文節であろうと単語であろうと、心内にあることを証明しましょ。少なくとも部分的にしかないと思うよ。 @taku910 単語位置に依存する素性は単にうまくいっているだけで、本質をとらえていません。

2011-07-20 17:39:33
Taku Kudo @taku910

@zzzelch simple is best というのであれば、文節のほうが本質を捉えているので simple です。単語単位という定義もばらばらで恣意的なものに係り受け構造が依存するのが気持ち悪い。文節は単語分割と本質的な構文構造をうまく分離できるいいレイヤーだと思います。

2011-07-20 17:41:26
Zelch @zzzelch

そりゃ、CabChaで倒置(や交差も?)が扱えないとかいうレベルの話でないですか。統計的に精度が出てればよしとていいでしょう。 @taku910 もし主辞が格助詞にかかるという定義なら、格助詞脱落の係り受けがうまくできません。脱落していない現象からの情報を使いまわせないので。

2011-07-20 17:46:04
Zelch @zzzelch

文節の定義に単語(形態素)を含んでませんか。単に文節という概念がなくなるだけですが。あるいは、文節=単語と定義するとも。@taku910 simple is best というのであれば、文節のほうが本質を捉えているので simple です。単語単位という定義もばらばらで(ry

2011-07-20 17:48:06
Zelch @zzzelch

もし、そうでないとしたら。つまり、格助詞が主辞に係るとする。@taku910 もし主辞が格助詞にかかるという定義なら、格助詞脱落の係り受けがうまくできません。脱落していない現象からの情報を使いまわせないので。

2011-07-20 17:50:54
Zelch @zzzelch

ま、分節係り受けの前処理に形態素解析(単語分割)を仮定しているので単語の定義を非難しても帰ってきますよ。@taku910 simple is best というのであれば、文節のほうが本質を捉えているので simple です。単語単位という定義もばらばらで(ry

2011-07-20 17:55:16
Zelch @zzzelch

単語の定義の問題を避けたければ、文字列→文節→係り受けかな。 @taku910 @zzzelch simple is best というのであれば、文節のほうが本質を捉えているので simple です。単語単位という定義もばらばらで恣意的なものに係り受け構造が依存するのが気持ち悪い

2011-07-20 17:57:25
Zelch @zzzelch

やはり、計算言語学(CL)の議論なのか、自然言語処理(NLP)の議論なのかを明確にしましょう。単語単位の係り受けに関しては、私は自然言語処理として議論してます。分野適応とかCLじゃない。@taku910 単語位置に依存する素性は単にうまくいっているだけで、本質をとらえていません。

2011-07-20 18:03:40
Yoh Okuno @yoh_okuno

良くわかってないのですが、係り受け解析を単語単位でそのまま解くか、文節チャンキングと文節間係り受けのニ段階で解くかどちらがいいか(精度的に?利便性的に?)という話?

2011-07-20 18:05:16
Zelch @zzzelch

そういう見方もできます。複合名詞の構造がいい例です。外からどの要素に係るか、内部はどういう構造か。 @nokuno 良くわかってないのですが、係り受け解析を単語単位でそのまま解くか、文節チャンキングと文節間係り受けのニ段階で解くかどちらがいいか(精度的に?利便性的に?)という話?

2011-07-20 18:12:51
Zelch @zzzelch

どこまで解くかのほうが正確ですかね。b1 = w11,w12,...,w1n, b2 = w21,w22,...,w2n, ..., bk = wk1,wk2,...,wkn @nokuno 係り受け解析を単語単位でそのまま解くか、文節チャンキングと文節間係り受けのニ段階で解くか

2011-07-20 18:24:23
Zelch @zzzelch

として(ほんとはn1,n2,..., nk)、b のレベルで終わるか、w のレベルまで行くか。あとは、解き方ね。b のレベルをないと思うる(アノテーション or ルール記述しない)か、積極的に使って、問題を分割するか。ま、この考え方自体が、私の単純化だとの見方もあるでしょうが。

2011-07-20 18:27:36
Zelch @zzzelch

単語係り受け解析(PW-MST parser)において、Maximum は必要だが、Spanning である必然性はないし、Tree である必然性もないか。前者の例は、フィラーの係り先など不毛(?)なこと。後者は発表が Coing@Manchester であった記憶が。

2011-07-20 18:58:10
Zelch @zzzelch

ありがとうございます。勉強になります。切るのは実用的との私の直感を素直に喜びたい。というか、企業研究者の素養があったてことですか。RT @sassano 当時の企業の研究者の認識では、むしろ語幹と語尾を分離するのが多数派だったように思います。

2011-07-20 19:05:44
Taku Kudo @taku910

@zzzelch NLPで精度だけ達成すればいいという立場であることは問題ないのですが、本気で精度を上げたい、探索空間小さくして高速化したいのであれば、文節は避けて通れないのではないかと。そのへんが釈然としません。NLPはシンプルというより手段を選ばずなので、使える情報は使いたい

2011-07-20 20:16:41
Taku Kudo @taku910

@zzzelch 文節境界はほぼ100%単語境界なので、極端な話生文に文節区切りと係り受け木があるようなコーパスでもかまいません。作るのも簡単ですし、再利用性は高いですし、特定の品詞体型に依存しません。実際に京大コーパスの木は一貫性を残したままIPA品詞体系に変換できます。

2011-07-20 20:24:01
Zelch @zzzelch

@taku910 単語単位の係り受けがKNP/CaboChaの定義の文節内で閉じているなら多段に解いてもいいと思う。それは、単に精度と速度を考慮した解き方の問題でしょう。もちろんその単語列が文節である必然性はない。本気で精度を上げるには、まずはアノテーションを楽にすることです。

2011-07-20 20:30:01
Zelch @zzzelch

@taku910 文節係り受けで統語的曖昧性解消をやめるから精度が高いとか処理が速いとかいう議論ではないですよね。単語係り受けで精度が高ければ、それを多少犠牲にして速度をあげるのは容易である。トレードオフ曲線がどうなるかの問題。なので、精度を上げることが第一。

2011-07-20 20:34:13
Zelch @zzzelch

これはちょっとひっかかるね。私は、100%だと思っていた。でないとすると、形態素解析の結果の分割を変えることがあるって事ですか。「話生文に文節区切りと係り受け木があるようなコーパス」ってのはいいと思う。単語境界の部分集合なら。@taku910 文節境界はほぼ100%単語境界なので

2011-07-20 20:36:40
Taku Kudo @taku910

@zzzelch IPAでは「に関して」とかが連語扱いで一語だったりします。こういうのは曖昧性がないので特に問題にはなりません。いずれにせよ、単語係り受けは単語定義が決まらないと決まりませんが、文節係り受けのアノテーション(処理ではない)は単語単位には依存しません。

2011-07-20 20:49:12
Taku Kudo @taku910

@zzzelch 文節係り受けにすぺきということではなくて、単語係り受けを高精度にかつ高速にするには、文節という制約がいい素性を抽出し探索空間を狭めるのに役に立つということです。一般に高次のモデルがいいとされていますが、その高次の情報が何もしなくても手に入るのは大きな利点ですよね

2011-07-20 20:54:50
Zelch @zzzelch

ううむ、アノテーション対象を減らせば曖昧性を避けられるという議論に感じる。あるいは、単に単語の定義より文節のそれのほうが安定だと?@taku910 ry) 単語係り受けは単語定義が決まらないと決まりませんが、文節係り受けのアノテーション(処理ではない)は単語単位には依存しません。

2011-07-20 22:01:14
前へ 1 2 ・・ 5 次へ