機能表現 http://t.co/ogwd6LB は、内部の係り受けが閉じていてくれるとありがたい。単語係り受けでは、部分木といえる。格フレームや複合語と同じ、部分木である。文節境界は跨ぐが、問題なし。
2011-07-21 00:07:41@zzzelch 難しさはIMEとしての難しさでした。ユーザは文節という単位を強く意識しながら入力する一方で、文節をモデル化していない方法だとユーザの直感に反する結果を出しやすくなる。あと、文節を構成する単語列は文法的に決まり、言語モデルだけでは漏れ無く候補列を列挙できない。
2011-07-21 00:07:42これまた大胆な。音声認識では、言語モデル(単語n-gram)だけでカバーできるとしてますよ。でもまあ、単語1-gramがあるんだから任意の単語列をカバーするか。@taku910 ry) 文節を構成する単語列は文法的に決まり、言語モデルだけでは漏れ無く候補列を列挙できない。
2011-07-21 00:10:51@zzzelch 音声は1-bestを求めればいいのでIMEとは事情が違います。あと、IMEの文節には非文が来ないという期待があるのでunigram にバックオフするのは危険すぎます。変な候補出まくり。かといってbigram だとスパース。
2011-07-21 00:16:28まず、これは誤解。修正インターフェースも含めた総合設計の場合もある。修正は、IMEに近い。声でやらないことのほうが多い。@taku910 音声は1-bestを求めればいいのでIMEとは事情が違います。
2011-07-21 00:18:17ここも同じ。音声認識でも、この n-gram は出現しうるでしょという態度には出れない。@taku910 、IMEの文節には非文が来ないという期待があるのでunigram にバックオフするのは危険すぎます。変な候補出まくり。かといってbigram だとスパース。
2011-07-21 00:19:47ううむ、やはり、ここでいう文法的にというのがどういう意味かもう少し説明がほしい。その文法とはどの文法ですか。理想の文法ですか、手中に実在しますか。@taku910 ry) 文節を構成する単語列は文法的に決まり、言語モデルだけでは漏れ無く候補列を列挙できない。
2011-07-21 00:22:35@zzzelch 例えば新聞記事には表外単語は一切現れません。「悪む」とか。しかし、悪むを含む文節は生成的に無限に作れる。この状態で非文を生成せず、文法的に適切な候補のみを出すには、悪むが五段動詞という情報が不可欠です。文法的とは世の中には現れない表現でも生成可能という意味です。
2011-07-21 00:32:36Type1 ならいいんじゃないですかね。ま、こんなもんでしょうくらいです。細分類はなくてもよいです。 http://t.co/tGEhta7 @taku910 SMTでも現状の単語の単位がいいかどうか謎です。少なくともIPA品詞体型は英語の粒度より細かすぎてアラインメントが...
2011-07-21 00:33:30ま、文法スレは別口だが、それは単語n-gramモデルでもできる。むしろ、非文と言い切ることが単語n-gramモデルとの差であるべきでは。お気持ちはわかるが、そんな文法脳外に持ってないよ、私は。@taku910 文法的とは世の中には現れない表現でも生成可能という意味です。
2011-07-21 00:42:56@zzzelch 単語n-gramでできるというのは、バックオフするということですよね。それは繰り返しになりますが、経験上ひどい事になります。初期のMozcがそんな感じで作者は日本語わかってんのかと散々叩かれました。
2011-07-21 00:51:20ううん、やはり文節の定義が単語の定義によるのでは。「緑の党」が1単語か否かで、「緑の党は」の文節数が決まろう(単語内に文節境界あってもいいといえば、事情は違うが、それこそ問題を複雑にする)。さすれば、捨てられる概念の順は、まず文節、次が単語という全順序関係でしょう。
2011-07-21 00:52:24@zzzelch IMEとCaboChaの文節の違いは、名詞句の扱いがメインです。IMEの文節も各社各様ですが(たとえば人名接尾の扱い)、それは機械的に決まるので本質的ではありません。
2011-07-21 00:54:52文節の議論が炸裂しているのでこれを読み返しました http://t.co/zOpc3Yx 。「学校文法文節の中の係り受けは不要」と言われたら意義はありますが、「IME文節の中の係り受けは不要(ルールで決まる?)」は確かにそうかもしれません。 @taku910 @zzzelch
2011-07-21 00:56:23もしくは、補間ね。議論にユーザーの存在を入れるのは別スレで。そのお客様は、ただ叩きたかったんですよ、きっと。@taku910 単語n-gramでできるというのは、バックオフするということですよね。(ry) 初期のMozcがそんな感じで作者は日本語わかってんのかと散々叩かれました。
2011-07-21 00:56:47http://t.co/zOpc3YxRT からこの時点では「違う」ということですね。なのでIMEは別スレとしましょ。@neubig RT @zzzelch @taku910 で、もう一つ質問。IMEの文節と係り受け解析(CaboCha)の文節は(本質的に?)同じなんですか?
2011-07-21 01:04:29@zzzelch それは逆でも言えるのでは。仮に「緑の党は」を一文節とすれば、機能語の「は」をとって「緑の党」が自立語(もしくは1単語)、「緑の党は」が2文節であれば、「緑」「党」がそれぞれ自立語。
2011-07-21 01:13:21@taku910 まず、順側の議論に対する賛否は?で、そういう逆の議論は可能ですが、私が使う単語の単位(短単位)の定義には、文節は不要です。つまり、主張すべきは、単語の定義を参照しない文節の定義の存在です。これがあれば、文節&単語の採否で4通り。脳内で∃や∀を付けてください。
2011-07-21 01:21:18@zzzelch 単語の定義を参照しない文節を言いたいのではなくて、私の主張は文節という単位が日常生活にも根ざしているし、いろんな意味で便利だ ぐらいです。不必要だとかガラパゴスと言って捨てる気にはなれない。単語を意識せずに本質的な構文を議論できる道具としても便利ですよ。
2011-07-21 01:37:50@zzzelch 単語単位の定義が重要なのは異論はありませんが、単語だけでは不便なことが多いのですよ。フレーズベースMTもそれまでのIBMモデルではなく、単語という単位にこだわらなかったから成功したんですし。なんらかの形でまとめたほうが問題の本質をとらえることが多々あります。
2011-07-21 02:06:19それも議論を発散させるよ。自動獲得する単位は別にしましょう。私は、アノテーションする単位のことをいっている。文節が自動獲得できるなら使っていいと思う。@taku910 単語単位の定義が重要なのは異論はありませんが、単語だけでは不便なことが多いのですよ。フレーズベースMTも (ry
2011-07-21 08:32:54単語単位で係り受けを書けば、日本語も木構造を使う機械翻訳手法にいれてもらえる。単語列(フレーズ; sub-string)だって、部分木(sub-tree)というように自然に一般化できる。単純化というのは主にこのあたりだと思う。
2011-07-21 09:04:08でも、IMEでの文節と係り受け解析での文節が別のものだというなら、「単語列という単位は…」、という主張だと解釈せざるをえない。なんらかの単語列は、心内にあると思う。英語だって、フランス語だって。@taku910 ry) 文節という単位が日常生活にも根ざしているし (ry
2011-07-21 09:06:56@zzzelch ああ、ネーミングが紛らわしかったですけど、その記事における「IME文節」は「自立語を一つしか持たない文節」です。その単位で係り受けを振ればルールで付属語の係り受けを決められるんじゃないかと思いました。それをするのにメリットがあるかを別問題として…
2011-07-21 11:56:33