統計的機械翻訳についての疑問とその回答

Yoh Okuno @yoh_okuno

昨日の機械学習TLが楽しかったので，今度は機械翻訳ネタで燃料を投下してみる．

2012-02-01 20:13:48

Yoh Okuno @yoh_okuno

疑問1：アライメント（対訳コーパス中の単語を共起頻度などから自動的に対応付けるタスク）は教師なしか？ IBMモデルは単語ベース翻訳のモデルだったはずなのに，HMMあたりからいつの間にかアライメントそのものが目的化しているのが気になる．

2012-02-01 20:15:38

Yoh Okuno @yoh_okuno

疑問2：フレーズベース機械翻訳ではアライメント済みの対訳コーパスからヒューリスティックにフレーズテーブルを学習するが，これをアライメントから統一的にモデル化できるか？モデル化できたとして，現実的な時間で大規模なコーパスからパラメータを推定できるか？

2012-02-01 20:17:44

Yoh Okuno @yoh_okuno

疑問3：機械翻訳のデコードはNP困難だと言われているが，本当に厳密解を求める方法はないのか？ N-gramのスパースネスを利用したり，Future Cost Estimationのやり方を工夫してうまくデコードできないのか？

2012-02-01 20:19:56

Yoh Okuno @yoh_okuno

以上，機械翻訳3大疑問でした．（※個人の見解です）

2012-02-01 20:22:02

Graham Neubig @neubig

獲得したい変数（アライメントA）が学習時に与えられない意味では教師なしと言って良いでしょう。もちろん教師ありアライメント法も提案されています。 RT @nokuno 疑問1：アライメントは教師なしか？

2012-02-01 20:28:13

Graham Neubig @neubig

できますよ！ http://t.co/eSdPv8RQ http://t.co/BWqcgNBC 。スピードはGIZA++より遅くなりますが、並列化すれば大規模データでも使えます。 RT @nokuno 疑問2：フレーズテーブルを学習するが，これをアライメントから統一的に…

2012-02-01 20:32:43

Mamoru B Komachi @mamoruk

@nokuno Koehn 本の Phrase-based Model のところで Marcu and Wong [2002] あたりからの話が紹介されていたと思いますが、やたら重くてほとんど使えないとかいうような話だったような記憶があります

2012-02-01 20:33:00

Graham Neubig @neubig

相対分解を使ってできますよ http://t.co/rgCa3lNp ！ちなみにNP完全問題なのはフレーズベースだけで、階層フレーズや統語ベースは多項式時間です。 RT @nokuno 疑問3：機械翻訳のデコードはNP困難だと言われているが，本当に厳密解を求める方法はないのか？

2012-02-01 20:35:29

Taku Kudo @taku910

@nokuno NP困難というのは証明された事実で厳密解を求めるのは多項式時間で終わらはい。逆に言えばnp困難ではないことを言えば厳密解を速く求められるのでしょうが、事実は変わらない。

2012-02-01 20:38:34

Yoh Okuno @yoh_okuno

ではIBMモデルは教師なし学習でしょうか？最終的には翻訳ができればいいのであって，アライメントを獲得したいわけではないので疑問が残ります． “@neubig: 獲得したい変数（アライメントA）が学習時に与えられない意味では教師なしと言って良いでしょう。

2012-02-01 20:42:45

Graham Neubig @neubig

@mamoruk @nokuno Marcu and Wongは多対多アライメントの元祖ですね。そこでは山登り法を使っているのですが、最近ITGにすることでちゃんとした探索ができて、近似もいれやすくなっているのでかなり早くなっています。

2012-02-01 20:43:35

Yoh Okuno @yoh_okuno

.@neubig @mamoruk 書いている途中に言われてしまいましたｗ Marcu and Wong [2002] はコンセプトベースのやつですよね？ reorderingに制約を入れなければ計算困難になってしまいますが，（続く）

2012-02-01 20:47:03

Yoh Okuno @yoh_okuno

（続き）@mamoruk ITGやそれを拡張した@neubigさんの論文は制約を入れることで計算可能にしています．ただし，近似解なので制約なしの場合と比べてどの程度精度が落ちるかが分かっていません．

2012-02-01 20:48:01

Katsuhito Sudoh (ja) @katsuhitosudoh

モデルが精緻になることによるスパースネスの増加とパラレルコーパスのノイズの影響が気になったりもします。特許はかなりパラレルだけど、どうしても等価でないのが残ってしまうので。 “@nokuno: 疑問2：フレーズベース機械翻訳では…アライメントから統一的にモデル化できるか？ ”

2012-02-01 20:48:20

Mamoru B Komachi @mamoruk

@nokuno さんへの返信がほとんど @neubig さんと被っていた (^^; 修論の添削に戻ります〜

2012-02-01 20:49:29

Yoh Okuno @yoh_okuno

.@mamoruk @neubig EMNLP2011の論文は，正確には双対分解ではなくラグランジュ緩和ですねー．これも平均120秒と言っているけど，長い文のデコードには相当時間がかかるようで… でも．大きな前進だと思います http://t.co/etF8R1My

2012-02-01 20:51:07

Yoh Okuno @yoh_okuno

@taku910 おっしゃるとおり数学的に証明された定理は覆ることはありません．ただし証明の前提になっている部分に疑問があって，例えば @neubig さんの紹介された階層フレーズベースや統語ベースのモデルといった，（続く）

2012-02-01 20:58:12

Yoh Okuno @yoh_okuno

（続き）@taku910 異なる前提を持つ問題設定で実用的な機械翻訳のデコーダを厳密かつ多項式時間で構成することはできると思います．私もKoehnのSMT本を読んだだけで元論文の証明を知っているわけではないのでどういう前提があるのか分かっていませんが…（汗

2012-02-01 20:58:26

Graham Neubig @neubig

@nokuno ITG（の一種）は中英翻訳で98.6%のアライメントをカバーできるらしい http://t.co/vkueNSx0 。ITGが扱えない「穴」のあるフレーズを使う研究もありますが、精度だけでみるとそんなに変わらない http://t.co/jaFm9IMR 。

2012-02-01 21:01:00

Yoh Okuno @yoh_okuno

.@katsuhitosudoh アライメントとフレーズテーブルを同時学習するとモデルが精緻になるのでしょうか？たしかにノイズ対策とかは一度アライメント済みの対訳コーパスを通して，別々にやったほうがよさげに思えます．

2012-02-01 21:04:38

Yoh Okuno @yoh_okuno

@neubig ほほう，勉強になります．私は@neubigさんのACL2011論文と元のITG論文しか読んでいないので感覚がつかめていないんですが，日英翻訳のような語順の違う言語でもうまくいくものなんでしょうか？

2012-02-01 21:07:03

Katsuhito Sudoh (ja) @katsuhitosudoh

. @nokuno sourceとtargetの積の空間からsource+とtarget+の積の空間になることで表現力は大きくなるはずです．相対的にサンプル当たりの統計量が減るので，ノイズも拾いやすくなるのではないかと．

2012-02-01 21:08:06

Graham Neubig @neubig

@nokuno IBMモデルをそのまま翻訳に使ったら、ほしい出力（目的言語分E）は与えられているので教師ありだと思います。アライメントに利用すると、ほしい出力（アライメントA）は与えられないので教師なしですね。（僕の勝手な「教師なし・教師あり」の区別では…）

2012-02-01 21:09:14

Yoh Okuno @yoh_okuno

@neubig その区別は昨日の@kashi_pongさんの意見と同じですね！

2012-02-01 21:10:06

いま話題のタグ