統計的機械翻訳

統計的機械翻訳
2
かわの_ひろき @kawano_hiroki

統計的機械翻訳1 統計的機械翻訳には、(1) 言語の文法構造がわからなくてもパラレル(対言語)コーパスがあれば翻訳できる、(2) 推定の根拠となるパラレルコーパスが良質かつ大量にあればあるほど翻訳精度があがる、(3) 言語構造の近さがプラスに作用する、という特徴がある。

2011-07-03 13:43:56
かわの_ひろき @kawano_hiroki

統計的機械翻訳2 しかし、統計的機械翻訳の技術のみを用いて翻訳性能を改善するアプローチは現在すでに限界に達しているとも言われ、ルールベースの機械翻訳を組み合わせるなどの方法で性能改善を目指しているようである。

2011-07-03 13:47:11
かわの_ひろき @kawano_hiroki

統計的機械翻訳3 日本語と英語のように言語構造の違いが大きい言語間で統計的機械翻訳による自動翻訳および翻訳支援が有効性を発揮できるほど高性能になるだろうか?その問いにはまだ答えが出ていない。

2011-07-03 13:53:12
かわの_ひろき @kawano_hiroki

統計的機械翻訳4 統計的機械翻訳の技術が有効であるとすでに実証されている言語ペアもある(たとえば日韓)。そのような言語ペアの場合、高品質で大量の言語資源(パラレルコーパス)をどうやって入手するかが翻訳の品質・価格・納期を直接左右する大きな課題となる。

2011-07-03 13:55:19
かわの_ひろき @kawano_hiroki

統計的機械翻訳5 統計的機械翻訳が有効であることが実証された言語ペアについては、次のようにまとめることができるだろう、「言語資産を制する者は産業翻訳を制する」と。

2011-07-03 13:58:15
かわの_ひろき @kawano_hiroki

統計的機械翻訳6 しかし「言語資産を制する」ことはそれほど簡単ではない。まず、言語資産はドメインごとに分化して高密度なものを用意しなければならない。Googleは言語資産をおそらく世界でもっとも大量に所有している会社の一つだが、個別のドメインに整理して所有しているわけではない。

2011-07-03 14:26:34
かわの_ひろき @kawano_hiroki

統計的機械翻訳7 統計的機械翻訳の技術開発では学界の研究者が中心になっているが学界でも研究の素材となる言語資源(コーパス)の収集には苦労しているくらいだからコーパス収集は別の主体に期待するしかない。翻訳支援ツールのメーカーも同様である。

2011-07-03 17:34:29
かわの_ひろき @kawano_hiroki

統計的機械翻訳8 翻訳者は同一製品の翻訳すら単独では受注できず、複数の翻訳者に分散されているものを集めることができないから、翻訳者がある分野(ドメイン)の言語資産を収集する主体となる可能性もほとんどない。

2011-07-03 17:36:52
かわの_ひろき @kawano_hiroki

統計的機械翻訳9 そう考えると、特定ドメイン(分野・製品)の言語資産を収集できる主体として可能性があるのは発注元か翻訳会社しかない。発注元には著作権があるが収集する手法を持っていないケースが多い。一方の翻訳会社には手法はあっても発注元に言語資産の集積をアドバイスする動機に欠ける。

2011-07-03 17:39:34
かわの_ひろき @kawano_hiroki

統計的機械翻訳10 それでも統計的機械翻訳の有効性が実証された言語ペアにおいては、壁を超えて発注元と翻訳会社が協力して言語資産を集積・浄化・利用するサイクルをだんだん作り上げていくだろう。経済的有利はあきらかだからだ。

2011-07-03 17:43:44
かわの_ひろき @kawano_hiroki

統計的機械翻訳11 その際、翻訳支援ツールの開発においては学界やツールメーカーの協力が必要になる。これも経済的合理性がある以上、壁を超えて学界・ツールメーカー・翻訳会社・発注元はなんらかの協力のかたちを見出していくだろう。最初は細い道でも、いったん優位性が実証されれば普及する。

2011-07-03 17:45:56
かわの_ひろき @kawano_hiroki

統計的機械翻訳12 集積された言語資源の所有者は誰になるのか?は興味深い問題である。個別の企業が自社のドキュメントに対して発注元としてオーナーシップを主張するのは当然だが、大量の言語資産を蓄積するという意味では、企業の壁を超えたTAUSのTDAのような枠組みが有利かもしれない。

2011-07-03 17:49:28
かわの_ひろき @kawano_hiroki

統計的機械翻訳13 もしもGoogleが試みているような一般的な言語資産集積が将来的に高い翻訳品質を提供できるようになったら、Googleはその言語資産を使ってビジネスが展開できるようになる。それはある意味、究極の翻訳業となる可能性もある。

2011-07-03 17:52:06
かわの_ひろき @kawano_hiroki

統計的機械翻訳14 Googleが検索エンジンでこれだけの世界的寡占状態を実現してもそこに直接は課金していないことを考えると、Googleが将来形成する言語資産による翻訳提供も、最初に述べたインバウンド翻訳に対する無償提供としてはビジネスにならない気もする。

2011-07-03 18:01:23
かわの_ひろき @kawano_hiroki

統計的機械翻訳15 ビジネスになりえるとしたら、翻訳者が翻訳支援ツールを通じて言語資産を活用するアウトバウンド翻訳において成立する可能性のほうが高い、それは現在でも有償の翻訳として市場が成立している分野だから。そこではすぐれた言語資産の提供者はそこから収益を上げられるだろう。

2011-07-03 18:03:43
かわの_ひろき @kawano_hiroki

統計的機械翻訳16 しかし、製品単位の言語資産であれば発注元がその収益を回収できるような仕組みを要請するだろうし、分野単位の言語資産であればある分野のなかで言語資産のスタイル統一が実現されていなければなかなか共有することの利点がでにくい可能性もある。一筋縄ではいかない点が多い。

2011-07-03 18:07:15
かわの_ひろき @kawano_hiroki

統計的機械翻訳17 特定分野の言語資産を特定企業が集積し、それを寡占的に提供する「言語資産におけるベンダーロックイン」は発生するだろうか?統計的機械翻訳技術のぶつかっている性能改善の壁の厚さや、企業間でのスタイル統一を阻む困難の現状をみているとロックインは発生しない可能性が高い。

2011-07-03 18:11:42
かわの_ひろき @kawano_hiroki

統計的機械翻訳18 しかし、ロックイン発生の可能性の高さ低さにかかわりなく、資産の移植可能性を高く保っていくことはユーザーのためになる。一方でサービスの提供者は囲い込みを目指す。この対立軸は翻訳支援ツールでも展開されてきたし技術のカギが言語資産に移行してからも展開されていく。

2011-07-03 18:14:19
かわの_ひろき @kawano_hiroki

統計的機械翻訳19 重要なことはこれまでXLIFF、TMX,UTXのような形で発想され提唱されて実現されてきた「共有のためのオープンな技術標準」の意義と価値を業界関係者がますます深く理解し、持続し、発展させていくことだろう。さもないと特定の企業が囲い込みを実現しやすくなる。

2011-07-03 18:18:54