コーパス戦略

コーパス戦略。kawano_hiroki さんの論説です。
1
かわの_ひろき @kawano_hiroki

コーパス戦略1 ここまで書いてきた翻訳産業の未来で書き残した項目がひとつあるので最後にそれについて書く。それは翻訳会社のコーパス戦略について。言い換えれば、SLVの生きる道について。

2011-07-04 00:00:19
かわの_ひろき @kawano_hiroki

コーパス戦略2 もしも統計的機械翻訳が期待どおりの成果をおさめるとすれば、高品質と大量性を兼ね備えたパラレルコーパス(=翻訳メモリ)を利用できる翻訳会社は他社に対して大きく有利になる。もしそうなら、高品質大量のコーパスをもてるかどうかは翻訳会社にとって死活問題になる。

2011-07-04 11:03:30
かわの_ひろき @kawano_hiroki

コーパス戦略3 ここではボリュームについて検討する。パラレルコーパスを蓄積する立場として翻訳会社が有利であることは前に述べたが、翻訳会社はどの程度の速度でコーパスを蓄積できるか検討してみる。

2011-07-04 11:03:44
かわの_ひろき @kawano_hiroki

コーパス戦略4 売上10億円の翻訳会社があったとして、計算を簡単にするため英文和訳を1ワード20円で販売していると仮定し、1文は平均して10ワードだと仮定する。そうすると1文の売上は200円となり、10億円を200円で割った答え、すなわち500万文が年間の翻訳量となる。

2011-07-04 11:04:02
かわの_ひろき @kawano_hiroki

コーパス戦略5 統計的機械翻訳ではパラレルコーパスの分量が100万文を超えるとある程度優れた翻訳品質が得られると言われているから、500万文というは翻訳品質を得る上でまずまずのボリュームと考えられる。

2011-07-04 11:04:18
かわの_ひろき @kawano_hiroki

コーパス戦略6 もしもコーパスの性能がそのボリュームだけで決定されるのであれば、大量のコーパスを蓄積できる翻訳会社ほど有利ということになる。ボリュームに着目して売上と蓄積できるコーパスの大きさの関係をグラフにすると添付図になる。 http://twitpic.com/5kwao8

2011-07-04 11:27:02
拡大
かわの_ひろき @kawano_hiroki

コーパス戦略7 しかしこの図は言語ペアごとにコーパスが異なることを無視しているからその点を修正する必要がある。また、コーパスが有効に使えるためにはドメイン(分野や製品)を限定する必要があるという条件を考慮する必要がある点も無視されているのでそれを加味する必要がある。

2011-07-04 11:27:50
かわの_ひろき @kawano_hiroki

コーパス戦略8 コーパスの視点から観たときには翻訳会社の総売上には意味がなく、言語ペア別×ドメイン別の単位に分割した上でのいわば「種目別」の売上を比較する必要がある。この点を模式的に示したのが添付の図(言語ペアと分野の行列) http://twitpic.com/5kwblk

2011-07-04 11:29:47
拡大
かわの_ひろき @kawano_hiroki

コーパス戦略9 言語ペアとドメインで区切った市場グリッド別に分けて売上とコーパス蓄積速度の関係グラフを描き直してみると添付の図5のように、MLVとSLVの関係が逆転する可能性があることが分かる。 http://twitpic.com/5kwcm4

2011-07-04 11:30:49
拡大
かわの_ひろき @kawano_hiroki

コーパス戦略10 もともとMLVが台頭したのはローカリゼーションの分野においてであり、ローカリゼーション分野では営業窓口の単独化、原文のフォーマットの均一性、翻訳支援ツールとの親和性の高さなどMLVが成立するような市場の条件がよく満たされていた。

2011-07-04 11:31:13
かわの_ひろき @kawano_hiroki

コーパス戦略11 しかし、すべてのドメインでローカリゼーションと同程度にMLVの成立条件がよく満たされるわけではないようだ。発注元が各国に分散している特許のようなケースや、翻訳対象言語数が数言語に限られるドメインではMLVというビジネスモデルの優位性はローカリゼーションより低い。

2011-07-04 11:31:32
かわの_ひろき @kawano_hiroki

コーパス戦略12 MLVには言語ペアを多数集めることで売上を高め、結果的により高い資本力を発揮できる強みがあり、それを技術開発に投入することで翻訳支援ツールの開発をリードしてきた。機能性能が言語ペアの相違にかかわりなく共通する部分についてはこの論理は成立する。

2011-07-04 11:31:50
かわの_ひろき @kawano_hiroki

コーパス戦略13 しかし、統計的機械翻訳のように言語構造の違いが性能を直接左右するような言語の種別に依存する技術についてはMLVが個別言語に投資できる資本が分散されるため、共通部分と同様の技術優位性を発揮できる根拠が失われるかもしれない。

2011-07-04 11:32:13
かわの_ひろき @kawano_hiroki

コーパス戦略14 MLVであれSLVであれ、言語ペア別かつ分野別のグリッド分割された市場で個別最善のコーパス蓄積に成功した翻訳会社が他社に対して優位に立てる。そういう時代になるかもしれない。

2011-07-04 11:33:04
かわの_ひろき @kawano_hiroki

コーパス戦略15 ただし、以上の議論はコーパスの有効性が評判通りだった場合の話であり、もしも統計的機械翻訳の品質改善が期待通りに進まなければ、この議論で述べたことはすべて崩れる。統計的機械翻訳が成功するか期待はずれに終わるか、どちらに賭けるかで対応策もかなり異なる。思案しどころ。

2011-07-04 11:35:11