Google日本語入力についての個人的なまとめ

@nokuno のGoogle日本語入力についてのつぶやきをまとめました。
1
Yoh Okuno @yoh_okuno

ようやくGoogle IMEをインストールして試した。

2009-12-04 12:23:17
Yoh Okuno @yoh_okuno

Google IMEをインストールしてまず行ったことは、タスクマネージャの起動。統計的言語モデルはメモリを大量に食うので、ローカルで動かすに当たってそれをどう解決したのかが気になっていた。

2009-12-04 12:28:09
Yoh Okuno @yoh_okuno

結論からいうと、使用メモリは50MBでした。

2009-12-04 12:33:22
Yoh Okuno @yoh_okuno

Google IMEは単語の品詞情報をうまく利用して、言語モデルの圧縮を行っているものと思われる。

2009-12-04 12:34:02
Yoh Okuno @yoh_okuno

そう思ったのは辞書登録を起動したときで、しっかり品詞情報を入力する欄がある。

2009-12-04 12:36:22
Yoh Okuno @yoh_okuno

しかし、品詞だけが素性だったらあれほどの精度にはならないと思うので、そこらへんをどう解決してるかは謎。やっぱりクラスタリングしてるのかなあ。

2009-12-04 12:37:36
Yoh Okuno @yoh_okuno

あ、ディスク容量を調べてなかった。あとで考察する。

2009-12-04 12:43:29
Yoh Okuno @yoh_okuno

うーん、基本は品詞ベースで、カバーできない単語だけ素性に入れればいいのか。となるとスパースなモデルで学習してそう。

2009-12-04 13:01:48
Yoh Okuno @yoh_okuno

というかそれってMS IMEのモデルとほとんど同じな気もする。あれもたしか、品詞bigram+単語trigramだったし。

2009-12-04 13:07:08
Yoh Okuno @yoh_okuno

変換エンジンが46MBなので完全オンメモリで間違いなさそう。まあディスクアクセスしてるとは思ってなかったが

2009-12-04 13:32:40
Yoh Okuno @yoh_okuno

46MBというのは今どきのPCでは余裕だが、モバイルには簡単に載らない程度には大きい。

2009-12-04 15:01:49
Yoh Okuno @yoh_okuno

違うのは、不要な素性を自動的に捨てるので、裏ではもっと大規模なデータを使っていることか。

2009-12-04 13:08:25
Yoh Okuno @yoh_okuno

あ、そうかもしれません。僕は特許で読んだだけなので、どっちか把握してませんでした。 RT @kondoujp @nokuno そのモデルは Microsoft IME ではなく Office IME じゃないかと。2007/2010 共。

2009-12-04 15:38:25