第5回自然言語処理勉強会 #TokyoNLP

1
Yoh Okuno @yoh_okuno

第5回自然言語処理勉強会勉強会、始まります。 #TokyoNLP

2011-04-23 13:10:45
hiroshi @mutuki

最初は @machy さんの「n-gramを小さくする話を調べてみた」だそうです。 #tokyoNLP

2011-04-23 13:15:17
Yoh Okuno @yoh_okuno

最初は @machy さんの「n-gramを小さくする話を調べてみた」 #TokyoNLP

2011-04-23 13:15:49
hiroshi @mutuki

今日の題材は n-gram確率(言語モデル)のほう。もう少し言うと文字n-gramのお話。 #tokyoNLP

2011-04-23 13:17:48
KOMIYA Atsushi @komiya_atsushi

今回の n-gram は単語単位とのこと。 #TokyoNLP

2011-04-23 13:17:53
Yoh Okuno @yoh_okuno

google n-gramは高いので @s5yata さんの日本語Webコーパスを圧縮 #TokyoNLP

2011-04-23 13:18:52
hiroshi @mutuki

ターゲットはメモリ使用量を小さくする。圧縮して小さくしても展開時に大きいとあまり嬉しくない。 #tokyoNLP

2011-04-23 13:19:12
KOMIYA Atsushi @komiya_atsushi

n-gram のコーパスを公開していらっしゃるやたさん、marisa-trie の人かあ。 #TokyoNLP

2011-04-23 13:20:00
hiroshi @mutuki

Google n-gramって4万円なのか…個人で買え…いやいやいや買わない買わない(自己暗示中) #tokyoNLP

2011-04-23 13:20:08
人間性 @toilet_lunch

ustがめちゃめちゃでかい疑惑 解像度落とします #TokyoNLP

2011-04-23 13:21:42
hiroshi @mutuki

普通というか富豪的に組むと3gramで12GBか…頑張ったら4GBまで削減可能。 #tokyoNLP

2011-04-23 13:24:38
Akisato Kimura @_akisato

#TokyoNLP も見たいなぁ (欲望は果てしない

2011-04-23 13:25:36
Yoh Okuno @yoh_okuno

Quontization-based Language Model Compression(2001) #TokyoNLP

2011-04-23 13:27:49
KOMIYA Atsushi @komiya_atsushi

頻度情報を量子化するとなると、その分精度を犠牲にする、ということかな? #TokyoNLP

2011-04-23 13:29:01
KOMIYA Atsushi @komiya_atsushi

よく現れる「頻度」に対して、多くの代表値を割り当てる。Huffman 符号に似ているなあ。 #TokyoNLP

2011-04-23 13:31:40
hiroshi @mutuki

Looyd's アルゴリズムか…量子化して4byteで表せる頻度(約43億)を2byte(65,536)種類の値で代表させる。 #tokyoNLP

2011-04-23 13:32:35
hiroshi @mutuki

2byteで溢れちゃったら4byteにする。この際に単語IDソートを利用してLookupテーブルを使って圧縮してる #tokyoNLP

2011-04-23 13:35:38
Yoh Okuno @yoh_okuno

Compressiong trigram language model using golomb coding(2007) #TokyoNLP

2011-04-23 13:36:50
KUBOTA Yuji @sugarlife

Lloyd-Max algorithmによるn-gram圧縮 Quantization-based Languange Model Compression : http://t.co/IXQeXUS #TokyoNLP

2011-04-23 13:37:44
hiroshi @mutuki

3gramをハッシュ値でインデキシング。ソートして隣接要素の差分をGolomb符号で圧縮するテクニック。この場合WordIDを格納する必要がない。 #tokyoNLP

2011-04-23 13:43:11
hiroshi @mutuki

衝突とのトレードオフ? エントリ総数の2万倍あたりの素数を使って衝突確率を2万分の1にして回避している。これ、MS-IMEのチームが作っているのかー。 #tokyoNLP

2011-04-23 13:45:10
hiroshi @mutuki

LOUDSを使用した木構造を表すテクニック。普通に組むと5.3bit使うところを2.4bitまで節約できる。 #tokyoNLP

2011-04-23 13:49:05
1 ・・ 7 次へ