第5回自然言語処理勉強会 #TokyoNLP

hiroshi @mutuki

ぼちぼち開始らしい。 #tokyoNLP

2011-04-23 13:09:26

Yoh Okuno @yoh_okuno

第5回自然言語処理勉強会勉強会、始まります。 #TokyoNLP

2011-04-23 13:10:45

人間性 @toilet_lunch

東京NLPのustです。 #TokyoNLP http://www.ustream.tv/channel/%E6%9D%B1%E4%BA%ACnlp

2011-04-23 13:11:49

hiroshi @mutuki

最初は @machy さんの「n-gramを小さくする話を調べてみた」だそうです。 #tokyoNLP

2011-04-23 13:15:17

Yoh Okuno @yoh_okuno

最初は @machy さんの「n-gramを小さくする話を調べてみた」 #TokyoNLP

2011-04-23 13:15:49

hiroshi @mutuki

今日の題材は n-gram確率（言語モデル）のほう。もう少し言うと文字n-gramのお話。 #tokyoNLP

2011-04-23 13:17:48

KOMIYA Atsushi @komiya_atsushi

今回の n-gram は単語単位とのこと。 #TokyoNLP

2011-04-23 13:17:53

Yoh Okuno @yoh_okuno

google n-gramは高いので @s5yata さんの日本語Webコーパスを圧縮 #TokyoNLP

2011-04-23 13:18:52

hiroshi @mutuki

ターゲットはメモリ使用量を小さくする。圧縮して小さくしても展開時に大きいとあまり嬉しくない。 #tokyoNLP

2011-04-23 13:19:12

KOMIYA Atsushi @komiya_atsushi

n-gram のコーパスを公開していらっしゃるやたさん、marisa-trie の人かあ。 #TokyoNLP

2011-04-23 13:20:00

hiroshi @mutuki

Google n-gramって4万円なのか…個人で買え…いやいやいや買わない買わない（自己暗示中） #tokyoNLP

2011-04-23 13:20:08

人間性 @toilet_lunch

ustがめちゃめちゃでかい疑惑解像度落とします #TokyoNLP

2011-04-23 13:21:42

hiroshi @mutuki

普通というか富豪的に組むと3gramで12GBか…頑張ったら4GBまで削減可能。 #tokyoNLP

2011-04-23 13:24:38

Akisato Kimura @_akisato

#TokyoNLP も見たいなぁ　（欲望は果てしない

2011-04-23 13:25:36

Yoh Okuno @yoh_okuno

Quontization-based Language Model Compression(2001) #TokyoNLP

2011-04-23 13:27:49

KOMIYA Atsushi @komiya_atsushi

頻度情報を量子化するとなると、その分精度を犠牲にする、ということかな？ #TokyoNLP

2011-04-23 13:29:01

人間性 @toilet_lunch

画質がかなり悪いですが http://t.co/QQWZLkk #TokyoNLP

2011-04-23 13:30:08

KOMIYA Atsushi @komiya_atsushi

よく現れる「頻度」に対して、多くの代表値を割り当てる。Huffman 符号に似ているなあ。 #TokyoNLP

2011-04-23 13:31:40

hiroshi @mutuki

Looyd's アルゴリズムか…量子化して4byteで表せる頻度（約43億）を2byte（65,536）種類の値で代表させる。 #tokyoNLP

2011-04-23 13:32:35

hiroshi @mutuki

2byteで溢れちゃったら4byteにする。この際に単語IDソートを利用してLookupテーブルを使って圧縮してる #tokyoNLP

2011-04-23 13:35:38

Yoh Okuno @yoh_okuno

Compressiong trigram language model using golomb coding(2007) #TokyoNLP

2011-04-23 13:36:50

KUBOTA Yuji @sugarlife

Lloyd-Max algorithmによるn-gram圧縮 Quantization-based Languange Model Compression : http://t.co/IXQeXUS #TokyoNLP

2011-04-23 13:37:44

hiroshi @mutuki

3gramをハッシュ値でインデキシング。ソートして隣接要素の差分をGolomb符号で圧縮するテクニック。この場合WordIDを格納する必要がない。 #tokyoNLP

2011-04-23 13:43:11

hiroshi @mutuki

衝突とのトレードオフ? エントリ総数の2万倍あたりの素数を使って衝突確率を2万分の1にして回避している。これ、MS-IMEのチームが作っているのかー。 #tokyoNLP

2011-04-23 13:45:10

hiroshi @mutuki

LOUDSを使用した木構造を表すテクニック。普通に組むと5.3bit使うところを2.4bitまで節約できる。 #tokyoNLP

2011-04-23 13:49:05

いま話題のタグ