東京NLPのustです。 #TokyoNLP http://www.ustream.tv/channel/%E6%9D%B1%E4%BA%ACnlp
2011-04-23 13:11:49n-gram のコーパスを公開していらっしゃるやたさん、marisa-trie の人かあ。 #TokyoNLP
2011-04-23 13:20:00Quontization-based Language Model Compression(2001) #TokyoNLP
2011-04-23 13:27:49よく現れる「頻度」に対して、多くの代表値を割り当てる。Huffman 符号に似ているなあ。 #TokyoNLP
2011-04-23 13:31:40Looyd's アルゴリズムか…量子化して4byteで表せる頻度(約43億)を2byte(65,536)種類の値で代表させる。 #tokyoNLP
2011-04-23 13:32:352byteで溢れちゃったら4byteにする。この際に単語IDソートを利用してLookupテーブルを使って圧縮してる #tokyoNLP
2011-04-23 13:35:38Compressiong trigram language model using golomb coding(2007) #TokyoNLP
2011-04-23 13:36:50Lloyd-Max algorithmによるn-gram圧縮 Quantization-based Languange Model Compression : http://t.co/IXQeXUS #TokyoNLP
2011-04-23 13:37:443gramをハッシュ値でインデキシング。ソートして隣接要素の差分をGolomb符号で圧縮するテクニック。この場合WordIDを格納する必要がない。 #tokyoNLP
2011-04-23 13:43:11衝突とのトレードオフ? エントリ総数の2万倍あたりの素数を使って衝突確率を2万分の1にして回避している。これ、MS-IMEのチームが作っているのかー。 #tokyoNLP
2011-04-23 13:45:10LOUDSを使用した木構造を表すテクニック。普通に組むと5.3bit使うところを2.4bitまで節約できる。 #tokyoNLP
2011-04-23 13:49:05