単語N-Gramの高精度化の王道パターンとしてコーパス収集を挙げられている。過去、敢えてコーパスを限定して前向きな言語モデルを作ろうとしたことを思い出した。例:惨事→賛辞 #TokyoNLP
2011-01-22 13:45:40#TokyoNLP 1)話題適応:LDA,PLSA 2)表現適応:CRL 3)未知N-gram:単語クラスタリングによる Class N-gram化
2011-01-22 13:47:32#TokyoNLP 音声合成で歌を歌わせる 等の技術で小手先パターンは使われているかも との事 関西語は難しい!=>標準語 に直して認識させる手も
2011-01-22 13:48:45“@sugarlife: 恐らく先ほどの言語モデルはこちらのエンジンのもの 音声認識エンジン julius : http://sourceforge.jp/projects/julius/ #TokyoNLP” SnowLeopardになってからmake通らないのよね(ーー;)
2011-01-22 13:49:39#TokyoNLP 認識しにくい物) ・巨大なコーパスでも全て認識網羅できない ・認識内容:内容範囲が広いと難しい =>スムージング(0頻度の単語に確率を付与)をして、強引に認識閾値を上げる
2011-01-22 13:53:31#TokyoNLP 精度に対する指標) 1)音声データ=>コーパス(Word Correct,Word Accuracy)・・音声データとコーパスが1対1に対応してある 2)テキストデータのコーパスを用いる方法(Parplexity)
2011-01-22 13:57:12#TokyoNLP ・Perpiexity=>音声認識分野で言語モデル単体の性の評価に用いられる指標 評価実験) ・MeCab =>生成データを後からいじる ・NAIST Japanise Dictonary ・SRLM
2011-01-22 13:59:28SRILM - The SRI Language Modeling Toolkit #TokyoNLP http://www-speech.sri.com/projects/srilm/
2011-01-22 13:59:30"NAIST Japanese Dictionary" 形態素解析用辞書。表記ゆれ情報、複合語情報を付与した辞書。 http://bit.ly/e0Lo72 #TokyoNLP
2011-01-22 14:03:20#TokyoNLP 学習コーパス Wikipedia 凄く多い ・ヒープスの法則(V=KS)・・等比級数的に増加せず <曲線のグラフはMeCab生成データによる曲線色が強い (音声認識だと些末データはしょっている?)
2011-01-22 14:04:31#TokyoNLP ・スムージング手法による差ははそれほど大きくない ・コーパス規模に比例する<料理なら料理と分野を限定した上で ■MSは網羅N-GRAMを作っていたが、範囲が広すぎて認識率が悪かった
2011-01-22 14:09:27#TokyoNLP 音声認識の探索) ・辞書無しに、音素情報だけでやると場合分け(網羅率)が爆発する ・無くても認識に必要がない物(音声)は捨ててる。<全て拾うわけではない?
2011-01-22 14:13:25オープンソースの音声認識エンジンJulius http://julius.sourceforge.jp/ によるデモ #TokyoNLP
2011-01-22 14:21:42音声認識エンジン「Julius」 http://sourceforge.jp/projects/julius/ #TokyoNLP
2011-01-22 14:21:42ドメイン(話題、トピック)を考慮してWEBテキストから言語モデルを構築し、Preplexityを改善するということもやられてますね。http://www.ar.media.kyoto-u.ac.jp/members/misu/ #TokyoNLP
2011-01-22 14:22:58#TokyoNLP ・音声エンジン: Julius http://julius.sourceforge.jp/ ・言語モデル: SRILM/32000語 でのデモ(rubyで動いてる?) COOKPADを例にして見てる・・
2011-01-22 14:23:19