2011/01/22 第4回 自然言語処理勉強会@東京
- kimukou2628
- 1536
- 0
- 0
- 0
#TokyoNLP 認識しにくい物) ・巨大なコーパスでも全て認識網羅できない ・認識内容:内容範囲が広いと難しい =>スムージング(0頻度の単語に確率を付与)をして、強引に認識閾値を上げる
2011-01-22 13:53:31#TokyoNLP 精度に対する指標) 1)音声データ=>コーパス(Word Correct,Word Accuracy)・・音声データとコーパスが1対1に対応してある 2)テキストデータのコーパスを用いる方法(Parplexity)
2011-01-22 13:57:12#TokyoNLP ・Perpiexity=>音声認識分野で言語モデル単体の性の評価に用いられる指標 評価実験) ・MeCab =>生成データを後からいじる ・NAIST Japanise Dictonary ・SRLM
2011-01-22 13:59:28SRILM - The SRI Language Modeling Toolkit #TokyoNLP http://www-speech.sri.com/projects/srilm/
2011-01-22 13:59:30"NAIST Japanese Dictionary" 形態素解析用辞書。表記ゆれ情報、複合語情報を付与した辞書。 http://bit.ly/e0Lo72 #TokyoNLP
2011-01-22 14:03:20#TokyoNLP 学習コーパス Wikipedia 凄く多い ・ヒープスの法則(V=KS)・・等比級数的に増加せず <曲線のグラフはMeCab生成データによる曲線色が強い (音声認識だと些末データはしょっている?)
2011-01-22 14:04:31#TokyoNLP ・スムージング手法による差ははそれほど大きくない ・コーパス規模に比例する<料理なら料理と分野を限定した上で ■MSは網羅N-GRAMを作っていたが、範囲が広すぎて認識率が悪かった
2011-01-22 14:09:27#TokyoNLP 音声認識の探索) ・辞書無しに、音素情報だけでやると場合分け(網羅率)が爆発する ・無くても認識に必要がない物(音声)は捨ててる。<全て拾うわけではない?
2011-01-22 14:13:25オープンソースの音声認識エンジンJulius http://julius.sourceforge.jp/ によるデモ #TokyoNLP
2011-01-22 14:21:42音声認識エンジン「Julius」 http://sourceforge.jp/projects/julius/ #TokyoNLP
2011-01-22 14:21:42ドメイン(話題、トピック)を考慮してWEBテキストから言語モデルを構築し、Preplexityを改善するということもやられてますね。http://www.ar.media.kyoto-u.ac.jp/members/misu/ #TokyoNLP
2011-01-22 14:22:58#TokyoNLP ・音声エンジン: Julius http://julius.sourceforge.jp/ ・言語モデル: SRILM/32000語 でのデモ(rubyで動いてる?) COOKPADを例にして見てる・・
2011-01-22 14:23:19「SRILM」 - The SRI Language Modeling Toolkit http://www-speech.sri.com/projects/srilm/ #TokyoNLP
2011-01-22 14:25:19RT @hamadakoichi: 音声認識エンジン「Julius」 http://sourceforge.jp/projects/julius/ #TokyoNLP
2011-01-22 14:25:25音声合成 straight http://bit.ly/hZ5TPn RT @hamadakoichi: 音声認識エンジン「Julius」 http://bit.ly/gVgBCT #TokyoNLP
2011-01-22 14:26:47