第４回 #TokyoNLP (2ページ目)

KUBOTA Yuji @sugarlife

単語N-Gramの高精度化の王道パターンとしてコーパス収集を挙げられている。過去、敢えてコーパスを限定して前向きな言語モデルを作ろうとしたことを思い出した。例：惨事→賛辞 #TokyoNLP

2011-01-22 13:45:40

close_yutori @kimukou2628

#TokyoNLP 1)話題適応：LDA,PLSA 2)表現適応：CRL 3)未知N-gram：単語クラスタリングによる Class N-gram化

2011-01-22 13:47:32

close_yutori @kimukou2628

#TokyoNLP 音声合成で歌を歌わせる等の技術で小手先パターンは使われているかもとの事関西語は難しい！＝＞標準語に直して認識させる手も

2011-01-22 13:48:45

暮夜満足 @mansuku

“@sugarlife: 恐らく先ほどの言語モデルはこちらのエンジンのもの音声認識エンジン julius : http://sourceforge.jp/projects/julius/ #TokyoNLP” SnowLeopardになってからmake通らないのよね(ｰｰ;)

2011-01-22 13:49:39

close_yutori @kimukou2628

#TokyoNLP 認識しにくい物) ・巨大なコーパスでも全て認識網羅できない・認識内容：内容範囲が広いと難しい＝＞スムージング(0頻度の単語に確率を付与)をして、強引に認識閾値を上げる

2011-01-22 13:53:31

Yoh Okuno @yoh_okuno

やっぱりネイザーネイって読むんだ… #TokyoNLP

2011-01-22 13:53:43

takesako @takesako

ゼロ頻度の単語に確率を与えてスムージング。ディスカウント係数λの算出方法 Kneser-Ney #tokyoNLP

2011-01-22 13:54:33

close_yutori @kimukou2628

#TokyoNLP 精度に対する指標) 1)音声データ＝＞コーパス（Word Correct,Word Accuracy）・・音声データとコーパスが1対1に対応してある 2)テキストデータのコーパスを用いる方法(Parplexity)

2011-01-22 13:57:12

📛ukyo📛 @ukyo

#TokyoNLP a)音声データ含む Word Correct, Word Accuracy b)テキストのみPerplexity

2011-01-22 13:57:50

close_yutori @kimukou2628

#TokyoNLP ・Perpiexity=>音声認識分野で言語モデル単体の性の評価に用いられる指標評価実験) ・MeCab ＝＞生成データを後からいじる・NAIST Japanise Dictonary ・SRLM

2011-01-22 13:59:28

takesako @takesako

SRILM - The SRI Language Modeling Toolkit #TokyoNLP http://www-speech.sri.com/projects/srilm/

2011-01-22 13:59:30

Koichi Hamada @hamadakoichi

"NAIST Japanese Dictionary" 形態素解析用辞書。表記ゆれ情報、複合語情報を付与した辞書。 http://bit.ly/e0Lo72 #TokyoNLP

2011-01-22 14:03:20

暮夜満足 @mansuku

#TokyoNLP あお得なのは3-gramか

2011-01-22 14:03:44

close_yutori @kimukou2628

#TokyoNLP 学習コーパス Wikipedia 凄く多い・ヒープスの法則（V＝KS）・・等比級数的に増加せず＜曲線のグラフはMeCab生成データによる曲線色が強い（音声認識だと些末データはしょっている?）

2011-01-22 14:04:31

shuyo @shuyo

KN の方が Modified KN より perplexity が低くなることもあるのか－。 #tokyonlp

2011-01-22 14:06:50

close_yutori @kimukou2628

#TokyoNLP ・スムージング手法による差ははそれほど大きくない・コーパス規模に比例する＜料理なら料理と分野を限定した上で ■MSは網羅N-GRAMを作っていたが、範囲が広すぎて認識率が悪かった

2011-01-22 14:09:27

close_yutori @kimukou2628

#TokyoNLP 音声認識の探索) ・辞書無しに、音素情報だけでやると場合分け(網羅率)が爆発する・無くても認識に必要がない物（音声）は捨ててる。＜全て拾うわけではない？

2011-01-22 14:13:25

close_yutori @kimukou2628

#TokyoNLP ・評価コーパスと学習コーパス＝＞両方が良くなっていくとPerplexityが低くなる

2011-01-22 14:18:09

Yoh Okuno @yoh_okuno

デモンストレーション！ #TokyoNLP

2011-01-22 14:19:05

Yoh Okuno @yoh_okuno

大学の時の実験でJulius使ったことあるなあ #TokyoNLP

2011-01-22 14:19:46

Yoh Okuno @yoh_okuno

クックパッドさんや #TokyoNLP

2011-01-22 14:21:22

takesako @takesako

オープンソースの音声認識エンジンJulius http://julius.sourceforge.jp/ によるデモ #TokyoNLP

2011-01-22 14:21:42

Koichi Hamada @hamadakoichi

音声認識エンジン「Julius」 http://sourceforge.jp/projects/julius/ #TokyoNLP

2011-01-22 14:21:42

KUBOTA Yuji @sugarlife

ドメイン（話題、トピック）を考慮してWEBテキストから言語モデルを構築し、Preplexityを改善するということもやられてますね。http://www.ar.media.kyoto-u.ac.jp/members/misu/ #TokyoNLP

2011-01-22 14:22:58

close_yutori @kimukou2628

#TokyoNLP ・音声エンジン: Julius http://julius.sourceforge.jp/ ・言語モデル: SRILM/32000語でのデモ(rubyで動いてる?) COOKPADを例にして見てる・・

2011-01-22 14:23:19

いま話題のタグ