入力メソッドワークショップ 2013
明日は入力メソッド飲み会2013. http://t.co/dC06YjVbQo 朝バタバタするの嫌なので今から京都入りすることにした.
2013-12-27 17:53:09市バスは激混みだったが、清水寺を過ぎたら普通になった。1時半までには会場に着けるかな?京大は1年ぶりだろうか。#IM2013
2013-12-28 12:54:46入力メソッドワークショップ #IM2013 始まりました〜。最初はNAIST久保さんによる、Pronunciation Estimation with Online Discriminative Learning using Second Order Statisticsです!
2013-12-28 14:09:19音声認識や入力メソッドと関連する発音推定のタスクを教師あり学習(実際はMIRAで学習)したいが、ウェブから抽出したデータなどノイジーなデータに対して弱いという問題がある。そこでノイズに対して頑健な AROW を使って学習する。#IM2013
2013-12-28 14:16:58発音推定(grapheme to phoneme)タスクでは CRF より構造化 MIRA のほうがいい。理由はどうやら発音推定タスクでは書字素の ngram の n が7グラムとか9グラムとか使うので、グラフが巨大になるためらしい。#IM2013
2013-12-28 14:34:222番目は京大の高橋さんによる、方言に対応した仮名漢字変換。「子ども向け甲冑ことや」となってしまう入力を「かっちゅうことや」と変換したい。MS-IMEやGoogle日本語入力、iOSではダメらしい。提案手法では変換できる。 #IM2013
2013-12-28 14:52:49近畿、肥筑、北奥羽、東山陽方言を対象に500文ずつ標準語とそれに対応する方言コーパスを用意。日本語書き言葉コーパスに単に追加するだけで、それらの方言の変換精度は向上。標準語の変換精度も大きく下がらない。ただし山陽方言だけはほとんど向上しない。長音を多用するせいか。#IM2013
2013-12-28 15:02:48今回は単純に標準語コーパスに方言コーパスを足しているが、方言に対する分野適応の問題なので、標準語言語モデルと方言の言語モデルを作って線形補間する最適なパラメータを開発セットで推定する、というのがスタンダード。東山陽方言はやはり謎じゃけぇ。 #IM2013
2013-12-28 15:11:28