Skip-gramに比べてCBoWの方がレア単語に強いので、頻度に応じて両者を分けることで性能が上がるという話。出現頻度に寄って両者に違いがあるということを実験的に確かめてたというところが面白いところ #emnlpyomi
2015-10-24 13:47:56文の難しさのヒューリスティックな定義に単語の「長ったらしさ」(単語あたりのシラブル数や漢字の難しさや文字数)が使われているが、これを使って単語の難しさを推定するって何かトートロジーぽい気もする。 aclweb.org/anthology/D/D1… #emnlpyomi
2015-10-24 14:18:56文書の難易度判定のタスクで、単語間の難易度の差を考慮した行列で、文書ベクトルを変換、グラフ伝搬で学習すると精度が上がる。やるべきことをちゃんとやっているという感じの印象 #emnlpyomi
2015-10-24 14:23:42@niam @unnonouno あ、niam先生の発表ですか、納得です。これまだ読んでいませんでした。ありがとうございますm(__)m
2015-10-24 14:36:30LSTM はやってんな~。RNN の時点でそこはかとない気持ち悪さを感じていて、LSTM になってなぜかますますその感が強くなったのだが、その気持ち悪さの正体を言語化できずにいる。
2015-10-24 14:39:36LSTM-RNNで中国語単語分割するはなし。出力ラベルを直接推定するんではなくて、そこに遷移行列をかけて、遷移行列もend-to-endで学習する。言われてみればそれでよかったのか・・・ #emnlpyomi
2015-10-24 14:48:53「夏天能穿多少能穿多少、冬天能穿多少能穿多少」は「冬はなるべくたくさん服を着て、夏は着る服が少なければ少ない方が良い」という意味らしい lang-8.com/635431/journal… #emnlpyomi
2015-10-24 14:54:50圧縮接尾辞木でLMの計算を、省メモリ、高速に行う話。ちゃんとKneser-neyしてて、それのために変な分岐数を計算しているところがボトルネック。昔、接尾辞木で出現頻度と文脈長の積の総和を最適化した話をおもいだした #emnlpyomi
2015-10-24 15:12:39Evaluation methods for unsupervised word embeddingsの発表資料です. word embeddinsの評価方法を集めた論文です / slideshare.net/kentonozawa75/… #emnlpyomi
2015-10-24 15:22:44Evaluation methods for unsupervised word embeddings は読んでおこう。 これベースで今度やる単語クラスタリングの評価をやるとか
2015-10-24 15:28:40Compact, Efficient and Unlimited Capacity: Language Modeling with Compressed Suffix Trees の資料をアップロードしました。 slideshare.net/JiroNishitoba/… #emnlpyomi
2015-10-24 15:34:10埋め込みベクトルの評価方法を網羅的にサーベイ。複数の埋め込みベクトル獲得手法と、評価方法を網羅的に試している。頻度の扱いはどうするのか問うのは、議論が多そう #emnlpyomi
2015-10-24 15:47:49アテンションつきencoder/decoder翻訳で、アテンションを張るときに全体(グローバル)にはるのではなくて、選択的に注目するところを選ぶ(ローカルアテンション)。結果を見ると、ローカルアテンションの寄与は少ないようにみえる? #emnlpyomi
2015-10-24 16:11:23