#tokyotextmining ( http://atnd.org/events/8140 )応援企画で、COLING2010 の読んだ papers の感想をいくつかPOSTしてみる。NLPは素人なので誤読指摘歓迎。
2010-09-24 14:26:48[Smith COLING2010] Nonparametric Word Segmentation for Machine Translation. アラビア語や中国語を分かち書きして、機械翻訳の精度を向上する、というもの。持橋さんの無教師分かち書きを利用。
2010-09-24 14:27:24[Smith COLING2010]続き。「アラビア語の分かち書き」の例がおもしろい。合成語のある言語をやったことないなら、一度見とくといいかも。BLEUに慣れていないので、評価をどう見るかわからない……。
2010-09-24 14:29:24[Cai+ COLING2010] Simultaneous Ranking and Clustering of Sentence: A Reinforcement Approach to Multi-Document Summarization. キーワードてんこ盛りなタイトル
2010-09-24 14:30:13[Cai+ COLING2010]続き。タイトル長すぎw。sentenceとtermを無向グラフで表現、page-rank的漸化式を解く、というポピュラーに思える手法(TextRankもこんな感じ?)。ポイントはsentenceとtermが潜在的なクラスタを持つと仮定して……
2010-09-24 14:32:48[Cai+ COLING2010]続き。それをEMAで解いてるところ?(トピックモデル的?) あとは得られた係数を使ってsentenceのランキングを決定する評価関数を構築、評価の高いsentenceを要約として抽出。実装は難しく無さそう。どの辺が強化学習かわからなかった(苦笑)
2010-09-24 14:34:42[Bu+ COLING2010]Measuring the Non-compositionality of Multiword Expressions. 複合語の抽出手法の提案。
2010-09-24 14:37:17[Bu+ COLING2010]続き。n-gramに対し導入した MED(Multiword Expression Distance)が類似手法より精度がよい、という内容。bigram の場合はPMIと一致。MEDの特徴量にはYahoo検索のヒット数を用いる。
2010-09-24 14:38:15[Bu+ COLING2010]続き。knowledge-freeを歌っているが、Experiments で最高性能を出していた conditional MED の条件付けに作為的なキーワードが指定されており、これは knowledge じゃあないのかと小一時間(ry
2010-09-24 14:40:38[Okazaki+ COLING2010]Simple and Efficient Algorithm for Approximate Dictionary Matching. タイトルから「近似探索かな?」勘違いしたが(実験でも比較対象はLSHだし)、類似語検索の手法だった。
2010-09-24 14:44:16[Okazaki+ COLING2010]続き。簡単なアルゴリズム、LSHの速度で、recall 100%。代償として、文字列の長さ別にtrigramのinverted indexを構成するので空間計算量がなかなか。元のテキストが212MBのとき、indexが1.1GB。
2010-09-24 14:46:27[Neviarouskaya+ COLING2010] Recognition of Affect, Judgment, and Appreciation in Text. 自然文から評判・評価の抽出。ルールベースで、論文の大半がそのルール(の一部?)の書き下しに費やされている。
2010-09-24 14:47:37[Neviarouskaya+ COLING2010]続き。テストセットは独自収集。テストセットにあわせてルールを追加する「最適化」すれば、その「最適化」を行ってない手法より良い結果がでるのは当たり前のような気もするが、NLPらしいNLPの論文を他に読んでないので多分誤読してる?
2010-09-24 14:50:29[Gao+ COLING2010] A Large Scale Ranker-Based System for Search Query Spelling Correction. 検索の「もしかして」機能の構築。MS Research の人。
2010-09-24 14:52:07[Gao+ COLING2010]続き。standardな通信路モデル(argmax_C P(Q|C)P(C))+順当な特徴量。メインは言語モデルP(C)をMSのWeb corpus(13TB)から丁寧に作ってるところかな。
2010-09-24 14:54:42ですです。実装は試させてもらってません~(汗 RT @nokuno: @shuyo 岡崎さんの論文はSimStringの評価の話ですかね~ http://bit.ly/awvFSH
2010-09-24 14:55:36[Gao+ COLING2010]続き。Aardvark論文では言語モデルは一様分布だったなー(遠い目)。実装はMS版Map-ReduceのSCOPEを使う。「もしかして」のフィードバック(ユーザのクリック)を使って、P(Q|C)を更新する話は初見だったのでおもしろかった。
2010-09-24 14:57:44[Gao+ COLING2010]続き。Experimentsにもなかなかスケールの大きい話が書いてあって、さすがMS、と内容にあまり関係ないところでいちいち感心w。
2010-09-24 15:00:01強化学習という意味で reinforcement を使っているようではないようでしたね。私もこのタイトルをみたときはびっくりしました。 会場でトークを聞いたはずなのですが、もう忘れています……。 RT @shuyo [Cai+ COLING2010]続き。タイトル長すぎw。
2010-09-24 15:18:50以上、COLING2010 の読んでみた論文でした。誤読指摘歓迎。この辺の論文も面白いよ、ってのも。 #tokyotextmining
2010-09-24 15:01:55ありがとうございます。なるほどやはりそうでしたか。紛らわしいですよね~ RT @hitoshi_ni: 強化学習という意味で reinforcement を使っているようではないようでしたね。私もこのタイトルをみたときはびっくりしました。 会場でトークを聞いたはずなのですが、……
2010-09-24 15:29:53