- kimukou2628
- 3599
- 0
- 5
- 0
#tokyonlp 日本語文章の場合の例> 1)文分割・・「。」で切る <=新聞はきれいな文章なので楽。Twは文章境界が分かりづらい。音声認識の言葉も 2)文短縮・・修飾子を削除 <=大切でない所は消すという発想。文法性を保つ <=高分岐を枝刈りのアプローチ
2011-09-10 16:18:18RT @a_bicky: 一応スライドアップしました。「まとめ」がないという悲惨な状態ですが・・・。発表後修正すると思います。 / 文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜 http://j.mp/nQ2rjP #tokyonlp
2011-09-10 16:20:15#tokyonlp 文短縮の機能は、文章要約システムでは必ず必須ではない。 元)ムバラク大統領に対する抗議デモが続くエジプトで~ ○)エジプトで反体制派が大規模デモを実施する ×)ムバラク大統領に続く大規模デモを実施する n-gram等で判定
2011-09-10 16:21:11#tokyonlp 重要分抽出) ・原書より短く ・条件:バイト、文字数、文数 ・画面サイズ(フォント種類、サイズ、カーニングにも左右) =>制限サイズにうまく収まる文を選ぶ(箱を詰め込むイメージ) <=文の選び方によって善し悪しが決まる
2011-09-10 16:23:40一文が短くて改行が多くて章節が多いやつは意外と短縮できない気も(ぉ。とはいえ、いい小説かどうかの判定に使うと面白いかも。 RT @uchumik: #tokyonlp ラノベを文短縮したら何もなくなりそうだな。重要文抽出をするまでもない。
2011-09-10 16:24:48RT @kimukou_26: #tokyonlp 文章を要約する技術=>テロ後凄く重視されている =>アラビア語等世界中の新聞等の自動要約 <ビジネスとして欧米ではHotなお仕事らしい 情報が圧縮=>読む人の時間が減る=>人件費が圧縮される
2011-09-10 16:27:28#tokyonlp tf-idf法) ムバラク 20点/大統領 5点 /抗議 7点 等、言葉にスコアを付けて重み付けを定義する
2011-09-10 16:30:28RT @AntiBayes: 自然言語処理各位で「midoisanの作者は誰だ」という話で盛り上がり、最終的にtodesking殿が作者であろうという結論に達した #TokyoNLP
2011-09-10 16:31:31RT @atndbot_tweet: [Today]: 第7回自然言語処理勉強会 #TokyoNLP,参加者 50/定員 50/補欠者 4,〒150-0045 東京都渋谷区神泉町8-16 渋谷ファーストプレイス8F ,http://t.co/nWxA3SH
2011-09-10 16:31:55RT @AntiBayes: 自然言語処理各位で「midoisanの作者は誰だ」という話で盛り上がり、最終的にtodesking殿が作者であろうという結論に達した #TokyoNLP
2011-09-10 16:32:23RT @AntiBayes: 自然言語処理各位で「midoisanの作者は誰だ」という話で盛り上がり、最終的にtodesking殿が作者であろうという結論に達した #TokyoNLP
2011-09-10 16:32:48RT @AntiBayes: 自然言語処理各位で「midoisanの作者は誰だ」という話で盛り上がり、最終的にtodesking殿が作者であろうという結論に達した #TokyoNLP
2011-09-10 16:32:58RT @AntiBayes: 自然言語処理各位で「midoisanの作者は誰だ」という話で盛り上がり、最終的にtodesking殿が作者であろうという結論に達した #TokyoNLP
2011-09-10 16:34:24RT @y42sora: MMR(Maximum Marginal Relevance) マガジンミステリー調査班の略じゃ無いよ! #tokyonlp
2011-09-10 16:34:35#tokyonlp 冗長性問題) ・複数の文章で含まれている文章は冗長ではないか?<省ける対象かどうか? =>類似度を定義、否定語が入っていないか判定
2011-09-10 16:35:26ここらへん、どうでしょうか? #TokyoNLP RT @synapse_ag: 学術は編集されるべきか?という対して、僕ならば、既に編集されていると答える。ただ「既存の編集手法のままでいいのか」という問題提起を行いたい(live at http://t.co/9m5Xww4)
2011-09-10 16:40:12#tokyonlp argmax操作) ・貪欲法: <=最適解を総当たりでみる ・性能保証付き貪欲法:khuller+1996 ・動的計画法 <=冗長性を考慮しない ・整数計画法 ・劣モジュラ最適化
2011-09-10 16:40:53#tokyonlp Sentence ordering アプローチ) ・タイムスタンプ順に<速く報道された新聞の記事の法を使う ・統計モデルの導入 <=連接コスト=グラフの探索に既着(巡回セールスマン問題) <=計算量を減らす工夫が必要
2011-09-10 16:43:26