2011/12/17_第6回 さくさくテキストマイニング勉強会( #SakuTeki )
- kimukou2628
- 4683
- 0
- 3
- 6
(#SakuTeki ust at http://t.co/K5GXY3C9 ) テキストマイニング と 自然言語処理 は違いますよ~とのお話 「鍛冶屋」と「料理人」
2011-12-17 13:54:22(#SakuTeki ust at http://t.co/K5GXY3C9 ) コーパス・・分析する人によって違うらしい(観点の違い? 素性=そせい<自然言語処理、テキストマイニングの専門家はこちらで読みます
2011-12-17 13:55:32(#SakuTeki ust at http://t.co/K5GXY3C9 ) アノテーション、辞書・・結構時間がかかります。 <だからその手の製品を買う意義が出てくるのかな?(数理さんのとか
2011-12-17 13:57:35(#SakuTeki ust at http://t.co/K5GXY3C9 ) チャンキング・・車の事を分析したいとき=>車の記述がある部分を抜き出して行う ほうが良(コスト等がかかるので
2011-12-17 13:59:13(#SakuTeki ust at http://t.co/K5GXY3C9 ) クローリング) Twitter Streaming API は大量のテキストデータが取得できるので、統計解析する題材としては凄くオススメ <貯めるのはMongoDBとかで貯めるのかな?
2011-12-17 14:00:16(#SakuTeki ust at http://t.co/K5GXY3C9 ) データクレンジング・・地味な作業、みんなが遣りたがらない作業=>でも一番精度が上がりますよ とのお話
2011-12-17 14:00:58(#SakuTeki ust at http://t.co/K5GXY3C9 ) テキストマイニングを使って=>どう利用するかどうか が趣旨の勉強会です。 @toilet_lunch さんが病欠なので、@gepuro さんの発表から とのこと
2011-12-17 14:03:33(#SakuTeki ust at http://t.co/K5GXY3C9 ) そうそうテキストマイニングスタジオでしたね~ http://t.co/XeuBmhdy
2011-12-17 14:06:05(#SakuTeki ust at http://t.co/K5GXY3C9 ) クラスタ分析:データの集合(人の呟き、自分の呟き)=>いくつかに分ける=>ごちゃ混ぜにする
2011-12-17 14:07:23(#SakuTeki ust at http://t.co/K5GXY3C9 ) ・クラスタリング:教師無し ・クラス分類:教師有り <=あらかじめ「○○」なワードがくることが解っている方
2011-12-17 14:08:22(#SakuTeki ust at http://t.co/K5GXY3C9 ) 文字のバイグラム =>2文字のセット RMecab を使うと3行程度で ・多いの3万字、少ないのは4500文字 で分析 =>これで分析できるのはTwitterが特殊な環境なのかも
2011-12-17 14:11:58@AntiBayes なんかオフラインになっているそうです~ RT @TakumiShimizu: #SakuTeki のust見たかったけど、番組がオフラインになっている。残念。次回は是非参加したい。
2011-12-17 14:12:57サクサクテキストマイニング勉強会の発表資料です。 "テキストマイニングのイメージと実際" http://t.co/bphpuo1W #Sakuteki #さくテキ
2011-12-17 14:13:26さくさくテキストマイニング勉強会のUstですが、端末が落ちてしまいました…。復旧しましたらまたアナウンスします http://t.co/pvJP560D #Sakuteki #さくテキ
2011-12-17 14:16:29(#SakuTeki ust at http://t.co/K5GXY3C9 ) kmeans ・・ @toilet_lunch さんの http://t.co/2myBztUW をみてね~ の話
2011-12-17 14:16:31(#SakuTeki ust at http://t.co/K5GXY3C9 ) Q)「今日は」「きょうは」「キョウハ」は別単語になりますが問題無いのか? A)RMecabは単語ですが、文字で判定されていると聞きましたが=>詳細は色んな方法を試し試しで遣ってみた感じです
2011-12-17 14:21:17漢字とカタカナ・ひらがなを別物とあつかうかどうか?若い人はカタカナが多くて、年代があがると漢字が増えるという傾向はあったりしますね。 #SakuTeki
2011-12-17 14:21:37