2015/02/19 デブサミ2015 【19-B-2】DMMのビッグデータ分析のご紹介 ~Sparkによるリアルタイムレコメンド~ #devsumiB
Developers Summit 2015 Growth!
http://event.shoeisha.jp/devsumi/20150219/session/642/
<講演概要>
DMMでは、SocialStreamをリアルタイムに分析し、注目度の高いワード、流行なワードを元にしたリアルタイムレコメンドシステムの研究を行っています。大規模なリアルタイム分析を実現するために、SparkStreaming、MLlib(機械学習)、GraphX(グラフ処理)による並列分散処理基盤の構築を行ってきました。さらに、形態素解析器やSolrを用いた自然言語処理を組み合わせることによる精度向上にも取り組んでいます。本講演では、これらシステムの構築の手順やサンプル等を用いて、わかりやすく説明します。
続きを読む
猫提督ff/kei
@nekoteitoku
形態素解析。ふつうにやったらちゃんと抽出できないので、ユーザ辞書を作った。どれみ、らきすた、とある、まどマギ、にゃる子なども登録っと。 このあたりはIMEがやってる字句解析と同じ処理だな。 #devsumiB
2015-02-19 11:21:45
Yuri Odagiri
@ixixi
#devsumiB 形態素解析はkuromoji。ユーザー辞書は自作とのことだけど、どうやって作ったんだろう。ガンダム種は抽出出来てないらしい。
2015-02-19 11:21:57
FUJII Yoshitaka
@yoshiyoshifujii
ユーザー辞書。いるよね。アニメタイトル抽出するなら。。。 でもガンダムSEEDは無理らしい。 #devsumib
2015-02-19 11:22:01
FUJII Yoshitaka
@yoshiyoshifujii
やっぱユーザー辞書が全てなのかな。ユーザー辞書をどうしていくかがポイント。 #devsumib
2015-02-19 11:25:25