2015/02/19 デブサミ2015 【19-B-2】DMMのビッグデータ分析のご紹介 ~Sparkによるリアルタイムレコメンド~ #devsumiB

Developers Summit 2015 Growth! http://event.shoeisha.jp/devsumi/20150219/session/642/ <講演概要> DMMでは、SocialStreamをリアルタイムに分析し、注目度の高いワード、流行なワードを元にしたリアルタイムレコメンドシステムの研究を行っています。大規模なリアルタイム分析を実現するために、SparkStreaming、MLlib(機械学習)、GraphX(グラフ処理)による並列分散処理基盤の構築を行ってきました。さらに、形態素解析器やSolrを用いた自然言語処理を組み合わせることによる精度向上にも取り組んでいます。本講演では、これらシステムの構築の手順やサンプル等を用いて、わかりやすく説明します。 続きを読む
3
arimo @arimo

テレビでやったやつをリアルタイムにアニメカテゴリに出したりできるとかすごい効果ありそう #devsumiB

2015-02-19 11:20:26
FUJII Yoshitaka @yoshiyoshifujii

形態素解析は、kuromojiを採用したとのこと。 #devsumib

2015-02-19 11:20:51
Manabu Uchida @uchimanajet7

ユーザー辞書はやっぱり必要 #devsumib

2015-02-19 11:21:17
Jun Ohtani @johtani

さすが、Twitter4j。ここでも出てきた。 #devsumiB

2015-02-19 11:21:33
猫提督ff/kei @nekoteitoku

形態素解析。ふつうにやったらちゃんと抽出できないので、ユーザ辞書を作った。どれみ、らきすた、とある、まどマギ、にゃる子なども登録っと。 このあたりはIMEがやってる字句解析と同じ処理だな。 #devsumiB

2015-02-19 11:21:45
Yuri Odagiri @ixixi

#devsumiB 形態素解析はkuromoji。ユーザー辞書は自作とのことだけど、どうやって作ったんだろう。ガンダム種は抽出出来てないらしい。

2015-02-19 11:21:57
FUJII Yoshitaka @yoshiyoshifujii

ユーザー辞書。いるよね。アニメタイトル抽出するなら。。。 でもガンダムSEEDは無理らしい。 #devsumib

2015-02-19 11:22:01
NO_NAME @fujisan3

形態素解析はkuromojiを使っている #devsumib

2015-02-19 11:22:04
tt @tora470

ガンダムSEEDを種で抽出はムリだった #devsumi #devsumiB

2015-02-19 11:22:07
Jun Ohtani @johtani

形態素解析にはkuromoji。もちろん、ユーザー辞書作成してる。 #devsumiB

2015-02-19 11:22:34
猫提督ff/kei @nekoteitoku

意味解析しないと無理な語もあるよね。そこまではやってないのか。 #devsumiB

2015-02-19 11:22:56
NO_NAME @fujisan3

プレゼンソフトはPreziですね #devsumib #devsumi

2015-02-19 11:23:03
猫提督ff/kei @nekoteitoku

イカちゃんの関連度の高さ。 #devsumiB

2015-02-19 11:23:42
tt @tora470

CCさくらはキーワードになかった。時代の流れw #devsumi #devsumib

2015-02-19 11:24:23
FUJII Yoshitaka @yoshiyoshifujii

やっぱユーザー辞書が全てなのかな。ユーザー辞書をどうしていくかがポイント。 #devsumib

2015-02-19 11:25:25
Manabu Uchida @uchimanajet7

☆を解析に含めたら関連度が低くなるとか… #devsumib

2015-02-19 11:26:06
猫提督ff/kei @nekoteitoku

ツイートから単語を抽出、スコアリングする。 教師データの作成は手作業。 手作業とな? #devsumiB

2015-02-19 11:27:55
Yuri Odagiri @ixixi

#devsumiB DMMに関係無いtweetはフィルタする。教師データ作成は手作業で、SVM。

2015-02-19 11:27:56