IIJ Technical WEEK 2013 1日目 #iij_tw2013

IIJのエンジニアによるイベント IIJ Technical WEEK 2013 1日目の模様です。 全日程のプログラム: http://techlog.iij.ad.jp/archives/815 * Stratosphereが提供するSDN/OpenFlow技術の現在と未来 * GIO-APIを支えるAPIプラットフォーム * MySQL互換DWHデータベース on IIJ GIO 続きを読む
3
前へ 1 ・・ 5 6
堂前@IIJ @IIJ_doumae

Wikipedia上の「ドラマ」のページのパターン。原作ページ内に「ドラマ」のセクションがある・ドラマ単独ページ・シリーズ化ドラマ。登場人物が別ページになっている場合も。 #iij_tw2013 http://t.co/RRBdP8Dr1V

2013-11-19 17:16:20
堂前@IIJ @IIJ_doumae

官途件の視聴率のデータが掲載されていたのでこれを利用。キャスト・スタッフのページへのリンクも関連ページとして抽出。2008〜2013年のドラマ317件を選択。四半期枠にはまらないNHK、スペシャル版は除外。 #iij_tw2013 http://t.co/RRBdP8Dr1V

2013-11-19 17:18:11
堂前@IIJ @IIJ_doumae

ドラマが放送された4半期分のPV情報を抽出する。1ドラマに2時間かかる。300のドラマについて実行すると21ヶ月かかってしまう。どうやって時間を短縮するか。 #iij_tw2013 http://t.co/RRBdP8Dr1V

2013-11-19 17:21:33
堂前@IIJ @IIJ_doumae

ibulletを使って段階的に抽出する。全データから日本語版関連のデータを抽出、そのデータに対してドラマ毎のデータを抽出。これをノード6台で並列実行。最初のプロセスに9.25時間、次のプロセスは1.5時間。 #iij_tw2013 http://t.co/RRBdP8Dr1V

2013-11-19 17:23:31
堂前@IIJ @IIJ_doumae

出力結果をRにより解析。(各ドラマについての解析結果を紹介しています……) #iij_tw2013 http://t.co/RRBdP8Dr1V

2013-11-19 17:29:04
堂前@IIJ @IIJ_doumae

まとめ。Indexer Bulletはキャッシュベースのシステム。ビッグデータ解析では作業の反復が多いので、キャッシュにより効率的な解析を行うことができます。 #iij_tw2013 http://t.co/RRBdP8Dr1V

2013-11-19 17:32:44
堂前@IIJ @IIJ_doumae

【IIJ Technical WEEK 2013】本日分の講演はすべて終了いたしました。長時間おつきあいありがとうございました。明日もよろしくお願いいたします。 #iij_tw2013 http://t.co/m8uxKme7FU

2013-11-19 17:40:58
前へ 1 ・・ 5 6