「WebDB Forum 2014 第7回 Webとデータベースに関するフォーラム」まとめ
ビッグデータ基盤技術の最前線のセッション。OS 研究は頭を使う前に体力で勝負する、というのはおもしろいな〜。大規模データ処理も OS 系のトップカンファレンスで最初に発表されていると。NLP 研究だと、体力で勝負するんじゃなく、手と頭で勝負する方向かな。。。#webdbf
2014-11-19 10:48:40Linux のバグを直すと研究になる。学生が1年かけてバグをひたすら見つける。よくあるバグを抽出して、それを自動で検出する手法を提案すればトップカンファレンスに通る。3-4年かかるが、それで PhD が取れる。しかし経験と勘に頼っているのでなんとかしたい。#webdbf
2014-11-19 10:53:40データがないところでビッグデータ基盤の研究をしても注目されない。データがあるところから始めるのは筋がよいと思う #webdbf2014
2014-11-19 10:53:45そこで自然言語処理。Linux の開発が Git に移行してからの全コミットログが取れる。LDA をかけてバグにつながりそうな表現を抽出する。Amazon EC2 で100並列で動かしたら、1ヶ月で200万円かかった。請求書を大学に回したら無茶苦茶怒られた(笑)。#webdbf
2014-11-19 10:56:00現在壇上にいらっしゃる下垣さんは以前筑波大学にてHadoopやJubatusのようなOSSについての講義をしてくださいました。 #webdbf2014
2014-11-19 10:57:21hivemall github.com/myui/hivemall が使われるようになったきっかけはHadoop Conferenceで研究内容を紹介してから。産業界へのアウトリーチ活動 #webdbf2014
2014-11-19 11:06:09パネル討論。産業界にインパクトのある研究とは?機械学習の Hivemall の開発で一番大きかったのは、Hadoop Summit のような研究ではない開発系のカンファレンスに出したのが転換点だった。海外の人に向けてアウトリーチ活動をすると道が拓けるかも? #webdbf
2014-11-19 11:07:06TDでHivemallを使う例の紹介記事 treasuredata.wpengine.com/2014/10/13/how… #webdbf2014
2014-11-19 11:07:49ソフトウェアを広めるのに論文を発表するということも利用できる時代。うまく企業と大学と連携できるといい。共同研究は企業と大学で言葉が違って喧嘩別れになりがちだが、そこを乗り越えて一緒にやりたい。大学側は現場の話をとても欲している。NDAを結んでがっつりやれるといい。#webdbf
2014-11-19 11:12:11共同研究は成功より失敗のほうが多い。学ぶべきは失敗例から。一人でオープンソースのツールを作ると使ってもらえないことが多い。開発の適切な段階、早いうちから複数人で開発する体制を整えたほうが、持続的に継続しやすい。最近は GitHub など、共有方法はいろいろある。 #webdbf
2014-11-19 11:15:31メンテナンスされないコードは産業界では使いにくい。Spark, Hivemallは成功例ではとのコメント #webdbf2014
2014-11-19 11:21:34スポンサー様からのノベルティ色々 #webdbf2014 pic.twitter.com/34e3NzWrEX
2014-11-19 11:23:09大学では多種、大規模なデータがほしいので、企業からデータを出してほしい。企業では動いているコードが全てなので、大学からコードを出してほしい。動いているコードがあれば陳腐化しないですむ。論文を書くのもいいが、GitHub などでコードを出すことを強く意識してほしい。#webdbf
2014-11-19 11:26:35