「WebDB Forum 2014 第7回 Webとデータベースに関するフォーラム」まとめ (2ページ目)

ビッグデータ基盤技術の最前線のセッション。OS 研究は頭を使う前に体力で勝負する、というのはおもしろいな〜。大規模データ処理も OS 系のトップカンファレンスで最初に発表されていると。NLP 研究だと、体力で勝負するんじゃなく、手と頭で勝負する方向かな。。。#webdbf

2014-11-19 10:48:40

Mamoru B Komachi @mamoruk

Linux のバグを直すと研究になる。学生が1年かけてバグをひたすら見つける。よくあるバグを抽出して、それを自動で検出する手法を提案すればトップカンファレンスに通る。3-4年かかるが、それで PhD が取れる。しかし経験と勘に頼っているのでなんとかしたい。#webdbf

2014-11-19 10:53:40

Taro L. Saito @taroleo

データがないところでビッグデータ基盤の研究をしても注目されない。データがあるところから始めるのは筋がよいと思う #webdbf2014

2014-11-19 10:53:45

Mamoru B Komachi @mamoruk

そこで自然言語処理。Linux の開発が Git に移行してからの全コミットログが取れる。LDA をかけてバグにつながりそうな表現を抽出する。Amazon EC2 で100並列で動かしたら、1ヶ月で200万円かかった。請求書を大学に回したら無茶苦茶怒られた（笑）。#webdbf

2014-11-19 10:56:00

PosMApp開発チーム @posmapp_say

現在壇上にいらっしゃる下垣さんは以前筑波大学にてHadoopやJubatusのようなOSSについての講義をしてくださいました。 #webdbf2014

2014-11-19 10:57:21

takus @takus_ja

山田さんが #webdbf2014 というところで何か喋っているような雰囲気だ。

2014-11-19 10:59:59

Taro L. Saito @taroleo

Treasure Dataでhivemallが使えると @myuiさんによる紹介 #webdbf2014

2014-11-19 11:04:57

Taro L. Saito @taroleo

hivemall github.com/myui/hivemall が使われるようになったきっかけはHadoop Conferenceで研究内容を紹介してから。産業界へのアウトリーチ活動 #webdbf2014

2014-11-19 11:06:09

Mamoru B Komachi @mamoruk

パネル討論。産業界にインパクトのある研究とは？機械学習の Hivemall の開発で一番大きかったのは、Hadoop Summit のような研究ではない開発系のカンファレンスに出したのが転換点だった。海外の人に向けてアウトリーチ活動をすると道が拓けるかも？ #webdbf

2014-11-19 11:07:06

Taro L. Saito @taroleo

TDでHivemallを使う例の紹介記事 treasuredata.wpengine.com/2014/10/13/how… #webdbf2014

2014-11-19 11:07:49

Taro L. Saito @taroleo

運用しやすさの視点が大事 @shimtoru さん #webdbf2014

2014-11-19 11:08:28

Taro L. Saito @taroleo

大学とうまく連携している例はあるかとの質問 @monizuka 先生 #webdbf2014

2014-11-19 11:12:02

Mamoru B Komachi @mamoruk

ソフトウェアを広めるのに論文を発表するということも利用できる時代。うまく企業と大学と連携できるといい。共同研究は企業と大学で言葉が違って喧嘩別れになりがちだが、そこを乗り越えて一緒にやりたい。大学側は現場の話をとても欲している。NDAを結んでがっつりやれるといい。#webdbf

2014-11-19 11:12:11

Taro L. Saito @taroleo

失敗例なら、と @takahi_i さんw #webdbf2014

2014-11-19 11:12:37

Taro L. Saito @taroleo

最高と研究者が思うものを作っても、誰にも使われないという失敗 #webdbf2014

2014-11-19 11:13:20

Takahiko Ito @takahi_i

Hivemall は成功例だと思ってます． #webdbf2014

2014-11-19 11:14:40

Taro L. Saito @taroleo

@myuiさんがTreasure Dataの宣伝をしてくれるので嬉しい #webdbf2014

2014-11-19 11:14:50

Mamoru B Komachi @mamoruk

共同研究は成功より失敗のほうが多い。学ぶべきは失敗例から。一人でオープンソースのツールを作ると使ってもらえないことが多い。開発の適切な段階、早いうちから複数人で開発する体制を整えたほうが、持続的に継続しやすい。最近は GitHub など、共有方法はいろいろある。 #webdbf

2014-11-19 11:15:31

Taro L. Saito @taroleo

企業と共同研究すると、パブリックデータにない規模の活きたデータが使える #webdbf2014

2014-11-19 11:18:52

Taro L. Saito @taroleo

まぁ確かに200万EC2につぎ込んだくらいで大学に怒られるというのはせつない #webdbf2014

2014-11-19 11:19:41

Taro L. Saito @taroleo

メンテナンスされないコードは産業界では使いにくい。Spark, Hivemallは成功例ではとのコメント #webdbf2014

2014-11-19 11:21:34

Taro L. Saito @taroleo

データを提供すると研究者が飛びつくと。飢えているらしい #webdbf2014

2014-11-19 11:22:04

Masashi Toyoda 豊田正史 @toyodam

スポンサー様からのノベルティ色々 #webdbf2014 pic.twitter.com/34e3NzWrEX

2014-11-19 11:23:09

拡大

Taro L. Saito @taroleo

DBとOSの研究者が共同研究していくにはどうしたらよいか、との話題提供 #webdbf2014

2014-11-19 11:23:54

Mamoru B Komachi @mamoruk

大学では多種、大規模なデータがほしいので、企業からデータを出してほしい。企業では動いているコードが全てなので、大学からコードを出してほしい。動いているコードがあれば陳腐化しないですむ。論文を書くのもいいが、GitHub などでコードを出すことを強く意識してほしい。#webdbf

2014-11-19 11:26:35

いま話題のタグ