デブサミ夏2018【C-8】 データと戦うエンジニアLT! #devsumiC

0
深作ゆい|横浜市会議員(都筑区) @fukasakuyui

#devsumiC データと戦うエンジニアLT!に弊社犬塚くんが登壇します👍✨ pic.twitter.com/h3fjZOjpOd

2018-07-27 17:05:30
拡大
近藤佑子 @kondoyuko

データと戦うエンジニアLT! 一発目はミーカンパニー田野口さん! #devsumi #devsumiC pic.twitter.com/hKYO1HSRn2

2018-07-27 17:11:53
拡大
ぼた餅 @bota_mochi

#devsumiC 文字型データの前処理にMySQLのUDFとGo言語はいいらしい

2018-07-27 17:15:11
あきこ@しばらくしばらく趣味のつぶやき多め @akiko_pusu

医療介護系データベースサービスのSCUEL。ただ今LTを伺ってます。 市町村、病院のデータ集積は、記述のゆれや列の間違いなど一筋縄ではいかない。 MySQL UDF、Go-UDFでデータの正規化に取り組んでいる例。 機械学習に食べさせる前に、色んな過程を通して綺麗なデータを作る。 #devsumiC

2018-07-27 17:15:59
近藤佑子 @kondoyuko

クックパッド犬塚さん!今回唯一の学生ですー! #devsumi #devsumiC pic.twitter.com/vR1sozcsNy

2018-07-27 17:18:01
拡大
深作ゆい|横浜市会議員(都筑区) @fukasakuyui

はじまった👍犬塚くんはクックパッドの研究開発部でアルバイトをしてくれています!#devsumiC pic.twitter.com/tfRbVBFQ3q

2018-07-27 17:18:08
拡大
ぼた餅 @bota_mochi

#devsumiC クックパッドの困ったところ:調理手順の中に調理手順でないものも入れられる。 これ、クックパッド以外でも言えそうなことなので色々参考になりそう🤔

2018-07-27 17:18:40
MewW6m @MewW6m_

クックパッドの非手順の抽出。確かにしてくれたらうれしいかも笑 #devsumiC

2018-07-27 17:20:06
あきこ@しばらくしばらく趣味のつぶやき多め @akiko_pusu

クックパッド様。投稿の料理手順の中には、手順とは呼べないものもある。(挨拶とかお礼とか、コミュニケーション的な内容) 機械学習で純粋に手順だけを取り出したい! (なるほど) その前に、まずはキーワードを決めてルールベースで判定。 #devsumiC

2018-07-27 17:20:50
ぼた餅 @bota_mochi

#devsumiC やるべきことをやるべき順でちゃんとやる。 はい。肝に銘じます。

2018-07-27 17:24:00
あきこ@しばらくしばらく趣味のつぶやき多め @akiko_pusu

機械学習で9割のスコア。 この成果を実際のサービスに取り込んでいく。 結果を記録に残すの大切。 レシピの読み上げなども予定してるそう。 #devsumiC

2018-07-27 17:26:34
ぼた餅 @bota_mochi

#devsumiC 機械学習でうまいこと成果が出なかったらディープラーニングもいいのでは…ということで次はディープラーニングの話

2018-07-27 17:26:50
ぼた餅 @bota_mochi

#devsumiC 機器の不調で順番入れ替え。機械学習をプロダクトに組み込む話。

2018-07-27 17:30:09
ぼた餅 @bota_mochi

#devsumiC ビジネス的にインパクトを与えられるか、といったこともちゃんと考えて機能決定していく…🤔

2018-07-27 17:34:37
ぼた餅 @bota_mochi

#devsumiC SageMaker(AWS)はいいぞ。らしい。

2018-07-27 17:36:12
あきこ@しばらくしばらく趣味のつぶやき多め @akiko_pusu

リプロの今井さん。 機械学習を用いた機能開発。 ビジネス視点からの開発は、開発者以外も巻き込んで進める。ただし出てきたデータが果たして顧客の価値に繋がるかどうか、きちんとゴールを定めておくのが大切。 その上で小さく早く回していく。 実際の開発はSageMakerやDataproc活用。 #devsumiC

2018-07-27 17:37:51
ぼた餅 @bota_mochi

#devsumiC ビジネスとしてのゴールを設定することが重要 機能としてのゴールは小さく設定 えんじにゃー側にいると忘れがちなことだなぁ

2018-07-27 17:38:21
近藤佑子 @kondoyuko

最後はシルバーエッグ・テクノロジーの田本さんです! #devsumiC #devsumi pic.twitter.com/a0OTSEos7x

2018-07-27 17:42:05
拡大
あきこ@しばらくしばらく趣味のつぶやき多め @akiko_pusu

人間は多少の表記揺れや誤字脱字は認識出来ちゃうけど、自然言語処理ではこういうのは大敵。 でも、意味的に重要じゃないところは、無理に解析しなくていいんじゃないか、という考え方。 キャラクターレベルCNNで、文字を最小単位で分割。そもそも意味あるまとまりの分かち書きをしない。 #devsumiC

2018-07-27 17:46:46
あきこ@しばらくしばらく趣味のつぶやき多め @akiko_pusu

最小単位で切り出した後にウィンドウサイズで分類、単語を再構成、ネガティブかポジティブかの判断をさせると精度が高い。 誤字脱字を紛れ込ませても、精度が高い。 何でもかんでも分かち書き、メカブでなくアプローチ変えてみると良いかも。 #devsumiC

2018-07-27 17:51:07