#devsumiC データと戦うエンジニアLT!に弊社犬塚くんが登壇します👍✨ pic.twitter.com/h3fjZOjpOd
2018-07-27 17:05:30データと戦うエンジニアLT! 一発目はミーカンパニー田野口さん! #devsumi #devsumiC pic.twitter.com/hKYO1HSRn2
2018-07-27 17:11:53医療介護系データベースサービスのSCUEL。ただ今LTを伺ってます。 市町村、病院のデータ集積は、記述のゆれや列の間違いなど一筋縄ではいかない。 MySQL UDF、Go-UDFでデータの正規化に取り組んでいる例。 機械学習に食べさせる前に、色んな過程を通して綺麗なデータを作る。 #devsumiC
2018-07-27 17:15:59クックパッド犬塚さん!今回唯一の学生ですー! #devsumi #devsumiC pic.twitter.com/vR1sozcsNy
2018-07-27 17:18:01はじまった👍犬塚くんはクックパッドの研究開発部でアルバイトをしてくれています!#devsumiC pic.twitter.com/tfRbVBFQ3q
2018-07-27 17:18:08#devsumiC クックパッドの困ったところ:調理手順の中に調理手順でないものも入れられる。 これ、クックパッド以外でも言えそうなことなので色々参考になりそう🤔
2018-07-27 17:18:40クックパッド様。投稿の料理手順の中には、手順とは呼べないものもある。(挨拶とかお礼とか、コミュニケーション的な内容) 機械学習で純粋に手順だけを取り出したい! (なるほど) その前に、まずはキーワードを決めてルールベースで判定。 #devsumiC
2018-07-27 17:20:50機械学習で9割のスコア。 この成果を実際のサービスに取り込んでいく。 結果を記録に残すの大切。 レシピの読み上げなども予定してるそう。 #devsumiC
2018-07-27 17:26:34#devsumiC 機械学習でうまいこと成果が出なかったらディープラーニングもいいのでは…ということで次はディープラーニングの話
2018-07-27 17:26:50Repro AI Labsの今井さん! #devsumiC #devsumi pic.twitter.com/o39wFgtA3I
2018-07-27 17:31:54リプロの今井さん。 機械学習を用いた機能開発。 ビジネス視点からの開発は、開発者以外も巻き込んで進める。ただし出てきたデータが果たして顧客の価値に繋がるかどうか、きちんとゴールを定めておくのが大切。 その上で小さく早く回していく。 実際の開発はSageMakerやDataproc活用。 #devsumiC
2018-07-27 17:37:51#devsumiC ビジネスとしてのゴールを設定することが重要 機能としてのゴールは小さく設定 えんじにゃー側にいると忘れがちなことだなぁ
2018-07-27 17:38:21最後はシルバーエッグ・テクノロジーの田本さんです! #devsumiC #devsumi pic.twitter.com/a0OTSEos7x
2018-07-27 17:42:05人間は多少の表記揺れや誤字脱字は認識出来ちゃうけど、自然言語処理ではこういうのは大敵。 でも、意味的に重要じゃないところは、無理に解析しなくていいんじゃないか、という考え方。 キャラクターレベルCNNで、文字を最小単位で分割。そもそも意味あるまとまりの分かち書きをしない。 #devsumiC
2018-07-27 17:46:46最小単位で切り出した後にウィンドウサイズで分類、単語を再構成、ネガティブかポジティブかの判断をさせると精度が高い。 誤字脱字を紛れ込ませても、精度が高い。 何でもかんでも分かち書き、メカブでなくアプローチ変えてみると良いかも。 #devsumiC
2018-07-27 17:51:07