Togetter/min.tを安心してお使い頂くためのガイドラインを公開しました。
アプリで作成

「とりあえずDeep Learningでいい感じにして」と上司が言ってきた時に備えて

自分用まとめ :10/25 追記 Amazon CloudWatch、機械学習により異常値(アノマリー)を自動検出できる新機能
18

流行りの技術でIR飾りたい顧客と専門家のミスマッチ

Kazuya Gokita @kazoo04

「こういう問題はどうしたらよいでしょうか」 俺「こうすると簡単では?」 「それもう機械学習でもなんでもないですよね…?」 俺「そうですよ。簡単な方法でできるんだからいいじゃないですか」 って感じの話が最近多いんだけどやはり無理矢理にでもディープラーニング使ったほうがいい?

2019-10-21 08:16:30
Grahamian📊データ分析と機械学習 @grahamian2317

?「異常値を機械学習で検出したいです」 ワイ「正規分布を仮定して3σを異常値とするのではダメですか」 ?「異常値を機械学習で検出したいです」 ワイ「正規分布をk」 ?「異常値を機械学習で検出したいです」

2019-10-21 14:08:33
Grahamian📊データ分析と機械学習 @grahamian2317

亜種として、 「◯◯を機械学習で推測することはできますか?」 「たぶん頻度から確率出したほうが早いと思いますよ」 「機械学習ではできないんですか?」 「いや、できますけどあまり意味はないと思います」 「わかりました」 「(ホッ)」 「じゃあこの企画はなかったことに」 「??!!?!」 twitter.com/grahamian2317/…

2019-10-21 14:49:25

プロは万能工具を使わない

Sadayuki Furuhashi @frsyuki

近ごろ機械学習界隈を調べてわかったのは、いわゆるディープラーニングでニューラルネットワークなAIは、自分でモデルを作ると誰にも勝てなくて死ぬ一方、「選んで使う」時代が到来している。モデルのカタログはいろいろあって model zoo などと呼ばれるが、例えばONNX onnx.ai

2019-10-22 16:32:58
Sadayuki Furuhashi @frsyuki

ここで言う「使う」は、かなりのプログラミングが必要なんだけども、OpenCVのAPI経由で連携させて使えるようになっていたり、周辺環境も結構整ってきているらしい。

2019-10-22 16:36:16
Sadayuki Furuhashi @frsyuki

モデルを扱うライブラリというかフレームワークは数種類に寡占化されていて、それぞれにモデルデータのフォーマットが違うので互換性がないが、今時では変換ツールが充実しているので、慣れたフレームワーク用に変換して扱うことができるらしい。

2019-10-22 16:37:49
Sadayuki Furuhashi @frsyuki

だいたいGPUを活用して動くが、CPUでも動く。学習は死ぬほど遅いが推論は速い。最先端の話題としては、専用チップというか今時はNPUと呼ばれる低消費電力のハードウェアを使って組み込み環境でも推論できたりするらしい。

2019-10-22 16:43:33
Sadayuki Furuhashi @frsyuki

一方で、ニューラルネットワークじゃない機械学習も盛り上がりを失っておらず、そっちは全然違う世界観がある。こっちはモデルデータを少ないデータ、短時間、オンデマンドで作成して即座に使う…みたいな使い方もある。

2019-10-22 16:48:16
Sadayuki Furuhashi @frsyuki

こちらの機械学習は「選んで使う」ではなくて、どうやってモデルの作成や更新を自動化するかという話題が主流で、「AutoML」と呼ばれている。Dockerイメージ作って、テスト回して、デブロイする…みたいなのを機械学習の文脈で使う語で、機械学習のCI/CD的なやつ。フレームワークもSaaSも色々ある。

2019-10-22 16:51:41
Sadayuki Furuhashi @frsyuki

ONNXのModel Zooを眺めてもわかるけど、デープラーニンで扱う問題領域は画像、音声、自然言語と相場が決まっていて、多少LSTMと呼ばれる時系列の数値データに適用されるもでるもあるが、まだ初期段階に見える。

2019-10-22 17:01:39
Sadayuki Furuhashi @frsyuki

逆に画像でも音声でも自然言語でもない問題は、ディープラーニングを適用できないか自前で研究が必要で、たいていはディープラーニングじゃない方がいいということになる。そうすると特徴量の抽出というかfeature engineeringが必要になる。

2019-10-22 17:06:44
Sadayuki Furuhashi @frsyuki

そんなわけで、データはいったんテーブル形式にして、どのカラムをfeatureとして使うか、どのアルゴリズムを使うか、というのをひたすら試して、見つかった方法をAutoMLで自動化していく…的な流れとなる。選んで使う世界観とはまったく違う。

2019-10-22 17:09:59
Sadayuki Furuhashi @frsyuki

なおトレジャーデータでは人材を募集しています。 treasuredata.com/company/career…

2019-10-22 17:14:18

10/25 追記
機械学習による異常値検出は閾値を動的に変更する場合に有効

Publickey @publickey

ブログ書きました: Amazon CloudWatch、機械学習により異常値(アノマリー)を自動検出できる新機能 publickey1.jp/blog/19/amazon…

2019-10-25 01:27:08

コメント

ちょちょまる @sakuya_little 2019年10月22日
あー、わかる。 手段のために目的を選ばない人増えてるよね。
1
yuki🌾㊗️6さい🎉⚔ @yuki_obana 2019年10月22日
次元そんなに大きくないのに不毛なことやるよねって(´・ω・`)
0
RGB000 @19666_61 2019年10月22日
機械学習でやるってことが(宣伝箇所になるので)いいってところは多いだろうけど、これからどうだかなぁ
0
竹田一博(さまやん)▷◁楊菲菲P @someryan 2019年10月22日
「とりあえずSpeed Learningでいい感じにして」
0
やし○ @kkr8612 2019年10月23日
「AIによって出しています」が付加価値になるので「その分析がAI向きかどうか(既存の方法で出すほうがよほど安くて速くて精確かどうか)」は重視されていないという本末転倒な
1
ゆー @y_raimu0 2019年10月23日
sakuya_little 目的を選ばないというか、手段と目的が入れ替わってるということでは。機械学習使うことが目的になってるという。
1