「とりあえずDeep Learningでいい感じにして」と上司が言ってきた時に備えて
- orangesystem
- 3580
- 6
- 1
- 0
流行りの技術でIR飾りたい顧客と専門家のミスマッチ
「こういう問題はどうしたらよいでしょうか」 俺「こうすると簡単では?」 「それもう機械学習でもなんでもないですよね…?」 俺「そうですよ。簡単な方法でできるんだからいいじゃないですか」 って感じの話が最近多いんだけどやはり無理矢理にでもディープラーニング使ったほうがいい?
2019-10-21 08:16:30プロは万能工具を使わない
近ごろ機械学習界隈を調べてわかったのは、いわゆるディープラーニングでニューラルネットワークなAIは、自分でモデルを作ると誰にも勝てなくて死ぬ一方、「選んで使う」時代が到来している。モデルのカタログはいろいろあって model zoo などと呼ばれるが、例えばONNX onnx.ai
2019-10-22 16:32:58ここで言う「使う」は、かなりのプログラミングが必要なんだけども、OpenCVのAPI経由で連携させて使えるようになっていたり、周辺環境も結構整ってきているらしい。
2019-10-22 16:36:16モデルを扱うライブラリというかフレームワークは数種類に寡占化されていて、それぞれにモデルデータのフォーマットが違うので互換性がないが、今時では変換ツールが充実しているので、慣れたフレームワーク用に変換して扱うことができるらしい。
2019-10-22 16:37:49だいたいGPUを活用して動くが、CPUでも動く。学習は死ぬほど遅いが推論は速い。最先端の話題としては、専用チップというか今時はNPUと呼ばれる低消費電力のハードウェアを使って組み込み環境でも推論できたりするらしい。
2019-10-22 16:43:33一方で、ニューラルネットワークじゃない機械学習も盛り上がりを失っておらず、そっちは全然違う世界観がある。こっちはモデルデータを少ないデータ、短時間、オンデマンドで作成して即座に使う…みたいな使い方もある。
2019-10-22 16:48:16こちらの機械学習は「選んで使う」ではなくて、どうやってモデルの作成や更新を自動化するかという話題が主流で、「AutoML」と呼ばれている。Dockerイメージ作って、テスト回して、デブロイする…みたいなのを機械学習の文脈で使う語で、機械学習のCI/CD的なやつ。フレームワークもSaaSも色々ある。
2019-10-22 16:51:41ONNXのModel Zooを眺めてもわかるけど、デープラーニンで扱う問題領域は画像、音声、自然言語と相場が決まっていて、多少LSTMと呼ばれる時系列の数値データに適用されるもでるもあるが、まだ初期段階に見える。
2019-10-22 17:01:39逆に画像でも音声でも自然言語でもない問題は、ディープラーニングを適用できないか自前で研究が必要で、たいていはディープラーニングじゃない方がいいということになる。そうすると特徴量の抽出というかfeature engineeringが必要になる。
2019-10-22 17:06:44そんなわけで、データはいったんテーブル形式にして、どのカラムをfeatureとして使うか、どのアルゴリズムを使うか、というのをひたすら試して、見つかった方法をAutoMLで自動化していく…的な流れとなる。選んで使う世界観とはまったく違う。
2019-10-22 17:09:59なおトレジャーデータでは人材を募集しています。 treasuredata.com/company/career…
2019-10-22 17:14:1810/25 追記
機械学習による異常値検出は閾値を動的に変更する場合に有効
ブログ書きました: Amazon CloudWatch、機械学習により異常値(アノマリー)を自動検出できる新機能 publickey1.jp/blog/19/amazon…
2019-10-25 01:27:08