「AIに聞いてみた」放送後に教育や企業の現場に起きた小さな出来事の収集/およびGoogleのデータサイエンティストの方による「交差検証」によるチェックの重要性

なお「機械学習」でその「予測」性能の良し悪しを計ろうと思ったら、(AIC及びその派生系も使えないわけではないが)普通は「交差検証」(まだ見ぬ未来への影響が本当にプラスになったか否か)を使うしかない。 https://twitter.com/TJO_datasci/status/888752877388288000 「論点がだいぶ発散している感じなのであえて論点をグッと絞ると「交差検証で汎化性能をチェックしているかどうか」がまともな(統計学的にせよ機械学習的にせよ)モデリングをしているか否かを見分けるカギになると思う。」 https://twitter.com/TJO_datasci/status/889160083711471616
23
未識🐟 技術書典15 え03 @mishiki

NHKの「AIに聞いてみた」がむちゃくちゃなのは、全然難しい話じゃなくて、このフローチャートだけで十全に伝わるのではないか。 「仕事への不満」、親友やお金の「重要」性の認識だけで、ひとり暮らし度は0か100の二択になるよ!! こっちがあまり炎上してないのはクソすぎるから? pic.twitter.com/6QK2E0ar8p

2017-07-23 22:40:07
拡大
虚無列シャッフル @nida_001

@TJO_datasci このフローチャートとか見ると決定木の可能性も? nhk.or.jp/special/askai/…

2017-07-22 22:03:28
TJO @TJO_datasci

@nida_001 決定木かぁ。。。あり得るなぁ。。。意思決定には最も適していそうに見えて、実は最悪な手法なんだけど。。。

2017-07-22 22:04:27
虚無列シャッフル @nida_001

@TJO_datasci おおこわい。やはりこのシリーズの最終回はTJO氏が番組で行ったデータ分析をバッサバッサ切り裂いて終えて欲しいなあ

2017-07-22 22:05:25
TJO @TJO_datasci

@david_nort ここに線形モデルファミリーの現代における存在意義があるわけです(なので仮に非線形でもカーネル◯◯回帰したがる馬鹿が湧く理由にもなる)

2017-07-22 22:15:22
TJO @TJO_datasci

決定木ではないかというコメントを貰いましたが、経験上決定木を解釈に使うのは(現代では)問題外かと。理由は1)汎化性能が低い、2)分岐の優先度が推定された木からは判別不能、な点 twitter.com/tjo_datasci/st…

2017-07-22 22:07:00
TJO @TJO_datasci

これ、去年Datapaloozaで登壇した時に死ぬほど丁寧に話した話題だけどうちの規制で資料非公開ゆえweb上には全く出てこない話題になってしまった。今時の"AI"と称される機械学習手法の多くは解釈性が低くこの手の分析には使われにくい。使われるとしたらロジスティック回帰が最有力だ twitter.com/tjo_datasci/st…

2017-07-22 22:02:26
TJO @TJO_datasci

問題の「決定木に見える」40代独り暮らし男性の行く末を暗示した"AI"(二重引用符つき)の判定ツリーだけど、もしこれが決定木なら汎化性能確保のために「剪定」(pruning)をやる必要がある。果たして本当にやったんだろうか nhk.or.jp/special/askai/…

2017-07-22 22:10:31
TJO @TJO_datasci

ちなみに近所のワインバーに夫婦で飲みに行っていたので問題の番組は1秒たりとも見てません、悪しからず

2017-07-22 22:12:56

”AI”のミスリード

TJO @TJO_datasci

そもそも「"AI"で分析」というのが違和感だらけで、一般に"AI"と言った場合は「機械学習」利用が前提でその場合はデータの「予測」が主目的のはず。データの「説明」が主目的なら統計学に基づくモデリングの方が主目的。混同してはいけない tjo.hatenablog.com/entry/2015/09/…

2017-07-22 22:21:00
TJO @TJO_datasci

なお「機械学習」でその「予測」性能の良し悪しを計ろうと思ったら、(AIC及びその派生系も使えないわけではないが)普通は「交差検証」(まだ見ぬ未来への影響が本当にプラスになったか否か)を使うしかない。でもこれを使わずにうだうだ言う手合いが世の中非常に多い twitter.com/tjo_datasci/st…

2017-07-22 22:29:32
TJO @TJO_datasci

一連のツイートへの反応が多いところを見ると、某番組に言いたいことのある人は非常に多いらしい

2017-07-22 22:30:27
TJO @TJO_datasci

問題の番組を1秒たりとも見なくても必要なツッコミが簡単に思い付いてしまうくらい、現代における"AI"(二重引用符付き)のミスリードはかなり一般的になりつつあるのではないかと思う twitter.com/tjo_datasci/st…

2017-07-22 22:33:16
TJO @TJO_datasci

結局、統計学による「説明」と機械学習による「予測」との区別も付かなければ、汎化性能の意味も分からず、交絡因子による因果推定の困難化も分からない人間に、無分別に大量のデータセットを与えるとデタラメな結論に至りかねないということが分かった、というのが本日の最大の収穫なんだろうか

2017-07-22 22:37:48
arupaka 🦌 @komakusaryama

あの相関風の解析、一応ディープラーニングつかってるらしいよ。。そういう意味でAIなのかも。。 ただそもそもあのデータとあの分析にディープラーニング使っていい結果がでるかとかディープラーニングがむいてるかは… twitter.com/TJO_datasci/st…

2017-07-22 22:34:25
TJO @TJO_datasci

「一応ディープラーニング使っているらしい」、意味が全く分かりません

2017-07-22 22:38:36
arupaka 🦌 @komakusaryama

「(今回のNHKの解析システムは)ディープラーニングを使っている(らしい)」という意味です。放送の最初のほうに、こういう風にいってたように記憶していましたので。。深層学習使うことが人口知能の利用といってしまっていいかはわかりませんが。 twitter.com/TJO_datasci/st…

2017-07-22 23:01:23
TJO @TJO_datasci

@komakusaryama ディープラーニングの「2層だけ使う」という言い訳も可能です(それは単なる線形モデルであってDeep Learningでも何でもないです)

2017-07-22 23:04:49

解釈性があることと解釈が正しくできることは別問題

enjoy my life @issei_sato

機械学習を予測以外で学習結果の解釈に使う場合には相当注意が必要。ベーシックなLassoでもselective inferenceとかも考えないといけない。解釈性があることと解釈が正しくできることは別問題。

2017-07-22 22:38:03
TJO @TJO_datasci

@issei_sato その話を昨年のDatapaloozaではしました。

2017-07-22 22:38:57
TJO @TJO_datasci

@issei_sato あと、Lasso使うときはCV error意外見ないようにしてます

2017-07-22 22:47:55
enjoy my life @issei_sato

@TJO_datasci モデルgivenで何が効いてるか見るには良いんですがそれが隠れた真理のように扱うのやばいですね

2017-07-22 22:50:54
TJO @TJO_datasci

@issei_sato Boxの名言が全てだと思います。"All models are wrong, but some are useful"

2017-07-22 22:52:01
TJO @TJO_datasci

たまたま別のところで話題になったので、改めてBoxの名言を挙げておく:"All models are wrong, but some are useful"(全てのモデルは間違っている、だが中には役立つものもある) twitter.com/tjo_datasci/st…

2017-07-22 23:03:10