知識ゼロから学ぶAIのテス 信頼できないソフトウェアとそのテストのために / 高橋寿一さん
【デブサミ2024🛫】 #devsumi #devsumiC まもなく12:40よりC会場にて以下のセッションが始まります。 15-C-4 AI時代のソフトウェアテスト入門(シフトレフトするの?シフトライトするの?) 高橋 寿一
2024-02-15 12:27:00知識ゼロから学ぶAIのテスト #devsumiC pic.twitter.com/gVLm6XTonE
2024-02-15 12:40:17品質にかける費用負担はここ30年変わっていない。しかしバグは増えている。みなさん痛い思いすると思うんで参考になれば。Copilotは生産性高いし使ったほうがいい #devsumiC
2024-02-15 12:43:44人間の書いたコードとCopilotのコードのどちらがいいかはよくわからないけど、たぶんCopilotの方が悪そう。ソースコードは凝縮度が上がって、テストの生産性は上がらない。TestPilotというのがあるがあまり使いこなしにくい。Copilotの生産性向上に追いつかない #devsumiC
2024-02-15 12:46:02AIをテストするのは困難。GDPRでも面倒臭い規制が。巨大システムで、いつものテストケースを書くか?AI全盛マイクロサービスの時代に?コストがすごい膨らんで、終わらない問題。ということでかなりめんどくさい #devsumiC
2024-02-15 12:48:24AIを使っている製品をプレスリリースすると株価が上がる。扱わざるを得ない。シフトレフトの考え方はより早い段階で見つけるほうがコストが安いという点に立脚するが、AIのモデルでは、作っている段階で見つけ出せない部分が多い。気まぐれ。シフトライトせざるを得ない。 #devsumiC
2024-02-15 12:51:15実際のテストデータでテストせざるを得ない。シフトライト自体は以前からあって、パフォーマンステスト、探索テスト、カオスエンジニアリング、カナリアリリースなど。ここにAIの基本的なテストを持ってこないといけない。今日はめんどくさいって話をたくさんする。 #devsumiC
2024-02-15 12:52:39QAが見るべき範囲が多すぎる。モデル、事前学習、リリース後の学習、データパイプライン、データのバイアス…。プロダクトマネージャーとデータサイエンスとQA、誰がどこをやるか。チェックってなるとQAお願いねってなったり。 #devsumiC
2024-02-15 12:54:44ジェンダーや人種のバイアスが元データにあると結果にもバイアスがかかる。サンプリングデータが偏るケースはAIよくある。各国の人口とサンプリングデータはずれていて。その品質をどのように強化するか? #devsumiC
2024-02-15 12:57:53AIは理系の技術と文系の考え方。(人工知能系出身者としてはわかりみが深い。認知科学とは切っても切れない #devsumiC
2024-02-15 12:59:08AIに関するテスト手法が極端に少ない。定量的に品質出すためのテスト手法をいろいろこねくり回してるけど、ここまで基準をクリアしたのでテストOKです、と言えない。 #devsumiC
2024-02-15 13:03:43AIテスト技法の例。ニューロンカバレッジとメタモリフィックテスト。後者は入力値をずらした時に、結果のズレがエラーにならないかを見る。 #devsumiC
2024-02-15 13:09:32テスト自動化は従来のテストでもROIの確保は困難だが、AIの場合は因果関係が書けないので、正解を定義することが難しい。出力がブレるし、出力が無限だったり。開発者やデータサイエンスの人が出荷判定基準を事前に決めないとつらい。テストはどう判断するかが難しい。定量で出ても判断が #devsumiC
2024-02-15 13:17:18寿一さんの本のサイン会ありまーす #devsumiC #devsumi pic.twitter.com/OeMo37lYEP
2024-02-15 13:25:42