COCOデータセットのクレンジングによって手と頭の検出精度を向上させた話(by Super PINTO)

Super PINTO @PINTO03091

びっくりするほどアノテーションが適当だった。これはいかんやろ。 pic.twitter.com/aMLNN6QSsP

2023-10-10 22:33:08

拡大

Super PINTO @PINTO03091

うそやろ。。。 pic.twitter.com/TE0rhgLaKp

2023-10-10 22:33:59

拡大

Super PINTO @PINTO03091

１週間ぐらい掛けてCOCOのデータセットを自分でアノテーションし直しただけで mAP が 10 ポイントから 20ポイントぐらい上がりそう。

2023-10-10 22:39:24

Super PINTO @PINTO03091

逆に、あんなに雑なアノテーションでも性能がちゃんと出るとは。。。

2023-10-10 22:47:53

Super PINTO @PINTO03091

これほどまでに、作業をする前から100%報われることが分かっているアノテーションは初めてだ。。。

2023-10-10 23:09:04

Super PINTO @PINTO03091

さすがにこういうのはアノテーション地獄。 pic.twitter.com/0TRhxoxXzH

2023-10-10 23:33:52

拡大

Super PINTO @PINTO03091

あと残り3500枚アノテーション

2023-10-12 02:25:06

Super PINTO @PINTO03091

COCO データセットのクレンジングをしていたらイチローが含まれていた。

2023-10-12 23:30:24

Super PINTO @PINTO03091

ということで、イチローの手も学習してます。

2023-10-12 23:31:45

Super PINTO @PINTO03091

まだCOCOデータセット全体の20%しかクレンジングできていないけど、試しにトレーニングしてみたら mAP で 1.2 ポイント以上性能が上がってる。

2023-10-13 20:54:50

まお（松岡洋）JAPAN EXPO Paris @kuronekodaisuki

@PINTO03091 ブートストラップ的に、今のモデルでCOCOのアノーテーションデータ生成ですか

2023-10-13 20:57:20

Super PINTO @PINTO03091

おー。2ポイント上がった。あと80%綺麗にしたらどうなるんやろ。

2023-10-13 21:06:49

Super PINTO @PINTO03091

@kuronekodaisuki はい。手動アノテーションの負荷軽減のために、2日ほど前に公開していたモデルを使ってオートアノテーションをしたうえで、さらに手動補正を4500枚やってます。

2023-10-13 21:08:12

Super PINTO @PINTO03091

まぁ、もともとこのサイズを的中させにくる性能があるモデルだから当然かもしれない。 pic.twitter.com/tdPjZvkT5r

2023-10-13 21:13:42

拡大

Super PINTO @PINTO03091

子供の運動会が終わったら、COCO改善途中で作ったモデルの性能がどれぐらい変わったかを見てみる。数値上、mAPは1ポイント改善している。確認するポイントは、 1. 過検出 2. 暗がり＋5メートル距離 3. ハレーション 4. Blur

2023-10-14 11:55:04

Super PINTO @PINTO03091

ハレーションに対する検出性能はほんの少し上がっていた。

2023-10-14 12:43:58

Super PINTO @PINTO03091

2000枚の画像のうち、今の所最もアノテーションが辛かった画像。どこかの球団がリーグ優勝した瞬間。観客のほぼ全員が手を上げている。地獄。 pic.twitter.com/bE17qChBCs

2023-10-14 13:52:17

拡大

Super PINTO @PINTO03091

COCOを50%クレンジングして試しにトレーニングを始めてみたら、学習の進み方が明らかに変わってきた。300epoch前後までmAPがじわじわ上がり続けるようになった。なんとか100%クレンジングをやりきりたい。

2023-10-14 20:44:05

まお（松岡洋）JAPAN EXPO Paris @kuronekodaisuki

@PINTO03091 やはりデータセットの吟味は大事

2023-10-14 20:45:52

Super PINTO @PINTO03091

@kuronekodaisuki ですね。以前から思ってはいましたが、今回のステップ・バイ・ステップの検証で確信に変わりました。

2023-10-14 20:47:49

Super PINTO @PINTO03091

やっと2400枚クレンジングが終わった。あと1600枚。100枚で１時間掛かるから、あと16時間ぐらい作業時間が必要。

2023-10-15 02:11:47

Super PINTO @PINTO03091

65% の COCOデータセットをクレンジングしただけで mAP 3.0 ポイント以上改善。

2023-10-15 16:36:44

yumion @yumion7488

これvalidationデータはクレンジング前のデータなのだろうか答えが間違っていて予測がより正確に出してしまってスコア下がる現象とかないのでしょうか twitter.com/PINTO03091/sta…

2023-10-15 16:40:40

Super PINTO @PINTO03091

今試しにトレーニングしている 65% 版Nanoサイズ (20MB) モデルは、先週公開した Middle サイズ(165MB) の mAP をすでに上回っている。

2023-10-15 16:42:35

Super PINTO @PINTO03091

@yumion7488 validationデータもクレンジング後のデータを使用しています。試行作業ごとに毎回Splitしているので厳密には mAP の単純比較はできません。また、クレンジング前のデータが35%含まれていますのでまだかなり学習が不安定です。

2023-10-15 16:45:28

いま話題のタグ