「平均」を過信すると、痛い目見るよ。

よく統計や社会調査で使われることの多い、平均(算術平均)。しかし、その平均でさえ使い方を間違えるとトンデモない結果になるってことを久間知毅氏(@HisamaTomoki)が解説。
35
久間知毅@C103土曜東モ-41a @HisamaTomoki

和歌山県出身/数理最適化が専門ですが最近は機械学習・人工知能の研究開発がメイン/ドイツ近代史の歴史小説書き,漫画描き/ニコニコ動画では語学(ドイツ語等)講座,数学講座やドイツ統一史を連載中/TRPG(クトゥルフ,ARA2E,マギカロギア),ウマ娘,FF14,西武ライオンズファン

pixiv.me/hisama_tomoki

久間知毅@C99-1日目(木)南む37b @HisamaTomoki

何かを調べるにしてもなんにしてもだけど、統計を使うときに単に算術平均を求めて何かを言っても、実際は何の意味もないデータでしたということはよくある。

2015-08-30 23:36:13
久間知毅@C99-1日目(木)南む37b @HisamaTomoki

確かに算術平均なんか、中学校以前で習うもので大変親しみがあるもので、実際に数値も求めやすいし、大抵の場合代表値として相応しいものの、使っちゃまずい場面だって大変多い。

2015-08-30 23:36:17
久間知毅@C99-1日目(木)南む37b @HisamaTomoki

よくネタにされるところでいうと、年収や預貯金の額は平均値を求めたところで意味がないことがある。ある集団10世帯の平均年収が1180万だったとしても、内訳をみてみると、200万が9世帯で1億が1世帯でしたということもある。

2015-08-30 23:36:44
久間知毅@C99-1日目(木)南む37b @HisamaTomoki

このように突出したデータがあったり、分布が偏っている場合、算術平均を代表値として使うと不都合が生じる。

2015-08-30 23:36:47
久間知毅@C99-1日目(木)南む37b @HisamaTomoki

何かを代表値として使って結論を出すとしても、その代表値が何を意味しているかどういうときに使えるかというのを、実際のデータと対象を吟味した上でやらなければ意味がない。

2015-08-30 23:36:59
久間知毅@C99-1日目(木)南む37b @HisamaTomoki

統計量で平均値を出すにも、算術平均(相加平均)以外にも幾何平均(相乗平均)や、平均以外だと中央値最頻値などがある。さっきの10世帯平均年収も、算術平均では1180万と実態とかけ離れたデータになることに対して、幾何平均なら295万と、より実態に近いものになる。

2015-08-30 23:37:45
久間知毅@C99-1日目(木)南む37b @HisamaTomoki

※幾何平均はより極端なデータの影響を受けにくいため。

2015-08-30 23:38:08
久間知毅@C99-1日目(木)南む37b @HisamaTomoki

また、統計量として平均値が意味あるものであっても、それだけで評価を行うわけにいかないことも多い。

2015-08-30 23:38:27
久間知毅@C99-1日目(木)南む37b @HisamaTomoki

算術平均は見た目で言えば、合計/個数なんだけど、これはすべての値は「理想的な値」から誤差があると考えて、その誤差の二乗を最小にするように、定めた「理想的な値」という形で導出される(英語で書く方がこの辺の説明楽なんだけども……)。

2015-08-30 23:38:33
久間知毅@C99-1日目(木)南む37b @HisamaTomoki

算術平均は容易に求めることができるものの、結局は個々の誤差を最小にするような理想の値に過ぎず、具体的に対象の誤差がどのくらいばらついているかまではわからない。ここで出てくるのが「分散」や、これを平方根とって次元を元のデータに揃えた「標準偏差」ってことになる。

2015-08-30 23:38:45
久間知毅@C99-1日目(木)南む37b @HisamaTomoki

平均(以下、算術平均を指す)の場合はまだ1つの値を指すのでいいんだけども、この手のばらつきを考え出すと、対象によって同じ精度のばらつきでもスケールが違うということがある(10mの鉄骨で1cmずれと、10cmのテープで1cmずれるのは違う)。

2015-08-30 23:59:57
久間知毅@C99-1日目(木)南む37b @HisamaTomoki

だから正規化したりいろいろあるんだけど、ここからは省略。ポイントは、対象は考慮しておいた方がいいということ。

2015-08-31 00:00:03
久間知毅@C99-1日目(木)南む37b @HisamaTomoki

統計はまぁ、入口の入口たる平均値が親しみやすいというのはあるものの、データの取り方やまとめ方を間違えたり、データを取った対象に対して統計量が妥当かちゃんと考えないと、いくら計算したところで信頼できる結果は出てこない。

2015-08-31 00:00:13
久間知毅@C99-1日目(木)南む37b @HisamaTomoki

しかも、いったんそういう風に作った「結果」としての数値は、対象を離れて独り歩きして、作っている本人にとっても信憑性のあるものと誤解させることがあるあえて使う人もいるけど)

2015-08-31 00:00:15
久間知毅@C99-1日目(木)南む37b @HisamaTomoki

特に「平均値」は気を付けないといけない。簡単に求められてそれっぽい数値が出て、さも統計的な何かをやった気になる。

2015-08-31 00:00:28
久間知毅@C99-1日目(木)南む37b @HisamaTomoki

データは嘘をつきません。数値も嘘をつきません。手法も嘘をつきません。しかし人間の解釈は、自分自身に対しても嘘をつきます。

2015-08-31 00:01:08