ある統計に関しての所感

某大学の某学生の卒業論文がネット上に公開されていた。 その中に統計として何ら意味を成さない各論が展開されていたので、それに対して思ったことを書いてみる。
4
Seiji Matsuda R.I.P. @SeijiMatsuda1

さて、ちょいと長文を連続Tweetします。合計で8Tweet でも、これは前編だと思ってください(笑

2013-01-22 21:05:01
Seiji Matsuda R.I.P. @SeijiMatsuda1

残念ながら元のデータがネット上から消えてしまったし面倒くさがりなのでそういうものをローカルに保存する気は毛頭ない(笑)。記憶を辿り自分の思うことを語ってみよう。 自分の発言が学術的かどうかは判断出来ないが、特に何かに偏った意見ではないという自負のもと「自由な発言」をする。(つづく

2013-01-22 21:05:22

元々の論文の主たる部分ではなく、各論の部分で「A市α町に住む21歳男性というデータからの個人特定」について書かれている。

データは市が発表している統計データに基いている。

そのデータをそのまま利用しても構わないが、わかりづらくなるため、以下のように仮定する。

・A市住民:10万人
・α町住民:1万人
・α町で20~24歳の住民:3,000人
・そのうち、男性は2,000人、女性は1,000人


ちなみに考察とは全く無関係であるが、後述でその学生さんの間違いについて触れるので以下の仮定データも上げておく。

・A市で20~24歳の住民:1万人
・そのうち、男性は6,000人、女性は4,000人


Seiji Matsuda R.I.P. @SeijiMatsuda1

つづき)そもそもは某大学の某学生のネット上に公開されていた卒業論文の中の記述に、情報から個人を特定出来るかという検証で某市のデータが利用されていたことに端を発する。まあ、その中の記述で元データの引用先が間違っていたり計算がおかしいのはご愛嬌ということにしよう。(つづく

2013-01-22 21:05:34

一応、この学生の間違いの部分も指摘しておこう。

実際には「間違い」というよりも『大いなる勘違い』なのだが、彼がしたことは「A市の人口に対して男性の割合を求めるためにα町の男性の数値を使った」ことである。

※α町の20代前半男性人数÷A市の人口=A市の20代前半男性の割合

もう、この時点で根本的にお話にならないわけだが、更にそのパーセンテージの計算も間違っていた。

更にその「間違ったパーセンテージ」の値を、『更に間違えて』代入し、「α町の20代男性の人数」を求めようとしている。

※α町の男性の人数✕間違った計算を更に代入間違いした数値=α町の20代前半男性人数

もちろん、勘違いや計算違いは誰にでもある。
しかし、印象として明らかに違和感のある数字が出てきているにも関わらず、それを確認している教授が気づかないのは問題だろう。


A市のデータからα町20代前半男性の数を計算するのであれば、

・○A市の20代前半男性人数÷A市の人口=Z
・○α町の人口✕Z

で求めることになるのだが、そもそも「α町の20代前半男性の人数は統計データとして公開されている」
というか、そもそもの式で間違って利用していることに気づいていない。


つまり、『無駄なことをしている』のが根本的な間違いである。
統計データを利用しての仮説なわけだが、統計データとして存在する数値を仮説で求めるのは愚の骨頂である。

但し、この間違いは初歩的なものとみなし、以降私が指摘したい部分について述べたい。
でも、ちょっとわかりづらいかも(笑


Seiji Matsuda R.I.P. @SeijiMatsuda1

つづき)検証内容は、「A市の中のα町において21歳男性」というデータから個人を特定出来る可能性を探るような話である。例えば「10万人の市」で「1万人の住んでいるα町」の「21歳男性」という情報で個人の特定が可能なパーセンテージを出すことなのだが、ここで統計上の嘘が発生する(つづく

2013-01-22 21:05:55
Seiji Matsuda R.I.P. @SeijiMatsuda1

つづき)その論文は引用元として基礎となる統計データがあった。ここでは仮の数として確定しておこう。「A市:10万人、α町:1万人、20歳~24歳:3,000人でそのうち男性が2,000人」。つまり、「A市の中のα町において20~24歳男性」は2,000人存在すると仮定する。(つづく

2013-01-22 21:06:22
Seiji Matsuda R.I.P. @SeijiMatsuda1

つづき)パーセンテージを考えれば、「A市の中のα町において20~24歳男性」は「A市を母数とした場合は2%」「α町を母数とした場合は20%」「α町の20歳~24歳を母数とした場合は67%」となるが、実際には「21歳」というデータは統計上存在しない。(つづく

2013-01-22 21:06:39
Seiji Matsuda R.I.P. @SeijiMatsuda1

つづき)統計的に考察するのであれば、その中に21歳は存在するかどうか?という論点になるは、それを実数として掴むことは不可能である。更にこれは「仮説」として「A市の中のα町において21歳男性」なわけである。(つづく

2013-01-22 21:07:02
Seiji Matsuda R.I.P. @SeijiMatsuda1

つづき)論文作成者の検証の前提条件は「A市の中のα町において21歳男性」なので、結局は統計データとして存在する「A市の中のα町において20~24歳男性の総数2,000人」という絞り込みだけであって、特に検証する意味合いは全く存在しない(つづく

2013-01-22 21:06:50

さて、ここで2,000人いる20代前半男性の中から、21歳が何人いるか?という確率について「考察することの意味」を考えてみよう。

元になる調査ローデータや出生統計資料を利用しないのであれば、パーセンテージは20%。
これは、「男女別5歳刻みの統計データが元にある」わけなので、それが15歳女性であろうと、51歳男性であろうと20%なので「考えることは無意味」である。


では、人数という部分に関してはどうだろうか?

統計データとして「20代前半男性2,000人」の20%だから400人。
数字としては正解なわけだが、それが何の役に立つのだろう?

先の仮定で示したが「20代前半女性1,000人」に20%を代入すれば200人と1/2の数になる。


つまり、絞り込みを論拠にして論を展開していく中で、「どこを抽出するか?」という恣意的なことで、大きく数字が変化してしまう。

これを論拠として各論展開することは「全くの無意味」であるとしか思えないし、これを証明したところで何ら「論旨の強化」には成り得ない。


Seiji Matsuda R.I.P. @SeijiMatsuda1

つづき)仮説が「A市の中のα町において21歳"女性"」だった場合、存在する統計データ「A市の中のα町において20~24歳女性1,000人」が母数となる。つまり、絞り込みとしては「1,000人の対象者」となるだけで、統計学的には何ら意味を成なさない。そもそも前提条件がおかしいのだ。

2013-01-22 21:07:13

もしも、「悪波動」を使わず(笑)無理矢理好意的に解釈した上で彼の証明したいことを推理するならば、

・「A市内α町20代前半男性」という情報で、A市内から対象をどのくらいまで絞れるか?

というのであれば、元データや計算に間違いはあるものの、やろうとしていることに意味が無いわけではない。

ただし、それでわかるのは「A市内α町20代前半男性」という対象についてのみであり、それを元に全般的な論拠のベースにすることは出来ない。


ましてや、それをベースにして個人情報漏えい(そもそも、統計データでしかないものを個人情報と呼ぶのかはさておき)の確率を探ることは出来ないだろう。

それは前述したように「○○に居住」+「○歳」+「性別」という抽出条件では、どこを抽出するかによって母数と子数が変化するため、正当な前提にするデータでは無いからである。


ここまでが、前段。

後の部分は所感として。

Seiji Matsuda R.I.P. @SeijiMatsuda1

一応、今連続Tweetしたのは私が言いたいことの前段に過ぎない。そもそも、この検証自体は無意味だと考えるが、そもそも個人情報漏えいの危険性には「個人が特定される危険性」と同時に個人を特定出来ないにしても「可能性」としての危険性があると考えている。

2013-01-22 21:12:23

簡単に補足説明する。

もしも、β町に21歳男性が1人しかいなかった場合には「β町21歳男性」というデータで、その1名が特定出来る(これは当たり前の話)。

もしも、β町に40歳女性が50人いた場合には「β町40歳女性」というデータから、その50人全員に対して「可能性があるよね」と判断される可能性のことを示唆している。

言ってみれば「容疑者としての疑惑」と同じようなものだと考えれば理解しやすいかと思う。

もちろん、これは極論としての例である。


Seiji Matsuda R.I.P. @SeijiMatsuda1

先に連続Tweetした元の論文は、現在図書館問題で話題になっている自治体の話を例としてあげていたが、そもそも色々な指摘をされている人々は、個人情報に「読書履歴」という情報が付加された場合を危惧している。統計データとして既に公開されている情報のみが漏れることに何ら心配はしていない。

2013-01-22 21:17:18

仮説として、「α町21歳男性」「書籍:カント人倫の形而上学」を借りた人というデータを組み合わせて、その対象を特定するというのを考察するのであれば、「意味があるかもしれない」ような気がするかもしれないが、それもまやかしである。

上記がセットの情報で漏れているのであれば、後はその該当人物が何らかの形で自ら情報発信をして「私はα町21歳男性で図書館からカント人倫の形而上学を借りました」と言えば特定は可能になるわけだが、それは特異な状況である。

更に仮説として「α町21歳男性の全てが同一書籍を借りていた場合」は、個人情報の特定ではなく全ての「α町21歳男性」が対象になるだけの話である。


つまり、危惧しているのは、先に個人情報が特定された上で読書履歴と同時に漏えい(もしくは、別用途に使われる)することである。

本当に「統計データ+読書履歴」だけであれば、個人情報とは呼ばないだろうから、そもそも個人情報の漏えいの論拠にすることに意味は無い。

ただし、「傾向」という部分の問題は残る。


薬歴の話にすると理解しやすいが、「θ町では○○の薬がよく売れる」という情報が漏えいした場合には「θ町は○○の病気に罹りやすい」という風評被害が起こる可能性は否定出来ない。

ちなみに書籍として「カント人倫の形而上学」なんてのを持ちだしたのには『他意がある』(笑

どこぞの自治体の市長が「哲学が嫌い」だからである。

だから、あの程度の理解力なのかと思う部分もあるが、それは今回の話とは無関係(だと思う。多分)


Seiji Matsuda R.I.P. @SeijiMatsuda1

先の話に戻るが、個人情報の危険性のもう一つの側面としては、それこそ統計を使った上での理論構築が可能な部分にある。つまり、可能性。例えば「○○町に住んでいる人間は△△が好きな人がX%いる。ということは、□□市にも同様にX%いるよね」という理論。これって危険な感じがするのは私だけ?

2013-01-22 21:24:17

所謂「傾向」の話。

血液型A型にはこういうタイプが多いという話よりもレベルが低い推論。

考察するのにそもそも「情報」が足りないのである。


Seiji Matsuda R.I.P. @SeijiMatsuda1

個人情報の問題を語る時に、その前提条件(仮説)によって、数字はいくらでも変化してしまう。また、統計データは国勢調査のような単純集計でなければ、自動的に恣意的なデータに変化してしまう。それは、そのデータの作り手に依存してしまうため、ナイーブな問題を語る時に利用すべきではないと思う。

2013-01-22 21:27:17
Seiji Matsuda R.I.P. @SeijiMatsuda1

以上。誤字脱字はごめん。勢いで書いたので多分文章もわかりづらい&おかしいかも。ただ、言わんとしていることは、特定の事象ではなくごくごく普遍的な話を書いたと思っている。

2013-01-22 21:29:01
Seiji Matsuda R.I.P. @SeijiMatsuda1

私見として後半の論文の本論とは無関係、且つ全く意味の無い検証であるというのが感想。

2013-01-22 21:34:30
Seiji Matsuda R.I.P. @SeijiMatsuda1

あ~、理解してないっぽいなあ。まあいいけど。前提条件が統計データ上にガッツリ存在していると、そもそもパーセンテージは出ないのよねえ。「A市α町21歳男性」がもし1,000人いるというデータがあれば、その中から「A市α町21歳男性」が何人いるか?ってことなんだよ?(笑

2013-01-22 22:23:03
Seiji Matsuda R.I.P. @SeijiMatsuda1

そりゃー「1,000人いますよね」って話だけなんだがな?

2013-01-22 22:24:14

1,000人は1,000人。

100%は100%。

更に確率は母数がわかっている状態での考察なので(前述)20%。

これで、何の論拠が強化されるのか私にはさっぱり理解出来ない。

この時点で某氏とこの件に関して話をすることを放棄。
全く理解出来ていない。