佐藤俊樹:東京大学公開講座「統計」(平成25年春季 第117回)補遺

6
佐藤俊樹 @toshisato6010

昨日は公開講座「統計」の担当。時間の関係で全ての質問には答えられなかったが、話の内容と特に関連深いものがあったので、こちらで回答編を載せておく。アーバスノットによる最初の統計学的検定に関することである。

2013-04-28 17:57:05
佐藤俊樹 @toshisato6010

アーバスノットの論証は、元々の仮説「男女の出生比は1対1」から「出生児に男性の方が多い年と女性の方が多い年はそれぞれ確率0.5で生じる」ことを導いた点が鍵になるわけだが、質問にあったように、この間には一つ穴がある。「男女が同数になる年」という第三の可能性があるからだ。

2013-04-28 17:59:57
佐藤俊樹 @toshisato6010

実はアーバスノットはこの点もちゃんと考慮している。彼は統計的検定にあたる[1]~[3]の前に、[0]として、出生児数が大きくなれるにつれて「男女が同数になる」確率は極めて小さくなることを示している。直感的には、ある集団を2つの組に分けることを考えればよい。

2013-04-28 18:00:18
佐藤俊樹 @toshisato6010

例えば、4人の集団が2人と2人の組に分かれる可能性に比べて、400人の集団がぴったり200人と200人の組に分かれる可能性の方がはるかに稀である。落ち着いて考えればすぐわかるのだが、中心極限定理に一見矛盾するように思えるので、「あれ?」と首をひねることは少なくない。

2013-04-28 18:00:58
佐藤俊樹 @toshisato6010

けれども中心極限定理が示しているのは、正確にいえば、(男女の出生比が本当に1対1ならば)出生児数が大きくなるにつれて「出生児中の男女の比が1対1から大きく外れる」確率は極めて小さくなる、ということである。

2013-04-28 18:01:23
佐藤俊樹 @toshisato6010

つまり(出生比が本来は1対1ならば)出生児数が大きくなれるにつれて、(a)「男女がぴったり同数になる」確率も、(b)「実際に生まれた男女の比が1対1から大きく外れる」確率もともに極めて小さくなる、のだ。離散型の確率分布の場合、(a)と(b)はもちろん両立する。

2013-04-28 18:03:21
佐藤俊樹 @toshisato6010

アーバスノットが論証したのは(a)の方。彼にとっては(a)が成立すれば「出生児に男性が多い年と女性が多い年はそれぞれ確率0.5で生じる」と見なせるので、これだけで十分だった。(b)は当時にすでにヤコブ・ベルヌーイが証明していたが、公表はされていなかった。

2013-04-28 18:04:10
佐藤俊樹 @toshisato6010

ヤコブ・ベルヌーイは二項分布の極限定理として(b)を証明し、これが中心極限定理への第一歩になる。イアン・ハッキングは『確率の出現』で「最初の極限定理」と呼んで、その意義を高く評価しているが、実はここには少し面白い逸話がある。ヤコブの証明は1713年に甥のニコラスの手で公刊さ...

2013-04-28 18:04:32
佐藤俊樹 @toshisato6010

ニコラスは、アーバスノットの論証をスフラーフェザンデ経由で聞いて、「アーバスノットが(愚かにも)(b)を反証したと主張している!」と誤解したらしい。そういう趣旨の手紙を残しているそうだ(I・トドハンター『確率論史』訳124-5頁、184-5頁)。

2013-04-28 18:05:34
佐藤俊樹 @toshisato6010

で、実はほぼ同じ誤解をハッキングもやっているのだ。ハッキングは[0]の部分を"invalid "だとして、(a)は(b)の否定にはならないと述べているようだが(p.167-9)、アーバスノットの論証において(b)はそもそも必要なかった。

2013-04-28 18:06:25
佐藤俊樹 @toshisato6010

ニコラス・ベルヌーイの誤解は伝聞だからとも考えられるが、ハッキングはアーバスノットの論文を直接読んで、実際の公刊年が書面上の日付とちがうらしいことまで指摘しているので、興味深い。

2013-04-28 18:06:46
佐藤俊樹 @toshisato6010

ちなみに、ハッキングが下敷きの一つにしたトドハンターの『確率論史』では、ニコラスの方が誤解したようだ、と述べてある。どこを誤解したかまで特定されていないが、少なくともトドハンターの方がアーバスノットの論証を正確に位置づけているようだ。

2013-04-28 18:07:08
佐藤俊樹 @toshisato6010

ハッキングはアーバスノットを過少評価しているわけではなく、これ以外ではほぼ妥当な評価だと思う。それだけになぜ誤解したのか気になる。ただの誤認かもしれないが、もしかすると、現代の統計学と当時の統計学的「推論」との距離を大きく見積もりすぎたのかもしれない。

2013-04-28 18:07:27
佐藤俊樹 @toshisato6010

実定性の転換とか「認識論的切断」みたいな事態をあつかうときには、この辺は慎重にやった方がよさそうだな。『社会学の方法』で述べたように、私は例えば19世紀の社会科学と統計学の関係などでハッキングの見解に賛成する部分が多いので、自戒をこめて。

2013-04-28 18:08:05
佐藤俊樹 @toshisato6010

ああそれから、これは昨日少しコメントできたが、私は、1)数え上げることへの熱中と、2)複数の数の集まり(=分布)との間の関連性が主題化されることと、3)1)と2)が大規模公式組織(=官僚制)によって組織的に展開されることは、区別した方がいいと考えている。

2013-04-28 18:10:59
佐藤俊樹 @toshisato6010

1)はルネサンス期の商人の都市年代記にも出てくる。2)は複数の分布を同時に観察し記録する営みがあることが前提になる。これは17世紀ロンドンの死亡表で発生し、その上で、関連性を明確に考察の主題にしたのが、J・G・グラントの『死亡表の観察』ではないかと思う。

2013-04-28 18:11:39
佐藤俊樹 @toshisato6010

その点でいえば、グラントは複数の分布の相互関連性という「数の体系」を発見している。記述統計学はそこで成立したのではないか。で、3)は統計学よりも、むしろ官僚制組織の形成史として追跡すべきことだと考えているw。

2013-04-28 18:14:12
佐藤俊樹 @toshisato6010

ついでにいうと、語の意味の不確定性も一律に0か1かの決疑論をやるより、kという変数として考えた上で、語の種類別に分布がちがっているとか、用法によって各語のk値が独立に近い場合と相互関連性が強い場合とがある、など、

2013-04-28 18:48:45
佐藤俊樹 @toshisato6010

それこそ統計学的なメタファーでとらえた方がよいのではないかと思う。ああ、これは昨日の別のコメントだけでなく、『意味とシステム』でなぜkと呼んだかへの解説でもあるなあ。

2013-04-28 18:49:15