Tivadar Danka氏による、「大数の法則でサンプルはどれくらい必要なの」の解説(G訳を付けました)

5
Tivadar Danka @TivadarDanka

I make math accessible for everyone. Mathematician with an INTJ personality. Chaotic good. Writing bit.ly/MathMLBook

thepalindrome.org

Tivadar Danka @TivadarDanka

A question we never ask: "How large that number in the Law of Large Numbers is?" Sometimes, a thousand samples are large enough. Sometimes, even ten million samples fall short. How do we know? I'll explain. pic.twitter.com/6gMKVcYObd

2023-09-12 20:58:48
拡大

私たちが決して尋ねない質問:

「大数の法則における、そのサンプル数はどのくらいですか?」

場合によっては、1,000 個のサンプルがあれば十分な大きさになることがあります。場合によっては、1,000 万個のサンプルでも不足することがあります。

どうやって知ることができるのでしょうか?以下で説明します。

Tivadar Danka @TivadarDanka

First things first: the law of large numbers (LLN). Roughly speaking, it states that the averages of independent, identically distributed samples converge to the expected value, given that the number of samples grows to infinity. We are going to dig deeper. pic.twitter.com/BXESLtxAwy

2023-09-12 20:58:50
拡大

まず最初に、大数の法則 (LLN) について説明します。

大まかに言うと、サンプル数が無限に増加した場合、独立した同一分布のサンプルの平均は期待値に収束すると述べています。

さらに深く掘り下げていきます。

Tivadar Danka @TivadarDanka

There are two kinds of LLN-s: weak and strong. The weak law makes a probabilistic statement about the sample averages: it implies that the probability of "the sample average falling farther from the expected value than ε" goes to zero for any ε. Let's unpack this. pic.twitter.com/hmI2Oni8E9

2023-09-12 20:58:52
拡大

LLN-s には、弱いものと強いものの 2 種類があります。

弱法則はサンプル平均について確率論的な記述を行います。これは、「サンプル平均が ε よりも期待値から遠ざかる」確率が、どの ε についてもゼロになることを意味します。

これを開梱してみましょう。

Tivadar Danka @TivadarDanka

The quantity P(|X̅ₙ - μ| > ε) might be hard to grasp for the first time; but it just measures the distance of the sample mean from the true mean (that is, the expected value) in a probabilistic sense. pic.twitter.com/anJLzVmzvL

2023-09-12 20:58:54
拡大

量 P (|X̅ ₙ - μ| > ε) を初めから理解するのは難しいかもしれません。しかし、この量は、確率的な意味で真の平均値 (つまり、期待値) からサンプルの平均値までの距離を測定しているだけです。

Tivadar Danka @TivadarDanka

The smaller ε is, the larger the probabilistic distance. pic.twitter.com/D8dTNzlEAJ

2023-09-12 20:58:56
拡大

εが小さければ小さいほど、確率的距離は大きくなります。

Tivadar Danka @TivadarDanka

Loosely speaking, the weak LLN means that the sample average equals the true average plus a distribution that gets more and more concentrated to zero. In other terms, we have an asymptotic expansion! Well, sort of. In the distributional sense, at least. pic.twitter.com/y3Jjt3sJLR

2023-09-12 20:58:57
拡大

大まかに言えば、弱い LLN は、サンプル平均が真の平均に、ますますゼロに集中する分布を加えたものに等しいことを意味します。

言い換えれば、漸近的な展開ができます。

まあ、ある意味。少なくとも分配的な意味では。

Tivadar Danka @TivadarDanka

(You might be familiar with the small and big O notation; it’s the same but with probability distributions. The term o(1) indicates a distribution that gets more and more concentrated to zero as n grows. This is not precise, but we'll let that slide for the sake of simplicity.)

2023-09-12 20:58:58

(小さい O 表記と大きい O 表記はよく知られているかもしれません。これは確率分布を除いて同じです。

項o( 1) は、n が増加するにつれてますますゼロに集中する分布を示します。

これは正確ではありませんが、簡単にするためにそのままにしておきます。)

Tivadar Danka @TivadarDanka

Does this asymptotic expansion tell us why we sometimes need tens of millions of samples, when a thousand seems to be enough on other occasions? No. We have to go deeper. Meet the Central Limit Theorem.

2023-09-12 20:58:59

この漸近展開は、他の場合には 1,000 サンプルで十分であるように見えるのに、なぜ時々数千万のサンプルが必要になるのかを教えてくれるでしょうか?

いいえ、さらに深く掘り下げる必要があります。

中心極限定理に深入ります。

Tivadar Danka @TivadarDanka

The central limit theorem (CLT) states that in a distributional sense, the √n-scaled centered sample averages converge to the standard normal distribution. (The notion “centered” means that we subtract the expected value.) pic.twitter.com/f2K291YCfT

2023-09-12 20:59:00
拡大

中心極限定理 (CLT) は、分布的な意味で、 √ n スケールの中心サンプル平均が標準正規分布に収束すると述べています。

(「中心にある」という概念は、期待値を差し引くことを意味します。)

Tivadar Danka @TivadarDanka

Let’s unpack it: in terms of an asymptotic expansion, the Law of Large Numbers and the Central Limit Theorem imply that the sample average equals the sum of 1) the expected value μ, 2) a scaled normal distribution, 3) and a distribution that vanishes faster than 1/√n. pic.twitter.com/vY2ASDFzzn

2023-09-12 20:59:02
拡大

それを解き明かしてみましょう。漸近展開の観点から言えば、大数の法則と中心極限定理は、サンプル平均が次の合計に等しいことを意味します。

  1. 期待値μ、
  2. スケーリングされた正規分布、
  3. 1/ √nよりも早く消える分布
Tivadar Danka @TivadarDanka

This expansion can be written in a simpler form by amalgamating the constants into the normal distribution. More precisely, this is how the normal distribution behaves with respect to scaling: pic.twitter.com/CguctGYd5F

2023-09-12 20:59:04
拡大

この展開は、定数を正規分布に融合することで、より単純な形式で記述することができます。

より正確には、スケーリングに関して正規分布がどのように動作するかは次のとおりです。

Tivadar Danka @TivadarDanka

Thus, our asymptotic expansion takes the following form. In other words, for large n, the sample average approximately equals a normal distribution with variance σ²/n. pic.twitter.com/iaL2yWTw6T

2023-09-12 20:59:05
拡大

したがって、漸近展開は次の形式になります。

言い換えれば、n が大きい場合、標本平均は分散 σ²/ nを持つ正規分布にほぼ等しくなります。