【入門編】わかりやすい統計学


みなさんこんにちは。

いなみです。

本日よりわかりやすい統計学を何回かに分けて記録していきたいと思います。

じゃんけん勝負

4_7

ある村にじゃんけんに自信がある2人の男の子がいました。

じゃんけん最強のA君

じゃんけん無敵のB君

どちらも村一番の強さを誇ってしましたが、二人が対戦することは一度もありませんでした。

しかし、ある日のこと、A君がB君に言いました。

A君:『B君、どっちの方が強いか決着をつけよう』

それを聞いたB君が答えました。

B君:『…いいよ。望むところだ』


こうして始まったじゃんけん勝負

じゃんけんを10回繰り返したところ以下の結果が出ました

 勝敗
A君9勝 , B君1勝

A君:『僕の勝ちだ!参ったか』

B君:『くそー!僕の負けだ』

こうしてA君B君と比べて、じゃんけんが有意に強い』

という結論になりました。

統計学で解説

上記、A君とB君の話を、統計学の観点から見ていきます。

まず、A君B君と比べて、じゃんけんが強い』

という事柄は、仮説

そして、矛盾しないかどうかをみる方法(今回でいう「じゃんけん」)を仮説検定という。

しかし、B君からすると

4_8
 

A君B君と比べて、じゃんけんが有意に弱い』と思うわけです。

これを、統計学では帰無仮説という。

しかし、実際にはB君A君がじゃんけんで負けたので、棄却(否定)されたことになります。

これを『帰無仮説(B君A君)の棄却』と言います。


ここまでが統計学の基本的な用語。

「頭の中がごちゃごちゃになった」という方が大半だと思います。

僕は未だにわかりません。

統計学的思考

実は、ここまでで統計学上、大きな間違えがあります。

それは「確率的」考えです。

上記のじゃんけん結果

 勝敗
A君9勝 , B君1勝

を見たときに、多くの人がA君の方がB君と比べて強いと思うでしょう。

しかし、統計学ではどちらとも言えないという結論が導かされます。

その理由としては2点

n数(サンプル数)

今回、A君とB君がじゃんけんを行った回数が、10回

このじゃんけんを10回行った結果が、n数(サンプル数)と言います。

10回繰り返した結果は、統計学では少なすぎるサンプル数であり、事例に過ぎないと判断されます。

そのため、最低でも欲しいサンプル数をn=20以上は欲しいです。

では次に「なぜ20回なのか?」を説明します。

統計処理

統計学では95%以上の結果こそ強力な証拠になります。

もちろん、100%に近ければ近いほど強い証拠になりますが、この残り5%は外れ値といい、「たまに起きる事柄」と定めました。

これを統計学ではp値と言います。

p<0.05。

つまり「5%でしか起きないこと」を表現し、帰無仮説を棄却する際に用いられます。

話を戻すと、今回のじゃんけんにおいて、

 勝敗
A君9勝 , B君1勝

A君はB君に対する勝率は90%であるため、10%は負ける可能性がある。

つまり、p>0.05となり

A君B君と比べて、じゃんけんが有意に弱い』

という帰無仮説は棄却(否定)できません。

では「なぜ20回なのか?

天才は気付くかもしれませんが、

20回のうち19回勝つ=勝率95%(外れ値を想定)

となります。

そのためにも、n=20以上は必要になってくるのです。

まとめ

いかがでしたでしょうか。

この統計学はビジネスでもギャンブルでもサイエンスでも必ず用いられる学問。

初見ではかなり理解に苦しむ人もいるかと思いますが、僕は今も苦しんでます。

次回は実証データを用いた基本編