いっかくのデータサイエンティストをいく

1からプログラミングとデータサイエンスを独習したい

【統計学】仮説検定

統計学をやっていると避けては通れない仮説検定。私は楽しいと面白いと思ったのですが、皆さんはいかがですか? 例のごとく有斐閣統計学」第10章SECTION1の解説です。

仮説検定とは

仮説検定とは、ある仮説が正しいか、統計学的に検証しようというものです。 具体的には (1)さいころの3の目の出る確率は本当に1/6か? (2)あるテレビの視聴率は本当に7%か? などです。

仮説検定の手順

仮説検定は、基本的な考え方は「検証したい仮説Aを否定する仮説Bを立て、仮説Bとなる確率が設定した確率より低くなれば仮説Bでないといえ、仮説Aであるといえる」という非常にややこしい方法をとっています。

回帰分析の傾きの検定を考えます。 この傾きが正なら右肩上がりの直線となって説明変数が増えると被説明変数も増えるという因果関係が成立します。 逆に傾きが0なら説明変数と被説明変数には因果関係がないと言えます。 これを踏まえ仮説検定の手順を見ていきましょう。

(1)仮説を立てる 仮説検定で立てる検定には帰無仮説と対立仮説の2種類があります。帰無仮説とは「検証したい仮説が成立しない」という仮説です。例の場合傾き=0となります。対立仮説帰無仮説の逆です。もし傾きが正だとわかっている場合は傾き>0が対立仮説となりますし傾きがわからな場合は傾き≠0となります。 仮説検定はこの帰無仮説を否定できるか(棄却するという)否定できないか(採択するという)を考えます。

(2)両側検定か片側検定か考える 先ほど、対立仮説で傾きが正だとわかっている場合と傾きの正負がわからない場合を説明しました。 対立仮説の段階で傾きの正負がわかっている場合、正か負かのどちらかで検定すればいいようになります。これを片側検定といいます。逆に正負両方考えないといけない場合を両側検定といいます。

(3)有意水準を決める 上記の基本的な考えで「設定した確率」という言葉を使用しました。このようなある基準をクリアすれば帰無仮説を棄却すると判断する基準を有意水準といいます。普通10%、5%、1%で設定し、論文やRではそれぞれ*、**、***で表示されます。たとえば有意水準5%募集の場合、片側検定では片側で5%、両側検定では片側2.5%ずつ計5%となります。 なお、分布のなかで有意水準より遠い領域を棄却域といいます。

(4)検定統計量を計算する 検定では、得られた標本をもとに検定統計量というものを計算し、これと分布を比較して棄却域のなかに入るか否かを計算します棄却域の中の場合帰無仮説はききゃくされ、対立仮説を採択できます。 帰無仮説が棄却された際に統計的に有意といいます。

第一種の誤りと第二種の誤り

  • 第一種の誤り : 帰無仮説が正しいときに対立仮説を棄却してしまう*1

*第二種の誤り : 対立仮説が正しいのに、帰無仮説を採択してしまう

第一種の誤りは有意水準と同じ確率で発生します。有意水準5%なら20回に1回は発生します。

参考

https://to-kei.net/hypothesis-testing/about-2/#i-5

*1:第一種の誤りの確率がP値