統計的検定についてー統計のイメージ
今回から統計データ解析の僕なりのイメージについて書いていきたいと思います。あくまでイメージなので、実際とは異なる点もあるかもしれないですが、その場合は指摘してください。
今回のテーマは検定です。詳しい検定のやり方については
や下のpdfなどもあるのでそちらの方が詳しいかもです。
http://www.statistics.co.jp/reference/Toukeigaku_Nyumon/nyumon5.pdf
また統計学の本ならほとんど載ってると思います。
統計学における検定は、ある仮説が正しいかどうかを確かめるために用いられる方法です。
検定には多くの種類(T検定やF検定など)がありますが、今回は細かい手法ではなく検定自体のイメージを説明します。
仮説について
はじめは仮説についてです。検定はある仮説が正しいかどうかを調べるための方法と書きましたが、仮説は分析者が決める必要があります。
よくある仮説としては、(1)大谷翔平選手の真の打率は.300以上かどうか?や、(2)DMを送ると購入率が上がるかどうか?など、ある指標がある値よりも高い(低い)かどうかを比べるような仮説が多いです。
これらの仮説を帰無仮説と対立仮説という形で考えます。
具体的に、(1)であれば、帰無仮説は「大谷翔平の打率は.300である」であり、対立仮説は「大谷翔平の打率は.300以上である」となります。
ここで注意しなければならないこととして、「帰無仮説はある値を取らないといけない」ということです。
これは帰無仮説の値を用いて、検定を行うからです。
仮説の検定について
二つの仮説を立てたので、検定を行うことができます。
統計における検定は、確率的背理法などと言われることもありますが、それは帰無仮説が正しいと仮定して、それが間違っているなら対立仮説が正しいと考えるからです。
つまり検定では、帰無仮説が正しいとしたときに、実際の値(例えば(1)なら大谷翔平の現在の打率)が出る確率を計算して、それが非現実的な値(5%とか)なら帰無仮説を棄却して、対立仮説が正しいとします。
これにより、帰無仮説が間違っているときは対立仮説が正しいという判断ができますが、 帰無仮説が間違っていないときに帰無仮説が正しい訳ではない点には注意が必要です。
上で見てもらったものが検定の大まかなイメージです。ここからは検定の良い点と悪い点を見ていきます。
検定の良い点
検定は仮説が正しいかどうかを判断する際に、直接的に利用できるのが一番の利点だと考えています。
様々な検定方法がありますが、どれもやっていることは、仮説を立てて、その判断をするという2つのプロセスだけで成り立っています。
それぞれの検定方法がどんな仮説の判断をしているのかさえ理解すれば、あとは当てはめるだけで結果が出るので、分かりやすい手法だと思います。
検定の悪い点
検定では帰無仮説で、ある一点を固定して考えるので、結果が分かりやすくなるかわりに、連続的な値への当てはめができないのが欠点だと思います。
ベイズ流の検定では連続的な値でも解釈が出来ると思いますが、いわゆる検定では難しいのかなと感じます。
もう一つは、帰無仮説が棄却されなかったときに、帰無仮説が正しいという判断ができないことです。
例えばp値が0.5のときは、帰無仮説のもとで検定統計量以上の値が確率0.5で出ているようなものなので、帰無仮説が正しいというには情報不足であると考えられます。
この二つが検定の悪い点かと考えています。
検定は統計の基本であり、応用の上で重要なのでより勉強していきたいですね。