回帰分析のイメージ

 

 

回帰分析はデータ分析を行う際、必ず用いられると言っても良い手法である。

 

線形単回帰に始まり、重回帰、一般化線形回帰、ロジスティック回帰など、数多くの応用がある。

 

 

全ての手法に通じるのは、何かの指標を説明するために、他の指標を用いる事である。

 

ダルビッシュ選手の防御率を知るために、奪三振率や被安打率を用いて推測するといったように。

 

 

問題は、どの指標を用いて説明するかになる。防御率を推測するのに、奪三振率や被安打率は必要だとしても、打率は必要ないかもしれない。いらない変数が混ざってしまう。結果、誤差が増える。

 

これが良くないのは、信頼区間が広くなってしまうからである。防御率が0.00から5.00の間にあると分かっても、何も嬉しくないだろう。

 

 

不要な変数は経験的に見つける事もできるが、統計的に求めることもできる。情報量基準を用いる。決定係数やCp基準、赤池情報量基準(AIC)が線形回帰では利用できる。防御率の推測に打率は関係ないと知らなくても、これらの基準により、統計的に変数選択すれば良いのだ。

 

 

回帰分析は統計学の中で重要な位置を占めていると感じている。特に、線形回帰は、他の手法の基礎になっており、たとえそれほど使わない方でも、理論を理解しておく利点は大きいと思う。