ピタゴラス勝率は正しいか？

要約

ビルジェームズが考えたピタゴラス勝率が勝率の推定値として正しいかどうかの判定をしたい。過去3年間のプロ野球のデータを用いた分析を行った結果、ピタゴラス勝率は勝率の推定値として有効だと考えられると分かった。

はじめに

ピタゴラス勝率はBill Jamesによって考え出された勝率の推定値である。

これは得点と失点のみによって勝率を推定している。必要なデータが少なく、結果もわかりやすいので、有効ならかなりわかりやすい指標だと思う。

チームスポーツにおいてある選手がどのくらい勝利に貢献したかは曖昧になりがちだが、ピタゴラス勝率が真の勝率だと考えられるならば、選手の貢献はどのくらい得点を増やしたか、あるいはどのくらい失点を減らしたかのみに注目して選手の貢献度を計れるのがピタゴラス勝率の良いところだ。

今回は、このピタゴラス勝率が真の勝率の推定値として正しいかどうかを考えてみよう。

ピタゴラス勝率の数式

ピタゴラス勝率は得点と失点によって定義される。具体的に

(ピタゴラス勝率) = (得点の2乗) ÷ (得点の2乗 + 失点の2乗)

と表される。

推定の方法

ピタゴラス勝率の正しさを調べるために、誤差分散の推定値を用いてピタゴラス勝率の95%信頼区間を求めることにしよう。

(真の勝率)　＝　(ピタゴラス勝率)　＋　(誤差)

と考えられる。

よって、誤差が平均０、分散σ^2の正規分布に従っていると仮定できれば、誤差分散σ^2の値でピタゴラス勝率が真の勝率をどのくらい良く推定できているのかが分かるはずだ。

データについて

データは2013年～2015年のプロ野球１軍のチーム成績を使う。プロ野球データFreak(http://baseball-data.com/)のデータを借りた。

データの名前は

WPCT(win parcentage)　＝　勝率

RS(runs scored)　＝　得点

RA(runs allowed)　＝　失点

PE(pythagorean expectation)　＝　ピタゴラス勝率

とする。

結果

まずは散布図行列を見てみよう。下図のようになった。散布図行列については以前書いた記事に載っている。気になる人はここを見てほしい。

f:id:keih87:20170126222836p:plain

まず、右上の数字は相関係数になっている。WPCTとPEの相関係数は0.87となっており、かなり高い相関がみられる。WPCTとRSやRAとの相関係数の絶対値は0.5~0.6程度の弱い相関になっているようだ。

しかし、左下の散布図を見てもらえれば、WPCTとRSやRAとの散布図ではデータのばらつきは大きく見える。逆にWPCTとPEとの散布図ではかなりデータが回帰直線の中心に寄っているように見える。

また、今回はあまり関係ないが、真ん中のヒストグラムを見るとかなり正規分布に近いデータのようだということが分かる。

ここで推定値の残差(勝率ーピタゴラス勝率)の値のヒストグラムを見てみよう。残差は誤差の推定値であると考えられるので、これが正規分布に近ければ正規分布を仮定しても問題ない。ヒストグラムは次のようになった。

f:id:keih87:20170126224237p:plain

残念ながら完璧な正規分布の形にはならなかった。しかし、かなり正規分布に近い。今回のデータ数(12チーム×3年=36)では、ヒストグラムはこのようになったが、もっと多くのデータを集められれば正規分布に近づきそうにみえる。

今回は正規分布を仮定できると考えて、先に進もう。

残差の分散を求め、それによって各ピタゴラス勝率の信頼区間を求める。

まず、残差の分散は0.000956とかなり小さい値になった。これを用いて信頼区間を求める。実際の計算方法は何か統計学の本を参考してほしい。

残差の95%信頼区間は平均を０と仮定すると[-0.057,0.057]となるのでピタゴラス勝率の誤差は大体±6%くらいに抑えられると考えられる。95%信頼区間をWPCTとPEの散布図に合わせてプロットすると下図のようになった。

f:id:keih87:20170126225428p:plain

赤い線は原点を通る傾き１直線である。点がこの直線に近いほど上手く推定できていると考えられる。

今回は青い線で表した信頼区間が赤い線と交わっていればうまく推定できていると考えてよいだろう。

実際に、ほとんどのデータが上手く推定できていると考えられる。

よって、ピタゴラス勝率は±6％程度の誤差を認めれば勝率の推定値だと考えられそうだ。

参考

要約

もくじ

はじめに

ピタゴラス勝率の数式

推定の方法

データについて

結果

参考