H2O-3 Generalized Linear Modeling を使ってトトくじの勝敗を予測する
回帰予測モデルは分類ではなくて、連続する量を推定する方法です。ここではサッカーにおけるゴール数を対象として、その数値の大小比較によって勝敗を予測したいと思います。まず準備段階としてJ1、セカンドステージ 第10節 をモデルに検証を行います。
トレーニングデータにはあらかじめホームとアウェイのゴール数を付加しておきます。これは今季の試合後の組み合わせスタッツをそのまま使っています。おなじようにテストデータにも空欄の列を作ります。なおテストデータのチームスタッツには前節のものを予測対象組み合わせに差し替えたものを使います。
トレーニングデータを使って予測モデルを構築するわけですが、この時にオミットした属性は以下の通りです。
1、枠内シュート数 および PKシュート数
2、上記の成功率
ホームとアウェイで ×2 ですから 合計 8個 の列をオミットしています。実際の計算結果をまとめたものが以下になります。
左側の数値についてですが、真ん中をはさんで左がホーム、右がアウェイとなっています。真ん中はホームの数値からアウェイの数値を差し引いたものです。表の右側には実際のスコアと結果が示されています。ホームとアウェイの差がマイナス符号の場合は、アウェイが優勢、プラス符号はホーム優勢となりますね。
そして差が小さいほどドローの可能性が高いと見ます。符号を除くと絶対値となりますが、これが小さいほど引き分けになる確率が高いです。この計算からいうとドロー候補は以下のように読み取れます。
1、甲府ー大宮
2、神戸ー浦和
3、福岡ー磐田
4、名古屋ーFC東京
5、横浜FM-鹿島
以上 数値の小さい順に5枠挙げました。この2nd 10節においては 3枠のドローが発生しましたが、いずれも上にあげたドロー候補に入っています。たまたま上手くいった可能性も高いですが、ある程度はドローについて予測できるのではないかと感じています。その他の予測手法においてはダブル候補をすべて挙げるという方法もありますが、これではドローを絞り切れず現実的予測手法という観点から考えると実用的ではありません。
さて、上述した予測手法は単に優劣を判断したり、ドロー確率が高い枠を推定するためだけのものです。表をみれば一目瞭然ですが、実際の試合におけるゴール数を推定するのには無理があります。
第873回トトくじ予想については上記の手法を使って行いたいと思います。出来次第アップ予定。
コメント