J1,J2、ルヴァン杯 合わせて過去5年分のデータをまとめてトレーニングデータとして予想する。
今節は お試しテスト といった感じの予想です。いつもよりデータのボリュームは相当多くなっています。使う変数は対戦履歴とスコア情報のみ。
いつもはリーグ戦情報しか使いませんでしたが、今節はルヴァン杯の結果も含めています。なぜステージの違うJ1,J2,ルヴァン杯を混ぜたデータにしたのか?
それはカテゴリーを上下するチームについて、データの取り扱いが面倒になるからです。一緒にしてしまえばデータ管理としては非常に楽になります。
点差による予測
今回は点差による勝敗予想を考えてみました。単純にホーム側からアウェイのゴール数を引き算したものを 名義属性 として分類予測するだけです。
マイナスならばホームの負け、逆にプラスならホームの勝ちと判断します。表のセンターはゼロで、引き分けの確率を表しています。
predict はいちばん確率の高い 点差 です。
左から マイナスが大きくなっていき、ゼロをはさんで右にプラスが大きくなっています。
表が細かいのでクリックで別画面で確認してみてほしい。
PREDICT の数値はストレートではまず当たらないかもしれません。第二、第三候補あたりまで含めて考えるのが良いかと思います。数値の大きさよりも、その順位、序列に注意したほうがいいかな。
ゴール数の数値による優劣比較は追記します。
過去5年間のデータを基にしたゴール数の回帰予測
過去5年分のデータから、それぞれの対戦カードにおけるゴール数を回帰予測してみます。足掛け5年間ですので、2013シーズンからとなっています。
やり方は先の予測とほぼ同じです。目的変数がゴール数に変わっただけです。
HG 、AG のそれぞれの数値の大小比較で優劣をみます。今回の予想はこれで終わり。あとは表を見比べてマルチ買いなどの組み合わせをいろいろ考えるだけです。
全体的な印象は順当寄りな予想となっていますね。ある程度、想定はしていましたけどあんまり面白い予想じゃないです。ここからどれだけ荒れた展開になるか、そこがポイントじゃないでしょうか。
追記 アルゴリズムに不安があったので再度 GBM で予測してみた。
さて、上に挙げた予想、これ、すべて DL (ディープラーニング)で予測したものです。あらためて予測モデルについて確認してみたんだけど、どうも検証結果が思わしくありません。
単純比較なんですが、圧倒的にGBMの方が良いように見えます。H2O ai の交差検定結果の詳しい見方については自信もありませんので書かないですが、要するに 目隠しテスト の正解率で圧倒的にGBMが優っているということなんですね。
おそらく間違いはないと思います。予測モデルにおける正解率が、未知のことに対して ”同じような正解率” を示すかどうかはまったく分からないのですが、推定としては 「同じような正解率を示すだろう」 と考えるのが自然です。
というわけで、あらためて計算し直してみます。
GBMによるゴール数回帰予測
けっこう割れてる枠が多いです。どう判断すればいいのか、むずかしい。
試合後の感想 初日編
まず点差による分類と回帰によるゴール数比較。
どちらが良いか? 単純比較だけど、点差による分類の方がいい感じ。アルゴリズムの選択では、予想に反しDL(ディープラーニング)の方が精度が高いように感じます。交差検定の結果ではかなり悪かったんですけどね。。
なんでかよくわかりません。今回だけという可能性も高いので判断に苦しむ。一応グリッドサーチで活性化関数は選んでやってます。データ量がそこそこ多いので少し時間はかかりますが。まあ、使ったパソコンがへっぽこだったのもありますけどね。
期待したGBMによる予測は「期待ほどではない」 めちゃくちゃ悪いという感じでもないけど、DLよりも低いというか、データに合わないという感じを受けます。
特に感じること、それは、点差による優劣判断において、第一候補のみで判断するんじゃなくって、第二第三まで含めて判断するということ。
本文にも書いているように、分類確率の数値の大小ではなく、その順位、順列にも注意を払った方が断然良い結果を得ることができそうだということ。
ストレートで、つまり一口で当てるということに固執しないで、まずは取りこぼしのない予想母体、マルチを作り、そこから可能な限り広く買えるように考える。
実際に買える金額は限りがあるけれど、理想を言えば予想母体に限りなく近づけて買うのがベストじゃないかと思います。予想母体に取りこぼしさえなければかなりいいところまで予測できるはず。
二日目終わったらまた追記したい。
二日目を終えて 全体の感想
さて、全部終了したので全体を見直してみます。だいたいにおいて、良い見通しができたのではないかと感じます。
一部、まったく噛み合わない枠もありましたが、かなり良い出来だと自分では思う。特に期待していなかったDLによる予測、これはけっこう可能性があるかもしれません。
大量に過去データを使って予測する。これに時系列要素をプラスして機械学習させてみる。現在テスト中なのですが、日付データの加工に少し工夫が必要かもしれません。
現状としては、点差による分類予測を基本に考えて、さらに時系列属性をプラスして予測する方法を試したいと考えています。
回帰分析による勝敗予測よりも、過去点差による分類確率の方が分かりやすい。引き分けもはっきり示されるので。ただゴール数予測はほんとうに難しい。
時系列属性をプラスすることによって、どれくらい予測精度が改善されるものなのか、またページをあらためて記録したいです。
コメント