J2 の勝敗予想 832回 トトくじ
今回 予想に用いたアルゴリズムは Gradient Boosted Regression and Gradient Boosted Classification
H2O にあるやつです。ナビスコカップ については データもないので予測対象外としました。選手起用とか大きく変えてきますので予想がしにくいです。それに細かいデータも入手できません。J2 はリーグ戦ですからそのままデータを流用しました。今シーズンのみのデータです。
まずは グリッドサーチ で パラメーター調整をします。下の画像は どの属性に重きを置いたのかを確認しているところです。
パッと見て、クロスが成功した数 に重要度があることが分かります。当然といえば当然な結果なのですが、こういった属性の重要度は 選択するモデルと設定によって大きく変わります。たまたま GBM において 私の作ったデータにおいては こういう結果になった というだけで、他人がやるとまったく別の結果が表示されると思います。
ちなみに グラフの数値は 一番デカい重要度を 1 としてその他の属性を比較しています。
肝心の予想は以下です。
参考になればいいんですけど。。大ハズレの可能性も高いです。たぶん。たとえば 松本ー山口 は対象外ですが、ちょっと考えにくい予想結果となっていますね。1軍にいたチームと3軍から這い上がってきたチーム。。誰がどう見たって松本だと思いますがどうでしょうか。
比較のためにランダムフォレストの結果も載せたいと思います。
H2O ランダムフォレスト 832回 J2 予測結果
一応 グリッドサーチでパラメーターはいじっています。よく理解していないパラメーターも一部あります。logloss というグラフと属性の重要度を示すグラフを挙げておきます。
最初は LOGLOSS
決定木の数が20あたりで収束してます。このグラフって どう評価していいか分かりません。つぎは変数重要度です。
全体的に 他の属性 変数 に対しても重要度を取っているように感じます。GBM の特性とは明らかに違いがあります。どう評価していいのか 分かりません。最後にランダムフォレストの予測結果です。
一部の違いがありますが、GBMの予測とよく似ています。特徴としては 確率 が極端に偏っていないことが挙げられると思います。おそらくランダムフォレストにおいては先のグラフで確認したように その他の変数の重要度 を GBM よりも大きく取っているからだと思われます。
現段階では以上です。参考になったらうれしいです。追記あるかもです。
第832回 トトくじ の結果
今回の買い目
100円 一口だけ買ってみたんですが、意外にも 9枠 正解しました。一応それなりに考えての結果ですのでうれしいです。マルチで買っても なかなか当たりませんからね。次に今後の予想のために考え方を整理しておきましょう。
ナビスコカップの予想に有効な手段はあるのか?
これは僕の独断ですけれども、リーグ戦はどのチームも ガチ で勝ちたいはずですから できるだけベストな布陣で臨んできます。予定されてる相手チームに対して もっとも適した選手、戦術を考えると思います。
それに対して カップ戦 は、言い方は悪いですが、ベストメンバー という制約はあるにせよ リーグ戦に支障のあるようなことは基本的にしないと思います。サブメンバーのテストマッチという位置づけであったり、コンビネーションの確認であったり、監督やフロントの意向で 普段のチームづくりとは違った方向性で向かってくる可能性が高いです。
こういった事情から ナビスコは予想が難しい傾向 があります。今回ナビスコ予想で注目したのは シュートの決定率でした。
ナビスコカップに関しては細かいデータというのはあまり多くありません。フットボールラボというサイトはリーグデータこそ充実していますがカップ杯に関してはまったくデータがありませんし、Jリーグ公式サイトにもありません。あるのはヤフースポーツぐらいでしょうか。
今回 作成したデータは以下のようなものです。
これは ナビスコ予選1回戦 におけるデータです。各チームの残したスタッツと、シュート数におけるゴール数の割合・・いわゆる決定率を書き足したものです。ここでは あえて相手チームの情報は重視しませんでした。つまり 「どのチームに対しての結果か?」 ということは、まったく考慮していません。
本来なら、こういった決定率というのは 強さ指数 というようなもので考えなければならないものです。たとえば 草サッカーチーム に対する 10ゴール と、プロチームに対する1ゴール では、その重みがまったく違うわけです。しかし、それは あまりにレベルの違うケースで考えることであり、かりにもJ1というステージでプレイするチームにおいては、程度の差 こそあれ、そこまでディフェンスの質に差があるとは考えにくいです。
ですから単純にシュート決定率で比較をすることを考えました。数値が高いほど攻撃力が高いと判断するわけです。逆に、シュートを打たれた数に対してゴール数が多い場合は、ディフェンスが弱く、無失点なら防御力が高いわけです。
今回は得点力だけに注目して予想した結果が以下です。
青のマーキングが決定率の高い方のチームです。黄色は1回戦のデータがなくて比較できなかったチームです。ハズレになったのは 甲府 と 鳥栖 の2チーム。決定率の比較だけで 4/6 の正解を得ることができました。
いろいろ頭を悩ませるより、サクッとデータ比較で予想するのもいいかなと思います。
今回 J2予想 で使った 機械学習予想のランダムフォレストはけっこう良い結果を残してくれました。改良点はいろいろあるので今後も継続して使いたい手法です。
コメント