clew

気になるモノ 気になる人 気になる言葉

*

J1-10節 7試合 と J2-11節 10試合の予想

      2016/05/05

GBM と ランダムフォレスト による予想。確率から予想してみる。

今回の予想は、GBM と、ランダムフォレスト の二つのアルゴリズムを使って予想してみます。トレーニングデータは 今季の累積データ ではなくて、少しデータ量を制限してあるもの を使っています。いつもは一番確率が高いものを予想として挙げていますが、今回のやり方では確率が少し変わった形で出力されます。ふたつのアルゴリズムで出力された確率を比較してみることで予想してみたい。

J1-10節 の予想

まずは一覧表にして掲示します。確率の順序は真ん中のドローを挟んで左が away となっています。注意してください。なお、枠番、順列 はトト公式枠番とは無関係に並んでいます。

j1-10 predict

表の上部は H2O-3 において GBM といわれるアルゴリズムによる予測です。よく見ると確率が同数で並んでいる枠が確認できますね。予想出力としては3WAYのどれかが選ばれています。なぜ同数なのにちゃんと選ばれているのか よく分からないです。ランダムフォレストのほうは、ちゃんと確率が割れています。両者とも設定はデフォルトのままです。そして与えたトレーニングデータもまったく同じです。どちらが信頼できるか? これも難しい。一応この予想方法というのは、前回の予想において検証はしています。いずれもパーフェクト予想とはいきませんできたが、それなりに両方とも信頼するに足る意味ある出力を返してくれました。なので今回 採用してみたわけですが、なかなか判断に苦しむ返り値です。

参考として、まったく同じ予測手法で予測した J1-9節 を挙げましょう。

j1-9 参考

確率の出方はよく似ていますね。GBM ではやはり同数確率が見られます。確率から見ると 浦和の勝ち とか、柏の勝ち などは完全にハズシていますが、全体的にはよく特徴が捉えられているのではないかと感じます。

J2-11節 予想

予測方法はJ1と全く同じ。以下一覧表です。

j2-11 predict

確率の表示が変化するのは、トレーニングデータの質による変化です。先ほどの J1予想とほぼ同じ方法なのですが、データ内容が変わるとこのような感じになります。なお、ランダムフォレストによる予想では、確率と予想が一致していない枠がありますが 間違い ではありません。念のため。

予想の検証と評価はこのページにて追記します。

j2-11節 結果と検証

J2 10試合が終了しました。さっそく予想と照合してみます。

全体的な評価としては、ランダムフォレストよりも GBM による予想のほうが良い感じです。これは前節でも感じていたことで、今節においても同じような感触を得られたと感じています。

GBM においては 5/10 の正解率です。結果的に50%としか正解していないわけですが、内容的には間違った予測方向ではないと思っています。一覧表の3枠目 金沢ー札幌 などは確率では札幌勝利を示唆していますし、2枠目の 松本ーセレッソ も 1点差 でしたのでドローの可能性も高かったと思います。特に悔しいかったのは トト対象外であった 千葉―讃岐、ヴェルディー山形です。

後半30分ぐらいまでは予想どおりでしたが、最後にそれぞれ away にゴールを決められてしまいました。予想からは大きく外れた展開ではなかったので悔しいです。読みとしては悪くなかった。予想から大きく外れたと感じたのは 1枠目の 横浜ー岡山 ぐらいです。

トト支持率をあらためて確認してみると、今回の J2対象試合 は、ほぼ均等に支持率が割れていますね。なかなか判断が難しい試合であったことを示していると思われます。GBM による予想では、支持率という属性は一切使用していませんが、人力予想においても、ある程度はデータを参考にしているわけで、そういった意味においては 機械による予測もよく似ている部分があるようです。

J1 については終了次第 追記したいと思います。

j1-10節 結果

全体としての正解率は悪いですね。GBM ランダムフォレスト ともに非常に悪い。予測精度ってのは安定してこそ評価ができる。つまり悪いなら 常に悪い、もしくは 良い なら、いつも良い といった具合に安定していなければ評価できません。そういった意味から言えば、これらの予測手法は良い方法とは言えない。しかし 救い もある。

救い というのは、それなりに意味のある出力も得られているという部分。今節でいえば、1枠 湘南の勝ち、鹿島 そして 柏 の勝ちなど。いずれも GBM においてはハッキリと予測されている。

完全な予測ミスを犯している枠もあるのですが、(福岡の勝ち とか、神戸―磐田 など)僕としてはGBM による この予想方法を見切るのは もったいない と考えています。

もうひとつ もったいない と考える理由は以下。

同数確率 となった枠は 川崎―仙台、名古屋ーマリノス の、二つがあります。これらはいずれも支持率においては一番人気で順当結果とはなっておらず、GBMの予測においても、そのことが示唆されているように感じられる。

以上のことから、予測精度は安定はしていないけれども、それなりに結果が得られている予測手法だと思います。今後も引き続き注視したい。あとランダムフォレストによる予測については様子見です。枠ごとの確率の比較においては、そこそこ良い予測を示しているとは感じますが、現実的にマルチで多くの枠をダブルで買うことは不可能です。したがって予想の主軸にするには向かないかと感じます。補助的に使うのが良いか。

 

 - トト予想