ホームデータによる単純な分類予測
今回の予想は次の通り。
微妙な分類確率の枠もありますが、第一候補だけ表示すると上のようになりました。あまり当たらなさそうです。細かい解説、能書きは当たったら書きましょう。
分類確率も載せておきましょう。
せっかくなので、分類確率 載せておきます。
B は ホーム勝ち、C は ホーム負け、A 引き分け となっています。
結果
今回の結果は上の通り。支持率から考えて「間違えやすかったところ」は、ほぼ全部間違ってます。まあ平凡な結果ですね。せっかくなので、違ったやり方で予測する方法も記しておきます。
回帰によるスコア予測で勝敗を予想する方法
データは先に使ったものを使用します。できるだけ手間をかけないようにします。例として G大阪ー新潟 を取り上げます。
使用するデータ形式は以下です。
表の一番上、ほとんどが空白の箇所(行)が予測対象となります。H2O においては自動でカラム名(通し番号)が付けられますので、属性名は絶対に必要というわけではありません。
縦列 横列 A,B.C~ というように属性が並んでいます。今回、予測に使用するのは B、C です。B はホームのゴール数、C はアウェイのスコアです。黒丸、白丸などの記号は勝ち負けを表しています。予測の際にオミットする属性はありません。すべて読み込んで走らせることとします。なお、ゴール数については連続値として予測します。
アルゴリズムはディープラーニングを使用します。グリッドサーチをかけたのは次の箇所だけです。
活性化関数と学習回数だけですね。計算結果は次です。
1.784274 | 1.823243 |
少ない方がガンバ、大きい方は新潟です。非常に小さな差ではありますが、新潟がガンバを上回ってしまいました。ついでに 札幌ー柏 もやりましょう。設定や方法はまったく同じです。
1.284814 | 1.552866 |
残念ながらこちらは柏優勢となっています。ディープラーニングは同じ条件で予測させても計算結果が変わる可能性があります。常に良い結果が得られるわけではないですが、ひとつの方法として紹介しておこうと思います。
この方法の良い点としては、ほぼ数値の大小が分かれる点。必ずどちらかが優勢となり、数値が均衡 することはまずないです。逆に言えばドローがまったく分からない点がマイナスポイントになるかなというところ。
ゴール数予測から勝敗を判断する方法としては、もうひとつ ゴールを表す数値を名義属性として分類予測させてしまう方法もあります。この方法ですとドローという結果を得ることは可能になります。当たりやすいかどうかは別ですけど。
コメント