数値の解釈 分析方法について
統計的な対戦カードによる点差、そして同じく対戦相手による統計的ゴール数・・・これらは元々数値なので、そのまま連続値として計算できます。いわゆる回帰です。
これを分類で解析しようとした場合には、数値をカテゴリ変数として扱わなければなりません。フィルターにかけて変換するか、もしくはパースする時点でデータタイプを変えます。
そもそもサッカーにおいては点差、すなわちどちらがどれだけゴールしたか? ですべてが決まる。これをバッチリ予測できればいいわけで、僕がデータで一番重要な要素として考えるのもそういう理由からです。
対戦組み合わせとその結果から、年月などの時間経過も考慮して予測する。これが僕のやってることのすべてです。
回帰よりも分類
これから書くことは たとえば・・の話。アイデア段階のはなしです。
はっきりしたことは書けないけれども、どうやら僕の作るサッカー予測用データってのは分類確率の方が相性がいい。
回帰分析は 「明らかに相関のある数値」 でのみ機能する。このことを踏まえて考えるとどうにもサッカーデータには回帰は向かない。これから行われる試合について 「数値情報」 を知ることができれば、相関の強い数値情報を使っての回帰分析も可能だけど、それは不可能であり、知ることができるのは対戦情報だけです。
したがって、過去の統計データを使って予測するしかない。機械学習を使うならこれしか情報はないです。
統計データをトレーニングデータとして何らかの機械学習プラットフォームにぶち込んで、PREDICT関数で走らせれば解が得られます。問題はここからです。
分類確率が示されたデータからどうやって正解を得るか?
単純に考えれば、一番確率の高いものを選ぶ。これが普通です。しかしこれでは上手くいきません。経験上上手くいかない。
もちろん上手く予測できる枠もある。しかし完璧には程遠い。と、ここで違う予測方法に考えが走るわけですが、ちょっと待てと。そもそもアルゴリズムやデータを変えたところで劇的に好転するわけではないです。
「なにか良いアイデアがあるはず」
分類確率表を見ながらいろいろ考えてみます。単純な四則演算で足したり引いたり。今回の発想の転換にはヒストグラムの考え方があります。
要は分布なんですが、分類確率の分布も対戦カードによって異なります。この違いに注目して 「計算によって」 正解に近づくというやり方を考えています。
統計的分類確率の分布から予測するのではなくて、予測された分類確率からさらに深く読み取るということ。
統計的最頻値による予測は予測じゃないです。それは誰でも考えるし、まず波乱の予測は無理。
コメント