clew

気になるモノ 気になる人 気になる言葉

*

トト予想について 得点パターンと失点パターンによるデータ作成

   

得点パターンと失点パターンからデータを作成する

べつに秘密にすることでもないので、自分のやったやり方を記録しておきます。

 

サッカーをデータで楽しむ | Football LAB[フットボールラボ]サッカーをデータで楽しむ | Football LAB[フットボールラボ]

使用するデータは上のリンクから取得します。使うデータは各チームのシーズンサマリーから。ここは直近のリーグ戦が終わるたびに更新されていきます。

例として神戸の画像を貼っときます。

得失点パターンの例

僕が使うのは下段の数値。それぞれのパターンが占める割合とゴール、および失点の実数が示されています。

今回、使用したのは実際のゴール数と失点数です。パーセントでもいいかな?とは思いましたが、パーセント表示にすると名義属性として扱われてしまうので、使いにくいと思ったからです。

ココの部分をコピペしてエクセルで整えてからデータに貼り付けます。

得失点パターン

ちょっと見にくいんですが説明します。

23setu の結果の横にずらっと並べてある数字、これが22節終了時点での得失点パターンの実数です。

24setu の結果はまだ出ていませんが、おなじように実数が並べてあります。これは23節の結果を受けて更新されたデータを貼り付けています。

いずれのデータも今季の累積データです。直近のデータ(任意に区切ったデータ)ではありません。

赤線枠の左から ホームのセットプレーによる得点、クロスからの得点・・・同様に ホームのセットプレーからの失点・・・と並べてあります。これをホームとアウエイの組み合わせで並べました。1行でホームとアウエイすべての得失点パターンを並べた構成となっています。

行の一番最後列には ”目的変数” を記入しておきます。僕の場合はずばり結果 (home,draw,away)を記入しました。ここは任意でなんでもいいと思います。たとえば ”引き分けになったかどうか?” とか、ホームが勝つか、それ以外か?とかです。二択でも三択でも、あるいは4択?でもいいと思います。(分類によるパターン認識)

数字(numeric) にすれば重回帰分析になります。

作成したデータは、教師となるデータが1節分しかありません。なのでアルゴリズムを変えるとすごく出力が変化します。もっとデータを蓄積してやってみないと何も分かりませんね。

普通は ”累積の得失点数” のみに注目して予想する方は多いと思います。あるいは直近の得失点状況から考える。

これらも基本的で有効な考え方なんですが、どうしても支持率どおりというか、わりと順当な結果しか導かれないと思います。攻撃陣が好調だとかディフェンスが崩壊してるとか・・・

そこをもっと細かく人力で予想する方はたくさんいます。たとえば以下のような考え方。

このチームはセットプレーが得意

ディフェンスの裏を取られることが多い

サイドからのクロスに弱い

ドリブル突破がよい選手がいる

とか、いろいろ。サッカーブログには良い解説がたくさんあります。

 「なにを数値化すればもっとも良い結果を得ることができるか?」

これは僕のサッカーにおける機械予測のテーマみたいなものなんですが、

もしかして ”得失点パターン” がそれらのロジックを数値化したものなんじゃないか?

という発想が今回のデータ化の目的でもあります。

それぞれの特徴を持ったチームがぶつかるとき、勝敗のパターンがある程度あるならば、機械的に勝敗を予測することは可能である。

サッカー勝敗は完全なランダムではありませんから。

上手くいくかな?


大まじめに書いてるので冷やかしはやめてね。

おわり。

 - トト予想, 機械学習