トトくじ予想 Jリーグ対象試合にむけて予想方法を検討中

トレーニングデータをチーム別に分けて予想してみる
1. まずデータをホームゲームとアウェイゲームにソートする
2. テストデータはどうするのか？

トレーニングデータをチーム別に分けて予想してみる

現在　トトくじは　天皇杯とかリーグ杯、およびワールドカップ予選などで行われていて、リーグ戦はストップしたままです。この間を利用して、いろいろ予想方法の検証を行っています。

さて、タイトルにあるように、「トレーニングデータをチーム別に分ける」　というアイデア。一見すると当然のように思えるのですが、じつはこれまで試験的にやったことはありましたが継続的取り組みは一切行っていませんでした。

理由は　データ数が増えて管理が面倒になるから。

しかし、ここにきて従来の予想方法ではどうしても壁を越えられないことも分かってきました。パーフェクト予想というのは非常に難しいものではあるけれど、試行錯誤の結果、すこしばかり手ごたえも感じているわけで、以下にその方法を書いてみたいと思います。

まずデータをホームゲームとアウェイゲームにソートする

予想の基になる基礎的データは以下のようなものです。

これはフットボールラボにあるデータをコピペしたもの。マトリクスにするために入れ替えしなければいけないのでかなり面倒です。いわゆる　事後　のデータで、これらが示すパターンが教師データとして機械学習に使われるわけです。これまではこれらの数値が示すパターンを　チームとしての個性　をまったく考慮しない形で　教師データ　として使用していました。この部分を　チームカラーをより重視した形で活かすために、データをソートして独立した形でトレーニングデータをつくることにしたわけです。

トレーニングデータはアルゴリズムの種類を除けばほぼ予測モデルと同義ですので、例えば　J１　だと全部で１８チームありますから単純にいえば　１８もの予測モデルを作ることになります。簡略化すると半分の９個の予測モデルでもいいですが。

まだ検証はしていませんが、ホームゲームとアウェイゲームで　予測モデルを分割する　というアイデアも有効かもしれません。

例を挙げると次のようになります。

まず全部のゲーム履歴のデータからFC東京のホームゲームだけを抜き出して新たなデータを作る。つぎにおなじFC東京のアウェイゲームをすべて抜き出して先のデータに貼り付ける。

これで　FC東京　が絡んだすべてのゲームリストができます。これがFC東京の勝敗を予測するトレーニングデータの基礎となります。このようにして他のチームについても個別のトレーニングデータを用意します。

テストデータはどうするのか？

テストデータにはトレーニングデータに対応するチームについて数値を設定しなければいけません。数値といっても未知な数値なので他から借用するしかないです。アイデアとしては　平均値　を設定する　というのもありますが、これは対戦相手によってかなり変わってくる部分も大きいのであまり勧められる考え方ではないです。

これから対戦する相手がどんなチームなのかといったところを考えた上で決めるべき。従来は単純に前節のスタッツをそのまま使っていたのですが、このあたりはとても重要だと思われますので慎重に考えたいです。数値の入れ方次第で予測結果が決まってしまうので。

以下追記中。