機械学習を用いたトト予想重要な属性は対戦カードとスコア情報だけだ。

説明変数が多いほど予測精度は上がるのか？

現在、いろいろテスト中です。これらの作業で自分なりに感じたことを少しまとめておきます。

まず説明変数について

１、重要なのは対戦カード、組み合わせ　と、その試合結果。スコアだけでよい。

いろいろな説明変数が考えられるわけですが、属性数を増やせば増やすほど、助けになるよりもノイズになることが多いような気がします。いろいろな属性もすべては結局のところスコア結果に帰結します。なのでできるだけシンプルに考えた方が良い結果を得られる。

２、説明変数、目的変数とも　数値タイプと名義タイプ、両方で考えてみるべき。

機械学習プラットフォームはいろいろありますが、データを読み込ませる過程はすべて同じ。この時に属性のタイプを変換することによって、返される結果も変わります。

一番わかりやすいのは、数値をそのまま数値とするか、あるいは名義属性にするかの違い。これらは目的、説明の両方の変数について言える。いろいろ組み合わせを変えて試すべき。

３、データ量について

チーム状況は常に一定ではありません。悩むところはたぶんここ。また戦術も相手によって変わります。考え方はいろいろですが、直近のものと合わせて、ある程度過去にさかのぼったデータを試すのも一手。

かなりアバウトですが思うところを書いてみました。上に書いた以外にもチーム別データにしたほうがいいのかとか、ホームゲーム、アウェイなどを分けて考えた方がいいのかとかいろいろあります。

アイデアの分だけデータを作って試せばいいのだけど、それにはかなり時間も手間もかかる。やれることには限りがあるので、どこかで妥協するしかないです。

最近、手抜きしていましたが、今節は少し工夫してみます。