第７２２回トトくじ結果にかんして考える材料を挙げてみる。

凡人の考えるアルゴリズムとデータの関係

凡人とは、僕のことです。あなたや、他の誰かではありません。

ふだんやっていた方法では、どんな予測結果が得られたのか？気になったので、ちょっとやってみました。

ブルーマーキングが普段の予測結果です。

11/13 が正解しています。これは単純に予測数値を比較しただけです。

数値の大きいほうが、単純にゴール数が大きいという意味です。

kstar　はアルゴリズムの名前。

与えた属性は以下。

これを、ホームチームのゴール数、それからアウエイのゴール数と別々に算出します。表の場合、ゴール数はそのまま　numeric　として計算してあります。これを　nominal　として計算すると、また別の結果が出力されます。(引き分けとして出力される枠もある）

データ量は今季の最初のリーグ戦からです。それを比較するだけです。

ＫＳＴＡＲ　は　”過去ベース推論”　ですので、だいたいは支持率なんかと同じ傾向を吐き出します。人の目で未来傾向を考えた場合、過去の傾向を参照することはごくフツーの感覚ですので。

ＫＮＮ　も、おなじようなアルゴリズムで良いかも。（Ｋ近傍法）

したがって、今回のような結果になると、ものすごく配当金が低くなります。

kstar　の長所は、順当結果に強いというところ。

なので、全体の傾向を知るには、良いアルゴリズム　です。

僕のなかでは　ＭＬＰ　なんですけどね。。今回もそうでした。しかし結果が付いてきません。原因はなんとなくですが分かっています。

マルチレイヤーパーセプトロン　ＭＬＰは傾向が同じような時は良い結果を示す。たぶん。

バックプロパゲーション（Backpropagation）または誤差逆伝播法（ごさぎゃくでんぱほう）

ご存知のように　トトくじ　は毎回傾向が違います。正確にいうと、順位の上（強いチーム）が必ず勝つわけでもないし、逆もそうです。だから　ＭＬＰ　のように誤差を最小にする重み付けを行って予測しても上手くいかない。

これは他のアルゴリズムでもそうです。おなじ条件で継続するようなデータ、たとえば自然分野での分類とか、企業などのお客の行動、属性の分類などは、もっと精度が高くなると思います。

つまり、観測するたびに結果が（分類が）変わるデータは予測がむずかしいということ。統計的というか頻度でいうと勝つことが多いから、そうなる確率も高いのだけど、実際、つぎの試合もそうか？というと「そうでもない」

ここがむずかしいです。

まあ、おもしろくもない見解ですが、データの量は多くあったほうがいいです。

今回は、わずか過去１節のみの情報で予測させてみたわけですが、もうすこし得失点パターンと結果の比較データがあれば良い予測ができたかもしれません。

引き続き観測したいと思います。