トト予想におけるアルゴリズムの選定には○○○○が重要かもしれない。

WEKAによる検証の結果から見えてきたものとは？
1. 第８８６回　トト　鹿島ー神戸　はどういう予想をしたか？

WEKAによる検証の結果から見えてきたものとは？

現在、第８８７回トトの予想中ですが、いろいろ検証するなかでかなり重要なことが見えてきました。このページの大見出しが伏字になっているのは単純に不特定多数の読者様に教えたくないからです。

「だったら書くなよ」　という声が聞こえそうですが、それぐらい重要だと考えているので伏字にしました。備忘録を兼ねて少し書き残しておこうと思います。

第８８６回　トト　鹿島ー神戸　はどういう予想をしたか？

この対戦カード、支持率は鹿島がやや優勢で、４６．８％を占めています。一方、神戸は　３６．４５％　ドローは　１６．７５％　です。買う段階では少し違う比率だったはずですが、だいたいこんな感じで、どこにしようか非常に迷った人も多かったに違いありません。

私の選んだアルゴリズムによる予測では、すべて鹿島の勝ち　という結果が得られていました。したがって鹿島一択でハズレとなったわけです。もしこの選択の時に、少し変化させたトレーニングデータで違うアルゴリズムを選択していれば　HOME　と　AWAY　両方にマークできていました。余談ですが相当いろいろな組み合わせのアルゴリズムを試したのですが鹿島の勝ちを示す結果ばかりで、神戸はまったく示されず、「なぜなんだろ？」　とずっとひっかかっていました。

トレーニングデータの一部に不具合があったのもハズレを選択した原因のひとつですが、もうひとつはやはりアルゴリズムの選定にあります。

どのアルゴリズムをどんな組み合わせで走らせるか？

WEKA　においてはこのような予測の仕方ができるように設計されています。これをひとつひとつ検証していくと大変な作業量となるのですが、検証機能を利用すればかなり労力が軽減されます。

基本的にはクロスバリデーションで良い結果を示したものを採用すれば問題はありません。しかしこれだけではまだまだ不十分で、タイトルで示した伏字の部分を参照しなければ本当のところは見えてこないと思います。もちろんその部分が示す意味も理解していなければなりませんが。

書けるのはここまで。

と、ここまで偉そうに書いてきました。ここで書いた方法はおそらくマルチを極力減らし、なおかつ精度の高い予測をすることにかなり役立つのではないかと思います。

良いトレーニングデータを、最適なアルゴリズムで走らせれば、良い予測モデルができる。これは間違いない。