clew

気になるモノ 気になる人 気になる言葉

*

第852回トトくじ予想 j1-15節 J2-18節

      2016/06/13

第852回トトくじ WEKA による予測

今節もWEKAを使って予測をします。これまでの試みから以下の二つを予測スキームとして選択しました。

Scheme: weka.classifiers.meta.AttributeSelectedClassifier -E “weka.attributeSelection.CfsSubsetEval -P 1 -E 1″ -S “weka.attributeSelection.BestFirst -D 1 -N 5″ -W weka.classifiers.trees.J48 — -C 0.25 -M 2

Scheme: weka.classifiers.meta.IterativeClassifierOptimizer -W weka.classifiers.meta.LogitBoost -L 50 -P 1 -E 1 -I 1 -F 10 -R 1 -metric RMSE -S 1 — -P 100 -L -1.7976931348623157E308 -H 1.0 -Z 3.0 -O 1 -E 1 -S 1 -I 10 -W weka.classifiers.trees.DecisionStump -batch-size

上記ふたつとも初期設定のまま予測をします。結果は以下の通り。

J1-15節 予測結果

j1-15

思ったより予測が割れていません。全体で ダブル2 となっています。主観的に見ると、一覧表にないノーマーク枠で 「マークしたほうがいい」 と感じる枠がいくつかありますね。J2 については後ほど追記します。まだデータが整っていないので。

j2-18節 予測

データが整いましたので j2-18節 予測を載せます。今節の予測に使用したスキームは以下。

Scheme: weka.classifiers.meta.Decorate -E 15 -R 1.0 -S 1 -I 50 -W weka.classifiers.trees.J48 — -C 0.25 -M 2

飾りつけ という意味を持つアルゴリズムです。与えられたデータをもとに人工的にトレーニングサンプルを作り出して予測をするものらしいです。詳しくは調べていないのですが、経験的に言って、比較的良い予測結果を出力してくれる感触があります。あまりたくさんの例を試しても現実的ではありませんので、今回はこのひとつだけで止めておきます。以下が出力結果です。

j2-18

今回の予測は以上の出力結果をもとに組み立てようと思います。

結果検証

まだ J1 3試合残してますが・・

おそらく全滅でしょう。ある意味すごい。ここまでハズレまくるなら全部外れた方がいいです。悔しいを通り越して笑える。 10fold クロスバリデーション では80%ぐらいあるんだけど。まったく当てにはできませぬ。長年 予想やってきて恥ずかしいったらないですわ。

J2 に関しても ほぼ全滅状態です。申訳程度にふたつほど当たっているという・・ひどい有様です。個別の試合に関して論評するのもアホらしいので、予測方法全般について少し書きます。

現在 行っている方法は、すべてのリーグ戦スタッツを一覧にまとめて一括で予測する(分類する)やり方です。個別チームのデータのみ抜き出して予測する方法ではありません。つまり どのチームであれ、スタッツを比較すると 3WAY の結果のいずれかに分類できるわけで、チームごとのスタッツの特徴に関しては 特段 注意を払っているわけではありません。

ズボラ といえば ずぼら なんですが、これを例えばチームごとにデータを分けて予測してみる。J1 においては 18チームあるので単純に18のデータを作成することになります。これを時系列で並べてスタッツの比較によって予測する。作業としては煩雑になりますけど、これまでとは違った分類予測結果が得られるかもしれません。一番肝心なのは、これから対戦するであろうお互いのチームがどんなスタッツ、パフォーマンスを示すか? という部分。

未知なるものを無理やりデータ入力して対比させるわけなので、かなり無理があります。ここを過去スタッツをもとに適切に判断して入力する。

まだアイデア段階ですけれども、たとえば ある特定のチームに対するスタッツから各チームの特徴をつかんで、それに対応するようなスタッツを引っ張りだしてきて、ぶつけてみる。意味が分かりにくいかもしれませんが、これから示されるパフォーマンスに近いと思われるデータを流用して分類してみようということです。

これまでは直近のデータで示したパフォーマンスを流用していましたが、これではどうも上手く機能していません。たまたま上手くいったのが、上手く予測できたと錯覚していたに過ぎません。直近のデータを重視するのは一理あるのですが、対戦相手は研究して試合に臨んできます。予想外の結果というのは実はやはり理由があるはず。

スタッツをよくよく研究すれば何か見つけることができるんじゃないかと思う。かなり根気が要りそうだけど。

 

 - トト予想