第946回 トト 過去17年分のデータを使っての予想。
今回は過去に遡ることおよそ17年分のデータを使って予想してみました。最大で2000年シーズンからという長い期間にわたってのデータです。
カテゴリーや試合のタイプ、ホームとアウェイなどなど、「何をどう考えるか?」 によってデータ構成は変わり、そして出力結果も変わってきます。
以下が今回の予想です。
アルゴリズムはGBMです。データには年度によるカテゴリーの移動やカップ杯などの戦績は入れていません。
ディープラーニングによる予想
データを少し増やしてディープラーニングで予測します。こちらでは年度によるカテゴリーの移動、それにカップ杯などのデータも入れます。
現在起動中。
どんな設定で走らせているのか、おそらく興味などないと思いますけど広島を例に貼っておきますね。
buildModel ‘deeplearning’, {“model_id”:”deeplearning-96474a67-0a73-493f-96a0-5856d9daf92f”,”training_frame”:”Key_Frame__hirosima_8.hex”,”nfolds”:0,”response_column”:”score”,”ignored_columns”:[],”ignore_const_cols”:true,”hidden”:[200,200],”epochs”:”100″,”variable_importances”:true,”score_each_iteration”:false,”max_confusion_matrix_size”:20,”max_hit_ratio_k”:0,”checkpoint”:””,”use_all_factor_levels”:true,”standardize”:true,”train_samples_per_iteration”:-2,”adaptive_rate”:true,”input_dropout_ratio”:0,”l1″:0,”l2″:0,”loss”:”Automatic”,”distribution”:”AUTO”,”huber_alpha”:0.9,”score_interval”:5,”score_training_samples”:10000,”score_duty_cycle”:0.1,”stopping_rounds”:5,”stopping_metric”:”AUTO”,”stopping_tolerance”:0,”max_runtime_secs”:0,”autoencoder”:false,”categorical_encoding”:”AUTO”,”pretrained_autoencoder”:””,”overwrite_with_best_model”:true,”target_ratio_comm_to_comp”:0.05,”seed”:-1,”rho”:0.99,”epsilon”:1e-8,”nesterov_accelerated_gradient”:true,”max_w2″:3.4028235e+38,”initial_weight_distribution”:”UniformAdaptive”,”classification_stop”:0,”diagnostics”:true,”fast_mode”:true,”force_load_balance”:true,”single_node_mode”:false,”shuffle_training_data”:false,”missing_values_handling”:”MeanImputation”,”quiet_mode”:false,”sparse”:false,”col_major”:false,”average_activation”:0,”sparsity_beta”:0,”max_categorical_features”:2147483647,”reproducible”:false,”export_weights_and_biases”:false,”mini_batch_size”:1,”elastic_averaging”:false,”grid_id”:”grid-04d4a957-ef61-4d08-a76b-7b707eab8eeb”,”hyper_parameters”:{“activation”:[“Tanh”,”TanhWithDropout”,”Rectifier”,”RectifierWithDropout”,”Maxout”,”MaxoutWithDropout”],”balance_classes”:[true,false]},”search_criteria”:{“strategy”:”Cartesian”}}
基本的にすべての枠で同じ設定でグリッドサーチをしています。
以下がディープラーニングによる946回の予想です。
一部 受け入れがたい出力がありますね。全体において無難というか順当気味で面白くない予想です。さて。どうなりますか。結果を待ちましょう。
参考予想
ディープラーニングで用いたデータを使い、GBMでも予測してみました。一番上に挙げたGBMによる予想とはデータが異なります。
やればやるほど悩んでしまいますね。甲府とか新潟とか来たらキャリーかな?
予想の評価
なんとキャリーオーバーになってしまいましたね。ちょっと意外。やっぱり新潟かな?磐田の大勝もちょっと意外でしたけどね。
さて予想の評価です。全体の印象としては、どのデータタイプ、あるいはアルゴリズムでも似たような傾向になっていると感じます。それほど点々バラバラという感じじゃないですね。
細かい点で違いはあるのですが、基調としてはすごく似ている。
浦和がすんなり勝てないとか、仙台のドロー確率が高いだとか、FC東京もすんなり勝利とはいかないとか、そういう兆候はすべて予想において示唆されていると感じます。
ただ、どうしてもバラけてしまって、ひとつの予想として上手くまとまらないです。
今回の予想について事後テストをいくつか行ってみましたが、どうしても読めない枠がひとつありました。それは 川崎―磐田 です。
何をどうやっても磐田の勝ちが見えてこない。もうほんとにどうしようもないぐらい 川崎ばっかり優勢という見立て。こういうのは現状の僕のやり方の機械学習じゃ無理なんじゃないかと思えてきます。
予測手法の方向性としては悪くない。が、「まったく読めなかった」 という枠があるのはやっぱりダメです。致命的です。予想がバラけててもいいから必ず正解を拾ってないと。
コメント