ナイーブベイズ手法はなかなか良い予測方法だ。
ナイーブベイズという予測手法があります。学術的解説はたくさんあるので省略します。私自身の理解ではいわゆる観測された事実にもとづいて主観的に確率を求めて、つぎに起こる確率を求めるといったもの。
感覚的にはすごく分かりやすいと言えるんじゃないか。今回はこれを基礎に自分なりの考えで予測してみます。まずは前回 j1 15節 の再予測結果を確認してみます。
J1 15節 をナイーブベイズで再予測
実際の細かいやり方については省略します。
グレーはハズレですね。スコア部分じゃなくて勝敗だけですけど、まあ6枠は当たってる。これでも自分では良い方だと思う。んで、今回はこれをもとに少し発展させて考えてみたい。
といっても考え方はすごく単純。予測結果というのは確率の大きい方から第一、第二、第三 というようにソートできるので、マルチ予測として候補を複数挙げるだけです。
とりあえず予測母体としてはかなり良質なものができると期待しています。のちほど追記で予測を出したい。
第938回 トト予想はこれ?
ナイーブベイズによるスコア予測。左から確率順に並べてあります。
スコアそのものはまず当たらないです。たぶん。勝敗だけ見た方がいい。ほとんどの枠で票が割れているので判断は難しいですね。
確率の数値そのものにも 「もちろん意味はある」 のだけれども、高いから、あるいは低いからと言ってその予測を除外してもいいというわけじゃない。
閾値をとってやるのも一つの方法だけど、おそらくそれだと正解を漏らす恐れが高いです。このあたりはいろいろ考えどころがあると思ってる。
結果みてから考えることにしましょう。
取りこぼしはあったが、それでもナイーブベイズは安定していると思う。
さて、感想ですね。まず評価方法として第一候補の正解数だけを見ます。
勝敗だけ見ると全部で8枠、8/13 。いろいろと他の予想サイトも見ていますけど、シングルで8枠正解ならまあ良い方じゃないかと思ってる。
現状のデータであれば、予測精度はおそらく大崩れはしない。完璧にとらえることはまず無理っぽいけど、ある程度はいける。
次回、試してみたい方法
ちょっと覚え書きだけど。 いろいろ試してる方法で 「これはイケるかも?」 というやつを書き留める。
トレーニングデータはホームチームを基準に個別で作る。上に書いてきた方法はデータをごちゃまぜにして一括して予測させたもの。たとえば 磐田ーFC東京 を予想するなら、ホーム磐田を基準にデータを集める。
A-B = B-A ではない。
ごっちゃにしたデータを HOME 磐田 でソートするだけでもいい。こうしてソートしたデータで予測すると出力も当然変化してきます。
一括データでは出力されなかった 磐田の勝ち という目も浮かび上がってくる。こういった波乱予想はなかなか信用することはできないかもしれないが。注意深く出力結果を観察してみることだ。
トト対象ゲーム全部について、同じようにデータを作成して予測するのはけっこう面倒だけど、やってみる価値はある。
j1-16 磐田ーFC東京 の例
磐田の個別トレーニンデータによる予想。出力を確率の大きさで並べた表。
圧倒的に引き分け予想となっている。が、二番目にわずかながら磐田勝ちとなっている。こじつけのよに感じるかもしれないけど、一括予想では見れない特徴が出ている。確率上位だけを見ても アウェイが優勢 という感じじゃない。
ちなみにアルゴリズムは全部 ナイーブベイズ です。
コメント