競馬予想とトト予想について
年末はいろいろ忙しくて はてなブログ などをチェックしているヒマなぞなかったのですが、最近興味深いブログを発見したので記録がてら思うことを書いてみます。
統計予測で競馬を当てる?
統計で競馬を予想することはぜんぜん珍しいことではありません。少し前に話題になった ”ハズレ馬券経費騒動” や、英国の投資顧問?の例など やり方 によっては利益を挙げることができる。
とりあえず元ネタリンクを載せておきます。
競馬の予測をガチでやってみた – stockedge.jpの技術メモ
基本的に競馬なんてやるべきではないと私は思っている。胴元の取り分が多いからだ。宝くじに比べればまだましだが、それでも賭け金の20~30%は胴元に取られることにな…
ただ彼らの場合、ものすごく規模というか投資額が大きいという特徴があります。
これは確率的に起こる可能性が高いものをすべて買うという方法をとっているからです。一般的見地からはまず無理ですね。
赤字にならないように計算して資金を分散して投資するというスタイル。うん、じつに賢い。
まあ、そういうわけで技術的には可能だと。
競馬予想って人気あるんだな
僕が気になったのは 元ネタ記事 の人気の高さ。
”はてな” は、ブックマーク数 が読者の関心の高さの尺度になると思うんだけど、それが異様に高い。
純粋に馬が好きな人も多いのだろうけど、やはりそこは欲なのかなと。だれしも楽して得してお金欲しいモンね。まあ統計するのもかなり根気が必要なわけで、けっして楽な作業ではないのだけれど。
んで、僕がやってる トトくじ予想 なんかと比較すると ぜんぜん人気の桁がちがうのね。
なんで競馬ってのは人を惹きつけるのか 不思議なんだけど。
統計予測 競馬とトトくじの違いに注目してみる。
さて、物事の予測には ”変数” がつきもの。
トトくじについては、まあ直接的なのは ”誰が出場するのか、あるいは 欠場するのか?” なんていうのがあります。このあたりは僕もいつも考えてるところですね。
この変数の取り方で大きく予測結果も変わるんです。
競馬は未経験ですが、やはり基本は同じというような気がします。
このあたりについても 元ネタ ではじつに詳しく書かれていますね。
競馬予測に使用する主な説明変数
基本は・・
騎手、馬、馬場
の三つ。
トトくじ と比べると数値的には ”取りやすい” 感じがします。
11人プラス控え選手・・というなんとも数値化しにくい(しかも直前までスタメンはわからない)状況と比べると、競馬ってのは事前データが比較的入手しやすい。
元ネタではランダムフォレストだが・・
さて、元ネタ予測ではRという統計パッケージのランダムフォレストを使用している模様だが、これらをディープラーニングで試してみたらどうなるのか?
やりたいことはたくさんあるけど・・
元ネタ記事はかなり精緻に書かれていて、いろいろなヒントをもらうことができる。
あれだけの記事をアップするのにいったいどれだけ時間と労力を注ぎ込んだのか?個人的には すげー! って思いますね。
ちょこっと読んだくらいでは分からないことありすぎ。
ここからは追記 2016、1,19
競馬の解析 ガチ パート2 も人気のようです。
競馬の解析 パート2 がアップされました。こちらも前回以上に人気記事ですね。
どうやら著者は統計解析関係の仕事かも?そんな個人情報などいい。。。
オッズの歪みとアノマリーについて
アノマリーとは?
文中ででてくる ”アノマリー” とは経験則のことであるようです。
マーケット(相場)においては、はっきりとした理論的な根拠を持つわけではないが、よく当たるかもしれないとされる経験則のこと
競馬はギャンブルだから、馬券を買う人は夢を見て ”高配当” の馬を買う傾向が強い・・ということか。これが穴馬バイアスという言葉の意味だろうと思います。
人気度上位の馬・・つまり本命ばかり買ってるほうが回収率は高く、人気度が下位(穴馬)ばっかり買ってると必然的に回収率が低くなる。
回収率が高い馬券の買い方のほうが結局はお得であり(配当は低いが)、穴馬ばかり買うと馬券一枚あたりの単価が回収金に対して割高となって結局損だということ・・
言い換えるなら・・
同じ金額で買い物をして、受け取る量に差が出ること。少ないほうは ”高い買い物をした” ことになるわね。
この意味 最初はよく理解できませんでした。。つまり、同じ資金を投入して、帰ってきたお金が高い方が投資効果は高いというわけで、馬券一枚あたりの価値が高くなり相対的に得なんだというわけ。
ここでオッズの歪みを整理してみます。
オッズの歪みで言及されてる要素はふたつ
穴馬バイアス・・これは上で述べたように穴馬買いに人気が偏る傾向のこと。
馬齢による歪み・・これは ”若い馬の方が儲かる” というものらしいいです。記事では他の要素もあるというように書かれていますね。競馬をしらない僕にとっては、その他のアノマリーも調べる必要がありそうです。
ポイントは 回収率と関係がある変数を見つけること。
今日はここまで
2016,1,20 追記
予測モデルを作るときの作業工程について
以下に元ネタを参考に、予測モデル構築のための作業工程をまとめてみます。
1、回収率と関係がありそうな変数をみつけてリスト化する
2、回収率が上がりそうな複数の変数を総合的に考慮してオッズの割安度を評価する
3、オッズの割安度を評価する計算モデルをつくる
4、計算モデルを使いシミュレーションする
ディープラーニングをどこで使うか?
ざっとした感覚では・・
二番目の部分、”回収率が上がりそうな複数の変数を総合的に考慮してオッズの割安度を評価する” という箇所ですね。ここでのキーワードは ”素性選択” です。
素性選択というのは 単純にいえば 事象Xと関係性がある変数Yを探す ということ。このつながりが深いほど予測は上手くいきます。この段階ではまだディープラーニングは必要じゃない。いろんなデータ(属性)をならべて、その説明変数の目的変数にたいする相関係数を調べれば、どれがどれくらい有効なのかすぐ分かります。
ディープラーニングは自動的に素性を選択してくれるものではありません。示された変数群の特徴を抽出して高次化するものです。
元ネタでは 回収率 に的を絞って書かれているので、勘違いを起こす可能性があります。もう一度 言葉の意味を整理してみたい。
オッズの割安度とは? 独自解釈してみる
回収率の高さというのは、同じ金額を投じて賭けをしたときに、高いリターンを得られること。このことだけに注目すると、おのずとオッズの高いものにベットすればいい。しかし、そもそもオッズが高いのは 事象が起こる確率が低いからにほかありません。
このことから オッズが割安 というのは次のようなことを指します。
入賞する確率は高いのに人気がない馬=オッズは高い。したがってリターンも高い。
こういうのを探して、それにベットすれば、おのずと回収率は高くなる。まぐれではなくて、実力があるのに注目されていない馬を見つけること。それが回収率を高める買い方につながるんじゃないかと思う。
単純に着順や入賞馬を予測するのはもちろんなんだけど、できるだけオッズの高いものにベットする。こういう理解でいいと思います。
1番人気から順にワンツースリーフィニッシュを当てても、面白くもなんともないもんね。
以下工事中。
コメント