clew

気になるモノ 気になる人 気になる言葉

*

競馬予想 と トト予想 2017年からは競馬予想もやってみようと思います。

      2017/01/03

2017年は競馬予想にもチャレンジする

以前から興味のあった競馬。新しい年を迎えるにあたって、競馬予想もやってみようと考えています。トト予想での経験を踏まえ、同じようにアルゴリズムを使って予想するというものです。

競馬は人気も高く、プレイ人口も多いし、データや知見も豊富です。情報量からいうと、サッカーよりも格段に多いのではないでしょうか。これをどう考えて整理して機械に渡すか?

時々考えたりしていたのですが、なかなか考えがまとまりません。まず 「どのデータに注目していいのか、さっぱり分からない」 という入り口にも立てない状況です。とりあえず考えてみたのは 馬柱 というものです。

競馬予想 ざっくりとした予想プラン

この 馬柱 要するに出走馬の過去履歴みたいなもので、だいたい5走前までで一区切りというのが常識のようです。これを見て予想するのが普通というか、定石なのかなぁという感じ。

ごくシンプルに考えて、この馬柱とレース結果を紐づけてみる。 どういう履歴の馬がどんな成績を残したのか? そこにパターンがあれば予測できるのではないか? (たぶんパターンなどないと思うけど)

毎年行われる 定番レース というものがありますが、当然ながら出走馬は違う。 実際に走る馬が違うのにパターンもくそもあるか? 5走前のデータをずらっと並べてアルゴリズムに読み込ませ、予測を行うのは簡単です。しかしこれで上手く予測できるとはちょっと考えづらい。

まだ何もやってない先から判断することはできないけれど、何か違うような気もします。サッカー予想と同じように、馬自体の名前にはデータとしての意味はありません。 ある程度 量 をそろえれば名前という属性も意味を持ってくるかもしれませんが、やはり意味があるのは タイム であったり、前走における着順などではないか?

現状考えうるデータ構成は、5走分の馬柱をマトリクスにして、着順結果と紐づけてみること。 これでどんな結果になるかを見てみます。

「馬柱と着順結果を紐づけて予測させる」 これは分かるんだけど、データ本体の様式というか形はどう考えればいいのかという問題があります。競馬に対しては無知なのではっきりしたことは知らないけど、一つ例を挙げて考えてみます。

それは レース場 という要素と 大会(タイトル?) でデータを分けて考えてみること。まず、条件を同じにしなくてはいけません。つまりバラバラのレース場でのデータは混在させない。あと、名前の付いたレースというのは条件が揃えられているであろうから、そういうものだけでデータを完結させる。

同じレース場、そして同じ条件の出走馬で教師データをつくり、そしてテストデータも作る。年度によって出走馬の固有名詞が違う、あるいは出走数が違うだけであり、馬柱に記載されているデータは基本的に皆共通のはずで、たとえばコーナーにおける順序だったり、タイム、あと人気、そして馬齢などであったりします。そしてそれらは皆共通のパラメーターとして 属性 として扱える。

で、データはどうやって入手するか?

競馬データの検索

次のステップとして、実際の競馬データを入手する必要があります。単純に検索してみます。

対象としては何でもよいのですが、ここでは WIN5対象レース を想定してみます。理由は トトのシステムとよく似ているからです。

直近のレースとしては 来年 1月5日 の WIN5 第一レース 京都9R 初夢S 14:35発走 がありますね。 これを検索します。 検索結果は以下です。

%e7%ab%b6%e9%a6%ac%e6%a4%9c%e7%b4%a2

上が実際の検索画面です。ここで使うのは 上から二番目のページ。サイト自体は netkeiba  で全く同じですね。 以下が実際の画面です。

%e7%ab%b6%e9%a6%ac%e6%a4%9c%e7%b4%a2%e7%b5%90%e6%9e%9cこの画面の開催日のリンクをたどれば、過去の同レースの馬柱などのデータが入手できる。これをエクセルでCSVファイルにマトリクスすればトレーニングデータが作成できるはず。

トレーニングファイルと同じようなフォーマットでテストデータも作ります。テスト用のデータは最新の競馬サイトを参照すれば同じようなデータファイルを作成できます。これで準備完了です。あとは好きなプラットフォームを使って予測するだけです。

 


 

 

以上、競馬予想の準備編として書いてみました。 頭で描く予想プランは上に述べた通りですが、実際にはいろいろ手直しする必要が多く出てくると思います。まだ実行していない段階ですので何とも言えない状況ですが、引き続き追記なり、新しい記事で関連情報をアップしていくつもりです。

データ作成が思っていた以上に困難 かなり考えないと無理っぽい。

もっと簡単にデータができると思っていたのですが、実際にやってみるとかなり難しいことが判明。

過去の馬柱データというのは、無料で配布しているサイトもあるのでデータそのものの入手は簡単にできます。しかしながら、それを機械に読み込ませる形にしようとすると、かなり考えないと上手く機能しません。

できるだけ手間をかけない形でやりたい。機械に渡すデータの基本は、一行で一つのデータを完結させなければなりません。これが難しい。ただ単にフォーマットを変えるだけなのですが、これが手間がかかりすぎる。なにか良い方法はないか?

 

 

 

 

 

 

 - 競馬予想