clew

気になるモノ 気になる人 気になる言葉

*

第883回 トトくじ予想 新たな切り口で攻める。分類と回帰

      2016/10/23

第883回 トトくじ の攻め方

まず予想作業の前に、前回の直接対決について調べてみます。いつもはまったく気にしていませんでしたが、やはり一番参考になる情報源ですので無視することはできません。

883%e5%89%8d%e5%9b%9e%e7%9b%b4%e6%8e%a5%e5%af%be%e6%b1%ba結果はホーム側からみての表示となります。ひとまずこれを頭に置いておいて予測するとしましょう。

回帰予測をメインに勝敗をざっくりと予測する。

いつもは 分類 をメインに予想していましたが、今回は 回帰 という手法で見当をつけてみます。どのチームがどのチームに対してどれだけゴールしたか? これが重要な情報となります。

これらの情報をマトリクスにし、機械が読み取れるように整形します。出力は具体的なゴール数としては表現されません。強さの指数として表わされるだけで、数値の大きい方が勝つと判断します。この方法ではドロー判定がまったくできません。勝つか負けるか の2択となります。

数値の見方というか捉え方としては以下のように考えています。

通常の場合、リーグ戦における強さの目安は その順位 にあります。ただしこれは平均値のようなものであり、特定の対戦カードにおける勝敗確率をあらわすものではありません。上で述べた方法は、対戦カード別の情報から、次に対戦する相手に対して、どれだけ攻撃力があるか? を示したものです。

第883回については準備が整い次第、公開するつもりですが、その前に セカンドステージ 第14節 の予測結果を載せてみましょう。

%e3%82%b4%e3%83%bc%e3%83%ab%e5%9b%9e%e5%b8%b0真ん中に対戦カードですね。向かって左に 方法1 で出した数値がホームとアウェイで並べてあります。同様に 方法2 で出したものが右側に並べてあります。

薄いグリーンのマークは、数値の大きい方が勝った という意味。予測精度としては60%ぐらいでしょうか、抜群に良いわけではありません。これらの方法二つで出した結果を合成すれば 湘南ー柏 を除いた正解をすべて手に入れることができます。9枠に対してダブル5ですね。仮にドローがもっと多くなっていれば完全にアウトとなりますが、まったく勝負できない目なのか? というとそんなことはない。かなり現実的範疇に入るはず。

どうしてこんなことを考えたのか? それは 分類アルゴリズム ではどうしても導けない結果だからです。

鹿島ー大宮、鳥栖ー仙台、広島ーFC東京 などは、分類予測 ではかなり出しづらい傾向があります。磐田ー新潟 もそうです。めちゃくちゃやれば出せるんですが、ある程度、全体の出力傾向というかバランスを保ったまま予測しようとすると 「どこかが崩れてしまう」 だから発想を変えて回帰を利用してみようと考えました。

問題はドロー予想。。これはどうやって導くことができるのだろう?

これも長年の課題。引き分けをどうやって見抜くか?

もう考え付く方法を片っ端から試しているのですが、どうしても閃かない。これだ!! というようなものが思いつきません。たまたま分類アルゴリズムで当てることはできても、それが偶然なのか必然なのかよくわからないんですね。ちゃんと根拠があって導けるというのが理想。

ある程度の確率で導ける方法というのがきっとあるはず。もしかしたらすでに手に入れている方法をちょっただけずらして考えるだけのことかも知れない。


 

予想については後日 追記予定です。

RBF を用いた予測例

一般的な感覚では、難しければ難しいほど、あるいは複雑で理解しがたいほど 高級なモノ というイメージがあります。たとえば ディープラーニング。パラメーター調整がやたらたくさんあって、なんやら高級そうです。しかし、方法というのは単純明快、シンプルだけどすごい効果があるほどすばらしい。経済的に考えてもそうです。目的に対して必要最小限のもので最大の効果を得ることが評価の基準です。

持てる時間を節約し、少ない労力で最大の成果を得る。

学術目的ならば、何に役立つか分からなくてもやるべき価値はありますが、私の場合はそうじゃない。手っ取り早く成果が欲しい。

というわけで、できるだけ簡単にすばやく予測結果を得るためにひとつ方法を考えました。RBF というのは 要するに滑らかな線を引いて予測するだけのこと。ブツブツとした点集合を与えて、それらを滑らかにつなぐ線を引く。んで、任意の座標の値を読み取る。イメージとしては単純です。

任意の座標 というのは 予測しようとする対戦カード であり、スコア情報も含みます。こうして得られたのが以下の予測です。

883rbf

評価はさておき 予想ネタ としてこれは置いておきます。一応この手法も過去検証を少し行っており、それなりに信頼度については調べています。

引き分けの予想については、先に述べた通り、今のところ良い方法がありません。いくつかの予想から見当をつけるしかないです。まだ予測中のものがありますので終了次第追記します。

回帰を用いた予測例 HOME か AWAY の2択

J1 についての 回帰による優勢チームはどちらか? という予測例です。数値の大きい方が勝っていると見ます。手法はふたつ、その合成が真ん中あたりにあります。

883%e5%9b%9e%e5%b8%b0

大体において無難な線を読んでいると思いますが、湘南の勝ち、広島の勝ち あたりがちょっと違和感あります。このマルチでは J1パーフェクト予想は無理だと思います。ドローがあるかないか? あるいは何枠あるのか? これは正直いってさっぱり読めませんが、シングルの枠で波乱があるのではないでしょうか。

私としては先に挙げた RBFによる予想 を推したいです。少し検証した結果を見ると、案外使える印象があります。ただし関数型(function) のアルゴリズムの宿命なのか、出力結果がブレることがあります。中身はブラックボックスで、決定木のような安定性、分かりやすさはないです。なによりも再現性に問題があるのが痛い。出力傾向が 「大きく違う、変わる」 ということはありませんが、微妙なラインの枠、データではどちらに転ぶか分からない危うさがあるようです。

 


 

さて、全体の予想を見てこれから 「組み立て」 を考えます。

寝落ちしてしまって、あまり時間がありません。出力がかなり割れてるので難しいですね。

最後に J2 の予想をまとめました。もう時間がありませんが載せますね。

j2-37%e4%ba%88%e6%83%b3

青マーキング と、ピンク。これは二種類の攻撃指数。数値の大きい方に勝利可能性があります。割れているのは 讃岐ー熊本 だけです。

指数でいうと次のようになりますね。

1、札幌

2、町田

3、讃岐 か、熊本

4、山口

以上が選択候補です。この方法ではドローが読めません。


 

これで予想は終わり。全部をまとめるとダブルやトリプルが多く、絞るのが難しいです。引き続きこのページで結果を追記したいと思います。

結果と感想

なかなか試合が始まりません。。イラつくわ。およそ45分遅れでようやく開始。

時間の進み方が変だと思ったら、ウェブ更新が遅れていた模様。なんだよヤフー。。

うわぁ、いっぺんにやるといいですね。最初の試合だけで勝利目が全滅という事態は避けられるので。浦和ヤバそうです。ノーマーク新潟やらかすかも。

仙台、FC東京 先制。このまま逃げ切るか? RBF予想 けっこう良いかも。福岡、東京V も先制。面白くなりそうです。札幌勝ちが大勢を占めるなか、ヴェルディやらかすか。

大宮、早くも2点奪取。このまま勝ちそうです。ここは順当かも。

前半終了。

仙台、大宮、鳥栖。 この三つ、2-0 でリード。ガンバ、浦和 はどうなるか? 名古屋、福岡 もまだわからん。あ、札幌もか。FC東京も分からんね。鹿島の後半のプッシュに耐えられるのか?

川崎ー広島 スコア動きません。これは想定外。

さあ、初日 終了です。さっそく予想についてあれこれ振り返ります。


 

予想母体がすべて 全部の正解を含んでいないとすべてが無駄だ。

さて、削減するにしても 「すべての正解を含んだ予想母体がある」 ことが当選の条件。これを満たさず削減してもまるで意味がありません。1等はともかく、2等、3等を期待するにしてもこれは絶対条件。その意味から私の予想は前提からして条件を満たすことはありませんでした。残念。。

予想方法によるそれぞれの評価ですが、RBF による予測が思いのほか良いです。攻撃力指数による2択よりも断然良い。開催回による 予測ムラ に関しても、過去検証から推察すると 「あまり影響を受けない」 とみていい。結論を出すには継続観察が必要ですが、十分にその価値はあると感じます。

まずは一覧表にてその結果を再確認してみます。

rbf%e5%86%8d%e7%a2%ba%e8%aa%8d

薄いグリーンのマーキング箇所は、正解枠。J1 9枠中 ダブル7 という大きな予想です。これで 7枠の正解を含んでいます。ダブル予想の数からすると、けっして効率の良い予想とは言えませんが、削減することを前提とするならば現実的範囲だと思います。

アルゴリズムは RBF という関数型のものを採用しています。予測精度はそれなりに高いと自負しているので、今後の進展具合によっては、情報の公開に関して制限をかけるつもり。非常に申し訳ないとは思いますが、ゲームの性質上しかたない部分があります。

RBFによる予測手法は、スコアを基準としたものも、結果を分類するタイプも 名義属性 として予測させています。通常のケースでは、数値そのものを入力すると NUMERIC (数値型)として認識されて、分類型のアルゴリズムは使えなくなりますが、名義属性 とすることで 分類型アルゴリズム を使えるように操作しています。

現在のところ、J2も含めて 11枠 が終了しています。そのうち RBF を使ったマルチ予想で外しているのは 3枠です。

1、大宮ー湘南

2、横浜M-G大阪

3、札幌ー東京V

以上3枠。感覚的に予想が難しかったのは 札幌ー東京V ぐらいか。機械予測といってもデータを見て判断を下すのは人間的感覚とよく似ている部分があります。なので同じように機械側でも東京Vの勝利はやはり予測が難しいはずです。なにか兆候となる指標、データを与えていないと出力が劇的に変わることは考えにくい。

ハズレ枠に関しては、攻撃力指数なども用いてあれこれとこじつけのような評価をすることもできますが、結果がすべて。言い訳にしかならないので止めときます。

あと2枠。全部終わったらもう一度総括します。


 

J2残り2枠についての感想です。

讃岐ー熊本 は予想通り ドロー でした。スコアは ゼロ でハズレでしたが。こうやって上手くいく時はいくんですよね。

さて、ラスト、長崎ー山口

終盤に山口追い上げてドローか? とも期待しましたがダメでした。

 

第883回トトくじ予想の総括

はい、今回も当選ナシで終わりました。くやしいですね。せっかく時間を割いて予想しているのにまったく報われません。無駄には絶対しないし、このまま終わらせることなどあり得ません。今回の予想から得たものを生かすべく、いくつかポイントを書きます。

2択による予想はやめる。

数値比較による2択は成果が見込めないので止めます。

ドローの見当はいくつかの予想案の比較から見極める。

ドローを当てることは難しいです。これは機械判断でも同じ。実際のスタッツからでもブラインドテストで分類することは難しいです。見当を付けるには、いくつかの予想案(実際に予測させた結果)から人間の判断で決めることにします。

実際には機械判断で示された結果から、第二候補にドローがあればその可能性はかなり高いとみます。この傾向がいくつかの案で同様に示されれば、より強い傾向として捉えるべき。予想の組み立て時には、このドロー選択がマルチを肥大化させる原因となり、ムダとなる可能性も高いのですが、とりあえずは選択しておく。

ただし機械予測においては、ドローの分類確率が一番低くなりやすい傾向があります。それは事象の起こり易さが他に比べて相対的に低いからであり、表面には表れにくいので厄介です。

今節でいえば、マリノスーガンバ がそれにあたります。これは機械予測の検証でも非常に出にくいデータでした。現状ではもうお手上げです。

過去の直近直接対決の結果に注意を払う。

たとえば、J2 37節 札幌ー東京V

これは今回のトト対象枠でしたが、結果は 東京V の勝ち でした。検証作業を通して、なんとかヴェルディの勝ち目を探しましたが、どれもこれも札幌ばかりで、ヴェルディは皆目ナシ。直接対決では勝っているのですが、機械判断では総合的にみますので絶対にヴェルディ勝ちは示されません。

ヴェルディを買う根拠というのは、この直近直対決の結果しかあり得ないです。他には買える理由がない。というわけで、分析的な態度ではないですが、こういう実際の結果に注意した方が良いケースもある。


 

今後の予想

データ構成をいじってみようかとも思ってはいますが、いじるにしても最初からとなりますので、かなりの労力が必要。現状のデータ構成でもそれなりの成果は得られていると感じるので、このままいきます。

次回もいくつかの予想を合成する方法で予想母体を出し、その後 絞り込みを行いたいと思います。

 

 

 

 - トト予想