第７５４回トトくじ１３枠の勝敗予想。

第７５４回はディープラーニングをお試しか？

第７５４回はディープラーニングをお試しか？

さて、しばらくＨ２Ｏという機械学習ソフトをいじっていました。とりあえず自作データによる予測結果の出力まで行うことができましたので、それをアップしたいと思います。

細かい理屈、パラメータについての設定など理解が及ばない点はたくさんあります。しかし完璧を求めようとしたらいつまで経っても実践などできないです。

一応、関係するウェブ上の資料などは検索で目を通し、自分なりに理解の及ぶ範囲での実践というわけです。僕としてはウェブ上にあるデーターベースからデータを引っ張ってきて、それを交差検定して　”どれくらい正解率がアップしたか？”　などと研究することにはあんまり興味はありません。（まあ必要な検証作業？であることはよく承知はしているが・・）研究者などではありませんから。

さて、いつものように予測結果を表でアップしますね。

第７５４回トトくじ１３枠勝敗予想の説明

まず表の左端・・home.draw,away　と細かい数値が並んでいます。

これはおそらくですが　”もっともらしさ”　を表しているような気がします。”気がする”　というのは僕が独断でそういうように判断してるから。

なぜなら数値が一番大きいものを　”predict” として出力してるからですね。

右端はこの数値をパーセント表示させたもの。これを確率といっていいのかどうか？よく分かりませんが、表を見る限りではそう判断できる。

あ、使われたデータですが、今回はすべて今季のリーグ戦およびナビスコ予選のデータです。データ構成はいたってシンプル。対戦カードとその結果ぐらいですね。あまりごちゃごちゃ付けるのは止めました。ディープラーニングの特性？からすればシンプル過ぎるデータであり、ふさわしくないデータかもしれません。このことは他の方の関連ウェブ資料にも書いてありました。

しかし、その境界線というのは案外あいまいなもので、はっきりと次元数をいくつから・・とか行数・・つまりデータ量がどこからか？とか、そういったことをはっきり示した資料はみたことないです。ただ感覚的に　”とてつもなくデカいデータ”　ってだけで・・

いわゆるビッグデータの定義ってやつですかね？どうもここらへんが怪しい。

つまりディープラーニングがそのポテンシャル、性能を発揮できないのは　”データのせいだ！”　といってるフシがあるんですね。

じゃあ　「どんなデータならより良く予測することができるんだ？」　ということになります。まあ、このあたりはもっと調べてみないとなんとも分かりません。。

ディープラーニングのパラメーターはすべて初期設定で行いました。いじくってもワケが分かりませんからね。