第754回はディープラーニングをお試しか?
さて、しばらくH2Oという機械学習ソフトをいじっていました。とりあえず自作データによる予測結果の出力まで行うことができましたので、それをアップしたいと思います。
細かい理屈、パラメータについての設定など理解が及ばない点はたくさんあります。しかし完璧を求めようとしたらいつまで経っても実践などできないです。
一応、関係するウェブ上の資料などは検索で目を通し、自分なりに理解の及ぶ範囲での実践というわけです。僕としてはウェブ上にあるデーターベースからデータを引っ張ってきて、それを交差検定して ”どれくらい正解率がアップしたか?” などと研究することにはあんまり興味はありません。(まあ必要な検証作業?であることはよく承知はしているが・・)研究者などではありませんから。
さて、いつものように予測結果を表でアップしますね。
第754回トトくじ13枠勝敗予想の説明
まず表の左端・・home.draw,away と細かい数値が並んでいます。
これはおそらくですが ”もっともらしさ” を表しているような気がします。”気がする” というのは僕が独断でそういうように判断してるから。
なぜなら数値が一番大きいものを ”predict” として出力してるからですね。
右端はこの数値をパーセント表示させたもの。これを確率といっていいのかどうか?よく分かりませんが、表を見る限りではそう判断できる。
あ、使われたデータですが、今回はすべて今季のリーグ戦およびナビスコ予選のデータです。データ構成はいたってシンプル。対戦カードとその結果ぐらいですね。あまりごちゃごちゃ付けるのは止めました。ディープラーニングの特性?からすればシンプル過ぎるデータであり、ふさわしくないデータかもしれません。このことは他の方の関連ウェブ資料にも書いてありました。
しかし、その境界線というのは案外あいまいなもので、はっきりと次元数をいくつから・・とか行数・・つまりデータ量がどこからか?とか、そういったことをはっきり示した資料はみたことないです。ただ感覚的に ”とてつもなくデカいデータ” ってだけで・・
いわゆるビッグデータの定義ってやつですかね?どうもここらへんが怪しい。
つまりディープラーニングがそのポテンシャル、性能を発揮できないのは ”データのせいだ!” といってるフシがあるんですね。
じゃあ 「どんなデータならより良く予測することができるんだ?」 ということになります。まあ、このあたりはもっと調べてみないとなんとも分かりません。。
ディープラーニングのパラメーターはすべて初期設定で行いました。いじくってもワケが分かりませんからね。
支持率と ”もっともらしさ” を比較してみる
今回のこの予想・・支持率と比較してみました。
一部において ”まったく噛み合ってない” ものもありますが、「だいたいにおいてなんとなく似通っているな・・」というのが僕の感想。
んー、「こんなものなのかなあ?」って感じですね。順当結果の比率は凄く高いです。だいたい 9/13 ぐらいは順当に偏っています。あんまり面白い予想ではないですね。
終わってみないと何とも言えんなあ。。
まだ時間もありますので、もう少しデータを変えて試してみようと思います。
では。
追記 第754回トトくじ予想 結果の検証。。
さて、勝負がつきました。予想の結果を見てみます。
結果だけみると相当ひどいですねー。
5/13 しか正解していません。んー。。
でも、まだ始まったばっかりですからね。データ量が増えてくるに従い どう変化していくか? とても興味があります。というのもアルゴリズムがディープラーニングですから。
あ、データ構成はもちろん見直します。現在の属性次元数では少なすぎるのでね。
今回の予測は実際にH2Oを動かせるか?というテストも兼ねていました。H2Oの扱いについては、ある程度分かってきましたので、これからはデータ構成のほうに重きを置いて検証していこうと考えています。
別記事でも触れていますが、画像データをもとに予測をするという試みも少しずつ手法について理解中です。これが上手く行けばかなり面白くなるんじゃないかと。。
では。
コメント