ヴァージョンアップされている H2O AI
トトは開催日がやや変則的なところがあるので、前回は気が付くことが出来ずにエントリーできませんでした。予想も途中までしかやっていなくて、なにかと忙しかったですね。
そんなわけで、いろいろ仮想予想?というか、お試し案をいろいろ考えていました。ちょっと気が付かなかったのだけれど、H2O AI も現在進行形で少しづつヴァージョンがアップされています。
アンサンブルラーニングが追加されたみたいで、今後も充実させていく模様です。楽しみだね。
さて、肝心のトト予想、次回に備えていろいろ考えを巡らしているところですが、ひとつ重要なことを見過ごしていた。
それは・・
予想はデータに依存する。
なんとも当たり前で申し訳ないですが、基本に立ち返ってもう一回書いてみます。
与えられたトレーニングデータを一番上手く説明できた方法が一番偉い?
基本的にトレーニングデータに良いも悪いもないと仮定します。とりあえず相関があるかないか、パターンがあるのかよくわからないけれども、今現在で手に入る情報をかき集めてデータを作る。これが第一歩。
んで、このデータをトレーニング用と検証用に適切に分割する。トレーニング用データで作られた予測モデルで、検証用データが上手く説明できればOKという流れ。
今述べた一連の流れが機械学習の一般的な作業の流れだと思います。ここで予測モデルの良しあしを決めるのが予測精度。いろいろ指標はあるのですが、手っ取り早く言えば 「検証結果で一番良い指標」 を出したモデルは、未知のデータにおいても おそらく一番良い予測精度を示すはずだ という期待が持てます。
過学習という問題もあるけれども、ロジックとしては間違いない。
予想がデータに依存するならば、アルゴリズムはデータごとに最適化する必要がある。
僕のトト予想のやり方に立ち返って、もう一度基本を考えると次のようになります。
つまり、どんなデータパターンにも合うアルゴリズム、および設定などというものは存在しない。あるのはその時々に応じた 「最適化されたアルゴリズムと設定」 だということ。
ある時点においての、とあるチームが勝つか、負けるか、あるいは引き分けるか? を予想するというのは、その時に用意されたデータに100%依存し、個別に最適化されたアルゴリズムとその設定によって予測されるべきだ。
汎化されたパターンでは上手く適応できない。たぶん。
というわけで、同じ設定ですべての予測をやってはいけない。これが今回のポイントですよ。
コメント