clew

気になるモノ 気になる人 気になる言葉

*

H2O Ai GBM に関するノート

   

GBM に関する知識

おそらくアルゴリズムに優劣はなく、あるとしたら 「データとの適合」 というか、まあ目的にちゃんと沿うかどうかといった点で評価すべきなんだろうと思います。

アルゴリズムが適切にチューニングされて、目的に沿うものであれば、そこそこの精度で予測できるのが普通。これがもし変な結果しか得られないのであれば、それはそもそも目的に適っていないか、あるいはチューニングが適切ではない可能性が高いと考えるのが常識的な判断じゃないかと思います。

前置きが長くなりましたが、GBM といわれるアルゴリズムについて、正しく理解、そして実践するために資料をひとつ挙げます。

H2O GBM Tuning Tutorial for R – H2O.ai Blog

英語なんですが、まあ画像のように機械翻訳でもそこそこ分かるかと思います。

gbm解説

GBM で最良のモデルを作るには?

なんでこんな記事を書いてるかって言うと、そりゃ良い予測モデルを作りたいからです。その具体的考え方、プロセスを理解するために上に挙げた例を参考にしようという目的からですね。

この例では タイタニック号の生き残り率 について分析しています。まあ僕のやってること(トト予想)なんかとは全然違いますけど、未来予測という点においては同じであり、未知の事柄について正しく予測する ということは同じ。

画像にある フューチャーエンジニアリング というのは、文字通り 「特徴工学」 なんですが、要は 「どの特徴量を使うか?」 ということ。解説にもあるように、このチュートリアルでは、そこには重きを置いていない。

つまり、あなたや僕の持っているデータで最良の予測モデルを構築するためにはどうすればいいか?という問題についてフォーカスしている。

GBM に改めて注目しているのにはちょっとワケがあります。

トト予想とGBM

ちょっと話は前後しますが、僕は以前から H2O AI を使ってトト予想をしています。まあ見様見真似ではたから見ると 「めちゃくちゃやっている」 ように見えるんだろうと思います。

実際のところ、たいして知識もなく、あるいはちゃんと勉強しつつ取り組んでいるというわけでもないので ほぼ自己満足の我流 なんだろうと思います。

まあそういうレベルではありますが、実際にアルゴリズムを走らせて予測してみると、これが意外に当たる・・・(自分の中での評価ではあるけれど)

そういうわけで、もちょっと マシなチューニング をやればもっと正解するんじゃないか? という期待からコレ書いてるんですね。

これまでもGBMはさんざん使ってきたんだけど、どれも成果がパッとせず、しばらく遠ざかっていました。まあそれでもお試し感覚でちょっとやってみたりすると、 「やり方次第ではいけるんじゃないか?」 ということがありまして、なかなか捨てきれない部分があったりしました。

んで、冒頭に書いたように、「アルゴリズムは適切に使えばそれなりに精度は期待できる」 はずだと。

問題は 「適切」 という部分ね。知識がないと、何がどう適切じゃないのか 分からないんですよ。

そういうわけで、ぐだぐだ書いてきましたが、ちょっとまじめにチュートリアルやってみようというわけです。週末のトトはJ2がメインですが、間に合えば R を使ってGBM で予想しますね。

 - トト予想, 機械学習