h2o ai データパース時の属性タイプによる予測結果の変化について

スポンサーリンク

H2O AI 限定での話。

同じデータ、そしてアルゴリズムを使っても、パース時の属性タイプの設定によっては 出力結果が大きく変わること についての記事です。

基本的にアルゴリズムに欠陥があるというのは間違いである。そしてトレーニングデータにもほとんど問題はないと仮定してみる。

H2O というのは、基本的に何もしなくてもデータを読み取って、自動的にタイプ属性を判定してくれます。たとえば数値ならNUMERIC、時間ならTIMEというように分類してくれます。これをそのままパースすればいいだけです。

これを任意に変更することも可能です。ここで問題にしたいのは、たとえばある属性について 「タイプを変えると出力が変化する」 ことがあるということ。

明らかに良い方へ変化するなら当然そういった結果が得られる方に変更した方が良い。

つまり、できるだけ予測精度が向上するように属性タイプを変えてパースする必要があるということ。

「これが正しい、こっちが正しい」 という話じゃなくて、出力結果を見れば明らかにアルゴリズムが良い分類判断を示している方向にデータを調整するということ。

自分にとってはこれまで思いもしなかった視点です。具体的に何をどうするとか書けないんですけど、テスト結果からいうと 「かなり有望なんじゃないか」 と思えてくる。

これは連続値だから数値属性、これは分類名義だから名義属性・・というような縛りからちょっと離れて考えてみるのもいい。

 

 

コメント

タイトルとURLをコピーしました