Ｈ２Ｏを用いたディープラーニング。まずは環境構築する。手順の覚え書き。

2018.10.06 2015.03.24

Ｈ２Ｏの環境構築　全手順

Ｈ２Ｏの環境構築　全手順

まず最初に　Ｈ２Ｏがどんなものかとか、そういうことには一切触れません。無知な僕が説明するよりも検索して情報を集めた方がいいですからね。

ここでは実際に使うために　”何をどうすればいいのか？”　ってことだけ記録しておきます。

１、Ｈ２Ｏのダウンロード

まずはダウンロードからです。

これはもしかしたら必要ないかも知れません。というのも実際に必要なものは　”Ｒ”　だからです。

そのＲもブラウザでＨ２Ｏにアクセスするためのアドレスを表示させるためだけであり、Ｒで式を書いて計算させるということではないようです。

ちょっと分かりづらいかもしれませんが、まず必要なものは　”Ｒ”　です。ダウンロードは以下のアドレスより行いました。

http://cran.md.tsukuba.ac.jp/

ここで環境に合わせてダウンロードとインストールを行います。僕の場合はウィンドウズですから　Download R for Windows　でＯＫでした。

２、Ｒの作業用ディレクトリの確認

さて、Ｒのインストールが終了するとデスクトップ、もしくはスタートメニューにＲのアイコンが表示されます。これをクリックでＲを起動します。

インストール環境はすべてデフォルトです。カスタマイズはしませんでした。

あ、大事なことなんですが・・Ｒにおいては逐一　”現在の作業フォルダがどこか？”　ってのを確認しておく必要があります。これが分かってないと肝心のファイルやライブイラリーを呼び出すときに混乱を引き起こします。

なのでＲを起動する前に　”すべての作業を行うディレクトリ”　ってのを決めておきます。

たとえばマイドキュメントとか、どこでもいいので分かりやすいように名前をつけて空のフォルダをつくっておきます。

１、作業ディレクトリへのアクセス（変更）

Ｒのデフォルト（初期設定）では、おそらくマイドキュメントがカレントディレクトリになっているはずです。これを作業用ディレクトリに変更しなくてはなりません。

Rguiを起動すると赤い不等式？　＞　が表示されていると思います。

これに続けていろいろな式を書いていきますが、ここではそれは使いません。もっとも単純で分かりやすい方法は画像にあるように一番上の左にある　file というボタンを押します。

そうするとタブが開きます。change dir・・という箇所を選択します。

これで見慣れたエクスプローラーで開きたいフォルダを選択できるようになります。

あらかじめ設定しておいたフォルダを選択しますと、ここがＲの作業用フォルダとなります。

２、ＲにＨ２Ｏをインストールする

作業用フォルダに移動したら次にＨ２Ｏをインストールします。

# 作業ディレクトリへの移動
setwd("path")　# path=先ほど作成した作業用ディレクトリへのパス

# パッケージH2Oのインストール
install.packages("h2o")

#現在起動しているRセッションにパッケージH2Oを読み込む
library(h2o)

# H2Oを起動する

# nthreadsでスレッド数を指定（-1は全てのCPUコアを使用することを意味する）

# max_mem_sizeで使用可能な最大メモリ数を指定（ここでは2GB）
localH2O = h2o.init(nthreads = -1, max_mem_size="2g")

これは　http://enterprisezine.jp/article/detail/6539?p=2　からの引用ですが、以下のコードを順にペーストしていきます。貼り付ける場所は　＞　の後ろです。貼り付けたらエンターキーを押すと処理が始まります。

処理が完了すると再び　＞　｜が点滅します。それまでは待ってください。

１、

install.packages("h2o")

２、

library(h2o)

Your next step　で始まる文に注意！！

さて、とりあえず上に示したコマンドを入力すると処理が終わるのですが・・

状況によって表示内容が変化するようです。

library(h2o)　というコマンドの後は・・・

Loading required package: statmod
Loading required package: survival

と、表示されているはずです。問題はこのあと・・

Your next step is～　と文章が表示されます。が、ここにＨ２Ｏへのアクセスのアドレスが表示されていれば、そのままコピー＆ペーストでブラウザでアクセスできます。

もしも以下のように表示されていれば、もう一度表示されているコマンドを　＞　のうしろに入力してエンターキーを押してください。

localH2O = h2o.init()

入力処理後・・

Successfully connected to　～　というように新たなアドレスが表示されていれば成功です。

このアドレスでブラウザでアクセスできるようになります。

ちょっと慣れないと分かりにくいのですが、Ｈ２Ｏってのは　”こういうもんだ”　ってことですね。

３、Ｒの終了と保存について

さて、無事Ｈ２Ｏにアクセスしたあと、　”どうしとけばいいのか？”　について少し解説。

~~Ｒを使わない場合、現在の状態を保持したまま閉じます。~~

Ｒを閉じようとすると確認画面が表示されますので　”ワークスペース”　を保存してください。自動的にＲdateとして保存されます。呼び出すときは　ファイルタブ　の　ロードワークスペース　を選択すればＯＫのようです。

どうやらＨ２Ｏってのはアクセスするたびに~~アドレスが変わるらしくて、~~そのつどＲにてイニシャライズ（初期化？）しなきゃダメみたいですね。

ちなみにＲを閉じてすぐに保存しておいたワークスペースを開いてみました。

Ｈ２Ｏはすでにインストールされてるはずですから、２回目は

library(h2o)

というコマンドから始めます。
すると・・

localH2O = h2o.init()

というコマンドを打て　という表示がされるんですね。

やっぱりそのつど新しいアクセスのためのアドレスを手に入れる必要があるみたいです。

なんかややこしいですね。

ブラウザ版Ｈ２Ｏで作業中は・・・

さて、ブラウザの方でＨ２Ｏを作業中は必ず　Ｒ　は開いたままにして置いてください。

作業中にＲを閉じますとＨ２Ｏも動かなくなります。というか接続が切れてしまうんですね。まあ仕組みはともかく　”そういうこと”　なんで。

４、データの読み込ませについて

Ｈ２Ｏにおいて認識されるデータ形式は　”ＣＳＶ”　です。そしてここが大事なんですが、文字コードはすべて　ＵＴＦ－８　で書きます。

以下が僕の場合の作業手順です。

１、まず必要なデータを各サイトからコピー。

２、エクセルを開いてそこにペースト。

３、必要に応じてエクセルデータを整形する。

４、整形終了後にそのエクセルデータを　”すべてコピー”　する。

５、コピーデータをウインドウズのメモ帳を開いてそこにペースト。

６、ここで文字コードを　”ＵＴＦ－８”　で名前をつけて保存。

７、保存したメモ帳のテキストファイルをエクセルで開く。

８、エクセルで開いたテキストデータを　”区切り”　する。

９、区切りができたらそのまま　”ＣＳＶ”　として名前をつけて保存。

これでＨ２Ｏでアップロードすると認識されます。

非常に面倒ですが仕方ないです。もっといい方法があるかもです。

Ｈ２Ｏにアップロードする

データのアップロードの仕方です。

ブラウザ画面の一番上にタブが並んでいます。そこの　”Data”　をクリックするとメニューが開きます。

メニューのアップロードをクリックで準備完了です。

画面が変わってファイル選択となります。

ここで表示されている　”Select file”　をクリックしてアップロード対象ファイルを選択すればＯＫです。

ファイル名が表示されているので青いボタンを押して決定させます。

エラーが表示されなければ成功です。

この時点ではまだデータのアップロードは終了ではありません。おそらく日本語や記号などは文字化けしているはずです。ここでもう一度　”submit” と書かれた青いボタンを押します。

アップしたデータが文字化けせずに正常に表示されていれば、やっと終了ですね。以下が例です。

日本語も記号もちゃんと表示されていますね。

ちなみに　”.hex” という変な拡張子がつけられたファイル名が　”Ｈ２Ｏ”　における自作データの名前になります。

予測作業を続けるときに、そのファイル名が必要になってきます。いちいち記録する必要はありませんが、あとでファイル名を記入する必要がでてくるはず。なのでその確認方法を以下に書きます。

Ｈ２Ｏにおける作業状況の確認方法

まず、Ｈ２Ｏにおけるすべての作業は、ブラウザ画面　一番上のブラックパネルタブに集約されています。

作業状況の確認はこのタブの　”Admin”　から行います。

タブをクリック、開いたメニューから　”Jobs”　をクリックします。こうすると自分の行った作業が時系列で表示されます。

行った作業をクリックするとそのページが表示されます。タブブラウザなら開いておくことももちろん可能です。

実際の予測手順については別記事でアップ予定です。

今回はここまで。