Cloudera配布VMwareパッケージで簡単Hadoop学習環境構築

会社でHadoopやhiveを使っているのですが、自宅で学習環境を構築するのはひと苦労です。
今回は手軽に、Hadoop、hiveさらにはその他のサブプロジェクトを使える環境を整えるため、
Clouderaが配布しているVMwareパッケージを導入してみました。
※事前にmacへVMwareインストール済

Cloudera VMwareパッケージはこちらからフリーでダウンロードできます。
https://ccp.cloudera.com/display/SUPPORT/Downloads

ダウンロードしたcloudera-demo-vm-cdh3u1-vmware.tar.gzを解凍し、
cloudera-demo-vm.vmxファイルを開きます。
すると、VMware仮想マシンのライブラリに、cloudera-demo-vmが追加されます。

cloudera-demo-vmを起動します。

まずrootのパスワード設定。

[cloudera@localhost ~]$ sudo su
[root@localhost ~]# passwd
Changing password for user root.
New UNIX password:
Retype new UNIX password:
passwd: all authentication tokens updated successfully.

次に、
デフォルトでキーボード設定がUSになっているので、
日本語キー配列の場合は設定が必要です。
ただ、ホストOSのターミナルから接続して利用する分には、
そのままでも特に問題ないと思います。
CentOSなので、
/etc/sysconfig/keyboardを下記のように修正するか、

KEYBOARDTYPE="pc"
KEYTABLE="jp106"

または、
デスクトップ下部の"Xfce Menu"からOther>Keyboard>Japaneseを選択
で変更可能です。


そして、
webブラウザを開くと、
Hadoop Namenode
Hadoop JobTracker
Hue
がブックマークされています。

ここで注目はHue。
Hue(旧Cloudera Desktop)はClouderaオリジナルのWebUIです。
Beeswax for Hiveという機能でHiveクエリをブラウザから実行できたりします。
さらにHueには、
Hiveのサンプルデータをインポートできるという機能があり、
簡単に学習用データを用意することができます。

このCloudera VMwareパッケージを使えば、
自分でLinux機を用意してjdkインストールやらsshノンパス設定やら
Hadoop設定ファイル修正やらをやる必要がないので、
手軽にHadoopやサブプロジェクトに触ることができますね。