2013年6月4日火曜日

分析環境の準備

今の分析環境の紹介とそうなった経緯を記します。

会社員だった頃の環境


・データ整理⇒Excel
・アンケートデータ集計⇒Quick-CROSS(Excel)
・大きいデータ⇒SPSSかSAS

という具合でツールを分けていましたが、
アンケートを発注しないと使えないQuick-CROSSや
費用のかかるSASやSPSSは買えないので、
RとPythonを選ぶことにしました。

今の環境


■OS
10.8 Mountain Lion / mac OS X

■解析ツール
・Excel
・R
・Python

※RとPythonの導入について
MacPortsというツールを使って導入しています。
ソフトウェアの管理ツールで、
インストールやアップデートの作業が楽になります。
なお、MacPortsの導入にはXcodeが必要です。

Pythonをデータ解析ツールとして選んだ理由

Rはオンメモリ処理のため、
大きなデータを扱うには、それ相応のメモリを積んだ端末が必要となってきます。
それ相応の端末を揃えるお金もないので、
大きなデータはPythonで分析することにしましました。

大きなデータを扱う以外に、Pythonを選んだ理由は下記の通りです。

・Pythonは、Numpy/Scipyといったデータ解析用のパッケージが豊富
・データ解析だけでなく、Beautiful Soupといったデータ収集系のパッケージもある
・Rと連携して分析ができる
・プログラミング言語の中でも比較的習得が容易

などです。
今後、RやPythonなどで分析しながらブログで紹介していきます。