2018年10月15日月曜日

エクセルで回帰分析用のデータを作るための準備作業をざっくり解説

重回帰分析をするためには、ローデータを加工して重回帰分析用のデータに変換する必要があります。そのための手順をざっくり解説します。
今回は、あるECサイトである商品の売上がどんなものに影響を受けるのかを知りたい場合を例とします。

①成果データの確認(目的変数の設定)

商品の売上と簡単に書きましたが、何月から何月までの売上か?指標は売上点数か?金額か?対象となる商品はECサイトで扱う全商品か?一部の商品なのか?など、成果データの条件を整理します。

今回は、誕生祝いのベビー服の直近3年間の月次売上点数とします。

②成果要因の洗い出し( 説明変数の洗い出し)

設定した成果に対して影響を与える変数をブレストベースで洗い出しします。洗い出しは紙とペンでもいいですし、エクセルでもいいです。

以下のイメージのような形で、成果データにどんなものが影響を与えるのか?の因果構造を矢印で作ります。

イメージ:

③説明変数の設計/取得可否の確認

ブレストベースで洗い出しした要因について、実際に数値データとして取得できるものに変換します。
例えば、「赤ちゃんがその月に多く生まれた」であれば、政府のサイトから月次の出生人数を取得できるか調べ、取得できれば「月次出生人数」を変数に加えます。

④データの作成

説明変数の設計と取得可否の確認ができたら、あとは解析用のデータを作るだけです。
基本的には、データは「1つのy 目的変数」と「たくさんのx 説明変数」として、整理して作るとわかりやすいです。
特に、重回帰分析は変数選択を繰り返ししてモデリングするため、データはきれいに作り、yは左端にしたり、xはわかりやすい変数名をつけるなどしておくとスムーズかもしれません。

イメージ:













回帰分析用のデータを作る際は、エクセル作業よりも前段階の考える時間が重要かもしれません。つまり、どんなモデルを作るのか?のお題設定と、どんな変数を作るのか?の変数設定ができると、エクセルでの作業もスムーズに進められるかもしれません。