2014年7月8日火曜日

回帰分析について

エクセルの重回帰分析の見方について、 記載していますが

回帰分析ってなんですかね?
人向けの記事です。

■そもそも回帰ってなんですかね?


背の高いお父さんと、背の高いお母さんから
生まれた子どもがあまり背が伸びず、
逆に背の低い両親の子どもの背が伸びて
高い身長になる。。。

みたいに、身長が平均値に近づいていく
ことを回帰といいます。

ですが、この回帰と回帰分析とはあんまり関係ありません。
”回帰分析”という名前だけ覚えてください。


■回帰分析でできることの前に問題


ひょんなことから、自分の家の近所に
自販機を置くことにしました。
あなたは、高い売上のところに
自販機を置きたい気持ちでいっぱいです。

|自販機をおけそうな場所


・並木通り(一日5千人通るとこ)
・海岸通り(一日1万5千人通るとこ)

※ただし、自販機をおける場所は1つだけ

鼻息を荒くしているところに、
近所に自販機をおいている友達が
売上情報を教えてくれました。

|友達がおいている自販機の売上情報


・一日1万人通るところは、一日1万円の売上
・一日2万人通るところは、一日1.5万円の売上
・一日3万人通るところは、一日1.8万円の売上

人数が増えるほど、売上があがるので、
「海岸通り」に出店したいところですが、
場所代がそれぞれかかるみたいです。

|自販機の場所代

・並木通り⇒一日:3千円
・海岸通り⇒一日:8千円

場所代を考えると、
設置場所を慎重に考える必要がありそうです。


■回帰分析でできること

回帰分析では、与えられた情報をもとに、
何人通るかを予測することができます。

そこで、与えられた情報を回帰分析してみましょう。
僕らが知りたいのは、まずは売上です。

友達の持っている情報で、
回帰分析した結果、売上はこんな式で表現できるようです。

売上 = 0.4 × 一日に通る人数 + 6333

※6333は定数
※これはエクセルで簡単に計算できます。

■回帰分析を使って答えを解く

回帰分析で売上を計算する式がわかりました。

並木通りの売上 = 0.4 × 5000(人) + 6333 = 8333円
海岸通りの売上 = 0.4 × 15000(人) + 6333 = 12333円

一日の売上の予想がたったので、
売上から場所代を引いて利益を計算してみます。

並木通りの利益 = 8333 - 3000 = 5333円
海岸通りの利益 = 12333 - 8000 = 4333円

ということで、
並木通りに設置するのが良さそうということが分かりました。

※エクセルの見方ややり方はこちらを



2014年6月18日水曜日

三角のチャート

r-bloggersで三角のチャートみつけて、
「3軸を平面でプロットしてる!報告書とかに、それっぽいチャートとして使えそう!」
と思ったんですけど、読み取り方が難しいすね。。

試しに、いつものirisデータでプロットしたやつを掲載しておきます。




以下サンプルコード
 

#install.packages("ggtern")
libarary(ggtern)
ggtern(data = iris, aes(Sepal.Length, Sepal.Width, Petal.Length)) + geom_point(aes(color = Species))

2014年5月23日金曜日

データクレンジング(データクリーニング)について


データマイニングをする上で、
データクレンジングにかかる作業量は
全体の8割に達するそうです。

ということで、最近、読んだ文献
https://www.prometheusresearch.com/good-data-management-practices-for-data-analysis-tidy-data-part-2/

データクレンジングがなされたデータはTidy dataといって、
下記の3条件を満たすとのことです。


 1.Each variable forms a column
 2.Each observation forms a row
 3.Each data set contains information on only one observational unit of analysis
  (e.g., families, participants, participant visits)

で、上記文献を含め、色々な文献を見てみると、
データ分析の作業は下記のような流れに整理できるっぽいです。

input→tidy→(trasnform⇔model⇔visualize)→output

でもって、この作業に対応してるRのパッケージが、

reshape2
plyr(いまはdplyrも?)
ggplot2

とのことでした。
ちなみに、trasnformの考え方,split-apply-combineなんかは、
pythonの分析パッケージとかにも影響を与えていたりするんで、
R以外のソフトウェアでデータ分析をしている人にも話したい内容ですよね。



2014年4月25日金曜日

お手軽すぎるビッグデータ解析ツール


H2Oというツールがあるらしいです。
「もらったCSVファイルが重くてエクセルで集計できない。」とか、
「機械学習的なことしたいけど、プログラミングなんかできないわよ。」とか、
「ガラポンでディープラーニングやってみたいわー。」とかとか、

というときに良さそうな感じのツールなので、記事にしてみました。
リンク先からダウンロードできます。
操作方法は丁寧に書いてあるし、
入出力の操作方法もシンプルなのでわかりやすいです。


以下は、試してみたことをメモしています。

■ダウンロードとインストール

https://s3.amazonaws.com/h2o-release/h2o/rel-kahan/10/index.html
 ここからダウンロード&インストールできます。

■いざ、操作〜データの取得〜

・ターミナルでシステムを起動しますが、ブラウザで操作するみたいです。
  初心者にも安心感たっぷりのUIでした。
 
 ・一番左のTry it!をクリックするとテスト用のデータが用意ある。

・CSVはuploadからインポートできるみたいです。

・いろいろと設定できるみたいですが、何をしなくてもよかったです。
 ダウンロードしたirisデータを選択して、そのままsubmit。

 ・データの入力が完了しインプットが完了したみたいです。
 iris.hexという名前で登録されたそう。

 ■いじってみる 〜簡易集計〜

  ・無駄なメニューが多くなくって本当にいいですね
    
  ・先ほど登録したデータを入力

   ・集計する変数を選択して、Submit
   ・集計結果が表示される

 

■さらにいじってみる 〜ディープラーニング〜

  
   ・ディープラーニングもデータ名と応答変数を指定するだけで
  分析できちゃう手軽さがいいですね。

   
・結果もすぐにポン!!




以上、手軽にできる分析ツールの紹介でした。
感想としてはとっても凄そうなツールですが、
正直まだよくわかんないですね。。
GLMとGLM2の違いとかとか。。

※インストール作業もろもろ、
 ご自己のお責任となりますので、
 実際にお試しする場合には
 くれぐれも十分おきをつけくださいませ。。

2014年2月10日月曜日

Rのパッケージインストールエラーについて (macOS Mavericks)

あたらしいパッケージをインストールしようとしたら、
stdlib.hが無いと怒られ、インストールがエラーで終わってしまい、
困ってしまいました。

たぶんmacだけ(しかも、mac portsからインストールした場合だけ?)
の症状らしいのですが、
OSをMavericksにアップデートしたら、
"Command Line Tools" もアップデートしないと
うまく連携してもらえないみたいです。

以下のリンク先に、詳しく書いてあります。

https://stackoverflow.com/questions/19622337/cant-update-macports-with-mac-os-x-mavericks