2013年12月12日木曜日

エクセルで重回帰分析した時にでてくる表について

重回帰分析はエクセルでできちゃうし、使い勝手が良くて
便利ですけど、分析結果ってイマイチわかんないですよね。

謎に表が3つも出てくるし、何を見たらいいかわかんないし。。

ということで、3つの表の役割をお伝えしながら、
数字を読み解く上で重要なポイントをお伝えします。

まず本題に入る前に・・・使用するデータについて

Rに入っているirisデータを使います。
これは、花びらとがくの大きさと種子の種類のデータで、
Rで「data(iris);iris」とコマンドを打つと出てきます。

種子の種類のデータは文字で入っているので、
ダミー変数化(0、1の変数)にしてあります。

※文字データを数値のデータに変換するのを
 ダミー変数化といったり、フラグを立てると
 いったりします。

分析方法

エクセルの分析ツールを使用します。
今回はYをSepal.Length、XをSepal.Lengthとverginicaを除くすべてのデータとしています。

念のため、図をはっておきます。


本題、謎の3つの表について

表ごとに解説します。
なお、こちらの表は、上記のirisデータを実際にエクセルで重回帰した結果です。


■1番目の表



この表では、おおまかに重回帰式の当てはまりの良さを把握できます。


「重相関 R」 「重決定 R2」は回帰式の当てはまりの良さを読み取ることができます。
1に近づくほど、当てはまりがいいと言われています。

この表で一番重要なのは「補正 R2」です。
これも、おなじく1に近い数字になるほど、当てはまりの言い回帰式と言えます。
「補正 R2」の利点は、説明変数の数を考慮して、あてはまりの良さを算出してくれる点です。
複数の重回帰式を出して、どれがいいかとモデルの比較をするときは、
この「補正 R2」で比較しておくと問題ないです。

もっと説明すると、
「重決定 R2」は、説明変数の数を増やすと自ずと増えます。
説明変数(Xの列の数)が増える分、関節が増えるの同じで、
関節が無数にある蛇のように、くねくねと目的変数(Y)に当てはまるように、
回帰式も対応していきます。
そのため、説明変数の数を考慮して、モデルの比較をする必要があります。


■2番目の表


この表は、重回帰式の信頼度を把握するものです。

もっというと、この表の意味は、
「回帰式のすべての係数が、0では無いかどうか」
を検証するための参考材料になります。

この表で一番重要なのは、一番右にある「有意F」です。

「回帰式のすべての係数が、0でありそうな」確率を表しています。
だいたい、5%未満(0.05未満)だったら、統計的に
「回帰式のすべての係数が、0では無い」と言えます。

有意Fが0に近ければ、近いほど、回帰式の信頼性は高いと言えます。

※とはいえ、有意Fが0.1だったら、重回帰式は無意味なのかといえば、
 そうでは無いので、あまり気にしなくていい表です。
 

■3番目の表



この表は重回帰式の係数を評価するものです。


最も重要なのは、「係数」と「P-値」です。
結論、この表は「P-値」が5%以下の係数にしぼってみる。
それで、正しい数字の読み取りができます。

長くなりますが、説明します。。。

まず、係数ですが、
値が大きいほどYに与えるインパクトが大きいことが読み取れます。

一方「P-値」は、係数の信頼性をはかるものです。
厳密にいうと、「該当の係数が0でない」であろう確率を表します。
これを意訳すると
「Yの変動要因になっているかいないか」を判断するものです。
なので、「P-値」はだいたい5%未満だと、該当の変数を重回帰式に適用しても良いと
読み取ることができます。


上記の2番目の表と同様に、5%未満だと、
統計的に「該当の係数が0でない」ということが言えます。

もっと説明すると、表の右から4番目と3番目に
下限95%、上限95%とありますが、
これは95%の確率で係数が取りうる限界値です。

実際、重回帰分析を他のデータでも、いくつか試してみると、
P値が5%以下の変数は上限と下限の間に0を含まず、
逆に5%以上の変数は上限と下限の間に0を含むことを確認できるかと思います。


※蛇足
 図の右端(右から2番目と1番目)にも下限95%、上限95%が
 ありますが、右から4番目と3番目と同じものです。
 実は、エクセルの重回帰分析を行う際にでてくる、
 ポップアップにカスタムで、上限・下限値を出せるものがあります。
 カスタム部分のデフォルトが95%になっているので、
 重複しているのですが、出すときは、99%にするとスマートかもしれないですね。

 赤枠の部分がそうです。


 念のため、どこのところを言っているのかも記しておきます。

 

まとめ

①表:当てはまりを見る
②表:回帰式の信頼性を確認する
③表:係数の値と信頼性を確認する

以上が、エクセルの重回帰分析で出てくる謎の3表の読み取り方です。

今回は、でてきたものの読み取り方の説明をしています。
実際に重回帰式をどうやってつくったら良いか?
とか、2番目の表などの分散分析表のちゃんとした使い方とかは、
多くの統計学の本に書いてあるので、参考にしてみて下さい。

※ ②表とか、③表の説明で信頼性を確認という言葉を使っていますが、
   統計学で言う信頼性はまた別の意味を含んでいる可能性があるので、
   厳密にこの記事を参考にはしないでください!
   あくまでも、エクセルの表の見方の参考情報としてご活用ください!


2013年12月4日水曜日

ワンランク上のABテストの検証〜統計を使ってLPを評価する〜 その2

前回の記事の最後で触れていますが F検定は分散を分析するものです。 

で、F検定で何をみるかといいますと、 ABテスト場合では、
 「日ごとのCV数の揺れの大きさ」と 「誤差の揺れの大きさ」を比較します。

 「日ごとのCV数の揺れの大きさ」 < 「誤差の揺れの大きさ」 と検出されたときは、【ABテストの結果に違いはなし】という結果に。 

一方、 「日ごとのCV数の揺れの大きさ」 > 「誤差の揺れの大きさ」 と検出されたときは、【ABテストの結果に違いがあり】という結果になります。

 これがF検定をやって分かることです。
なお、後者の場合が、統計学の教科書によく乗っている 「帰無仮説が棄却されて、対立仮説を採用する。」という話です。 

※数学的な話(結果だけ知りたいという方は読み飛ばしてください)

この大きさをどうやって判断するのかというと、 F分布の値を使って出します。 「日ごとのCV数の揺れの大きさ(分散)」 ÷ 「誤差の揺れの大きさ(分散)」  がF値です。

この値が大きいければ、大きいほど 「日ごとのCV数の揺れの大きさ」が大きいということなので、 【ABテストの結果に違いがあり】という結果が導かれます。

その基準となるのが、F分布になります。 それで、検定をやって注意しなければならないのは、 AとBの優劣はまだわかっていないという点です。

 優劣を判断するには「推定」という分析でみます。 

まとめると  
・F検定は、【違いがある】か【違いを無いか】をみる。  
・Aが優れているか?Bが優れているか?を見るには推定をおこなう。 

という点です。

次回は推定について触れます。 エクセルのシートはまだ先になりそうです。。