いっかくのデータサイエンティストをいく

1からプログラミングとデータサイエンスを独習したい

【統計学】回帰分析と最小二乗法(理論編その3)

前回、前々回と回帰分析の理論とくに回帰係数の求め方について説明しました。 今回は実際に回帰分析を行う際に特に注目する指標を簡単に説明します。

決定係数

求めた回帰式が実際の観測値どれくらい説明できたか示す指標です。

f:id:imakoto0323:20180613144347p:plain

決定係数は0から1の間の値をとります。  0 \leqq {R}^2 \leqq 1

1に近いほどモデルは実際の観測値をうまく説明できているといえます。 逆に0に近いと被説明変数を説明する要因がほかにもあるかもしれません。

現在は単回帰分析の話をしていますが、重回帰分析の場合説明変数が多くなると決定係数は大きくなります。 そこで実際には自由度調整済み決定係数が用いられます*1f:id:imakoto0323:20180613144907p:plain

決定係数は0.5あればいいといわれています。

(とてもざっくりな)t値

※この項目では、かなりざっくり説明しており、理論的には正しくないかもしれません。

モデルがきちんと実際の観測値を説明できていても、説明変数が0ならば意味がありません。 前々回の(ビールの消費量)=a +b×(気温)の例ですと、年間通してビールの消費量が一定ならモデルの式は横線となり、気温は関係ありません。つまり傾きbが0となります。もし、仮に傾きがうまく斜めの直線が引けたとして、 それが本当は0かどうかの保証はありません。そこでこの傾きが0でないかどうか判断するのがt値です。

t値は右肩上がりの場合プラスの値をとり、おおよそ2以上の値のときは実際も傾きはプラスと判断できます。 ビールの例では、t値が2以上の場合気温が上がるとビールの消費量は増えるといえます。t値が0.5くらいなら ビールの消費量と気温は関係性がないといえます。

逆に右肩下がりの場合t値はマイナスの値をとり、おおよそ-2以下の値のときは実際も傾きがマイナスと判断できます。 おでんと気温の関係を考えます。おでんは気温が下がると売れると考え、(おでんの売り上げ)= a +b ×(気温)とう式を考えました。計算の結果、t値が-3の場合、気温が下がるとおでんが売れるといえます。しかし0.2の場合、気温が下がろうが上がろうがおでんの売り上げには影響しないといえます。

理論的ではないおおざっぱな説明ですが、回帰分析をすると必ず出力されるので説明しました。

次回はついに実装です。

*1:EXCELでは補正R2と表示されます