数式で独楽する

数式を使って楽しむブログです

[tex: ]

相関係数

相関係数は、

  • 2つの変数の関連性の強さ

を表す指標の1つです。
2変数の共分散を、それぞれの変数の標準偏差で割ることで得られます。

共分散 - 数式で独楽する
分散と標準偏差 - 数式で独楽する

2変数の性質が異なる場合は、共分散による関連性の強さを評価するのが難しくなります。
相関係数は、共分散をそれぞれの標準偏差で「規格化」することで評価しやすくしています。

相関係数は、
\begin{equation}
r = \frac{\mathrm{Cov}(X,Y)}{\sigma_x \sigma_y}
\end{equation}
で表します。ここに、

  •  \mathrm{Cov}(X,Y) : 変数 X,Yの共分散
  •  \sigma_x : 変数 Xの標準偏差
  •  \sigma_y : 変数 Yの標準偏差

です。

相関係数は、
\begin{equation}
-1 \leqq r \leqq 1
\end{equation}の値をとります。

  •  r=1の場合、完全な正の相関
  •  r=0の場合、無相関
  •  r=-1の場合、完全な負の相関

となります。
絶対値が1に近いほど、強い相関を持ちます。

さて、この相関係数ですが、
\begin{equation}
-1 \leqq r \leqq 1
\end{equation}となることを以下で見ていきます。

相関係数を定義に従って変形していきます。式中、 m_x, m_yは変数 X,Yの平均値です。
\begin{eqnarray}
r &=& \frac{\mathrm{Cov}(X,Y)}{\sqrt{V(X)} \sqrt{V(Y)}} \\
&=& \frac{E \bigl( (X - m_x)(Y - m_y) \bigr)}{\sqrt{E \bigl( (X - m_x)^2 \bigr)} \sqrt{E \bigl( (Y - m_y)^2 \bigr)}} \\
&=& \cfrac{\cfrac{1}{N} \sum_{i=1}^N (x_i - m_x)(y_i - m_y)}{\sqrt{\cfrac{1}{N} \sum_{i=1}^N (x_i - m_x)^2} \sqrt{\cfrac{1}{N} \sum_{i=1}^N (y_i - m_y)^2}}
\end{eqnarray}
これより、
\begin{equation}
r^2 = \frac{\left( \displaystyle \sum_{i=1}^N (x_i - m_x)(y_i - m_y) \right)^2}{\displaystyle \left( \sum_{i=1}^N (x_i - m_x)^2 \right) \left( \sum_{i=1}^N (y_i - m_y)^2 \right)}
\end{equation}を得ます。

ここで、コーシー・シュワルツの不等式
コーシー・シュワルツの不等式 その2 - 数式で独楽する
コーシー・シュワルツの不等式 その3 - 数式で独楽する
により、
\begin{equation}
\left( \sum_{i=1}^N (x_i - m_x)^2 \right) \left( \sum_{i=1}^N (y_i - m_y)^2 \right) \geqq \left( \sum_{i=1}^N (x_i - m_x)(y_i - m_y) \right)^2
\end{equation}が成り立ちます。

したがって、
\begin{equation}
r^2 \leqq 1
\end{equation}すなわち
\begin{equation}
-1 \leqq r \leqq 1
\end{equation}となります。