相関係数は、
- 2つの変数の関連性の強さ
を表す指標の1つです。
2変数の共分散を、それぞれの変数の標準偏差で割ることで得られます。
共分散 - 数式で独楽する
分散と標準偏差 - 数式で独楽する
2変数の性質が異なる場合は、共分散による関連性の強さを評価するのが難しくなります。
相関係数は、共分散をそれぞれの標準偏差で「規格化」することで評価しやすくしています。
相関係数は、
\begin{equation}
r = \frac{\mathrm{Cov}(X,Y)}{\sigma_x \sigma_y}
\end{equation}で表します。ここに、
- : 変数の共分散
- : 変数の標準偏差
- : 変数の標準偏差
です。
相関係数は、
\begin{equation}
-1 \leqq r \leqq 1
\end{equation}の値をとります。
- の場合、完全な正の相関
- の場合、無相関
- の場合、完全な負の相関
となります。
絶対値が1に近いほど、強い相関を持ちます。
さて、この相関係数ですが、
\begin{equation}
-1 \leqq r \leqq 1
\end{equation}となることを以下で見ていきます。
相関係数を定義に従って変形していきます。式中、は変数の平均値です。
\begin{eqnarray}
r &=& \frac{\mathrm{Cov}(X,Y)}{\sqrt{V(X)} \sqrt{V(Y)}} \\
&=& \frac{E \bigl( (X - m_x)(Y - m_y) \bigr)}{\sqrt{E \bigl( (X - m_x)^2 \bigr)} \sqrt{E \bigl( (Y - m_y)^2 \bigr)}} \\
&=& \cfrac{\cfrac{1}{N} \sum_{i=1}^N (x_i - m_x)(y_i - m_y)}{\sqrt{\cfrac{1}{N} \sum_{i=1}^N (x_i - m_x)^2} \sqrt{\cfrac{1}{N} \sum_{i=1}^N (y_i - m_y)^2}}
\end{eqnarray}
これより、
\begin{equation}
r^2 = \frac{\left( \displaystyle \sum_{i=1}^N (x_i - m_x)(y_i - m_y) \right)^2}{\displaystyle \left( \sum_{i=1}^N (x_i - m_x)^2 \right) \left( \sum_{i=1}^N (y_i - m_y)^2 \right)}
\end{equation}を得ます。
ここで、コーシー・シュワルツの不等式
コーシー・シュワルツの不等式 その2 - 数式で独楽する
コーシー・シュワルツの不等式 その3 - 数式で独楽する
により、
\begin{equation}
\left( \sum_{i=1}^N (x_i - m_x)^2 \right) \left( \sum_{i=1}^N (y_i - m_y)^2 \right) \geqq \left( \sum_{i=1}^N (x_i - m_x)(y_i - m_y) \right)^2
\end{equation}が成り立ちます。
したがって、
\begin{equation}
r^2 \leqq 1
\end{equation}すなわち
\begin{equation}
-1 \leqq r \leqq 1
\end{equation}となります。