分散は、
- 分布が平均に対してどの程度ばらついているか
の指標です。
表記は、などが使われています。
各要素と平均との差、つまり偏差はです。偏差の平均は
\begin{equation}
\frac{1}{N} \sum_{i=1}^N (x_i -m) = m - m = 0
\end{equation}なので、偏差をそのまま指標に使おうとするといささか具合が悪いです。
そこで、偏差を2乗した量の平均を、ばらつきの指標としています。これを「分散」と呼んでいます。分散は、
\begin{equation}
V(X) = \frac{1}{N} \sum_{i=1}^N (x_i -m)^2
\end{equation}で定義します。
分散の単位は、各要素の単位の2乗となります。例えば各要素の単位が「個」の場合、分散の単位は「個2」となります。
そのため、単位を揃えるために分散の平方根をとります。これが「標準偏差」です。
\begin{equation}
\sigma = \sqrt{V(X)}
\end{equation}
値が重複する場合、確率を伴う場合、連続的に分散する場合も同様に、
\begin{eqnarray}
V(X) &=& \frac{1}{N} \sum_{i=1}^n (x_i - m)^2 f_i & \quad \left( \sum_{i=1}^n f_i =N \right) \\
V(X) &=& \sum_{i=1}^n (x_i - m)^2 p_i & \quad \left( \sum_{i=1}^n p_i =1 \right) \\
V(X) &=& \int_{-\infty}^\infty (x - m)^2 f(x) \ dx & \quad \left( \int_{-\infty}^\infty f(x) \ dx =1 \right)
\end{eqnarray}とします。