主成分分析

Wikipedia

ウィキペディアに主成分分析の記事があります。

主成分分析の発想

n個のp次元ベクトル $\mathbf {x_{i}} =(x_{1},x_{2},\cdots ,x_{p})^{T}\ (i=1,2,\cdots ,n)$ があるとする。主成分分析の目的は、できるだけ元データの構造を保った上で、より次元の小さな次元に圧縮することである。

具体的には、例えば、

x=(x_{1},x_{2},\cdots ,x_{p})^{T}\ (i=1,2,\cdots ,n)

を1次元の値で表すことを考えてみよう。そのための方法として、p次元単位ベクトル $\mathbf {e}$ を用意して、内積を取ることで、単位ベクトル方向の方向成分によって、n個のベクトルを識別するという方法がある。

主成分分析は、基本的にこの発想をもちいており、では、単位ベクトルとしてどの方向を利用するのが良いのかを統計的に決定するというものである。上の例では1次元に圧縮したが、2次元に圧縮したい場合は、単位ベクトルを2つ用意して、2つの単位ベクトルを規定としたときの成分 $(z_{1},z_{2})$ でn個のベクトルを識別する。 m次元に圧縮したい場合は、単位ベクトルをm個用意すれば良い。

主成分分析における"主成分"の考え方

では、p次元ベクトルの単位ベクトルはどのように選ぶのが良いだろうか？
n個のベクトルの単位ベクトルの方向成分をとった時、成分ができるだけバラける方向に単位ベクトルを取ると、成分の値によって、 $x_{i}$ を区別しやすい。

したがって、単位ベクトルは分散が大きい方向に取るのが良い。単位ベクトルをaとすると、 $\mathbf {a}$ の満たすべき条件は

z=\mathbf {a} ^{T}x

$var(z)={\frac {1}{n}}\sum _{i=1}^{n}{(z_{i}-{\bar {z}})}$ を最大化する $\mathbf {a}$
である。

これは射影変換後の変数zの分散が最大になるように単位ベクトルを決めるていることを意味する。
また、上の条件を満たす $\mathbf {a}$ によって得られる変数 $z$ は、標本 $x$ の特徴をよく表していることから、「説明変数」とよばれる。