Multipler Korrelationskoeffizient

Der multiple Korrelationskoeffizient ist in der multivariaten Statistik ein Korrelationskoeffizient, welcher die lineare Abhängigkeit zwischen einer Zufallsvariable und einer Menge anderer Zufallsvariablen misst. Konkret bedeutet das für einen Zufallsvektor $(X_{1},\dots ,X_{n})^{\mathrm {T} }$ , dass der multiple Korrelationskoeffizient die maximale Korrelation zwischen einer Zufallsvariable $X_{i}$ für $i\leq k$ und jeder beliebigen linearen Funktion von $X_{k+1},\dots ,X_{n}$ ist. Als Spezialfall erhält man den multiplen Korrelationskoeffizient zwischen $X_{1}$ und $X_{2},\dots ,X_{n}$ . Im Gegensatz zu den gewöhnlichen Korrelationskoeffizienten liegt der multiple Korrelationskoeffizient zwischen $0$ und $1$ . Der multiple Korrelationskoeffizient wird mit ${\overline {R}}_{i\cdot (k+1\cdots n)}$ notiert.

Der multiple Korrelationskoeffizient wurde 1896 von Karl Pearson für drei Variablen eingeführt und 1897 von George Udny Yule erweitert.^[1]

Definition

Sei $\mathbf {X} =(X_{1},X_{2},\dots ,X_{n})^{\mathrm {T} }$ ein Zufallsvektor mit positiv definiter Kovarianzmatrix ${\boldsymbol {\Sigma }}$ und $1\leq i\leq k<n$ .

Wir machen folgende Zerlegung

\mathbf {X} ={\begin{pmatrix}\mathbf {X} _{1}\\\mathbf {X} _{2}\end{pmatrix}},\qquad {\boldsymbol {\Sigma }}={\begin{pmatrix}{\boldsymbol {\Sigma }}_{11}&{\boldsymbol {\Sigma }}_{12}\\{\boldsymbol {\Sigma }}_{21}&{\boldsymbol {\Sigma }}_{22}\end{pmatrix}},\qquad \mathbf {X_{1}} =(X_{1},\dots ,X_{k})^{\mathrm {T} },\quad \mathbf {X_{2}} =(X_{k+1},\dots ,X_{n})^{\mathrm {T} }.

Der multiple Korrelationskoeffizient ${\overline {R}}_{i\cdot (k+1\cdots n)}$ zwischen $X_{i}$ und $X_{k+1},\dots ,X_{n}$ ist die maximale Korrelation zwischen $X_{i}$ und jeder linearen Funktion ${\boldsymbol {\alpha }}^{\mathrm {T} }\mathbf {X_{2}}$ .

In mathematischen Formeln ausgedrückt^[2]

{\overline {R}}_{i\cdot (k+1\cdots n)}:=\max \limits _{\boldsymbol {\alpha }}{\frac {\operatorname {Cov} (X_{i},{\boldsymbol {\alpha }}^{\mathrm {T} }\mathbf {X_{2}} )}{\left(\operatorname {Var} (X_{i})\operatorname {Var} ({\boldsymbol {\alpha }}^{\mathrm {T} }\mathbf {X_{2}} )\right)^{1/2}}}=\max \limits _{\boldsymbol {\alpha }}{\frac {{\boldsymbol {\alpha }}^{\mathrm {T} }{\boldsymbol {\sigma }}_{i}}{(\sigma _{ii}{\boldsymbol {\alpha }}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}{\boldsymbol {\alpha }})^{1/2}}},

wobei ${\boldsymbol {\sigma }}_{i}^{\mathrm {T} }$ die $i$ -te Reihe von ${\boldsymbol {\Sigma }}_{12}$ ist und $\operatorname {Var} (X_{i})=\sigma _{ii}$ .

Wendet man die Cauchy-Schwarz-Ungleichung an

{\frac {{\boldsymbol {\alpha }}^{\mathrm {T} }{\boldsymbol {\sigma }}_{i}}{(\sigma _{ii}{\boldsymbol {\alpha }}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}{\boldsymbol {\alpha }})^{1/2}}}={\frac {{\boldsymbol {\alpha }}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}^{1/2}{\boldsymbol {\Sigma }}_{22}^{-1/2}{\boldsymbol {\sigma }}_{i}}{(\sigma _{ii}{\boldsymbol {\alpha }}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}{\boldsymbol {\alpha }})^{1/2}}}\leq {\frac {\left({\boldsymbol {\alpha }}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}{\boldsymbol {\alpha }}\right)^{1/2}\left({\boldsymbol {\sigma }}_{i}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}^{-1}{\boldsymbol {\sigma }}_{i}\right)^{1/2}}{(\sigma _{ii}{\boldsymbol {\alpha }}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}{\boldsymbol {\alpha }})^{1/2}}}=\left({\frac {{\boldsymbol {\sigma }}_{i}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}^{-1}{\boldsymbol {\sigma }}_{i}}{\sigma _{ii}}}\right)^{1/2},

so erhält man eine Obergrenze, die erreicht wird, wenn ${\boldsymbol {\alpha }}={\boldsymbol {\Sigma }}_{22}^{-1}{\boldsymbol {\sigma }}_{i}$ .

Daraus folgt

{\overline {R}}_{i\cdot (k+1\cdots n)}=\left({\frac {{\boldsymbol {\sigma }}_{i}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}^{-1}{\boldsymbol {\sigma }}_{i}}{\sigma _{ii}}}\right)^{1/2}.

^[2]^[3]

Eigenschaften

Es gilt

0\leq {\overline {R}}_{i\cdot (k+1\cdots n)}\leq 1

und

{\overline {R}}_{i\cdot (k+1\cdots n)}=0\iff {\boldsymbol {\Sigma }}_{12}=\mathbf {0}

.

Man kann zeigen, dass wenn die Regressionsfunktion $\mathbb {E} [X_{i}\mid \mathbf {X_{2}} ]$ eine lineare Funktion ist, dann ist der multiple Korrelationskoeffizient gerade der Korrelationskoeffizient zwischen $X_{i}$ und $\mathbb {E} [X_{i}\mid \mathbf {X_{2}} ]$ .^[3]^[2]
Es gilt

1-{\overline {R}}_{i\cdot (k+1\cdots n)}^{2}={\frac {\operatorname {det} ({\boldsymbol {\Sigma }}_{i})}{\sigma _{ii}\operatorname {det} ({\boldsymbol {\Sigma }}_{22})}},\quad

wobei

\quad {\boldsymbol {\Sigma }}_{i}:={\begin{pmatrix}\sigma _{ii}&{\boldsymbol {\sigma }}_{i}^{\mathrm {T} }\\{\boldsymbol {\sigma }}_{i}&{\boldsymbol {\Sigma }}_{ii}\end{pmatrix}}.

^[2]

Spezialfall X₁ und X₂,...,X_n

Möchten wir ${\overline {R}}_{1\cdot (2\cdots n)}$ herleiten, das heißt den multiplen Korrelationskoeffizient zwischen $X_{1}$ und $X_{2},\dots ,X_{n}$ , dann machen wir folgende Zerlegung

\mathbf {X} ={\begin{pmatrix}X_{1}\\\mathbf {X} _{2}\end{pmatrix}},\qquad {\boldsymbol {\Sigma }}={\begin{pmatrix}\sigma _{11}&{\boldsymbol {\sigma }}_{12}^{\mathrm {T} }\\{\boldsymbol {\sigma }}_{12}&{\boldsymbol {\Sigma }}_{22}\end{pmatrix}},

da ${\boldsymbol {\sigma }}_{12}$ ein $(n-1)\times 1$ -dimensionaler Vektor ist, verzichten wir auf die Notation ${\boldsymbol {\Sigma }}_{12}$ .

Es gilt dann

{\overline {R}}_{1\cdot (2\cdots n)}=\left({\frac {{\boldsymbol {\sigma }}_{12}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}^{-1}{\boldsymbol {\sigma }}_{12}}{\sigma _{11}}}\right)^{1/2}.