典型相关-菲律宾论坛，菲律宾华人论坛-博牛门户社区 - 博牛迪拜站，迪拜华人论坛，博牛迪拜华人门户网站

博牛社区 › 产业交流 › 知识百科

电梯直达 »

返回列表

太子妃
翻译小组

当前积分:4016

帖子 739

新博币 1

提现

提现 0 元

发表于 2016-10-8 04:36:20 3540 0 | 显示全部楼层 |倒序浏览

楼主

在统计学中，典型相关分析(Canonical Correlation Analysis)是对互协方差矩阵的一种理解。如果我们有两个随机变量向量 X = (X1, ..., Xn) 和 Y = (Y1, ..., Ym) 并且它们是相关的，那么典型相关分析会找出 Xi 和 Yj 的相互相关最大的线性组合。[1]T·R·Knapp指出“几乎所有常见的参数测试的意义可视为特殊情况的典型相关分析，这是研究两组变量之间关系的一般步骤。”[2] 这个方法在1936年由哈罗德·霍特林首次引入。[3]

[micxp_threadbk] [micxp_title] 定义计算解法实现假设检验实际运用例子与principal angles的连接参见参考文献外部链接 [/micxp_title] [#] 给定两个带有限矩的随机变量的列向量

X = (x_{1}, \dots, x_{n})^{'} {\displaystyle X=(x_{1},\dots ,x_{n})'}

X=(x_{1},\dots ,x_{n})'

和

Y = (y_{1}, \dots, y_{m})^{'} {\displaystyle Y=(y_{1},\dots ,y_{m})'}

Y=(y_{1},\dots ,y_{m})'

，我们可以定义互协方差矩阵

Σ_{X Y} = cov (X, Y) {\displaystyle \Sigma _{XY}=\operatorname {cov} (X,Y)}

\Sigma _{XY}=\operatorname {cov} (X,Y)

为

n \times m {\displaystyle n\times m}

n\times m

的矩阵，其中

(i, j) {\displaystyle (i,j)}

(i,j)

是协方差

cov (x_{i}, y_{j}) {\displaystyle \operatorname {cov} (x_{i},y_{j})}

\operatorname {cov} (x_{i},y_{j})

。实际上，我们可以基于

X {\displaystyle X}

X

和

Y {\displaystyle Y}

Y

的采样数据来估计协方差矩阵。(如从一对数据矩阵)。典型相关分析求出向量

a {\displaystyle a}

a

和

b {\displaystyle b}

b

使得随机变量

a^{'} X {\displaystyle a'X}

a'X

和

b^{'} Y {\displaystyle b'Y}

b'Y

的相关性

ρ = corr (a^{'} X, b^{'} Y) {\displaystyle \rho =\operatorname {corr} (a'X,b'Y)}

\rho =\operatorname {corr} (a'X,b'Y)

最大。随机变量

U = a^{'} X {\displaystyle U=a'X}

U=a'X

和

V = b^{'} Y {\displaystyle V=b'Y}

V=b'Y

是 第一对典型变量。然后寻求一个依然最大化相关但与第一对典型变量不相关的向量；这样就得到了 第二对典型变量。这个步骤会进行

min {m, n} {\displaystyle \min\{m,n\}}

\min\{m,n\}

次。 [##] [###] 因此解法是：

$c {\displaystyle c}$ $c$ 是 $Σ_{X X}^{- 1 / 2} Σ_{X Y} Σ_{Y Y}^{- 1} Σ_{Y X} Σ_{X X}^{- 1 / 2} {\displaystyle \Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1}\Sigma _{YX}\Sigma _{XX}^{-1/2}}$ $\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1}\Sigma _{YX}\Sigma _{XX}^{-1/2}$ 的一个特征向量。
$d {\displaystyle d}$ $d$ 是 $Σ_{Y Y}^{- 1 / 2} Σ_{Y X} Σ_{X X}^{- 1 / 2} c {\displaystyle \Sigma _{YY}^{-1/2}\Sigma _{YX}\Sigma _{XX}^{-1/2}c}$ $\Sigma _{YY}^{-1/2}\Sigma _{YX}\Sigma _{XX}^{-1/2}c$ 的比例项。

相反地，也有：

$d {\displaystyle d}$ $d$ 是 $Σ_{Y Y}^{- 1 / 2} Σ_{Y X} Σ_{X X}^{- 1} Σ_{X Y} Σ_{Y Y}^{- 1 / 2} {\displaystyle \Sigma _{YY}^{-1/2}\Sigma _{YX}\Sigma _{XX}^{-1}\Sigma _{XY}\Sigma _{YY}^{-1/2}}$ $\Sigma _{YY}^{-1/2}\Sigma _{YX}\Sigma _{XX}^{-1}\Sigma _{XY}\Sigma _{YY}^{-1/2}$ 的一个特征向量。
$c {\displaystyle c}$ $c$ 是 $Σ_{X X}^{- 1 / 2} Σ_{X Y} Σ_{Y Y}^{- 1 / 2} d {\displaystyle \Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1/2}d}$ $\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1/2}d$ 的比例项。

把坐标反过来，我们有

$a {\displaystyle a}$ $a$ 是 $Σ_{X X}^{- 1} Σ_{X Y} Σ_{Y Y}^{- 1} Σ_{Y X} {\displaystyle \Sigma _{XX}^{-1}\Sigma _{XY}\Sigma _{YY}^{-1}\Sigma _{YX}}$ $\Sigma _{XX}^{-1}\Sigma _{XY}\Sigma _{YY}^{-1}\Sigma _{YX}$ 的一个特征向量。
$b {\displaystyle b}$ $b$ 是 $Σ_{Y Y}^{- 1} Σ_{Y X} Σ_{X X}^{- 1} Σ_{X Y} {\displaystyle \Sigma _{YY}^{-1}\Sigma _{YX}\Sigma _{XX}^{-1}\Sigma _{XY}}$ $\Sigma _{YY}^{-1}\Sigma _{YX}\Sigma _{XX}^{-1}\Sigma _{XY}$ 的一个特征向量。
$a {\displaystyle a}$ $a$ 是 $Σ_{X X}^{- 1} Σ_{X Y} b {\displaystyle \Sigma _{XX}^{-1}\Sigma _{XY}b}$ $\Sigma _{XX}^{-1}\Sigma _{XY}b$ 的比例项。
$b {\displaystyle b}$ $b$ 是 $Σ_{Y Y}^{- 1} Σ_{Y X} a {\displaystyle \Sigma _{YY}^{-1}\Sigma _{YX}a}$ $\Sigma _{YY}^{-1}\Sigma _{YX}a$ 的比例项。

那么相关变量定义为：

U = c^{'} Σ_{X X}^{- 1 / 2} X = a^{'} X {\displaystyle U=c'\Sigma _{XX}^{-1/2}X=a'X}

U=c'\Sigma _{XX}^{-1/2}X=a'X

V = d^{'} Σ_{Y Y}^{- 1 / 2} Y = b^{'} Y {\displaystyle V=d'\Sigma _{YY}^{-1/2}Y=b'Y}

V=d'\Sigma _{YY}^{-1/2}Y=b'Y

[####] 典型相关分析可以用一个相关矩阵的奇异值分解来解决。[4] 以下是它在一些语言中的函数 [5]

MATLAB as canoncorr
R as cancor or in FactoMineR
SAS as proc cancorr
Scikit-Learn, Python as Cross decomposition

[#####] 每一行可以用下面的方法检测其重要性。由于相关是排好序的，也就是说行

i {\displaystyle i}

i

为 0 意味着所有后续的相关都为 0。如果我们在一个样本中有

p {\displaystyle p}

p

个独立观测，对

i = 1, \dots, min {m, n} {\displaystyle i=1,\dots ,\min\{m,n\}}

i=1,\dots ,\min\{m,n\}

，

{\hat{ρ}}_{i} {\displaystyle {\widehat {\rho }}_{i}}

{\widehat {\rho }}_{i}

是其估计相关。对第

i {\displaystyle i}

i

行，测试统计为：

χ^{2} = - (p - 1 - \frac{1}{2} (m + n + 1)) \ln \prod_{j = i}^{min {m, n}} (1 - {\hat{ρ}}_{j}^{2}), {\displaystyle \chi ^{2}=-\left(p-1-{\frac {1}{2}}(m+n+1)\right)\ln \prod _{j=i}^{\min\{m,n\}}(1-{\widehat {\rho }}_{j}^{2}),}

\chi ^{2}=-\left(p-1-{\frac {1}{2}}(m+n+1)\right)\ln \prod _{j=i}^{\min\{m,n\}}(1-{\widehat {\rho }}_{j}^{2}),

上面渐近为一个对大

p {\displaystyle p}

p

有

(m - i + 1) (n - i + 1) {\displaystyle (m-i+1)(n-i+1)}

(m-i+1)(n-i+1)

个自由度的卡方分布。[6] 由于所有从

min {m, n} {\displaystyle \min\{m,n\}}

\min\{m,n\}

到

p {\displaystyle p}

p

的相关从逻辑上来说都是 0，所以在这一点之后的乘积都是不相关的。 [######] [#######] [########] [#########]

Generalized Canonical Correlation
Multilinear subspace learning
RV coefficient
Principal angles
主成分分析
Regularized canonical correlation analysis
奇异值分解
Partial least squares regression

[##########]

^ Härdle, Wolfgang; Simar, Léopold. Canonical Correlation Analysis. Applied Multivariate Statistical Analysis. 2007: 321–330. doi:10.1007/978-3-540-72244-1_14. ISBN 978-3-540-72243-4.
^ Knapp, T. R. Canonical correlation analysis: A general parametric significance-testing system. Psychological Bulletin. 1978, 85 (2): 410–416. doi:10.1037/0033-2909.85.2.410.
^ Hotelling, H. Relations Between Two Sets of Variates. Biometrika. 1936, 28 (3–4): 321–377. doi:10.1093/biomet/28.3-4.321. JSTOR 2333955.
^ Hsu, D.; Kakade, S. M.; Zhang, T. A spectral algorithm for learning Hidden Markov Models (PDF). Journal of Computer and System Sciences. 2012, 78 (5): 1460. arXiv:0811.4413. doi:10.1016/j.jcss.2011.12.025.
^ Huang, S. Y.; Lee, M. H.; Hsiao, C. K. Nonlinear measures of association with kernel canonical correlation analysis and applications (PDF). Journal of Statistical Planning and Inference. 2009, 139 (7): 2162. doi:10.1016/j.jspi.2008.10.011.
^ Kanti V. Mardia, J. T. Kent and J. M. Bibby. Multivariate Analysis. Academic Press. 1979.

[###########]

Hardoon, D. R.; Szedmak, S.; Shawe-Taylor, J. Canonical Correlation Analysis: An Overview with Application to Learning Methods. Neural Computation. 2004, 16 (12): 2639–2664. doi:10.1162/0899766042321814. PMID 15516276.
A note on the ordinal canonical-correlation analysis of two sets of ranking scores (Also provides a FORTRAN program)- in J. of Quantitative Economics 7(2), 2009, pp. 173-199
Representation-Constrained Canonical Correlation Analysis: A Hybridization of Canonical Correlation and Principal Component Analyses (Also provides a FORTRAN program)- in J. of Applied Economic Sciences 4(1), 2009, pp. 115-124

分类：

协方差与相关性
多重变量分析

[/micxp_threadbk]

个人签名

收藏回复菲律宾最大的华人电报群,点击加入:https://t.me/boniush365

返回列表

加入博牛招聘会员，尽享专属特权>>

赚博币，当钱花>>

浏览过的版块