关闭 More 保存 重做 撤销 预览

   
关闭   当前为简洁模式,您可以更新模块,修改模块属性和数据,要使用完整的拖拽功能,请点击进入高级模式

重播

上一主題 下一主題
»
太子妃
翻译小组
当前积分:4016
帖子    739
新博币    1 提现
提现    0
     
    3540 0 | 显示全部楼层 |倒序浏览
    在统计学中,典型相关分析(Canonical Correlation Analysis)是对互协方差矩阵的一种理解。如果我们有两个随机变量向量 X = (X1, ..., Xn) 和 Y = (Y1, ..., Ym) 并且它们是相关的,那么典型相关分析会找出 XiYj 的相互相关最大的线性组合。[1]T·R·Knapp指出“几乎所有常见的参数测试的意义可视为特殊情况的典型相关分析,这是研究两组变量之间关系的一般步骤。”[2] 这个方法在1936年由哈罗德·霍特林首次引入。[3]

    [micxp_threadbk] [micxp_title] 定义 计算 解法 实现 假设检验 实际运用 例子 与principal angles的连接 参见 参考文献 外部链接 [/micxp_title] [#] 给定两个带有限矩的随机变量的列向量 X = ( x 1 , , x n ) {\displaystyle X=(x_{1},\dots ,x_{n})'} Y = ( y 1 , , y m ) {\displaystyle Y=(y_{1},\dots ,y_{m})'} ,我们可以定义互协方差矩阵 Σ X Y = cov ( X , Y ) {\displaystyle \Sigma _{XY}=\operatorname {cov} (X,Y)} n × m {\displaystyle n\times m} 的矩阵,其中 ( i , j ) {\displaystyle (i,j)} 是协方差 cov ( x i , y j ) {\displaystyle \operatorname {cov} (x_{i},y_{j})} 。实际上,我们可以基于 X {\displaystyle X} Y {\displaystyle Y} 的采样数据来估计协方差矩阵。(如从一对数据矩阵)。 典型相关分析求出向量 a {\displaystyle a} b {\displaystyle b} 使得随机变量 a X {\displaystyle a'X} b Y {\displaystyle b'Y} 的相关性 ρ = corr ( a X , b Y ) {\displaystyle \rho =\operatorname {corr} (a'X,b'Y)} 最大。随机变量 U = a X {\displaystyle U=a'X} V = b Y {\displaystyle V=b'Y} 第一对典型变量。然后寻求一个依然最大化相关但与第一对典型变量不相关的向量;这样就得到了 第二对典型变量。 这个步骤会进行 min { m , n } {\displaystyle \min\{m,n\}} 次。 [##] [###] 因此解法是:
    • c {\displaystyle c} Σ X X 1 / 2 Σ X Y Σ Y Y 1 Σ Y X Σ X X 1 / 2 {\displaystyle \Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1}\Sigma _{YX}\Sigma _{XX}^{-1/2}} 的一个特征向量。
    • d {\displaystyle d} Σ Y Y 1 / 2 Σ Y X Σ X X 1 / 2 c {\displaystyle \Sigma _{YY}^{-1/2}\Sigma _{YX}\Sigma _{XX}^{-1/2}c} 的比例项。
    相反地,也有:
    • d {\displaystyle d} Σ Y Y 1 / 2 Σ Y X Σ X X 1 Σ X Y Σ Y Y 1 / 2 {\displaystyle \Sigma _{YY}^{-1/2}\Sigma _{YX}\Sigma _{XX}^{-1}\Sigma _{XY}\Sigma _{YY}^{-1/2}} 的一个特征向量。
    • c {\displaystyle c} Σ X X 1 / 2 Σ X Y Σ Y Y 1 / 2 d {\displaystyle \Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1/2}d} 的比例项。
    把坐标反过来,我们有
    • a {\displaystyle a} Σ X X 1 Σ X Y Σ Y Y 1 Σ Y X {\displaystyle \Sigma _{XX}^{-1}\Sigma _{XY}\Sigma _{YY}^{-1}\Sigma _{YX}} 的一个特征向量。
    • b {\displaystyle b} Σ Y Y 1 Σ Y X Σ X X 1 Σ X Y {\displaystyle \Sigma _{YY}^{-1}\Sigma _{YX}\Sigma _{XX}^{-1}\Sigma _{XY}} 的一个特征向量。
    • a {\displaystyle a} Σ X X 1 Σ X Y b {\displaystyle \Sigma _{XX}^{-1}\Sigma _{XY}b} 的比例项。
    • b {\displaystyle b} Σ Y Y 1 Σ Y X a {\displaystyle \Sigma _{YY}^{-1}\Sigma _{YX}a} 的比例项。
    那么相关变量定义为:
    U = c Σ X X 1 / 2 X = a X {\displaystyle U=c'\Sigma _{XX}^{-1/2}X=a'X}
    V = d Σ Y Y 1 / 2 Y = b Y {\displaystyle V=d'\Sigma _{YY}^{-1/2}Y=b'Y}
    [####] 典型相关分析可以用一个相关矩阵的奇异值分解来解决。[4] 以下是它在一些语言中的函数 [5]
    • MATLAB as canoncorr
    • R as cancor or in FactoMineR
    • SAS as proc cancorr
    • Scikit-Learn, Python as Cross decomposition
    [#####] 每一行可以用下面的方法检测其重要性。由于相关是排好序的,也就是说行 i {\displaystyle i} 为 0 意味着所有后续的相关都为 0。如果我们在一个样本中有 p {\displaystyle p} 个独立观测,对 i = 1 , , min { m , n } {\displaystyle i=1,\dots ,\min\{m,n\}} ρ ^ i {\displaystyle {\widehat {\rho }}_{i}} 是其估计相关。对第 i {\displaystyle i} 行,测试统计为:
    χ 2 = ( p 1 1 2 ( m + n + 1 ) ) ln j = i min { m , n } ( 1 ρ ^ j 2 ) , {\displaystyle \chi ^{2}=-\left(p-1-{\frac {1}{2}}(m+n+1)\right)\ln \prod _{j=i}^{\min\{m,n\}}(1-{\widehat {\rho }}_{j}^{2}),}
    上面渐近为一个对大 p {\displaystyle p} ( m i + 1 ) ( n i + 1 ) {\displaystyle (m-i+1)(n-i+1)} 个自由度的卡方分布。[6] 由于所有从 min { m , n } {\displaystyle \min\{m,n\}} p {\displaystyle p} 的相关从逻辑上来说都是 0,所以在这一点之后的乘积都是不相关的。 [######] [#######] [########] [#########]
    • Generalized Canonical Correlation
    • Multilinear subspace learning
    • RV coefficient
    • Principal angles
    • 主成分分析
    • Regularized canonical correlation analysis
    • 奇异值分解
    • Partial least squares regression
    [##########]
    1. ^ Härdle, Wolfgang; Simar, Léopold. Canonical Correlation Analysis. Applied Multivariate Statistical Analysis. 2007: 321–330. doi:10.1007/978-3-540-72244-1_14. ISBN 978-3-540-72243-4. 
    2. ^ Knapp, T. R. Canonical correlation analysis: A general parametric significance-testing system. Psychological Bulletin. 1978, 85 (2): 410–416. doi:10.1037/0033-2909.85.2.410. 
    3. ^ Hotelling, H. Relations Between Two Sets of Variates. Biometrika. 1936, 28 (3–4): 321–377. doi:10.1093/biomet/28.3-4.321. JSTOR 2333955. 
    4. ^ Hsu, D.; Kakade, S. M.; Zhang, T. A spectral algorithm for learning Hidden Markov Models (PDF). Journal of Computer and System Sciences. 2012, 78 (5): 1460. arXiv:0811.4413. doi:10.1016/j.jcss.2011.12.025. 
    5. ^ Huang, S. Y.; Lee, M. H.; Hsiao, C. K. Nonlinear measures of association with kernel canonical correlation analysis and applications (PDF). Journal of Statistical Planning and Inference. 2009, 139 (7): 2162. doi:10.1016/j.jspi.2008.10.011. 
    6. ^ Kanti V. Mardia, J. T. Kent and J. M. Bibby. Multivariate Analysis. Academic Press. 1979. 
    [###########]
    • Hardoon, D. R.; Szedmak, S.; Shawe-Taylor, J. Canonical Correlation Analysis: An Overview with Application to Learning Methods. Neural Computation. 2004, 16 (12): 2639–2664. doi:10.1162/0899766042321814. PMID 15516276. 
    • A note on the ordinal canonical-correlation analysis of two sets of ranking scores (Also provides a FORTRAN program)- in J. of Quantitative Economics 7(2), 2009, pp. 173-199
    • Representation-Constrained Canonical Correlation Analysis: A Hybridization of Canonical Correlation and Principal Component Analyses (Also provides a FORTRAN program)- in J. of Applied Economic Sciences 4(1), 2009, pp. 115-124
    分类:
    • 协方差与相关性
    • 多重变量分析
    [/micxp_threadbk]
    个人签名

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表