相关-菲律宾论坛，菲律宾华人论坛-博牛门户社区 - 博牛迪拜站，迪拜华人论坛，博牛迪拜华人门户网站

博牛社区 › 产业交流 › 知识百科

电梯直达 »

返回列表

太子妃
翻译小组

当前积分:4016

帖子 739

新博币 1

提现

提现 0 元

发表于 2016-10-8 05:10:48 8358 0 | 显示全部楼层 |倒序浏览

楼主

在概率论和统计学中，相关（Correlation，或称相关系数或关联系数），显示两个随机变量之间线性关系的强度和方向。在统计学中，相关的意义是用来衡量两个变量相对于其相互独立的距离。在这个广义的定义下，有许多根据数据特点而定义的用来衡量数据相关的系数。

[micxp_threadbk] [micxp_title] 各种相关系数皮尔逊积差系数（Pearson's product moment coefficient）几何特征统计学上的相关参考文献参见 [/micxp_title] [#] 对于不同测量尺度的变数，有不同的相关系数可用：

Pearson相关系数（Pearson's r）：衡量两个等距尺度或等比尺度变数之相关性。是最常见的，也是学习统计学时第一个接触的相关系数。
净相关（英语：partial correlation）：在模型中有多个自变数（或解释变数）时，去除掉其他自变数的影响，只衡量特定一个自变数与因变数之间的相关性。自变数和因变数皆为连续变数。
相关比（英语：correlation ratio）：衡量两个连续变数之相关性。

Gamma相关系数：衡量两个次序尺度变数之相关性。
Spearman等级相关系数：衡量两个次序尺度变数之相关性。
Kendall等级相关系数（英语：Kendall tau rank correlation coefficient）：衡量两个人为次序尺度变数（原始资料为等距尺度）之相关性。
Kendall和谐系数：衡量两个次序尺度变数之相关性。

Phi相关系数（英语：Phi coefficient）：衡量两个真正名目尺度的二分变数之相关性。
列联相关系数（英语：contingency coefficient）：衡量两个真正名目尺度变数之相关性。
四分相关（英语：tetrachoric correlation）：衡量两个人为名目尺度（原始资料为等距尺度）的二分变数之相关性。
Kappa一致性系数（英语：K coefficient of agreement）：衡量两个名目尺度变数之相关性。

点二系列相关系数（英语：point-biserial correlation）：X变数是真正名目尺度二分变数。Y变数是连续变数。
二系列相关系数（英语：biserial correlation）：X变数是人为名目尺度二分变数。Y变数是连续变数。

[##] 主条目：皮尔逊积矩相关系数 [###] 对于居中的数据来说（何谓居中？也就是每个数据减去样本均值，居中后它们的平均值就为0），相关系数可以看作是两个随机变量中得到的样本集向量之间夹角的cosine函数。一些实际工作者更喜欢用非居中的相关系数（与Pearson系数不相兼容）。看下面的例子中有一个比较。例如，假设五个国家的国民生产总值分别是1、2、3、5、8（单位10亿美元），又假设这五个国家的贫困比例分别是11%、12%、13%、15%、18%。则我们现在有两个有序的包含5个元素的向量x、y：x =（1, 2, 3, 5, 8）、 y =（0.11, 0.12, 0.13, 0.15, 0.18）使用一般的方法来计算向量间夹角（参考数量积），未居中的相关性系数如下：

\cos θ = \frac{x \cdot y}{∥ x ∥ ∥ y ∥} = \frac{2.93}{\sqrt{103} \sqrt{0.0983}} = 0.920814711 {\displaystyle \cos \theta ={\frac {{\mathbf {x}}\cdot {\mathbf {y}}}{\left\|{\mathbf {x}}\right\|\left\|{\mathbf {y}}\right\|}}={\frac {2.93}{{\sqrt {103}}{\sqrt {0.0983}}}}=0.920814711}

\cos \theta ={\frac {{\mathbf {x}}\cdot {\mathbf {y}}}{\left\|{\mathbf {x}}\right\|\left\|{\mathbf {y}}\right\|}}={\frac {2.93}{{\sqrt {103}}{\sqrt {0.0983}}}}=0.920814711

。

上面的数据实际上是故意选择了一个完美的线性关系：y = 0.10 + 0.01 x。因此皮尔逊相关系数应该就是1。把数据居中（x中数据减去E (x) = 3.8，y中数据减去E (y) = 0.138）后得到：x =（−2.8, −1.8, −0.8, 1.2, 4.2）、y =（−0.028, −0.018, −0.008, 0.012, 0.042），由此得到了预期结果：

\cos θ = \frac{x \cdot y}{∥ x ∥ ∥ y ∥} = \frac{0.308}{\sqrt{30.8} \sqrt{0.00308}} = 1 = ρ_{x y} {\displaystyle \cos \theta ={\frac {{\mathbf {x}}\cdot {\mathbf {y}}}{\left\|{\mathbf {x}}\right\|\left\|{\mathbf {y}}\right\|}}={\frac {0.308}{{\sqrt {30.8}}{\sqrt {0.00308}}}}=1=\rho _{xy}}

\cos \theta ={\frac {{\mathbf {x}}\cdot {\mathbf {y}}}{\left\|{\mathbf {x}}\right\|\left\|{\mathbf {y}}\right\|}}={\frac {0.308}{{\sqrt {30.8}}{\sqrt {0.00308}}}}=1=\rho _{xy}

，

[####] 相关系数的计算过程可表示为：将每个变量都转化为标准单位，乘积的平均数即为相关系数[1]。两个变量的关系可以直观地用散点图表示，当其紧密地群聚于一条直线的周围时，变量间存在强相关[2]。一个散点图可以用五个统计量来概括。所有x值得平均数，所有x值的SD，所有y值得平均数，所有y值的SD，相关系数r. 将第一个变量记为x ,第二个变量记为y ,相关系数为r，则可以通过以下公式： r = [（以标准单位表示的x）X（以标准单位表示的y）]的平均数 [#####]

^ David Freedman; Robert Pisani, Roger Purves. Statistics. Norton & Company. 1998: 148. ISBN 9780393960433. 3 （English）. 引文使用过时参数 (帮助) 引文格式1维护：未识别语文类型 (link)
^ David Freedman; Robert Pisani, Roger Purves. Statistics. Norton & Company. 1998: 156. ISBN 9780393960433. 3 （English）. 引文使用过时参数 (帮助) 引文格式1维护：未识别语文类型 (link)

[######]

相关不蕴涵因果

统计学

描述统计学

连续概率

集中趋势	平均数（平方 · 算术 · 几何 · 调和 · 算术-几何 · 几何-调和 · 希罗\|平均数不等式） · 中位数 · 众数

离散程度	全距 · 标准差 · 变异系数 · 百分位数 · 四分差 · 四分位数 · 方差 · 标准分数 · 切比雪夫不等式

分布形态（英语：Shape of the distribution）	偏态 · 峰态

离散概率

次数（英语：Count data） · 列联表（英语：Contingency table）

推论统计学
和假设检定

推论统计学	置信区间 · 区间估计（英语：Interval estimation） · 显著性差异 · 元分析 · 贝氏推论

实验设计	统计总量 · 抽样 · 重复（英语：Replication (statistics)） · 阻碍 · 特敏度 · 区集（英语：Blocking (statistics)）

样本量（英语：Sample size）	统计功效 · 效应值 · 标准误 · 虚无假设 · 对立假设（英语：Alternative hypothesis） · 第一型和第二型误差 · 统计检定力（英语：Statistical power）

常规估计	贝叶斯推论 · 区间估计（英语：Interval estimation） · 最大似然估计 · 最小距离估计（英语：Minimum distance estimation） · 矩量法 · 最大间距

特效检验	Z检验（英语：Z-test） · 学生t检验 · F检验 · 卡方检验 · Wald检验（英语：Wald test） · 曼-惠特尼检验（英语：Mann–Whitney U test） · 秩和检验

生存分析	生存函数 · 乘积极限估计量 · 对数秩和检定 · 失效率 · 危险比例模式

浏览过的版块