多元正态分布
0. 一元统计量
常用的一元假设检验:
-
方差已知,判断一组变量均值是否相等假设:U检验,
-
方差未知,判断一组变量是否等于假设:t检验:(wiki关于方差分析和t检验区别的描述:ANOVA is conceptually similar to multiple two-sample t-tests, but is more conservative (results in less type I error) and is therefore suited to a wide range of practical problems.)
-
方差相等且未知的两个样本之间:t检验:,其中
-
均值已知,判断方差是否与假设相等:卡方检验,
-
均值未知,判断方差是否与假设相等:卡方检验,
-
与未知的两个正态母体,检验其方差是否相等:F检验,,其中
相关系数:
其中:
1. What is multivariate normal distribution?
首先我们知道,标准正态分布的概率密度函数为:
对于一个一般的正态分布X,由,我们可以由“随机变量的变换”得到X的密度函数:
到此,我们讨论的范畴还局限于一元正态分布,我们假设存在随机向量,独立同分布于N(0,1);由相互独立的假设,我们可以知道,其概率分布为
Z的均值为,协方差矩阵为(非对角线元素因为相互独立,协方差为0),即为。
同样,我们进行变换,其中为p维常数向量,为p阶非退化矩阵。由此,得到一般多元正态分布的密度函数、均值、方差;其中均值为u,方差为,记作。其中多元正态分布的密度函数为:
需要注意,以上的结论的假设,多元变量之间相互独立;对于正态分布,如果相关系数(协方差)为0,则相互独立。
2. 多元正态分布的性质、参数估计
2.1 多元正态分布的性质
线性组合性质。某组向量服从多元正态分布,把它看作一个个体,则其与常数(向量或矩阵)的线性组合扔服从多元正态分布(维度未必为原始的p);其与同维度的多元正态分布的个体的线性组合仍服从多元正态分布,且维度仍为p。
对于单个多元正态分布,,则向量或矩阵与的乘积:或满足的分布:或.
对于多个多元正态分布:,
条件分布。对于多元正态分布,假设其维度为p,如果已知其中部分维度(比如后p-q维)已知,求剩下未知维度的分布,叫做条件分布。首先,前q维称作,后p-q维称为,如果要求的分布,则第一步要对和进行分割:
之后,可以给出条件分布的计算公式:
偏相关系数则可以在条件概率分布的基础上进行计算,比如,已经计算出来的条件概率的协方差矩阵为:
则,在已知的情况下,的偏相关系数为:
复相关系数,一般用来衡量第一个变量与剩余变量的线性函数的最大相关系数,由于q=1,所以之前的分割符号稍作修改:
然后给出复相关系数的计算:
边际分布,是指对于多维随机变量,只包含其中部分变量的概率分布(比如对于p维多元正态分布,其前m个维度的边际分布,为直接忽略后p-m个维度)。比如对于随机变量:
2.2 多元正态分布的参数估计与假设检验
参数估计,即根据样本数据来估计出多元正态分布的分布(均值与协方差矩阵)。分别是的极大似然估计,分别是的无偏估计(期望相等),有效估计(无偏估计中方差最小的)。其中V是样本协方差矩阵,A是样本离差矩阵。离差矩阵的计算如下:
相关系数矩阵的计算是基于离差矩阵A或协方差矩阵的(是的元素):
关于离差矩阵的三条性质:1),其中为Wishart分布,Wishart分布是分布的推广,2)与是相互独立的,3),是正定矩阵的充要条件是。
多元正态分布的假设检验与一元问题的相似,但围绕的重点主要是均值向量的检验(分为与假设值是否相等,两组正态多元分布的均值向量是否相等)。
1.协方差矩阵已知,判断均值向量与假设量是否相等,构造统计量:。
2.协方差矩阵未知,判断均值向量与假设量是否相等,需要通过两步来构造统计量,第一步类似于上式:
其中是Hotelling分布(一般地,对于);第二步把hotellling 统计量转换为我们熟悉的F分布:
根据上述hoteling分布,以及转化为F分布的方法可以得出基于的联合置信区域:
其中a是任意的,取无穷,只有理论意义;除了基于联合的置信区域外,还有一种置信区域精度更严格的方法:邦弗伦尼置信区域:
其中为线性组合的数目,同时也为p
3.判断多组多元正态分布的向量均值是否相等(方差分析:原假设),我们知道,对于一元变量的方差检验,我们通过由SSE,SSA构造F统计量:,对于多元变量,同样有SSE和SS(TR):,其中为Wilks分布。其又能转化为F分布(这种转换取决于的值)。
3. Linear Regression
3.1 Simple regression
Simple regreesion是用来对两个变量进行回归的方法,解释变量是非随机变量,被解释变量是随机变量,可以通过相关系数(Correlation)来表示,两个变量之间的线性关系强弱。
只能用以形容线性关系的强弱,不表示两个变量之间没有相关关系,比如产生的一组系列的r为0,但其存在相关关系。
一元回归的结果是:
在此基础上,我们定义残差(Residual):
一般我们使用残差最小二乘的结果,来确定一元回归的参数和。这里最小二乘,SSE为Sum of Squared Error;同时,Residual sum of squared是同一个概念。
一般我们用和来表示拟合效果的好坏,其中RMSE依赖于Y的scale,而是无量纲的。下式中(Total sum of Squares)是样本原始值和样本原始值均值的差平方:
事实上,
3.2 multi linear regression
对于多元线形回归的一般形式我们有:
求解参数的方法有多种:比如极大似然估计、贝叶斯估计(最大后验概率)。
对于Exponential family分布,最小二乘法和极大似然法是一样的。,其中,通过极大似然估计求解:
Reference
- Websites zhihu