0. 一元统计量

  常用的一元假设检验:

  1. 方差已知,判断一组变量均值是否相等假设:U检验,

  2. 方差未知,判断一组变量是否等于假设:t检验:(wiki关于方差分析和t检验区别的描述:ANOVA is conceptually similar to multiple two-sample t-tests, but is more conservative (results in less type I error) and is therefore suited to a wide range of practical problems.)

  3. 方差相等且未知的两个样本之间:t检验:,其中

  4. 均值已知,判断方差是否与假设相等:卡方检验,

  5. 均值未知,判断方差是否与假设相等:卡方检验,

  6. 未知的两个正态母体,检验其方差是否相等:F检验,,其中

  相关系数:

  其中:

1. What is multivariate normal distribution?

  首先我们知道,标准正态分布的概率密度函数为:

  对于一个一般的正态分布X,由,我们可以由“随机变量的变换”得到X的密度函数:

  到此,我们讨论的范畴还局限于一元正态分布,我们假设存在随机向量,独立同分布于N(0,1);由相互独立的假设,我们可以知道,其概率分布为

  Z的均值为,协方差矩阵为(非对角线元素因为相互独立,协方差为0),即为

  同样,我们进行变换,其中为p维常数向量,为p阶非退化矩阵。由此,得到一般多元正态分布的密度函数、均值、方差;其中均值为u,方差为,记作。其中多元正态分布的密度函数为:

  需要注意,以上的结论的假设,多元变量之间相互独立;对于正态分布,如果相关系数(协方差)为0,则相互独立。

2. 多元正态分布的性质、参数估计

2.1 多元正态分布的性质

线性组合性质。某组向量服从多元正态分布,把它看作一个个体,则其与常数(向量或矩阵)的线性组合扔服从多元正态分布(维度未必为原始的p);其与同维度的多元正态分布的个体的线性组合仍服从多元正态分布,且维度仍为p。

  对于单个多元正态分布,,则向量或矩阵的乘积:满足的分布:.

  对于多个多元正态分布:

条件分布。对于多元正态分布,假设其维度为p,如果已知其中部分维度(比如后p-q维)已知,求剩下未知维度的分布,叫做条件分布。首先,前q维称作,后p-q维称为,如果要求的分布,则第一步要对进行分割:

  之后,可以给出条件分布的计算公式:

偏相关系数则可以在条件概率分布的基础上进行计算,比如,已经计算出来的条件概率的协方差矩阵为:

  则,在已知的情况下,的偏相关系数为:

复相关系数,一般用来衡量第一个变量与剩余变量的线性函数的最大相关系数,由于q=1,所以之前的分割符号稍作修改:

  然后给出复相关系数的计算:

边际分布,是指对于多维随机变量,只包含其中部分变量的概率分布(比如对于p维多元正态分布,其前m个维度的边际分布,为直接忽略后p-m个维度)。比如对于随机变量

2.2 多元正态分布的参数估计与假设检验

  参数估计,即根据样本数据来估计出多元正态分布的分布(均值与协方差矩阵)。分别是的极大似然估计,分别是的无偏估计(期望相等),有效估计(无偏估计中方差最小的)。其中V是样本协方差矩阵,A是样本离差矩阵。离差矩阵的计算如下:

  相关系数矩阵的计算是基于离差矩阵A或协方差矩阵的(的元素):

  关于离差矩阵的三条性质:1),其中为Wishart分布,Wishart分布是分布的推广,2)是相互独立的,3),是正定矩阵的充要条件是

  多元正态分布的假设检验与一元问题的相似,但围绕的重点主要是均值向量的检验(分为与假设值是否相等,两组正态多元分布的均值向量是否相等)。

  1.协方差矩阵已知,判断均值向量与假设量是否相等,构造统计量:

  2.协方差矩阵未知,判断均值向量与假设量是否相等,需要通过两步来构造统计量,第一步类似于上式:

  其中是Hotelling分布(一般地,对于);第二步把hotellling 统计量转换为我们熟悉的F分布:

  根据上述hoteling分布,以及转化为F分布的方法可以得出基于的联合置信区域:

  其中a是任意的,取无穷,只有理论意义;除了基于联合的置信区域外,还有一种置信区域精度更严格的方法:邦弗伦尼置信区域:

  其中为线性组合的数目,同时也为p

  3.判断多组多元正态分布的向量均值是否相等(方差分析:原假设),我们知道,对于一元变量的方差检验,我们通过由SSE,SSA构造F统计量:,对于多元变量,同样有SSE和SS(TR):,其中为Wilks分布。其又能转化为F分布(这种转换取决于的值)。

3. Linear Regression

3.1 Simple regression

  Simple regreesion是用来对两个变量进行回归的方法,解释变量是非随机变量,被解释变量是随机变量,可以通过相关系数(Correlation)来表示,两个变量之间的线性关系强弱。

只能用以形容线性关系的强弱,不表示两个变量之间没有相关关系,比如产生的一组系列的r为0,但其存在相关关系。

  一元回归的结果是:

  在此基础上,我们定义残差(Residual):

  一般我们使用残差最小二乘的结果,来确定一元回归的参数。这里最小二乘,SSE为Sum of Squared Error;同时,Residual sum of squared是同一个概念。

  一般我们用来表示拟合效果的好坏,其中RMSE依赖于Y的scale,而是无量纲的。下式中(Total sum of Squares)是样本原始值和样本原始值均值的差平方:

  事实上,

3.2 multi linear regression

  对于多元线形回归的一般形式我们有:

求解参数的方法有多种:比如极大似然估计、贝叶斯估计(最大后验概率)。

对于Exponential family分布,最小二乘法和极大似然法是一样的。,其中,通过极大似然估计求解:

Reference

  1. Websites zhihu