多元统计分析期末试题(卷)与答案解析
22 1 2 1 21 2 1 21~ ( , ), ( , ), ( , ), ,1X N X x xx x x x 1、设 其中则Cov( , )=____.
10312 ~ ( , ), 1, ,10, ( )( )_________i i iiX N i W X X 、设 则 =服从 。
1 2 34 4 33 , 4 9 2 ,3 2 16___________________X x x xR 、设随机向量 且协方差矩阵则它的相关矩阵
4、
__________,
__________,
________________。
2 15 , 1, ,16 ( , ), ( , )15[4( )] [4( )]~ ___________i p pX i N X A NT X A X 、设 是来自多元正态总体 和 分别为正态总体的样本均值和样本离差矩阵,则 。
,1 2 3设X= x x x 的相关系数矩阵通过因子分析分解为21 1X h 的共性方差1 11X 的方差21X g 1公因子f对 的贡献1 213 30.934 0 0.1280.934 0.417 0.83511 0 0.417 0.894 0.0270 0.894 0.447 30.835 0.447 0.10320 13R
1 2 3 32 31 3116 4 21 ( , , ) ~ ( , ), (1,0, 2) , 4 4 1 ,2 1 42X x x x Nx xx xx 、设 其中试判断 与 是否独立? 1 12 6 2(90,58,16) ,82.0 4.3107 14.6210 8.946460.2 ,(5 ) ( 115.6924) 14.6210 3.172 37.14.5X S 0、对某地区农村的 名 周岁男婴的身高、胸围、上半臂围进行测量,得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值 现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。其中0.01 0.01 0.0137608.9464 37.3760 35.5936( 0.01, (3,2) 99.2, (3,3) 29.5, (3,4) 16.7) F F F
1 2 1 241 22 4 1 136 2 1 90.5, (21) , (12)35q q C e C eBayes X 1 2、设已知有两正态总体G 与G ,且 , , ,而其先验概率分别为 误判的代价 ;试用 判别法确定样本 属于哪一个总体?
1 2 3 4 411( , , , ) ~ (0, ) ,0 111TX X X X X N 4、设 ,协方差阵
(1) 试从Σ出发求 X 的第一总体主成分; (2) 试问当
取多大时才能使第一主成分的贡献率达 95%以上。
1 2 1 211 1221 225 ( , ) , ( , ) ,100 0 0 00 1 0.95 0( )0 0.95 1 00 0 0 100T TXX X X Y Y X ZYZ 、设 为标准化向量,令 且其协方差阵V ,求其第一对典型相关变量和它们的典型相关系数? 1 ,( )XE XX 、设随机向量 的均值向量、协方差矩阵分别为 、试证:
。
"2 ~ ( , ), ,~ ( , )PrX NN A b A A r p r 1、设随机向量 又设Y=A X+b试证:Y 。
1 1 、 0
2 、W W 3 3 ( 10 ,∑)
3 3 、2 113 42 113 61 114 6R
4 4 、 0.872
1
1.743
5 5 、T T2 2 ( 15 ,p p )或(1 1 5p/(16- - p) )F F (p p ,n n- -p p)
)
2 31 2 1 312 3 111 221 3 312121 , 2 ,1 0 02 1 0 21 21 0 0 0 11 0 2 2 316 4 21 0 01 0 2x xy y x xxx x xyx xyx x xyEyyVy 、令 则0 1 -10 1 -10 1 -11 2 34 4 1 1 0 02 1 4 1 0 210 6 166 16 2016 20 402 10 6 16( 1 , 6 16 20 )3 16 20 40y y N 0 1 -1故 , 的联合分布为故不独立。
0 1 001 12 10 00.02 : :8.02.2 ,1.54.3107 14.6210 8.9464(23.13848) 14.6210 3.172 37.37608.9464 37.3760 35.5936( ) ( )6 70.0741 420.445H HXST n X S XF 0、假设检验问题:
,经计算可得:构造检验统计量:由题目已知10 01 0.01(3,3) 29.53 5(3,3) 147.530.012T FH 2.0,由是所以在显著性水平 下,拒绝原设即认为农村和城市的 周岁男婴上述三个指标的均值有显著性差异
111 2 1 2211 2 1 23 321( )( ) exp[( ) ( )] exp(4 2 4)( )3 9 1 2 4 21 1ˆ( ) , ,( )4 1 1 6 2 4 2 83(1|2), ( ) exp(2)5 (2|1)35TBayesf xW x x x xf xq Cd e W x d eqCX 3、由 判别知其中,2G
1213411 2 3114 0 1 3 ,111110111 1 1 12 2 2 21 1 12 2 2xxxxZ X X X 12 3 4、(1)由 得特征根为解 所对应的方程得 所对应的单位特征向量为故得第一主成分411121 395%40.95 4 10.9333X 2 3 4(2)第一个主成分的贡献率为得
1 12 211 221 112 211 12 22 21 11221 20.1 0 1 0,0 1 0 0.10.1 0 0 0 1 0 0 0.95 0.1 0 0 00 1 0.95 0 0 0.01 0 0 0 1 0 0.902500 0.90250 0.90250.9025,TTTTTT - -- -5、由题得 = ==求 的特征值,得211 1121 11 11 11 1 22 21 11 2 1 11 10 0.950 00.9025 ,0 0.90250.1 0 0 00 1 1 11 0 0 0.95 0 110 0.1 0 0 1 0 0.95, 0.54, 0.95TTTe eeV X W YV W 的单位正交化特征向量为第一典型相关变量,且( )
为一对典型相关系数。1 ( ) [( )( ) ]( ) ( )( )( )( )V X E X EX X EXE XX EX EXE XXE XX 、证明:
=故
""2( ) ( ) ( )( ) ( ) ( )~ ( , )rYE Y E AX b AE X bA bV Y V AX b AV X AA AY N A b A A 、证明:由题可知 服从正态分布,故 。
一、填空题:
1 1 、多元统计分析是运用
数理统计
方法来研究解决
多指标
问题的理论和方法 方法. .
2 2 、 回归参数显著性检验是检验
解释变量
对
被解释变量
的影响是否著 的影响是否著. .
3 3 、聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为
Q Q 型
聚类和
R R 型
聚类。
聚类。
4 4 、相应分析的主要目的是寻求列联表
行因素 A
和
列因素 B
的基本分析特征和它们的最优联立表示。
征和它们的最优联立表示。
5 5 、因子分析把每个原始变量分解为两部分因素:一部分为
公共因子
,另一
部分为
特殊因子
。
。
6 6 、若( )( , ),Px N =1,2,3 … .n 且相互独立,则样本均值向量 x 服从的分布为_ _ x ~N( μ,Σ /n)_。
。
二、简答 1、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。
在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。
出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。
2、简述相应分析的基本思想。
相应分析,是指对两个定性变量的多种水平进行分析。设有两组因素 A A 和 B B ,其中因素 A A 包含 r r 个水平,因素 B B 包含 c c 个水平。对这两组因素作随机抽样调查,得到一个 rc 的二维列联表,记为
。要寻求列联表列因素 A A 和行因素 B B 的基本分析特征和最优列联表示。相应分析即是通过列联表的转换,使得因素 A 和因素 B B 具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素 A A 、B B 的联系。
的联系。
3、简述费希尔判别法的基本思想。
从 从 k k 个总体中抽取具有 p p 个指标 的样品观测数据,借助方差分析的思想构造一个线性判别函数 个线性判别函数
系数:
系数:
确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的 p p 个指标值代入线性判别函数式中求出
值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。
可以判别新的样品属于哪个总体。
5、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设
和 H1; ;
第二,给出检验的统计量及其服从的分布; 第二,给出检验的统计量及其服从的分布;
第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 域;
第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。
受)。
协差阵的检验 检验0 Σ Σ
0 pH Σ I :
/2/2 1exp2npn etrn S S
0 0 pH Σ Σ I :
/2/2* *1exp2npn etrn S S
检验1 2 k Σ Σ Σ0 1 2 kH Σ Σ Σ :
统计量/2 /2/2 /21 1iik kn npn npk i ii in n S S
6 6 、在进行系统聚类分析时 ,不同的类间距离计算方法有何区别?请举例说明。
设 d d ij 表示样品 X i 与 X j 之间距离,用 D D ij 表示类 G i 与 G j 之间的距离。
之间的距离。
(1 1 )
. 最短距离法 最短距离法
,mini k j rkr ijX G X GD d min{ , }kp kqD D
(2 2)最长距离法 )最长距离法
,maxi p j qpq ijX G X GD d
,maxi k j rkr ijX G X GD d max{ , }kp kqD D
(3 3)中间距离法 )中间距离法
其中
(4 4)重心法 )重心法
2( )( )pq p q p qD X X X X
) (1q q p prrX n X nnX
2 2 2 22p q p qkr kp kq pqr r rn n n nD D D Dn n n (5 5)类平均法 )类平均法
2 21i p j jpq ijX G X Gp qD dn n
2 21i k j rkr ijX G X Gk rD dn n 2 2 p qkp kqr rn nD Dn n
(6 6)可变类平均法 )可变类平均法
ijG X G Xijd Dj j i i ,min
2 2 2 22121pq kq kp krD D D D
2 2 2 2(1 )( )p qkr kp kq pqr rn nD D D Dn n
其中 b b 是可变的且 b b
<1 <1
(7 7)可变法 )可变法
2 2 2 21( )2kr kp kq pqD D D D
其中 b b 是可变的且 b b
<1 <1
(8 8 )离差平方和法
1( ) ( )tnt it t it ttS X X X X
2 2 2 2 k p k qkkr kp kq pqr k r k r kn n n nnD D D Dn n n n n n
7 7 、比较主成分分析与因子分析的异同点。相同点:①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。
主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。
9、进行相应分析时在对因素 A 和因素 B 进行相应分析之前没有必要进行独立性检验?为什么? 有必要,如果因素 A A 和因素 B B 独立,则没有必要进行相应分析;如果因素 A A 和因素 B B不独立,可以进一步通过相应分析考察两因素各个水平之间的相关关系。