所有学科论文分类


当前位置: 主页 > 论文范文 > 理工科类 > 理学 > 统计学 >

R软件在多元统计分析教学中的应用研究_聚类分析

时间:2016-01-01 22:42 来源:第一论文网 作者:论文网 点击:
多元统计方法已被广泛应用于自然科学和社会科学的各个领域,而在现实处理多元数据分析中,离不开统计软件的支持;R软件由于其免费、开源、强大的统计分析、及其完美的做图功能已得到越来越多人的关注与应用;本文结合实例介绍了R软件在多元统计分析中的应用,具体内容包括R软件在聚类分析、主成分分析、典型相关分析等方面的应用。

  引言:多元统计分析是统计学的一个重要分支,也称多变量统计分析;在现实生活中,受多种指标共同作用和影响的现象大量存在,多元统计分析就是研究多个随机变量之间相互依赖关系及其内在统计规律的重要学科,由于多元统计分析方法一般涉及复杂的数学理论,一般无法用手工计算,必须有计算机和统计软件的支持。

   在统计软件方面,常用的统计软件有SPSS、SAS、STAT、R、S-PLUS等。R软件是一个自由、免费、开源的软件,是一个具有强大统计分析功能和优秀统计制图功能的统计软件,现已是国内外众多统计学者喜爱的数据分析工具。本文结合实例介绍了R软件在多元统计分析中的应用,具体内容包括R软件在聚类分析、主成分分析、对应分析等方面的应用。

   一 在聚类分析教学中的应用

   聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。在社会经济领域中存在着大量分类问题,比如若对某些大城市的物价指数进行考察聚类分析,而物价指数很多,有农用生产物价指数、服务项目价指数、食品消费物价指数、建材零售价格指数等等。由于要考察的物价指数很多,通常先对这些物价指数进行分类。总之,需要分类的问题很多,因此聚类分析这个有用的工具越来越受到人们的重视,它在许多领域中都得到了广泛的应用。

   聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等,具体详见参考文献[3]。
   R软件及其相关包提供了各种聚类方法,主要是系统聚类方法、快速聚类方法、模糊聚类方法,常用的是系统聚类方法。
   R软件实现系统聚类的程序如下:
   Hclust(d,method=“complete”)
   其中d是由“dist”构成的距离结构,具体包括绝对值距离、欧氏距离、切比雪夫距离、马氏距离、兰氏距离等,默认为欧氏距离;method包括类平均法、重心法、中间距离法最长距离法最短距离法、离差平方和法等,默认是最长距离法。
   例1 下表是山东省2008年各市居民家庭平均每人全年消费性支出,利用所给数据对各市进行系统聚类。   

山东各市居民家庭平均每人全年消费性支出 元/人

地区

食品

衣着

居住

设备用品

交通通讯

文化教育

医疗保健

其它

济南

1628.16

252.86

790.11

285.64

634.83

355.54

394.37

43.9

青岛

1999.61

523.76

901.56

297.76

595.34

618.12

260.17

106.42

淄博

1691.6

372.21

844.44

300.46

494.67

580.6

370.84

102.16

枣庄

1370.59

272.95

614.3

227.52

454.73

245.93

220.88

84.2

东营

1580.86

234.17

813.58

253.12

532.19

432.05

275.3

39.1

烟台

1673.19

337.92

719.28

201.3

414.08

497.57

286.03

77.11

潍坊

1516.36

299.67

1327.72

243.72

583.04

494.65

269.82

92.95

济宁

1375.4

287.17

722.05

282.16

380.68

412.42

218.11

56.94

泰安

1412.44

225.66

567.66

257.96

411.98

450.57

177.02

70.07

威海

1684.64

517.59

759.36

227.12

424.41

565.75

444.31

77.48

日照

1451.12

351.21

562.91

208.81

457.2

332.16

182.2

37.69

莱芜

1516.22

198.94

624.72

207.03

464.06

469.35

256.53

36.33

临沂

1339.69

212.36

625.26

191.34

409.39

314.9

156.01

63.31

德州

1114.47

173.88

553.14

169.23

319.41

220.45

137.97

42.2

聊城

1146.53

182.53

566.92

186.05

317.48

332.64

155.94

54.31

滨州

1177.49

179.96

979.01

206.88

451.85

407.49

298.7

47.51

菏泽

1265.03

170.85

550.68

143.11

329.99

349.41

193.59

82.31

数据来源:《2009年山东统计年鉴》
   R语言程序如下:
 

>X<-read.delim("clipboard",header=T)
   >row.names(X)<-c("济南","青岛","淄博","枣庄","东营","烟台","潍坊","济宁","泰安","威海","日照","莱芜","临沂","德州","聊城","滨州","菏泽")
   > d<-dist(scale(X))
   >hc1<-hclust(d,"single")#最短距离法
   >hc2<-hclust(d,"complete")#最长距离法
   >hc3<-hclust(d,"median")#中间距离法
   >hc4<-hclust(d,"ward")#Ward法
   >opar<-par(mfrow=c(2,2))
   > plot(hc1,hang=-1);plot(hc2,hang=-1)
   >plot(hc3,hang=-1);plot(hc4,hang=-1)
   R软件
   由上图可以看出,不同方法的分类不完全一样,结合实际情况,最长距离法分类效果较好。

   二 在主成分分析教学中的应用

   在实际经济生活中,有时需要处理的是多变量(多指标)问题。由于变量较多,增加了分析问题的复杂性;但在实际问题中,变量之间可能存在一定的相关性,因此,多变量中可能存在信息的重叠。人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维”的思想,具体理论部分详见文献[3][4].
   R软件实现主成分分析的程序如下:
   Princomp(x,cor=FALSE,scores=TRUE,…)
   X为数据矩阵或数据框,cor为是否用相关阵,默认为协差阵,scores为是否输出成分得分。
   例2对例1中的数据进行主成分分析。
   R语言程序如下:
   >X<-read.delim("clipboard",header=T)
   >cs.pr<-princomp(X,cor=TRUE)
   >summary(cs.pr,loadings=TRUE)
   Importance ofcomponents:
   Comp.1 Comp.2Comp.3 Comp.4 Comp.5
   Standarddeviation 2.1781277 1.0415718 0.87216013 0.751881270.56230008
   Proportion ofVariance 0.5930301 0.1356090 0.09508291 0.07066568 0.03952267
   CumulativeProportion 0.5930301 0.7286390 0.82372195 0.89438763 0.93391030
   Comp.6 Comp.7 Comp.8
   Standarddeviation 0.54497439 0.45711204 0.150894344
   Proportion ofVariance 0.03712464 0.02611893 0.002846138
   CumulativeProportion 0.97103494 0.99715386 1.000000000
   Loadings:
   Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8
   食品 -0.4170.123 0.304 0.142 0.276 -0.258 0.337 0.665
   衣着 -0.3690.391 0.2500.331 -0.704 -0.203
   居住 -0.303 -0.366-0.689 -0.173 -0.195 -0.3550.323
   设备用品 -0.359 -0.217 0.187 0.526-0.611 0.293 -0.211 
   交通通讯 -0.355-0.501 0.2860.453 0.259 -0.518
   文化教育 -0.3920.214 -0.259 -0.479 -0.5680.229 -0.359
   医疗保健 -0.344 -0.185 0.216-0.695 0.5460.130 
   其它 -0.266 0.566-0.537 0.201 0.4340.288 
   说明:
   1)Standard deviation:表示主成分的标准差,即主成分的方差平方根,即相应特征值的开方;
   2)Proportion of Variance:表示方差的贡献率;
   3)Cumulative Proportion :表示方差的累计贡献率。
   4)函数summary()中loadings=TRUE选项列出了主成分对应原始变量的系数。
   由于前3个主成分的累计贡献率已经达到82.4%,所以取前3个主成分来降维。
   碎石图是一种可以帮助我们确定主成分合适个数的有用的视觉工具,将特征值从大到小排列。
   > biplot(cs.pr)
   R软件
   >screeplot(cs.pr,type=c("barplot"))
   R软件
   ? screeplot(cs.pr,type=c("lines"))
  
   由上面的图形可以看出聚类分析,取前3个主成分来降维是比较合理的。

   三 在对应分析教学中的应用

   对应分析(Correspondenceanalysis)也称关联分析、R-Q型因子分析,是近年新发展起来的一种多元相依变量统计分析技术,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。主要应用在市场细分、产品定位、地质研究以及计算机工程等领域中。原因在于,它是一种视觉化的数据分析方法,它能够将几组看不出任何联系的数据,通过视觉上可以接受的定位图展现出来,详见参考文献[4]。
   R软件实现对应分析的程序如下:
   Corresp(x,nf=1,…)
   X为表示进行对应分析的数据矩阵,nf为计算因子的个数。
   例3利用例1的数据,进行相关对应分析。
   R语言程序如下:
   >X<-read.table("clipboard",header=T)
   >row.names(X)<-c("济南","青岛","淄博","枣庄","东营","烟台","潍坊","济宁","泰安","威海","日照","莱芜","临沂","德州","聊城","滨州","菏泽")
   >library(MASS)
   >cal<-corresp(X,nf=3)
   > cal
   First canonicalcorrelation(s): 0.09498307 0.06957904 0.05853940 
   Row scores:
   [,1][,2] [,3]
   济南 -0.47699756 -0.6885595 -2.6382557
   青岛 0.96741848 0.31366371.2941896
   淄博 0.37264061 1.0081191-0.2128972
   枣庄 0.24558092 -0.9824387 -0.2181011
   东营 -0.54396185 -0.6537340 -0.7755235
   烟台 0.76059679 0.48114040.2145390
   潍坊 -2.16920121 0.90766921.3126103
   济宁 0.05826518 0.10803750.5281096
   泰安 0.58733529 -0.93058620.6652785
   威海 1.35365553 2.3737554-0.8793518
   日照 1.10047866 -0.77323670.1127328
   莱芜 0.17560188 -0.7192844 -0.9243774
   临沂 -0.08622247 -1.2358252 0.7273149
   德州 -0.37580027 -1.2772223 0.4300355
   聊城 -0.11688207 -0.4977757 0.7740150
   滨州 -2.20651738 1.0594580 -0.5584333
   菏泽 0.16551451 -0.44520240.5084064
   Column scores:
   [,1] [,2][,3]
   食品 0.52523641-0.7675569 0.02054803
   衣着1.90845510 1.6578721 0.76764420
   居住 -1.748100050.5786733 0.65009264
   设备用品 0.03597405 -0.8938313 -0.21425105
   交通通讯 -0.52356069 -1.0863547 -0.77153434
     文化教育 0.42806363 1.04009770.62909600
   医疗保健 -0.02051876 1.8098398 -3.09255548
   其它0.51837527 0.5603683 2.92565707
   >biplot(cal);abline(v=0,h=0,lty=3)
  
   由对应分析图可以看出2008年山东省各市居民消费实际情况,并可直观的划分类与层次。

   本文结合实例,介绍了R软件在多元统计分析教学中的具体应用,通过R软件的具体操作来实现多元数据分析,一方面可以加深学生对多元统计方法的理解,更好的掌握多元统计理论方法,同时还可以使学生摆脱繁琐的计算,使学生能处理实际的多元数据分析。

参考文献
[1]王斌会.多元统计分析及R语言建模[M].广州:暨南大学出版社,2010.
[2]汤银才.R语言与统计分析[M].北京:高等教育出版社,2005.
[3]高惠璇.应用多元统计分析[M].北京:北京大学出版社,2005.
[4]李卫东.应用多元统计分析[M].北京:北京大学出版社,2008.
(当前页面链接:http://www.lunwen01.com/tongjixue/20160101/1827.html)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------

最新更新

·现代信息技术在“统计与概率”课堂教学中的应
面对21世纪的挑战,学生数学能力最重要的基础之一就是现代信息技术与新的数学课程理念...
16-01-01
·利用中位数对航材统计资料
确定航材消耗定额的方法有多种多样,但一般都需要很长时间的数据积累。而利用中位数的...
16-01-01
·R软件在多元统计分析教学中的应用研究_聚类分
多元统计方法已被广泛应用于自然科学和社会科学的各个领域,而在现实处理多元数据分析...
16-01-01
·基于多元统计的科学发展与和谐社会综合评价研
:聚类分析。主成分分析。运用恰当的方法进行定量分析、综合评价。科学发展与和谐社会...
16-01-01
·浅谈我国房价中的统计问题
本文通过对2009年全国房价数据的统计来源和统计方法进行比较分析,从统计学角度提出了...
16-01-01
·民族院校概率论与数理统计教学方法研究
教师若在概率论与数理统计课程教学中进行合理的教学方法。教师要合理的采用教学方法培...
16-01-01
·概率统计中概念的对比分析
概率统计是新课程改革过程中重点加强的内容之一.有关概率统计的各种计算问题,既是中...
16-01-01
·关于进一步改革和完善贸易统计制度方法的宏观
因此今后贸易抽样调查工作的深入开展必须与调整贸易餐饮企业的限额标准结合起来一并考...
15-11-24

热门阅读

·现代信息技术在“统计与概率”课堂教学中的应
面对21世纪的挑战,学生数学能力最重要的基础之一就是现代信息技术与新的数学课程理念...
·民族院校概率论与数理统计教学方法研究
教师若在概率论与数理统计课程教学中进行合理的教学方法。教师要合理的采用教学方法培...
·浅谈我国房价中的统计问题
本文通过对2009年全国房价数据的统计来源和统计方法进行比较分析,从统计学角度提出了...
·基于多元统计的科学发展与和谐社会综合评价研
:聚类分析。主成分分析。运用恰当的方法进行定量分析、综合评价。科学发展与和谐社会...
·中国液化气进口和消费状况分析
由于韩国去年进口量减少,中国液化气进口量现已超过韩国,成为仅次于日本的亚洲第二大...
·R软件在多元统计分析教学中的应用研究_聚类分
多元统计方法已被广泛应用于自然科学和社会科学的各个领域,而在现实处理多元数据分析...
·概率统计中概念的对比分析
概率统计是新课程改革过程中重点加强的内容之一.有关概率统计的各种计算问题,既是中...
·OECD主要国家软件业发展概况
据“OECD2000年信息技术展望”报告,1997年,其成员国仅软件包产值就占世界市场份额的...
·世界银行关于中国GDP数据的调整及其存在的问
论文深入研究了世行调整中国GDP数据的原因、方法和结果,系统地阐述了90年代初以来中...
·加强企业统计工作 提高企业管理水平
统计工作是对企业实行科学管理,监督整个企业活动的重要手段,是企业制定政策和计划的...

热门标签