侯縣平 成都信息工程大學(xué)物流學(xué)院
描述性統(tǒng)計(jì)是對數(shù)據(jù)的大小、離散程度、分布形狀等概括性數(shù)據(jù)進(jìn)行計(jì)算,用以描述和發(fā)現(xiàn)數(shù)據(jù)的特征,從而為后續(xù)的進(jìn)一步數(shù)據(jù)分析做好準(zhǔn)備,是統(tǒng)計(jì)學(xué)課程必須掌握的基礎(chǔ)性內(nèi)容。然而,描述性統(tǒng)計(jì)的計(jì)算較為繁瑣,而R語言是一款免費(fèi)的統(tǒng)計(jì)軟件,能夠方便快捷的進(jìn)行統(tǒng)計(jì)分析,滿足個(gè)性化、多樣化的統(tǒng)計(jì)需求[1,2]。借助于R語言進(jìn)行描述性統(tǒng)計(jì)教學(xué),簡單易學(xué),容易理解,能夠提高計(jì)算效率,提升學(xué)生的學(xué)習(xí)興趣,提高教學(xué)效果。本文以具體數(shù)據(jù)為例,分析如何通過R語言來進(jìn)行描述性統(tǒng)計(jì)的教學(xué)。
本文以car包中[3]的Mroz數(shù)據(jù)集為例進(jìn)行分析。Mroz數(shù)據(jù)集是對美國已婚婦女勞動(dòng)力參與就業(yè)的收入調(diào)查,包含753個(gè)觀測值,8個(gè)指標(biāo)。Mroz數(shù)據(jù)集的前6行如表1所示,實(shí)現(xiàn)代碼如下:
表1 Mroz數(shù)據(jù)集
表1中,1-6為序號(hào),lfp指是否參與就業(yè),k5指5歲及以下孩子的數(shù)量,k618指6至18歲孩子的數(shù)量,age指年齡,wc指妻子是否接受過大學(xué)教育,hc指丈夫是否接受過大學(xué)教育,lwg指期望的工資水平,inc指除妻子收入外的家庭收入。
數(shù)據(jù)水平就是指數(shù)據(jù)的大小,描述水平的統(tǒng)計(jì)量主要有均值、中位數(shù)、四分位數(shù)等。在R語言中,可以輕松的計(jì)算這些統(tǒng)計(jì)量。下文的計(jì)算是針對lwg進(jìn)行的,如果要計(jì)算inc,則將lwg替換為inc即可。
描述數(shù)據(jù)的差異的統(tǒng)計(jì)量主要有極差、四分位差、方差和標(biāo)準(zhǔn)差,這些統(tǒng)計(jì)量用以反映數(shù)據(jù)的離散程度。
數(shù)據(jù)的分布可以通過直方圖來觀察,并與正態(tài)分布做比較。通過偏度系數(shù)和峰度系數(shù)測度數(shù)據(jù)分布的不對稱性和峰值高低。lwg的直方圖及正態(tài)分布曲線如圖1所示。
圖1 lwg的直方圖及正態(tài)分布曲線
有時(shí)候需要對數(shù)據(jù)進(jìn)行綜合描述,希望一次性得到多個(gè)統(tǒng)計(jì)量,則可以通過下面的方式實(shí)現(xiàn)。
或者,一次性想得到若干變量的統(tǒng)計(jì)結(jié)果,則可以運(yùn)行如下代碼,結(jié)果見表2.
表2 lwg和inc的描述統(tǒng)計(jì)
如果想對多個(gè)變量進(jìn)行分組描述統(tǒng)計(jì),則無需繁瑣的逐步進(jìn)行,用下面的方式非常方便,結(jié)果見表3。
表3 基于lfp和wc分組的lwg和inc的分組描述統(tǒng)計(jì)
甚至可以編寫自己的函數(shù)來進(jìn)行描述性統(tǒng)計(jì),從而滿足個(gè)性化的統(tǒng)計(jì)需求。
從以上分析中可以看出,R語言是一款優(yōu)秀的統(tǒng)計(jì)軟件,可以輕松實(shí)現(xiàn)編程,能夠方便快捷地實(shí)現(xiàn)個(gè)性化的統(tǒng)計(jì)需求。將R語言應(yīng)用于教學(xué),能夠較好的激發(fā)學(xué)生的學(xué)習(xí)興趣和動(dòng)力,提高學(xué)生動(dòng)手實(shí)踐的積極性和能力。