【摘要】數(shù)據(jù)的可視化作為一種最新的統(tǒng)計(jì)數(shù)據(jù)分析方法已經(jīng)廣泛運(yùn)用在各個(gè)領(lǐng)域中,大數(shù)據(jù)時(shí)代背景下作為非統(tǒng)計(jì)專業(yè)本科學(xué)生,掌握一門統(tǒng)計(jì)分析軟件是必要的。而利用統(tǒng)計(jì)軟件進(jìn)行可視化分析又是一項(xiàng)極為重要的必備技能。文章以R語言為基礎(chǔ),對(duì)近2020年國家政府工作報(bào)告進(jìn)行可視化分析,以期激發(fā)學(xué)生對(duì)于統(tǒng)計(jì)數(shù)據(jù)分析的興趣。
【關(guān)鍵詞】R語言;可視化;政府工作報(bào)告;統(tǒng)計(jì)教學(xué)
1軟件介紹
R軟件本質(zhì)上是一種語言,即R語言,它是在S語言的一個(gè)分支,早在上世紀(jì)80年代左右被人們所開發(fā)并使用,如今是統(tǒng)計(jì)領(lǐng)域使用極為廣泛的一種數(shù)據(jù)分析工具。它在數(shù)據(jù)探索、統(tǒng)計(jì)分析和統(tǒng)計(jì)作圖上面具有獨(dú)特的優(yōu)勢(shì),屬于一種解釋型語言。R整體上是一套集數(shù)據(jù)處理、運(yùn)算、制圖為一體的軟件系統(tǒng)。其對(duì)于數(shù)組的運(yùn)算功能尤其強(qiáng)大,所以R又可以視為一種數(shù)學(xué)計(jì)算的環(huán)境。R不僅有完整連貫的分析工具包和豐富即時(shí)的制圖包,它的編程語言還十分簡便且強(qiáng)大,用戶可以對(duì)數(shù)據(jù)進(jìn)行輸入輸出的雙向操縱、分支、循環(huán)以及自定義功能。R語言的主題思想就是給用戶提供集成化的統(tǒng)計(jì)工具,海量的數(shù)學(xué)計(jì)算、統(tǒng)計(jì)計(jì)算函數(shù),用戶可以靈活機(jī)動(dòng)進(jìn)行數(shù)據(jù)分析,更甚者可以根據(jù)需求創(chuàng)造新的統(tǒng)計(jì)計(jì)算方法并與所有使用者共享。
R能夠被廣泛使用還得益于其使用上的免費(fèi)和8個(gè)基礎(chǔ)模塊之外的CRAN板塊,CRAN已經(jīng)收錄了超4000個(gè)各類包,可用于經(jīng)濟(jì)計(jì)量、財(cái)經(jīng)分析、人文科學(xué)研究以及人工智能等諸多領(lǐng)域。
2文本數(shù)據(jù)可視化分析工具——詞云
“詞云”這個(gè)概念由美國西北大學(xué)新聞學(xué)副教授、新媒體專業(yè)主任里奇·戈登(Rich Gordon)提出?!霸~云”就是通過形成“關(guān)鍵詞云層”或“關(guān)鍵詞渲染”,對(duì)文本文件中出現(xiàn)頻率較高的“關(guān)鍵詞”的視覺上的突出。使用的R制作詞云主要包含:文本數(shù)據(jù)獲取、數(shù)據(jù)分詞處理、制圖三個(gè)部分。
3教學(xué)案例展示
第1步:文本數(shù)據(jù)獲取
將文本數(shù)據(jù)保存為txt格式存儲(chǔ),采用scan( )函數(shù)進(jìn)行文本數(shù)據(jù)的獲取,代碼如下:
f<-scan(‘C:\\\\Users\\\\Administrator.PC-20190315DIEF\\\\Desktop\\\\2020政府工作報(bào)告全文.txt,sep=‘\\n,what=‘,encoding=“GBK”)#讀取存儲(chǔ)于桌面的文件
第2步:數(shù)據(jù)分詞與統(tǒng)計(jì)詞頻
seg <- qseg[f] #使用qseg類型分詞,并把結(jié)果保存到對(duì)象seg中
seg <- seg[nchar(seg)>1]#去除字符長度小于2的詞語
seg <- table(seg)#統(tǒng)計(jì)詞頻
seg <- seg[!grepl(‘[0-9]+,names(seg))]#去除數(shù)字
seg <- seg[!grepl(‘a(chǎn)-zA-Z,names(seg))]#去除字母
length(seg)#查看處理完后剩余的詞數(shù)
seg <- sort(seg,decreasing=TRUE)[1∶200]#降序排序,并提取出現(xiàn)次數(shù)最多的前200個(gè)詞語
seg #查看200個(gè)詞頻最高的
第3步:制圖
通過data.frame( )函數(shù)將進(jìn)行分詞和統(tǒng)計(jì)詞頻后的文本數(shù)據(jù)保存為新的系統(tǒng)文件,然后利用wordcloud2函數(shù)進(jìn)行詞云制作,代碼如下:
data=data.frame(seg)
library(wordcloud2)
wordcloud2(data,size=1,minSize=0,gridSize=0,fontFamily=‘Segoe UI,fontWeight=‘bold,color=‘random-dark,backgroundColor=“white”,minRotation=-pi/4,maxRotation=pi/4,shuffle=TRUE,rotateRatio=0.4,shape=‘circle,ellipticity=0.65,widgetsize=NULL,figPath=NULL,hoverFunction=NULL)
主要參數(shù)講解:
data:需要繪制的文本數(shù)據(jù);size:字體大小,默認(rèn)為1;fontFamily:字體;color:字體顏色;backgroundColor:背景的顏色;;shape:繪制“云”的形狀。最終得到“詞云”如圖1。
4總結(jié)
統(tǒng)計(jì)學(xué)的理論基礎(chǔ)是數(shù)學(xué),分析基礎(chǔ)是“數(shù)據(jù)”。如今“大數(shù)據(jù)”時(shí)代飛速發(fā)展,每秒鐘都在產(chǎn)生海量的數(shù)據(jù),利用好這些數(shù)據(jù)是尤為重要的,通過一個(gè)簡單的文本數(shù)據(jù)可視化例子帶領(lǐng)學(xué)生脫離“死記硬背”統(tǒng)計(jì)學(xué)中的概念、公式的漩渦,提高學(xué)生的動(dòng)手欲望,養(yǎng)成大膽嘗試,用于探索數(shù)據(jù),讓數(shù)據(jù)“說話”的統(tǒng)計(jì)學(xué)學(xué)習(xí)理念。與此同時(shí),熟練掌握一門統(tǒng)計(jì)分析軟件尤為重要。作為一名非統(tǒng)計(jì)專業(yè)的學(xué)生學(xué)習(xí)統(tǒng)計(jì)學(xué)最重要的一個(gè)目標(biāo)就是:能夠?qū)?shù)據(jù)分析結(jié)果呈現(xiàn)出來,并且結(jié)合相關(guān)專業(yè)領(lǐng)域進(jìn)行結(jié)果的解釋。
參考文獻(xiàn):
[1]中國政府網(wǎng).2020年政府工作報(bào)告全文[A/OL].http://china.findlaw.cn/fagui/p-1/39934.html.
[2]張杰.R語言數(shù)據(jù)可視化之美[M].北京:電子工業(yè)出版社,2019.
作者簡介:
楊杰(1991-),男,四川眉山人,碩士研究生,初級(jí)統(tǒng)計(jì)師,研究方向:應(yīng)用統(tǒng)計(jì)分析。