劉一粟,沙晉明,金 彪,2
1(福建師范大學(xué) 地理科學(xué)學(xué)院,福州 350007)
2(福建師范大學(xué) 軟件學(xué)院,福州 350108)
21世紀(jì)以來(lái),新一代信息化測(cè)度持續(xù)發(fā)展,其理論與實(shí)踐都有了新的進(jìn)步.現(xiàn)有信息化水平測(cè)度體系多為多級(jí)指標(biāo),指標(biāo)選取與各級(jí)指標(biāo)權(quán)重的確定是一個(gè)不可忽視的問(wèn)題.2015年,歐盟設(shè)計(jì)了一套測(cè)度歐洲數(shù)字經(jīng)濟(jì)與社會(huì)進(jìn)步的指標(biāo)體系——?dú)W洲數(shù)字經(jīng)濟(jì)與社會(huì)進(jìn)步指數(shù)(DESI),跟隨社會(huì)發(fā)展,測(cè)度范圍進(jìn)行了調(diào)整和擴(kuò)展[1].馬巖等使用層次分析法和專家打分法(德?tīng)柗品?確定指標(biāo)權(quán)重[2],使用專家打分法并通過(guò)增加專家與問(wèn)卷發(fā)放數(shù)量來(lái)提高準(zhǔn)確度[3,4];馬增林等使用波拉特法測(cè)度黑龍江農(nóng)業(yè)信息化水平,實(shí)際測(cè)度使用三個(gè)信息部門(mén)比重類指標(biāo)[5];朱婕、岳毅蒙等使用熵權(quán)法確定指標(biāo)權(quán)重,而指標(biāo)選取是通過(guò)綜合現(xiàn)有研究,總結(jié)分類得出[6,7];灰色關(guān)聯(lián)動(dòng)態(tài)分析法可以得出影響信息化水平發(fā)展指標(biāo)的重要性排序及其時(shí)空動(dòng)態(tài)變化[8];模糊綜合評(píng)價(jià)法是一種確定指標(biāo)權(quán)重的有效方法,其中選擇基準(zhǔn)指標(biāo)是關(guān)鍵環(huán)節(jié)[9];國(guó)家信息中心的全國(guó)信息社會(huì)發(fā)展指標(biāo)指標(biāo)考慮全面,分級(jí)科學(xué),曾應(yīng)用在全球信息社會(huì)發(fā)展水平測(cè)度上[10].
新一代信息化水平測(cè)度指標(biāo)體系在調(diào)整、擴(kuò)展測(cè)度范圍的同時(shí),指標(biāo)選取與權(quán)重確定仍是一個(gè)對(duì)測(cè)度結(jié)果科學(xué)性、準(zhǔn)確性有直接影響的重要因素.廣泛搜集已有指標(biāo)體系,綜合選取指標(biāo)從廣度上保證了指標(biāo)的全面性;使用專家打分法并增加調(diào)查問(wèn)卷發(fā)放數(shù)量,能直接、便捷的借鑒已有經(jīng)驗(yàn),但在指標(biāo)保留與刪除、具體權(quán)重確定等在客觀性上有所缺失,亟需定量的數(shù)理方法參與到這一過(guò)程中來(lái),以得出合理可靠、科學(xué)嚴(yán)謹(jǐn)?shù)男畔⒒綔y(cè)度指標(biāo)體系.
國(guó)家信息中心隸屬于國(guó)家發(fā)展和改革委員會(huì),科研經(jīng)驗(yàn)豐富,指標(biāo)框架設(shè)計(jì)合理,在數(shù)據(jù)獲取方面有得天獨(dú)厚的條件,頗具權(quán)威性,因此考慮借鑒此課題的指標(biāo)選取與整體框架,綜合十套信息化水平測(cè)度指標(biāo)體系,進(jìn)一步進(jìn)行修正,在具體指標(biāo)選取、權(quán)重確定中采用更多的數(shù)理方法,使相關(guān)指標(biāo)及其權(quán)重的確定更具有說(shuō)服力.
信息化水平測(cè)度指標(biāo)體系的修正需要大量、準(zhǔn)確的數(shù)據(jù)作為支撐.為保證研究的科學(xué)性與準(zhǔn)確性,本文選取國(guó)家權(quán)威部門(mén)發(fā)布的統(tǒng)計(jì)數(shù)據(jù),主要包括《中國(guó)統(tǒng)計(jì)年鑒2016》[11]、《中國(guó)科技年鑒2016》[12]與《中國(guó)信息年鑒2016》[13].
為使不同指標(biāo)數(shù)據(jù)均具可比性與同趨化,需進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化.考慮到統(tǒng)計(jì)數(shù)據(jù)分布特征,采用maxmin標(biāo)準(zhǔn)化方法得出原統(tǒng)計(jì)數(shù)據(jù)的正向標(biāo)準(zhǔn)化數(shù)據(jù),公式如下:
式中,xik為第k地區(qū)第i個(gè)指標(biāo)的統(tǒng)計(jì)值,n為指標(biāo)個(gè)數(shù).
本文以現(xiàn)有諸多信息化水平測(cè)度指標(biāo)體系為基礎(chǔ),利用詞云分析、相關(guān)系數(shù)、變異系數(shù)遞進(jìn)式篩選指標(biāo),指標(biāo)分類后進(jìn)行類別內(nèi)部因子分析,確定指標(biāo)體系,使用3種客觀賦權(quán)法確定各指標(biāo)權(quán)重,最后計(jì)算各地區(qū)綜合排名、得分并對(duì)整體過(guò)程進(jìn)行總結(jié)分析.
綜合現(xiàn)有十套信息化測(cè)度指標(biāo)體系,得到186個(gè)指標(biāo),利用詞云分析提取關(guān)鍵詞并計(jì)算其出現(xiàn)頻率,能直觀顯示出186個(gè)指標(biāo)中被頻繁提及的指標(biāo).根據(jù)谷尼輿情圖悅picdata.cn熱詞分析工具分析得出熱詞圖詞頻與權(quán)重圖、關(guān)鍵詞詞頻表.
圖1 熱詞詞頻與權(quán)重圖
關(guān)鍵詞詞頻顯示,人均、比重這一類次詞頻最高,說(shuō)明大多體系都包含了比值類相對(duì)指標(biāo).以具有權(quán)威性的國(guó)家信息中心發(fā)布的信息社會(huì)評(píng)測(cè)指標(biāo)為主,綜合以上詞頻圖,從十份信息化指標(biāo)體系的186個(gè)指標(biāo)中初步選取42個(gè)指標(biāo)(見(jiàn)表1),并從以上年鑒中提取、計(jì)算出這些指標(biāo)在全國(guó)31個(gè)省市區(qū)(不包括港、澳、臺(tái))的具體值.
表1 關(guān)鍵詞詞頻表
統(tǒng)計(jì)數(shù)據(jù)不同指標(biāo)間可能具有較強(qiáng)的相關(guān)性,與其他指標(biāo)相關(guān)性較大的即視為冗余指標(biāo),可通過(guò)相關(guān)系數(shù)的計(jì)算予以剔除.計(jì)算42個(gè)指標(biāo)間的相關(guān)系數(shù),第i個(gè)指標(biāo)和第j個(gè)指標(biāo)的相關(guān)系數(shù)rij的計(jì)算公式:
式中,k為所考慮地區(qū);i、j為不同指標(biāo)(相同指標(biāo)相關(guān)系數(shù)為1);p為研究單元數(shù)量(本文中m=31).
相關(guān)系數(shù)說(shuō)明指標(biāo)間差異性,變異系數(shù)可說(shuō)明指標(biāo)內(nèi)部數(shù)據(jù)的離散程度,一般認(rèn)為,離散程度過(guò)小的指標(biāo),對(duì)不同地區(qū)間差異性的描述意義不大[14-16].對(duì)經(jīng)相關(guān)系數(shù)分析后剩余的34個(gè)指標(biāo)進(jìn)行變異系數(shù)分析,以進(jìn)一步簡(jiǎn)化指標(biāo)體系:
式中,sk表示xik的樣本標(biāo)準(zhǔn)差,k表示具體指標(biāo)表示k指標(biāo)在i單元具體值的算數(shù)平均值.
表2 詞云分析指標(biāo)選取結(jié)果
綜合考慮變異系數(shù)與相關(guān)系數(shù),相關(guān)系數(shù)大于0.8說(shuō)明兩組數(shù)據(jù)相關(guān)性強(qiáng)、大于0.9說(shuō)明兩組數(shù)據(jù)相關(guān)性極強(qiáng).計(jì)算42個(gè)指標(biāo)內(nèi)部?jī)蓛上嚓P(guān)系數(shù)、每個(gè)指標(biāo)與其他42個(gè)指標(biāo)相關(guān)系數(shù)范圍,進(jìn)而分別統(tǒng)計(jì)41個(gè)指標(biāo)中,與目標(biāo)指標(biāo)相關(guān)系數(shù)大于0.8、0.9的個(gè)數(shù),用Co1、Co2表示,此結(jié)果越大,說(shuō)明該指標(biāo)越能被其他指標(biāo)說(shuō)明,即其冗余性越高,考慮予以刪除.變異系數(shù)度量總體相對(duì)變異性,作為一個(gè)無(wú)量綱數(shù)可以表征總體內(nèi)部離散性.變異系數(shù)過(guò)小(本文取0.15),說(shuō)明該指標(biāo)在研究區(qū)內(nèi)的區(qū)分度較小,考慮刪除指標(biāo).綜合變異系數(shù)(Cv)與相關(guān)系數(shù)的結(jié)果,刪除指標(biāo)如表3所示.
表3 初步刪除指標(biāo)一覽表
參照國(guó)家信息中心所制定的信息社會(huì)評(píng)價(jià)指標(biāo)體系,將剩余25個(gè)指標(biāo)分為4類,在組內(nèi)分別進(jìn)行因子分析,以進(jìn)一步簡(jiǎn)化指標(biāo).
(1)KMO檢驗(yàn)
標(biāo)準(zhǔn)化后的數(shù)據(jù)能否進(jìn)行因子分析需先進(jìn)行KMO檢驗(yàn):
M:所有變量?jī)蓛芍g(不包括變量與自身)的偏相關(guān)系數(shù)的平方和;
X和Y的偏相關(guān)系數(shù):X和Z線性回歸得到的殘差RY與Y和Z線性回歸得到的殘差RY之間的簡(jiǎn)單相關(guān)系數(shù),Z代表其他所有的變量[17];
N:所有變量?jī)蓛芍g(不包括變量與自身)相關(guān)系數(shù)的平方和.
當(dāng)所有變量間的簡(jiǎn)單相關(guān)系數(shù)平方和遠(yuǎn)遠(yuǎn)大于偏相關(guān)系數(shù)平方和時(shí),KMO值接近1.KMO值越接近于1,說(shuō)明變量間的相關(guān)性越強(qiáng),原有變量越適合作因子分析[18,19];反之亦然.對(duì)四類指標(biāo)分別進(jìn)行檢驗(yàn)的結(jié)果如表4.
表4 分類別檢驗(yàn)表
4類KMO值均大于0.6,適宜進(jìn)行因子分析.
(2) 因子分析
因子分析可在SPSS中進(jìn)行,對(duì)其結(jié)果進(jìn)行整理分析四類指標(biāo)分別提取兩個(gè)主成分,都可表達(dá)原數(shù)據(jù)85%以上的信息率,旋轉(zhuǎn)成份載荷矩陣各因子貢獻(xiàn)率在0.9以上的多個(gè)指標(biāo)能表示出原數(shù)據(jù)絕大部分的信息[20],其余指標(biāo)對(duì)整體貢獻(xiàn)過(guò)小,相當(dāng)于冗余信息,刪除這一類指標(biāo)對(duì)于指標(biāo)體系整體的簡(jiǎn)潔、高效具有重要意義,故以載荷矩陣因子貢獻(xiàn)率0.9作為閾值進(jìn)一步篩選指標(biāo).
客觀賦權(quán)法是根據(jù)數(shù)據(jù)特點(diǎn)進(jìn)行賦權(quán),排除了人工干擾,能夠得出各指標(biāo)科學(xué)、準(zhǔn)確的權(quán)重[21],常用的客觀賦權(quán)法有標(biāo)準(zhǔn)離差法、CRITIC法與熵權(quán)法.
指標(biāo)標(biāo)準(zhǔn)差越大,說(shuō)明其指標(biāo)值的變異程度越大,提供的信息量越大,在綜合評(píng)價(jià)中所起的作用越大,則其權(quán)重也越大,反之亦然[22].利用標(biāo)準(zhǔn)差計(jì)算權(quán)重的公式為:
式中,wj表示j指標(biāo)在指標(biāo)體系中的權(quán)重;δj表示xi的標(biāo)準(zhǔn)差;xi表示j指標(biāo)在各研究單元的具體值表示j指標(biāo)具體值的算數(shù)平均值;m表示研究單元數(shù)量(本文中m=31);n表示指標(biāo)個(gè)數(shù).
表5 因子分析保留指標(biāo)
基于指標(biāo)相關(guān)性的指標(biāo)權(quán)重確定方法(criteria importance through inter-criteria correlation)由Diakoulaki提出[23],其中對(duì)比強(qiáng)度表示同一個(gè)指標(biāo)各個(gè)評(píng)價(jià)方案之間取值差異的大小,標(biāo)準(zhǔn)差越大,不同方案之間取值差異越大;評(píng)價(jià)指標(biāo)之間的沖突性以指標(biāo)間的相關(guān)性為基礎(chǔ),兩個(gè)指標(biāo)之間相關(guān)性越強(qiáng),沖突性越弱,第j個(gè)指標(biāo)與其他指標(biāo)沖突性的量化公式為:
式中,Cj表示j指標(biāo)包含的信息量;δj表示公式(5)中的計(jì)算結(jié)果;rij表示指標(biāo)i、j間的相關(guān)系數(shù),具體計(jì)算參照公式(2);n表示指標(biāo)個(gè)數(shù).
Cj越大,j指標(biāo)包含的信息量越大,該指標(biāo)的相對(duì)重要性也就越大,相應(yīng)權(quán)重為:
式中,Wj表示j指標(biāo)在指標(biāo)體系中的權(quán)重;Cj表示公式(6)計(jì)算結(jié)果;n表示指標(biāo)個(gè)數(shù).
熵權(quán)法是目前社會(huì)學(xué)、地理學(xué)、信息論各學(xué)科常用的一種客觀賦權(quán)法,指標(biāo)信息熵與變異程度呈負(fù)相關(guān)關(guān)系,信息熵越小,變異程度越大,包含的信息量越大,對(duì)綜合評(píng)價(jià)的影響越大,反之亦然[24].熵值計(jì)算公式為:
式中,m表示研究單元數(shù)量(本文中m=31);n表示指標(biāo)個(gè)數(shù);dij表示j指標(biāo)標(biāo)準(zhǔn)化后的具體值時(shí),
式中,Ej為公式(8)中的計(jì)算結(jié)果;n表示指標(biāo)個(gè)數(shù).
3種客觀賦權(quán)法得出綜合得分與排名情況如圖2和圖3.
由相關(guān)系數(shù)按順序計(jì)算熵權(quán)法與標(biāo)準(zhǔn)離差法、熵權(quán)法與CRITIC法、標(biāo)準(zhǔn)離差法與CRITIC的得分、排名折線圖的擬合度,可得以上曲線的擬合程度.
圖2 全國(guó)信息化水平得分圖
圖3 全國(guó)信息化水平排名圖
表6 結(jié)果擬合程度表
可知,擬合度全部在90%以上,最高達(dá)99.6%,說(shuō)明客觀賦權(quán)法所得權(quán)重與結(jié)果較為科學(xué)準(zhǔn)確,能通過(guò)統(tǒng)計(jì)數(shù)據(jù)刻畫(huà)全國(guó)31個(gè)省市區(qū)的信息化發(fā)展水平.
本文立足于2015年國(guó)家統(tǒng)計(jì)數(shù)據(jù)及現(xiàn)有十套信息化水平測(cè)度指標(biāo)體系,針對(duì)信息化測(cè)度指標(biāo)選取與權(quán)重確定兩大關(guān)鍵環(huán)節(jié)進(jìn)行了修正與重建.收集現(xiàn)有指標(biāo)或者依據(jù)自身經(jīng)驗(yàn)判斷直接篩選指標(biāo),存在較大主觀性,針對(duì)這一問(wèn)題,文中采用了詞云分析的方法,通過(guò)關(guān)鍵詞詞頻篩選指標(biāo),使指標(biāo)選取結(jié)果更為客觀,進(jìn)而使用遞進(jìn)式方法繼續(xù)篩選指標(biāo),利用相關(guān)系數(shù)的范圍刪除冗余指標(biāo),變異系數(shù)衡量指標(biāo)內(nèi)部差異,在因子分析中以對(duì)載荷成分矩陣貢獻(xiàn)率作為測(cè)度指標(biāo),在分類的基礎(chǔ)上選取能表達(dá)原有指標(biāo)體系至少90%信息的指標(biāo),得出了簡(jiǎn)潔高效、可靠合理的指標(biāo)體系;權(quán)重確定方面,針對(duì)現(xiàn)有賦權(quán)方法主觀性與難以說(shuō)明指標(biāo)內(nèi)部信息的問(wèn)題,文中采用了客觀賦權(quán)法,充分挖掘數(shù)據(jù)的內(nèi)部聯(lián)系與意義,且使用三種客觀賦權(quán)法相互比較,結(jié)果擬合度較高也能說(shuō)明文中得出指標(biāo)體系的合理性.因此,本文對(duì)于將數(shù)理方法與已有經(jīng)驗(yàn)相結(jié)合進(jìn)行信息化測(cè)度指標(biāo)體系修正有重要意義.
本研究后續(xù)將以目前得到的信息化水平測(cè)度指標(biāo)體系為起點(diǎn),豐富從現(xiàn)有指標(biāo)體系得出的指標(biāo)庫(kù),擴(kuò)展研究的時(shí)間尺度,加強(qiáng)數(shù)理方法與已有經(jīng)驗(yàn)的結(jié)合,進(jìn)一步完善信息化水平測(cè)度指標(biāo)體系的修正與分析.
1 European Commission:DESI2015:The digital economy and society index.https://ec.europa.eu/digital-agenda/en/digitaleconomy-and-society-index-desi.[2015-04-07].
2 馬巖,孫紅蕾,鄭建明.流動(dòng)空間視角下新型城鎮(zhèn)信息化水平測(cè)度實(shí)證分析.圖書(shū)館論壇,2017,37(5):18-26.
3 蘇君華,孫建軍.全國(guó)及各省市信息化水平測(cè)度.情報(bào)科學(xué),2005,23(6):817-822.
4 楊洋.安徽省區(qū)域信息化水平測(cè)度及其對(duì)經(jīng)濟(jì)增長(zhǎng)影響的實(shí)證研究[碩士學(xué)位論文].合肥:合肥工業(yè)大學(xué),2015.
5 馬增林,王天一,張?jiān)品?等.黑龍江省農(nóng)業(yè)信息化水平測(cè)度分析.中國(guó)集體經(jīng)濟(jì),2017,(33):22-24.[doi:10.3969/j.issn.1008-1283.2017.33.012]
6 朱婕.江蘇省新型城鎮(zhèn)化和信息化協(xié)調(diào)發(fā)展測(cè)度研究[碩士學(xué)位論文].南京:南京大學(xué),2017.
7 岳毅蒙,李江濤.基于改進(jìn)熵權(quán)法的智能手機(jī)評(píng)價(jià)模型.計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(4):203-206.[doi:10.15888/j.cnki.csa.005651]
8 李燚,丁生喜,任海靜.基于灰色關(guān)聯(lián)分析法的青海省信息化與區(qū)域經(jīng)濟(jì)發(fā)展分析.價(jià)值工程,2017,36(30):55-58.
9 Yang YP,Shan N.Evaluation of shallow groundwater quality in Haikou based on fuzzy comprehensive evaluation method.Ground Water,2017,39(4):20-22,59.
10 國(guó)家信息中心.中國(guó)信息社會(huì)發(fā)展報(bào)告2015.北京:國(guó)家信息中心,2015.
11 國(guó)家統(tǒng)計(jì)局.2016中國(guó)統(tǒng)計(jì)年鑒.北京:中國(guó)統(tǒng)計(jì)出版社,2016.
12 國(guó)家統(tǒng)計(jì)局社會(huì)科技和文化產(chǎn)業(yè)統(tǒng)計(jì)司,科學(xué)技術(shù)部創(chuàng)新發(fā)展司.2016中國(guó)科技統(tǒng)計(jì)年鑒.北京:中國(guó)統(tǒng)計(jì)出版社,2016.
13 國(guó)家信息中心.中國(guó)信息年鑒.北京:《中國(guó)信息年鑒》期刊社,2016.
14 陳勇,楊未未.信息化水平測(cè)度方法研究.科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2009,19(6):90-92.
15 許慧玲.信息化水平測(cè)度及對(duì)區(qū)域經(jīng)濟(jì)增長(zhǎng)影響研究[博士學(xué)位論文].南京:南京農(nóng)業(yè)大學(xué),2008.
16 李美洲,韓兆洲.信息化水平測(cè)度——以廣東省為例.科技管理研究,2007,(7):172-175.
17 陳小磊,鄭建明,萬(wàn)里鵬.信息化水平測(cè)度指標(biāo)體系理論研究述評(píng).圖書(shū)情報(bào)知識(shí),2006,(5):65-70.
18 劉文云,葛敬民.國(guó)內(nèi)外信息化水平測(cè)度理論研究比較.情報(bào)理論與實(shí)踐,2004,27(2):144-147.
19 鄭麗琳.信息化水平測(cè)度研究綜述.合作經(jīng)濟(jì)與科技,2005,(2S):60-61.
20 王愛(ài)蘭,張俊山.評(píng)美國(guó)與日本學(xué)者關(guān)于信息化水平測(cè)度的理論與方法——兼論我國(guó)國(guó)家信息化水平測(cè)度指標(biāo)體系的完善.圖書(shū)情報(bào)工作,2005,49(1):117-120,137.
21 顏惠琴,牛萬(wàn)紅,韓惠麗.基于主成分分析構(gòu)建指標(biāo)權(quán)重的客觀賦權(quán)法.濟(jì)南大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,31(6):519-523.
22 楊宇.多指標(biāo)綜合評(píng)價(jià)中賦權(quán)方法評(píng)析.統(tǒng)計(jì)與決策,2006,(7):17-19.
23 梁海麗,于洪彬.我國(guó)信息化水平指數(shù)測(cè)度研究.情報(bào)資料工作,1999,(4):4-8.
24 于偉,張鵬.我國(guó)信息化水平的空間不均衡、極化特征和收斂性研究.山東財(cái)經(jīng)大學(xué)學(xué)報(bào),2016,28(5):92-99.