王 ?。ò不帐】茖W(xué)技術(shù)情報(bào)研究所,安徽合肥 230011)
安徽省高新技術(shù)統(tǒng)計(jì)關(guān)鍵指標(biāo)關(guān)聯(lián)性研究
王 俊
(安徽省科學(xué)技術(shù)情報(bào)研究所,安徽合肥 230011)
在國(guó)內(nèi)外的研究基礎(chǔ)上,結(jié)合安徽特有的基本情況,根據(jù)安徽省“1+6”政策體系,建立了一套高新技術(shù)統(tǒng)計(jì)指標(biāo)體系。以最大依賴性、最大相關(guān)性和最小冗余為準(zhǔn)則建立模型,選擇過濾式特征選擇方法的代表算法之一mRMR來選擇特征子集,在眾多指標(biāo)中抽取關(guān)鍵指標(biāo),并利用數(shù)據(jù)挖掘中聚類分析方法挖掘指標(biāo)間潛在的關(guān)聯(lián)性,提出高新技術(shù)產(chǎn)業(yè)增加值和高新技術(shù)企業(yè)培育情況是影響一個(gè)地區(qū)高新技術(shù)產(chǎn)業(yè)運(yùn)行情況的重要指標(biāo)。
高新技術(shù);數(shù)據(jù)挖掘;關(guān)鍵指標(biāo);相關(guān)度;安徽省
高新技術(shù)產(chǎn)業(yè)是在高強(qiáng)度研究開發(fā)基礎(chǔ)上發(fā)展起來的最具活力和潛力的知識(shí)和技術(shù)高度密集的產(chǎn)業(yè)群體,它的崛起和迅猛發(fā)展對(duì)經(jīng)濟(jì)和社會(huì)發(fā)展產(chǎn)生了深刻的影響[1],是經(jīng)濟(jì)發(fā)展的動(dòng)力。隨著高新技術(shù)產(chǎn)業(yè)的逐步興起,相關(guān)國(guó)際組織以及國(guó)家政府部門和科研機(jī)構(gòu)為高新技術(shù)產(chǎn)業(yè)統(tǒng)計(jì)工作的開展做了大量工作[2],取得了一定成效。近年來,安徽省積極實(shí)施創(chuàng)新驅(qū)動(dòng)發(fā)展工程,高新技術(shù)產(chǎn)業(yè)一直處于穩(wěn)中有進(jìn)的發(fā)展態(tài)勢(shì)。高新技術(shù)產(chǎn)業(yè)數(shù)據(jù)統(tǒng)計(jì)工作也同樣得到了省政府的高度關(guān)注與重視,為推進(jìn)安徽省高新技術(shù)產(chǎn)業(yè)發(fā)展和產(chǎn)業(yè)結(jié)構(gòu)調(diào)整提供了重要決策依據(jù)。2014年,安徽省出臺(tái)了“1+6”政策,提出了安徽省創(chuàng)新能力評(píng)價(jià)指標(biāo)體系,明確將高新技術(shù)產(chǎn)業(yè)中的兩個(gè)相關(guān)指標(biāo)(即“高新技術(shù)產(chǎn)品進(jìn)出口總額占地方進(jìn)出口總額的比重”和“高新技術(shù)產(chǎn)業(yè)增加值占GDP比重”)列入了考核內(nèi)容。但是,在日常工作中高新技術(shù)產(chǎn)業(yè)相關(guān)的統(tǒng)計(jì)指標(biāo)卻多達(dá)十幾個(gè),存在指標(biāo)體系不夠健全、關(guān)鍵指標(biāo)不突出、缺少指標(biāo)間關(guān)聯(lián)分析等問題。本文將以安徽省創(chuàng)新能力評(píng)價(jià)中的高新技術(shù)指標(biāo)為基礎(chǔ),兼顧指標(biāo)數(shù)據(jù)的可獲取性,選取了科技統(tǒng)計(jì)日常工作中使用的17個(gè)高新技術(shù)相關(guān)指標(biāo),并將數(shù)據(jù)挖掘和統(tǒng)計(jì)分析技術(shù)引入高新技術(shù)統(tǒng)計(jì)工作中,建立一套安徽省高新技術(shù)統(tǒng)計(jì)關(guān)鍵指標(biāo)體系,形成一套高新技術(shù)關(guān)鍵指標(biāo)分析框架和模型及可視化系統(tǒng),再利用數(shù)據(jù)挖掘技術(shù),深入分析和評(píng)價(jià)安徽省高新技術(shù)產(chǎn)業(yè)發(fā)展現(xiàn)狀。
在高新技術(shù)產(chǎn)業(yè)統(tǒng)計(jì)工作中,數(shù)據(jù)本身龐大高維,且往往摻雜著大量無關(guān)、冗余特征,影響數(shù)據(jù)信息的有效挖掘[3]。因此,要在多個(gè)指標(biāo)中進(jìn)行關(guān)鍵指標(biāo)抽取。關(guān)鍵指標(biāo)抽取研究適用于機(jī)器學(xué)習(xí)領(lǐng)域中的關(guān)鍵特征選擇和特征提取[4-6]。這里分別研究監(jiān)督學(xué)習(xí)條件下的特征選擇方法和無監(jiān)督學(xué)習(xí)條件下的特征提取方法對(duì)問題的適用性。
1.1 特征選擇的算法
從是否使用了目標(biāo)變量的角度,可以將特征選擇算法分為有監(jiān)督、無監(jiān)督和半監(jiān)督的特征選擇方法。其中,有監(jiān)督的特征選擇方法是在數(shù)據(jù)具有標(biāo)簽的前提下,通過評(píng)估特征和目標(biāo)變量之間的相關(guān)性,選擇有判別性特征的指標(biāo),即得到哪些指標(biāo)具有較強(qiáng)的標(biāo)簽指示性。在實(shí)際應(yīng)用中,很難得到有標(biāo)簽的數(shù)據(jù),因此相比于有監(jiān)督的特征選擇方法,無監(jiān)督的特征選擇方法的研究受到更多的關(guān)注。而半監(jiān)督的特征選擇,即“小標(biāo)記樣本問題”,使用目標(biāo)變量的信息以及對(duì)應(yīng)于標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)之間的流形結(jié)構(gòu)[7-8]。
特征選擇算法有過濾器、包裝器和嵌入式3種。其中,過濾器算法是指定義一些準(zhǔn)則,對(duì)特征進(jìn)行評(píng)估,得到評(píng)估值,再對(duì)這些值進(jìn)行排序,從而選出最好的若干個(gè)特征。相關(guān)的特征評(píng)估準(zhǔn)則包括互信息、最大間距準(zhǔn)則、內(nèi)核對(duì)齊和希爾伯特-施密特獨(dú)立性準(zhǔn)則。過濾器采用多種準(zhǔn)則來避免冗余,而mRMR(min-Redundancy and Max-relevance)是最具有代表性的算法,是以最大依賴性、最大相關(guān)性和最小冗余為準(zhǔn)則。mRMR是為了找到一個(gè)特征子集,與目標(biāo)變量具有最大的相關(guān)性,而特征子集中的特征之間具有最小的冗余[9-10]。
1.2 評(píng)估指標(biāo)與標(biāo)簽的相關(guān)性
其中, vx是特征x 的第j個(gè)屬性值,vx是特征
根據(jù)式(1),得到 SN特征集中所有特征的排序,即S′。在此排序的基礎(chǔ)上,我們選擇前k個(gè)特征,表示為:
1.3 評(píng)估指標(biāo)間的相關(guān)性
考慮到mRMR算法所選出的特征子集能在使特征子集與類標(biāo)簽之間的相關(guān)性最大化的同時(shí),還能保證特征子集內(nèi)部冗余最小化,可以有效提升分類器的性能。因此,本文選擇了過濾式特征選擇算法的代表算法之一mRMR來選擇特征子集。首先給出mRMR的相關(guān)定義:
定義1 最小冗余:特征子集S內(nèi)部的冗余最小化
定義2 最大相關(guān):特征子集S與類標(biāo)簽L保持最大的相關(guān)
假設(shè)已經(jīng)找到含 1n?個(gè)特征的子集1nS?,則查找第n個(gè)特征的過程是:(1)在集合中查找使φ最大的特征f;(2)將f添加到特征子集中,并把f從集合中去除;(3)重復(fù)步驟(1)和步驟(2)查找其他特征直到滿足停止條件,從而找到最優(yōu)特征子集。其中,步驟(1)的目標(biāo)優(yōu)化式可以換成φ的等價(jià)形式
根據(jù)日常統(tǒng)計(jì)經(jīng)驗(yàn),選取了和高新技術(shù)產(chǎn)業(yè)相關(guān)的17個(gè)指標(biāo),涉及高新技術(shù)產(chǎn)業(yè)、高新技術(shù)企業(yè)、高新技術(shù)產(chǎn)業(yè)開發(fā)區(qū)、科技企業(yè)孵化器、高新技術(shù)產(chǎn)業(yè)基地和生產(chǎn)力促進(jìn)中心等眾多方面,如表1所示。
通過查閱年鑒和相關(guān)公報(bào),收集了2005—2014年的相關(guān)統(tǒng)計(jì)數(shù)據(jù)。對(duì)2005—2014年的原始數(shù)據(jù)進(jìn)行離散化處理。離散化是將一組連續(xù)的數(shù)據(jù)值放入存儲(chǔ)桶的過程,以便得到可能狀態(tài)的離散數(shù)目,表2中顯示的就是通過離散化處理后,把原本“連續(xù)的”變量變成“1-5”5個(gè)離散的變量。然后再對(duì)兩兩指標(biāo)進(jìn)行相關(guān)性計(jì)算,得出結(jié)果如表3所示。
(1)相關(guān)度較高的指標(biāo)有4對(duì),其相關(guān)度大約在2.12,分別為:高新技術(shù)產(chǎn)業(yè)產(chǎn)值(億元)—累計(jì)畢業(yè)企業(yè)數(shù)(家);高新技術(shù)產(chǎn)業(yè)增加值占GDP的比重(%)—高新技術(shù)產(chǎn)業(yè)基地?cái)?shù)(個(gè));高新技術(shù)企業(yè)數(shù)(家)—高新技術(shù)產(chǎn)業(yè)產(chǎn)值(億元);高新技術(shù)企業(yè)數(shù)占規(guī)模以上企業(yè)比重(%)—高新技術(shù)產(chǎn)業(yè)增加值占全省工業(yè)增加值的比重(%)。
表1 基礎(chǔ)數(shù)據(jù)指標(biāo)情況一覽表
(2)相關(guān)度次之的指標(biāo)有4對(duì),其相關(guān)度大約在1.952,分別為:上市高新技術(shù)企業(yè)數(shù)(家)—營(yíng)業(yè)總收入(億元);高新技術(shù)產(chǎn)業(yè)基地?cái)?shù)(個(gè))—基地內(nèi)企業(yè)總收入(億元);生產(chǎn)力促進(jìn)中心數(shù)(個(gè))—高新技術(shù)產(chǎn)業(yè)產(chǎn)值(億元);累計(jì)畢業(yè)企業(yè)數(shù)(家)—高新技術(shù)產(chǎn)業(yè)產(chǎn)值(億元)。
表2 離散化結(jié)果
表3 相關(guān)度計(jì)算結(jié)果
相關(guān)度越大的指標(biāo),說明指標(biāo)統(tǒng)計(jì)冗余度越高。由此可見,選取的17個(gè)高新技術(shù)指標(biāo)中有一定的冗余度,可以進(jìn)行篩選。
通過對(duì)2009—2014年合肥累計(jì)認(rèn)定高新技術(shù)企業(yè)數(shù)、當(dāng)年認(rèn)定高新技術(shù)企業(yè)、高新技術(shù)產(chǎn)業(yè)總產(chǎn)值、高新技術(shù)產(chǎn)業(yè)增加值和高新技術(shù)產(chǎn)業(yè)增加值占GDP比重等指標(biāo)及處于中等位次排名信息進(jìn)行分析,以中等位次排名為類標(biāo)簽,基于互信息模型分析其余各指標(biāo)對(duì)中等位次排名的影響程度,提取其中的關(guān)鍵指標(biāo)。
分析結(jié)果顯示,對(duì)中等位次排名影響度從大到小的指標(biāo)分別為高新技術(shù)產(chǎn)業(yè)增加值占GDP比重、高新技術(shù)產(chǎn)業(yè)增加值、累計(jì)認(rèn)定高新技術(shù)企業(yè)數(shù)、高新技術(shù)產(chǎn)業(yè)總產(chǎn)值、當(dāng)年認(rèn)定高新技術(shù)企業(yè)數(shù),其重要度指標(biāo)分別為1.45、1.12、1、1、0.46。從中可以看出,當(dāng)年認(rèn)定的高新技術(shù)企業(yè)數(shù)對(duì)中等位次排名的影響度不大,而高新技術(shù)產(chǎn)業(yè)增加值占GDP比重對(duì)排名影響較大。
此外,對(duì)合肥、淮北、亳州等16個(gè)地市近年來的統(tǒng)計(jì)指標(biāo)(累計(jì)認(rèn)定高新技術(shù)企業(yè)數(shù)、當(dāng)年認(rèn)定高新技術(shù)企業(yè)數(shù)、高新技術(shù)產(chǎn)業(yè)增加值和高新技術(shù)企業(yè)數(shù)與規(guī)模以上工業(yè)企業(yè)數(shù)之比等指標(biāo))進(jìn)行分析,分析哪些指標(biāo)對(duì)高新技術(shù)產(chǎn)業(yè)總產(chǎn)值上升具有重要影響。
基于互信息模型進(jìn)行相關(guān)性分析,結(jié)果顯示,對(duì)高新技術(shù)產(chǎn)業(yè)總產(chǎn)值上升影響力的重要度從大到小依次為:高新技術(shù)產(chǎn)業(yè)增加值占GDP比重、高新技術(shù)企業(yè)數(shù)與規(guī)模以上工業(yè)企業(yè)數(shù)之比、高新技術(shù)產(chǎn)業(yè)增加值、累計(jì)認(rèn)定高新技術(shù)企業(yè)數(shù)、當(dāng)年認(rèn)定高新技術(shù)企業(yè)數(shù),其影響度分別為0.087、0.053、0.0403、0.0194、0.0194。由此可見,高新技術(shù)產(chǎn)業(yè)增加值和高新技術(shù)企業(yè)培育情況是衡量一個(gè)地區(qū)高新技術(shù)產(chǎn)業(yè)運(yùn)行情況的重要指標(biāo)。
本文建立了一套高新技術(shù)統(tǒng)計(jì)體系指標(biāo),選取2005—2014年統(tǒng)計(jì)數(shù)據(jù)作為研究的原始數(shù)據(jù),抽取統(tǒng)計(jì)關(guān)鍵指標(biāo)分析安徽省高新技術(shù)產(chǎn)業(yè)的發(fā)展情況。統(tǒng)計(jì)分析表明,“十二五”以來,安徽省高新技術(shù)產(chǎn)業(yè)處于穩(wěn)中有進(jìn)的發(fā)展態(tài)勢(shì),截至2016年年底,全省擁有高新技術(shù)企業(yè)3863家,占全省規(guī)模以上工業(yè)企業(yè)數(shù)的19.9%;全省高新技術(shù)產(chǎn)業(yè)實(shí)現(xiàn)增加值4094.9億元,占全省GDP 的17%。由于研究初期兼顧統(tǒng)計(jì)指標(biāo)的可獲取性,研究結(jié)果可能存在一定的局限性,但對(duì)高新技術(shù)日常統(tǒng)計(jì)工作仍然具有一定的指導(dǎo)作用。研究結(jié)果表明,影響一個(gè)地區(qū)高新技術(shù)產(chǎn)業(yè)運(yùn)行情況的重要指標(biāo)有高新技術(shù)產(chǎn)業(yè)增加值和高新技術(shù)企業(yè)培育情況,從而提高了日常統(tǒng)計(jì)工作中高新技術(shù)產(chǎn)業(yè)數(shù)據(jù)的有效性,可更深層次地分析全省高新技術(shù)產(chǎn)業(yè)的發(fā)展。
[1] 張珍花,路正南.高新技術(shù)產(chǎn)業(yè)統(tǒng)計(jì)指標(biāo)體系的構(gòu)建[J].統(tǒng)計(jì)與決策, 2015,187(4):13-14.
[2] 沈艷華,趙振寧.高新技術(shù)產(chǎn)業(yè)統(tǒng)計(jì)調(diào)研報(bào)告[J].商業(yè)研究, 2006, 346(14):204-206.
[3] SPOLAOR N, CHENRMAN E A, MONARD E A, et al. A comparison of multi-label feature selection methods using the problem transformation approach[J]. Electronic Notes in Theoretical Computer Science,2013,209:135-151.
[4] ZHANG M L, ZHOU Z H. A review on multi-label learning algorithms[J].IEEE Transactions on Knowledge and Data Engineering,2014,26(8):1819-1837.
[5] DENDAMRONGVIT S, VATEEKUL P, KUBAT M. Irrelevant attributes and imbalanced classes in multilabel text-categorization domains[J].Intelligent Data Anvlysis,2011,15(6):843-859.
[6] 周國(guó)靜, 李云.基于最小最大策略的集成特征選擇[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)), 2014,50(4):457-465.
[7] 王婧.面向在線環(huán)境的數(shù)據(jù)編碼問題研究[D].合肥:合肥工業(yè)大學(xué), 2015.
[8] 許堯.過濾式特征選擇算法研究[D].合肥:合肥工業(yè)大學(xué), 2015.
[9] 姚明海, 王娜, 齊妙,等.改進(jìn)的最大相關(guān)最小冗余特征選擇方法研究[J].計(jì)算機(jī)工程與應(yīng)用, 2014,50(9): 116-122.
[10] 胡學(xué)鋼, 許堯,李培培,等.一種過濾式多標(biāo)簽特征選擇算法[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)版),2015, 51(4): 723-730.
Research for Correlation with the Statistics Key Indexes of New and High Technology in Anhui Province
WANG Jun
(Scientific and Technological Information Institute of Anhui Province, Hefei 230011)
Firstly, on the basis of research at home and abroad, and combining the basic situation of Anhui characteristics, this article establishes a set of index system of new and high technology industries. Secondly, to maximize the dependency, maximum correlation and minimum redundancy for the guidelines, this article establishes a model, chooses mRMR to select feature subset which is one of the representative algorithms of the filter, and extract the key indexes in many indexes. Thirdly, data mining the potential correlation between excavated index using the method of clustering analysis. At last, put forward that it is the added value of new and high technology industries and the enterprises which affect the high and new technology industry.
new and high technology, data mining, key indexes, relativity, Anhui province
C813;TP181
A
10.3772/j.issn.1674-1544.2017.02.013
王俊(1985—),女,安徽省科學(xué)技術(shù)情報(bào)研究所助理研究員,碩士,主要研究方向:科技統(tǒng)計(jì)。
安徽省科技攻關(guān)計(jì)劃項(xiàng)目“高新技術(shù)統(tǒng)計(jì)關(guān)鍵指標(biāo)挖掘研究”(1301023012);國(guó)家創(chuàng)新發(fā)展司委托項(xiàng)目子課題“安徽省企業(yè)創(chuàng)新情況調(diào)查分析與研究”(ZLY2015123)。
2016年11月22日。