侯淑靜
【摘 要】基于2012年中國(guó)大陸31個(gè)省市自治區(qū)被三大科技文獻(xiàn)檢索的論文篇數(shù)情況,本文先用聚類分析的方法將各省科研水平劃分為五個(gè)類別,然后再用判別分析的方法討論了某個(gè)未知地區(qū)的科研水平,并對(duì)相關(guān)結(jié)果作一簡(jiǎn)要的分析。
【關(guān)鍵詞】聚類分析;科研水平;判別分析
中圖分類號(hào): O24 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 2095-2457(2018)35-0048-003
DOI:10.19694/j.cnki.issn2095-2457.2018.35.020
Evaluation on the Research Level of Provinces based on Cluster Analysis
HOU Shu-jing
(School of Finance and Economics,Tibet University for Nationalities,Xianyang 712082)
【Abstract】Based on China mainlands 31 provinces papers,which were indexed by the three scientific cited systems,we first divided the scientific research level of 31 provinces into five categories by using cluster analysis,then we discussed an unknown areas level using discriminant analysis method.Finally,the related results were briefly discussed.
【Key words】Cluster analysis;Scientific research;Discriminant analysis
0 引言
SCI(科學(xué)引文索引)、EI(工程索引)、ISTP(科技會(huì)議錄索引)是世界著名的三大科技文獻(xiàn)檢索系統(tǒng),是國(guó)際公認(rèn)的進(jìn)行科學(xué)統(tǒng)計(jì)與科學(xué)評(píng)價(jià)的主要檢索工具,其中以SCI最為重要。
《科學(xué)引文索引》(Science Citation Index,SCI)是由美國(guó)科學(xué)信息研究所(ISI)1961年創(chuàng)辦出版的引文數(shù)據(jù)庫(kù),其覆蓋生命科學(xué)、臨床醫(yī)學(xué)、物理化學(xué)、農(nóng)業(yè)、生物、獸醫(yī)學(xué)、工程技術(shù)等方面的綜合性檢索刊物,尤其能反映自然科學(xué)研究的學(xué)術(shù)水平,是目前國(guó)際上三大檢索系統(tǒng)中最著名的一種,其中以生命科學(xué)及醫(yī)學(xué)、化學(xué)、物理所占比例最大,收錄范圍是當(dāng)年國(guó)際上的重要期刊,尤其是它的引文索引表現(xiàn)出獨(dú)特的科學(xué)參考價(jià)值,在學(xué)術(shù)界占有重要地位。許多國(guó)家和地區(qū)均以被SCI收錄及引證的論文情況來(lái)作為評(píng)價(jià)學(xué)術(shù)水平的一個(gè)重要指標(biāo)。從SCI的嚴(yán)格的選刊原則及嚴(yán)格的專家評(píng)審制度來(lái)看,它具有一定的客觀性,較真實(shí)地反映了論文的水平和質(zhì)量。根據(jù)SCI收錄及被引證情況,可以從一個(gè)側(cè)面反映學(xué)術(shù)水平的發(fā)展情況。特別是每年一次的SCI論文排名成了判斷一個(gè)學(xué)??蒲兴降囊粋€(gè)十分重要的標(biāo)準(zhǔn)。《工程索引》(EngineeringIndex,EI),1884年創(chuàng)刊,由美國(guó)工程信息公司出版,報(bào)導(dǎo)工程技術(shù)各學(xué)科的期刊、會(huì)議論文、科技報(bào)告等文獻(xiàn)?!犊萍紩?huì)議錄索引》(Index to Scientific & TechnicalProceedings,ISTP),也是由ISI出版,1978年創(chuàng)刊,報(bào)導(dǎo)世界上每年召開(kāi)的科技會(huì)議的會(huì)議論文。
1 聚類與判別分析
一般說(shuō)來(lái),根據(jù)被這三大科技文獻(xiàn)檢索情況,基本上可以看出一個(gè)國(guó)家、地區(qū)或者是學(xué)術(shù)機(jī)構(gòu)的研究水平。本文希望通過(guò)2012年中國(guó)大陸科技論文按地區(qū)分布被檢索情況(篇數(shù))了解各個(gè)省份學(xué)術(shù)研究的一些基本情況。首先對(duì)數(shù)據(jù)做聚類分析[1],然后再對(duì)未知地區(qū)被檢索篇數(shù)做判別分析,并對(duì)相關(guān)結(jié)果作一簡(jiǎn)要的分析。聚類分析一般尋求客觀的分類方法,在聚類分析以前,對(duì)總體到底分為幾種類型并不知道,聚類[2-3]的基本思想是通過(guò)定義樣本或者變量間的“接近程度”(距離)的度量,以此為基礎(chǔ),將“相近”的樣品或者變量歸為一類。聚類的方法有快速聚類法和譜系聚類法。前者需要預(yù)先指定分類的數(shù)目,這個(gè)數(shù)目對(duì)分類的最終結(jié)果有很大的影響。本文采用后者。譜系聚類法類似于植物分類學(xué)的思想對(duì)研究對(duì)象進(jìn)行分類。它首先將各個(gè)樣品自成一類,然后把最相近的樣品聚為小類,再將已聚合的小類都聚合成一個(gè)大類,從而得到一個(gè)按相近性大小形成的譜系圖。最后再根據(jù)實(shí)際情況確定合適的分類個(gè)數(shù)。當(dāng)研究對(duì)象用某種方式已經(jīng)劃分為若干類型,當(dāng)?shù)玫揭粋€(gè)新的樣品時(shí),就可以根據(jù)了解到的情況將它歸為某一類中去。這就是判別分析,其基本思想是把樣品歸并到與它最相近的類型中。本文程序在matlab 7.6中運(yùn)行通過(guò),所使用的數(shù)據(jù)來(lái)自中國(guó)統(tǒng)計(jì)網(wǎng)。
2 結(jié)果與討論
首先對(duì)31個(gè)省市SCI、EI和ISTP的篇數(shù)情況分為幾個(gè)類別,由于事先并不知道分為幾個(gè)類比較合適,用聚類分析[4]完成這一過(guò)程。根據(jù)數(shù)據(jù)集畫(huà)出譜系圖。得到的譜系圖如圖1(圖1中1~31代表的省份見(jiàn)中國(guó)科技統(tǒng)計(jì)年鑒2012年中國(guó)大陸科技論文按地區(qū)分布被檢索情況(篇數(shù))):
從上面的圖1譜系圖中可以把待分類的對(duì)象分成五類。各個(gè)類別及類別中的元素列入下面的表格中。從中國(guó)科技統(tǒng)計(jì)年鑒2012年中國(guó)大陸科技論文按地區(qū)分布被檢索情況(篇數(shù))中可以看出北京地區(qū)的SCI、EI和ISTP的被檢索篇數(shù)均居全國(guó)第一且遠(yuǎn)多于其它地區(qū),通過(guò)聚類分析得出的結(jié)果為北京地區(qū)的科研水平是很高的,這與事實(shí)基本相符。而上海、江蘇地區(qū)的數(shù)據(jù)僅低于北京,但又比其它地方有顯著的差異,通過(guò)聚類分析將上海和江蘇列為一類。遼寧等九省區(qū)劃分為中等,這幾個(gè)地區(qū)的總篇數(shù)在全國(guó)居前幾位,把這幾個(gè)歸為一類還是比較合適的。中等偏下水平的省區(qū)的SCI被檢索篇數(shù)都在4600以下但在1000以上。前已提及SCI是最為重要的檢索系統(tǒng),因此把它們歸為一類基本符合實(shí)際情況。從表中還可以看出:經(jīng)濟(jì)發(fā)達(dá)的北京、上海、江蘇其科研水平也居前列,而經(jīng)濟(jì)相對(duì)落后的西部科研水平比較低下,而陜西的處于中等的水平上是個(gè)例外,這可能與陜西在西部的重要地位有關(guān)系,此外,這里還匯集了全國(guó)很多的高等院校和科研機(jī)構(gòu)。
表1 聚類表
通過(guò)聚類分析,大致了解了各個(gè)地方的科研水平的情況,接下來(lái)對(duì)表中未知地區(qū)的情況作一判斷,看它處于什么樣的水平上,為此,作判別分析。根據(jù)聚類分析得到結(jié)果作為訓(xùn)練集。
運(yùn)行結(jié)果表明:該地區(qū)的科研水平屬于低等,這是符合客觀情況的。事實(shí)上,從數(shù)據(jù)對(duì)比上看,很容易得出該結(jié)論,以上程序說(shuō)明了這種情況。但是,并不能肯定該地區(qū)屬于西部地區(qū),因?yàn)椴](méi)有充分的根據(jù)。
由于一個(gè)地區(qū)的科研或者學(xué)術(shù)水平跟很多因素有關(guān)系,比如經(jīng)濟(jì)發(fā)展情況,科研機(jī)構(gòu)的多少(包括高等院校),當(dāng)?shù)卣畬?duì)科研的投入等等。當(dāng)已經(jīng)清楚科研水平與各因素之間的關(guān)系后就可以大致地推測(cè)這個(gè)地區(qū)的情況了。這個(gè)問(wèn)題有待進(jìn)一步的分析。
【參考文獻(xiàn)】
[1]孟海東,李秉秋.聚類分析在縣域經(jīng)濟(jì)發(fā)展研究中的應(yīng)用[J].河北工業(yè)科技,2012,29(2):116-119.
[2]俞鑫.基于因子分析法和聚類分析法評(píng)價(jià)中國(guó)各省市綜合經(jīng)濟(jì)實(shí)力[J].時(shí)代經(jīng)貿(mào),2013(24).
[3]呂棟鑫,李正龍,楊勝利.基于社會(huì)保障水平指標(biāo)的全國(guó)各省市聚類分析[J].勞動(dòng)保障世界,2010(22):16-18.
[4]袁世琪.基于聚類分析的全國(guó)各省城鎮(zhèn)化水平評(píng)價(jià)[J].企業(yè)導(dǎo)論,2015(09):58-59.