陳 健,孫濟慶,吉久明
隨著我國高校國際化課程的發(fā)展,對外國教學參考書引進工作力度加大,引進外國教學參考書數(shù)量顯著增長。如何評價引進的外國教學參考書,對教學參考資料的質(zhì)量應用客觀科學的評價方法,是引進教學參考書急需解決的問題。國內(nèi)圖書館界對國外文獻資源評價的研究較少,現(xiàn)有文獻多為對外國教學參考書評價存在的問題、評價標準等定性研究,缺乏定量研究的過程與方法。
為了能定量地、客觀地對外國文獻資源質(zhì)量進行評價研究,不能僅從單個指標或單角度進行評價,而應從反映文獻質(zhì)量的多因素與多角度客觀評價,即在評價研究中需要引入更多的與外國文獻資源質(zhì)量有關系的指標,對其進行綜合評價分析。本文提出的基于文獻外部特征的評價方法,綜合利用主成分分析法和投影尋蹤法對外國教學參考書質(zhì)量進行評價研究,以期能達到客觀綜合評價國外文獻資源的目標。
主成分分析法作為基礎的定量分析方法,實際應用廣泛,比如人口統(tǒng)計學、農(nóng)業(yè)科學、醫(yī)學等學科中均有應用[1-3];應用于期刊評價的研究比較多,比如張弘[4]等人利用主成分分析法對科技期刊評價。投影尋蹤模型在環(huán)境質(zhì)量評價與環(huán)境監(jiān)測、交通安全評價、農(nóng)業(yè)基礎科學、地震預報、水資源調(diào)查與水利規(guī)劃、經(jīng)濟評價等方面得到了成功應用[5-10];應用于期刊評價的研究也開始出現(xiàn),比如劉金福[11]等人利用投影尋蹤模型對我國農(nóng)業(yè)類大學學報的學術水平進行綜合分析,周曉蔚和李春陽[12]用投影尋蹤和遺傳算法對期刊質(zhì)量進行評價。這兩種方法相結(jié)合應用于外國教學參考書的評價還沒有出現(xiàn)過,具有較強的新穎性。主成分分析法與投影尋蹤法都是對高維評價指標的降維方法[13]。兩者有優(yōu)缺點。
在分析處理多指標問題時,由于指標之間往往存在著一定的相關性,使得指標數(shù)據(jù)所反映的信息存在重疊現(xiàn)象。主成分分析法可以用少數(shù)幾個互不相關的綜合指標來盡可能地反映原來指標數(shù)據(jù)所含有的絕大部分信息,避免信息重疊,減輕工作量。然而在求主成分綜合得分時,主成分分析法通常取各主成分的方差貢獻率作為權(quán)重;由于在實際問題中,通常第一主成分的特征值遠遠大于其他主成分的特征值,所以第一主分的方差貢獻也常常很大,而其他主成分的方差貢獻卻很小,這樣主成分綜合值對m 個主成分起到的綜合作用較小,因此取各主成分的方差貢獻率作為主成分權(quán)重的設定方法具有一定的主觀性[14]。
投影尋蹤法[15]將多維指標的教學參考書樣本數(shù)據(jù)按照某種投影方向投影到一維空間,根據(jù)投影值散布特征的要求構(gòu)造投影指標函數(shù),尋找出投影指標函數(shù)達到最優(yōu)時的投影值和最佳投影方向。投影尋蹤法是用來分析和處理高維觀測數(shù)據(jù)的一種統(tǒng)計方法,尤其是對于非線性、非正態(tài)高維數(shù)據(jù)有很好效果的。它要求選擇的指標之間相關性不能太大,否則會造成最終投影評價效果產(chǎn)生不好的影響。
基于上述對主成分分析法和投影尋蹤法優(yōu)缺點的分析,可以看出主成分分析法與投影尋蹤法具有優(yōu)勢互補的特點,主成分分析法可以彌補投影尋蹤法在評價指標選擇上的指標相關性不能太強的缺陷,投影尋蹤法可以通過尋找最佳投影方向來解決主成分分析方法在主成分權(quán)重的選擇上存在主觀性的問題。
本文依據(jù)文獻的外部特征選取了能較為客觀地反映文獻的質(zhì)量的7 個評價指標:作者H指數(shù)(x1)、作者出版教學參考書種數(shù)(x2)、出版社選定學科五年影響因子(x3)、收藏該教學參考書的圖書館數(shù)(x4)、出版時間(x5)、出版版次(x6)、銷售排名(x7),提出一種結(jié)合主成分分析法和投影尋蹤法各自優(yōu)點的外國教學參考書質(zhì)量評價模型。該模型既考慮指標的相關性問題,又在指標權(quán)重的選擇上能夠通過挖掘已有的數(shù)據(jù)信息,消除主觀因素的影響,可以使評價結(jié)果客觀科學。具體的建模過程如圖1 所示。
圖1 外國教學參考書質(zhì)量評價建模過程示意圖
該模型的過程為:首先,運用主成分分析法通過原始數(shù)據(jù)標準化、計算相關矩陣、確定主成分個數(shù)得到主成分矩陣,把得到的主成分矩陣作為投影尋蹤法處理的原始數(shù)據(jù);然后運用投影尋蹤法構(gòu)造投影指標函數(shù)、優(yōu)化投影指標函數(shù),從而得到最佳投影方向,進而計算得到投影值;最后根據(jù)得到的最佳投影方向和投影值對外國教學參考書質(zhì)量進行綜合評價。
(1)原始數(shù)據(jù)標準化處理。為方便之后的投影尋蹤分析,在主成分分析之前先將逆指標和適度指標數(shù)據(jù)進行同趨勢化處理,確保所有指標數(shù)據(jù)都是正向指標。對逆指標一般采用倒數(shù)的方法;對于適度指標,當區(qū)間為[a,b]時采用公式x*i=1/|xi- (a+b)/2| 進行,其中xi為適度指標x 第i 個原始數(shù)據(jù),x*i為適度指標正向化后數(shù)據(jù)。對樣本進行標準化變換[16],從而各項指標值具有可比性。
(2)計算標準化后兩兩指標間的相關系數(shù),得到相關系數(shù)矩陣R。利用spss 軟件會自動求出。
(5)構(gòu)造投影指標函數(shù)。將得到的主成分矩陣F 作為樣本集。設投影向量為α=[α(1),α(2),…,α(m)],樣本集F 一維投影值為Gi:
(6)投影指標函數(shù)可以表達成Q(a)=SGDG,SG為類間距離,等于投影值Gi的標準差,SG越大,散布越開;DG為局部密度,即:
R 為求局部密度的窗口半徑,一般取為0.1[17];rij表示樣本之間的距離,即|Gi- Gj|;u(t)為單位階躍函數(shù),當t<0 時其值為0,當t≥0 時其值為1;DG越大,分類越顯著。
(7)優(yōu)化投影指標函數(shù)。由于投影指標函數(shù)Q(a)只隨投影方向α 的變化而變化,最佳投影方向α 能夠最大限度揭示高維數(shù)據(jù)的特征結(jié)構(gòu),因此投影尋蹤的關鍵是找到最佳投影方向α。此過程多采用遺傳算法[18],利用Matlab 軟件通過求解投影指標函數(shù)Q(a)最大化的問題來估計最佳投影方向,即:
(8)根據(jù)優(yōu)化得到的最佳投影方向α 可以計算出投影值Gi。根據(jù)Gi值的大小對外國文獻資源質(zhì)量進行評價。
本文隨機選取哈佛大學和麻省理工大學各10 本教學參考書。以序號1 到10 賦予哈佛大學的教學參考書,以序號11 到20 賦予麻省理工大學的教學參考書。原始數(shù)據(jù)通過以上7 個指標在Web of knowledge 數(shù)據(jù)庫、亞馬遜網(wǎng)上書店、Worldcat 聯(lián)機書目數(shù)據(jù)庫和CALIS 聯(lián)合目錄公共檢索系統(tǒng)中搜集整理得到。具體數(shù)據(jù)信息如表1 所示。
表1 哈佛大學和麻省理工大學教學參考書基本信息表
由于銷售排名(x7)為逆指標,采用倒數(shù)的方法進行正向化處理,其余為正指標,不需要同趨勢處理。進行主成分分析,首先要進行KMO和Bartlett 的檢驗。KMO 統(tǒng)計量越接近1,表明指標間的相關性越強,越適合做主成分分析,一般要求該值大于0.5;Bartlett 球形檢驗認為顯著性值小于0.05 主成分分析才是適宜的。將整理后的數(shù)據(jù)導入spss19.0 進行KMO 和Bartlett 的球形檢驗,得到的KMO 值為0.655,Bartlett 球形檢驗的顯著性值為0.019,具備做主成分分析的條件。通過spss 軟件計算可以得到相關系數(shù)矩陣,從大到小排列的成分特征值、方差(貢獻率)、累計方差(累計貢獻率)如表2所示。
表2 成分特征值及方差累計方差信息表
本文選取累計貢獻率大于85%的前4 個成分作為主成分,即m=4,得到主成分因子載荷矩陣,即成分矩陣,如表3 所示。
表3 成分矩陣信息表
利用得到的主成分矩陣數(shù)據(jù)通過軟件Matlab7.0 建立投影尋蹤模型,此過程中設定樣本數(shù)量n=20,指標數(shù)m=4,交叉概率pc= 0.8.,變異概率pm=0.2,R=0.1。經(jīng)計算得到,當目標函數(shù)Q(a)取最大值時,最佳投影方向向量α=(0.8815,0.1754,0.0445,0.4361),主成分矩陣、各樣本的投影值Gi 及排名如表4 所示。
表4 主成分矩陣、各樣本的投影值Gi及排名信息表
根據(jù)投影值Gi,可以得到哈佛大學和麻省理工大學教學參考書得分的散點圖,如圖2 所示。排名前10 位中,哈佛大學的占6 位,哈佛大學和麻省理工大學的教學參考書平均得分分別為0.42555 和- 0.42556。哈佛大學的教學參考書評價得分高于麻省理工大學的得分。這一結(jié)果與兩校綜合排名相符合,也與人們的普遍印象相一致,從而驗證基于主成分分析法和投影尋蹤法的外國文獻資源質(zhì)量評價模型的可行性和科學合理性。
圖2 教學參考書得分散點圖
本文通過分析主成分分析法和投影尋蹤法優(yōu)缺點,提出了一種主成分分析法和投影尋蹤法相結(jié)合的外國教學參考書評價模型,既考慮評價指標相關性問題,又摒棄了權(quán)重選擇上存在主觀性的問題。通過案例分析和比較,驗證了該方法的有效性和科學合理性,彌補了現(xiàn)有外國教學參考書評價研究方法存在的不足,為外國文獻資源質(zhì)量評價提供一種新思路和新方法。
[1] 楊興民,董安廣.主成分分析法在暫住人口統(tǒng)計分析中的應用[J].科技信息(學術研究),2007(23) .
[2] 于曉秋,任國春,儀秀琴,等.主成分分析方法在農(nóng)業(yè)技術經(jīng)濟效益評價上的應用[J].農(nóng)業(yè)與技術,2007,27(3):120- 124.
[3] 余發(fā)軍,趙元黎,劉偉,等.主成分分析結(jié)合感知器在醫(yī)學光譜分類中的應用[J].光譜學與光譜分析,2008,28(10):2396- 2400.
[4] 張弘,趙惠祥,劉燕萍,等.基于主成分分析法的科技期刊評價方法[J].編輯學報,2008,20(1):87- 90.
[5] 王順久,張欣莉,侯玉,等.投影尋蹤聚類分析在環(huán)境質(zhì)量綜合評價中的應用[J]. 三峽環(huán)境與生態(tài),2002,24(3):74- 76.
[6] 林雨,牛建峰,徐穎.道路交通安全宏觀評價投影尋蹤法[J].安全與環(huán)境學報,2011,11(2):221-223.
[7] 封志明,鄭海霞,劉寶勤.基于遺傳投影尋蹤模型的農(nóng)業(yè)水資源利用效率綜合評價[J].農(nóng)業(yè)工程學報,2005,21(3):66- 70.
[8] 王瓊,朱令人.投影尋蹤聚類在新疆地震預報中的應用[J].內(nèi)陸地震,2005,19(1):8- 15.
[9] 王順久,侯玉,張欣莉,等.流域水資源承載能力的綜合評價方法[J].水利學報,2003(1):88- 92.
[10] 投影尋蹤模型在國民經(jīng)濟綜合評價中的應用[J]. 運籌與管理,2005,14(5):85- 88.
[11] 劉金福,楊林香,李振華,等.基于投影尋蹤模型的科技期刊學術水平評價研究[J].圖書情報工作,2009,53(20):144- 147.
[12] 周曉蔚,李春陽.基于投影尋蹤和遺傳算法的期刊質(zhì)量評價模型[J].情報科學,2013(2) .
[13] 劉睿劼,張智慧.基于兩階段降維的中國經(jīng)濟發(fā)展協(xié)調(diào)性評價[J].中國人口·資源與環(huán)境,2011,21(9):117- 122.
[14] 徐永智,華惠川.對主成分分析三點不足的改進[J].科技管理研究,2009(6) .
[15] 段俊杰,蔣美紅,資文華,等.基于遺傳算法優(yōu)化的投影尋蹤烤煙質(zhì)量綜合評價[J]. 湖北農(nóng)業(yè)科學,2012,51(10):2040- 2044.
[16] 俞立平,潘云濤,武夷山.學術期刊綜合評價數(shù)據(jù)標準化方法研究[J]. 圖書情報工作,2009 (12) .
[17] Yang SL,Wang S,Gong D N. Approach to Weighted Geometric Evaluation Based on Projection Pursuit [J].Engineering Sciences,2006,4 (1):85- 88.
[18] 李世玲. 基于投影尋蹤和遺傳算法的一種非線性系統(tǒng)建模方法[J].系統(tǒng)工程理論與實踐,2005,25(4):22- 28.