李 君 高 雨 于海濤 李 菲
(1.哈爾濱工業(yè)大學(xué)圖書館,黑龍江 哈爾濱 150080;2.哈爾濱華德學(xué)院流程IT中心,黑龍江 哈爾濱 150025)
社會科學(xué)的繁榮與發(fā)展,是人類社會發(fā)展進(jìn)步的標(biāo)志,社會科學(xué)的研究水平和研究成果,是衡量一個國家綜合國力的重要構(gòu)成部分,對社會系統(tǒng)的發(fā)展具有重要的作用。而如何建立科學(xué)的哲學(xué)社會科學(xué)科研評價和激勵機(jī)制也是科研評價的重要議題。一方面,它對科研經(jīng)費(fèi)的撥轉(zhuǎn)、科研計(jì)劃的設(shè)計(jì)和制定以及對科研人才的培養(yǎng)有著強(qiáng)有力的導(dǎo)向作用;另一方面,它反映了一個國家、一個單位的科學(xué)研究水平和科技實(shí)力。近年來,對社會科學(xué)成果進(jìn)行評價是學(xué)術(shù)界普遍關(guān)注的問題,目前采用的評價方法一般可分為定性和定量評價這兩種。定性評價一般是通過同行評議來實(shí)現(xiàn),其能夠充分發(fā)揮同行專家的經(jīng)驗(yàn)和智慧,減少因信息不全而帶來的局限,因此在國內(nèi)外應(yīng)用十分廣泛,但也會因評議專家與被評議內(nèi)容之間的專業(yè)差異影響評價的公正性和客觀性。隨著科學(xué)計(jì)量學(xué)的興起,越來越多的科研機(jī)構(gòu)將文獻(xiàn)計(jì)量學(xué)、數(shù)學(xué)和經(jīng)濟(jì)學(xué)等學(xué)科的評價方法引入對科學(xué)成果的評價,并將其作為科研管理和決策的重要依據(jù)。定量評價引入社會科學(xué)領(lǐng)域后,在科研管理中逐漸得到廣泛應(yīng)用,但隨著一些高等院校和研究機(jī)構(gòu)將定量評價方法進(jìn)行簡單化以及過度應(yīng)用,該方法也遭到了不少的非議和責(zé)難。目前社會科學(xué)的評價方法一般將定性分析和定量分析相結(jié)合,通過同行評議來實(shí)現(xiàn)定性評價,同時也兼顧數(shù)量的因素,實(shí)現(xiàn)質(zhì)量和數(shù)量的統(tǒng)一。
定性評價和定量評價是社會科學(xué)評價的兩種基本方法。定性評價一般是通過同行評議來實(shí)現(xiàn),在學(xué)術(shù)水平相當(dāng)或略有差距的情況下,評議專家容易向自己熟悉的研究人員的項(xiàng)目、成果等傾斜[1]。定量評價按照數(shù)量的分析方法,從客觀量化的角度來評價社會科學(xué)成果,在科研管理中得到了廣泛應(yīng)用。許梅華運(yùn)用文獻(xiàn)計(jì)量學(xué)、層次結(jié)構(gòu)分析法、專家評審等方法,對人文社會科學(xué)成果評價指標(biāo)體系進(jìn)行了深入研究[2]。楊帥等運(yùn)用引用次數(shù)、相對影響力和社會網(wǎng)絡(luò)指標(biāo)來評價社會科學(xué)成果。王一華采用基于IF(JCR)、IF(Scopus)、H指數(shù)、SJR值、SNIP值的研究方法對期刊評價進(jìn)行研究[3]。劉春麗則提出了一種基于軟同行評議F1000因子的方法來對科學(xué)論文影響力進(jìn)行評價[4]。結(jié)果表明,任何一種評價方法都有適用范圍,一旦脫離這個適用范圍,就很容易出現(xiàn)問題[5-6]。目前許多社會科學(xué)成果評價出現(xiàn)問題,主要是沒有選擇合適的評價標(biāo)準(zhǔn)和評價方法造成的。姜春林等人認(rèn)為構(gòu)建科學(xué)、公正、合理的人文社會科學(xué)評價指標(biāo)體系,一直是研究機(jī)構(gòu)和學(xué)術(shù)界的共同愿望[7]。
機(jī)器學(xué)習(xí)作為多領(lǐng)域交叉學(xué)科,研究的核心是使用算法來解析數(shù)據(jù),從已知數(shù)據(jù)中學(xué)習(xí),然后在未知數(shù)據(jù)上做出決定或者進(jìn)行預(yù)測。它是一種數(shù)據(jù)分析的技術(shù),使得計(jì)算機(jī)能夠模擬人的學(xué)習(xí)方式,直接從數(shù)據(jù)中學(xué)習(xí)信息。在分類這個問題上,研究者常用的方法包括向量空間模型[8]、樸素貝葉斯方法(NBM)[9]、支持向量機(jī)(SVM)算法[10-12]、決策樹算法[13]、K-近鄰算法(KNN)[14-15]、隨機(jī)森林算法[16-17]。文獻(xiàn)中大多是用機(jī)器學(xué)習(xí)來對文本的主題分類,在對社會科學(xué)成果評價分類的應(yīng)用上少之又少。基于此,筆者研究如何利用機(jī)器學(xué)習(xí)的方法來鑒定社會科學(xué)成果,研究的科學(xué)成果包括著作、調(diào)研報告、期刊論文、會議論文、快報等各種類型文獻(xiàn),根據(jù)論文題名、摘要、關(guān)鍵詞、期刊、作者、基金等多種信息,構(gòu)造合適的屬性向量空間,再利用機(jī)器學(xué)習(xí)方法來識別不同獎項(xiàng)的論文類別,以提高社會科學(xué)成果評價效率,同時與專家評審、同行評議等相結(jié)合,提高社會科學(xué)成果評價的客觀性和全面性。
科學(xué)文獻(xiàn)是一個多維信息載體,其包含的信息包括科學(xué)成果的發(fā)表年代、期刊、作者、所屬國家、領(lǐng)域等,根據(jù)信息的所屬范圍可將其轉(zhuǎn)化為文獻(xiàn)具有的特征X:
其中xi(i=0,1,2,…,n)表示社會科學(xué)成果的特征描述,分別表示文獻(xiàn)的引文、發(fā)表年代、發(fā)表期刊、作者、機(jī)構(gòu)等。用n個特征來表示成果,特征值的大小表示影響力的大小。
基于機(jī)器學(xué)習(xí)的研究方法通常可分成如下幾個步驟:
(1)數(shù)據(jù)采集:根據(jù)任務(wù)確定需要的數(shù)據(jù)類型,搜集相應(yīng)數(shù)據(jù)并根據(jù)質(zhì)量進(jìn)行篩選。一般來說,為獲得高質(zhì)量的數(shù)據(jù),需要對數(shù)據(jù)進(jìn)行處理,包括缺失值處理、重復(fù)值處理、數(shù)據(jù)類型的轉(zhuǎn)換等。這里將采集的黑龍江省社會科學(xué)成果評選結(jié)果作為數(shù)據(jù)源,并結(jié)合數(shù)據(jù)庫檢索手段補(bǔ)充需要的屬性字段。
(2)特征選擇:根據(jù)特定的問題領(lǐng)域的性質(zhì),選擇出有明顯區(qū)分意義的特征。在選擇或設(shè)計(jì)特征的過程中,挖掘了若干容易提取、對不相關(guān)變形保持不變、對噪聲不敏感以及對區(qū)分不同類別的模式很有效的特征集,來構(gòu)建所需的特征向量空間。
(3)算法選擇:根據(jù)之前選擇的特征集來尋找可用于分類的函數(shù)。通過在函數(shù)空間中找到一組能夠?qū)σ阎獢?shù)據(jù)進(jìn)行擬合的函數(shù),來對未知數(shù)據(jù)的類別進(jìn)行分類。
(4)訓(xùn)練:利用訓(xùn)練數(shù)據(jù)的特性建立一個簡單的分類器。用已有的數(shù)據(jù),通過最優(yōu)化方法確定函數(shù)的參數(shù),參數(shù)確定后的函數(shù)就是訓(xùn)練得到的結(jié)果。搜集黑龍江省社會科學(xué)成果獲獎文獻(xiàn)數(shù)據(jù),將其劃分為訓(xùn)練集和測試集,分別用于對模型的測試和評估。
(5)評價:評價對于系統(tǒng)性能的改進(jìn)起著重要的作用。評價一個分類器的好壞,不僅要考慮分類器的精度,保證其在已知數(shù)據(jù)上具有很高的準(zhǔn)確率,同時也要考慮分類器的泛化能力,保證其具有識別和分類未知數(shù)據(jù)的能力。
分別使用樸素貝葉斯(NBM)、隨機(jī)森林(RFA)、支持向量機(jī)(SVM)以及K-近鄰算法(KNN)來對社會科學(xué)研究成果進(jìn)行分類,識別不同社會科學(xué)研究成果所屬的級別,包括一等獎、二等獎和三等獎等,以供社科成果鑒定評價參考。
(1)樸素貝葉斯(NBM):樸素貝葉斯法是基于貝葉斯定理以及特征之間條件獨(dú)立性的分類方法,在監(jiān)督學(xué)習(xí)領(lǐng)域有著很重要的應(yīng)用。對于給定的訓(xùn)練數(shù)據(jù),首先基于特征條件獨(dú)立假設(shè)學(xué)習(xí)輸入和輸出之間的聯(lián)合概率分布,在此基礎(chǔ)上,對于給定的輸入,利用貝葉斯定理求出其所屬的類別。研究結(jié)果表明樸素貝葉斯分類器是具有不錯的學(xué)習(xí)效率,同時也擁有不錯的分類效果的分類器之一[18]。
(2)隨機(jī)森林(RFA):隨機(jī)森林是一個通過建立多個決策樹,并將所有決策樹融合起來,得到一個更加準(zhǔn)確和穩(wěn)定的結(jié)果的分類器。對于一個樣本,經(jīng)過決策樹處理會得到一個分類結(jié)果,選擇所有決策樹的分類結(jié)果中最多的類別作為該樣本的最終分類。研究證明隨機(jī)森林預(yù)測準(zhǔn)確率高并且具有很好的噪聲容忍度,不容易產(chǎn)生過度擬合。
(3)支持向量機(jī)(SVM):支持向量機(jī)是一個用于二分類的機(jī)器學(xué)習(xí)模型,在統(tǒng)計(jì)分類以及回歸分析領(lǐng)域應(yīng)用廣泛。它是一種監(jiān)督學(xué)習(xí),通過在包含正負(fù)樣本的訓(xùn)練數(shù)據(jù)集找到幾何間隔最大的超平面,來對樣本中的正例和反例進(jìn)行分割,不僅保證對訓(xùn)練數(shù)據(jù)進(jìn)行分類具有很高的確信度,同時對未知的新實(shí)例有很好的分類預(yù)測能力。SVM是一種適用于小樣本學(xué)習(xí)的方法,不涉及概率相關(guān)知識,簡化了通常的分類和回歸等問題,同時也具有優(yōu)秀的泛化能力。
(4)K-近鄰(KNN):KNN分類算法是一種典型的非參數(shù)、有效、較流行的惰性學(xué)習(xí)方法,可用于回歸和分類任務(wù)。該方法檢查目標(biāo)數(shù)據(jù)點(diǎn)周圍的K個數(shù)據(jù)點(diǎn)的標(biāo)簽,選擇出現(xiàn)次數(shù)最多的標(biāo)簽對該目標(biāo)數(shù)據(jù)進(jìn)行歸類。由于其不對數(shù)據(jù)進(jìn)行任何假設(shè),因此可以用于各種各樣的問題。
(5)主成分分析(PCA):主成分分析作為一種數(shù)學(xué)方法和有力的數(shù)據(jù)分析工具,幾乎在所有學(xué)科中都有它的身影。其通過一個正交化線性變化,把原始的n維特征映射到k維上,這種k維全新的正交特征也被稱為主成分。通過將高維數(shù)據(jù)映射到低維空間,實(shí)現(xiàn)對數(shù)據(jù)的降維。在實(shí)際課題中,為了全面分析問題,往往提出很多與此有關(guān)的變量(或因素),因?yàn)槊總€變量都在不同程度上反映這個課題的某些信息。
選取陜西省社會科學(xué)界聯(lián)合會(網(wǎng)址:http://www.shaanxi.gov.cn/)的第11屆和第12屆社會科學(xué)期刊論文評選的所有獲獎?wù)撐暮偷?0屆評選中獲一等獎的論文作為原始數(shù)據(jù),如表1所示。
除去數(shù)據(jù)庫檢索不到的論文,共獲得198個樣本,其中一等獎15個,二等獎53個,三等獎130個。經(jīng)文獻(xiàn)調(diào)研挖掘確定論文質(zhì)量評價指標(biāo),選取其中便于量化且具有較好表征性的數(shù)據(jù),確定論文的特征向量空間,并基于社會科學(xué)論文特征列表采集每一篇論文的相應(yīng)數(shù)據(jù),構(gòu)建原始數(shù)據(jù)表,如表2所列。其中,發(fā)表年限從2016年開始至今,其他數(shù)據(jù)為實(shí)際采集數(shù)據(jù)。
表2 社會科學(xué)論文特征列表
為了消除不同評價指標(biāo)的量綱差異,使得數(shù)據(jù)不同指標(biāo)之間具備可比性,需要對數(shù)據(jù)進(jìn)行歸一化和標(biāo)準(zhǔn)化處理。選擇min-max標(biāo)準(zhǔn)化方法,對原始數(shù)據(jù)進(jìn)行變換,將其映射到0和1之間。轉(zhuǎn)換函數(shù)X如下:
其中,Xmax為樣本數(shù)據(jù)中的最大值,Xmin為樣本數(shù)據(jù)中的最小值。
為了測試不同分類算法的準(zhǔn)確性,選擇十折交叉驗(yàn)證的方法,輔助選擇合適的分類器。十折交叉驗(yàn)證通常是將數(shù)據(jù)集分成10份,輪流取出其中的一份數(shù)據(jù)作為測試數(shù)據(jù),其他數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)進(jìn)行試驗(yàn)。每一次實(shí)驗(yàn)都會得到一個相應(yīng)的正確率指標(biāo),取10次結(jié)果的平均正確率來估計(jì)算法精度。
按照機(jī)器學(xué)習(xí)的研究方法對數(shù)據(jù)作出處理,進(jìn)行十折交叉驗(yàn)證,得到不同分類器的指標(biāo)如下。
根據(jù)表3的結(jié)果,在使用原始數(shù)據(jù)時,隨機(jī)森林方法對數(shù)據(jù)進(jìn)行分類的準(zhǔn)確率要明顯高于其他幾個分類器,準(zhǔn)確率可以達(dá)到69.3%,支持向量機(jī)次之,準(zhǔn)確率為60%左右。對數(shù)據(jù)進(jìn)一步標(biāo)準(zhǔn)化處理之后,不同分類器的準(zhǔn)確率會得到進(jìn)一步提升,其中K-近鄰算法準(zhǔn)確率的提升幅度最大,從57.2%提高到了65.7%。在所有的結(jié)果中,使用隨機(jī)森林對數(shù)據(jù)進(jìn)行分類的準(zhǔn)確率都要好于其他幾個分類算法。
表3 基于十折交叉驗(yàn)證的多分類器測試結(jié)果
隨機(jī)選擇樣本集中150個作為訓(xùn)練集,并將剩余的48個數(shù)據(jù)作為測試數(shù)據(jù),使用隨機(jī)森林進(jìn)行分類得到的結(jié)果。根據(jù)結(jié)果,隨機(jī)森林對第三類三等獎的識別精度最高,準(zhǔn)確率為93%,對第一類和第二類的論文識別精度較低(見表4),這是數(shù)據(jù)量較少,樣本分布不均所致,收集更多的訓(xùn)練數(shù)據(jù)可以進(jìn)一步提高識別的準(zhǔn)確率。
表4 隨機(jī)森林算法三分類測試結(jié)果
為了提高3種獲獎?wù)撐牡姆诸惥?,對研究方法做了進(jìn)一步優(yōu)化:采用主成分分析對論文特征向量進(jìn)行降維。將社會科學(xué)論文特征列表x1~x14作為自變量,分類標(biāo)簽y作為因變量,輸入SPSS軟件平臺,進(jìn)行降維因子分析。所得結(jié)果見表5。
表5 主成分分析KMO與Bartlett檢驗(yàn)
KMO檢驗(yàn)是從比較原始變量之間的簡單相關(guān)系數(shù)和偏相關(guān)系數(shù)的相對大小出發(fā)及逆行的檢驗(yàn),該值越接近1,說明變量越適合進(jìn)行主成分分析。根據(jù)表5,KMO檢驗(yàn)值該值等于0.678,說明可以進(jìn)行因子分析。根據(jù)表6可以提取6個主成分,最后得到主成分系數(shù)矩陣PCA,如表7所示。
表6 主成分分析說明的變異數(shù)(擷取方法:主體組件分析)
表7 主成分分析主成分系數(shù)矩陣
使用主成分分析對原始數(shù)據(jù)進(jìn)行降維之后,使用隨機(jī)森林進(jìn)行分類可以使分類精度提高至77%。若將第一類和第二類的數(shù)據(jù)合并為一類,再進(jìn)行二分類,分類精度可以有少許提高,達(dá)到79%。
實(shí)驗(yàn)結(jié)果表明,將社會科學(xué)成果自動分類為一二三等獎等若干級別,用隨機(jī)森林算法來分類識別一二三等獎的論文,數(shù)據(jù)未經(jīng)標(biāo)準(zhǔn)化時,分類識別的準(zhǔn)確率為69.3%,標(biāo)準(zhǔn)化后分類識別的準(zhǔn)確率為70.8%。為進(jìn)一步提高模型的性能,使用主成分分析,可以從14個屬性特征中提取出6個主成分,再與隨機(jī)森林算法結(jié)合分類識別各獎項(xiàng)論文,識別準(zhǔn)確率可以達(dá)到79%,從而減少了不相干成分對分類結(jié)果的影響,進(jìn)一步提高了分類精度。
對人文社會科學(xué)成果進(jìn)行評價是科研管理工作中的一項(xiàng)重要內(nèi)容,常規(guī)專家評審、同行評議、引用次數(shù)或影響因子單指標(biāo)評價等評價方法存在一定片面性。筆者選取陜西省社會科學(xué)界聯(lián)合會網(wǎng)站連續(xù)3年的社會科學(xué)期刊論文一等獎、二等獎、三等獎?wù)撐募哉撐谋灰螖?shù)、發(fā)表年限、下載次數(shù)、影響因子、參考文獻(xiàn)數(shù)量、英文參考文獻(xiàn)數(shù)、作者個數(shù)、作者單位、合作單位、基金資助情況、是否有數(shù)理模型、圖表情況、案例情況和調(diào)研情況等14個論文屬性特征構(gòu)建論文特征屬性空間,并將論文獲獎等級作為輸出分類標(biāo)簽。數(shù)據(jù)經(jīng)最大最小化歸一化后,再用十折交叉驗(yàn)證法在樸素貝葉斯方法(NBM)、支持向量機(jī)(SVM)算法、最近鄰算法(KNN)、隨機(jī)森林算法(RFA)中選擇合適的分類器。結(jié)果表明,將機(jī)器學(xué)習(xí)的方法應(yīng)用于人文社會科學(xué)成果自動分類評價,可以提高社會科學(xué)成果評價效率,同時也保證識別的精度。使用機(jī)器學(xué)習(xí)結(jié)合論文多層次屬性建模,分類精度,有助于決策者做出準(zhǔn)確、客觀的評價。
首先,使用機(jī)器學(xué)習(xí)的方法來研究對社會科學(xué)成果進(jìn)行評價的可能性。機(jī)器學(xué)習(xí)多用于文本的主題分類,如對短文本話題分類、情感計(jì)算等,首次將機(jī)器學(xué)習(xí)方法用于社會科學(xué)成果評價分類。按照機(jī)器學(xué)習(xí)的處理流程完成了樣本數(shù)據(jù)的收集和清洗、分類算法的選擇和設(shè)計(jì)以及對算法的評估。在數(shù)據(jù)不充足的情況下,使用機(jī)器學(xué)習(xí)方法來對社會科學(xué)成果進(jìn)行分類可以取得比較高的準(zhǔn)確率。結(jié)果表明,使用機(jī)器學(xué)習(xí)方法進(jìn)行社會科學(xué)成果評價在提高評價效率的同時,也擁有較好的識別精度,可以對常規(guī)評價方法進(jìn)行補(bǔ)充。
其次,根據(jù)論文的屬性構(gòu)建適用于機(jī)器學(xué)習(xí)的特征空間??茖W(xué)文獻(xiàn)是一個多維信息載體,其包含的信息反映了科學(xué)成果的重要程度。為了更好地對其進(jìn)行量化,將其映射到特征空間,根據(jù)論文具有的自身屬性和外部屬性,構(gòu)建了適合機(jī)器學(xué)習(xí)分類器的社會科學(xué)論文屬性特征空間,并使用標(biāo)準(zhǔn)化方法來消除不同量綱的影響。該課題構(gòu)造的論文屬性特征空間具有較強(qiáng)的普適性,獲取便捷,可適用于與之相關(guān)的其他領(lǐng)域。
最后,科學(xué)選擇合適的分類方法。為了選擇出最好的分類器,課題采用了十折交叉驗(yàn)證法,使用不同分類器進(jìn)行實(shí)驗(yàn),選擇其中效果最好的隨機(jī)森林作為課題使用的分類器。為了減少不相干成分對分類結(jié)果的影響,進(jìn)一步使用主成分分析方法來對原始數(shù)據(jù)進(jìn)行降維,并對降維后的數(shù)據(jù)再分類,進(jìn)一步提高了分類精度。
為了進(jìn)一步驗(yàn)證基于機(jī)器學(xué)習(xí)分類方法的科學(xué)性和優(yōu)越性,還需要采集更多的數(shù)據(jù)進(jìn)行實(shí)驗(yàn),來降低數(shù)據(jù)規(guī)模小帶來的消極影響,如采集多個省份的數(shù)據(jù),以規(guī)避單個省份評獎規(guī)則可能存在的片面性。此外,還需采集更多的一二等獎的數(shù)據(jù),來消除數(shù)據(jù)分布的不平衡,提高分類器識別一二等獎的精度。