張 華,許 駿,鄭國勛
(1.長春工程學(xué)院計(jì)算機(jī)技術(shù)與工程學(xué)院;2.長白山歷史文化與VR技術(shù)重構(gòu)吉林省重點(diǎn)實(shí)驗(yàn)室,長春 130012)
省級重點(diǎn)實(shí)驗(yàn)室應(yīng)具有年齡和知識結(jié)構(gòu)合理的高素質(zhì)人員隊(duì)伍,具有良好的培養(yǎng)學(xué)術(shù)接班人的條件,能夠開展高水平和實(shí)質(zhì)性的國內(nèi)外學(xué)術(shù)交流與合作,擁有較先進(jìn)的儀器設(shè)備和完善的配套設(shè)施。這就需要從多角度、多維度對省級重點(diǎn)實(shí)驗(yàn)室進(jìn)行評價(jià),并能夠建立一套合理客觀、省時(shí)省力的評價(jià)模型,引導(dǎo)實(shí)驗(yàn)室創(chuàng)新突破、合理規(guī)劃布局,建成特色鮮明,科研水平強(qiáng),人才隊(duì)伍強(qiáng),學(xué)科深度交叉融合,協(xié)同創(chuàng)新突出,覆蓋基礎(chǔ)研究、應(yīng)用研究、試驗(yàn)開發(fā)和產(chǎn)業(yè)化等創(chuàng)新全鏈條的省級實(shí)驗(yàn)室,從而更好地服務(wù)地方經(jīng)濟(jì)發(fā)展建設(shè),引領(lǐng)重點(diǎn)產(chǎn)業(yè)高質(zhì)量發(fā)展。我們使用機(jī)器學(xué)習(xí)中的線性算法、決策樹算法、隨機(jī)森林算法對吉林省重點(diǎn)實(shí)驗(yàn)室的評價(jià)機(jī)制進(jìn)行模型構(gòu)建,并對模型進(jìn)行評價(jià)研究。
2020年2月科技部官方網(wǎng)站發(fā)布了《關(guān)于破除科技評價(jià)中“唯論文”不良導(dǎo)向的若干措施(試行)》,文件按照“分類評價(jià)、注重實(shí)效”的原則,制訂了“強(qiáng)化分類考核評價(jià)導(dǎo)向”等九大項(xiàng)具體措施。措施提出,要注重標(biāo)志性成果的質(zhì)量、貢獻(xiàn)和影響,對論文評價(jià)實(shí)行代表作制度,強(qiáng)化代表作同行評議,實(shí)行定量評價(jià)與定性評價(jià)相結(jié)合。李岱素[1]在廣東省重點(diǎn)實(shí)驗(yàn)室綜合績效測評指標(biāo)的選取上,選擇了R&D固定人員數(shù)、人均項(xiàng)目經(jīng)費(fèi)數(shù)、承擔(dān)省部級或以上課題項(xiàng)目數(shù)等13個(gè)測評指標(biāo)。王會君等[2]將重點(diǎn)實(shí)驗(yàn)室綜合能力用實(shí)驗(yàn)室投入能力、實(shí)驗(yàn)室教學(xué)與管理能力、科技創(chuàng)新能力、對外交流與合作能力來表征,并提出構(gòu)建重點(diǎn)實(shí)驗(yàn)室量化考核指標(biāo)體系,該體系由在室的客座研究人員數(shù)、R&D固定人員數(shù)等30個(gè)具體指標(biāo)組成。為了全面評價(jià)省級重點(diǎn)實(shí)驗(yàn)室的研究水平與學(xué)術(shù)貢獻(xiàn)、隊(duì)伍建設(shè)與人才培養(yǎng)、產(chǎn)學(xué)研集合、服務(wù)地方經(jīng)濟(jì)建設(shè)及資源共享等多方面業(yè)績,確定了吉林省重點(diǎn)實(shí)驗(yàn)室的評價(jià)模型因素包括實(shí)驗(yàn)室新增成果、新增成果增長率、團(tuán)隊(duì)成長性、團(tuán)隊(duì)穩(wěn)定性、方向發(fā)展均衡性、誠信度、基礎(chǔ)建設(shè)、社會服務(wù)、投入產(chǎn)出比9大方面。
吉林省重點(diǎn)實(shí)驗(yàn)室的評價(jià)指標(biāo)因素解析中包含了一級指標(biāo)、二級指標(biāo)[3]與指標(biāo)解釋,在指標(biāo)解釋中明確了如何界定各指標(biāo)成果的有效性,既包括客觀指標(biāo)也包括主觀指標(biāo),可以全方位地對省重點(diǎn)實(shí)驗(yàn)室進(jìn)行評價(jià),具體解析見表1。
表1 吉林省重點(diǎn)實(shí)驗(yàn)室的評價(jià)指標(biāo)因素解析
本研究使用回歸模型的典型思路,首先獲取數(shù)據(jù),可以分析數(shù)據(jù)結(jié)構(gòu),并劃分出訓(xùn)練集與測試集,然后可以對數(shù)據(jù)進(jìn)行可視化,通過相關(guān)系數(shù)的比較尋找各屬性的相關(guān)性,進(jìn)而試驗(yàn)不同屬性的組合。通常數(shù)據(jù)中有噪音存在,需要對數(shù)據(jù)進(jìn)行清理,文本和分類屬性與需要轉(zhuǎn)換成數(shù)值類型,部分屬性需要特征縮放。然后開始訓(xùn)練和評估訓(xùn)練集,可以用不同的回歸模型做試驗(yàn),如:簡單線性模型(Simple Linear)、決策樹模型(Decision Tree)、隨機(jī)森林模型(Random Forest)、人工神經(jīng)網(wǎng)絡(luò)模型(Artificial Neural Networks,簡稱ANN)等,訓(xùn)練結(jié)果可以通過K-折交叉驗(yàn)證進(jìn)行評估,通常選取10-折交叉驗(yàn)證,分析驗(yàn)證結(jié)果并微調(diào)模型從而得到最佳模型,確定最終的評價(jià)模型,最后使用此模型預(yù)測測試集,完成數(shù)據(jù)的回歸預(yù)測,具體的研究思路如圖1。因所有模型均要設(shè)置自變量X與因變量y,可以將表1中所有的二級指標(biāo)均作為自變量,評價(jià)得分作為因變量,放入前述各種模型進(jìn)行機(jī)器學(xué)習(xí),并根據(jù)評價(jià)指標(biāo)結(jié)果選擇最佳模型完成模型的構(gòu)建。
圖1 研究思路
本研究基于吉林省科學(xué)技術(shù)廳提供的2018年度88家省級重點(diǎn)實(shí)驗(yàn)室及2019年度110家省級重點(diǎn)實(shí)驗(yàn)室的年度考核匯總數(shù)據(jù)。數(shù)據(jù)中詳細(xì)統(tǒng)計(jì)了每類成果的填報(bào)數(shù)量與有效數(shù)量。
本研究根據(jù)各重點(diǎn)實(shí)驗(yàn)室上報(bào)的成果數(shù)據(jù)進(jìn)行分析,預(yù)測能夠獲得的評分,是典型的回歸問題?;貧w問題的典型性能指標(biāo)是均方根誤差(RMSE),它測量的是預(yù)測過程中預(yù)測錯(cuò)誤的標(biāo)準(zhǔn)偏差,結(jié)果呈現(xiàn)出正態(tài)分布,也稱高斯分布,是一種呈鐘形態(tài)的分布,符合“68-95-99.7”規(guī)則。RMSE的數(shù)學(xué)計(jì)算公式如下:
可以使用多種模型進(jìn)行回歸預(yù)測,本文選用簡單線性模型、決策樹模型、隨機(jī)森林模型及人工神經(jīng)網(wǎng)絡(luò)模型研究吉林省重點(diǎn)實(shí)驗(yàn)室的評價(jià)預(yù)測。機(jī)器學(xué)習(xí)框架可以選用Scikit-learn2.0,開發(fā)語言可以選用Python,數(shù)據(jù)存儲選用Excel文件。
3.4.1 簡單線性模型(Simple Linear)
簡單線性回歸是回歸預(yù)測中最簡單的一種方法,是擬合y=b0+b1×x這條直線的過程。通常是先隨機(jī)畫出一條直線,計(jì)算各個(gè)點(diǎn)相對于這條直線的誤差平方和,即
數(shù)據(jù)集中的各個(gè)屬性(自變量X)與預(yù)測結(jié)果(因變量y)通常是非常復(fù)雜的關(guān)系,而簡單線性模型要求自變量與因變量滿足線性關(guān)系,預(yù)測結(jié)果通常是差強(qiáng)人意的,尤其是訓(xùn)練數(shù)據(jù)不足時(shí)通常會出現(xiàn)過擬合現(xiàn)象,因此很少有應(yīng)用會使用簡單線性模型進(jìn)行預(yù)測。
3.4.2 決策樹模型(Decision Tree)
決策樹模型是一個(gè)非常強(qiáng)大的模型,它能夠從數(shù)據(jù)中找到復(fù)雜的非線性關(guān)系,既能實(shí)現(xiàn)分類預(yù)測也能實(shí)現(xiàn)回歸預(yù)測。決策樹同數(shù)據(jù)結(jié)構(gòu)中的樹類似,包含一個(gè)根結(jié)點(diǎn)、若干個(gè)內(nèi)部結(jié)點(diǎn)和若干個(gè)葉結(jié)點(diǎn),葉節(jié)點(diǎn)是不可再分的結(jié)點(diǎn),決策樹學(xué)習(xí)的目的是產(chǎn)生一棵泛化能力強(qiáng)的決策樹[4]。決策樹通常有3種常用算法,其劃分最優(yōu)屬性的依據(jù)不同,其中ID3算法采用信息增益,C4.5算法采用增益率,CART算法采用基尼指數(shù)。
每種模型在劃分訓(xùn)練集與測試集時(shí)都有運(yùn)氣的成分存在,所以決策樹模型也容易產(chǎn)生過擬合現(xiàn)象,此時(shí)可以使用K-折交叉驗(yàn)證對模型重新進(jìn)行評價(jià)。K-折交叉驗(yàn)證是把訓(xùn)練集數(shù)據(jù)分成K份(Kfolds),K一般取10,即分為10份,然后進(jìn)行10次驗(yàn)證。第1次時(shí),把最后1份數(shù)據(jù)做測試集,前面9份做訓(xùn)練集,得到一個(gè)被訓(xùn)練集擬合出的模型,然后使用此模型對測試集數(shù)據(jù)進(jìn)行預(yù)測,預(yù)測結(jié)果與真實(shí)結(jié)果比較得到第1次驗(yàn)證的準(zhǔn)確率;第2次時(shí),取倒數(shù)第2份數(shù)據(jù)做測試集,其余9份做訓(xùn)練集,重復(fù)第1次的過程,得到第2次驗(yàn)證的準(zhǔn)確率;依次類推,完成10次驗(yàn)證,得到10個(gè)模型,10個(gè)準(zhǔn)確率,10個(gè)混淆矩陣,10個(gè)平方誤差。取10個(gè)準(zhǔn)確率的平均值作為評價(jià)模型非常可觀的準(zhǔn)確率參數(shù),也可以取10個(gè)平方誤差的平均值作為評價(jià)參數(shù)。
3.4.3 隨機(jī)森林模型(Random Forest)
隨機(jī)森林模型是通過對特征的隨機(jī)子集進(jìn)行許多個(gè)決策樹的訓(xùn)練,然后對預(yù)測結(jié)果取平均值,因?yàn)槭窃诙鄠€(gè)模型的基礎(chǔ)之上建立模型,所以是一種集成學(xué)習(xí)的方法。
隨機(jī)森林模型同樣存在過擬合的現(xiàn)象,可以通過簡化模型、約束模型或獲得更多訓(xùn)練數(shù)據(jù)的方法解決,也可以通過Scikit-learn中的GridSearchCV進(jìn)行網(wǎng)格搜索,對模型中的各種超參數(shù)嘗試進(jìn)行不同的組合,并得到相應(yīng)模型的均方根誤差,進(jìn)而選擇出最佳超參數(shù)組合,得到最佳預(yù)測模型。隨機(jī)森林主要有6大參數(shù):n_estimators(子樹的數(shù)量,默認(rèn)值100)、max_depth(樹的最大生長深度)、min_samples_leaf(葉子的最小樣本數(shù)量)、min_samples_split(分支結(jié)點(diǎn)的最小樣本數(shù)量)、max_feature(最大選擇特征數(shù))、criterion(決策樹劃分標(biāo)準(zhǔn),默認(rèn)gini),除此之外,通常還需要嘗試bootstrap參數(shù),用于設(shè)置每次構(gòu)建決策樹時(shí)是否采用放回樣本的方式抽取數(shù)據(jù)集,即是否裝袋。
3.4.4 人工神經(jīng)網(wǎng)絡(luò)(ANN)
人工神經(jīng)網(wǎng)絡(luò)是通過模仿人類的神經(jīng)系統(tǒng)建造類似結(jié)構(gòu)完成學(xué)習(xí)的,包括輸入層、隱藏層和輸出層。在重點(diǎn)實(shí)驗(yàn)室的評價(jià)過程中,將各實(shí)驗(yàn)室的二級指標(biāo)數(shù)值作為神經(jīng)網(wǎng)絡(luò)中的輸入神經(jīng)元充當(dāng)自變量的角色,隱藏層是通過權(quán)重設(shè)置抓取各自變量之間的關(guān)系,從而體現(xiàn)一種現(xiàn)象或特征,比如,項(xiàng)目新增可支配經(jīng)費(fèi)越多,項(xiàng)目新增可支配經(jīng)費(fèi)環(huán)比增長率大概率也會越高。輸入層與隱藏層的各個(gè)神經(jīng)元的關(guān)系密切度用權(quán)重來表示,關(guān)系越密切,權(quán)重越大,并不是每一個(gè)輸入層的神經(jīng)元都與隱藏層的神經(jīng)元有關(guān),所以有些權(quán)重為0。隱藏層中需要計(jì)算損失函數(shù),進(jìn)而傳遞到輸出層進(jìn)行結(jié)果預(yù)測,完成正向傳播過程。常用的激活函數(shù)包括“閾值”函數(shù)、S函數(shù)(Sigmod函數(shù))、線性整流函數(shù)(ReLU)、雙曲正切函數(shù)。隱藏層中經(jīng)常使用ReLU函數(shù),輸出層中經(jīng)常使用S函數(shù)。激活函數(shù)的選擇對構(gòu)建整個(gè)神經(jīng)網(wǎng)絡(luò)有決定性意義,通過優(yōu)化損失函數(shù)來優(yōu)化神經(jīng)網(wǎng)絡(luò),完成正向傳播后,將損失函數(shù)反向傳播,通過梯度下降算法更新權(quán)重,再重新進(jìn)行正向傳播,此過程重復(fù)多次,使得損失函數(shù)下降,但損失函數(shù)并不是一直下降,其與學(xué)習(xí)速率有關(guān),速率越大,損失函數(shù)可能會變大。
使用機(jī)器學(xué)習(xí)模型結(jié)合歷年吉林省重點(diǎn)實(shí)驗(yàn)室的評價(jià)數(shù)據(jù)可以建立預(yù)測模型,并通過預(yù)測模型對當(dāng)前考核年度的實(shí)驗(yàn)室進(jìn)行評分預(yù)測,可以大大減少人工時(shí)間,為政府部門減少工作量、提高工作效率。在構(gòu)建預(yù)測模型前,需要大量的有效數(shù)據(jù),成果是否有效,還需要人工把關(guān)與掌控,同時(shí),為使模型預(yù)測結(jié)果更為準(zhǔn)確,降低預(yù)測誤差,需要多年多個(gè)實(shí)驗(yàn)室的真實(shí)數(shù)據(jù)積累,隨著吉林省重點(diǎn)實(shí)驗(yàn)室年度考核工作的逐步推進(jìn),數(shù)據(jù)將越來越多,模型可以進(jìn)行調(diào)整,以更好地實(shí)現(xiàn)評價(jià)預(yù)測。