武曉芳,段 然,楊黎薇,段洪杰*
(1. 《地震研究》編輯部 云南 昆明 650224;2. 中國電信翼支付 上海 200000; 3. 云南地震臺 云南 昆明 650224)
科技期刊是傳承人類文明、薈萃科學(xué)發(fā)現(xiàn)、引領(lǐng)科技發(fā)展的重要載體,其直接體現(xiàn)著國家科技競爭力和文化軟實(shí)力,是進(jìn)軍世界科技強(qiáng)國的重要科技和文化基礎(chǔ)。建立科學(xué)的科技期刊綜合評價指標(biāo)體系將更加完整地統(tǒng)計(jì)科技期刊的各項(xiàng)計(jì)量指標(biāo)和高效地進(jìn)行期刊文獻(xiàn)計(jì)量和評價工作,對核心期刊遴選、推進(jìn)知識服務(wù)系統(tǒng)發(fā)展具有重要意義。
我國期刊評價系統(tǒng)眾多,評價指標(biāo)與結(jié)果各不相同,但主要是采用文獻(xiàn)計(jì)量學(xué)、定量與定性分析相結(jié)合對科技期刊進(jìn)行評價[1-2]。邱殿明等[3]研究了科技期刊影響因子與其相關(guān)評價指標(biāo)的關(guān)系,從地球科學(xué)綜合類期刊中選取13種中文類期刊作為研究對象,根據(jù)評價指標(biāo)體系的選擇原則和影響因子的重要性,并利用灰色關(guān)聯(lián)分析方法進(jìn)行了影響因子與其相關(guān)的總被引頻次、即年指標(biāo)、他用率、平均引文數(shù)、地區(qū)分布數(shù)和基金論文比關(guān)系分析。徐小瑩等[4]用次聚類算法和主成分分析方法設(shè)計(jì)了一個指標(biāo)獨(dú)立性指數(shù),并以此對多個指標(biāo)進(jìn)行分組合并,從而獲得了少數(shù)高獨(dú)立性代表指標(biāo)。馬衛(wèi)華等[5]采用主成分分析法對文獻(xiàn)計(jì)量中常用的9個指標(biāo)進(jìn)行降維處理,提出了一個能有效反映科技期刊質(zhì)量的評價體系,并以廣東省53種科技核心期刊為例進(jìn)行了評價。毛國敏等[6-8]通過多種途徑研究了期刊指標(biāo)的各項(xiàng)特征,如探討單刊論文全時域下載次數(shù)與被引次數(shù)2個變量之間的關(guān)系,在考慮原始數(shù)據(jù)概率密度分布的基礎(chǔ)上對原數(shù)據(jù)進(jìn)行變換,并運(yùn)用線性回歸研究期刊論文下載次數(shù)與被引次數(shù)2個變量之間的關(guān)系;對有權(quán)威的指標(biāo)進(jìn)行篩選,試圖從中尋找能反映期刊質(zhì)量的少量指標(biāo);運(yùn)用非線性迭代計(jì)算方法模擬,以獲得更接近實(shí)際情況的期刊論文被引次數(shù)密度分布情況。
上述眾多研究方法主要是通過使用權(quán)重分析、線性回歸等傳統(tǒng)數(shù)學(xué)計(jì)算方法來實(shí)現(xiàn)的。神經(jīng)網(wǎng)絡(luò)可以通過復(fù)雜的網(wǎng)絡(luò)計(jì)算從眾多原始特征中找出高級特征,從而達(dá)到更好的擬合效果,這些高級特征很多都是之前傳統(tǒng)的計(jì)算方法無法構(gòu)造和計(jì)算出來的。2010年前后,神經(jīng)網(wǎng)絡(luò)技術(shù)取得重大突破,全球有影響力的大規(guī)模圖像分類挑戰(zhàn)賽ImageNet在2011年獲勝的神經(jīng)網(wǎng)絡(luò)模型精度只有74.3%(top5)。到了2012年,由Alex Krizhevsky帶領(lǐng)并由Geoffrey Hinton提供建議的小組實(shí)現(xiàn)了83.6%(top5)的精度——這是一項(xiàng)重大突破。目前神經(jīng)網(wǎng)絡(luò)的感知能力和對圖像的識別能力已經(jīng)超過人類。在神經(jīng)網(wǎng)絡(luò)的開發(fā)工具中,Keras是為了讓人類易于理解而專門設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)開發(fā)工具,其得到了較廣泛的運(yùn)用,如歐洲核子研究中心(CERN)多年來一直使用基于決策樹的方法來分析來自大型強(qiáng)子對撞機(jī)(LHC)ATLAS 探測器的粒子數(shù)據(jù),但CERN 最終轉(zhuǎn)向基于Keras 的深度神經(jīng)網(wǎng)絡(luò),這是因?yàn)樗男阅芨?,而且在大型?shù)據(jù)集上更易于訓(xùn)練。
本文基于2019版《中國科技期刊引證報(bào)告》提供的期刊引證數(shù)據(jù)和基于Keras 的深度神經(jīng)網(wǎng)絡(luò)模型分析各項(xiàng)期刊指標(biāo)與期刊質(zhì)量之間的關(guān)系。
建模使用評價數(shù)據(jù)主要來源于2019 版《中國科技期刊引證報(bào)告》中的地球科學(xué)期刊,選取了143種期刊的20類引證指標(biāo),包括擴(kuò)展總被引頻次、擴(kuò)展影響因子、擴(kuò)展即年指標(biāo)、擴(kuò)展他引率、擴(kuò)展引用刊數(shù)、擴(kuò)展學(xué)科影響指標(biāo)、擴(kuò)展學(xué)科擴(kuò)散指標(biāo)、擴(kuò)展被引半衰期、擴(kuò)展H指標(biāo)、來源文獻(xiàn)量、文獻(xiàn)選出率、平均引文數(shù)、平均作者數(shù)、地區(qū)分布數(shù)、機(jī)構(gòu)分布數(shù)等作為數(shù)據(jù)源。
筆者設(shè)計(jì)了期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu),該結(jié)構(gòu)由多個權(quán)重矩陣神經(jīng)元運(yùn)算堆疊構(gòu)成。使用期刊指標(biāo)數(shù)據(jù)集對深度神經(jīng)網(wǎng)絡(luò)進(jìn)行反復(fù)訓(xùn)練,通過不斷優(yōu)化神經(jīng)網(wǎng)絡(luò)的內(nèi)部權(quán)重使神經(jīng)網(wǎng)絡(luò)能夠識別出期刊指標(biāo)的高級特征。期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)模型主要由權(quán)重矩陣、激活函數(shù)、損失函數(shù)、優(yōu)化器運(yùn)算組成。
2.1.1 權(quán)重矩陣
期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)模型由2個神經(jīng)網(wǎng)絡(luò)層堆疊構(gòu)成,每一層的神經(jīng)網(wǎng)絡(luò)層的權(quán)重矩陣的運(yùn)算公式是:
其中,inputs是輸入矩陣,kernel是由神經(jīng)網(wǎng)絡(luò)層自動創(chuàng)建的權(quán)重矩陣,bias是由神經(jīng)網(wǎng)絡(luò)層自動創(chuàng)建的偏差向量矩陣,activation是按逐個元素計(jì)算的激活函數(shù),dot是點(diǎn)積運(yùn)算。第一層神經(jīng)網(wǎng)絡(luò)層的輸入?yún)?shù)(input)為期刊指標(biāo)數(shù)據(jù)集,第二層神經(jīng)網(wǎng)絡(luò)層的輸入?yún)?shù)為前一層神經(jīng)網(wǎng)絡(luò)層輸出的數(shù)據(jù)集(output)。單獨(dú)的一個權(quán)重計(jì)算的神經(jīng)元結(jié)構(gòu)如圖1所示。
圖1 神經(jīng)元Fig.1 Neurons
其中,x1、x2…是輸入的維度,即input;W1、W2是權(quán)重,即kernel;b是偏差向量矩陣,即bias;A是激活函數(shù)activation。
2.1.2 激活函數(shù)
在期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)運(yùn)算中,如果輸入值和矩陣的運(yùn)算是線性的,那么多個線性函數(shù)的組合仍然是線性函數(shù)。因?yàn)榫€性計(jì)算模型的表達(dá)能力有限,所以需要用非線性函數(shù)對每一個神經(jīng)網(wǎng)絡(luò)層進(jìn)行激活,并將期刊指標(biāo)的特征由線性特征轉(zhuǎn)化為非線性特征,期刊指標(biāo)的激活函數(shù)使用了Relu和Sigmoid激活函數(shù)。
Relu激活函數(shù)的運(yùn)算公式是:
期刊指標(biāo)的各項(xiàng)數(shù)據(jù)都為正數(shù),在運(yùn)算過程中不存在梯度飽和的問題。無論前向傳播還是反向傳播,計(jì)算速度都很快。期刊指標(biāo)的Relu函數(shù)圖像見圖2。
圖2 Relu激活函數(shù)Fig.2 Relu activation
Sigmoid激活函數(shù)的運(yùn)算公式為:
期刊指標(biāo)Sigmoid函數(shù)的評估結(jié)果輸出映射在(0,1)之間,梯度計(jì)算簡單,不易出現(xiàn)訓(xùn)練速度慢的問題,求導(dǎo)容易。期刊指標(biāo)的Sigmoid函數(shù)圖像如圖3所示。
圖3 Sigmoid激活函數(shù)Fig.3 Sigmoid activation
在期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)模型中增加激活函數(shù)的運(yùn)用可以有效提升神經(jīng)網(wǎng)絡(luò)模型的泛化能力,進(jìn)而增加對新的期刊指標(biāo)樣本的適應(yīng)能力。
2.1.3 損失函數(shù)
損失函數(shù)用于計(jì)算神經(jīng)網(wǎng)絡(luò)每次迭代計(jì)算的期刊指標(biāo)的結(jié)果與真實(shí)值的差距,從而指導(dǎo)下一步訓(xùn)練的方向。期刊指標(biāo)深度神經(jīng)網(wǎng)絡(luò)模型使用binary_ crossentropy 損失函數(shù),數(shù)學(xué)公式為:
其中,y是期刊指標(biāo)的評判結(jié)果,p(y)是所有N個期刊指標(biāo)的預(yù)測概率。對于每一個期刊指標(biāo)(y=1),它增加了log(p(y))的損失,概率越大,增加的越小。
2.1.4 優(yōu)化器
優(yōu)化運(yùn)算尋求的是期刊指標(biāo)的函數(shù)局部的最優(yōu)解,求得的是函數(shù)在小范圍內(nèi)的一個最優(yōu)值,這使得期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)模型在一定范圍內(nèi)的識別能力可以逼近一個極限值,即實(shí)現(xiàn)梯度下降。在幾種優(yōu)化器中,Adam優(yōu)化器對下降梯度的一階矩估計(jì)(First Moment Estimation,即梯度的均值)和二階矩估計(jì)(Second Moment Estimation,即梯度的未中心化的方差)進(jìn)行綜合計(jì)算,以求出更新的步長。參數(shù)的更新不會受到梯度的伸縮變換影響,其能夠自動調(diào)整期刊指標(biāo)深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的學(xué)習(xí)率,并解決期刊指標(biāo)的目標(biāo)函數(shù)不穩(wěn)定、梯度稀疏的問題,從而提高準(zhǔn)確率、降低損失率(損失率越低,計(jì)算結(jié)果越接近真實(shí)值)。
根據(jù)2019版《中國科技期刊引證報(bào)告》提供的20種期刊指標(biāo)設(shè)計(jì)深度神經(jīng)網(wǎng)絡(luò)模型,設(shè)計(jì)應(yīng)充分考慮期刊指標(biāo)的數(shù)據(jù)特性:①期刊指標(biāo)的訓(xùn)練數(shù)據(jù)量??;②期刊指標(biāo)的數(shù)據(jù)維度是二維;③期刊指標(biāo)的數(shù)據(jù)表達(dá)方式是結(jié)構(gòu)化數(shù)據(jù)等。期刊指標(biāo)深度神經(jīng)網(wǎng)絡(luò)模型的第一步工作是將20種期刊指標(biāo)數(shù)據(jù)集編碼后通過聯(lián)結(jié)層輸入到神經(jīng)網(wǎng)絡(luò)中,具體如圖4所示。
圖4 20種期刊指標(biāo)編碼后輸入到神經(jīng)網(wǎng)絡(luò)層Fig.4 Inputting encoded 20 journal indicators to neural network layer
第二步工作是將標(biāo)量化后的期刊指標(biāo)數(shù)據(jù)集以20個維度輸入給第一層神經(jīng)網(wǎng)絡(luò)。第一層神經(jīng)網(wǎng)絡(luò)經(jīng)過神經(jīng)網(wǎng)絡(luò)的權(quán)重計(jì)算后用Rule激活使數(shù)據(jù)非線性化,再添加dropout 正則化層以避免過擬合,然后將數(shù)據(jù)輸入給第二層神經(jīng)網(wǎng)絡(luò)。第二層神經(jīng)網(wǎng)絡(luò)經(jīng)過權(quán)重計(jì)算后用Sigmoid激活使數(shù)據(jù)非線性化,使用inary_crossentropy 損失函數(shù)和Adam優(yōu)化運(yùn)算,通過迭代訓(xùn)練使神經(jīng)網(wǎng)絡(luò)感知識別能力在局部范圍內(nèi)逼近一個極限值。期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖5所示。
圖5 期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.5 Model structure of journal indicators based on deep neural network
為了讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)影響力大的期刊指標(biāo)的高級特征,本文使用2019版《中國科技期刊引證報(bào)告》中的地球科學(xué)期刊數(shù)據(jù),即地球科學(xué)綜合、地理學(xué)、地球物理學(xué)、地質(zhì)學(xué)共143種期刊的20項(xiàng)期刊指標(biāo)數(shù)據(jù)對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。為避免主觀因素,我們將2019 年《科學(xué)引文索引》(SCI)和《工程索引》(EI)收錄的期刊視為影響力大的期刊,其他期刊則視為影響力不大的期刊,據(jù)此得到19種影響力大的期刊和124種影響力不大的期刊。期刊指標(biāo)數(shù)據(jù)集進(jìn)行了如下處理。
①漢字編碼:由于保存神經(jīng)網(wǎng)絡(luò)權(quán)重文件的HDF5文件格式不能處理漢字,故20項(xiàng)期刊指標(biāo)的漢字名稱用每個漢字拼音的首字母代替。
②梯度爆炸:143種期刊的期刊指標(biāo)有缺數(shù)問題,導(dǎo)致神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中出現(xiàn)梯度爆炸,將缺數(shù)的期刊指標(biāo)空白用0代替后得以解決。
③樣本不平衡:影響力大的期刊和影響力不大的期刊比例是19∶124,樣本嚴(yán)重不平衡,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時需要調(diào)節(jié)正負(fù)樣本的權(quán)重。
隨機(jī)從期刊指標(biāo)的數(shù)據(jù)集中取20%的數(shù)據(jù)用來驗(yàn)證準(zhǔn)確率。經(jīng)過10個迭代的訓(xùn)練,期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)模型的校驗(yàn)準(zhǔn)確率快速達(dá)到了89.66%,具體如圖6所示。
由圖6可見,隨著訓(xùn)練迭代次數(shù)的增加,訓(xùn)練準(zhǔn)確率(灰色線)和校驗(yàn)準(zhǔn)確率(黑色線)不斷上升。訓(xùn)練準(zhǔn)確率高于校驗(yàn)準(zhǔn)確率,存在一定的過擬合。
圖6 期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)校驗(yàn)準(zhǔn)確率Fig.6 Verification accuracy of journal indicators based on deep neural network
訓(xùn)練后得到期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)模型的校驗(yàn)損失率為32%,如圖7所示。
圖7 期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)校驗(yàn)損失率Fig.7 Verification loss rate of journal indicators based on deep neural network
把高維向量進(jìn)行可視化,將期刊指標(biāo)深度神經(jīng)網(wǎng)絡(luò)模型的32維向量和18767組數(shù)據(jù)投影到一個三維坐標(biāo)系中。同一個類別的向量彼此靠近,形成了界限明顯的簇,證明期刊指標(biāo)深度神經(jīng)網(wǎng)絡(luò)的識別效果好,具體如圖8所示。
圖8 期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)高維向量化Fig.8 High-dimensional vectorization of journal indicators based on deep neural network
期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練時處于欠擬合與過擬合之間,證明神經(jīng)網(wǎng)絡(luò)模型的設(shè)計(jì)(神經(jīng)網(wǎng)絡(luò)的層數(shù)、神經(jīng)網(wǎng)絡(luò)的容量大小)達(dá)到了理想的狀態(tài)。使用期刊指標(biāo)數(shù)據(jù)集訓(xùn)練后的深度神經(jīng)網(wǎng)絡(luò)模型可以快速、準(zhǔn)確、高效地評估質(zhì)量,還能找到提高期刊質(zhì)量需要關(guān)注的重點(diǎn)指標(biāo),避免了使用人為經(jīng)驗(yàn)和傳統(tǒng)數(shù)學(xué)運(yùn)算,且避免了成本高且耗時、挑選標(biāo)準(zhǔn)很難統(tǒng)一、無法量化的問題,顯著提高了簡便程度、工作效率和準(zhǔn)確率。深度神經(jīng)網(wǎng)絡(luò)模型可以實(shí)現(xiàn)非線性化的數(shù)據(jù)擬合,并可以從眾多期刊特征中找出過去憑經(jīng)驗(yàn)無法找出和憑傳統(tǒng)數(shù)學(xué)方法無法計(jì)算出來的模型,但這不意味著一定需要上千萬級的數(shù)據(jù)來讓深度神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)和訓(xùn)練。
本文設(shè)計(jì)的合理的深度神經(jīng)網(wǎng)絡(luò)模型在小數(shù)據(jù)量的情況下得到了極高的準(zhǔn)確率,訓(xùn)練后的期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)模型在識別各項(xiàng)期刊指標(biāo)時Sigmoid激活函數(shù)輸出一個介于0~1之間的概率值,通過其可以快速評估某一個期刊是不是有影響力的期刊的概率。對特定期刊可以虛增某個期刊指標(biāo)的值,進(jìn)而觀察評估概率的增加幅度,由此可確定特定的期刊短期內(nèi)最有效果的指標(biāo),為快速提高期刊影響力指明 方向。
隨著深度神經(jīng)網(wǎng)絡(luò)技術(shù)的快速興起,很多傳統(tǒng)方法無法解決的難題都找到了解決的途徑,不依賴人工經(jīng)驗(yàn)和傳統(tǒng)數(shù)學(xué)計(jì)算方法的期刊指標(biāo)的研究解決了以往的難題,具有重要意義。本文提出的期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)模型經(jīng)過訓(xùn)練后不需要依賴人工經(jīng)驗(yàn)挑選單一的期刊指標(biāo)及用傳統(tǒng)數(shù)學(xué)方法對各種期刊指標(biāo)進(jìn)行數(shù)學(xué)建模和運(yùn)算,可通過對深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練識別出期刊指標(biāo)的內(nèi)在高級特征,而這些高經(jīng)特征是憑以往經(jīng)驗(yàn)和傳統(tǒng)方法無法找出來的。深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練結(jié)果和對結(jié)果的進(jìn)一步分析表明基于Keras的期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)模型能夠更加高效、更加準(zhǔn)確地反映期刊指標(biāo)的內(nèi)在高級特征,能為定量分析期刊的質(zhì)量和期刊的辦刊方向提供有力保證。■