亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Keras神經(jīng)網(wǎng)絡(luò)模型的科技期刊評價指標(biāo)分析

2022-08-16 10:39:38武曉芳楊黎薇段洪杰

天津科技 2022年8期

關(guān)鍵詞：科技期刊運(yùn)算神經(jīng)網(wǎng)絡(luò)

武曉芳，段然，楊黎薇，段洪杰*

(1. 《地震研究》編輯部云南昆明 650224；2. 中國電信翼支付上海 200000； 3. 云南地震臺云南昆明 650224)

0 引言

科技期刊是傳承人類文明、薈萃科學(xué)發(fā)現(xiàn)、引領(lǐng)科技發(fā)展的重要載體，其直接體現(xiàn)著國家科技競爭力和文化軟實(shí)力，是進(jìn)軍世界科技強(qiáng)國的重要科技和文化基礎(chǔ)。建立科學(xué)的科技期刊綜合評價指標(biāo)體系將更加完整地統(tǒng)計(jì)科技期刊的各項(xiàng)計(jì)量指標(biāo)和高效地進(jìn)行期刊文獻(xiàn)計(jì)量和評價工作，對核心期刊遴選、推進(jìn)知識服務(wù)系統(tǒng)發(fā)展具有重要意義。

我國期刊評價系統(tǒng)眾多，評價指標(biāo)與結(jié)果各不相同，但主要是采用文獻(xiàn)計(jì)量學(xué)、定量與定性分析相結(jié)合對科技期刊進(jìn)行評價[1-2]。邱殿明等[3]研究了科技期刊影響因子與其相關(guān)評價指標(biāo)的關(guān)系，從地球科學(xué)綜合類期刊中選取13種中文類期刊作為研究對象，根據(jù)評價指標(biāo)體系的選擇原則和影響因子的重要性，并利用灰色關(guān)聯(lián)分析方法進(jìn)行了影響因子與其相關(guān)的總被引頻次、即年指標(biāo)、他用率、平均引文數(shù)、地區(qū)分布數(shù)和基金論文比關(guān)系分析。徐小瑩等[4]用次聚類算法和主成分分析方法設(shè)計(jì)了一個指標(biāo)獨(dú)立性指數(shù)，并以此對多個指標(biāo)進(jìn)行分組合并，從而獲得了少數(shù)高獨(dú)立性代表指標(biāo)。馬衛(wèi)華等[5]采用主成分分析法對文獻(xiàn)計(jì)量中常用的9個指標(biāo)進(jìn)行降維處理，提出了一個能有效反映科技期刊質(zhì)量的評價體系，并以廣東省53種科技核心期刊為例進(jìn)行了評價。毛國敏等[6-8]通過多種途徑研究了期刊指標(biāo)的各項(xiàng)特征，如探討單刊論文全時域下載次數(shù)與被引次數(shù)2個變量之間的關(guān)系，在考慮原始數(shù)據(jù)概率密度分布的基礎(chǔ)上對原數(shù)據(jù)進(jìn)行變換，并運(yùn)用線性回歸研究期刊論文下載次數(shù)與被引次數(shù)2個變量之間的關(guān)系；對有權(quán)威的指標(biāo)進(jìn)行篩選，試圖從中尋找能反映期刊質(zhì)量的少量指標(biāo)；運(yùn)用非線性迭代計(jì)算方法模擬，以獲得更接近實(shí)際情況的期刊論文被引次數(shù)密度分布情況。

上述眾多研究方法主要是通過使用權(quán)重分析、線性回歸等傳統(tǒng)數(shù)學(xué)計(jì)算方法來實(shí)現(xiàn)的。神經(jīng)網(wǎng)絡(luò)可以通過復(fù)雜的網(wǎng)絡(luò)計(jì)算從眾多原始特征中找出高級特征，從而達(dá)到更好的擬合效果，這些高級特征很多都是之前傳統(tǒng)的計(jì)算方法無法構(gòu)造和計(jì)算出來的。2010年前后，神經(jīng)網(wǎng)絡(luò)技術(shù)取得重大突破，全球有影響力的大規(guī)模圖像分類挑戰(zhàn)賽ImageNet在2011年獲勝的神經(jīng)網(wǎng)絡(luò)模型精度只有74.3%(top5)。到了2012年，由Alex Krizhevsky帶領(lǐng)并由Geoffrey Hinton提供建議的小組實(shí)現(xiàn)了83.6%(top5)的精度——這是一項(xiàng)重大突破。目前神經(jīng)網(wǎng)絡(luò)的感知能力和對圖像的識別能力已經(jīng)超過人類。在神經(jīng)網(wǎng)絡(luò)的開發(fā)工具中，Keras是為了讓人類易于理解而專門設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)開發(fā)工具，其得到了較廣泛的運(yùn)用，如歐洲核子研究中心(CERN)多年來一直使用基于決策樹的方法來分析來自大型強(qiáng)子對撞機(jī)(LHC)ATLAS 探測器的粒子數(shù)據(jù)，但CERN 最終轉(zhuǎn)向基于Keras 的深度神經(jīng)網(wǎng)絡(luò)，這是因?yàn)樗男阅芨?，而且在大型?shù)據(jù)集上更易于訓(xùn)練。

本文基于2019版《中國科技期刊引證報(bào)告》提供的期刊引證數(shù)據(jù)和基于Keras 的深度神經(jīng)網(wǎng)絡(luò)模型分析各項(xiàng)期刊指標(biāo)與期刊質(zhì)量之間的關(guān)系。

1 數(shù)據(jù)來源

建模使用評價數(shù)據(jù)主要來源于2019 版《中國科技期刊引證報(bào)告》中的地球科學(xué)期刊，選取了143種期刊的20類引證指標(biāo)，包括擴(kuò)展總被引頻次、擴(kuò)展影響因子、擴(kuò)展即年指標(biāo)、擴(kuò)展他引率、擴(kuò)展引用刊數(shù)、擴(kuò)展學(xué)科影響指標(biāo)、擴(kuò)展學(xué)科擴(kuò)散指標(biāo)、擴(kuò)展被引半衰期、擴(kuò)展H指標(biāo)、來源文獻(xiàn)量、文獻(xiàn)選出率、平均引文數(shù)、平均作者數(shù)、地區(qū)分布數(shù)、機(jī)構(gòu)分布數(shù)等作為數(shù)據(jù)源。

2 深度神經(jīng)網(wǎng)絡(luò)模型

2.1 模型設(shè)計(jì)及原理

筆者設(shè)計(jì)了期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)，該結(jié)構(gòu)由多個權(quán)重矩陣神經(jīng)元運(yùn)算堆疊構(gòu)成。使用期刊指標(biāo)數(shù)據(jù)集對深度神經(jīng)網(wǎng)絡(luò)進(jìn)行反復(fù)訓(xùn)練，通過不斷優(yōu)化神經(jīng)網(wǎng)絡(luò)的內(nèi)部權(quán)重使神經(jīng)網(wǎng)絡(luò)能夠識別出期刊指標(biāo)的高級特征。期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)模型主要由權(quán)重矩陣、激活函數(shù)、損失函數(shù)、優(yōu)化器運(yùn)算組成。

2.1.1 權(quán)重矩陣

期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)模型由2個神經(jīng)網(wǎng)絡(luò)層堆疊構(gòu)成，每一層的神經(jīng)網(wǎng)絡(luò)層的權(quán)重矩陣的運(yùn)算公式是：

其中，inputs是輸入矩陣，kernel是由神經(jīng)網(wǎng)絡(luò)層自動創(chuàng)建的權(quán)重矩陣，bias是由神經(jīng)網(wǎng)絡(luò)層自動創(chuàng)建的偏差向量矩陣，activation是按逐個元素計(jì)算的激活函數(shù)，dot是點(diǎn)積運(yùn)算。第一層神經(jīng)網(wǎng)絡(luò)層的輸入?yún)?shù)(input)為期刊指標(biāo)數(shù)據(jù)集，第二層神經(jīng)網(wǎng)絡(luò)層的輸入?yún)?shù)為前一層神經(jīng)網(wǎng)絡(luò)層輸出的數(shù)據(jù)集(output)。單獨(dú)的一個權(quán)重計(jì)算的神經(jīng)元結(jié)構(gòu)如圖1所示。

圖1 神經(jīng)元Fig.1 Neurons

其中，x1、x2…是輸入的維度，即input；W1、W2是權(quán)重，即kernel；b是偏差向量矩陣，即bias；A是激活函數(shù)activation。

2.1.2 激活函數(shù)

在期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)運(yùn)算中，如果輸入值和矩陣的運(yùn)算是線性的，那么多個線性函數(shù)的組合仍然是線性函數(shù)。因?yàn)榫€性計(jì)算模型的表達(dá)能力有限，所以需要用非線性函數(shù)對每一個神經(jīng)網(wǎng)絡(luò)層進(jìn)行激活，并將期刊指標(biāo)的特征由線性特征轉(zhuǎn)化為非線性特征，期刊指標(biāo)的激活函數(shù)使用了Relu和Sigmoid激活函數(shù)。

Relu激活函數(shù)的運(yùn)算公式是：

期刊指標(biāo)的各項(xiàng)數(shù)據(jù)都為正數(shù)，在運(yùn)算過程中不存在梯度飽和的問題。無論前向傳播還是反向傳播，計(jì)算速度都很快。期刊指標(biāo)的Relu函數(shù)圖像見圖2。

圖2 Relu激活函數(shù)Fig.2 Relu activation

Sigmoid激活函數(shù)的運(yùn)算公式為：

期刊指標(biāo)Sigmoid函數(shù)的評估結(jié)果輸出映射在(0，1)之間，梯度計(jì)算簡單，不易出現(xiàn)訓(xùn)練速度慢的問題，求導(dǎo)容易。期刊指標(biāo)的Sigmoid函數(shù)圖像如圖3所示。

圖3 Sigmoid激活函數(shù)Fig.3 Sigmoid activation

在期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)模型中增加激活函數(shù)的運(yùn)用可以有效提升神經(jīng)網(wǎng)絡(luò)模型的泛化能力，進(jìn)而增加對新的期刊指標(biāo)樣本的適應(yīng)能力。

2.1.3 損失函數(shù)

損失函數(shù)用于計(jì)算神經(jīng)網(wǎng)絡(luò)每次迭代計(jì)算的期刊指標(biāo)的結(jié)果與真實(shí)值的差距，從而指導(dǎo)下一步訓(xùn)練的方向。期刊指標(biāo)深度神經(jīng)網(wǎng)絡(luò)模型使用binary_ crossentropy 損失函數(shù)，數(shù)學(xué)公式為：

其中，y是期刊指標(biāo)的評判結(jié)果，p(y)是所有N個期刊指標(biāo)的預(yù)測概率。對于每一個期刊指標(biāo)(y＝1)，它增加了log(p(y))的損失，概率越大，增加的越小。

2.1.4 優(yōu)化器

優(yōu)化運(yùn)算尋求的是期刊指標(biāo)的函數(shù)局部的最優(yōu)解，求得的是函數(shù)在小范圍內(nèi)的一個最優(yōu)值，這使得期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)模型在一定范圍內(nèi)的識別能力可以逼近一個極限值，即實(shí)現(xiàn)梯度下降。在幾種優(yōu)化器中，Adam優(yōu)化器對下降梯度的一階矩估計(jì)(First Moment Estimation，即梯度的均值)和二階矩估計(jì)(Second Moment Estimation，即梯度的未中心化的方差)進(jìn)行綜合計(jì)算，以求出更新的步長。參數(shù)的更新不會受到梯度的伸縮變換影響，其能夠自動調(diào)整期刊指標(biāo)深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的學(xué)習(xí)率，并解決期刊指標(biāo)的目標(biāo)函數(shù)不穩(wěn)定、梯度稀疏的問題，從而提高準(zhǔn)確率、降低損失率(損失率越低，計(jì)算結(jié)果越接近真實(shí)值)。

2.2 神經(jīng)模型實(shí)現(xiàn)

根據(jù)2019版《中國科技期刊引證報(bào)告》提供的20種期刊指標(biāo)設(shè)計(jì)深度神經(jīng)網(wǎng)絡(luò)模型，設(shè)計(jì)應(yīng)充分考慮期刊指標(biāo)的數(shù)據(jù)特性：①期刊指標(biāo)的訓(xùn)練數(shù)據(jù)量??；②期刊指標(biāo)的數(shù)據(jù)維度是二維；③期刊指標(biāo)的數(shù)據(jù)表達(dá)方式是結(jié)構(gòu)化數(shù)據(jù)等。期刊指標(biāo)深度神經(jīng)網(wǎng)絡(luò)模型的第一步工作是將20種期刊指標(biāo)數(shù)據(jù)集編碼后通過聯(lián)結(jié)層輸入到神經(jīng)網(wǎng)絡(luò)中，具體如圖4所示。

圖4 20種期刊指標(biāo)編碼后輸入到神經(jīng)網(wǎng)絡(luò)層Fig.4 Inputting encoded 20 journal indicators to neural network layer

第二步工作是將標(biāo)量化后的期刊指標(biāo)數(shù)據(jù)集以20個維度輸入給第一層神經(jīng)網(wǎng)絡(luò)。第一層神經(jīng)網(wǎng)絡(luò)經(jīng)過神經(jīng)網(wǎng)絡(luò)的權(quán)重計(jì)算后用Rule激活使數(shù)據(jù)非線性化，再添加dropout 正則化層以避免過擬合，然后將數(shù)據(jù)輸入給第二層神經(jīng)網(wǎng)絡(luò)。第二層神經(jīng)網(wǎng)絡(luò)經(jīng)過權(quán)重計(jì)算后用Sigmoid激活使數(shù)據(jù)非線性化，使用inary_crossentropy 損失函數(shù)和Adam優(yōu)化運(yùn)算，通過迭代訓(xùn)練使神經(jīng)網(wǎng)絡(luò)感知識別能力在局部范圍內(nèi)逼近一個極限值。期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖5所示。

圖5 期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.5 Model structure of journal indicators based on deep neural network

2.3 神經(jīng)網(wǎng)絡(luò)訓(xùn)練和問題處理

為了讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)影響力大的期刊指標(biāo)的高級特征，本文使用2019版《中國科技期刊引證報(bào)告》中的地球科學(xué)期刊數(shù)據(jù)，即地球科學(xué)綜合、地理學(xué)、地球物理學(xué)、地質(zhì)學(xué)共143種期刊的20項(xiàng)期刊指標(biāo)數(shù)據(jù)對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。為避免主觀因素，我們將2019 年《科學(xué)引文索引》(SCI)和《工程索引》(EI)收錄的期刊視為影響力大的期刊，其他期刊則視為影響力不大的期刊，據(jù)此得到19種影響力大的期刊和124種影響力不大的期刊。期刊指標(biāo)數(shù)據(jù)集進(jìn)行了如下處理。

①漢字編碼：由于保存神經(jīng)網(wǎng)絡(luò)權(quán)重文件的HDF5文件格式不能處理漢字，故20項(xiàng)期刊指標(biāo)的漢字名稱用每個漢字拼音的首字母代替。

②梯度爆炸：143種期刊的期刊指標(biāo)有缺數(shù)問題，導(dǎo)致神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中出現(xiàn)梯度爆炸，將缺數(shù)的期刊指標(biāo)空白用0代替后得以解決。

③樣本不平衡：影響力大的期刊和影響力不大的期刊比例是19∶124，樣本嚴(yán)重不平衡，在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時需要調(diào)節(jié)正負(fù)樣本的權(quán)重。

隨機(jī)從期刊指標(biāo)的數(shù)據(jù)集中取20%的數(shù)據(jù)用來驗(yàn)證準(zhǔn)確率。經(jīng)過10個迭代的訓(xùn)練，期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)模型的校驗(yàn)準(zhǔn)確率快速達(dá)到了89.66%，具體如圖6所示。

由圖6可見，隨著訓(xùn)練迭代次數(shù)的增加，訓(xùn)練準(zhǔn)確率(灰色線)和校驗(yàn)準(zhǔn)確率(黑色線)不斷上升。訓(xùn)練準(zhǔn)確率高于校驗(yàn)準(zhǔn)確率，存在一定的過擬合。

圖6 期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)校驗(yàn)準(zhǔn)確率Fig.6 Verification accuracy of journal indicators based on deep neural network

訓(xùn)練后得到期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)模型的校驗(yàn)損失率為32%，如圖7所示。

圖7 期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)校驗(yàn)損失率Fig.7 Verification loss rate of journal indicators based on deep neural network

3 結(jié)果與分析

把高維向量進(jìn)行可視化，將期刊指標(biāo)深度神經(jīng)網(wǎng)絡(luò)模型的32維向量和18767組數(shù)據(jù)投影到一個三維坐標(biāo)系中。同一個類別的向量彼此靠近，形成了界限明顯的簇，證明期刊指標(biāo)深度神經(jīng)網(wǎng)絡(luò)的識別效果好，具體如圖8所示。

圖8 期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)高維向量化Fig.8 High-dimensional vectorization of journal indicators based on deep neural network

期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練時處于欠擬合與過擬合之間，證明神經(jīng)網(wǎng)絡(luò)模型的設(shè)計(jì)(神經(jīng)網(wǎng)絡(luò)的層數(shù)、神經(jīng)網(wǎng)絡(luò)的容量大小)達(dá)到了理想的狀態(tài)。使用期刊指標(biāo)數(shù)據(jù)集訓(xùn)練后的深度神經(jīng)網(wǎng)絡(luò)模型可以快速、準(zhǔn)確、高效地評估質(zhì)量，還能找到提高期刊質(zhì)量需要關(guān)注的重點(diǎn)指標(biāo)，避免了使用人為經(jīng)驗(yàn)和傳統(tǒng)數(shù)學(xué)運(yùn)算，且避免了成本高且耗時、挑選標(biāo)準(zhǔn)很難統(tǒng)一、無法量化的問題，顯著提高了簡便程度、工作效率和準(zhǔn)確率。深度神經(jīng)網(wǎng)絡(luò)模型可以實(shí)現(xiàn)非線性化的數(shù)據(jù)擬合，并可以從眾多期刊特征中找出過去憑經(jīng)驗(yàn)無法找出和憑傳統(tǒng)數(shù)學(xué)方法無法計(jì)算出來的模型，但這不意味著一定需要上千萬級的數(shù)據(jù)來讓深度神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)和訓(xùn)練。

本文設(shè)計(jì)的合理的深度神經(jīng)網(wǎng)絡(luò)模型在小數(shù)據(jù)量的情況下得到了極高的準(zhǔn)確率，訓(xùn)練后的期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)模型在識別各項(xiàng)期刊指標(biāo)時Sigmoid激活函數(shù)輸出一個介于0～1之間的概率值，通過其可以快速評估某一個期刊是不是有影響力的期刊的概率。對特定期刊可以虛增某個期刊指標(biāo)的值，進(jìn)而觀察評估概率的增加幅度，由此可確定特定的期刊短期內(nèi)最有效果的指標(biāo)，為快速提高期刊影響力指明方向。

4 結(jié) 語

隨著深度神經(jīng)網(wǎng)絡(luò)技術(shù)的快速興起，很多傳統(tǒng)方法無法解決的難題都找到了解決的途徑，不依賴人工經(jīng)驗(yàn)和傳統(tǒng)數(shù)學(xué)計(jì)算方法的期刊指標(biāo)的研究解決了以往的難題，具有重要意義。本文提出的期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)模型經(jīng)過訓(xùn)練后不需要依賴人工經(jīng)驗(yàn)挑選單一的期刊指標(biāo)及用傳統(tǒng)數(shù)學(xué)方法對各種期刊指標(biāo)進(jìn)行數(shù)學(xué)建模和運(yùn)算，可通過對深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練識別出期刊指標(biāo)的內(nèi)在高級特征，而這些高經(jīng)特征是憑以往經(jīng)驗(yàn)和傳統(tǒng)方法無法找出來的。深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練結(jié)果和對結(jié)果的進(jìn)一步分析表明基于Keras的期刊指標(biāo)的深度神經(jīng)網(wǎng)絡(luò)模型能夠更加高效、更加準(zhǔn)確地反映期刊指標(biāo)的內(nèi)在高級特征，能為定量分析期刊的質(zhì)量和期刊的辦刊方向提供有力保證。■