李靜 徐路路
摘要:[目的/意義]細(xì)粒度分析學(xué)科領(lǐng)域熱點(diǎn)主題發(fā)展脈絡(luò)并對利用機(jī)器學(xué)習(xí)算法對未來發(fā)展趨勢進(jìn)行準(zhǔn)確預(yù)測研究。[方法/過程]提出一種基于機(jī)器學(xué)習(xí)算法的研究熱點(diǎn)趨勢預(yù)測方法與分析框架,以基因工程領(lǐng)域?yàn)槔弥黝}概率模型識別WOS核心集中論文摘要數(shù)據(jù)研究熱點(diǎn)主題并進(jìn)行主題演化關(guān)聯(lián)構(gòu)建,然后選取BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)及LSTM模型等3種典型機(jī)器學(xué)習(xí)算法進(jìn)行預(yù)測分析,最后利用RE指標(biāo)和精準(zhǔn)度指標(biāo)評價(jià)機(jī)器學(xué)習(xí)算法預(yù)測效果并對基因工程領(lǐng)域在醫(yī)藥衛(wèi)生、農(nóng)業(yè)食品等方面研究趨勢進(jìn)行分析。[結(jié)果/結(jié)論]實(shí)驗(yàn)表明基于LSTM模型對熱點(diǎn)主題未來發(fā)展趨勢預(yù)測準(zhǔn)確度最高,支持向量機(jī)預(yù)測效果次之,BP神經(jīng)網(wǎng)絡(luò)預(yù)測效果較差且預(yù)測穩(wěn)定性不足,同時結(jié)合專家咨詢和文獻(xiàn)調(diào)研表明本文方法可快速識別基因領(lǐng)域研究主題及發(fā)展趨勢,可為我國學(xué)科領(lǐng)域大勢研判和架構(gòu)調(diào)整提供決策支持和參考。
關(guān)鍵詞:熱點(diǎn)主題;發(fā)展趨勢;機(jī)器學(xué)習(xí);LSTM模型;支持向量機(jī)模型
DOI:10.3969/j.issn.1008-0821.2019.04.003
〔中圖分類號〕G203〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2019)04-0023-11
Comparison and Analysis of Research Trend Prediction
Models Based on Machine Learning Algorithm
——BP Neural Network,Support Vector Machine and LSTM Model
Li Jing1Xu Lulu2*
(1.School of Economics and Management,Tongji University,Shanghai 200092,China;
2.Department of Information Resources Management,Business School,Nankai University,
Tianjin 300071,China)
Abstract:[Purpose/Signficance]Fine-grained analysis of the development context of hot topics in the subject field and accurate prediction of future development trends using machine learning algorithms.[Method/Process]This paper proposed a research hotspot prediction method and analysis framework based on machine learning algorithm.Taking the field of genetic engineering as an example,it used the topic probability model to identify the hot topics of the WOS core summary data and constructed the theme evolution association.Then selected three typical machine learning algorithms,such as BP neural network,support vector machine and LSTM model to predict and analyze.Finally,the prediction results of the machine learning algorithm were evaluated by using RE index and precision index,and analysed the research trend in the fields of medicine and health and agricultural food in the field of genetic engineering.[Result/Conclusion]The experiment showed that the LSTM model had the highest prediction accuracy for the future development trend of hot topics,the prediction effect of support vector machine was the second,the prediction effect of BP neural network was poor and the prediction stability was insufficient.At the same time,combining expert consultation and literature research,it showed that this method could quickly identify the topic and development trend of gene field.It could provide decision support and reference for the judgement and adjustment of the discipline in China.
Key words:hot topics;development trend;machine learning;LSTM model;support vector
21世紀(jì)以來,面對日益加劇的科技創(chuàng)新演變和國際科技競爭態(tài)勢,如何有效識別科學(xué)領(lǐng)域研究前沿?zé)狳c(diǎn)并對未來科技發(fā)展態(tài)勢進(jìn)行預(yù)判至關(guān)重要?;诳萍嘉墨I(xiàn)的研究前沿?zé)狳c(diǎn)探測一直是科技戰(zhàn)略情報(bào)的重點(diǎn)內(nèi)容,宏觀層面來講可對國家學(xué)科架構(gòu)規(guī)劃、智庫建設(shè)及基金規(guī)劃制定提供決策支持,中觀層面對于地區(qū)、高校、院系等體系的雙一流建設(shè)和學(xué)科帶頭點(diǎn)培養(yǎng)起指導(dǎo)作用,而從個體微觀角度來講,研究熱點(diǎn)的把握和趨勢追蹤對于科研工作者提升科研效率和科研產(chǎn)出意義顯著[1]。因此,有效捕捉當(dāng)前活躍的科研活動信息,從而追蹤研究熱點(diǎn)趨勢成為一直以來關(guān)注的焦點(diǎn)。
目前,很多學(xué)者圍繞科學(xué)研究前沿及領(lǐng)域熱點(diǎn)態(tài)勢等進(jìn)行了有效研究并取得了豐碩的成果。但與此同時,研究熱點(diǎn)探測多基于引文分析方法存在時間滯后問題[2],同時存在詞頻統(tǒng)計(jì)分析語義不足、演化分析較為充分但預(yù)測分析不足以及粗粒度時間切片不能有效揭示熱點(diǎn)主題的發(fā)展演化脈絡(luò)等諸多問題[3],使得研究熱點(diǎn)探測和趨勢分析科學(xué)性存在不足。
基于指數(shù)平滑、自回歸模型、神經(jīng)網(wǎng)絡(luò)模型等方法的時間序列預(yù)測模型基于歷史數(shù)據(jù)相空間重構(gòu)和反饋傳播從而把握事物演變態(tài)勢并對下一時間段的發(fā)展進(jìn)行預(yù)測,在金融證券、風(fēng)電荷載及企業(yè)治理等領(lǐng)域應(yīng)用廣泛。但預(yù)測研究在情報(bào)學(xué)應(yīng)用較少,存在場景融合力度不足以及預(yù)測方法傳統(tǒng)單一等問題,因此,本文提出基于機(jī)器學(xué)習(xí)算法的研究熱點(diǎn)預(yù)測模型,利用主題概率模型識別領(lǐng)域主題強(qiáng)度并以表征研究熱點(diǎn),嘗試分析和對比不同機(jī)器學(xué)習(xí)算法預(yù)測效果以確定最優(yōu)預(yù)測模型選擇,對未來一段時間內(nèi)的發(fā)展趨勢進(jìn)行定量分析。本文嘗試尋求機(jī)器學(xué)習(xí)預(yù)測模型與研究前沿?zé)狳c(diǎn)的應(yīng)用結(jié)合點(diǎn),也為情報(bào)學(xué)領(lǐng)域的前沿識別追蹤領(lǐng)域提供一種新思路、新方法。
1相關(guān)研究
11研究熱點(diǎn)梳理
目前在情報(bào)學(xué)和科學(xué)學(xué)研究熱點(diǎn)及前沿?zé)狳c(diǎn)識別中主要分為兩大類方法:引文分析方法(如共被引、文獻(xiàn)耦合)和文本內(nèi)容分析(詞頻分析、共詞以及主題概率模型分析)。
1973年,Small H等[4]首次提出利用共被引聚類方法識別研究前沿?zé)狳c(diǎn)主題。1994年,Carfield S L等[5]利用共被引強(qiáng)度表征當(dāng)前研究活動前沿信息并進(jìn)一步對研究前沿?zé)狳c(diǎn)內(nèi)涵分析定義。Kessler M M[6]最早將文獻(xiàn)耦合分析方法引入到前沿?zé)狳c(diǎn)識別中來,該方法有效揭示文獻(xiàn)間內(nèi)在聯(lián)系和學(xué)科架構(gòu)變化,圍繞該方法的研究逐步開展。如Persson[7]利用施引文獻(xiàn)—被引文獻(xiàn)二維矩陣揭示熱點(diǎn)研究主題,Morris S A等[8]基于文獻(xiàn)耦合方法進(jìn)一步可視化展示熱點(diǎn)主題分布、演變與衰老動態(tài)時序變化。
基于共被引和文獻(xiàn)耦合等引文分析方法存在時間探測的滯后性,同時存在未深入文本內(nèi)容、欠缺語義關(guān)系等問題一定程度上制約了熱點(diǎn)主題探測的科學(xué)性。因此,目前基于詞頻分析、共詞分析以及主題模型成為熱點(diǎn)識別的主流先驅(qū)。2003年,Blei D M等[9]提出LDA模型從概率統(tǒng)計(jì)層面定量分析和識別出科技文獻(xiàn)動態(tài)研究主題。2004年,Mane K K等[10]利用詞頻分析方法對生物醫(yī)學(xué)領(lǐng)域文獻(xiàn)進(jìn)行結(jié)構(gòu)分層并繪制研究熱點(diǎn)主題地圖。2012年,楊星等[11]提出基于主題模型的熱點(diǎn)及趨勢自動識別方法并在時間軸上對熱點(diǎn)主題進(jìn)行動態(tài)演化分析,相關(guān)研究學(xué)者還有傅柱等[12]、徐路路等[13]。目前基于研究熱點(diǎn)和前沿探測的方法取得了顯著的研究成果,演化分析較為充分但存在前瞻預(yù)測不足、預(yù)測方法單一老化等問題,因此本文將結(jié)合當(dāng)前機(jī)器學(xué)習(xí)相關(guān)算法對識別出的研究熱點(diǎn)主題進(jìn)行預(yù)測分析。
12基于機(jī)器學(xué)習(xí)預(yù)測方法梳理
1970年,美國科學(xué)家博克斯首次提出利用時間序列建模分析實(shí)現(xiàn)事物發(fā)展趨勢預(yù)測對模型設(shè)計(jì)、診斷、檢驗(yàn)以及控制等進(jìn)行了闡明。之后圍繞時序建模的思想和方法逐漸完善并在經(jīng)濟(jì)趨勢預(yù)測、國家產(chǎn)值預(yù)判及輿情風(fēng)險(xiǎn)評估等諸多方面取得了方法的應(yīng)用。目前傳統(tǒng)的時序預(yù)測方法主要有自回歸、Kalman濾波法、滑動平均模型等。
基于傳統(tǒng)的時間序列預(yù)測方法側(cè)重于數(shù)理統(tǒng)計(jì),不具備自學(xué)習(xí)、自組織、自適應(yīng)能力,尤其對于非線性及多特征維度的數(shù)據(jù)類型不能有效擬合和函數(shù)表達(dá)。隨著萬物互聯(lián)和大數(shù)據(jù)生態(tài)環(huán)境的構(gòu)建,基于神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)回歸及隨機(jī)森林等模型的多種機(jī)器學(xué)習(xí)算法的時間序列預(yù)測模型日益發(fā)揮重要作用。
2004年,張烈平等[14]提出一種基于BP神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)預(yù)測建模系統(tǒng),利用其并行結(jié)構(gòu)和處理能力將仿真實(shí)驗(yàn)精準(zhǔn)度有效提高。2008年,侯亞麗等[15]針對BP神經(jīng)預(yù)測模型收斂慢且易局部收斂等缺陷,提出一種基于改進(jìn)LM(Levenberg-Marquardt)優(yōu)化算法的神經(jīng)網(wǎng)絡(luò)預(yù)測模型,修正后向傳播權(quán)重調(diào)整策略和偏置優(yōu)化有效提出模型運(yùn)行效率,圍繞BP神經(jīng)網(wǎng)絡(luò)及其他模型算法研究的還有夏玫等[16]、孫文俊等[17]及饒浩等[18]。2015年,羅知林等[19]提出基于隨機(jī)森林算法的微博信息傳播預(yù)測算法,利用隨機(jī)算法的高維度特征抽取能力對微網(wǎng)絡(luò)結(jié)構(gòu)及等特征進(jìn)行有效提取預(yù)測。2016年,李杰[20]提出改進(jìn)粒子群算法的支持向量機(jī)預(yù)測模型有效克服其參數(shù)收斂及優(yōu)化問題,并以工程造價(jià)領(lǐng)域進(jìn)行實(shí)證預(yù)測研究。2017年,張宇航等[21]針對小樣本電力荷載提出一種基于LSTM(Long Short-Term Memory,長短期記憶網(wǎng)絡(luò))模型的短期負(fù)荷預(yù)測方法有效逼近其預(yù)測函數(shù)機(jī)制。
基于機(jī)器學(xué)習(xí)相關(guān)算法的預(yù)測模型在諸多領(lǐng)域取得廣泛應(yīng)用但在情報(bào)學(xué)研究領(lǐng)域尤其是前沿預(yù)測分析、熱點(diǎn)狀態(tài)追蹤等方面相關(guān)研究尚未開展。因此,本文將嘗試?yán)肂P網(wǎng)絡(luò)、支持向量機(jī)及LSTM模型對熱點(diǎn)前沿主題進(jìn)行預(yù)測分析并尋找最優(yōu)預(yù)測效果。
2方法框架
為有效對研究熱點(diǎn)進(jìn)行趨勢預(yù)測分析,本文提出一種基于機(jī)器學(xué)習(xí)算法的研究熱點(diǎn)預(yù)測模型,首先以基因工程領(lǐng)域?yàn)槔@取WOS核心合集摘要數(shù)據(jù),然后利用LDA主題模型實(shí)現(xiàn)科技文獻(xiàn)中信息抽取和主題強(qiáng)度表征熱點(diǎn)度,進(jìn)而利用余弦相似度定理建立主題關(guān)聯(lián)構(gòu)建,最后利用機(jī)器學(xué)習(xí)算法對其未來發(fā)展趨勢進(jìn)行預(yù)測分析并對不同機(jī)器學(xué)習(xí)算法預(yù)測能力進(jìn)行評估驗(yàn)證。實(shí)驗(yàn)框架如圖1所示。
21研究熱點(diǎn)主題探測
擬選用LDA模型為研究熱點(diǎn)主題探測工具。LDA主題模型可以表達(dá)主題、主題詞與文檔3層語義結(jié)構(gòu),利用無監(jiān)督機(jī)器學(xué)習(xí)方式抽取隱藏的主題信息并對主題詞進(jìn)行權(quán)重表示。研究熱點(diǎn)表示一定時期內(nèi)某一學(xué)科研究熱情及研究主題強(qiáng)度,可用關(guān)鍵詞或主題詞的權(quán)重表示,權(quán)重越大表示研究主題越熱門。利用機(jī)器學(xué)習(xí)算法進(jìn)行研究熱度預(yù)測首先需要得出每子時期主題強(qiáng)度值。本文提出熱點(diǎn)研究前沿主題強(qiáng)度指標(biāo)如下:
TIIzt=∑ni=1weight(ki)(1)
其中,weight(ki)表示主題詞權(quán)重比值;∑ni=1weight(ki)反映該主題累計(jì)主題詞權(quán)重值,TIIzt即為該主題權(quán)重值,越大表示研究主題越熱門,越代表當(dāng)前研究的重心和科技競爭點(diǎn)。該指標(biāo)的有效探測和預(yù)測可對熱門研究前沿主題發(fā)展脈絡(luò)準(zhǔn)確把握和定位。
22主題關(guān)聯(lián)構(gòu)建
細(xì)粒度識別子時期研究主題熱度后需探索不同時間片段主題集群內(nèi)部與外部關(guān)聯(lián)關(guān)系,從而得到不同主題在不同時期的前驅(qū)與后繼關(guān)系形成動態(tài)主題鏈。本文基于余弦相似度的方法計(jì)算時序主題的相似度,構(gòu)建基于時間序列發(fā)展的主題發(fā)展脈絡(luò),為后續(xù)基于機(jī)器學(xué)習(xí)算法做預(yù)測分析提供實(shí)驗(yàn)準(zhǔn)備和基礎(chǔ)。設(shè)定固定閾值進(jìn)行相似度判定,相似度大于閾值則說明兩個時間維度的熱點(diǎn)主題為同一主題的演進(jìn)與變化,公式如下所示:
Sim(Topici,Topicj)=cosθ=∑nk=1wk(Topici)×wk(Topicj)∑nk=1w2k(Topici)×∑nk=1w2k(Topicj)(2)
其中,分子表示兩個主題向量的點(diǎn)乘積,分母表示兩個主題向量的模的積。
23機(jī)器學(xué)習(xí)算法預(yù)測模型對比分析
選取目前時間序列預(yù)測研究中常用且準(zhǔn)確度較高的3種機(jī)器學(xué)習(xí)算法作為本實(shí)驗(yàn)研究熱點(diǎn)趨勢預(yù)測模型,分別為BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和LSTM模型。
231BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)預(yù)測模型分析
1986年,Rumelhart首次提出誤差逆向修正多層反饋的BP神經(jīng)網(wǎng)絡(luò),憑借其優(yōu)越復(fù)雜模式分類能力和多維函數(shù)映射能力而取得了廣泛應(yīng)用。BP神經(jīng)網(wǎng)絡(luò)主要分為輸入層、隱含層和輸出層3層神經(jīng)結(jié)構(gòu),采用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小和梯度下降法來計(jì)算目標(biāo)函數(shù)最優(yōu)值從而逼近函數(shù)表達(dá),BP神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
其中,{x1,x2,x3,…,xn}表示n維的模型輸入單元,{y1,y2,y3,…,yn}表示模型輸入,從輸入到輸出對應(yīng)權(quán)重值w和偏置項(xiàng)b用于前向和后向傳播參數(shù)調(diào)整。對于神經(jīng)節(jié)點(diǎn)i輸入可表示為:
Hui=∑Jj=1WijVj=∑Jj=1Wijg∑Kk=1wjkxi(3)
經(jīng)過隱層節(jié)點(diǎn)得到模型輸入為:
Oui=g(Hui)=g∑Jj=1Wijg∑Kk=1WjkXi(4)
對于任意輸入模式u和輸入單元定義誤差函數(shù)為:
Eu(w)=12(xui-yui)2=12[xui-g(∑jWii) g(∑Wijxui)]2(5)
進(jìn)而對神經(jīng)元結(jié)構(gòu)進(jìn)行誤差平均處理得到模型預(yù)測器的誤差,使得隱層前向網(wǎng)絡(luò)結(jié)構(gòu)能夠逼近定義在Rn一個密集任意非線性函數(shù)得出模型最優(yōu)解。BP神經(jīng)網(wǎng)絡(luò)作為機(jī)器學(xué)習(xí)算法的一種具有較好的自學(xué)習(xí)、自適應(yīng)能力和一定的推廣能力。但BP神經(jīng)網(wǎng)絡(luò)面對復(fù)雜優(yōu)化目標(biāo)函數(shù)神經(jīng)元輸出逼近真實(shí)值時期訓(xùn)練效果較差且易陷入局部最優(yōu),其網(wǎng)絡(luò)結(jié)構(gòu)和神經(jīng)元需人為設(shè)定具有較強(qiáng)的主觀性,而該模型預(yù)測的推廣能力和泛化能力也有待于進(jìn)一步提升。
232支持向量機(jī)(SVM)預(yù)測模型分析
20世紀(jì)90年代科學(xué)家Vapnik等提出支持向量機(jī)(Support Vector Machine,SVM)算法,基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化尋找歸納統(tǒng)計(jì)設(shè)計(jì)模型以實(shí)現(xiàn)最小風(fēng)險(xiǎn)泛函,利用核函數(shù)將數(shù)據(jù)從低維度映射高維度空間降低了維度災(zāi)難和計(jì)算復(fù)雜度而具有較好的推廣能力,在電力預(yù)測、文本分類等諸多領(lǐng)域取得了廣泛應(yīng)用。支持向量機(jī)采用核函數(shù)原理,將數(shù)據(jù)從低維空間映射到高維空間,有效避免“維數(shù)災(zāi)難”,提高了非線性數(shù)據(jù)的擬合能力(如圖1左側(cè)圖所示),利用核函數(shù)計(jì)算值K(xi,x)表達(dá)多維向量內(nèi)積計(jì)算時間t時間段內(nèi)前m數(shù)據(jù)(即數(shù)據(jù)時間窗口為m)預(yù)測結(jié)果輸出,如圖3右側(cè)圖所示。
相比于BP神經(jīng)網(wǎng)絡(luò)等傳統(tǒng)神經(jīng)網(wǎng)絡(luò)算法,SVM模型采用結(jié)構(gòu)風(fēng)險(xiǎn)最優(yōu)而其推廣能力一直是該模型的優(yōu)點(diǎn)之一。對于給定樣本(xi,yi)(i=1,2,3,…,N),N為樣本容量,xi為輸入向量,yi為輸出目標(biāo),SVM模型采用高維映射特征空間Rn到Rm再在特征空間利用線性函數(shù)進(jìn)行函數(shù)逼近:
y=f(X)=[W,φ(X)]+b(6)
式中,W、f(X)為m維矢量數(shù)據(jù),b為函數(shù)閾值,y表示點(diǎn)積處理后函數(shù)值。根據(jù)統(tǒng)計(jì)學(xué)理論SVM最小化目標(biāo)函數(shù)得到擬合回歸函數(shù)公式:
minW,b∶12W2+c∑ni=1yi-[W,φ(xi)-bI](7)
式中c表示控制模型損失1/2w2和訓(xùn)練模型復(fù)雜度的懲罰系數(shù),i=1,2,…,n表示支持向量機(jī)點(diǎn)數(shù)。利用核函數(shù)可實(shí)現(xiàn)數(shù)據(jù)高維映射特征空間,進(jìn)而在不影響計(jì)算復(fù)雜度的前提下輸出模型預(yù)測時序結(jié)果。
g(xi)=wTΦ(xi)+b=∑mi=1αi[Φ(xi)Φ(x)]+b=∑αik(xi,x)+b(8)
支持向量機(jī)具有較強(qiáng)小樣本學(xué)習(xí)能力和非線性擬合能力,不容易陷入局部最優(yōu)同時參數(shù)設(shè)置相對簡易,因此在機(jī)器學(xué)習(xí)時序預(yù)測領(lǐng)域取得了較為普遍的應(yīng)用,但在情報(bào)學(xué)科學(xué)研究前沿探測和預(yù)測分析中的應(yīng)用較少,因此本文選用支持向量機(jī)模型作為機(jī)器學(xué)習(xí)算法的一類展開論述分析。
233長短期記憶網(wǎng)絡(luò)(LSTM)預(yù)測模型分析
長短期記憶網(wǎng)絡(luò)(Long Short Term Memory Networks,LSTM)作為特殊的RNN,有效克服了其在機(jī)器學(xué)習(xí)中梯度消失和梯度爆炸的缺陷,對于間隔和延遲相對較長的時序數(shù)據(jù)具有強(qiáng)度處理能力。LSTM預(yù)測模型結(jié)構(gòu)包括:輸入序列X={x1,x2,x3,…,xn}、時序步長及相應(yīng)輸入xt以及控制信息傳遞的遺忘門ft、輸入門it和輸出門ot,如圖4所示,在t時刻時t-1時刻輸入ht-1及記憶細(xì)胞狀態(tài)Ct-1到達(dá)并結(jié)合此時刻輸入通過輸入門并由遺忘門f過濾后得到該時刻模型輸出。
圖4LSTM模型預(yù)測模型結(jié)構(gòu)分析
對于LSTM輸入:
zt=∑Ii=1wxixti+∑Hh=1whiht-1i+∑Cc=1wsist-1c+bi(9)
yt=f(zt)(10)
式中,wxi、whi、wsi分別代表不同細(xì)胞機(jī)制權(quán)重分布,第一項(xiàng)表示與輸入門相關(guān)的外部信息變量,第三項(xiàng)表示cell中的輸入部分,第二項(xiàng)表示t-1時刻泛指狀態(tài),因?yàn)長STM模型單元相關(guān)關(guān)聯(lián)其隱層節(jié)點(diǎn)信息共享,則它可視為外部輸入的一部分,b為偏置向量,f表示sigmoid激活函數(shù)。遺忘門和輸出門機(jī)構(gòu)機(jī)理和相關(guān)參數(shù)與輸入相似,最終隱層單元狀態(tài)值由tanh激活函數(shù)得到輸入預(yù)測值。
t=σ(w*h+b)(11)
3實(shí)證研究
31實(shí)驗(yàn)平臺
硬件:Window10操作系統(tǒng)、Genuine Intel(R)CPU @ 170GHz、8GRAM
軟件:Anaconda、基于Tensorflow(GPU版本)后端的Keras深度學(xué)習(xí)框架、Rapidminer
32數(shù)據(jù)集及預(yù)處理
數(shù)據(jù)庫:Wos核心論文集中基因工程領(lǐng)域論文數(shù)據(jù)
時間跨度:1965年至2017年
檢索式:Keyword=“Genetic Engineering”
檢索結(jié)果:2 764項(xiàng)。
自1965發(fā)表第一篇以基因工程為主題的文章但受限于當(dāng)時科研條件和理論基礎(chǔ)該研究后續(xù)未廣泛展開。1998年圍繞基因工程主題論文的研究相繼展開,科研產(chǎn)出數(shù)量逐年增加,自2003年開始相關(guān)研究呈現(xiàn)高度發(fā)展?fàn)顟B(tài),后續(xù)科技年代維持高熱情、高產(chǎn)出的發(fā)展態(tài)勢。本文利用LDA模型識別大規(guī)模文檔數(shù)據(jù)集中主題分布,因此為保證數(shù)據(jù)樣本充足性選用2003年為起始年份,以年為基本處理時間區(qū)間共計(jì)15年子區(qū)間。
33主題識別實(shí)驗(yàn)
331LDA相關(guān)參數(shù)設(shè)置
本文選用LDA模型進(jìn)行主題識別。LDA(Latent Dirichlet Allocation,隱含狄利克雷分配)是包括文檔集層、主題層及特征詞層3層結(jié)構(gòu)的貝葉斯概率分布模型,通過概率統(tǒng)計(jì)和參數(shù)擬合模擬大規(guī)模文檔生成過程,抽取科技文獻(xiàn)中具有代表實(shí)際意義的主題詞進(jìn)而可以深度挖掘文本數(shù)據(jù)蘊(yùn)含的隱含主題信息拓?fù)浣Y(jié)構(gòu)。
文檔集中主題數(shù)為超參數(shù),在進(jìn)行主題識別前需確定多源信息數(shù)據(jù)主題數(shù)目。復(fù)雜度(Perplexity)是衡量一個語言模型優(yōu)劣常用的一個指標(biāo),David等提出復(fù)雜度指標(biāo)并定義一個有M篇文檔的文檔集的主題模型的復(fù)雜度為:
perplexity(Dtest)=exp-∑Md=1logp(wd)∑Md=1logNd(12)
其中,M是文檔集中文檔的數(shù)目,P(Wd)是PLDA模型生成第d篇文檔的概率,Nd是單詞的個數(shù),當(dāng)perplexity(Dtest)最小時,主題具有較好的語義表達(dá)效果,建立主題文檔映射,確定文檔集中的主題數(shù)。本文對主題數(shù)目及復(fù)雜度動態(tài)對應(yīng)關(guān)系進(jìn)行實(shí)驗(yàn),經(jīng)實(shí)驗(yàn)主題步長最終主題數(shù)選擇100。
332主題表征
利用余弦相似度定量建立不同子時期主題關(guān)聯(lián)關(guān)系,進(jìn)而在時間序列維度上建立一整條動態(tài)時序主題鏈,時間跨度為2003-2017年間。經(jīng)實(shí)驗(yàn)相似度閾值取05時,主題演化和關(guān)聯(lián)度較好,可以較為完整地表達(dá)不同主題類型在時間窗口的躍遷和演化特征。表2中相似度計(jì)算可以選擇相似度閾值大于05的主題類型建立關(guān)聯(lián),即2014年中Topic_1在2015年發(fā)展為Topic_2進(jìn)而成為Topic_7(2016),同理則可得到10個主題的主題發(fā)展變化。
建立主題動態(tài)時序鏈為后續(xù)進(jìn)行機(jī)器學(xué)習(xí)算法預(yù)測研究提供理論基礎(chǔ),而具體主題強(qiáng)度值利用LDA模型實(shí)驗(yàn)可以得到主題詞權(quán)重表征研究熱度,進(jìn)而探測不同主題研究熱度在時間序列上的發(fā)展變化規(guī)律,對未來基因工程領(lǐng)域發(fā)展趨勢進(jìn)行研判。
34機(jī)器學(xué)習(xí)算法研究熱點(diǎn)預(yù)測與對比
341實(shí)驗(yàn)設(shè)置
選用BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)模型以及LSTM預(yù)測模型為本文研究熱點(diǎn)預(yù)測器。本文熱點(diǎn)主題探測區(qū)間為15年,選擇前10年為訓(xùn)練數(shù)據(jù)集,后5年為測試數(shù)據(jù)集,選擇相對誤差作為模型預(yù)測評估指標(biāo)。時間序列數(shù)據(jù)標(biāo)簽化處理,滑動時間窗口為1,時間步長為1年,即t年研究熱點(diǎn)預(yù)測未來t+1年的發(fā)展情況。BP神經(jīng)網(wǎng)絡(luò)選用三層神經(jīng)元結(jié)構(gòu),神經(jīng)元為1-20-10-1分布,m表示相空間重構(gòu)數(shù)為1,訓(xùn)練迭代次數(shù)為50,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率為常數(shù)001。支持向量機(jī)模型中參數(shù)Gamma決定數(shù)據(jù)映射高維度特征空間分布,設(shè)置為15,內(nèi)存大小Cache參數(shù)為400,懲罰函數(shù)中系數(shù)C設(shè)置為12,終止判據(jù)Epsilion設(shè)為0001,支持向量機(jī)和BP神經(jīng)網(wǎng)絡(luò)利用Rapidminer機(jī)器學(xué)習(xí)算子實(shí)現(xiàn),LSTM預(yù)測模型則利用Python35中的Keras框架下搭建兩層10維神經(jīng)元層和一層Dense預(yù)測輸出,訓(xùn)練批量Epochs設(shè)置為50共迭代實(shí)驗(yàn)50經(jīng)后向傳播參數(shù)調(diào)整后結(jié)果趨于穩(wěn)定收斂,評價(jià)模型為相對誤差。
342實(shí)驗(yàn)結(jié)果
選用相對誤差指標(biāo)(RE,Relative Error)描述模型預(yù)測效果。公式如下,其中表示相對誤差,yt表示真實(shí)值,yt表示模型預(yù)測值。本文測試集共分10個主題及每個主題下后5年的主題強(qiáng)度值,對每個主題不同子時期求得相對誤差RE并對其均值處理得到該主題的平均預(yù)測精度。部分基于不同機(jī)器學(xué)習(xí)算法預(yù)測精度比較見表5,以Topic0為例對2013-2017年主題熱度值分別利用BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)及LSTM模型進(jìn)行預(yù)測分析并最終得到該主題平均相對誤差分別為1569%、1298%和1075%,可見對于該主題LSTM模型預(yù)測精度較高,支持向量機(jī)預(yù)測效果低于LSTM模型但高于BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型,但對于Topic2而言預(yù)測精度最高的為支持向量機(jī)(1096%),LSTM模型和BP神經(jīng)網(wǎng)絡(luò)預(yù)測精度相差較小分別為1308%和1425%。
BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測準(zhǔn)確度為8364%,在機(jī)器學(xué)習(xí)算法預(yù)測模型中預(yù)測效果最差,基于支持向量機(jī)預(yù)測模型和LSTM模型的預(yù)測準(zhǔn)確度分別為8828%和8910%,預(yù)測效果相近,其中基于LSTM模型預(yù)測精準(zhǔn)度略高,同時基于長短記憶神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)模型預(yù)測穩(wěn)定性相對較好,可視化分析如圖6所示,10個圓環(huán)圖分別表示10個主題類型,每圓環(huán)從內(nèi)而外分別表示BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和LSTM模型預(yù)測模型,可較為清晰表達(dá)預(yù)測結(jié)果差異性。
35趨勢分析
基因工程是通過外源基因載入并經(jīng)復(fù)制、轉(zhuǎn)錄、翻譯而對基因形狀正常的復(fù)制和表達(dá)的生物分子技術(shù)手段,具有廣泛的發(fā)展前景和應(yīng)用價(jià)值。利用本實(shí)驗(yàn)探測得到主題詞及主題發(fā)展演變,未來一段時間內(nèi)基金工程領(lǐng)域熱點(diǎn)主題趨勢上升并呈現(xiàn)穩(wěn)步增長的態(tài)勢,主要學(xué)科主題按權(quán)重詞分布可分為醫(yī)藥、農(nóng)業(yè)和環(huán)境及食品基礎(chǔ)研究四大主題維度。
基因工程在醫(yī)藥衛(wèi)生方面熱點(diǎn)與趨勢分析(Topic0、Topic5和Topic9):該主題主要圍繞基因工程在醫(yī)療檢驗(yàn)、基因診斷(Diagnosis)以及基因健康治療(Health)等方面展開,如利用同源重組基因剔、核苷酸基因合成及靶向藥物治療等手段提升基因工程診斷及治療藥物作用;采用基因工程胰島素及干擾素(Leading)等相關(guān)疫苗增強(qiáng)天然疫苗在人體良化反應(yīng);利用核酸分子和聚合酶鏈反應(yīng)進(jìn)行片段化基因檢測,改良傳統(tǒng)特異性差靈敏度低級診斷誤差高等醫(yī)學(xué)診斷方式;利用代替性治療和抑制性(轉(zhuǎn)錄水平和mRNA翻譯水平)開展基因治療(Inherited)等。該領(lǐng)域是基因工程領(lǐng)域的研究熱點(diǎn),但也面臨著技術(shù)缺陷及實(shí)驗(yàn)臨床驗(yàn)證不足等問題,未來一段時間內(nèi)圍繞該領(lǐng)域布局可進(jìn)一步拓展,具有較好的發(fā)展趨勢。
基因工程在農(nóng)業(yè)方面熱點(diǎn)與趨勢分析(Topic4、Topic6和Topic8):該主題主要圍繞利用先進(jìn)基因工程(Engineering)手段進(jìn)行農(nóng)業(yè)作物改良、
作物制藥與微生物農(nóng)業(yè)控制等方面展開,如對氮代謝調(diào)節(jié)基因及攜帶固氮酶的微生物(Microbe)進(jìn)行基因改良以滿足植物肥料需求、改良自然菌株并對熒光假單胞菌等殺蟲防病細(xì)菌遺傳因子進(jìn)行試驗(yàn)以減少農(nóng)藥使用;植物基因改良增強(qiáng)光合作用及新品種培育增加作物產(chǎn)量等以及將毒蛋白基因?qū)霟煵荨⒚藁皸顦涞绒r(nóng)林作物以培養(yǎng)出抗蟲(Insect)特性;利用外部基因如磷酸乙酰轉(zhuǎn)移酶基因(Protein)等以培養(yǎng)抗逆性強(qiáng)農(nóng)作物。該主題主要圍繞基因工程在農(nóng)作物品種改良、抗蟲抗病等方面展開,我國作為傳統(tǒng)農(nóng)業(yè)大國,在政策部署和市場需求上具有較好的前景,因此圍繞該主題下的產(chǎn)業(yè)布局和學(xué)科架構(gòu)調(diào)整具有積極意義。
基因工程在環(huán)境及環(huán)境保護(hù)(Topic1、Topic3)熱點(diǎn)與發(fā)展趨勢較好,主要圍繞水體與土壤污染治理、石油污染及塑料降解等方面展開,如利用改良基因工程菌絮凝性能及生長迅速等特點(diǎn)對有毒有害污染物(Pollutant)進(jìn)行降解處理;利用雜交技術(shù)與質(zhì)粒載體重組優(yōu)化抗菌去污能力以及提升微生物特異性DNA編碼轉(zhuǎn)換能力(Allele)進(jìn)行石油降解等。該主題研究力度和主題強(qiáng)度相對較小,未來有待于進(jìn)一步發(fā)展。主題Topic2和Topic7主要圍繞基因工程在食品工藝及果蔬產(chǎn)品優(yōu)化等方面的研究,如利用基因工程加入脫氫酶義基因等提升植物油硬脂酸含量等,加入淀粉合成酶使得直鏈淀粉合成抑制以提高食品(Food)質(zhì)量增加焙烤特性等;圍繞發(fā)酵食品品質(zhì)、產(chǎn)率及風(fēng)味(Flavor)特性的基因工程改良也是未來重要發(fā)展趨勢之一。受限于政策支持、市場調(diào)節(jié)和食品安全性等諸多因素,圍繞上述主題研究熱點(diǎn)發(fā)展相對較為緩慢,但未來該主題發(fā)展趨勢仍值得期待,具有良好的市場和環(huán)境保護(hù)價(jià)值,科技政策制定者需加大基金投入和政府引導(dǎo)以期發(fā)揮更大作用。
4討論
本文以基因工程領(lǐng)域?yàn)榉治鰯?shù)據(jù)源,利用主題概率模型識別其主題強(qiáng)度并對其發(fā)展演化關(guān)系進(jìn)行分析和關(guān)聯(lián)構(gòu)建,在此基礎(chǔ)上注重主題趨勢的預(yù)測分析,利用BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)及LSTM模型等代表性機(jī)器學(xué)習(xí)算法對基因工程領(lǐng)域的熱點(diǎn)主題未來發(fā)展趨勢進(jìn)行預(yù)測分析,實(shí)驗(yàn)表明基于長短記憶神經(jīng)網(wǎng)絡(luò)預(yù)測模型預(yù)測精準(zhǔn)度最高且穩(wěn)定性較好,支持向量機(jī)次于LSTM模型但優(yōu)于采用經(jīng)驗(yàn)風(fēng)險(xiǎn)最優(yōu)的BP神經(jīng)網(wǎng)絡(luò),以期為后期情報(bào)學(xué)預(yù)測研究展開提供實(shí)證基礎(chǔ)和論證思路。同時,本實(shí)驗(yàn)采用文獻(xiàn)調(diào)研法[22-25]和具有生物醫(yī)學(xué)等基因工程背景專家咨詢,認(rèn)為本實(shí)驗(yàn)研究熱點(diǎn)識別及趨勢分析具有較好的科學(xué)性和準(zhǔn)確度。
本文不足之處在于采用了論文數(shù)據(jù)分析源,對于論文數(shù)據(jù)時間滯后性等問題未進(jìn)行充分分析,未來考慮加入基金數(shù)據(jù)、規(guī)劃文本等多源數(shù)據(jù)進(jìn)行充分驗(yàn)證與對比分析,以準(zhǔn)確識別基因工程領(lǐng)域熱點(diǎn)主題及趨勢;同時本文在機(jī)器學(xué)習(xí)算法上選用了3種代表性學(xué)習(xí)算法,未來將進(jìn)一步考慮增加相關(guān)算法的分析驗(yàn)證同時在步長選擇、相空間重構(gòu)等方面進(jìn)行多維度驗(yàn)證分析以提供預(yù)測模型的推廣能力和預(yù)測能力。本文注重對未來學(xué)科發(fā)展趨勢預(yù)測分析并結(jié)合情報(bào)學(xué)熱點(diǎn)探測等技術(shù),以期為我國學(xué)科領(lǐng)域及科研發(fā)展提供決策支撐和參考。
參考文獻(xiàn)
[1]趙蓉英,余波.國際數(shù)據(jù)挖掘研究熱點(diǎn)與前沿可視化分析[J].現(xiàn)代情報(bào),2018,38(6):128-137.
[2]逯萬輝,馬建霞,趙迎光.爆發(fā)詞識別與主題探測技術(shù)研究綜述[J].情報(bào)理論與實(shí)踐,2012,35(6):125-128.
[3]魏曉俊.基于科技文獻(xiàn)中詞語的科技發(fā)展監(jiān)測方法研究[J].情報(bào)雜志,2007,26(3):34-36.
[4]Small H,Griffith B C.The Structure of Scientific Literatures I:Identifying and Graphing Specialties[J].Science Studies,1974,4(1):17-40.
[5]Garfield S L,Bergin A E.Handbook of Psychotherapy and Behavior Change[M].JWiley,1994.
[6]Kessler M M.Bibliographic Coupling Between Scientific Papers[J].Journal of the American Society for Information Science & Technology,1963,14(1):10-25.
[7]Persson O.The Intellectual Base and Research Fronts of JASIS 1986-1990[J]. Journal of the Association for Information Science & Technology,1994,45(1):31-38.
[8]Morris S A,Yen G,Wu Z,et al.Time Line Visualization of Research Fronts[J].Journal of the Association for Information Science & Technology,2003,54(5):413-422.
[9]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].J Machine Learning Research Archive,2003,3:993-1022.
[10]Mane K K,B Rner K.Mapping topics and Topic Bursts in PNAS[J].Proc Natl Acad Sci U S A,2004,101(Suppl 1):5287-5290.
[11]楊星,李保利,金明舉.基于LDA模型的研究領(lǐng)域熱點(diǎn)及趨勢分析[J].計(jì)算機(jī)技術(shù)與發(fā)展,2012,(10):66-69.
[12]傅柱,王曰芬,關(guān)鵬.以分類主題抽取為視角的學(xué)科主題挖掘——基于LDA模型的國外知識流研究結(jié)構(gòu)探討[J].情報(bào)理論與實(shí)踐,2016,39(8):96-102.
[13]徐路路,王效岳,白如江.基于PLDA模型與多數(shù)據(jù)源融合相關(guān)性分析的新興主題探測研究——以石墨烯領(lǐng)域?yàn)槔齕J].情報(bào)理論與實(shí)踐,2018,41(4):63-69.
[14]張烈平,周德儉,牛秦洲.基于BP神經(jīng)網(wǎng)絡(luò)的預(yù)測建模系統(tǒng)的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)仿真,2004,21(9):48-50.
[15]侯亞麗,李鐵.基于LM優(yōu)化算法的BP神經(jīng)網(wǎng)絡(luò)目標(biāo)識別方法[J].探測與控制學(xué)報(bào),2008,30(1):53-57.
[16]夏玫,陳立潮,王新波.一種提高BP神經(jīng)網(wǎng)絡(luò)泛化能力的改進(jìn)算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2009,19(9):62-64.
[17]孫文俊,杜娟.基于詞同現(xiàn)網(wǎng)絡(luò)與支持向量機(jī)的論文甄別[J].現(xiàn)代情報(bào),2010,30(7):87-92.
[18]饒浩,文海寧,林育曼,等.改進(jìn)的支持向量機(jī)在微博熱點(diǎn)話題預(yù)測中的應(yīng)用[J].現(xiàn)代情報(bào),2017,37(3):46-51.
[19]羅知林,陳挺,蔡皖東.一個基于隨機(jī)森林的微博轉(zhuǎn)發(fā)預(yù)測算法[J].計(jì)算機(jī)科學(xué),2014,41(4):62-64.
[20]李杰.改進(jìn)粒子群算法優(yōu)化支持向量機(jī)的工程造價(jià)預(yù)測[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2016,25(6):202-206.
[21]張宇航,邱才明,賀興,等.一種基于LSTM神經(jīng)網(wǎng)絡(luò)的短期用電負(fù)荷預(yù)測方法[J].電力信息與通信技術(shù),2017,(9):19-25.
[22]劉一杰,薛永常.植物抗蟲基因工程的研究進(jìn)展[J].浙江農(nóng)業(yè)科學(xué),2016,57(6):873-878.
[23]申夢雅,張永清,王德國,等.基因工程在食品工業(yè)中的應(yīng)用[J].廣東化工,2016,43(10):99-100.
[24]田立平,趙亞飛.基因工程技術(shù)對藥物發(fā)展的影響分析[J].臨床醫(yī)藥文獻(xiàn)電子雜志,2018,(16).
[25]王得華,馬義,韓磊,等.新型基因重組PACAP衍生物MPL-2的制備及其抗2型糖尿病作用研究[J].中國生物工程雜志,2017,37(5):59-65.
(責(zé)任編輯:陳媛)