楊銳 陳偉 何濤 張敏 李蕊伶 岳芳
摘?要:[目的/意義]針對(duì)能源政策語(yǔ)義信息豐富的特點(diǎn),研究不同環(huán)境下卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)能源政策文本特征分類(lèi)識(shí)別的效果并提出優(yōu)化方法,輔助能源政策信息資源進(jìn)行自動(dòng)分類(lèi)操作,方便研究人員更好地進(jìn)行能源政策解讀。[方法/過(guò)程]在不同環(huán)境下利用字符級(jí)和詞級(jí)卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)能源政策自動(dòng)文本分類(lèi)識(shí)別效果進(jìn)行實(shí)驗(yàn),從標(biāo)題、內(nèi)容、核心主題句等角度全面對(duì)比分析,利用Doc2Vec抽取不同比例核心主題句,將這些主題信息融入卷積神經(jīng)網(wǎng)絡(luò)模型中以對(duì)實(shí)驗(yàn)進(jìn)行優(yōu)化。[結(jié)果/結(jié)論]隨著核心主題句抽取率的提高F1均值呈正態(tài)分布,當(dāng)抽取率為70%時(shí)達(dá)到平衡,神經(jīng)網(wǎng)絡(luò)模型評(píng)估F1均值為83.45%,較實(shí)驗(yàn)中的其它方法均有所提高,通過(guò)Doc2Vec提取主題信息,并將其融入卷積神經(jīng)網(wǎng)絡(luò)的方法有效提升了卷積神經(jīng)網(wǎng)絡(luò)模型自動(dòng)文本分類(lèi)的效果。
關(guān)鍵詞:能源政策;卷積神經(jīng)網(wǎng)絡(luò);文本分類(lèi);詞向量;文本向量
DOI:10.3969/j.issn.1008-0821.2020.04.005
〔中圖分類(lèi)號(hào)〕TP391?〔文獻(xiàn)標(biāo)識(shí)碼〕A?〔文章編號(hào)〕1008-0821(2020)04-0042-08
Text Classification Method Based on Convolutional
Neural Network Using Topic Information
Yang Rui1,2?Chen Wei1,2,3?He Tao4?Zhang Min1,2?Li Ruiling1,2?Yue Fang1,2
(1.Wuhan Library,Chinese Academy of Sciences,Wuhan 430074,China;
2.Key Laboratory of Science and Technology of Hubei Province,Wuhan 430074,China;
3.School of Economics and Management,University of Chinese Academy of Sciences,Beijing 100190,China;
4.Department of Information Security,Naval University of Engineering,Wuhan 430033,China)
Abstract:[Purpose/Significance]In view of the rich semantic information of energy policy,this paper studies the effect of convolutional neural network model on energy policy text feature classification and recognition under different environments,and proposes optimization methods to assist the automatic classification operation of energy policy information resources,so as to facilitate researchers to better interpret energy policy.[Method/Process]This paper used character-level and word-level convolution neural network model to test the effect of automatic classification and recognition of energy policy texts in different environments.It made a comprehensive comparative analysis from the perspective of title,content and core topic sentences,and extracted different proportion of core topic sentences by Doc2Vec for optimization experiments.[Result/Conclusion]With the increase of the extraction rate of core topic sentences,the average value of F1 was normal distribution.When the extraction rate is 70%,the balance was reached.The average value of F1 evaluated by the neural network model was 83.45%.Compared with other methods in the experiment,the using of topic information which was extracted with Doc2Vec effectively improved the automatic classification effect of the convolutional neural network model.
Key words:energy policy;CNN;text classification;Word2Vec;Doc2Vec
能源政策是由國(guó)家或地區(qū)圍繞能源的生產(chǎn)、供應(yīng)和消費(fèi)而制定的一系列行動(dòng)綱領(lǐng)或政策規(guī)劃,多涉及于產(chǎn)品價(jià)格、技術(shù)裝備升級(jí)改造、能源戰(zhàn)略儲(chǔ)備等多個(gè)方面。目前國(guó)內(nèi)主流數(shù)據(jù)庫(kù)對(duì)能源政策的分類(lèi)體系差異明顯,各個(gè)體系之間存在一定的擴(kuò)展和重疊。由于分類(lèi)體系不統(tǒng)一,研究人員在進(jìn)行內(nèi)容解讀時(shí),難以進(jìn)行有效梳理和對(duì)比分析。針對(duì)以上情況,本文以能源政策文本為出發(fā)點(diǎn),在梳理能源政策文本類(lèi)型的基礎(chǔ)上,將能源政策文本特征與深度學(xué)習(xí)技術(shù)相結(jié)合,對(duì)基于字符級(jí)和詞級(jí)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行全面的能源政策文本自動(dòng)分類(lèi)對(duì)比實(shí)驗(yàn)和效果評(píng)估,并在此基礎(chǔ)上提出一種融合主題信息的卷積神經(jīng)網(wǎng)絡(luò)文本分類(lèi)方法。該方法通過(guò)對(duì)能源政策文本進(jìn)行句向量構(gòu)建以抽取主題信息,然后將這些主題信息添加到卷積神經(jīng)網(wǎng)絡(luò)的輸入之中,從而構(gòu)建出更為全面的輸入特征以提高政策文本的自動(dòng)分類(lèi)效果。
1?相關(guān)研究
文本分類(lèi)是指按照已定義好的主題類(lèi)別,對(duì)數(shù)據(jù)集中的每個(gè)文檔劃分類(lèi)別,是自然語(yǔ)言處理領(lǐng)域的一個(gè)經(jīng)典課題。傳統(tǒng)的機(jī)器學(xué)習(xí)方法進(jìn)行文本分類(lèi)通常主要基于向量空間模型(VSM,Vector Space Model)[1]進(jìn)行,如樸素貝葉斯算法、支持向量機(jī)、隨機(jī)森林[2]等。向量空間模型在文本主題特征化時(shí),更多考慮了詞語(yǔ)在空間分布上的特征,即詞的前后關(guān)系,而忽略了詞語(yǔ)在句子或全文中語(yǔ)義上的相關(guān)性。2013年谷歌公司公開(kāi)發(fā)表一款用于詞向量計(jì)算的工具Word2Vec[3],它將詞語(yǔ)用向量的方式進(jìn)行表達(dá),向量的每一個(gè)維度都代表了詞語(yǔ)的一個(gè)特征,解決了VSM模型所生成的特征維度過(guò)高、數(shù)據(jù)稀疏等問(wèn)題[4]。但當(dāng)進(jìn)行長(zhǎng)文本處理時(shí),Word2Vec對(duì)上下文的語(yǔ)義分析能力仍需要較大提升。2014年谷歌公司的Quoc Le和Tomas Mikolov繼續(xù)在Word2Vec的基礎(chǔ)上提出了Doc2Vec方法[5]。該方法保留了句子中詞語(yǔ)的順序關(guān)系,使得每一個(gè)詞向量都具有了語(yǔ)義,能夠更好地處理文本自動(dòng)分類(lèi)的問(wèn)題。隨著詞向量和文本向量的發(fā)展,相關(guān)學(xué)者和機(jī)構(gòu)逐步開(kāi)始利用卷積神經(jīng)網(wǎng)絡(luò)(CNN,Convolutional Neural Network)在自然語(yǔ)言處理自動(dòng)文本分類(lèi)領(lǐng)域進(jìn)行探索研究[6]。其中在模型優(yōu)化方面,Kalchbrenner N等基于CNN進(jìn)行了句子建模的研究[7],通過(guò)動(dòng)態(tài)池化方法來(lái)構(gòu)建動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)(DCNN)的結(jié)構(gòu)用于句子的語(yǔ)義建模,誤差率減少了25%以上。在算法融合方面,殷亞博等人基于CNN和KNN進(jìn)行了短文本分類(lèi)研究[8],實(shí)驗(yàn)結(jié)果準(zhǔn)確率比基于TF-IDF的KNN算法效果有10%以上的提升。騰訊AI Lab聯(lián)合香港中文大學(xué)提出的主題記憶網(wǎng)絡(luò)將主題模型與文本分類(lèi)在神經(jīng)網(wǎng)絡(luò)框架進(jìn)行有效融合,利用卷積神經(jīng)網(wǎng)絡(luò)作為文本分類(lèi)器,實(shí)驗(yàn)證明該方法顯著提升了自動(dòng)文本分類(lèi)的性能[9]。在應(yīng)用研究方面賴文輝等基于CNN和詞向量進(jìn)行了垃圾短信的分類(lèi)識(shí)別應(yīng)用[10],識(shí)別準(zhǔn)確率相較于傳統(tǒng)模型提高了2.4%~5.1%。
2?研究方法
目前能源政策文本分類(lèi)通常采用《能源經(jīng)濟(jì)學(xué)》[11]一書(shū)中提出的九大類(lèi)分類(lèi)體系標(biāo)準(zhǔn),即能源開(kāi)發(fā)投資政策、能源工業(yè)政策、能源技術(shù)裝備政策、能源價(jià)格稅收信貸政策、能源消費(fèi)政策、能源進(jìn)出口政策、能源外交政策、新能源政策和能源安全政策。筆者通過(guò)對(duì)知網(wǎng)、萬(wàn)方以及北大法寶等政策法規(guī)數(shù)據(jù)庫(kù)的調(diào)研發(fā)現(xiàn),能源政策文本數(shù)據(jù)多以國(guó)家、地方和機(jī)構(gòu)的法規(guī)、規(guī)章以及司法解釋為主,一方面各個(gè)數(shù)據(jù)庫(kù)雖然大多都是從資源類(lèi)型的角度進(jìn)行區(qū)分,但不同的數(shù)據(jù)庫(kù)之間分類(lèi)標(biāo)準(zhǔn)也存在差異[12],例如,知網(wǎng)的政策分類(lèi)體系中還包括團(tuán)體規(guī)定、萬(wàn)方的政策分類(lèi)體系中還包括合同范本以及北大法寶的政策分類(lèi)體系中還包括行政許可批復(fù)等等各不相同;另一方面通過(guò)從內(nèi)容本身的解讀來(lái)看,各個(gè)類(lèi)別內(nèi)的政策文本仍然缺乏統(tǒng)一有效的類(lèi)別梳理,不同類(lèi)別的政策也存在著一定的重疊。由于這些政策文本范圍拓展和內(nèi)容重疊,導(dǎo)致文本分類(lèi)特征不明顯,如新能源政策中均包含了其他8類(lèi)政策類(lèi)別,算法模型難以對(duì)傳統(tǒng)的9種類(lèi)型進(jìn)行有效的判定區(qū)分。為了提高文本自動(dòng)分類(lèi)的準(zhǔn)確度,更好地支撐政策內(nèi)容分析以及主題識(shí)別等文本計(jì)算工作,筆者在對(duì)各類(lèi)數(shù)據(jù)庫(kù)的政策文本內(nèi)容進(jìn)行深度解讀后,在傳統(tǒng)分類(lèi)基礎(chǔ)上進(jìn)行了類(lèi)型歸納合并,從投資開(kāi)發(fā)、技術(shù)裝備、安全管理和市場(chǎng)消費(fèi)4個(gè)方面對(duì)能源政策進(jìn)行劃分,具體包括能源投資開(kāi)發(fā)與建設(shè)類(lèi)政策、能源科技與產(chǎn)業(yè)裝備類(lèi)政策、能源安全生產(chǎn)管理類(lèi)政策和能源市場(chǎng)調(diào)節(jié)與監(jiān)管類(lèi)政策,以此作為研究出發(fā)點(diǎn)。
2.1?研究思路
融合主題信息的卷積神經(jīng)網(wǎng)絡(luò)文本分類(lèi)方法,研究思路如圖1所示。
首先將獲取到的能源政策文本數(shù)據(jù)集按照4種類(lèi)型特征進(jìn)行人工標(biāo)注并進(jìn)行預(yù)處理,然后將數(shù)據(jù)集分成測(cè)試數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集,對(duì)數(shù)據(jù)集分別從標(biāo)題、內(nèi)容以及核心主題句3個(gè)方面進(jìn)行字符級(jí)和詞級(jí)[13]的卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練,利用Doc2Vec文本向量模型進(jìn)行文本句向量的計(jì)算和分析并獲取文本的主題句[14],通過(guò)不同抽取率進(jìn)行對(duì)比試驗(yàn)。最后對(duì)能源政策自動(dòng)文本分類(lèi)評(píng)估結(jié)果進(jìn)行全面地分析。
2.2?數(shù)據(jù)收集和預(yù)處理
本文利用網(wǎng)絡(luò)采集技術(shù)從相關(guān)機(jī)構(gòu)網(wǎng)站采集能源政策文本,然后進(jìn)行過(guò)濾和查重,去掉與能源政策主題無(wú)關(guān)的冗余信息形成原始語(yǔ)料,對(duì)原始語(yǔ)料內(nèi)容進(jìn)行清洗,去掉各種與分析內(nèi)容無(wú)關(guān)的信息,共計(jì)21 054篇原始語(yǔ)料作為樣本數(shù)據(jù)集。按照4種能源政策分類(lèi)類(lèi)型,包括能源投資開(kāi)發(fā)與建設(shè)類(lèi)政策、能源科技與產(chǎn)業(yè)裝備類(lèi)政策、能源安全生產(chǎn)管理類(lèi)政策和能源市場(chǎng)調(diào)節(jié)與監(jiān)管類(lèi)政策,對(duì)文本進(jìn)行手工標(biāo)注,每個(gè)類(lèi)別從政策文本中篩選出4 000篇作為樣本數(shù)據(jù),在CNN模型定型完成后,再將樣本數(shù)據(jù)輸入其中進(jìn)行測(cè)試,評(píng)估模型性能。本文采用十折交叉驗(yàn)證法進(jìn)行CNN模型泛化能力評(píng)估,將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,訓(xùn)練集用于模型訓(xùn)練,測(cè)試集用于評(píng)估模型性能[15]。具體將能源政策樣本數(shù)據(jù)集按照分類(lèi)平均分成10等份,每次實(shí)驗(yàn)抽取9份組成訓(xùn)練集,剩余1份組成測(cè)試集,每次實(shí)驗(yàn)訓(xùn)練集數(shù)據(jù)為14 400個(gè),測(cè)試集數(shù)據(jù)為1 600個(gè),最后得到卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)器性能指標(biāo),取10次實(shí)驗(yàn)結(jié)果的均值進(jìn)行評(píng)估。
2.3?理論模型
實(shí)驗(yàn)采用的模型均為基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ)的數(shù)學(xué)模型。
2.3.1?詞向量模型
Word2Vec是一種淺層神經(jīng)網(wǎng)絡(luò)模型。Word2Vec的網(wǎng)絡(luò)結(jié)構(gòu)分為CBOW和SkipGram兩種方式[16-17]。其中SkipGram根據(jù)滑動(dòng)窗口中的當(dāng)前詞來(lái)預(yù)測(cè)上下文中各個(gè)詞的生成概率。SkipGram的網(wǎng)絡(luò)結(jié)構(gòu)主要包括輸入層、隱含層以及輸出層,如圖2所示。
輸入層中通過(guò)One-hot編碼將所有的詞表示成多維向量,在輸出層中向量值通過(guò)隱含層以及連接隱含層和輸出層之間的權(quán)重矩陣計(jì)算得到,最后輸出層應(yīng)用Softmax激活函數(shù)計(jì)算每一個(gè)詞的出現(xiàn)概率[18]。Softmax函數(shù)定義為:
P(y=wn|x)=exn∑Nk=1exk
其中x表示N維輸出向量,xn表示輸出向量中與詞wn對(duì)應(yīng)的值。
在實(shí)驗(yàn)中進(jìn)行詞向量訓(xùn)練的基本參數(shù)包括網(wǎng)絡(luò)結(jié)構(gòu)SkipGram、詞向量維度300、訓(xùn)練的窗口大小5以及循環(huán)迭代次數(shù)100等。
2.3.2?主題信息提取
本文采用句向量模型來(lái)對(duì)主題信息進(jìn)行提取。Word2Vec基于詞向量進(jìn)行語(yǔ)義分析,但是并不具有上下文的語(yǔ)義分析能力。該模型可以獲得句子/段落/文本的向量表達(dá),通過(guò)計(jì)算距離找到句子/段落/文本之間的相似性,該模型的網(wǎng)絡(luò)結(jié)構(gòu)分為PV-DM和PV-DBOW兩種方式[19]。其中PV-DBOW和Word2Vec的SkipGram相似,如圖3所示。
PV-DBOW忽略輸入的上下文,在每次迭代的時(shí)候,從文本中抽取得到一個(gè)窗口,再?gòu)倪@個(gè)窗口中隨機(jī)采樣一個(gè)詞作為預(yù)測(cè)任務(wù)讓模型預(yù)測(cè)。通過(guò)生成的文本向量計(jì)算句子向量的余弦相似度,最終實(shí)現(xiàn)主題句的抽取。使用的余弦相似度公式為:
cos(θ)=∑ni=1(xi×yi)∑n=1(xi)2×∑ni=1(yi)2
在實(shí)驗(yàn)中進(jìn)行文本向量訓(xùn)練的基本參數(shù)包括網(wǎng)絡(luò)結(jié)構(gòu)PV-DBOW、句向量維度300、訓(xùn)練的窗口大小5以及循環(huán)迭代次數(shù)30等。
2.3.3?卷積神經(jīng)網(wǎng)絡(luò)
CNN模型包括輸入層、隱含層以及輸出層,利用梯度下降法最小化損失函數(shù)對(duì)權(quán)重參數(shù)逐層反向調(diào)節(jié)[20],通過(guò)迭代訓(xùn)練來(lái)提高模型分類(lèi)效果。本文設(shè)計(jì)的CNN模型如圖4所示。
1)輸入層設(shè)計(jì):在利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練過(guò)程中由于使用梯度下降方法來(lái)進(jìn)行學(xué)習(xí),卷積神經(jīng)網(wǎng)絡(luò)的輸入特征需要在輸入層進(jìn)行標(biāo)準(zhǔn)化處理。處理過(guò)程中將文本中經(jīng)過(guò)分詞處理以后的詞對(duì)應(yīng)的詞向量依次排列形成特征矩陣作為輸入數(shù)據(jù)傳入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。每個(gè)詞向量存儲(chǔ)在利用SkipGram網(wǎng)絡(luò)結(jié)構(gòu)提前訓(xùn)練好的詞向量模型中,假設(shè)文本中有n個(gè)詞,每個(gè)詞向量維度為v,那么這個(gè)特征矩陣就是n*v的二維矩陣。
2)卷積層設(shè)計(jì):通過(guò)內(nèi)部包含的卷積核進(jìn)行特征提取,特征提取的計(jì)算方法為[21]:
Si=f(Ch*v*Ti∶i+h-1+b)
其中Ch*v為卷積核,行數(shù)h為卷積核窗口大小,列數(shù)v為詞向量維度,T為文本特征矩陣,每個(gè)卷積核會(huì)依次與h行v列的特征矩陣做卷積操作,b為偏置量。f為神經(jīng)元激活函數(shù),在訓(xùn)練過(guò)
程中為了防止神經(jīng)元特征信息丟失以及克服梯度消失問(wèn)題,設(shè)計(jì)中采用LeakyReLU方法[22]作為激活函數(shù):
f(x)=max(0,x)+γmin(0,x)為固定較小常數(shù)
通過(guò)卷積核特征提取后得到特征圖:
S=[S1,S2,…,Sm-h+1]
在卷積層的設(shè)計(jì)過(guò)程中,考慮到一個(gè)卷積核提取特征存在不充分性的問(wèn)題,在卷積層中包含了C3*300、C4*300以C5*3003種不同大小的卷積核,每個(gè)卷積核的操作模式設(shè)置為相同,每種特征圖各提取出100張。最終在卷積層的輸出端得到共300張?zhí)卣鲌D。
3)池化層設(shè)計(jì):在卷積層進(jìn)行特征提取后,由于特征圖的維度還是很高,因此需要將特征圖傳遞至池化層通過(guò)池化函數(shù)進(jìn)行特征選擇和信息過(guò)濾。通過(guò)池化函數(shù)將特征圖中單個(gè)點(diǎn)的結(jié)果替換為其相鄰區(qū)域的特征圖統(tǒng)計(jì)量,池化過(guò)程與卷積層掃描特征圖的過(guò)程相同[23]。在實(shí)驗(yàn)中采用最大池化函數(shù)(MaxPooling)對(duì)卷積核獲取的特征保留最大值同時(shí)放棄其它特征值。
4)全連接層設(shè)計(jì):對(duì)提取的特征進(jìn)行非線性組合得到輸出,全連接層本身不具有特征提取能力,主要用來(lái)整合池化層中具有類(lèi)別區(qū)分性的特征信息,在實(shí)驗(yàn)中采用LeakyReLU函數(shù)[24]作為全連接層神經(jīng)元的激勵(lì)函數(shù)。
5)輸出層設(shè)計(jì):使用多類(lèi)交叉熵函數(shù)(Multiclass Cross Entropy)作為損失函數(shù)以及歸一化指數(shù)函數(shù)(Softmax)[25]作為激活函數(shù)輸出特征分類(lèi)標(biāo)簽,完成文本分類(lèi)任務(wù)。
2.4?評(píng)價(jià)指標(biāo)
對(duì)于分類(lèi)器性能優(yōu)劣判斷指標(biāo)采用F值,F(xiàn)值能夠較好反映神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中的表現(xiàn),它是精確率和召回率的加權(quán)調(diào)和平均值[26],計(jì)算公式為:
F=(α2+1)*P*Rα2*(P+R)
式中:P為精確率(Precision)、R為召回率(Recall)、α為權(quán)重因子。
P表示對(duì)于給定測(cè)試集的一個(gè)分類(lèi),分類(lèi)模型正確判斷為該類(lèi)的樣本數(shù)與分類(lèi)模型判斷屬于該類(lèi)的總樣本數(shù)之比。
R召回率的定義為:對(duì)于給定測(cè)試集的一個(gè)分類(lèi),分類(lèi)模型預(yù)測(cè)正確判斷為該類(lèi)的樣本數(shù)與屬于該類(lèi)的總樣本數(shù)之比。
當(dāng)α=1時(shí),F(xiàn)值是F1值,表示精確率和召回率的權(quán)重一樣,是最常用的一種評(píng)價(jià)指標(biāo),F(xiàn)1值越高,分類(lèi)效果越好。F1的計(jì)算公式為:
F1=2*P*RP+R
在對(duì)比各組實(shí)驗(yàn)的分類(lèi)效果時(shí),以CNN模型在政策文本分類(lèi)上的F1值作為判斷標(biāo)準(zhǔn)。
3?實(shí)驗(yàn)過(guò)程
3.1?實(shí)驗(yàn)環(huán)境配置
3.2?實(shí)驗(yàn)設(shè)計(jì)
為了驗(yàn)證主題信息對(duì)CNN文本分類(lèi)效果的影響,設(shè)計(jì)了4組實(shí)驗(yàn)與融合主題信息的CNN文本分類(lèi)方法進(jìn)行比較,在實(shí)驗(yàn)過(guò)程中CNN超參數(shù)的設(shè)置如表2所示。
實(shí)驗(yàn)1:采用北京師范大學(xué)中文信息處理研究所構(gòu)建的開(kāi)放中文語(yǔ)言向量資源,考慮到能源政策文本內(nèi)容的語(yǔ)義環(huán)境和人民日?qǐng)?bào)有一定的相似性,選取其中的1946-2017年的人民日?qǐng)?bào)詞向量語(yǔ)料庫(kù)做為Word2Vec訓(xùn)練好的模型實(shí)例,分別以字符級(jí)的標(biāo)題和全文作為訓(xùn)練集和測(cè)試集,評(píng)估采用大規(guī)模詞向量語(yǔ)料庫(kù)對(duì)字符級(jí)CNN自動(dòng)分類(lèi)模型的性能影響。
實(shí)驗(yàn)2:在實(shí)驗(yàn)1里面的詞向量語(yǔ)料庫(kù),使用了不同的字符以及詞等上下文特征的中文詞向量嵌入訓(xùn)練,因此采用相同的詞向量語(yǔ)料庫(kù),以詞級(jí)的標(biāo)題和全文作為訓(xùn)練集和測(cè)試集,評(píng)估采用大規(guī)模詞向量語(yǔ)料庫(kù)對(duì)詞級(jí)CNN自動(dòng)分類(lèi)模型的性能影響。
實(shí)驗(yàn)3:采用16 000篇能源領(lǐng)域政策文本內(nèi)容作為語(yǔ)料生成Word2Vec詞向量,采用SkipGram網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行訓(xùn)練,分別以字符級(jí)的標(biāo)題和全文作為訓(xùn)練集和測(cè)試集,評(píng)估采用自訓(xùn)練的詞向量模型對(duì)字符級(jí)CNN自動(dòng)分類(lèi)模型的性能影響。
實(shí)驗(yàn)4:與實(shí)驗(yàn)3一樣采用自訓(xùn)練詞向量模型,以詞級(jí)的標(biāo)題和全文作為訓(xùn)練集和測(cè)試集,評(píng)估采用自訓(xùn)練的詞向量模型對(duì)詞級(jí)CNN自動(dòng)分類(lèi)模型的性能影響。
實(shí)驗(yàn)5:在前面4個(gè)實(shí)驗(yàn)的基礎(chǔ)上利用Doc2Vec進(jìn)行數(shù)據(jù)集文本向量模型訓(xùn)練,以文本標(biāo)題為核心主題句利用文本向量相似度計(jì)算的方法提取與標(biāo)題相似度最高的主題句放入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,評(píng)估介于標(biāo)題和全文之間的核心主題內(nèi)容對(duì)CNN自動(dòng)分類(lèi)模型的性能影響。
3.3?實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果如表3、表4所示。
4?結(jié)果分析
在實(shí)驗(yàn)過(guò)程中,通過(guò)對(duì)能源政策文本的解讀,發(fā)現(xiàn)對(duì)于有些文本存在內(nèi)容屬于多個(gè)分類(lèi)的問(wèn)題,在數(shù)據(jù)集人工標(biāo)注過(guò)程中產(chǎn)生了一定的偏差,直接影響到CNN模型的分類(lèi)效果,針對(duì)以上實(shí)驗(yàn)結(jié)果排除這些影響并在相同的迭代次數(shù)下進(jìn)行分析。
4.1?字符級(jí)和詞級(jí)CNN模型
從表3實(shí)驗(yàn)結(jié)果來(lái)看,不管是采用自訓(xùn)練的詞向量語(yǔ)料還是開(kāi)放的大規(guī)模詞向量語(yǔ)料,詞級(jí)CNN模型整體好于字符級(jí)CNN模型,F(xiàn)1均值提升范圍約1%~3%。字符級(jí)和詞級(jí)語(yǔ)言模型的區(qū)別在
于字符級(jí)或者詞級(jí)的文本信息作為CNN模型的最小處理單元。對(duì)于能源政策文本通常具備較強(qiáng)的行文規(guī)范以及上下文之間具備較強(qiáng)的語(yǔ)義關(guān)系,從語(yǔ)義空間的角度,詞級(jí)語(yǔ)言模型能夠更好地表達(dá)文本中的語(yǔ)法和上下文語(yǔ)義關(guān)系,然后能夠基于CNN模型去進(jìn)一步放大詞向量的語(yǔ)義表達(dá)能力,而字符級(jí)語(yǔ)言模型以單個(gè)字符進(jìn)行處理時(shí)丟棄了詞所具備的語(yǔ)義信息,因此對(duì)于能源政策文本采用詞級(jí)CNN模型能夠達(dá)到更好的分類(lèi)效果[27]。另一方面實(shí)驗(yàn)觀察到從全文的角度采用自定義詞向量的詞級(jí)CNN模型使用特定領(lǐng)域內(nèi)的語(yǔ)料進(jìn)行訓(xùn)練,對(duì)同領(lǐng)域的文本分類(lèi)效果有一定的提升,但當(dāng)語(yǔ)料擴(kuò)大到100M以上時(shí),詞級(jí)CNN模型的分類(lèi)效果差異較小,為0.22%。
4.2?標(biāo)題和全文作為數(shù)據(jù)集
從表3實(shí)驗(yàn)結(jié)果來(lái)看,在字符級(jí)CNN模型分類(lèi)效果上,采用標(biāo)題作為數(shù)據(jù)集好于采用全文作為數(shù)據(jù)集,F(xiàn)1均值提升了0.58%和0.61%,在詞級(jí)CNN模型分類(lèi)效果上,采用全文作為數(shù)據(jù)集好于采用標(biāo)題作為數(shù)據(jù)集,F(xiàn)1均值提升了1.82%和0.86%。對(duì)于第一種情況采用字符級(jí)CNN模型,缺乏對(duì)于能源政策文本語(yǔ)義特征描述,但是從標(biāo)題的角度,是對(duì)能源政策文本內(nèi)容的高度概括,標(biāo)題作為短文本具備明顯的主題性在一定程度上彌補(bǔ)了CNN模型訓(xùn)練特征不足的問(wèn)題,因此分類(lèi)效果好于全文。另一方面采用詞級(jí)CNN模型時(shí),全文所包含的語(yǔ)義特征高于標(biāo)題所表達(dá)的語(yǔ)義特征,通過(guò)CNN模型的特征學(xué)習(xí)能力更容易產(chǎn)生好的分類(lèi)效果。
4.3?基于Doc2Vec不同的主題句抽取率
抽取率為能源政策文本中主題句占該文本全部句子的比例。從表4的5個(gè)實(shí)驗(yàn)結(jié)果來(lái)看,以表3的表現(xiàn)最好的第四個(gè)實(shí)驗(yàn)作為基準(zhǔn)線進(jìn)行測(cè)試,主題句抽取率從10%逐步提升到100%,能源政策文本分類(lèi)效果呈現(xiàn)出逐步上升隨后下降的正態(tài)分布趨勢(shì),在抽取率為70%的時(shí)候,F(xiàn)1均值為83.45%,達(dá)到最高。利用Doc2Vec模型計(jì)算每個(gè)句子與標(biāo)題的相似度,從高到低進(jìn)行排序和抽取,相似度較高的句子包含更多的主題特征詞,相似度較低的句子包含更多的冗余信息[28],為了使得CNN模型的性能最大化,需要采用與其分類(lèi)特點(diǎn)相匹配的更多的特征詞進(jìn)行迭代訓(xùn)練來(lái)達(dá)到較好的收斂效果。因此主題的特征詞信息和冗余信息的比例對(duì)CNN模型的分類(lèi)效果產(chǎn)生一定的影響,該實(shí)驗(yàn)在70%的時(shí)候抽取比例達(dá)到平衡,使得分類(lèi)效果最佳。
5?結(jié)?語(yǔ)
本文結(jié)合能源政策文本以卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)進(jìn)行了全面的自動(dòng)分類(lèi)模型對(duì)比分析,并提出了一種融合主題信息的卷積神經(jīng)網(wǎng)絡(luò)文本分類(lèi)方法。該方法在能源政策文本自動(dòng)分類(lèi)任務(wù)評(píng)估上F1均值達(dá)到83.45%,較實(shí)驗(yàn)中的其它CNN分類(lèi)模型均有所提高。在后續(xù)的工作中將更深入的研究影響模型性能的因素,并且將研究成果應(yīng)用到相關(guān)工作中以提供業(yè)務(wù)服務(wù)。
參考文獻(xiàn)
[1]白璐.基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類(lèi)器的設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京交通大學(xué),2018.
[2]王星峰.基于CNN和LSTM的智能文本分類(lèi)[J].遼東學(xué)院學(xué)報(bào):自然科學(xué)版,2019,26(2):126-132.
[3]Kim Y.Convolutional Neural Networks for Sentence Classification[J].Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing(EMNLP 2014),2014:1746-1751.
[4]Johnson R,Zhang T.Effective Use of Word Order for Text Categorization with Convolutional Neural Networks[J].To Appear:NAACL-2015,2015.
[5]Nguyen T H,Grishman R.Relation Extraction:Perspective from Convolutional Neural Networks[J].Workshop on Vector Modeling for NLP,2015:39-48.
[6]Santos C N dos,Gatti M.Deep Convolutional Neural Networksfor Sentiment Analysis of Short Texts[J].In COLING-2014,2014:69-78.
[7]Kalchbrenner N,Grefenstette E,Blunsom P.A Convolutional NeuralNetwork for Modelling Sentences[J].Acl,2014:655-665.
[8]殷亞博,楊文忠,楊慧婷,等.基于卷積神經(jīng)網(wǎng)絡(luò)和KNN的短文本分類(lèi)算法研究[J].計(jì)算機(jī)工程,2018,44(7):193-198.
[9]Zeng J,Li J,Song Y,et al.Topic Memory Networks for Short Text Classification[J].2018.
[10]賴文輝,喬宇鵬.基于詞向量和卷積神經(jīng)網(wǎng)絡(luò)的垃圾短信識(shí)別方法[J].計(jì)算機(jī)應(yīng)用,2018,38(9):2469-2476.
[11]周冬.能源經(jīng)濟(jì)學(xué)[M].北京:北京大學(xué)出版社,2015.
[12]楊衛(wèi)東,龐昌偉.中國(guó)能源政策目標(biāo)及協(xié)調(diào)戰(zhàn)略分析[J].人民論壇·學(xué)術(shù)前沿,2018,(5):62-66.
[13]劉敬學(xué),孟凡榮,周勇,等.字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)短文本分類(lèi)算法[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(5):135-142.
[14]齊凱凡.基于卷積神經(jīng)網(wǎng)絡(luò)的新聞文本分類(lèi)問(wèn)題研究[D].西安:西安理工大學(xué),2018.
[15]張小川,余林峰,桑瑞婷,等.融合CNN和LDA的短文本分類(lèi)研究[J].軟件工程,2018,21(6):17-21.
[16]Zhang Y,Wallace B.A Sensitivity Analysis of(and Practitioners Guide to)Convolutional Neural Networks for Sentence Classification[J].2015.
[17]李林.基于Word2vec和卷積神經(jīng)網(wǎng)絡(luò)的文本分類(lèi)研究[D].重慶:西南大學(xué),2018.
[18]Johnson R,Zhang T.Semi-supervised Convolutional Neural Networks for Text Categorization via Region Embedding[J].2015.
[19]Sun Y,Lin L,Tang D,et al.Modeling Mention,Context and Entity with Neural Networks for Entity Disambiguation,(Ijcai)[J].2015:1333-1339.
[20]Wang P,Xu J,Xu B,et al.Semantic Clustering and Convolutional Neural Network for Short Text Categorization[J].Proceedings ACL 2015,2015:352-357.
[21]孫璇.基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類(lèi)方法研究[D].上海:上海師范大學(xué),2018.
[22]盧玲,楊武,楊有俊,等.結(jié)合語(yǔ)義擴(kuò)展和卷積神經(jīng)網(wǎng)絡(luò)的中文短文本分類(lèi)方法[J].計(jì)算機(jī)應(yīng)用,2017,37(12):3498-3503.
[23]Shen Y,He X,Gao J,et al.A Latent Semantic Model withConvolutional-Pooling Structure for Information Retrieval[J].Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management-CIKM 14,2014:101-110.
[24]余本功,張連彬.基于CP-CNN的中文短文本分類(lèi)研究[J].計(jì)算機(jī)應(yīng)用研究,2018,35(4):1001-1004.
[25]夏從零,錢(qián)濤,姬東鴻.基于事件卷積特征的新聞文本分類(lèi)[J].計(jì)算機(jī)應(yīng)用研究,2017,34(4):991-994.
[26]蘇金樹(shù),張博鋒,徐昕.基于機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)研究進(jìn)展[J].軟件學(xué)報(bào),2006,(9):1848-1859.
[27]Zeng D,Liu K,Lai S,et al.Relation Classification via Convolutional Deep Neural Network[J].Coling,2014:2335-2344.
[28]Weston J,Adams K.# T AG S PACE:Semantic Embeddings from Hashtags[J].2014:1822-1827.
(責(zé)任編輯:郭沫含)