盧 玲,楊 武,楊有俊,陳夢(mèng)晗
(重慶理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,重慶,400050)
結(jié)合語義擴(kuò)展和卷積神經(jīng)網(wǎng)絡(luò)的中文短文本分類方法
盧 玲,楊 武*,楊有俊,陳夢(mèng)晗
(重慶理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,重慶,400050)
中文新聞標(biāo)題通常包含一個(gè)或幾十個(gè)詞,由于字符數(shù)少、特征稀疏,在分類問題中難以提升正確率。為解決此問題,提出了基于Word Embedding的文本語義擴(kuò)展方法。首先,將新聞標(biāo)題擴(kuò)展為(標(biāo)題、副標(biāo)題、主題詞)構(gòu)成的三元組,用標(biāo)題的同義詞結(jié)合詞性過濾方法構(gòu)造副標(biāo)題,對(duì)多尺度滑動(dòng)窗口內(nèi)的詞進(jìn)行語義組合,提取主題詞;然后,針對(duì)擴(kuò)展文本構(gòu)造卷積神經(jīng)網(wǎng)絡(luò)(CNN)分類模型,該模型通過max pooling及隨機(jī)dropout進(jìn)行特征過濾及防止過擬合;最后,將標(biāo)題、副標(biāo)題拼接為雙詞表示,與多主題詞集分別作為模型的輸入。在2017自然語言處理與中文計(jì)算評(píng)測(cè)(NLP&CC2017)的新聞標(biāo)題分類數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,用三元組擴(kuò)展結(jié)合相應(yīng)的CNN模型在18個(gè)類別新聞標(biāo)題上分類的正確率為79.42%,比未經(jīng)擴(kuò)展的CNN模型提高了9.5%,且主題詞擴(kuò)展加快了模型的收斂速度,驗(yàn)證了三元組擴(kuò)展方法及所構(gòu)建CNN分類模型的有效性。
新聞標(biāo)題分類;語義擴(kuò)展;卷積神經(jīng)網(wǎng)絡(luò);同義詞;語義組合
隨著網(wǎng)絡(luò)文本數(shù)量增加,呈現(xiàn)大數(shù)據(jù)特征,如何對(duì)海量文本進(jìn)行快速分析,例如根據(jù)新聞標(biāo)題進(jìn)行類別識(shí)別,根據(jù)網(wǎng)絡(luò)評(píng)論進(jìn)行情感分析等,在自動(dòng)問答[1]、信息檢索[2]、網(wǎng)絡(luò)輿情發(fā)現(xiàn)等領(lǐng)域應(yīng)用廣泛。新聞標(biāo)題字符數(shù)少,屬于短文本,在文本結(jié)構(gòu)化時(shí)存在數(shù)據(jù)稀疏問題[3],難以根據(jù)詞的共現(xiàn)信息挖掘其語義,使基于特征抽取的機(jī)器學(xué)習(xí)分類算法,如樸素貝葉斯、支持向量機(jī)等,和基于自動(dòng)特征學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)模型,在直接應(yīng)用于短文本分類時(shí),仍存在不足。針對(duì)這種短文本數(shù)據(jù)稀疏對(duì)分類性能的影響,學(xué)者從擴(kuò)展短文本特征、優(yōu)化文本特征表示方法及改進(jìn)分類模型方面,展開了廣泛研究。
從文本特征擴(kuò)展方法看,Phan等[4]用隱狄克雷分布(Latent Dirichlet Allocation, LDA)發(fā)現(xiàn)潛在語義,對(duì)短文本進(jìn)行擴(kuò)展;馬成龍等[5]通過訓(xùn)練無標(biāo)注數(shù)據(jù)得到詞矢量,再用詞矢量相似度擴(kuò)展文本的集外詞;鄭誠等[6]提出了融合主題模型(Biterm Topic Model, BTM)特征和改進(jìn)特征權(quán)重計(jì)算的方法,用于擴(kuò)充短文本特征;張海濤等[7]用背景補(bǔ)償與邊緣相關(guān)方法,根據(jù)文本關(guān)聯(lián)性建立小樣本簇背景特征集,并結(jié)合邊緣相關(guān)性分析確定文本特征;高元等[8]提出了一種融合隨機(jī)森林與貝葉斯多項(xiàng)式的標(biāo)題分類算法,用圖書館書目數(shù)據(jù)驗(yàn)證了其性能。上述文本擴(kuò)展方法在不同數(shù)據(jù)集上均取得了性能提升,但其對(duì)文本特征的表示方法仍需人工定義,且對(duì)文本特征擴(kuò)展時(shí)可能引入的噪聲未作進(jìn)一步討論。近年來,神經(jīng)網(wǎng)絡(luò)(Neural Network, NN)方法由于能從大規(guī)模數(shù)據(jù)中進(jìn)行自動(dòng)特征學(xué)習(xí),在自然語言處理中被大量使用。Le等[9]用無監(jiān)督方法學(xué)習(xí)段落向量,得到句子、段落等變長文本的固定大小的特征表示;Kalchbrenner等[10]用動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)對(duì)句子建模,用動(dòng)態(tài)k-max pooling消除輸入語句長度的影響;Kim[11]用預(yù)訓(xùn)練的詞向量結(jié)合卷積NN(Convolutional NN, CNN)進(jìn)行句子分類,在情感分類、主客觀句分類和問句分類等數(shù)據(jù)集上驗(yàn)證了模型性能;Wang等[12]提出了一種結(jié)合密度峰聚類及Word Embedding的短文本擴(kuò)展方法,是與本文最相關(guān)的工作。在文本語義表示方面,Mitchell等[13]對(duì)短語、句子的分布式表示模型構(gòu)建及評(píng)價(jià)方法進(jìn)行了研究;Mikolov等[14-15]提出用Skip-gram模型學(xué)習(xí)大規(guī)模文本數(shù)據(jù)的向量表示,并對(duì)如何提高訓(xùn)練質(zhì)量及速度[16]進(jìn)行了研究。文獻(xiàn)[11,13-16]為本文針對(duì)擴(kuò)展文本提出的CNN分類模型結(jié)構(gòu),以及本文的文本短語語義擴(kuò)展方法,提供了主要理論依據(jù)。
綜上可知,現(xiàn)有研究主要著眼于擴(kuò)展短文本特征,并借助深度學(xué)習(xí)模型的大規(guī)模參數(shù)表述能力,根據(jù)高階n-gram及詞序信息[12]學(xué)習(xí)語義特征,改進(jìn)特征描述方法。但由于擴(kuò)展文本從一定程度改變了原文語法結(jié)構(gòu),有必要針對(duì)擴(kuò)展文本設(shè)計(jì)分類模型,使其適于對(duì)擴(kuò)展文本進(jìn)行特征學(xué)習(xí)。另外,特征擴(kuò)展容易引入噪聲,使短文本發(fā)生主題偏移而影響分類性能。因此,本文對(duì)短文本擴(kuò)展及分類模型構(gòu)建方法展開了研究。通過適度控制擴(kuò)展文本長度,針對(duì)擴(kuò)展文本結(jié)構(gòu)建立分類模型以改善分類性能。對(duì)漢語新聞標(biāo)題,首先基于Word Embedding將其擴(kuò)展為標(biāo)題三元組,再構(gòu)造卷積神經(jīng)網(wǎng)絡(luò),對(duì)標(biāo)題三元組進(jìn)行分類。實(shí)驗(yàn)在2017自然語言處理與中文計(jì)算評(píng)測(cè)(Natural Language Processing & Chinese Computing in 2017, NLP&CC2017)的新聞標(biāo)題分類數(shù)據(jù)集上進(jìn)行,驗(yàn)證了本文方法的有效性。
短文本的研究多針對(duì)特定域文本,如微博、網(wǎng)絡(luò)評(píng)論、搜索引擎查詢串等,但沒有對(duì)短文本的明確定義。本文以中文新聞標(biāo)題為研究目標(biāo)。分析15萬條新聞標(biāo)題文本,其詞數(shù)及字符數(shù)如圖1所示。從圖1折線可知,標(biāo)題字符數(shù)介于1~40,圖1柱形表示的中文分詞(結(jié)巴分詞)詞數(shù)介于1~28,如“南京長江大橋”分詞結(jié)果為一個(gè)詞“南京長江大橋”。結(jié)合新聞門戶網(wǎng)站(如新浪新聞)、新聞出版物對(duì)新聞標(biāo)題字?jǐn)?shù)的約束,本文所研究短文本的字符數(shù)介于1~40。
閱讀文本時(shí),通常讀者會(huì)根據(jù)自身認(rèn)知及上下文進(jìn)行信息補(bǔ)充,以加深對(duì)原文理解。例如如下分詞后的文本:
1)“他們不會(huì)再囤積中鋒了吧 ?”
2)“周琦下賽季會(huì)怎么樣?”
對(duì)文本1),讀到“中鋒”時(shí),讀者可能補(bǔ)充“足球”“籃球”等近義詞;對(duì)文本2),讀到“周琦”“賽季”時(shí),讀者可能搜索對(duì)這些詞組合的認(rèn)知信息,進(jìn)而根據(jù)“籃球”“比賽”等近義詞判斷文本類別??梢姡瑢?duì)短文本進(jìn)行擴(kuò)展可輔助分類。
圖1 新聞標(biāo)題字符數(shù)、詞數(shù)分布Fig. 1 Distribution of terms and words of news titles
Word Embedding又稱“Word Representation”,中文稱“詞向量”或“詞嵌入”,本文用“詞向量”表示W(wǎng)ord Embedding。詞向量可通過構(gòu)建神經(jīng)網(wǎng)絡(luò)語言模型[18],結(jié)合上下文信息,將詞映射成低維實(shí)向量而得到。詞向量各維的取值取決于詞與維度的共現(xiàn)頻率,詞的語義分布在各維上,其相對(duì)位置描述了其語義關(guān)系,因此根據(jù)詞間距離可判斷詞的語義相似度,進(jìn)而找出同義詞,這是本文的一種文本擴(kuò)展依據(jù)。例如用余弦距離計(jì)算下述詞語的同義詞(本文實(shí)驗(yàn)語料訓(xùn)練的Word2Vec):
籃球:排球、壘球、橄欖球;
賽事:比賽、本屆、賽站。
可分別將“排球”“比賽”作為“籃球”“賽事”的擴(kuò)展詞。雖然這里的擴(kuò)展詞描述了與原文不同的事件,但由于“籃球賽事”和“排球比賽”都屬于“sport”類事件,因此對(duì)文本分類任務(wù),仍可輔助類別判斷。
另外,由于單個(gè)詞忽略了上下文語義,因此文本擴(kuò)展還應(yīng)考慮組合詞,即詞向量的組合[13]。對(duì)任意詞向量u、v,其組合[13]描述為:
NP=f(u,v)
其中:f為組合函數(shù);NP為u、v組合成的新語義。NP的產(chǎn)生依賴于兩個(gè)假設(shè)[13]:1)在相似文本中出現(xiàn)的u、v,其語義也相似;2)u、v向量的相似性可表達(dá)其語義相似性。根據(jù)詞向量特點(diǎn),u、v符合上述假設(shè)。對(duì)組合函數(shù)f,由于詞向量具有analogy性質(zhì)[16],其語義關(guān)系可通過如下線性算子[14-16]描述,如:
vec("Madrid")-vec("Spain")+vec("France")→
vec("Paris")
本文以詞向量的analogy性質(zhì)作為其組合依據(jù),用向量加法作為組合函數(shù)f,如式(1):
NP=u+v
(1)
通過詞向量u、v相加,將詞語簡(jiǎn)單混合,產(chǎn)生新向量NP。NP蘊(yùn)含了新的語義,可根據(jù)其抽取新的特征作為文本擴(kuò)展詞。詞向量相加的問題是無法判斷相加順序,因而忽略了詞序信息。對(duì)該問題,本文用連續(xù)滑動(dòng)的多尺度窗口抽取詞組合,使獲得的新特征間保持相對(duì)詞序信息。
本文根據(jù)一般新聞標(biāo)題的(標(biāo)題,副標(biāo)題,主題詞)描述格式,將待分類新聞標(biāo)題T,擴(kuò)展為標(biāo)題三元組,形如:
Title={T,TA,KEYS}
其中:Title為擴(kuò)展標(biāo)題;T為待分類標(biāo)題;TA為副標(biāo)題;KEYS為主題詞集。
副標(biāo)題TA用于擴(kuò)展對(duì)T的描述,因此與T具有相似詞,且應(yīng)符合一定語法規(guī)范。本文提取TA的方法是:對(duì)T的任意詞語ti,提取與其最相似,且與ti詞性相同的詞為擴(kuò)展詞;連接擴(kuò)展詞形成TA。其中詞性過濾是使TA與T具有相似語法,符合一定語義規(guī)范。假設(shè)文本T為{t1,t2,…,tn},ti是其任一詞。經(jīng)預(yù)訓(xùn)練得到EW為{D,WMDIC},其中D是詞語列表,WMDIC是詞向量矩陣,分別表示為:
D=[d1,d2,…,dN]
WMDIC=(f1,f2…,fN)
其中:dk是D中任一詞;fk是dk的詞向量;N為詞語總數(shù)。提取副標(biāo)題TA如算法ABSST(ABStract SubTitle)所示。
算法 ABSST。
輸入T,EW;
輸出TA。
1)
TA={?}
2)
foreachtiinT:
iftiinD:
maxDist=-1
foreachfkinWMDIC:
distance=Cosdis(fD.index(ti),fk)
ifmaxDist maxDist=distance pos=k TA=TA∪{dpos} 其中:D.index(ti)為詞ti在D中的索引位置;Cosdis(fD.index(ti),fk)為計(jì)算詞向量fD.index(ti)、fk的余弦相似度;POS(ti)為ti的詞性。將TA的詞按選中先后順序拼接,得到副標(biāo)題TA。對(duì)D中未登錄詞不予提取,本文實(shí)驗(yàn)中用空白符代替。 參照GB/T3860—2009《文獻(xiàn)主題標(biāo)引規(guī)則》描述,主題詞能反映文獻(xiàn)特征,有利于快速檢索。因此本文抽取文本的主題詞以增強(qiáng)對(duì)文本的描述,用于輔助分類。 對(duì)短文本的詞擴(kuò)展,文獻(xiàn)[12]根據(jù)文本的詞組合,尋找其最相似的類別中心詞,再抽取中心詞周圍一定閾值內(nèi)的詞為擴(kuò)展詞。該方法需進(jìn)行詞聚類,并在詞抽取時(shí)設(shè)置超參數(shù),另外抽取的擴(kuò)展詞間不存在語序關(guān)系。因此,本文基于文獻(xiàn)[12]方法,首先從文本提取詞組合,再將其最相似詞作為主題詞。主題詞提取如圖2所示,提取過程如下: 1)以預(yù)訓(xùn)練的詞向量矩陣WMDIC∈Rdim×N為查找表,以D為詞語列表,其中dim是詞向量維度,N為單詞數(shù)。對(duì)文本T的每個(gè)詞ti,根據(jù)WMDIC填充詞向量矩陣TM∈Rn×dim,其中n是T的詞數(shù)。 在錄音錄像過程中,審判機(jī)關(guān)不需要主動(dòng)對(duì)于取證時(shí)的錄音錄像進(jìn)行審查,只有在訴訟參與人對(duì)有關(guān)證據(jù)的合法性提出質(zhì)疑時(shí),才需要決定是否播放取證時(shí)的錄音錄像。根據(jù)非法證據(jù)排除規(guī)則的原理,非法證據(jù)應(yīng)當(dāng)在法庭審理之前排除,以免這些證據(jù)進(jìn)入裁判者的視野,影響最后判決。在庭前會(huì)議上,被告人及其辯護(hù)人如果對(duì)證據(jù)收集合法性提出質(zhì)疑的,法庭應(yīng)當(dāng)根據(jù)案情決定是否播放訊問錄音錄像,作為判斷的依據(jù)。 2)設(shè)置多尺度大小滑動(dòng)窗口,根據(jù)式(1),分別對(duì)窗口內(nèi)詞向量求和,得到NewFeatures,表示為{NF1,NF2,…,NFP}。其中P是窗口數(shù),NFk是第k個(gè)新向量矩陣,表示為: NFk=(nfk1,nfk2,…,nfkq) 其中:nfki是詞向量相加而成的新向量;q是新向量數(shù)。 3)對(duì)NewFeatures中的每個(gè)新向量,查詢WMDIC中最相似的詞向量,并從D中提取對(duì)應(yīng)詞,作為主題詞。 由此主題詞集KEYS表示為: KEYS={Key1,Key2,…,KeyP} 其中Keyk為第k組主題詞,表示為: Keysk={wk1,wk2,…,wkq} 其中wki是提取的一個(gè)主題詞。 圖2 多尺度詞向量組合的主題詞抽取Fig.2 Keywords extraction from composition of multiscale word vectors T:北汽、幻速、車型、勇闖、無人區(qū); Key1:趙景光、新車、不畏艱難、昆侖山; Key2:汽車、新車、無人區(qū); Key3:汽車集團(tuán)、轎車。 由此T的主題詞集KEYS為{Key1,Key2,Key3}??梢娡ㄟ^多尺度窗口的詞組合,逐漸聚焦了關(guān)鍵詞“車”。雖然KEYS沒有反映出“勇闖無人區(qū)”這一事件,但仍從一定程度加深了對(duì)T的描述,實(shí)現(xiàn)了詞擴(kuò)展。與文獻(xiàn)[12]方法相比較,本文方法每次從滑動(dòng)窗口提取一個(gè)最相似特征,避免詞聚類時(shí)進(jìn)行超參數(shù)設(shè)置,并使擴(kuò)展特征數(shù)得到一定控制。另外,通過窗口滑動(dòng)的連續(xù)性,擴(kuò)展特征KEYS中的各主題詞間保持了相對(duì)詞序信息,有利于后續(xù)基于卷積計(jì)算的特征學(xué)習(xí)。 CNN是一種前饋神經(jīng)網(wǎng)絡(luò)。文獻(xiàn)[11]提出了一種基于CNN的文本分類模型。本文對(duì)該模型的輸入層進(jìn)行改進(jìn),以適合本文的擴(kuò)展文本,得到如圖3所示的擴(kuò)展文本分類模型。對(duì)文本T,首先抽取副標(biāo)題TA、主題詞集KEYS,得到三元組Title={T,TA,KEYS}用于構(gòu)造網(wǎng)絡(luò)輸入層;再通過卷積運(yùn)算抽取Title的特征圖FM、FKS;對(duì)FM、FKS進(jìn)行max pooling采樣,并經(jīng)全連接層及softmax得到網(wǎng)絡(luò)輸出,即T所屬類別。 假設(shè)文本T為{t1,t2,…,tn}、TA為{ta1,ta2,…,tan},n是文本T的詞數(shù)。以WMDIC為查找表,分別查找T、TA中每個(gè)詞的詞向量,填充詞向量矩陣M∈R2n×dim,表示為: M=(m1,m2,…,m2n);mi∈Rdim 如圖3所示分類模型的輸入層可見,為提高模型泛化能力,本文將T與TA對(duì)應(yīng)位置的詞向量拼接得到M,M長度為2n,是一種雙詞表達(dá)形式。本文用這種方式擴(kuò)展T,用于增加模型的魯棒性,由此得到的M在一定程度影響但并未完全破壞原文的語序。 Kd=(k1,k2,…,kdm);kj∈Rdim 本文對(duì)未登錄詞的詞向量采用隨機(jī)初始化。 圖3 基于CNN的擴(kuò)展文本分類模型Fig. 3 Classification model of expanded text based on CNN 網(wǎng)絡(luò)訓(xùn)練過程分3步: 1)特征抽取。M和KS經(jīng)卷積層進(jìn)行特征抽取。由于M包含雙詞詞序信息,KS包含相對(duì)詞序信息,因此分別用不同卷積核。特征抽取如式(2)所示: (2) 其中,wkd為主題詞集Kd的詞數(shù)。由此M經(jīng)卷積層輸出特征圖為: Kd經(jīng)卷積抽取特征圖為: KS經(jīng)卷積層輸出特征圖集為: FKS={FKK1,FKK2,…,FKKQ} 其中:M_size、Kd_size、Q分別為M的卷積核數(shù)、Kd的卷積核數(shù)、抽取的主題詞集數(shù)。 2)采樣層及隨機(jī)dropout。卷積層輸出的特征圖FM、FKS經(jīng)采樣層過濾以減少參數(shù)數(shù)量。max pooling通過保留一組樣本最大值[19],提取最重要的特征。本文對(duì)特征圖進(jìn)行max pooling,再將采樣結(jié)果拼接成1維實(shí)向量X。為避免模型過擬合,在訓(xùn)練階段對(duì)X進(jìn)行隨機(jī)dropout[20],使max pooling輸出每次隨機(jī)減少。 3)全連接層參數(shù)訓(xùn)練。將采樣層輸出X作為一個(gè)全連接(Full Connection, FC)層的輸入,計(jì)算如式(3): Y=f(W·X+b) (3) 其中:f是激活函數(shù);W是FC層權(quán)重矩陣;b是偏置項(xiàng)。FC層輸出Y是一維實(shí)向量,表示為[y1,y2,…,yr],yi是輸入文本屬于某一類別的評(píng)分;r是分類類別數(shù)。用softmax函數(shù)將Y轉(zhuǎn)換為屬于類別的概率A,表示為[p(y1),p(y2),…,p(yr)],p(yi)計(jì)算如式(4): (4) 取MAX(A)作為輸入文本所屬類別。對(duì)網(wǎng)絡(luò)參數(shù)W,根據(jù)訓(xùn)練文本的分類標(biāo)簽,用反向傳播(Back Propagation, BP)算法進(jìn)行梯度更新。由于交叉熵函數(shù)可加速反向傳播[21],因此用交叉熵函數(shù)LOSS作損失函數(shù),如式(5): (5) 其中:OUTPUT是訓(xùn)練文本的類別標(biāo)簽,表示為[output1,output2,…,outputr],是獨(dú)熱編碼向量。W的更新以使損失函數(shù)最小化為目標(biāo),采用梯度下降方法如式(6): (6) 其中:LOSSd是訓(xùn)練文本d的損失;η是學(xué)習(xí)速率。 網(wǎng)絡(luò)超參數(shù)包括卷積核大小、卷積核數(shù)、詞向量寬度等,可通過網(wǎng)格搜索進(jìn)行尋優(yōu)。本文實(shí)驗(yàn)表明,詞向量寬度分別為200、300時(shí),分類性能并無顯著提升,本文實(shí)驗(yàn)用詞向量寬度為200。由于文本重點(diǎn)是特征擴(kuò)展及分類模型的適用性,故對(duì)其他網(wǎng)絡(luò)參數(shù)調(diào)優(yōu)不作詳述。為避免擴(kuò)展特征數(shù)多而引入較大噪聲,本文分析認(rèn)為M和KS的卷積核數(shù)應(yīng)滿足式(7)條件: FM≥FKS (7) 其中,F(xiàn)M、FKS分別是M、KS經(jīng)采樣層輸出的特征數(shù)。當(dāng)FM等于FKS時(shí),采樣層從M、KS抽取特征數(shù)相同。本文實(shí)驗(yàn)表明,當(dāng)FM小于FKS,模型收斂速度顯著下降,且分類正確率無提升。分析其原因,由于主題詞集均為擴(kuò)展詞,包含較大噪聲,當(dāng)擴(kuò)展詞超過正文特征數(shù),可能因擴(kuò)展詞與正文主題不一致而引起理解歧義。通過減少KS的卷積核數(shù),減少從主題詞集抽取特征數(shù),可降低主題詞噪聲的影響。另外,較少的卷積核數(shù)使經(jīng)KS提取的特征具有隨機(jī)性,可提高模型泛化能力。根據(jù)式(7),本文用式(8)方法設(shè)置卷積核數(shù): (8) 其中:M_size是M的卷積核數(shù);Kd_size是第d個(gè)主題詞集的卷積核數(shù);P是抽取主題詞集時(shí)的滑動(dòng)窗口數(shù)。 實(shí)驗(yàn)數(shù)據(jù)來自NLP&CC 2017評(píng)測(cè),包含18個(gè)類別新聞標(biāo)題文本,訓(xùn)練集和開發(fā)集如表1所示。 表1 實(shí)驗(yàn)數(shù)據(jù)分布Tab.1 Distribution of experimental data 實(shí)驗(yàn)用Google開源項(xiàng)目Word2Vec的Skip-gram模型訓(xùn)練詞向量,維度為200,生成詞向量名稱及對(duì)應(yīng)語料為: 1)SoGouVec:搜狗新聞?wù)Z料(SogouCS,一個(gè)月新聞數(shù)據(jù))。 2)WiKiVec:中文WiKi百科語料。 3)MWiKiVec:中文WiKi百科與訓(xùn)練集混合語料。 以未經(jīng)文本擴(kuò)展的CNN分類[11]為Baseline;經(jīng)本文方法進(jìn)行副標(biāo)題擴(kuò)展、三元組擴(kuò)展分別為SECNN1、SECNN2。分別在各組詞向量上進(jìn)行實(shí)驗(yàn),模型描述如表2所示。 實(shí)驗(yàn)試圖驗(yàn)證文本擴(kuò)展及分類模型的有效性,因此模型中同種超參數(shù)均為統(tǒng)一值。以分類正確率為評(píng)價(jià)指標(biāo),對(duì)未登錄詞的詞向量用隨機(jī)初始化,各模型分類性能如表3所示。 從Baseline來看,Baseline1正確率最低,為0.725 6,Baseline4為0.742 4,表明用詞向量初始化網(wǎng)絡(luò)輸入對(duì)分類性能有一定影響,但并不顯著。但本文實(shí)驗(yàn)中Baseline2~Baseline4收斂速度較Baseline1快。 表3 不同模型分類正確率對(duì)比Tab. 3 Comparison of classification accuracy of different models 如表3所示,SECNN1_1~SECNN1_3的正確率較各組Baseline均顯著提升,SECNN1_3正確率為0.782 9,在各詞向量中性能最優(yōu),比Baseline4提高5.5%,表明本文副標(biāo)題擴(kuò)展方法的有效性。經(jīng)三元組擴(kuò)展,SECNN2_1~SECNN2_3各組性能略優(yōu)于SECNN1,其中MWiKiVec性能最優(yōu),為0.794 2,較Baseline1提高了9.5%。 模型SECNN1_3、SECNN2_3的訓(xùn)練過程如圖4。由于SECNN2_3比SECNN1_3輸入層特征數(shù)多,單輪訓(xùn)練時(shí)間較長。本文實(shí)驗(yàn)在FM等于FKS時(shí),SECNN2_3有較高的收斂速度和較好的分類性能。如圖4所示,SECNN2_3在訓(xùn)練第37輪時(shí)正確率達(dá)到0.794 2,此時(shí)SECNN1_3正確率為0.749 9。本文實(shí)驗(yàn)中,SECNN1_3在訓(xùn)練第45輪時(shí)正確率接近0.78,表明SECNN2_3收斂速度比SECNN1_3更快。 從表3來看,SECNN2的正確率整體高于SECNN1,表明本文所提的主題詞擴(kuò)展方法較好地控制了噪聲,對(duì)原文形成了有效補(bǔ)充。但SECNN2正確率僅略優(yōu)于SECNN1,分析其原因如下:經(jīng)多窗口主題詞提取,雖然提取了多主題詞集,但主題詞集間語義相似度大,且最終都聚焦為文本的局部關(guān)鍵特征,因此對(duì)原文語義的擴(kuò)展仍然不足,限制了分類性能。 圖4 模型SECNN1_3、SECNN2_3訓(xùn)練過程對(duì)比Fig. 4 Comparison of training process for models of SECNN1_3 and SECNN2_3 總體來看,副標(biāo)題擴(kuò)展使分類性能提升最為顯著,表明雙詞結(jié)構(gòu)擴(kuò)展了文本信息量,使卷積層抽取的特征具有較好的泛化能力。MWiKiVec詞向量的分類性能在各組測(cè)試中都最優(yōu)。分析其原因?yàn)椋河捎谛侣剺?biāo)題語法結(jié)構(gòu)與普通文本存在差異,用普通文本訓(xùn)練的詞向量,不能較好地體現(xiàn)新聞標(biāo)題的語義。將新聞標(biāo)題與普通文本混合,可適度改善詞向量質(zhì)量,使其更符合標(biāo)題的語義特征,由此改善分類性能。另外,本文實(shí)驗(yàn)中,WiKi百科語料較搜狗語料的詞覆蓋率更高,也是基于WiKi百科語料的文本擴(kuò)展性能更優(yōu)的原因。 針對(duì)中文新聞標(biāo)題文本字符數(shù)少、特征稀疏,難以提高分類性能的問題,本文提出了基于詞向量的短文本擴(kuò)展方法。首先提取文本副標(biāo)題、主題詞集;再用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)擴(kuò)展文本的特征,進(jìn)而對(duì)18個(gè)類別的新聞標(biāo)題分類。結(jié)合中文WiKi百科與新聞標(biāo)題的混合語料生成的詞向量,在NLP&CC2017中文標(biāo)題分類任務(wù)的開發(fā)集上用本文方法,得到分類正確率為79.42%,比未經(jīng)擴(kuò)展的CNN分類模型性能提高9.5%,并通過主題詞擴(kuò)展提高了模型收斂速度。 由于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)問題,本文方法中存在較多網(wǎng)絡(luò)超參數(shù)。本文僅針對(duì)限制擴(kuò)展特征以控制噪聲提出了參數(shù)設(shè)置策略,但分類性能仍一定程度地依賴于網(wǎng)絡(luò)超參數(shù)。另外,本文的主題詞擴(kuò)展方法聚焦于文本的局部關(guān)鍵特征,這種策略雖較好地控制了詞擴(kuò)展的噪聲,也限制了分類性能,后續(xù)將針對(duì)該問題展開進(jìn)一步研究。 References) [1] LI H, XU J . Semantic matching in search [J]. Foundations and Trends in Information Retrieval, 2014, 7(5): 343-469. [2] XUE X B, JEON J, CROFT W B. Retrieval models for question and answer archives [C]// Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2008: 475-482. [3] CHEN M G, JIN X M, SHEN D. Short text classification improved by learning multi-granularity topics [C]// Proceedings of the 22nd International Joint Conference on Artificial Intelligence. Menlo Park, CA: AAAI Press, 2011: 1776-1781. [4] PHAN X H, NGUYEN L M, HORIGUCHI S. Learning to classify short and sparse text & Web with hidden topics from large-scale data collections [C]// Proceedings of the 17th International Conference on World Wide Web. New York: ACM, 2008: 91-100. [5] 馬成龍,姜亞松,李艷玲,等.基于詞矢量相似度的短文本分類[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2014,49(12):18-22,35.(MA C L, JIANG Y S, LI Y L, et al. Short text classification based on word embedding similarity [J]. Journal of Shandong University (Natural Science), 2014, 49(12): 18-22, 35.) [6] 鄭誠,吳文岫,代寧.融合BTM主題特征的短文本分類方法[J].計(jì)算機(jī)工程與應(yīng)用,2016,52(13):95-100.(ZHENG C, WU W X, DAI N. Improved short text classification method based on BTM topic features [J]. Computer Engineering and Applications, 2016, 52(13): 95-100.) [7] 張海濤,王斌君,王靖亞.基于背景重構(gòu)與邊緣相關(guān)短文本特征選擇方法[J].武漢大學(xué)學(xué)報(bào)(工學(xué)版),2016,49(3):469-475.(ZHANG H T, WANG B J, WANG J Y. A short text feature selection method based on context reconstruction and marginal relevance [J]. Engineering Journal of Wuhan University, 2016, 49(3): 469-475.) [8] 高元,劉柏嵩.基于集成學(xué)習(xí)的標(biāo)題分類算法研究[J].計(jì)算機(jī)應(yīng)用研究,2017,34(4):1004-1007.(GAO Y, LIU B S. Headlines classification method based on ensemble learning [J]. Application Research of Computers, 2017, 34(4): 1004-1007.) [9] LE Q, MIKOLOV T. Distributed representations of sentences and documents [EB/OL]. [2017- 04- 06]. http://proceedings.mlr.press/v32/le14.pdf. [10] KALCHBRENNER N, GREFENSTETTE E, BLUNSOM P. A convolutional neural network for modelling sentences [EB/OL]. [2017- 04- 06]. http://www.cs.wayne.edu/~mdong/Kalchbrenner_DCNN_ACL14.pdf. [11] KIM Y. Convolutional neural networks for sentence classification [C]// Proceedings of the 2014 Conference of Empirical Methods in Natural Language Processing. New York: ACM, 2014: 1746-1751. [12] WANG P, XU B, XU J M, et al. Semantic expansion using word embedding clustering and convolutional neural network for improving short text classification [J]. Neurocomputing, 2016, 174(PB): 806-814. [13] MITCHELL J, LAPATA M. Composition in distributional models of semantics [J]. Cognitive Science, 2010, 34(8): 1388-1429. [14] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space [EB/OL]. [2017- 04- 06]. http://www.surdeanu.info/mihai/teaching/ista555-spring15/readings/mikolov2013.pdf. [15] MIKOLOV T, YIH W T, ZWEIG G. Linguistic regularities in continuous space word representations [EB/OL]. [2017- 04- 06]. https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/rvecs.pdf. [16] MIKOLOV T, SUTSKEVER L, CHEN K, et al. Distributed representations of words and phrases and their compositionality [EB/OL]. [2017- 04- 06]. http://www.cs.wayne.edu/~mdong/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf. [17] QUAN X J, LIU G, LU Z, et al. Short text similarity based on probabilistic topics [J]. Knowledge and Information Systems, 2010, 25(3): 473-491. [18] BENGIO Y, SCHWENK H, SENéCAL J S, et al. Neural probabilistic language models [M]// Innovations in Machine Learning. Berlin: Springer, 2006: 137-186. [19] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324. [20] HINTON G E, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors [J]. Computer Science, 2012, 3(4): 212-223. [21] TURIAN J, RATINOV L, BENGIO Y. Word representations: a simple and general method for semi-supervised learning [C]// Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2010: 384-394. This work is partially supported by the West Project of the National Social Science Foundation of China (17XXW005), the Scientific and Technological Research Program of Chongqing Municipal Education Commission(KJ1500903). LULing, born in 1975, M. S., associate professor. Her research interests include machine learning, information retrieval. YANGWu, born in 1965, M. S., professor. His research interests include information retrieval, machine learning. YANGYoujun, born in 1995. His research interests include machine learning, natural language processing. CHENMenghan, born in 1998. Her research interests include machine learning, information retrieval. Chineseshorttextclassificationmethodbycombiningsemanticexpansionandconvolutionalneuralnetwork LU Ling, YANG Wu*, YANG Youjun, CHEN Menghan (CollegeofComputerScienceandEngineering,ChongqingUniversityofTechnology,Chongqing400050,China) Chinese news title usually consists of a single word to dozens of words. It is difficult to improve the accuracy of news title classification due to the problems such as few characters and sparse features. In order to solve the problems, a new method for text semantic expansion based on word embedding was proposed. Firstly, the news title was expanded into triples consisting of title, subtitle and keywords. The subtitle was constructed by combining the synonym of title and the part of speech filtering method, and the keywords were extracted from the semantic composition of words in multi-scale sliding windows. Then, the Convolutional Neural Network (CNN) model was constructed for categorizing the expanded text. Max pooling and random dropout were used for feature filtering and avoidance of overfitting. Finally, the double-word spliced by title and subtitle, and the multi-keyword set were fed into the model respectively. Experiments were conducted on the news title classification dataset of the Natural Language Processing & Chinese Computing in 2017 (NLP&CC2017). The experimental results show that, the classification precision of the combination model of expanding news title to triples and CNN is 79.42% in 18 categories of news titles, which is 9.5% higher than the original CNN model without expanding, and the convergence rate of model is improved by keywords expansion. The proposed expansion method of triples and the constructed CNN model are verified to be effective. news title classification; semantic expansion; Convolutional Neural Network (CNN); synonym; semantic composition 2017- 06- 16; 2017- 08- 29。 國家社會(huì)科學(xué)基金西部項(xiàng)目(17XXW005);重慶市教委科學(xué)技術(shù)研究項(xiàng)目(KJ1500903)。 盧玲(1975—),女,重慶人,副教授,碩士,CCF會(huì)員,主要研究方向:機(jī)器學(xué)習(xí)、信息檢索; 楊武(1965—),男,重慶人,教授,碩士,CCF會(huì)員,主要研究方向:信息檢索、機(jī)器學(xué)習(xí); 楊有俊(1995—),男,重慶人,CCF會(huì)員,主要研究方向:機(jī)器學(xué)習(xí)、自然語言處理;陳夢(mèng)晗(1998—),女,河南開封人,CCF會(huì)員,主要研究方向:機(jī)器學(xué)習(xí)、信息檢索。 1001- 9081(2017)12- 3498- 06 10.11772/j.issn.1001- 9081.2017.12.3498 (*通信作者電子郵箱yw@cqut.edu.cn) TP391.1 A 集KEYS={Key1,Key2,…,KeyP},填充其詞向量矩陣集KS,表示為{K1,K2,…,KP}。其中Kd∈Rdm×dim是任一主題詞集的詞向量矩陣,dm是其包含主題詞數(shù),表示為:2.2 主題詞集提取
3 CNN分類模型
3.1 構(gòu)造輸入數(shù)據(jù)
3.2 網(wǎng)絡(luò)訓(xùn)練過程
3.3 超參數(shù)設(shè)置
4 實(shí)驗(yàn)結(jié)果及分析
5 結(jié)語