馬成龍 顏永紅,2
基于概率語(yǔ)義分布的短文本分類
馬成龍1顏永紅1,2
在短文本分類中,面對(duì)特征稀疏的短文本,如何充分利用文本中的每一個(gè)詞語(yǔ)成為關(guān)鍵.本文提出概率語(yǔ)義分布模型的思想,首先通過(guò)查詢?cè)~矢量詞典,將文本轉(zhuǎn)換為詞矢量數(shù)據(jù);其次,在概率語(yǔ)義分布模型的假設(shè)下利用混合高斯模型對(duì)無(wú)標(biāo)注的文本數(shù)據(jù)進(jìn)行通用背景語(yǔ)義模型訓(xùn)練;利用訓(xùn)練數(shù)據(jù)對(duì)通用模型進(jìn)行自適應(yīng)得到各個(gè)領(lǐng)域的目標(biāo)領(lǐng)域語(yǔ)義分布模型;最后,在測(cè)試過(guò)程中,計(jì)算短文本屬于領(lǐng)域模型的概率,得到最終的分類結(jié)果.實(shí)驗(yàn)結(jié)果表明,本文提出的方法能夠從一定程度上利用短文本所提供的信息,有效降低了對(duì)訓(xùn)練數(shù)據(jù)的依賴性,相比于支持向量機(jī)(Support vector machine,SVM)和最大熵分類方法性能相對(duì)提高了17.7%.
短文本分類,詞矢量,語(yǔ)義分布,高斯混合模型
近年來(lái),隨著社交網(wǎng)絡(luò)和電子商務(wù)的飛速發(fā)展,微博、Twitter、即時(shí)信息、商品評(píng)價(jià)等短文本形式的文字充斥著互聯(lián)網(wǎng).這些短文本包含了用戶的潛在需求、興趣點(diǎn)、意圖傾向等,如何能夠從這些短文本中獲取信息從而更好地為用戶提供服務(wù)成為關(guān)鍵.然而,這些短文本通常都有長(zhǎng)度限制,如微博字?jǐn)?shù)限制在140字以內(nèi),短消息限制在70字以內(nèi),如何能夠從只言片語(yǔ)中挖掘出目標(biāo)信息成為了一大挑戰(zhàn).在使用傳統(tǒng)的向量空間模型(Vector space model, VSM)將短文本數(shù)字向量化時(shí),該向量會(huì)很稀疏[1],特別是在測(cè)試階段,由于訓(xùn)練數(shù)據(jù)的不充分,會(huì)造成很多有用特征因未被模型捕獲過(guò)而被忽略的情況,因此使用傳統(tǒng)的文本分類方法將導(dǎo)致分類結(jié)果不理想.
為了充分利用短文本所蘊(yùn)含的信息,已有很多相關(guān)研究.一種方案是計(jì)算短文本之間的相似性,文獻(xiàn)[2]提出使用外部數(shù)據(jù)作為一個(gè)橋梁,如果預(yù)測(cè)文檔和訓(xùn)練文檔同時(shí)和某一外部文檔相似,那么領(lǐng)域標(biāo)簽信息也應(yīng)該一樣,但搜集的外部數(shù)據(jù)必須和實(shí)驗(yàn)數(shù)據(jù)相關(guān);文獻(xiàn)[3]提出使用搜索引擎返回的結(jié)果來(lái)衡量?jī)蓚€(gè)詞語(yǔ)之間的相似度,但是需要等待搜索引擎返回結(jié)果,比較耗時(shí),不利于在線實(shí)時(shí)應(yīng)用;文獻(xiàn)[4]提出使用固定的資源維基百科作為知識(shí)庫(kù)進(jìn)行搜索.另一種解決方案是在短文本稀疏特征的基礎(chǔ)上擴(kuò)展相關(guān)語(yǔ)義特征,文獻(xiàn)[5]提出使用Lucene[6]對(duì)維基百科建立索引,在原有特征基礎(chǔ)上增加Lucene返回的搜索結(jié)果作為額外特征;文獻(xiàn)[7]提出使用短文本隱藏的主題作為額外特征集,在相關(guān)數(shù)據(jù)上使用LDA(Latent Dirichlet allocation)[8]獲得主題模型,針對(duì)短文本首先進(jìn)行推理得到主題特征,與原始特征融合用于訓(xùn)練和分類.上述研究都是基于利用外部相關(guān)數(shù)據(jù)對(duì)原始文本進(jìn)行相似度估計(jì)或者特征擴(kuò)展,并且取得了不錯(cuò)的效果,但是對(duì)外部數(shù)據(jù)的相關(guān)性要求較高,而這些相關(guān)數(shù)據(jù)通常是根據(jù)領(lǐng)域知識(shí),人工干預(yù)下進(jìn)行收集的,在實(shí)際應(yīng)用中獲取相關(guān)領(lǐng)域的外部數(shù)據(jù)有時(shí)比較困難.上述方法最終將文本轉(zhuǎn)換為空間向量,統(tǒng)計(jì)特征的共現(xiàn)權(quán)重,簡(jiǎn)單來(lái)說(shuō)是一種計(jì)數(shù)原理.隨著神經(jīng)網(wǎng)絡(luò)模型在自然語(yǔ)言處理中的廣泛應(yīng)用,文獻(xiàn)[9]提出將詞矢量作為輸入特征,利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練.為了得到句子層級(jí)的矢量表示,文獻(xiàn)[10]提出將變長(zhǎng)文本訓(xùn)練為固定維度的段落矢量(Paragraph vector)的概念,文獻(xiàn)[11]提出動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò),不依賴于句法解析樹(shù),而是利用動(dòng)態(tài)k-max pooling提取全局特征.
基于文獻(xiàn)[7],為了擺脫對(duì)外部相關(guān)數(shù)據(jù)的過(guò)度依賴,本文從句子語(yǔ)義層面出發(fā),深度挖掘短文本所表達(dá)的語(yǔ)義.本文利用詞矢量作為輸入特征表征語(yǔ)義.詞矢量是指將詞語(yǔ)映射成空間中的一個(gè)低維實(shí)數(shù)向量,向量之間的距離描述了詞與詞之間的語(yǔ)義關(guān)系,語(yǔ)義相近的詞語(yǔ)在空間中成群出現(xiàn),提高了文字表示的泛化能力.為了更好地利用詞矢量,本文提出了概率語(yǔ)義分布模型,利用詞矢量來(lái)表征語(yǔ)義分布,在一定程度上避免了數(shù)據(jù)的稀疏性問(wèn)題,實(shí)驗(yàn)結(jié)果表明,本文所提出的方法準(zhǔn)確率相對(duì)于傳統(tǒng)的分類器提高了17.7%.
本文結(jié)構(gòu)如下:第1節(jié)簡(jiǎn)要介紹連續(xù)空間詞矢量,第2節(jié)描述了本文提出的概率語(yǔ)義分布模型,第3節(jié)介紹了在概率語(yǔ)義分布模型的假設(shè)下,本文提出了一種基于通用語(yǔ)義背景模型的短文本分類方法,第4節(jié)為實(shí)驗(yàn)及結(jié)果分析,第5節(jié)給出總結(jié).
近幾年,越來(lái)越多的學(xué)者開(kāi)始關(guān)注利用低維實(shí)數(shù)向量來(lái)表征一個(gè)詞、短語(yǔ)或者句子.例如,LSA (Latent semantic analysis)[12]和LDA模型將文本映射成主題模型里的一個(gè)低維向量.隨著神經(jīng)網(wǎng)絡(luò)的廣泛應(yīng)用,人們可以利用神經(jīng)網(wǎng)絡(luò)對(duì)大規(guī)模語(yǔ)料進(jìn)行語(yǔ)言模型訓(xùn)練,同時(shí)能夠得到描述語(yǔ)義和句法關(guān)系的詞矢量.其中,文獻(xiàn)[13]提出的Skip-gram模型便是一種能夠高效得到詞矢量的訓(xùn)練模型,通過(guò)訓(xùn)練無(wú)標(biāo)注語(yǔ)料將每個(gè)詞映射成低維實(shí)數(shù)向量,每一維都代表了詞的淺層語(yǔ)義特征[14].同時(shí),文獻(xiàn)[15]發(fā)現(xiàn)上述模型訓(xùn)練得到的詞矢量能夠通過(guò)余弦距離描述詞與詞之間的語(yǔ)義和句法關(guān)系,并且相同的余弦距離表征了同樣關(guān)系,例如,向量“Man”與向量“King”之間的距離近似于向量“Woman”與向量“Queen”之間的距離.因此,本文利用詞矢量上述特性,結(jié)合短文本的特點(diǎn),提出了概率語(yǔ)義分布模型,應(yīng)用于短文本分類中.
不同于傳統(tǒng)的文本分類算法,本文認(rèn)為短文本是在貝葉斯框架下各個(gè)領(lǐng)域里的一個(gè)抽樣.本文假設(shè)短文本數(shù)據(jù)產(chǎn)生于一個(gè)概率語(yǔ)義分布模型,不同領(lǐng)域數(shù)據(jù)來(lái)自于不同的語(yǔ)義分布模型,并且我們可以利用已知的文本數(shù)據(jù)去估計(jì)這些模型.得到這些模型之后,對(duì)于新的測(cè)試數(shù)據(jù),計(jì)算來(lái)源于各個(gè)模型的概率,根據(jù)貝葉斯原理選擇類別標(biāo)簽作為預(yù)測(cè)結(jié)果.
假設(shè)訓(xùn)練數(shù)據(jù)包含一系列的短文本文檔, D={d1,d2,d3,···,dn},di表示一條短文本,共n條訓(xùn)練數(shù)據(jù),分別屬于C={c1,c2,c3,···,cm}, cj為領(lǐng)域標(biāo)記,共m 個(gè)領(lǐng)域.本文假設(shè)同一領(lǐng)域短文本文檔產(chǎn)生于同一個(gè)語(yǔ)義分布模型(模型參數(shù)為λ).一條短文本數(shù)據(jù)di的產(chǎn)生,首先根據(jù)先驗(yàn)概率p(cj|λ)選擇語(yǔ)義分布模型,然后根據(jù)該領(lǐng)域模型的模型參數(shù)p(di|cj;λ)產(chǎn)生文檔di.因此文檔di的產(chǎn)生概率為p(di|λ):
類似于一元語(yǔ)言模型,認(rèn)為短文本中詞與詞之間是互相獨(dú)立的,不依賴于前文信息,dik表示短文本di中位置為k的單詞,|di|表示文本中單詞的個(gè)數(shù),則有
假設(shè)已通過(guò)訓(xùn)練數(shù)據(jù)計(jì)算得到模型參數(shù)?λ,針對(duì)測(cè)試數(shù)據(jù),可以分別計(jì)算各個(gè)分布模型產(chǎn)生該數(shù)據(jù)的概率.根據(jù)貝葉斯原理,由式(1)和(2)得到
根據(jù)上述提出的概率語(yǔ)義分布模型假設(shè),本文認(rèn)為可以選擇合適的模型去近似描述每個(gè)領(lǐng)域內(nèi)的詞語(yǔ)分布.由于混合高斯模型能夠描述任意形狀的概率分布,因此本文選用混合高斯模型.由于訓(xùn)練數(shù)據(jù)的不充分,直接使用混合高斯模型進(jìn)行多高斯訓(xùn)練時(shí)會(huì)產(chǎn)生欠擬合,因此本文在混合高斯模型的基礎(chǔ)上提出了一種基于通用語(yǔ)義背景模型的短文本分類方法.
在實(shí)際應(yīng)用中,由于自然語(yǔ)言表達(dá)的靈活性,獲取足夠多的標(biāo)注數(shù)據(jù)是一件費(fèi)時(shí)費(fèi)力的事情,如何能夠充分利用已有數(shù)據(jù)進(jìn)行短文本分類成為關(guān)鍵.在圖像處理、說(shuō)話人識(shí)別系統(tǒng)中,高斯混合–通用背景模型[16?17]便是一種能夠在訓(xùn)練數(shù)據(jù)不足的情況下,由一個(gè)通用的背景模型根據(jù)少量的訓(xùn)練數(shù)據(jù)自適應(yīng)到目標(biāo)模型上,并且取得了很好效果.因此,借鑒于高斯混合–通用背景模型,在概率語(yǔ)義分布模型的假設(shè)下,首先利用混合高斯構(gòu)建通用概率語(yǔ)義背景分布模型,然后根據(jù)訓(xùn)練數(shù)據(jù)自適應(yīng)得到目標(biāo)領(lǐng)域概率語(yǔ)義分布模型,如圖1所示.
圖1 基于通用語(yǔ)義背景模型的短文本分類Fig.1 Short text classification based on universal semantic background model
3.1 詞匯特征
在連續(xù)空間詞矢量表示中,通過(guò)向量之間的空間距離來(lái)表征詞與詞之間的特定關(guān)系,并且文獻(xiàn)[18]指出從大量無(wú)標(biāo)記文本數(shù)據(jù)訓(xùn)練得到的詞矢量要比隨機(jī)初始化的矢量性能要好.在短文本分類中,我們應(yīng)該首先訓(xùn)練得到詞矢量.然而,詞矢量的訓(xùn)練通常需要耗費(fèi)很長(zhǎng)時(shí)間,并且已有許多學(xué)者將訓(xùn)練好的詞矢量進(jìn)行了開(kāi)源.本文的實(shí)驗(yàn)直接使用文獻(xiàn)[19]提供的詞矢量詞典,該詞典是利用大概十億單詞數(shù)量的谷歌新聞數(shù)據(jù)訓(xùn)練得到的維度為300的詞矢量.
3.2 高斯混合模型
高斯混合模型 (Gaussian mixture model, GMM)作為一種通用的概率模型,只要高斯數(shù)足夠大,便能有效地模擬多維矢量的連續(xù)概率分布,因而很適合去表征語(yǔ)義分布.高斯混合模型是一系列高斯分布的加權(quán)組合.一個(gè)由M 個(gè)高斯分量組成的高斯混合密度函數(shù)是M 個(gè)高斯密度函數(shù)的線性加權(quán)和:
上式中λ為GMM模型參數(shù),pk(di),k=1,···,M是高斯分量密度函數(shù).wk,k=1,···,M 是各個(gè)高斯分量的權(quán)重,滿足每個(gè)高斯分量的概率密度函數(shù)公式pk(di)表示如下:
這里μk是第k個(gè)高斯分量的均值矢量,Σk為相應(yīng)的協(xié)方差矩陣,D是特征矢量的維度.這樣,GMM模型便可以由以下參數(shù)集合表示:
使用GMM對(duì)概率語(yǔ)義分布建模主要基于兩個(gè)出發(fā)點(diǎn):1)GMM的高斯分量能夠描述一定詞矢量的分布;2)線性加權(quán)的高斯密度函數(shù)可以逼近任意形狀的概率分布,因此選用GMM對(duì)語(yǔ)義分布進(jìn)行描述.
3.3 最大后驗(yàn)?zāi)P妥赃m應(yīng)
利用高斯混合模型在無(wú)標(biāo)注文本數(shù)據(jù)上訓(xùn)練得到通用概率語(yǔ)義背景分布模型,再用帶有標(biāo)記的訓(xùn)練數(shù)據(jù)進(jìn)行模型自適應(yīng)得到目標(biāo)模型.最大后驗(yàn)概率(Maximum a posteriori,MAP)是一種典型的貝葉斯估計(jì),它首先計(jì)算訓(xùn)練數(shù)據(jù)相對(duì)于通用背景模型的各個(gè)統(tǒng)計(jì)量,然后用一個(gè)相關(guān)系數(shù)將通用背景模型參數(shù)與相關(guān)統(tǒng)計(jì)量聯(lián)合,得到目標(biāo)模型.給定通用背景模型:λ={wk,μk,Σk},k=1,2,···,M,以及某一特定領(lǐng)域內(nèi)的短文本訓(xùn)練數(shù)據(jù)Dcj={dc1,···,dci,···,d|cj|},對(duì)每一條訓(xùn)練數(shù)據(jù)計(jì)算其在各高斯分量上的占有率,即后驗(yàn)條件概率:
然后便可計(jì)算出與權(quán)重相關(guān)的零階統(tǒng)計(jì)量nk,與均值相關(guān)的一階統(tǒng)計(jì)量Ek(d)以及與協(xié)方差矩陣相關(guān)的二階統(tǒng)計(jì)量Ek(d2):
用以上計(jì)算得到的統(tǒng)計(jì)量對(duì)通用背景模型的各個(gè)高斯分量的權(quán)重、均值和協(xié)方差進(jìn)行自適應(yīng),得到新的模型參數(shù):
其中γ用來(lái)平衡高斯分量的權(quán)值,以保證更新后各分量的權(quán)值和為1.是調(diào)整新舊模型參數(shù)平衡的自適應(yīng)系數(shù),通常使用同一個(gè)自適應(yīng)系數(shù).為了能夠確定上述參數(shù),本文在訓(xùn)練集上使用5折交叉驗(yàn)證來(lái)確保參數(shù)的可靠性.
為了驗(yàn)證所提出方法的有效性,本文利用文獻(xiàn)[7]提供的短文本數(shù)據(jù),首先驗(yàn)證背景模型和高斯數(shù)對(duì)分類性能的影響,其次與基線系統(tǒng)進(jìn)行比較,最后驗(yàn)證所提出的方法對(duì)訓(xùn)練數(shù)據(jù)的依賴性.
4.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)標(biāo)準(zhǔn)
本文選擇文獻(xiàn)[7]提供的網(wǎng)頁(yè)搜索片段數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),網(wǎng)頁(yè)搜索片段數(shù)據(jù)集是將特定領(lǐng)域詞送入谷歌搜索引擎得到的搜索結(jié)果片段,為了保證領(lǐng)域的特定性,通常選取前20~30個(gè)片段作為引用數(shù)據(jù).例如計(jì)算機(jī)類,選取60個(gè)計(jì)算機(jī)領(lǐng)域的詞語(yǔ),分別送入谷歌搜索引擎,每次抽取搜索結(jié)果的前20條數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),則可以得到1200條數(shù)據(jù),數(shù)據(jù)分布如表1.為了區(qū)分訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),在生成測(cè)試數(shù)據(jù)時(shí)所使用的領(lǐng)域詞不同于訓(xùn)練數(shù)據(jù).如表2所示,無(wú)論是英文單詞未經(jīng)提取詞干還是經(jīng)過(guò)提取詞干(Porter stemming)[20]之后,都會(huì)有超過(guò)40%的未登錄詞(未登錄詞通常是指未在詞典中出現(xiàn)的詞[21])出現(xiàn)在測(cè)試集中,這極大地增加了分類的難度.
表1 網(wǎng)頁(yè)搜索片段數(shù)據(jù)分布Table 1 Statistics of web snippets data
表2 未登錄詞分布Table 2 Statistics of unseen words
在實(shí)驗(yàn)過(guò)程中,本文使用精度(Precision,P)、召回率(Recall,R)、F1值和準(zhǔn)確率(Accuracy,A)作為評(píng)價(jià)標(biāo)準(zhǔn).
4.2 實(shí)驗(yàn)
4.2.1 參數(shù)設(shè)置
如何選擇背景數(shù)據(jù)進(jìn)行通用背景語(yǔ)義模型訓(xùn)練以及不同的背景模型對(duì)性能如何影響,混合高斯模型中的高斯數(shù)如何確定,這些參數(shù)都需要通過(guò)實(shí)驗(yàn)進(jìn)行驗(yàn)證.本文選擇:1)相關(guān)數(shù)據(jù):去掉標(biāo)注的訓(xùn)練數(shù)據(jù)作為背景數(shù)據(jù);2)通用數(shù)據(jù):選取語(yǔ)言資源聯(lián)盟(Linguistic Data Consortium)提供的新聞數(shù)據(jù)[22],本文僅選取標(biāo)簽Headline下的文本;3)混合數(shù)據(jù):相關(guān)數(shù)據(jù)和通用數(shù)據(jù)的混合,分別作為背景數(shù)據(jù)進(jìn)行背景模型訓(xùn)練,實(shí)驗(yàn)結(jié)果如圖2所示.
當(dāng)我們不斷增加高斯數(shù)時(shí),混合高斯能夠很好地?cái)M合特征分布,但是當(dāng)高斯數(shù)過(guò)高時(shí),由于數(shù)據(jù)的稀缺,會(huì)出現(xiàn)過(guò)擬合現(xiàn)象,正如圖2中當(dāng)使用訓(xùn)練數(shù)據(jù)1)進(jìn)行背景模型訓(xùn)練時(shí),高斯數(shù)達(dá)到256時(shí)無(wú)法擬合出混合高斯模型.在圖2中,直接使用無(wú)標(biāo)注的訓(xùn)練數(shù)據(jù)進(jìn)行通用背景模型訓(xùn)練,在低維混合高斯下能夠快速地提高分類性能,但是由于數(shù)據(jù)有限,無(wú)法進(jìn)行高維高斯擬合,高斯數(shù)為128時(shí)準(zhǔn)確率達(dá)到78.6%;使用通用數(shù)據(jù),由于數(shù)據(jù)量較大,能夠進(jìn)行高維高斯擬合,并且在高維混合高斯的情況下能夠達(dá)到直接使用訓(xùn)練數(shù)據(jù)的分類性能,高斯數(shù)為8時(shí)準(zhǔn)確率達(dá)到最高75.83%;當(dāng)使用無(wú)標(biāo)注的訓(xùn)練數(shù)據(jù)+通用數(shù)據(jù)時(shí),高斯數(shù)為16,短文本分類準(zhǔn)確率達(dá)到最高值80%.
圖2 不同的背景數(shù)據(jù)和高斯數(shù)對(duì)分類結(jié)果的影響Fig.2 Influence of background data and the number of GMM
4.2.2 與基線系統(tǒng)相比
為了驗(yàn)證本文所提方法的有效性,本文選擇以下方法作為基線系統(tǒng):
1)TF*IDF+SVM/MaxEnt:特征值采用TF*IDF進(jìn)行計(jì)算,利用支持向量機(jī)(Support vector machine,SVM)或最大熵(MaxEnt)作為分類器.
2)LDA+MaxEnt:在文獻(xiàn)[7]中,利用LDA對(duì)文本進(jìn)行主題特征提取,與文本特征進(jìn)行合并,利用MaxEnt進(jìn)行分類模型的訓(xùn)練.
3)Wiki feature+SVM:對(duì)維基百科數(shù)據(jù)1http://download.wikipedia.com/enwiki/進(jìn)行去除網(wǎng)頁(yè)標(biāo)簽、網(wǎng)頁(yè)鏈接等預(yù)處理之后,使用Lucene對(duì)其建立索引,對(duì)每一條短文本實(shí)驗(yàn)數(shù)據(jù)進(jìn)行檢索.在檢索結(jié)果中,類似文獻(xiàn)[5]中提出的方法,將維基百科數(shù)據(jù)的標(biāo)題作為額外的文本特征擴(kuò)充到原始短文本數(shù)據(jù)中.不同于文獻(xiàn)[5]中所描述的聚類任務(wù),我們將融合后的文本用于短文本分類.
4)Paragraph vector+SVM:文獻(xiàn)[10]提出了一種無(wú)監(jiān)督的方法,利用定長(zhǎng)數(shù)學(xué)向量表征不定長(zhǎng)文本.該模型認(rèn)為當(dāng)前詞語(yǔ)的選擇不僅由上下文決定,還由隱藏的文本矢量共同決定.該隱藏文本矢量可以看做為文本的隱藏主題[23].
5)LSTM(Long short term memory):對(duì)文獻(xiàn)[24]中提出的LSTM模型進(jìn)行修改,組成結(jié)構(gòu)為單一的LSTM層、均值池化層(Average pooling layer)和邏輯回歸層(Logistic regression layer),使其能夠進(jìn)行文本類別預(yù)測(cè)[23].
在傳統(tǒng)的文本分類方法中,通常是利用詞袋模型(Bag of words,BoW)將文本離散化,計(jì)算特征權(quán)重,轉(zhuǎn)換為向量空間模型中的特征權(quán)重向量,每個(gè)詞被轉(zhuǎn)換為字典中的索引數(shù)字.這種方法降低了計(jì)算復(fù)雜度,但是對(duì)于未登錄詞的處理能力大幅度降低.
由于在訓(xùn)練的過(guò)程中,分類模型未捕捉到未登錄詞對(duì)分類結(jié)果的貢獻(xiàn)能力,在測(cè)試階段,未登錄詞通常會(huì)被忽略.尤其是在該測(cè)試集中會(huì)出現(xiàn)超過(guò)40% 的未登錄詞,這極大地增加了分類難度.因此,在表3中傳統(tǒng)的文本分類方法SVM和Max-Ent性能均不是很高.以維基百科作為搜索庫(kù),利用Lucene的搜索結(jié)果進(jìn)行原始短文本擴(kuò)展,在一定程度上降低了特征稀疏性,對(duì)分類性能有所提升.本文的方法利用詞矢量將文本向量化,詞矢量體現(xiàn)了一定的語(yǔ)言泛化能力,充分利用了訓(xùn)練數(shù)據(jù)里的每一個(gè)有用詞語(yǔ),使得準(zhǔn)確率相對(duì)傳統(tǒng)方法提高了17.7%,并且如表4所示每一領(lǐng)域的分類結(jié)果F1值均優(yōu)于傳統(tǒng)的分類結(jié)果.在Paragraph vector和LSTM這兩種模型中,都使用到了詞矢量,但都未能有效地捕獲到語(yǔ)句中的語(yǔ)義信息.
表3 與基線系統(tǒng)對(duì)比實(shí)驗(yàn)結(jié)果(%)Table 3 Experimental results of the proposed method against other methods(%)
文獻(xiàn)[7]提到的方法需要根據(jù)領(lǐng)域知識(shí)額外準(zhǔn)備大概470000篇維基百科數(shù)據(jù),共計(jì)3.5GB的相關(guān)數(shù)據(jù)進(jìn)行主題模型訓(xùn)練,增加了收集數(shù)據(jù)的難度.本文在使用混合數(shù)據(jù)時(shí)準(zhǔn)確率達(dá)到80%,略低于文獻(xiàn)[7]中的82.18%,但是本文有效地避免了收集相關(guān)數(shù)據(jù)的困難.本文選用維基百科數(shù)據(jù),對(duì)其進(jìn)行去除網(wǎng)頁(yè)標(biāo)簽、鏈接等預(yù)處理之后,用于LDA主題模型訓(xùn)練和詞矢量訓(xùn)練.在主題模型訓(xùn)練過(guò)程中,主題數(shù)目選擇為50、100、200、300、400等,在訓(xùn)練集上利用五折交叉驗(yàn)證確定最優(yōu)主題數(shù).針對(duì)詞矢量的訓(xùn)練,使用開(kāi)源工具word2vector2http://word2vec.googlecode.com/svn/trunk/訓(xùn)練得到維度為300的詞矢量.在使用相同外部數(shù)據(jù)的情況下,本文方法取得79.93%的性能,略高于基于LDA+MaxEnt方法的79.89%.從這一點(diǎn)可以看出,在使用外部數(shù)據(jù)進(jìn)行主題模型訓(xùn)練時(shí),外部數(shù)據(jù)與實(shí)驗(yàn)數(shù)據(jù)的相關(guān)性,是影響主題特征貢獻(xiàn)能力的一個(gè)重要因素.因此,當(dāng)面對(duì)一個(gè)新的分類任務(wù)時(shí),文獻(xiàn)[7]中的方法需要根據(jù)領(lǐng)域知識(shí)重新挑選大量相關(guān)語(yǔ)料進(jìn)行主題模型訓(xùn)練,從一定程度來(lái)講,本文的方法更易實(shí)現(xiàn).
表4 SVM、MaxEnt和本文方法的實(shí)驗(yàn)結(jié)果Table 4 Evaluations of SVM,MaxEnt and the proposed method
4.2.3 訓(xùn)練數(shù)據(jù)大小對(duì)分類效果的影響
為了驗(yàn)證本文方法對(duì)訓(xùn)練數(shù)據(jù)的依賴性,本文將訓(xùn)練數(shù)據(jù)保持原領(lǐng)域數(shù)據(jù)的分布比例不變平均分成10份,每次增加1份進(jìn)行試驗(yàn),在同一測(cè)試集上進(jìn)行測(cè)試,得到10組實(shí)驗(yàn)結(jié)果,如圖3所示.由于SVM和MaxEnt的分類效果相差不大,因此僅選擇了MaxEnt作為基線系統(tǒng).隨著訓(xùn)練數(shù)據(jù)的減少,測(cè)試集中未登錄詞的比重會(huì)逐漸加大,MaxEnt的分類效果變化幅度較大,對(duì)訓(xùn)練數(shù)據(jù)的依賴性比較大.在訓(xùn)練數(shù)據(jù)稀缺的情況下(僅占原訓(xùn)練數(shù)據(jù)的1/10),本文方法能夠?qū)⒄_率從47.06%提高到71.54%(相對(duì)提高52%).從另一角度說(shuō)明如何充分利用詞匯信息成為分類的關(guān)鍵,而這也是本文方法的關(guān)鍵.
圖3 訓(xùn)練數(shù)據(jù)大小對(duì)分類效果的影響(1)Fig.3 Influence of training set size(1)
為了進(jìn)一步檢驗(yàn)訓(xùn)練數(shù)據(jù)對(duì)本文方法的影響,本文繼續(xù)將訓(xùn)練數(shù)據(jù)數(shù)量縮小,如圖4所示.在僅有100條訓(xùn)練數(shù)據(jù)的情況下,本文所提出的方法準(zhǔn)確率能夠達(dá)到51.4%,高于MaxEnt在1000條訓(xùn)練數(shù)據(jù)下的47.06%,這對(duì)于獲取訓(xùn)練數(shù)據(jù)比較困難的應(yīng)用來(lái)說(shuō),可以大大地降低對(duì)訓(xùn)練數(shù)據(jù)的依賴性.
圖4 訓(xùn)練數(shù)據(jù)大小對(duì)分類效果的影響(2)Fig.4 Influence of training set size(2)
本文摒棄了傳統(tǒng)的文本向量空間表示模型,提出概率語(yǔ)義分布模型,認(rèn)為短文本是來(lái)自于概率語(yǔ)義模型的一個(gè)抽樣,利用詞矢量將文本數(shù)字化,通過(guò)無(wú)標(biāo)記數(shù)據(jù)構(gòu)建通用語(yǔ)義背景模型,利用訓(xùn)練數(shù)據(jù)進(jìn)行自適應(yīng)得到目標(biāo)模型.實(shí)驗(yàn)結(jié)果驗(yàn)證了本文所提出方法的可行性,利用能夠表征語(yǔ)義和句法關(guān)系的詞矢量有效地降低了訓(xùn)練數(shù)據(jù)不充分所帶來(lái)的影響,短文本分類性能明顯優(yōu)于傳統(tǒng)的文本分類方法,降低了對(duì)訓(xùn)練數(shù)據(jù)的依賴性.雖然本文的實(shí)驗(yàn)結(jié)果略低于基于主題模型的短文本分類系統(tǒng)的結(jié)果,但明顯優(yōu)于基于SVM和最大熵的分類算法,并且本文的方法無(wú)需準(zhǔn)備大量的相關(guān)數(shù)據(jù),在一定程度上本文方法更易實(shí)現(xiàn).
1 Wang B K,Huang Y F,Yang W X,Li X.Short text classification based on strong feature thesaurus.Journal of Zhejiang University Science C,2012,13(9):649?659
2 Zelikovitz S,Hirsh H.Improving short text classification using unlabeled background knowledge to assess document similarity.In:Proceedings of the 17th International Conference on Machine Learning.San Francisco,USA:Morgan Kaufmann,2000.1183?1190
3 Bollegala D,Matsuo Y,Ishizuka M.Measuring semantic similarity between words using web search engines.In:Proceedings of the 16th International Conference on World Wide Web.New York,USA:ACM,2007.757?766
4 Gabrilovich E,Markovitch S.Computing semantic relatedness using Wikipedia-based explicit semantic analysis.In: Proceedings of the 20th International Joint Conference on Artificial Intelligence.San Francisco,USA:Morgan Kaufmann,2007.1606?1611
5 Banerjee S,Ramanathan K,Gupta A.Clustering short texts using Wikipedia.In:Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM, 2007.787?788
6 Lucene[Online],available:https://lucene.apache.org/,May 3,2016.
7 Phan X H,Nguyen L M,Horiguchi S.Learning to classify short and sparse text&web with hidden topics from largescale data collections.In:Proceedings of the 17th International Conference on World Wide Web.New York,USA: ACM,2008.91?100
8 Blei D M,Ng A Y,Jordan M I.Latent Dirichlet allocation. Journal of Machine Learning Research,2003,3:993?1022
9 Kim Y.Convolutional neural networks for sentence classification.In:Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing.Doha,Qatar:Association for Computational Linguistics,2014.1746?1751
10 Le Q,Mikolov T.Distributed representations of sentences and documents.In:Proceedings of the 31st International Conference on Machine Learning.Beijing,China:JMLR, 2014.1188?1196
11 Kalchbrenner N,Grefenstette E,Blunsom P.A convolutional neural network for modelling sentences.In:Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics.Baltimore,USA:Association for Computational Linguistics,2014.655?665
12 Landauer T K,Foltz P W,Laham D.An introduction to latent semantic analysis.Discourse Processes,1998,25(2?3): 259?284
13 Mikolov T,Chen K,Corrado G,Dean J.Efficient estimation of word representations in vector space.arXiv:1301.3781, 2013.
14 Turian J,Ratinov L,Bengio Y.Word representations:a simple and general method for semi-supervised learning.In: Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.Uppsala,Sweden:Association for Computational Linguistics,2010.384?394
15 Mikolov T,Yih W T,Zweig G.Linguistic Regularities in Continuous Space Word Representations.In:Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Atlanta,Georgia:Association for Computational Linguistics,2013.746?751
16 Reynolds D A.Speaker identification and verification using Gaussian mixture speaker models.Speech Communication, 1995,17(1?2):91?108
17 Reynolds D A,Quatieri T F,Dunn R B.Speaker verification using adapted Gaussian mixture models.Digital Signal Processing,2000,10(1?3):19?41
18 Collobert R,Weston J,Bottou L,Karlen M,Kavukcuoglu K,Kuksa P.Natural language processing(almost)from scratch.Journal of Machine Learning Research,2011,12: 2493?2537
19 Mikolov T,Sutskever I,Chen K,Corrado G S,Dean J.Distributed representations of words and phrases and their compositionality.In:Proceedings of the 2013 Advances in Neural Information Processing Systems.Lake Tahoe,Nevada, USA:Curran Associates,Inc.,2013.3111?3119
20 Porter M F.An algorithm for suffix stripping.Readings in Information Retrieval.San Francisco:Morgan Kaufmann, 1997.313?316
21 LingG C,AsaharaM,MatsumotoY.Chineseunknown word identification using character-based tagging and chunking.In:Proceedings of the 41st Annual Meeting on Association for Computational Linguistics.Sapporo, Japan:Association for Computational Linguistics,2003. 197?200
22 ParkerR,GraffD,Kong J B,Chen K,Maeda K.English Gigaword Fifth Edition[Online],available: https://catalog.ldc.upenn.edu/LDC2011T07,May 3,2016.
23 Wang P,Xu B,Xu J M,Tian G H,Liu C L,Hao H W. Semantic expansion using word embedding clustering and convolutional neural network for improving short text classification.Neurocomputing,2016,174:806?814
24 Hochreiter S,Schmidhuber J.Long short-term memory. Neural Computation,1997,9(8):1735?1780
馬成龍 中國(guó)科學(xué)院聲學(xué)研究所博士研究生.2011年獲得山東大學(xué)(威海)通信工程學(xué)士學(xué)位.主要研究方向?yàn)樽匀徽Z(yǔ)言處理,口語(yǔ)理解,情感分析,深度學(xué)習(xí).本文通信作者.
E-mail:machenglong@hccl.ioa.ac.cn
(MACheng-Long Ph.D.candidate at the Institute of Acoustics,Chinese Academy of Sciences.He received his bachelor degree from Shandong University,Weihai in 2011.His research interest covers natural language processing,spoken language understanding,sentiment analysis and deep learning.Corresponding author of this paper.)
顏永紅 中國(guó)科學(xué)院聲學(xué)研究所語(yǔ)言聲學(xué)與內(nèi)容理解重點(diǎn)實(shí)驗(yàn)室教授.1990年在清華大學(xué)獲得學(xué)士學(xué)位,1995年8月于美國(guó)俄勒岡研究院(Oregon Graduate Institute,OGI)獲得計(jì)算機(jī)科學(xué)和工程博士學(xué)位.他曾在OGI擔(dān)任助理教授(1995年),副教授(1998年)和副主任(1997年).主要研究方向?yàn)檎Z(yǔ)音處理和識(shí)別,語(yǔ)言/說(shuō)話人識(shí)別和人機(jī)界面.
E-mail:yanyonghong@hccl.ioa.ac.cn
(YAN Yong-Hong Professor at The Key Laboratory of Speech Acoustics and Content Understanding,Chinese Academy of Sciences.He received his bachelor degree from Tsinghua University in 1990,and Ph.D.degree from Oregon Graduate Institute(OGI),USA.He worked in OGI as assistant professor(1995),associate professor(1998)and associate director(1997)of Center for Spoken Language Understanding.His research interest covers speech processing and recognition,language/speaker recognition,and human computer interface.)
Short Text Classification Based on Probabilistic Semantic Distribution
MA Cheng-Long1YAN Yong-Hong1,2
In short text classification,it is critical to deal with each word because of data sparsity.In this paper, we present a novel probabilistic semantic distribution model.Firstly,words are transformed to vectors by looking up word embeddings.Secondly,the universal background semantic model is trained based on unlabelled universal data through mixture Gaussian models.Then,target models are obtained by adapting the background model for each domain training data.Finally,the probability of the test data belonging to each target model is calculated.Experimental results demonstrate that our approach can make best use of each word and effectively reduce the influence of training data size. In comparison with the methods of support vector machine(SVM)and MaxEnt,the proposed method gains a 17.7% relative accuracy improvement.
Short text classification,word embedding,semantic distribution,Gaussian mixture model
馬成龍,顏永紅.基于概率語(yǔ)義分布的短文本分類.自動(dòng)化學(xué)報(bào),2016,42(11):1711?1717
Ma Cheng-Long,Yan Yong-Hong.Short text classification based on probabilistic semantic distribution.Acta Automatica Sinica,2016,42(11):1711?1717
2015-05-19 錄用日期2016-05-03
Manuscript received May 19,2015;accepted May 3,2016
國(guó)家高技術(shù)研究發(fā)展計(jì)劃 (863計(jì)劃)(2015AA016306),國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(973計(jì)劃)(2013CB329302),國(guó)家自然科學(xué)基金(11461141004,61271426,11504406,11590770,11590771, 11590772,11590773,11590774),中國(guó)科學(xué)院戰(zhàn)略性先導(dǎo)科技專項(xiàng)(XDA06030100,XDA06030500,XDA06040603)和新疆維吾爾自治區(qū)科技重大專項(xiàng)(201230118-3)資助
Supported by National High Technology Research Program of China(863 Program)(2015AA016306),National Basic Research Program of China(973 Program)(2013CB329302),National Natural Science Foundation of China(11461141004,61271426, 11504406,11590770,11590771,11590772,11590773,11590774), the Strategic Priority Research Program of the Chinese Academy of Sciences(XDA06030100,XDA06030500,XDA06040603),and the Key Science and Technology Project of the Xinjiang Uygur Autonomous Region(201230118-3)
本文責(zé)任編委趙鐵軍
Recommended by Associate Editor ZHAO Tie-Jun
1.中國(guó)科學(xué)院聲學(xué)研究所語(yǔ)言聲學(xué)與內(nèi)容理解重點(diǎn)實(shí)驗(yàn)室 北京100190 2.新疆民族語(yǔ)音語(yǔ)言信息處理實(shí)驗(yàn)室烏魯木齊830011
1.The Key Laboratory of Speech Acoustics and Content Understanding,Institute of Acoustics,Chinese Academy of Sciences,Beijing 100190 2.Xinjiang Laboratory of Minority Speech and Language Information Processing,Urumchi 830011
DOI 10.16383/j.aas.2016.c150268