周順先,蔣 勵(lì),,林霜巧,龔德良,王魯達(dá)
(1.湘南學(xué)院 軟件與通信工程學(xué)院,湖南 郴州 423000,2.中南大學(xué) 信息科學(xué)與工程學(xué)院,長(zhǎng)沙 410075)
目前,針對(duì)信息檢索任務(wù)中的文本,在無(wú)法直接識(shí)別其詞語(yǔ)語(yǔ)義的情況下,多采用基于詞語(yǔ)統(tǒng)計(jì)的樣本特征化表示方法,例如詞頻-逆向文件頻率模型[1-2](term frequency-inverse document frequency,TF-IDF)模型與詞袋[3](bag of words,BOW)模型?,F(xiàn)行的基于詞語(yǔ)統(tǒng)計(jì)的特征化表示方法可在無(wú)語(yǔ)義規(guī)則支持的情況下實(shí)現(xiàn)文本特征化表示,但將忽略詞語(yǔ)語(yǔ)義,無(wú)法有效地提取其詞語(yǔ)語(yǔ)義特征。
Word2vector最先由Mikolov在2013年提出,該方法能夠簡(jiǎn)單、高效獲取詞義的向量化特征,引起業(yè)界的極大關(guān)注。當(dāng)文本作為信息檢索的樣本時(shí),針對(duì)在不同文本中的每個(gè)詞語(yǔ),Word2vector可依據(jù)其上下文關(guān)系有效地提取其語(yǔ)義(即詞語(yǔ)語(yǔ)義特征),并以詞向量提供形式化表達(dá)[4]。因此,Word2vector的詞義特征提取無(wú)需語(yǔ)義規(guī)則庫(kù)。由于Word2vector的詞義特征提取機(jī)制的復(fù)雜性,使得不同文本中相同的詞所對(duì)應(yīng)的詞向量并不相同。難以根據(jù)Word2vector的詞向量形成文本的特征化表示,尤其難以形成向量空間模型(vector space model,VSM)[5]形式的樣本特征化表示。
Mikolov在相關(guān)論文[6]中說(shuō)明了Word2vector的機(jī)制。部分技術(shù)開(kāi)發(fā)人員已對(duì)word2vec中的數(shù)學(xué)原理進(jìn)行了深入的剖析[7]。在此基礎(chǔ)之上,西南大學(xué)唐明等[8]提出一種文檔向量表示的方法,應(yīng)用與中文文檔的分類;華東師范大學(xué)計(jì)算機(jī)應(yīng)用研究所楊河彬等[9]提出CT-Word2Vec神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,利用詞匯的上下文信息將詞轉(zhuǎn)化成向量,在詞向量的學(xué)習(xí)過(guò)程當(dāng)中融入了用戶的搜索點(diǎn)擊行為。上述方法在執(zhí)行過(guò)程中,前者是對(duì)詞語(yǔ)語(yǔ)義明細(xì)的文本進(jìn)行特征化表示,存在對(duì)詞語(yǔ)語(yǔ)義規(guī)則的利用(如中文分詞的劃分粒度),后者也可用于支持文本進(jìn)行特征化表示,但存在人為語(yǔ)義識(shí)別的因素(如用戶搜索行為的干預(yù))。
單純依靠word2vec工具,可根據(jù)上下文關(guān)系提取詞語(yǔ)的語(yǔ)義特征,并可不依賴語(yǔ)義規(guī)則,且針對(duì)詞語(yǔ)語(yǔ)義不明的文本同樣有效。而在近期文獻(xiàn)中,未有此類基于Word2vector的文本特征表示方法被提出。
文本提出的特征化表示可采用Word2vector作為基于上下文的詞義特征提取方法,并適用于現(xiàn)行基于向量空間模型(vector space model,VSM)的信息檢索算法。該文本特征化表示方法,能夠根據(jù)Word2vector詞義特征,在無(wú)語(yǔ)義規(guī)則支持、詞語(yǔ)語(yǔ)義不明的情況下,形成VSM形式的文本特征化表示,適用于以VSM形式為特征化表示的文本分類算法。
本文的研究動(dòng)機(jī)是構(gòu)建一種基于上下文關(guān)系的文本特征化表示方法,采用Word2vector提取文本中的詞語(yǔ)語(yǔ)義(詞義)特征,并最終形成VSM形式的文本特征化表示。實(shí)現(xiàn)Word2vector詞義特征提取方法的Word2vec工具是其相關(guān)的技術(shù)基礎(chǔ)。
基于Word2vector信息檢索文本特征化可以解決2個(gè)方面的問(wèn)題:①根據(jù)Word2vector詞向量難以形成文本特征化表示的問(wèn)題;②在缺少語(yǔ)義規(guī)則庫(kù)的情況下,文本特征化過(guò)程中詞義特征提取的問(wèn)題。本文研究動(dòng)機(jī)的具體思路如下。
1)根據(jù)文本中的空格或統(tǒng)一粒度的分詞規(guī)則劃分每個(gè)詞語(yǔ)。
2)針對(duì)由分詞得到的詞語(yǔ),采用Word2vector方法提取其詞義特征,并以詞向量形式表示。
3)采用適當(dāng)?shù)木垲悇澐謹(jǐn)?shù)量,對(duì)得到的詞向量進(jìn)行聚類,即實(shí)現(xiàn)對(duì)詞語(yǔ)詞向量的“最優(yōu)適應(yīng)度劃分”的聚類。根據(jù)最終的聚類結(jié)果將詞語(yǔ)替代表示為其詞向量所屬聚類劃分的質(zhì)心S,即用質(zhì)心S代表其聚類劃分內(nèi)的詞語(yǔ),將詞語(yǔ)語(yǔ)義特征近似認(rèn)同為所屬聚類劃分的質(zhì)心。
4)將“質(zhì)心S所代表的詞語(yǔ)”在該文本中出現(xiàn)頻率計(jì)為質(zhì)心S的頻率,并統(tǒng)計(jì)詞向量聚類質(zhì)心S的逆向文件頻率;參照TF-IDF模型構(gòu)成詞向量聚類質(zhì)心頻率模型,并生成VSM形式的特征化表示。
5)根據(jù)基于Word2vector的VSM特征化表示進(jìn)行文本相似性分析。
根據(jù)研究動(dòng)機(jī),將利用Word2vector提取詞義特征,獲得文本中所有詞語(yǔ)的詞向量;而后,根據(jù)最優(yōu)聚類效果適應(yīng)度的劃分對(duì)詞語(yǔ)的詞向量進(jìn)行聚類,并根據(jù)聚類結(jié)果將詞語(yǔ)替代表示為其詞向量所屬聚類劃分的質(zhì)心(S);最后,將質(zhì)心所代表的詞語(yǔ)在文本中的出現(xiàn)頻率計(jì)為質(zhì)心S的頻率,并構(gòu)成詞向量聚類質(zhì)心頻率模型,用于特征化表示文本。詞向量聚類質(zhì)心頻率模型蘊(yùn)含詞義特征,且屬于VSM形式,可適用于現(xiàn)行的基于特征向量的信息檢索算法(如分類、回歸、聚類)。
基于Word2vector的文本特征化與傳統(tǒng)的詞語(yǔ)統(tǒng)計(jì)機(jī)制不同,可通過(guò)分析Example 1表明。Example 1中,2個(gè)簡(jiǎn)單的句子可視為2個(gè)文本樣本,并且構(gòu)成一個(gè)極小的語(yǔ)料庫(kù)。
Example 1.
Sample A. Men love holiday.
Sample B. Human enjoys vacation.
Sample A和Sample B的含義極為相似,2個(gè)文件之間的相關(guān)性和語(yǔ)義相似性是相當(dāng)大的。
詞語(yǔ)統(tǒng)計(jì)機(jī)制的文本特征化對(duì)Example 1中文本的向量化表示如表1所示。其中,在A,B2個(gè)向量中,不為零的詞頻值沒(méi)有同時(shí)出現(xiàn)在2個(gè)文本樣本中的相同詞語(yǔ)上。這2個(gè)詞頻的正交向量表明,用于文本特征化表示的詞語(yǔ)統(tǒng)計(jì)機(jī)制,不能有效表示Example 1中的語(yǔ)義相似性。而基于Word2vector的文本特征化表示則可依靠詞向量所屬聚類劃分質(zhì)心對(duì)詞語(yǔ)的替代表示,實(shí)現(xiàn)詞義特征統(tǒng)計(jì),從而有效表示Example 1中的語(yǔ)義相似性。
表1 詞語(yǔ)統(tǒng)計(jì)機(jī)制的Example 1文本向量化表示
當(dāng)文檔作為信息檢索的樣本時(shí),針對(duì)在不同文檔中的每個(gè)詞語(yǔ),Word2vector可依據(jù)其上下文關(guān)系有效地提取其語(yǔ)義(即詞義特征),并以詞向量的形式給出[10]。Word2vec是Word2vector方法的模型實(shí)現(xiàn)軟件工具包,能夠基于詞語(yǔ)的上下文關(guān)系,快速有效地訓(xùn)練并生成詞向量。Word2vec工具包含了2種訓(xùn)練模型,CBOW(continuous bag of word)與Skip_gram。Word2vec中訓(xùn)練模型的基礎(chǔ)是神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(neural network language model ,NNLM)[11],其基本原理如圖1所示。必須注意的是,Word2vector的詞義特征提取機(jī)制使得不同文檔中相同的詞所對(duì)應(yīng)的詞向量并不相同。所以,導(dǎo)致難以根據(jù)Word2vector的詞向量形成信息檢索樣本的特征化表示,特別是難以形成VSM形式的樣本特征化表示。
圖1 Word2vector方法原理Fig.1 Word2vector mechanism
Word2vec作為一款將詞表征為實(shí)數(shù)值向量的高效工具包[6]。其利用深度學(xué)習(xí)的思想,可通過(guò)訓(xùn)練把對(duì)文本內(nèi)容的處理簡(jiǎn)化為多維向量空間中的向量運(yùn)算,而向量空間上的相似度可以用來(lái)表示文本語(yǔ)義上的相似度。Word2vec輸出的詞向量可以被用于自然語(yǔ)言處理相關(guān)的工作,如聚類、同義詞查找、詞性分析等。若將詞語(yǔ)當(dāng)做特征,則Word2vec就可將特征映射到多維向量空間,可為文本數(shù)據(jù)尋求更加深層次的特征表示。
Word2vec使用的是Distributed representation的詞向量表示方式[6]。Distributed representation的基本思想是通過(guò)訓(xùn)練將每個(gè)詞映射成N維實(shí)數(shù)向量,通過(guò)詞之間的距離(如余弦相似度、歐氏距離等)判斷它們之間的語(yǔ)義相似度[12]。Word2vec采用一個(gè)三層的神經(jīng)網(wǎng)絡(luò)(含輸入層-隱含層-輸出層),Word2vec的三層神經(jīng)網(wǎng)絡(luò)本身是對(duì)語(yǔ)言模型進(jìn)行建模,同時(shí)獲得一種詞語(yǔ)在向量空間上的表示是Word2vec的真正目標(biāo)(見(jiàn)圖1)。Word2vec三層神經(jīng)網(wǎng)絡(luò)可根據(jù)詞頻用Huffman編碼使得所有詞頻相似的詞隱藏層激活的內(nèi)容基本一致,出現(xiàn)頻率越高的詞語(yǔ),所激活的隱藏層數(shù)目越少,可有效地降低計(jì)算的復(fù)雜度。因此,Word2vec具備高效性。
基于Word2vector的文本特征化表示利用Word2vector提取詞義特征,獲得文本中所有詞語(yǔ)的詞向量。之后,根據(jù)最優(yōu)聚類效果適應(yīng)度的劃分對(duì)詞語(yǔ)的詞向量進(jìn)行聚類,并根據(jù)聚類結(jié)果將詞語(yǔ)替代表示為其詞向量所屬聚類劃分的質(zhì)心S。質(zhì)心所代表的詞語(yǔ)在文本中的出現(xiàn)頻率計(jì)為S的頻率,構(gòu)成用于特征化表示文本的詞向量聚類質(zhì)心頻率模型(semantic frequency-inverse document frequency,SF-IDF)。
基于Word2vector的文本特征化表示方法,主要由以下步驟構(gòu)成。
2.1.1 對(duì)樣本進(jìn)行詞語(yǔ)分詞
將文本中的詞語(yǔ)視為ASCII字符串,根據(jù)空格或劃分每個(gè)詞語(yǔ)。將詞語(yǔ)記為wordi,t,表示第i個(gè)樣本中的第t種詞語(yǔ)的分詞,有i={1,2,…,|D|},|D|為數(shù)據(jù)集中D的樣本數(shù),t={1,2,…,n},n為詞語(yǔ)種類數(shù),所有文本中詞語(yǔ)wordi,t的數(shù)量為N,不同文本中的相同ASCII字符串識(shí)別為同一詞語(yǔ)。
2.1.2 采用Word2vec工具提取詞義特征
詞向量初始化賦值時(shí),不同文本中的相同詞語(yǔ)具有一致的詞向量,有wi,t=wj,t。
針對(duì)由2.1.1節(jié)得到的詞語(yǔ),采用Word2vector方法,基于詞語(yǔ)的上下文關(guān)系提取其詞義特征,并以詞向量形式表示。本步驟運(yùn)用Word2vec工具包中的訓(xùn)練模型,可獲得詞語(yǔ)的詞向量。訓(xùn)練模型以神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型NNLM為基礎(chǔ),其原理如圖1所示。
采用NNLM計(jì)算某一個(gè)上下文中一個(gè)詞語(yǔ)wordi,t的概率,即p(wordi,t=t|context),詞向量是其訓(xùn)練的副產(chǎn)物。NNLM根據(jù)數(shù)據(jù)集D生成一個(gè)對(duì)應(yīng)的詞匯表V,其中的每一個(gè)詞語(yǔ)都對(duì)應(yīng)著一個(gè)標(biāo)記wordi,t。通過(guò)數(shù)據(jù)集來(lái)構(gòu)建訓(xùn)練樣本并作為神經(jīng)網(wǎng)絡(luò)的輸入,以確定神經(jīng)網(wǎng)絡(luò)的參數(shù)。NNLM詞語(yǔ)上下文樣本的構(gòu)建過(guò)程為:對(duì)于D中的任意一個(gè)詞wordi,t,獲取其上下文context(wordi,t)(例如前n-1個(gè)詞),從而得到一個(gè)元組(context(wordi,t),wordi,t)。以該元組作為神經(jīng)網(wǎng)絡(luò)的輸入進(jìn)行訓(xùn)練。NNLM的輸入層和傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型有所不同,輸入的每一個(gè)節(jié)點(diǎn)單元是一個(gè)向量,向量的每一個(gè)分量為變量,在訓(xùn)練過(guò)程中對(duì)其進(jìn)行變更,該向量即為詞向量。由圖1可知,對(duì)于每一個(gè)詞wordi,t,NNLM都將其映射成一個(gè)向量wi,t,即為詞向量。
Word2vec生成的詞向量wi,t具體表示第i個(gè)文本中的第t種詞語(yǔ)的詞義特征,有i={1,2,…,|D|},|D|為樣本數(shù),全體樣本中詞語(yǔ)的詞向量wi,t的數(shù)量為N。
2.1.3 詞語(yǔ)語(yǔ)義特征替代表示
首先,采用最優(yōu)聚類效果適應(yīng)度下的聚類劃分?jǐn)?shù)量,對(duì)詞向量進(jìn)行K-means算法聚類[13],即實(shí)現(xiàn)對(duì)詞語(yǔ)詞向量的“最優(yōu)適應(yīng)度劃分”的聚類。詞向量的K-means聚類中,采用兩詞向量夾角的余弦值計(jì)算二者間的距離。
根據(jù)2.1.2節(jié),所有樣本中詞語(yǔ)的詞向量wi,t的數(shù)量為N,詞向量wi,t具體表示第i個(gè)樣本中的第t種詞語(yǔ)的詞義特征。已知的樣本分類數(shù)量為C,而樣本數(shù)量為M。本步驟中,將詞向量聚類劃分的質(zhì)心稱為S(表示為詞向量空間中的向量),S的數(shù)量k即是聚類劃分個(gè)數(shù)。
為度量詞向量空間中的K-means聚類效果,本文給出聚類劃分?jǐn)?shù)量適應(yīng)性的計(jì)算。為表示聚類劃分?jǐn)?shù)量適應(yīng)性,令f(k)為體現(xiàn)聚類效果適應(yīng)度的函數(shù),表示為
(1)
(1)式中:α為k個(gè)S向量間的平均余弦距離;β為k個(gè)聚類劃分內(nèi)的詞向量間平均余弦距離的均值,具體地有
(2)
(3)
圖2 聚類效果適應(yīng)度函數(shù)Fig.2 Clustering effect of fitness function
設(shè)聚類劃分個(gè)數(shù)k∈[N,N×C],且為正整數(shù),當(dāng)f(k)=max(f(k))時(shí),令最優(yōu)聚類效果適應(yīng)度下的聚類劃分?jǐn)?shù)量K=k,f(K)是聚類效果適應(yīng)度的最大值。經(jīng)計(jì)算可知,函數(shù)f(k)在N到K的區(qū)間是單調(diào)遞增的,在K到N×C的區(qū)間是單調(diào)遞減的,函數(shù)f(k)的分布如圖3所示。
當(dāng)f(k)=max(f(k))時(shí),K=k,f(K)是聚類效果適應(yīng)度函數(shù)的極值,即最優(yōu)聚類效果適應(yīng)度,K-means聚類質(zhì)心S的數(shù)量最終確定為K。
根據(jù)最終的聚類結(jié)果將詞語(yǔ)替代表示為其詞向量所屬聚類劃分的質(zhì)心S。具體地,當(dāng)f(k)=max(f(k))時(shí),最優(yōu)聚類效果適應(yīng)度下的聚類劃分?jǐn)?shù)量K=k,將任意詞語(yǔ)wi,t替代表示為其詞向量所屬聚類劃分的質(zhì)心S,即將詞語(yǔ)的特征近似認(rèn)同為所屬聚類劃分的質(zhì)心。在任意局部詞向量空間中,用質(zhì)心S代表其聚類劃分內(nèi)的詞語(yǔ),其對(duì)應(yīng)關(guān)系如圖3所示。
圖3中的具體替代表示關(guān)系為
Sb?{wordi,t|wi,t∈Wb}
(4)
(4)式中:第b個(gè)聚類質(zhì)心Sb所代表的詞語(yǔ)wordi,t構(gòu)成一個(gè)詞語(yǔ)集合;wi,t是詞語(yǔ)wordi,t的詞向量;Wb是類屬于質(zhì)心Sb所在聚類劃分的詞向量所對(duì)應(yīng)的詞語(yǔ)的集合。
圖3 詞向量空間中根據(jù)聚類的替代表示關(guān)系Fig.3 Substitution in word vector space
詞語(yǔ)語(yǔ)義特征替代表示是采用聚類質(zhì)心代表該聚類劃分中所有詞語(yǔ)及其語(yǔ)義,有可能造成信息損失。將由結(jié)果表明其所造成的信息損失可視為在文本特征表示過(guò)程中可承受的影響。
2.1.4 基于詞義特征替代表示構(gòu)建文本特征化表示模型
首先,統(tǒng)計(jì)每個(gè)詞語(yǔ)在一個(gè)樣本中出現(xiàn)的頻率,根據(jù)2.1.3節(jié)給出的質(zhì)心S與詞語(yǔ)的替代表示關(guān)系,將第b個(gè)質(zhì)心Sb所代表的詞語(yǔ)在該樣本中的出現(xiàn)頻率計(jì)為質(zhì)心Sb的頻率;并統(tǒng)計(jì)詞向量聚類質(zhì)心Sb的逆向文件頻率,有b={1,2,…,K}。而后,參照TF-IDF模型構(gòu)成詞向量聚類質(zhì)心頻率模型——SF-IDF。
TF-IDF模型[1]中,樣本doci的特征化表示由特征向量di實(shí)現(xiàn),有
di=(di(1),di(2),…,di(n))
(5)
向量di中第t維元素di(t)計(jì)算方式為
di(t)=TF(wordt,doci)·IDF(wordt)
(6)
(6)式中,TF(wordt,doci)是詞語(yǔ)wordt在樣本doci中的頻率,其計(jì)算方式為
(7)
(7)式中的分子是該詞語(yǔ)在樣本中的出現(xiàn)次數(shù),而分母則是在文件中所有詞語(yǔ)的出現(xiàn)次數(shù)之和;IDF(wordt)為詞語(yǔ)wordt的逆向文件頻率,其計(jì)算方式為
(8)
(8)式中:D為樣本doci的構(gòu)成數(shù)據(jù)集;|D|為數(shù)據(jù)集D中樣本的總數(shù);|{doci|wordt∈doci}|為包含詞語(yǔ)wordt的樣本數(shù)量。
參照TF-IDF模型,SF-IDF模型具體構(gòu)成如下。
SF(Sb,doci)是詞向量聚類質(zhì)心Sb在文本doci中的頻率,其計(jì)算方式為
(9)
(9)式中:TF(wi,t)表示詞語(yǔ)wi,t在文本doci中出現(xiàn)的頻率;SF(Sb,doci)僅累計(jì)文本doci中由質(zhì)心Sb所代表的詞語(yǔ)的頻率。
IDF(Sb)為詞向量聚類質(zhì)心Sb的逆向文件頻率,其計(jì)算方式為
(10)
(10)式中:D為文本doci的構(gòu)成數(shù)據(jù)集;|D|為數(shù)據(jù)集D中樣本的總數(shù);|{doci|wi,twi,t∈Wb∈doci}|為包含由質(zhì)心Sb所代表的詞語(yǔ)的樣本的數(shù)量。
(11)
(12)
SF-IDF模型屬于VSM(向量空間模型)形式,用于特征化表示一個(gè)文本。
2.1.5 文本相似性分析
根據(jù)SF-IDF模型特征化表示,計(jì)算2個(gè)文本間的相似度;并據(jù)此進(jìn)行信息檢索領(lǐng)域中樣本分類算法的執(zhí)行。
(13)
據(jù)互信息理論,可給出基于Word2vector的文本特征化表示方法的有益性分析。
假定X與Y為表示樣本X與Y詞語(yǔ)語(yǔ)義內(nèi)容的隨機(jī)變量。若樣本已知,X和Y的互信息(mutual information)表示兩者間的不確定性歸納。樣本X與Y之間的互信息I(X;Y)定義為
(14)
在詞語(yǔ)統(tǒng)計(jì)機(jī)制下,概率P(xi)或P(yj)由統(tǒng)計(jì)樣本X或Y中xi或yi的出現(xiàn)次數(shù)(詞頻)計(jì)算,并通過(guò)文本語(yǔ)料庫(kù)規(guī)模(N)進(jìn)行歸一化。聯(lián)合概率P(xi,yj)由xi與yi之間的存在關(guān)系的次數(shù)(相關(guān)頻率)統(tǒng)計(jì),并根據(jù)N進(jìn)行歸一化。xi與yi之間存在的關(guān)系為“相同”或特定關(guān)系[14]。
以Example 1為例,在任意Sample A中的詞語(yǔ)與Sample B中的詞語(yǔ)之間,并沒(méi)有可統(tǒng)計(jì)的存在關(guān)系的次數(shù),它們并不“相同”,也沒(méi)有表現(xiàn)出特定關(guān)系。故詞語(yǔ)統(tǒng)計(jì)的特征提取顯示P(xi,yj)=0,且樣本間的互信息I(X;Y)=0??梢宰C明詞語(yǔ)統(tǒng)計(jì)機(jī)制的特征提取丟失詞語(yǔ)語(yǔ)義內(nèi)容所產(chǎn)生的互信息。
基于Word2vector的文本特征化表示的語(yǔ)義特征提取方式,是進(jìn)行詞語(yǔ)語(yǔ)義特征替代表示。因而在不同的樣本中,詞語(yǔ)可由詞語(yǔ)語(yǔ)義特征替代表示產(chǎn)生關(guān)系。在Example 1的Sample A與Sample B中的詞語(yǔ)間,存在可統(tǒng)計(jì)的存在關(guān)系的次數(shù),盡管它們并不“相同”,卻可表現(xiàn)出特定關(guān)系。例如詞語(yǔ)“Men”與“Human”的語(yǔ)義根據(jù)上下文關(guān)系提取,并通過(guò)詞語(yǔ)語(yǔ)義特征替代表示進(jìn)行近似認(rèn)同。上述分析表明,基于Word2vector的文本特征化表示可提供文本詞語(yǔ)語(yǔ)義層面的信息概率加權(quán)量(probability weighting information ,PWI)[15]。
根據(jù)詞向量聚類質(zhì)心頻率模型,采用信息檢索領(lǐng)域中的經(jīng)典樣本分類算法——權(quán)重鄰居不均衡分類樣本集分類算法(neighbor-weighted k-nearest neighbor for unbalanced text corpus ,NWKNN)執(zhí)行文本分類。NWKNN是權(quán)重鄰居(k-nearest neighbor,KNN)算法,用于不均衡分類樣本集的樣本分類判別。該算法在信息檢索領(lǐng)域中被視為一種高效的分類算法,其公式為[16]
score(doc,ci)=
(15)
函數(shù)score(doc,ci)求得將文本doc歸于分類ci的評(píng)估值,用于判定文本doc歸屬于擁有最高評(píng)估值的分類;函數(shù)score(doc,doci)表示樣本doc與已知類別樣本doci的相似度,采用向量余弦距離計(jì)算;Weighti為分類權(quán)重設(shè)定值,根據(jù)NWKNN算法經(jīng)驗(yàn)化賦值為3.5[16];函數(shù)δ(docj,ci)表示樣本docj是否屬于類別ci,若樣本docj屬于類別ci,則該函數(shù)取值為1,否則,該函數(shù)取值為0。
樣本分類的性能評(píng)估采用F1-measure標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)結(jié)合召回率Recall和準(zhǔn)確率Precision的評(píng)估度量F1如下
(16)
運(yùn)用F1-measure標(biāo)準(zhǔn),可觀察分類系統(tǒng)針對(duì)數(shù)據(jù)集的分類效果。為便于比較,將總結(jié)文本分類結(jié)果的宏觀F1度量值Macro-F1。同時(shí),可以得到文本分類結(jié)果的平均準(zhǔn)確率。
由于實(shí)驗(yàn)步驟中將文本中的詞語(yǔ)視為ASCII字符串,根據(jù)空格或劃分每個(gè)詞語(yǔ),所選用的文本數(shù)據(jù)集均可視為無(wú)語(yǔ)義規(guī)則支持、詞語(yǔ)語(yǔ)義不明的文本集合。
分別以路透社文本集Reuter-21578、維基百科XML數(shù)據(jù)Wikipedia XML為文本數(shù)據(jù)集,采用NWKNN算法進(jìn)行文本分類實(shí)驗(yàn),并采用F1-measure標(biāo)準(zhǔn)進(jìn)行樣本分類的效果評(píng)估,SF-IDF向量與現(xiàn)有技術(shù)中TF-IDF向量的分類效果對(duì)比如表2,表3所示。
表2 Reuter-21578數(shù)據(jù)集上TF-IDF向量與SF-IDF向量的分類效果比較
表3 Wikipedia XML數(shù)據(jù)集上TF-IDF向量與SF-IDF向量的分類效果比較
據(jù)表2,表3所述,可見(jiàn)SF-IDF向量的分類效果明顯優(yōu)于現(xiàn)有技術(shù)中TF-IDF向量。在沒(méi)有語(yǔ)義規(guī)則支持且詞義不明的情況下,在Reuter-21578數(shù)據(jù)集上平均準(zhǔn)確率由原有的57.1%提高到63.3%,在Wikipedia XML數(shù)據(jù)集上平均準(zhǔn)確率由原有的48.7%提高到59.2%。
實(shí)驗(yàn)結(jié)果顯示,在沒(méi)有語(yǔ)義規(guī)則支持且詞義不明的情況下,針對(duì)文本相似性分類任務(wù),SF-IDF模型相較TF-IDF模型擁有更優(yōu)良的F1-measure評(píng)估結(jié)果,說(shuō)明本文所提出的特征化表示方法具備文本詞義特征提取方面的優(yōu)勢(shì)。
本文所提出的詞向量聚類質(zhì)心頻率(SF-IDF)模型,采用信息檢索領(lǐng)域經(jīng)典樣本分類算法NWKNN,在公用數(shù)據(jù)集Reuter-21758與Wikipedia XML之上,與TF-IDF模型進(jìn)行對(duì)比實(shí)驗(yàn),展示了明顯優(yōu)勢(shì)。SF-IDF模型提高了文本相似度計(jì)算的準(zhǔn)確性,提升了文本分類準(zhǔn)確度,并拓展了信息檢索領(lǐng)域中向量空間模型的構(gòu)建方法。
SF-IDF模型所實(shí)現(xiàn)的方法,解決了根據(jù)Word2vector詞向量難以形成文本特征化表示的問(wèn)題,可在無(wú)語(yǔ)義規(guī)則支持的情況下,構(gòu)成基于上下文的文本特征化表示。因此,SF-IDF還可應(yīng)用于分析無(wú)法被自然語(yǔ)言直接解讀的文本或數(shù)據(jù)鏈報(bào)文(如Link-16,Link-22)。
今后基于Word2vector的文本特征化表示方法的研究工作將嘗試采用密度聚類算法執(zhí)行詞向量最優(yōu)聚類效果適應(yīng)度下的聚類,并展開(kāi)多種文本數(shù)據(jù)集上的信息檢索試驗(yàn)。
參考文獻(xiàn):
[1] ZHANG W,YOSHIDA T,TANG X. A comparative study of TF* IDF, LSI and multi-words for text classification[J].Expert Systems with Applications, 2011,38(3):2758-2765.
[2] TU Shouzhong,HUANG Minlie.Mining microblog user interests based on TextRank with TF-IDF factor[J].The Journal of China Universities of Posts and Telecommunications, 2016, 23(5):40-46.
[3] PURDA L,SKILLICOM D. Accounting Variables, Deception, and a Bag of Words: Assessing the Tools of Fraud Detection[J].Contemporary Accounting Research, 2015,32(3): 1193-1223.
[4] LEQV,MIKOLOV T.Distributed Representations of Sentences and Documents [J].Computer Science,2014,4(32):1188-1196.
[5] JING L,NG M K, HUANG J Z.Knowledge-based vector space model for text clustering[J].Knowledge and Information Systems, 2010, 25(1):35-55.
[6] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[J].Advances in Neural Information Processing Systems,2013,10(26): 3111-3119.
[7] Poll的筆記.文本深度表示模型——word2vec & doc2vec詞向量模型[EB/OL].(2016-04-24)[2017-02-20].http://www.cnblogs.com/maybe2030/p/5427148.html.
[8] 唐明,朱磊,鄒顯春. 基于Word2Vec的一種文檔向量表示[J].計(jì)算機(jī)科學(xué),2016,43(6):214-217.
TANG Ming, ZHU Lei, ZOU Xianchun. Document Vector Representation Based on Word2Vec[J].Computer Science,2016, 43(6):214-217.
[9] 楊河彬,賀樑,楊靜.一種融入用戶點(diǎn)擊模型Word2Vec查詢?cè)~聚類[J].小型微型計(jì)算機(jī)系統(tǒng),2016,37(4):676-681.
YANG Hebin, HE Liang, YANG Jing.Query Clustering Using CT-Word2Vec Model [J].Journal of Chinese Mini-Micro Computer Systems , 2016 ,37(4):676-681.
[10] MIKOLOV T, CHEN K, CORRADO G, et al. Computing numeric representations of words in a high-dimensional space:United States,13/841,640[P].2015-05-19.
[12] MIKOLOV T, YIH W, ZWEIG G.Linguistic Regularities in Continuous Space Word Representations[C]//Ken Church.HLT-NAACL.Atlanta,Georgia:Association for Computational Linguistics,2013:746-751.
[13] KANUNGO T, MOUNT D M, NETANYAHU N S, et al. An efficient k-means clustering algorithm: Analysis and implementation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7):881-892.
[14] van RIJSBERGEN C J. Information retrieval [M]. London: Butterworths Press,1979:113-252.
[15] CHUM O, PHILBIN J, ZISSERMAN A. Near Duplicate Image Detection: min-Hash and tf-idf Weighting[EB/OL]//(2008-08-01)[2017-04-20]. http://www.cs.jhu.edu/~misha/ReadingSeminar/Papers/Chum08.pdf.
[16] TAN S. Neighbor-weighted k-nearest neighbor for unbalanced text corpus[J].Expert Systems with Applications,2005,28(4):667-671.