代曉麗,劉世峰,宮大慶
(1.北京交通大學(xué)經(jīng)濟(jì)管理學(xué)院,北京 100044;2.北京信通傳媒有限責(zé)任公司,北京 100078)
互聯(lián)網(wǎng)的發(fā)展給網(wǎng)絡(luò)平臺(tái)帶來了海量的數(shù)據(jù),其中文本數(shù)據(jù)是主要的數(shù)據(jù)形式,如何處理網(wǎng)絡(luò)中的大量文本數(shù)據(jù)是一個(gè)急需解決且復(fù)雜的問題。文本相似度檢測是文本處理領(lǐng)域的一個(gè)關(guān)鍵技術(shù),通過文本間的對(duì)比計(jì)算兩篇或多篇文本間的相似程度,在信息檢索[1]、文本分類[2]、機(jī)器翻譯[3]、自動(dòng)問答[4]等自然語言處理(NLP,natural language processing)領(lǐng)域的任務(wù)中具有廣泛應(yīng)用。
由于文本格式、類型繁多,很難對(duì)文本的各種特征進(jìn)行捕捉,使設(shè)計(jì)一個(gè)準(zhǔn)確性較高的文本相似度檢測方案面臨一定的挑戰(zhàn)?;诮y(tǒng)計(jì)和基于語義的文本相似度檢測方法是學(xué)者們研究的熱點(diǎn)[5]。
基于統(tǒng)計(jì)的文本相似度檢測方法主要是基于字符匹配和基于詞頻特征的相似比較,基于字符匹配的方法將文本分解為字的集合,以字符間的變化程度作為相似度結(jié)果,最長公共子串(LCS,longest common substring)[6]、編輯距離[7]、Jaccard 系數(shù)[8]、Dice 系數(shù)[9]等是較常用的方法;基于詞頻特征的方法以 TF-IDF(term frequency-inverse document frequency)方法為主,該方法將文本分解為詞語的集合,以詞頻作為向量,通過計(jì)算向量距離得到文本相似度,如歐氏距離、曼哈頓距離、余弦距離[10]等。這些方法僅衡量了文本表面的相似度,而沒有考慮文本的語義相似度,使得到的結(jié)果缺乏一定的準(zhǔn)確性。
針對(duì)語義缺失的問題,出現(xiàn)了基于語義的方法,該方法通過引入外部知識(shí)來使文本具有語義信息[11],其中基于詞典和基于向量空間模型(VSM,vector space model)是較常見的方法?;谠~典的方法利用通用詞典構(gòu)建詞語的概念語義樹,兩詞語在樹中的距離即為它們之間的相似度[12];基于向量空間模型的方法利用外部語料庫來構(gòu)建具有語義的詞向量,通過度量詞語的重要性提取特征詞來表示文本,然后將特征詞向量綜合表示為文本向量,最后以文本向量間的距離作為相似度結(jié)果[13]。在基于向量空間模型的方法中,對(duì)于特征詞提取,多數(shù)方法只依據(jù)詞語的詞頻信息,沒有考慮文本的結(jié)構(gòu)信息;同時(shí),文本向量表示沒有考慮詞語間的語義關(guān)聯(lián)性,導(dǎo)致相似度檢測結(jié)果的準(zhǔn)確率較低。
為了解決上述問題,本文提出了面向文本的相似度檢測方案,基于文檔結(jié)構(gòu)特征將詞語位置權(quán)重與詞頻權(quán)重作為特征詞提取的依據(jù),并將詞語間的語義關(guān)系融入相似度計(jì)算的過程,在提升特征詞提取精度的同時(shí)提高相似度計(jì)算的準(zhǔn)確性。本文的主要貢獻(xiàn)如下。
1) 針對(duì)特征詞提取階段詞語位置加權(quán)方法主觀性較強(qiáng)導(dǎo)致提取結(jié)果缺少代表性的情況,提出了基于層次分析法(AHP,analytic hierarchy process)的詞語位置加權(quán)方法,利用成對(duì)比較法基于文本結(jié)構(gòu)設(shè)置詞語位置權(quán)重,提高了特征詞提取結(jié)果的精確度。
2) 針對(duì)相似度計(jì)算階段的文本向量表示法未考慮詞語間語義關(guān)系導(dǎo)致計(jì)算結(jié)果不夠準(zhǔn)確的情況,提出了基于Pearson 相關(guān)系數(shù)和廣義Dice 系數(shù)的相似度計(jì)算方法,利用相關(guān)系數(shù)衡量詞語間語義關(guān)系,改進(jìn)廣義Dice 系數(shù)公式,提高了相似度計(jì)算結(jié)果的準(zhǔn)確性。
3) 對(duì)本文提出的面向文本的相似度檢測方案與經(jīng)典方法、未做出改進(jìn)的原始方法在準(zhǔn)確率、精確率、召回率、F1 值方面進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果顯示,本文方案有效提高了相似度計(jì)算的準(zhǔn)確率。
關(guān)鍵詞提取是從文本中提取出最能代表該文本信息的詞語,文本相似度的計(jì)算與關(guān)鍵詞的提取有著密切的關(guān)系,關(guān)鍵詞提取的準(zhǔn)確率間接地影響相似度計(jì)算結(jié)果。最常用的關(guān)鍵詞提取技術(shù)有TF-IDF[14]、線性判別分析(LDA,linear discriminant analysis)[15]、圖模型[16],許多學(xué)者在此基礎(chǔ)上做出了改進(jìn)。傳統(tǒng)的TF-IDF 算法只在處理不同類文本時(shí)效果較好,文獻(xiàn)[17]在TF-IDF 算法的基礎(chǔ)上提出TF-IWF(term frequency-inverse word frequency),將逆文檔頻率改為逆詞語頻率并設(shè)置詞語位置權(quán)重,能夠更好地處理語料庫中同類型文本較多的情況以及利用詞語位置信息,但文中詞語位置權(quán)重為作者的主觀設(shè)置,缺少客觀性。LDA 利用詞語的概率分布推測文檔的主題概率,文獻(xiàn)[18]結(jié)合TF-IDF和LDA 算法,利用LDA 提取的主題構(gòu)建關(guān)鍵詞詞典,基于該詞典采用TF-IDF 算法從文章的摘要中提取最終的關(guān)鍵詞用于文章分類,提高了文本分類的精度,但關(guān)鍵詞之間沒有語義關(guān)聯(lián)。文獻(xiàn)[19]提出了基于LDA 和圖模型的關(guān)鍵詞挖掘方法,采用兩級(jí)語義關(guān)聯(lián)模型,將主題之間的語義關(guān)系與主題下詞語之間的語義關(guān)系聯(lián)系起來,并根據(jù)組合作用提取關(guān)鍵詞,該方法提高了從文本中提取關(guān)鍵詞的準(zhǔn)確性,但計(jì)算的復(fù)雜度較高。
針對(duì)文本相似度計(jì)算,現(xiàn)有方法從降低復(fù)雜度和提高準(zhǔn)確率方面進(jìn)行研究。文獻(xiàn)[20]利用哈希將文本轉(zhuǎn)化為數(shù)字指紋,使用Jaccard 系數(shù)來度量指紋間的相似值,適用于檢測字符級(jí)改變的文本。文獻(xiàn)[21]提出了基于VSM 的相似度計(jì)算方法,利用特征項(xiàng)權(quán)重加權(quán)TF-IDF,提高了相似度計(jì)算的精度。文獻(xiàn)[22]使用VSM 和TF-IDF 加權(quán)模式以及哈希特征提取技術(shù)提高了大規(guī)模文本相似度計(jì)算的速度。這些方法生成的都是高維稀疏的向量且不包含文本語義。文獻(xiàn)[23]提出了基于雙向空間模型的相似度計(jì)算,分別利用維基百科的數(shù)據(jù)鏈接和構(gòu)建依賴樹來計(jì)算詞語相似度和文本結(jié)構(gòu)相似度,雙向結(jié)合得到文本相似。文獻(xiàn)[24]提出了一種基于TF-IDF 和LDA 的混合模型來計(jì)算文本相似度,能夠利用文本本身包含的語義信息并反映文本關(guān)鍵詞的權(quán)重,但LDA 包含的文本語義較稀疏。文獻(xiàn)[25]提出了一種結(jié)合HowNet 語義知識(shí)詞典和VSM 的文本相似度計(jì)算方法,在詞匯層面使用HowNet 計(jì)算相似度避免了語義信息丟失,在文本層面使用VSM 計(jì)算相似度保證了表達(dá)信息的完整性,但是HowNet 等已構(gòu)建好的通用詞典較少,更新慢、具有獨(dú)立性,跨領(lǐng)域或新領(lǐng)域的應(yīng)用效果較差。文獻(xiàn)[26]結(jié)合Word2vec 詞向量轉(zhuǎn)換技術(shù),利用其語義分析能力構(gòu)建優(yōu)化的LDA 模型,最后使用余弦相似度來計(jì)算文本相似度,充分表達(dá)了文本語義,理想地實(shí)現(xiàn)了對(duì)重復(fù)文本的語義分析,但其訓(xùn)練語料需要經(jīng)過Word2vec 模型轉(zhuǎn)換為詞向量,再將向量作為輸入訓(xùn)練LDA 模型,導(dǎo)致模型訓(xùn)練成本較高。
本節(jié)介紹了文本相似度檢測框架以及各個(gè)步驟的具體方法,并分析了流程中存在的問題。
圖1 是本文結(jié)合基于向量空間模型和基于分布式表示方法[13,27-31]提出的文本相似度檢測框架,利用分布式詞向量將文本映射到向量空間中,以此計(jì)算文本在向量空間上的相似度。該框架是一種較通用的相似度計(jì)算流程,研究者常在其中的一個(gè)或多個(gè)步驟中進(jìn)行研究改進(jìn),以提高檢測性能。本文所使用的具體方法和步驟如下。
圖1 文本相似度檢測框架
①數(shù)據(jù)提取。用戶將待測文本數(shù)據(jù)輸入系統(tǒng),系統(tǒng)從數(shù)據(jù)庫中提取相應(yīng)的文本集數(shù)據(jù)。
② 數(shù)據(jù)預(yù)處理。合并提取文本內(nèi)容并對(duì)其分詞、去停用詞。首先使用分詞工具將文本內(nèi)容分割為詞語集,由于詞語集中會(huì)存在對(duì)文本表達(dá)無語義影響但會(huì)影響特征詞提取結(jié)果的詞語和符號(hào),因此,使用停用詞表,將這些詞語和符號(hào)從詞語集中刪除。
③特征詞提取。數(shù)據(jù)預(yù)處理結(jié)束后,接下來要從2 個(gè)方面計(jì)算每個(gè)詞語的總權(quán)重并作為特征詞提取的依據(jù)。首先,使用TF-IWF[17]算法計(jì)算詞語的頻率權(quán)重,如式(1)所示。
其中,Ni為詞語i在單文本中的數(shù)量,N為單文本詞語總數(shù),P為語料庫的詞語總數(shù),Pi為詞語i在語料庫中的數(shù)量。這種方法能夠有效降低文本集中文本數(shù)量少、同類型文本多等情況對(duì)詞語權(quán)重的影響。其次,根據(jù)文本的結(jié)構(gòu)特征設(shè)置詞語的位置權(quán)重,表示為Wloc(i),對(duì)出現(xiàn)在文本標(biāo)題、關(guān)鍵詞、摘要中的詞語分別賦予權(quán)值3、2、1。最后,將詞頻權(quán)重和詞位置權(quán)重加權(quán)和得到詞語總權(quán)重,由大到小排序,提取一定比例的詞語構(gòu)成特征詞集代表文本。詞語i總權(quán)重計(jì)算式為
④ 詞向量生成。詞向量生成是將詞語轉(zhuǎn)換為計(jì)算機(jī)可識(shí)別、可計(jì)算的過程。Word2vec 是一種詞向量生成工具,由Mikolov 等[32]于2013 年開發(fā),作為深度學(xué)習(xí)模型中的一種分布式表達(dá)。Word2vec有CBOW(continuous bag-of-words)和Skip-gram(continuous skip-gram)2 種訓(xùn)練模式,CBOW 使用詞語的上下文來預(yù)測詞語本身,而Skip-gram 則使用當(dāng)前詞來預(yù)測上下文詞語。Word2vec 模型能夠從大規(guī)模未經(jīng)標(biāo)注的語料中訓(xùn)練得到具有語義、低維、稠密的詞向量,可以較好地應(yīng)用于文本相似度中的詞語表示。
⑤ 文本相似度計(jì)算。通過Word2vec 模型得到特征詞向量,利用式(3)的2 種方式將其轉(zhuǎn)換為文本向量,前者為疊加所有特征詞向量,后者取疊加后詞向量的平均值。然后使用廣義Dice 系數(shù)[33]計(jì)算2 個(gè)文本向量的相似度表示為最終的文本相似度,如式(4)所示。
其中,kx表示詞語x的詞向量;di和dj分別表示通過式(3)得到的文本i和文本j的向量;sim(di,dj)表示文本i和j的相似值,相似值越接近1 表示兩篇文本越相似。
⑥ 輸出結(jié)果。依據(jù)文本間相似值和給定閾值t判斷該文本是否相似,并將結(jié)果返回給用戶。
文本相似度檢測框架中存在以下2 個(gè)方面的問題。
1) 提取的特征詞缺乏代表性。在提取特征詞階段,對(duì)詞位置權(quán)重的設(shè)置僅按照文本結(jié)構(gòu)簡單的設(shè)為具有差異的數(shù)值,存在較強(qiáng)的主觀性且沒有合理依據(jù),從而影響詞語的總權(quán)重,使提取到的特征詞不能更準(zhǔn)確地表達(dá)文本,因此需要設(shè)計(jì)合理的詞位置權(quán)重計(jì)算方法。
2) 相似度計(jì)算結(jié)果不夠準(zhǔn)確。在計(jì)算文本相似度階段,對(duì)特征詞向量進(jìn)行疊加或加權(quán)平均構(gòu)建文本向量,將文本相似度計(jì)算轉(zhuǎn)化為向量空間相似度度量,這種方法沒有考慮到詞語之間的語義關(guān)聯(lián),不能表達(dá)文本的深層語義,容易導(dǎo)致計(jì)算結(jié)果存在偏差,因此需要設(shè)計(jì)一個(gè)融合詞語語義關(guān)系的相似度計(jì)算方法。
針對(duì)3.2 節(jié)描述的提取的特征詞缺乏代表性、相似度計(jì)算結(jié)果不夠準(zhǔn)確這2 個(gè)問題,本文分別提出了基于層次分析法的詞語位置加權(quán)方法和基于Pearson 和廣義Dice 系數(shù)的相似度計(jì)算方法。
層次分析法設(shè)置文本各部分對(duì)詞語重要性影響的權(quán)值,通過提高詞語位置權(quán)重的合理性來提升提取特征詞的準(zhǔn)確度。AHP 是結(jié)合定性和定量分析的綜合評(píng)估方法,根據(jù)決策將問題分解為不同層次的因素,使用定性分析確定元素間的相對(duì)重要性,再結(jié)合定量分析確定各層次以及各因素的權(quán)值,為決策者提供依據(jù),適用于存在主觀性和不確定性信息的情況[34-35]。本文利用層次分析法設(shè)置文本各部分對(duì)詞語重要性影響的權(quán)值,改進(jìn)文本相似度檢測框架中,特征詞提取階段的詞語總權(quán)重計(jì)算式,通過提高詞語位置權(quán)重的合理性來提升特征詞提取的準(zhǔn)確度。該方法的具體步驟如下。
1) 詞語位置重要性參數(shù)設(shè)計(jì)
本文設(shè)計(jì)的相似度檢測方案面向的文本類型為學(xué)術(shù)論文,該類型文本的統(tǒng)一結(jié)構(gòu)包含了論文標(biāo)題T、論文摘要A、論文關(guān)鍵詞K 等,詞語位置的重要程度主要由這3 個(gè)因素決定,如式(5)所示。
其中,α、β、γ為各因素在決定詞語位置重要性時(shí)所占的比例。
2) 詞語位置重要性計(jì)算
論文標(biāo)題通常包含了文章的研究主題、使用方法和應(yīng)用場景,是論文圍繞的核心;論文關(guān)鍵詞是作者總結(jié)文章重要內(nèi)容的詞語,其對(duì)文章的重要性略低于論文標(biāo)題;論文摘要是從背景、目標(biāo)、過程、結(jié)果對(duì)論文的簡短概述,包含的詞語相對(duì)較多,其對(duì)文章的重要性相對(duì)來說低于論文標(biāo)題和論文關(guān)鍵詞。經(jīng)分析發(fā)現(xiàn),文本各結(jié)構(gòu)部分對(duì)其內(nèi)容的重要性存在差異,根據(jù)AHP 將論文標(biāo)題、關(guān)鍵詞、摘要作為3 個(gè)因素,計(jì)算其成對(duì)比較值,即可確定每個(gè)因素對(duì)文本的重要性。表1 是由Saaty 給出的9 個(gè)重要性等級(jí)及其量化值,依此構(gòu)造的成對(duì)比較矩陣如表2 所示。
表1 9 個(gè)重要性等級(jí)及其量化值
表2 成對(duì)比較矩陣
表2 中,Btt表示因素T 與T 的重要性比值,各因素與其自身的重要性是一樣的;Btk表示因素T與K 的重要性比值,Btk與Bkt互為倒數(shù),依次類推,可得到其他兩兩因素的重要性比值。W(T)、W(K)、W(A)分別表示論文標(biāo)題、關(guān)鍵詞、摘要在決定詞語位置重要性時(shí)所占的比例,如式(6)所示。
3) 改進(jìn)的詞語總權(quán)重計(jì)算
根據(jù)式(6)計(jì)算得到文本各結(jié)構(gòu)對(duì)詞語位置的重要性W(T)、W(K)、W(A),將其代入式(5)中可得到式(7),即得到詞語i的位置權(quán)重,計(jì)算式為
將Wloc2(i)代入原詞語總權(quán)重計(jì)算式(2)中的位置權(quán)重Wloc(i),得到改進(jìn)后的詞語總權(quán)重計(jì)算式為
W2(i)作為新的詞語總權(quán)重用于提取特征詞,以在文本相似度檢測框架的后續(xù)步驟中使用。
Pearson 相關(guān)系數(shù)用于衡量2 個(gè)變量之間的線性相關(guān)程度,對(duì)數(shù)據(jù)分布比較敏感,適用于正態(tài)分布的變量。文獻(xiàn)[36]表明語義相似的詞向量呈線性關(guān)系,且Word2vec 模型訓(xùn)練的向量更傾向于正態(tài)分布。文本相似度檢測框架的步驟④采用了Word2vec 來生成詞向量,因此,本文利用Pearson相關(guān)系數(shù)來度量詞語間的語義關(guān)系,并將其作為廣義Dice 系數(shù)的權(quán)重改進(jìn)相似度計(jì)算公式。該方法同時(shí)考慮了單文本內(nèi)部和跨文本間的語義關(guān)系,提高了文本相似度計(jì)算結(jié)果的準(zhǔn)確性,具體步驟如下。
1) 詞語間語義關(guān)系度量
特征詞提取之后,文本的內(nèi)容由其特征詞代替表示。將特征詞輸入Word2vec 模型,每個(gè)詞被轉(zhuǎn)化為固定維度的向量,每個(gè)維度都表示該詞語在不同方面的語義信息,例如(v1,v2,...,v400)。記ki和kj分別為文本di和dj的特征詞,使用Pearson 相關(guān)系數(shù)計(jì)算詞語間語義相似度,如式(9)所示。
其中,ρ(ki,kj)表示詞語ki和kj的相關(guān)系數(shù);cov(I,J)表示樣本協(xié)方差;σI和σJ表示樣本方差;ρ的取值范圍為[-1,1],若相關(guān)系數(shù)接近1,兩向量之間呈正相關(guān),意味著2個(gè)詞語在語義上越相似,反之,兩向量之間呈負(fù)相關(guān),意味著2 個(gè)詞語在語義上越不相似。
2) 改進(jìn)的文本相似度計(jì)算
該方法中沒有將特征詞轉(zhuǎn)化為文本向量,而是將式(9)計(jì)算的特征詞之間的Pearson 相關(guān)系數(shù)作為廣義Dice 系數(shù)的權(quán)重,利用單文本內(nèi)詞語間的不相關(guān)性和跨文本間詞語的語義相關(guān)性,通過兩者之間的相對(duì)關(guān)系得到文本的相似度。由此,改進(jìn)原始的廣義Dice 系數(shù)式(4),得到式(10)為新的相似度計(jì)算式。
其中,x和y分別表示文本di和dj的特征詞組,sim(di,dj)表示文本di和dj的相似度。具體的含義為:一組特征詞內(nèi)部兩兩詞語間的相似度越小,該特征詞組越能夠從多方面充分表達(dá)文本內(nèi)容;同時(shí),兩組特征詞之間兩兩詞語間的相似度越大,該兩組特征詞表達(dá)的兩篇文本內(nèi)容也越相似。因此,當(dāng)根據(jù)式(10)計(jì)算的相似度大于閾值t時(shí),表示該兩篇文本是相似的。
針對(duì)本文提出的特征詞提取方法和相似度計(jì)算方法,分別設(shè)計(jì)了2 個(gè)對(duì)應(yīng)的實(shí)驗(yàn),來驗(yàn)證本文提出的相似度檢測方案的有效性。
1) 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)1 是由復(fù)旦大學(xué)提供的包含20 個(gè)不同文本類別的中文分類語料。本文從中隨機(jī)選取已經(jīng)由人工標(biāo)注出關(guān)鍵詞的農(nóng)業(yè)(agriculture)、藝術(shù)(art)、計(jì)算機(jī)(computer)、經(jīng)濟(jì)(economy)、環(huán)境(environment)、歷史(history)、政治(politics)、航空(space)等8 類不相關(guān)文本各20 篇以及由這8 類中每類的兩篇文本組成混合文本(mix)16 篇,作為測試數(shù)據(jù)集。數(shù)據(jù)集中的每個(gè)數(shù)據(jù)項(xiàng)包括論文標(biāo)題、摘要、關(guān)鍵詞,實(shí)驗(yàn)中使用數(shù)據(jù)集中的關(guān)鍵詞字段作為對(duì)比項(xiàng),與實(shí)驗(yàn)所提取的特征詞相比較來評(píng)估各方法的性能。
2) 對(duì)比方法及評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)中選取了經(jīng)典的 TF-IDF 算法和基于TF-IDF 改進(jìn)的 TF-IWF[17]算法與本文方法(TF-IWF-Location)進(jìn)行對(duì)比。
本文將采用關(guān)鍵詞提取領(lǐng)域常用的精確率P(precision)、召回率R(recall)、綜合指標(biāo)F1 值(F1-score)來評(píng)測實(shí)驗(yàn)結(jié)果,其定義分別如式(11)、~式(13)所示。
其中,Cn表示正確提取到的特征詞個(gè)數(shù),Kn表示提取的所有特征詞個(gè)數(shù),Bn表示語料中標(biāo)注的特征詞個(gè)數(shù)。
3) 實(shí)驗(yàn)設(shè)置
首先提取論文標(biāo)題、摘要、關(guān)鍵詞的內(nèi)容,并將其合并為一段。然后使用jieba 分詞和哈工大停用詞表對(duì)合并后的內(nèi)容分詞、去停用詞,構(gòu)建特征詞候選詞集。
特征詞提取是將候選詞集中重要度靠前的K個(gè)詞語輸出為特征詞。由于數(shù)據(jù)集中各類文本的長度不一樣,且標(biāo)注的關(guān)鍵詞個(gè)數(shù)不同,為了使實(shí)驗(yàn)結(jié)果更加客觀準(zhǔn)確,實(shí)驗(yàn)中根據(jù)每類文本中標(biāo)注的關(guān)鍵詞個(gè)數(shù)來調(diào)整提取的特征詞個(gè)數(shù),保證兩者之間的差值在10 之內(nèi),通過實(shí)驗(yàn)調(diào)試,得出每類語料對(duì)應(yīng)所提取合適的特征詞個(gè)數(shù),如表3 所示。
表3 語料類別與特征詞提取個(gè)數(shù)
在本文所提方法TF-IWF-Location 中引入了層次分析法,將論文標(biāo)題表示為T、關(guān)鍵詞表示為K、摘要表示為A,根據(jù)4.3 節(jié)的分析以及表1 的比例標(biāo)度,T 比K 稍微重要,K 比A 稍微重要,T 比A較強(qiáng)重要,通過構(gòu)造T、K、A 間的成對(duì)比較矩陣得出論文各結(jié)構(gòu)的位置權(quán)重參數(shù),如表4 所示。
表4 T、K、A 間的成對(duì)比較矩陣
4) 實(shí)驗(yàn)結(jié)果分析
按照以上實(shí)驗(yàn)設(shè)置進(jìn)行特征詞提取,將不同算法的各項(xiàng)指標(biāo)以折線圖呈現(xiàn),圖2~圖4 分別是TF-IDF、TF-IWF、TFIWF-Location 算法的精確率、召回率、F1 值的比較結(jié)果。
圖2 TF-IDF、TF-IWF、TF-IWF-Location 算法之間的精確率比較
圖3 TF-IDF、TF-IWF、TF-IWF-Location 算法之間的召回率比較
通過圖2~圖4 可知,TF-IWF 算法在computer語料上的精確率、召回率和F1 值略低于TF-IDF 算法,在environment 和history 語料上與TF-IDF 算法的性能相等,總體上優(yōu)于TF-IDF 算法,表明TF-IWF 算法能夠有效地提高提取同類文本集中特征詞的準(zhǔn)確性。
圖4 TF-IDF、TF-IWF、TF-IWF-Location 算法之間的F1 值比較
本文所提方法TF-IWF-Location 與TF-IDF、TF-IWF 相比,在精確率、召回率、F1 值等各項(xiàng)指標(biāo)上均有所提高,特別是在computer、politics、space、mix 語料上的提高幅度較大,其中,精確率、召回率、F1 最高分別提高了7.9%、10.7%、7.8%。結(jié)果表明,詞語在文章中的結(jié)構(gòu)位置對(duì)詞語的重要性具有一定的影響,該方法能夠較好地提高對(duì)學(xué)術(shù)論文進(jìn)行特征詞提取的準(zhǔn)確率。
1) 實(shí)驗(yàn)數(shù)據(jù)
維基百科中文語料庫,由中文維基百科中的新聞文章組成,具有質(zhì)量高、領(lǐng)域廣泛且開放的特點(diǎn)。實(shí)驗(yàn)中使用的是截至2021 年5 月5 日的中文維基百科語料,大小約2 GB,包含392 515 篇文章,以xml格式存儲(chǔ)。本文以該語料庫來訓(xùn)練Word2vec 模型。
LCQMC 問題語義數(shù)據(jù)集包含238 766 對(duì)訓(xùn)練文本、8 802 對(duì)驗(yàn)證文本和12 500 對(duì)測試文本,這些文本來自百度問答中不同領(lǐng)域的高頻相關(guān)問題,由人工判定相似的句子對(duì)標(biāo)簽為1,不相似的標(biāo)簽為0。本文以測試集的12 500 對(duì)句子作為實(shí)驗(yàn)的測試數(shù)據(jù),通過設(shè)置相似度閾值來將計(jì)算結(jié)果分為相似(1)與不相似(0)兩類,與數(shù)據(jù)集中的標(biāo)簽對(duì)比得到實(shí)驗(yàn)方法的各項(xiàng)指標(biāo)對(duì)比結(jié)果。
2) 對(duì)比方法及評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)中選取了 2 種方法來與本文方法Pearson-Dice 做對(duì)比,一種是傳統(tǒng)的基于余弦相似度的方法Base-Cosine[37],以特征詞疊加后的平均向量表示文本,再計(jì)算文本向量之間的余弦相似度;另一種是本文改進(jìn)之前的方法Base-Dice,該方法在Base-Cosine 的基礎(chǔ)上,使用廣義的Dice 系數(shù)來替代余弦相似度計(jì)算文本相似度。
本文將文本相似度檢測抽象為相似或不相似的二分類問題。采用二分類領(lǐng)域中常用的準(zhǔn)確率(accuracy)和綜合指標(biāo)F1 值(F1-score)來評(píng)估各方法的性能,其定義分別如式(14)和式(15)所示。
其中,TP 表示被正確計(jì)算為相似句子對(duì)的數(shù)量,TN 表示被正確計(jì)算為不相似的句子對(duì)數(shù)量,F(xiàn)P 表示被錯(cuò)誤計(jì)算為相似句子對(duì)的數(shù)量,F(xiàn)N 表示被錯(cuò)誤計(jì)算為不相似的句子對(duì)數(shù)量,P和R分別表示二分類問題中的精確率和召回率,如式(16)和式(17)所示。
3) 實(shí)驗(yàn)設(shè)置
下載的維基百科語料為xml 壓縮格式且有較多的不可用數(shù)據(jù),不可直接用于訓(xùn)練Word2vec。先使用WikiCorpus 方法將文件格式轉(zhuǎn)換為txt,再通過Opencc 將文本中的繁體字轉(zhuǎn)為簡體字,然后基于正則表達(dá)式去除數(shù)據(jù)中的英文和空格,最后使用jieba將分詞后的文本輸入Word2vec 模型進(jìn)行訓(xùn)練。
訓(xùn)練Word2vec 模型時(shí),有多個(gè)參數(shù)需要設(shè)置。在模式選擇上,COWB 模式的速度更快,Skip-gram模式的效果更好,實(shí)驗(yàn)中使用Skip-gram 模式;滑動(dòng)窗口的大小為5,以此構(gòu)建訓(xùn)練集;最低詞頻為5,過濾數(shù)據(jù)中出現(xiàn)次數(shù)低于5 的詞語;詞向量維度為400,官方推薦值為300~500,此處取中間值;其余參數(shù)均為默認(rèn)。
文本之間的相似性由其相似分布值與閾值的相對(duì)大小決定。如果一對(duì)不相似文本和一對(duì)相似文本的相似值分別為0.7 和0.8,那么將相似度閾值設(shè)置為0.75,就能夠正確地區(qū)分相似和不相似文本。由于數(shù)據(jù)集和各相似度計(jì)算方法會(huì)使輸出的相似值的分布情況有所差異,因此,實(shí)驗(yàn)中分別將相似度閾值設(shè)置為0.50、0.55、0.60、0.65、0.70、0.75、0.80、0.85、0.90 來比較結(jié)果。
4) 實(shí)驗(yàn)結(jié)果分析
按照以上的實(shí)驗(yàn)設(shè)置進(jìn)行文本相似度檢測,將不同方法的各項(xiàng)指標(biāo)以折線圖展示,圖5 和圖6 分別為Base-Cosine、Base-Dice、Pearson-Dice 的準(zhǔn)確率和F1 值的比較結(jié)果。
由圖5 可知,當(dāng)相似閾值設(shè)置為0.50、0.55、0.60、0.65、0.70 時(shí),Base-Dice 方法的準(zhǔn)確率高于其他2 種方法;當(dāng)相似度閾值為0.75、0.80、0.85、0.90 時(shí),本文方法的準(zhǔn)確率高于其他方法,閾值設(shè)置為0.85時(shí)準(zhǔn)確率最高為75.9%,與Base-Dice、Base-Cosine方法相比分別提高了2.08%和11.4%。由圖6 可知,僅在相似閾值為0.9 時(shí),Base-Cosine 方法的F1 值略高于本文方法的F1 值,在其余相似度閾值的情況下,均為本文方法F1 值最高。本文方法在閾值為0.80 和0.85 時(shí)達(dá)到75.7%和75.6%,最高值與Base-Dice、Base-Cosine 方法相比分別提高了2.8%和7.1%。
圖5 Base-Cosine、Base-Dice、Pearson-Dice 的準(zhǔn)確率比較
圖6 Base-Cosine、Base-Dice、Pearson-Dice 的F1 值比較
結(jié)果顯示,無論是在準(zhǔn)確率還是在F1 值方面,各方法的變化趨勢總體上一致,各方法在閾值為0.80 和0.85 時(shí)對(duì)應(yīng)的準(zhǔn)確率、F1 值均達(dá)到最高。這表明,該數(shù)據(jù)集的相似值分布在0.80~0.85,當(dāng)閾值設(shè)置在這個(gè)范圍里,能夠最好地區(qū)分相似或不相似文本,并且均為本文方法性能最優(yōu)。綜上所述,詞語間的語義關(guān)系在文本相似度計(jì)算中發(fā)揮了一定的作用,本文所提出的方法是有效可行的。
本文基于向量空間模型的相似度檢測算法,在特征詞提取階段提出了基于層次分析法的詞語位置加權(quán)方法,利用層次分析法確定文本位置對(duì)詞語的重要性,使提取的特征詞更能代表文本;在相似度計(jì)算階段提出了基于Pearson 和廣義Dice 系數(shù)的相似度計(jì)算方法,引入了詞語語義相似度作為廣義Dice 系數(shù)的權(quán)重,從而解決了傳統(tǒng)方法忽略詞語間語義關(guān)系的問題。并針對(duì)這兩點(diǎn)進(jìn)行改進(jìn),分別設(shè)計(jì)了2 個(gè)對(duì)應(yīng)的實(shí)驗(yàn),與傳統(tǒng)方法以及改進(jìn)前的方法相比,本文提出的方法能夠有效地提高計(jì)算結(jié)果的準(zhǔn)確率。下一步將以提高分詞準(zhǔn)確性繼續(xù)改進(jìn),并進(jìn)一步探索跨語言的相似度檢測,繼續(xù)提升相似度計(jì)算的準(zhǔn)確率。