張銀冰
湖北大學(xué)化學(xué)工程與工藝 湖北 武漢 430062
當(dāng)前,在文本分類模型中最被廣泛認(rèn)可的,也是最有效率的模型是由索爾頓及相關(guān)人員提出的向量空間模型VSM。而本文提出的FEDCSD算法,英文全稱為FeatureExtractionbasedontheDetectionoftheChineseSimilar Documents,是一種在中文相似程度檢測(cè)的基礎(chǔ)上的提取特征的算法。[1]FEDCSD算法運(yùn)算原理是將關(guān)鍵詞進(jìn)行分類形成聚類后,以關(guān)鍵詞為標(biāo)志,將語(yǔ)義特征進(jìn)行數(shù)字語(yǔ)言化,以權(quán)重確定貢獻(xiàn)因子。備選庫(kù)中的詞語(yǔ)以權(quán)重分類,將語(yǔ)義和數(shù)據(jù)特征與詞匯關(guān)聯(lián)起來(lái)。但是FEDCSD算法只能在有限的時(shí)間和空間內(nèi)通過(guò)提取每篇文獻(xiàn)中權(quán)重較重的詞匯構(gòu)建算法向量來(lái)利用向量間距判斷文獻(xiàn)的重復(fù)率。
使用將SCAM等待檢驗(yàn)的中文文獻(xiàn)數(shù)量設(shè)為k,從中提取的高權(quán)重詞匯按1、2、3….m的方式從大到小編號(hào)排列。文獻(xiàn)就被分類互相不影響的詞匯分組。
(FW1,F(xiàn)W2,…FWj…,F(xiàn)Wm)(i=1……k,j=1……m).若對(duì)每個(gè)FWj(j=1…m)
把第k篇文章按照詞組關(guān)鍵程度基于權(quán)重WEkm,等待檢驗(yàn)的中文文獻(xiàn)就成為了向量抽象空間。每篇文獻(xiàn)可用點(diǎn)面積和角度來(lái)對(duì)文章重復(fù)率進(jìn)行計(jì)算,且每篇文章為向量空間中的一部分。TDF-IDF是詞匯權(quán)重?cái)?shù)據(jù)處理方法最傳統(tǒng)的,計(jì)算過(guò)程如下:
WEij=FWFij×LOG(k/nj+0.
將特征詞按1、2、3…..j的次序編號(hào),將i設(shè)為詞匯出現(xiàn)的次數(shù)。將相同次數(shù)的文章進(jìn)行數(shù)據(jù)處理,設(shè)為nj,表示出現(xiàn)j個(gè)特征詞的文獻(xiàn)有n篇。
將SCAM用于提取詞匯,TDF-IDF用于計(jì)算權(quán)重,是文獻(xiàn)內(nèi)部詞匯分布狀況與文獻(xiàn)分組中的集中情況相結(jié)合的方法。不僅將高低頻詞匯區(qū)分了重要程度,還能對(duì)普通英文文獻(xiàn)進(jìn)行初步檢測(cè)。但是只是將相同詞匯分組,對(duì)近義詞,相近語(yǔ)義等情況卻無(wú)計(jì)可施,有時(shí)候特征詞匯并不是一篇文獻(xiàn)的中心主題。并且詞匯出現(xiàn)的次數(shù)的多少并不能簡(jiǎn)單地用來(lái)確定其重要性,這是將SCAM用于提取詞匯,TDF-IDF用于計(jì)算權(quán)重方法的缺點(diǎn)。
2.1 語(yǔ)義特征
2.1.1 對(duì)結(jié)構(gòu)層次的分析 文章的題目名稱、摘要、關(guān)鍵詞和正文,透露著文章的層次結(jié)構(gòu)和邏輯關(guān)系。標(biāo)題是包含著文章中心思想的短語(yǔ)或詞組的組合,是對(duì)文獻(xiàn)內(nèi)容最精確簡(jiǎn)練的概括。摘要是對(duì)文獻(xiàn)內(nèi)容的簡(jiǎn)單描述和評(píng)價(jià),比標(biāo)題更具有描述性,比正文更加有概括性,是與正文一樣包含了同樣的信息量的文字段落。關(guān)鍵詞是對(duì)論文主要思想的提煉,通常是來(lái)自文獻(xiàn)本身的術(shù)語(yǔ)或詞匯,能夠直觀地表達(dá)出文章的學(xué)術(shù)類別。最后是正文,正文是文章的主要部分,根據(jù)文章的邏輯關(guān)系,每段的中心思想通常為最首或最末一句。[2]
2.1.2 對(duì)詞匯搭配的分析 詞匯搭配是詞匯與詞匯形成的有意義的組合,詞匯搭配的的分布是TDF-IDF難以把握的因素。因?yàn)樵~匯搭配在文中分布較少,且不同的數(shù)量分布和全文占比的差異使文章內(nèi)容各有差異,而TDF-IDF往往抽取權(quán)重比重大的詞匯,常常忽略詞匯搭配。一句話中的詞匯之間的距離又使得信息包含量有所差異,關(guān)鍵詞距離進(jìn),包含的信息量越多。根據(jù)統(tǒng)計(jì)數(shù)據(jù),名詞,形容詞,動(dòng)詞的最優(yōu)觀測(cè)度為[-2,+1],[-1,+2],[-3,+4]。
2.1.3 對(duì)指示語(yǔ)言的分析 一個(gè)句子是在交流中包含完整語(yǔ)言信息的最小單位。計(jì)算機(jī)想要完全理解句子的含義,需要了解語(yǔ)法結(jié)構(gòu)、用語(yǔ)習(xí)慣、語(yǔ)言含義等。而漢語(yǔ)體系中總有一些提示性詞匯表示接下來(lái)將是重要的總結(jié)性語(yǔ)句。比如:“綜上所述”、“根據(jù)統(tǒng)計(jì)”、“總的來(lái)說(shuō)”之類的詞匯。這類詞匯叫做指示詞,其后的語(yǔ)句一般表示了論述過(guò)程的高度總結(jié),或是文章的中心思想。[3]
2.1.4 對(duì)研究領(lǐng)域的分析 在一個(gè)學(xué)術(shù)研究領(lǐng)域中都有一些公認(rèn)的理論,或是通用的方法。因此,一篇學(xué)術(shù)論文難免會(huì)出現(xiàn)該研究領(lǐng)域內(nèi)的術(shù)語(yǔ),這種語(yǔ)言的重復(fù)在文章中又是合理的,所以這類詞匯的重復(fù)率在文章中又是必要的。
2.1.5 對(duì)詞語(yǔ)含義的分析 在中文系統(tǒng)中,相同含義但形式不同語(yǔ)言比比皆是。一般來(lái)說(shuō),兩篇同義詞或者近義詞分布相似的文章,其內(nèi)容也是高度相似的。所以同義詞和近義詞也的辨析也是非常重要的,對(duì)文章的重復(fù)率檢查具有重要的意義。
2.1.6 對(duì)詞語(yǔ)性質(zhì)的分析 漢語(yǔ)詞匯中除了語(yǔ)法結(jié)構(gòu),詞匯性質(zhì)還有虛實(shí)之分。實(shí)詞具有含義,虛詞無(wú)實(shí)際含義。虛詞通常不能作為句子成分運(yùn)用在句子中。在漢語(yǔ)從古至今的演變體系中,實(shí)詞是具有重要作用的,而虛詞對(duì)語(yǔ)義無(wú)太大的幫助。所以在文章重復(fù)率檢驗(yàn)中虛詞并不是很重要。[4]
2.2 詞語(yǔ)統(tǒng)計(jì)的特點(diǎn) 詞匯出現(xiàn)的頻率是文本特征的一個(gè)重點(diǎn),因?yàn)橹匾脑~匯在文中總是頻繁出現(xiàn)。所以權(quán)重計(jì)算法也是具有其優(yōu)勢(shì)的。因?yàn)橐黄恼轮性跇?biāo)題或者摘要中出現(xiàn)的詞匯,大多會(huì)在文本中被大量運(yùn)用。出現(xiàn)頻率較高的詞匯是對(duì)文章主要思想的概括和提示,高頻詞匯的分布是文章檢測(cè)的一個(gè)重要方面。[5]
3.1 分解與消除歧義
3.1.1 關(guān)鍵詞分組 詞匯分組在相似度高的文章中較為重要。因?yàn)殛P(guān)鍵詞可以對(duì)其含義進(jìn)行引申和外延,以近義或者同義詞匯代替。本文采用[6]的方法完成關(guān)鍵詞分組。計(jì)算中應(yīng)當(dāng)對(duì)近義和同義詞進(jìn)行分組,作好標(biāo)記,用含義相似的詞匯進(jìn)行相互替代來(lái)解決語(yǔ)句產(chǎn)生歧義的問(wèn)題,使文章檢驗(yàn)較為容易一些。
3.1.2 詞匯備選 本文運(yùn)用文獻(xiàn)[6]中提出的詞匯分類與消歧算法,將文章用1、2、3….、i按順序編號(hào),而用CFWi代表第i篇文獻(xiàn)的備選詞匯組。將文章中的關(guān)鍵詞相分隔和排序,將虛詞從詞匯序列中刪除。將極低頻率的詞匯與極高頻率的詞匯按照文獻(xiàn)庫(kù)詞匯進(jìn)行刪除,最后得到k個(gè)包含了已處理過(guò)的詞匯分組序列。
3.2 語(yǔ)言含義屬性 在2.1中我們知道了語(yǔ)言含義分為六個(gè)方面的特征。詞意和詞性是關(guān)鍵詞集中分組和特征詞匯組的建立的關(guān)鍵方面。剩下的四個(gè)方面可以進(jìn)行數(shù)據(jù)量化處理,如下:
(1)層次結(jié)構(gòu)的屬性
將TOPWi、ABSWi、KWi、FTEWi、MTEWi、LTEWi分別代表第i篇漢語(yǔ)文獻(xiàn)的標(biāo)題詞匯組、摘要詞匯組、關(guān)鍵詞組、正文中心詞匯組、正文高頻詞匯組和末段詞匯組。不同分組的詞匯對(duì)文章含義及其中心論點(diǎn)的貢獻(xiàn)比重不同。
則我們有
CFWi=TOPW1∪ABSWi∪KWi∪FTEWi∪MTEWi∪LTEWi
從語(yǔ)義分析的角度,本文方法作如下假設(shè):當(dāng)?shù)趇篇漢語(yǔ)文獻(xiàn)的第j個(gè)詞∈TOPWi時(shí),則該詞的層次屬性LCFWij=5;當(dāng)?shù)趇篇漢語(yǔ)文獻(xiàn)的第j個(gè)詞∈KW1時(shí),LCFWij=4;當(dāng)?shù)趇篇漢語(yǔ)文獻(xiàn)的第j個(gè)詞∈ABSWi時(shí),LCFWij=3;當(dāng)?shù)趇篇語(yǔ)文獻(xiàn)的第j個(gè)詞∈FTEWi∪LTEWi,LCFWij=2;當(dāng)?shù)趇篇語(yǔ)文獻(xiàn)的第j個(gè)詞
∈MTEWi時(shí),LCFWij=1.
(2)詞匯搭配的屬性
被標(biāo)記詞匯與詞匯之間的距離也是一個(gè)重要方面,詞匯之間距離越近,則對(duì)語(yǔ)義的貢獻(xiàn)越大。所以需要將被標(biāo)記詞匯的觀察范圍定為[-2,+1]。將第i篇文章的第j個(gè)詞匯在觀察范圍的設(shè)定內(nèi),那么它的詞匯搭配權(quán)重為WCFWij=1。
(3)含義指示的屬性
前面說(shuō)過(guò),指示語(yǔ)言也對(duì)文章中心思想的尋找提供了便利。因?yàn)樘崾驹~匯后面跟的很有可能就是文章中心含義。所以當(dāng)?shù)趈個(gè)詞處于第i篇的文章中,應(yīng)該表示指示屬性INDCFWij=1。
(4)學(xué)術(shù)領(lǐng)域的屬性
將學(xué)術(shù)詞匯與文章相關(guān)領(lǐng)域結(jié)合,第i篇文章的第j個(gè)詞是第k篇文章中出現(xiàn)頻率最高的1/3k個(gè)詞匯,那么詞匯學(xué)術(shù)領(lǐng)域?qū)傩訧MPCFWij=1。
3.3 權(quán)重計(jì)算及特征詞抽取 被抽取詞匯對(duì)語(yǔ)言含義的貢獻(xiàn)程度就是貢獻(xiàn)因子,表示為CONij,代表第i篇第j個(gè)詞的貢獻(xiàn)程度。
令CONij=LCFWij+WCFWij+INDCFWij+IMPCFWij
第i篇文章中的第j個(gè)詞在中出現(xiàn)的頻率表示為FWPij,權(quán)重WEij的計(jì)算表達(dá)式為:
在第i篇文章中提取權(quán)重最高的詞匯作為特征詞,等待被檢測(cè)的文獻(xiàn)的特征詞組
第i篇文章中提取的特征詞表示為Wi,i表示按1、2、3…..、k排列的順序。
3.4 漢語(yǔ)文獻(xiàn)的向量表示
令FW=∪ki=1Wi={FWil,F(xiàn)Wi2,……FWij……FWim},待檢漢語(yǔ)文獻(xiàn)集中文獻(xiàn)Di將被抽象成為一個(gè)m維的特征向量,如下所示:
{(FWi1,WEi1),(FWi2,WEi2),…(FWij,WEij),(FWim,WEim)}(1≤j≤m).
(1)計(jì)算前的準(zhǔn)備:將文章中的關(guān)鍵詞出現(xiàn)頻率及其相似程度進(jìn)行計(jì)算,構(gòu)建詞組并將同義詞和近義詞進(jìn)行替換。
(2)分解詞匯和消除歧義:將全部的被標(biāo)記詞匯看作象征性標(biāo)識(shí),依據(jù)詞匯組和排序,將預(yù)先準(zhǔn)備好的替換過(guò)的文章進(jìn)行語(yǔ)法分解,對(duì)不同性質(zhì)的詞匯進(jìn)行數(shù)據(jù)化處理。已經(jīng)經(jīng)過(guò)處理后,對(duì)所有詞匯進(jìn)行消除歧義的處理,計(jì)算出詞匯出現(xiàn)頻率。
(3)對(duì)于詞匯權(quán)重的計(jì)算:按照3.3的計(jì)算方法,對(duì)每篇文章的特征詞匯進(jìn)行貢獻(xiàn)因子和權(quán)重的計(jì)算。
(5)提取特征詞匯:按權(quán)重將詞匯進(jìn)行按1、2、3….i排列,選出權(quán)重較高的特征詞組。
Wi(i=1……k),F(xiàn)W=
為等待檢驗(yàn)的中文文獻(xiàn)的特征詞匯組。
(6)計(jì)算相似程度:將等待檢驗(yàn)的文章Di抽象成一個(gè)維度為m維的空間向量。則兩篇待檢中文文獻(xiàn)的相似度為:
(7)相似程度的劃分:相似程度等級(jí)參數(shù)可以劃分為λ1,λ2,λ3。當(dāng)SIM(Dx,Dy)≥λ1時(shí),第x與y兩篇文章相似程度極高;λ2≤SIM(Dx,Dy)≤λ1時(shí)兩篇文章相似程度一般,λ3≤SIM(Dx,Dy)≤λ2時(shí)兩篇文章相似程度較低;SIM(Dx,Dy)≤λ3時(shí)兩篇文章不相似。
使用我們?cè)赱7]中方法進(jìn)行實(shí)驗(yàn),下面表1、表2、表3是實(shí)驗(yàn)結(jié)果:
表1 完全吻合度與基本吻合度(k=10,m≤300)
表2 完全吻合度與基本吻合度(k=10,m≤400)
表3 完全吻合度與基本吻合度(k=10,m≤500)
從實(shí)驗(yàn)中我們可以看出當(dāng)樣本數(shù)量也就是特征詞的數(shù)量大于300時(shí),基本吻合度達(dá)到70%,完全吻合度可以達(dá)到60%??倢?shí)驗(yàn)結(jié)果看,這個(gè)方法既可以降低算法空間復(fù)雜度又可以提高運(yùn)行效率和結(jié)果的準(zhǔn)確度。
語(yǔ)言分解并抽取特征詞來(lái)構(gòu)建詞匯檢驗(yàn)體系和計(jì)算公式的方法能夠有效地減少文章重復(fù)率檢查算法的空間復(fù)雜度,提高運(yùn)算效率和結(jié)果準(zhǔn)確度,理想地達(dá)到了我們的目標(biāo)。從實(shí)驗(yàn)過(guò)程中我們還可以看到,該方法的精確程度不會(huì)隨著詞匯數(shù)量的增大而提高,所以該方法對(duì)于精度的目標(biāo)的要求不能很好地滿足,還需更好的改善。在實(shí)驗(yàn)過(guò)程中,我們了解到了檢驗(yàn)參數(shù)和消除歧義問(wèn)題上的研究還能又更大的擴(kuò)展,我們將對(duì)其進(jìn)行更深入的研究,以提高算法的效率。