郜炎峰 王碩寧
?
基于二元文法模型的漢語句子相似度計(jì)算
郜炎峰1王碩寧2
1.哈爾濱商業(yè)大學(xué)計(jì)算機(jī)與信息工程學(xué)院;2.黑龍江旅游職業(yè)技術(shù)學(xué)院郜炎峰(1990-)男,碩士研究生,研究方向:自然語言處理。
行業(yè)曲線
本文針對漢語句子相似度計(jì)算準(zhǔn)確率低的問題,提出解決方案。在自然語言處理領(lǐng)域起到至關(guān)重要的作用。
如付諸現(xiàn)實(shí)將產(chǎn)生可觀的經(jīng)濟(jì)效益。
創(chuàng)新點(diǎn):1.在關(guān)系向量模型的基礎(chǔ)上,加入了長句子的影響因素,使關(guān)鍵詞的相似度計(jì)算更加準(zhǔn)確;2.采用更加合理的句長相似度計(jì)算公式,使句長對句子相似度的影響更加合理。
隨著信息技術(shù)的飛速發(fā)展,自然語言處理越來越受到人們的重視,句子相似度計(jì)算在自然語言處理領(lǐng)域具有非常重要的地位?;诙姆P偷臐h語句子相似度計(jì)算方法以相鄰關(guān)鍵詞共同出現(xiàn)進(jìn)行加權(quán)的方式計(jì)算句子相似度。方法重點(diǎn)考慮關(guān)鍵詞詞形和句長相似度,還適當(dāng)考慮了近義詞的情況。實(shí)驗(yàn)結(jié)果表明,該方法可以更好的處理句子長度差較大的句子相似度,在計(jì)算漢語句子相似度時(shí)準(zhǔn)確率高于關(guān)系向量模型的方法。
在信息技術(shù)迅速發(fā)展的今天,信息科技迅速融入各個(gè)行業(yè),中國網(wǎng)民數(shù)量和網(wǎng)絡(luò)規(guī)模也出現(xiàn)了爆炸性的增長,互聯(lián)網(wǎng)每天都會(huì)有海量的信息產(chǎn)生,這些信息以文本、語音、圖片等形式被保存下來,其中文本數(shù)據(jù)信息占據(jù)了三分之二。面對海量的數(shù)據(jù),如何從中獲取有效信息是自然語言處理的重要使命,漢語句子相似度計(jì)算作為自然語言處理的一個(gè)熱點(diǎn)和難點(diǎn),在自然語言處理中扮演重要的角色。
研究概況
句子相似度計(jì)算廣泛應(yīng)用于信息過濾、機(jī)器翻譯、自動(dòng)文摘、信息抽取等領(lǐng)域,它的研究現(xiàn)狀與其相關(guān)的領(lǐng)域息息相關(guān)。
國外對英語和日語的句子相似度計(jì)算的研究相對比較成熟,但是缺少對漢語句子相似度計(jì)算的研究。
國內(nèi)的漢語句子的相似度研究近些年才逐漸受到重視,并取得了一定的成果,例如:張培穎綜合考慮了語句的六個(gè)方面特征,并賦予不同特征不同的權(quán)重,提出了多特征融合的句子相似度計(jì)算方法。吳全娥,熊海靈綜合考慮關(guān)鍵詞詞形、語義和句法結(jié)構(gòu)三個(gè)方面計(jì)算句子的相似度。文獻(xiàn)[5-7]都是從語義的角度計(jì)算句子相似度的方法。
本文著重考慮了關(guān)鍵詞詞形的相似度,對漢語句子的影響因素做了深入研究,提出了基于二元文法模型的漢語句子相似度計(jì)算方法。
關(guān)鍵詞劃分
在漢語言文學(xué)中,漢語句子都是由起重要作用的主謂賓成分和次要作用的修飾成分組成。一般主語和賓語是代詞、名詞,謂語是動(dòng)詞、形容詞。因此,本文將名詞、動(dòng)詞、代詞、形容詞作為關(guān)鍵詞。
特征分析
在句子相似度計(jì)算方法中,關(guān)鍵詞一直作為唯一的主角,具有無可替代的作用,語句特征雖然很多,但是大多特征都是無足輕重,甚至部分特征之間存有一定的牽制作用,全部考慮所有的特征可能適得其反,本文除關(guān)鍵詞外,僅重點(diǎn)考慮句長的影響。
文中的句長表示一個(gè)句子包含的詞語個(gè)數(shù),在句子中詞語的多少與信息量的大小有著直接的關(guān)系,一般句長較大的句子含有信息量較多。
概念與公式
基礎(chǔ)概念
設(shè)定一個(gè)句子Ti,經(jīng)過分詞處理,并提取關(guān)鍵詞,得到的詞語按順序構(gòu)成一個(gè)關(guān)鍵詞向量,表示形式Ti={g1,g2,g3,…,gn},其中g(shù)i表示一個(gè)關(guān)鍵詞,Ti的句長表示為Len(Ti)。Ti中每一個(gè)詞語都有一個(gè)初始權(quán)重值1/n,這些權(quán)重值構(gòu)成的向量稱為權(quán)重值向量,表示為Tci={1/n,1/n,…,1/n}。
設(shè)定兩個(gè)句子Ti和Tj,Tj的句長較大,針對Ti={g1,g2,g3,…,gn}中的每一個(gè)詞gi,如果gi或其近義詞在向量Tj={g1,g2,g3,…,gn}中也存在,則Ti和Tj共同存在的詞構(gòu)成的向量,稱為存在向量,表示為Ei,j={e1,e2,…,ep},其中1≤p≤n。存在向量中的每一個(gè)詞對應(yīng)的權(quán)重值向量中的權(quán)重值構(gòu)成的向量,稱為存在值向量,句子Ti的存在值向量表示為Eci={c1,c2,…,cp},句子Tj的存在值向量表示為Ecj={c1,c2, …,cp}。
假如現(xiàn)對Ti和Tj兩個(gè)句子進(jìn)行相似度計(jì)算,Tj的句長較大,對存在向量中每一個(gè)詞ei,讓ei在Ti和Tj中的前一個(gè)相鄰詞作比較,如果這兩個(gè)相鄰詞是相同的詞或近義詞,就把該詞在權(quán)重值向量Tci和Tcj中相應(yīng)的權(quán)重值增加β倍,同時(shí)將存在值向量Eci和Ecj中相應(yīng)的權(quán)重值也增加β倍,如果它們不是相同的詞或近義詞,則權(quán)重值不作任何改變。對于ei在Ti和Tj中的后一個(gè)相鄰詞做相同處理,β的取值由實(shí)驗(yàn)反復(fù)驗(yàn)證獲得。
計(jì)算公式
設(shè)定句子Tj的句長較大,本文提出句長的相似度計(jì)算公式如公式(1):
另外,本文根據(jù)詞語的前后相鄰關(guān)系提出關(guān)鍵詞相似度計(jì)算公式,如公式(2):
式中,存在向量Ei,j的長度為p1,句子Ti的句長Len(Ti)為n1,句子Tj的句長Len(Tj)為n2;ck代表存在值向量Eci中第k項(xiàng)的值,0<k≤p1,cl代表存在值向量Ecj中第l項(xiàng)的值,1≤l≤p1;ci代表句子Ti的權(quán)重值向量Tci第i項(xiàng)的值,1≤i≤n1,cj代表句子Tj的權(quán)重值向量Tcj第j項(xiàng)的值,1≤j≤n2。
句子相似度計(jì)算具體實(shí)現(xiàn)
方法介紹
輸入:兩個(gè)漢語句子Ti、Tj
輸出:句子相似度S(Ti,Tj)
方法:
1)假如Tj的句長較大,利用NLPIR分詞軟件做分詞處理。
2)對分詞處理后的句子Ti、Tj抽取關(guān)鍵詞,并構(gòu)造兩個(gè)句子的關(guān)鍵詞向量,計(jì)算兩個(gè)句子的存在向量Ei,j。
1.2.3 RTCA增殖實(shí)驗(yàn) RTCA(Real Time Cellular Analysis)中文名為實(shí)時(shí)細(xì)胞分析技術(shù)??蓪?shí)現(xiàn)實(shí)時(shí)、動(dòng)態(tài)的對細(xì)胞進(jìn)行定量分析,可用于追蹤細(xì)胞增殖、遷移和浸潤。本實(shí)驗(yàn)采用xCELLigence RTCA DP(model:3×16)儀器,實(shí)驗(yàn)開始前RTCA機(jī)器整體置于5%CO2 37℃細(xì)胞培養(yǎng)箱內(nèi),待RTCA機(jī)器溫度與培養(yǎng)箱內(nèi)一致方可開始實(shí)驗(yàn)。
3)根據(jù)存在向量,分別計(jì)算Ti和Tj的權(quán)重值向量Tci、Tcj以及Ti和Tj的存在值向量Eci、Ecj。
4)由公式(1)計(jì)算兩個(gè)句子的句長相似度。
5)由公式(2)計(jì)算關(guān)鍵詞的相似度。
6)采用以下方法計(jì)算兩個(gè)句子相似度。
計(jì)算方法
該方法是以基于關(guān)鍵詞詞形的相似度計(jì)算方法為基礎(chǔ),公式表示如式(3):
該方法加入了長句子的影響因素,同時(shí)也在一定程度上縮小了兩個(gè)句子長度差對句子相似度的影響。
本實(shí)驗(yàn)采集了150個(gè)漢語句子作為一個(gè)測試集,實(shí)驗(yàn)分別采用殷耀明等提出的基于關(guān)系向量模型的相似度計(jì)算方法和本文提出的相似度計(jì)算方法做相似度計(jì)算結(jié)果的比較實(shí)驗(yàn),從中計(jì)算出相似度最高的句子組數(shù),每組包含兩個(gè)句子。分別設(shè)定為50組和40組時(shí),實(shí)驗(yàn)結(jié)果如表1所示。
表1中結(jié)果表明本文的相似度計(jì)算方法明顯優(yōu)于關(guān)系向量模型的相似度計(jì)算方法。分析錯(cuò)誤數(shù)據(jù),發(fā)現(xiàn)參考文獻(xiàn)中的方法在計(jì)算兩個(gè)句子相似度時(shí),過分夸大了句長的影響。本文方法能更加準(zhǔn)確的衡量兩個(gè)句子的影響因素,因此正確率也較高。
另外,本實(shí)驗(yàn)采用的測試集中含有的非關(guān)鍵詞較少,對非關(guān)鍵詞較多的句子的相似度進(jìn)行計(jì)算時(shí),其正確率可能會(huì)受到影響。例如:“不管怎樣,你都要我去?!迸c“你要我去?”兩個(gè)句子具有相同的關(guān)鍵詞,意思卻有明顯差別。此外,不同的標(biāo)點(diǎn)符號可能導(dǎo)致兩個(gè)句子的意思有差異。
本文提出的基于二元文法模型的句子相似度計(jì)算方法適當(dāng)考慮了相鄰詞語之間的相互影響,準(zhǔn)確的衡量了句長對相似度的影響。該方法僅對非關(guān)鍵詞較少的句子相似度計(jì)算做了驗(yàn)證實(shí)驗(yàn),對非關(guān)鍵詞較多的句子相似度還需要做進(jìn)一步研究。
基金項(xiàng)目:黑龍江省自然科學(xué)基金,基于多策略的漢語語句改寫研究,F(xiàn)201243;黑龍江省教育廳科學(xué)研究項(xiàng)目,基于句子結(jié)構(gòu)特點(diǎn)的漢語語句改寫方法研究,12511127
DOI:10.3969/j.issn.1001- 8972.2016.13.025