廖志芳,周國恩,李俊鋒,劉 飛,蔡 飛
(1. 中南大學(xué) 軟件學(xué)院, 湖南 長沙 410075; 2. 中南大學(xué) 信息科學(xué)與工程學(xué)院, 湖南 長沙 410075)
?
中文短文本語法語義相似度算法*
廖志芳1?,周國恩1,李俊鋒2,劉飛1,蔡飛1
(1. 中南大學(xué) 軟件學(xué)院, 湖南 長沙410075; 2. 中南大學(xué) 信息科學(xué)與工程學(xué)院, 湖南 長沙410075)
摘要:通過分析中文短文本的特征,提出了一種基于語法語義的短文本相似度算法.該算法結(jié)合中文語句語義的相似性以及語句語法的相似性,即計(jì)算具有相同句法結(jié)構(gòu)的短文本的相似度以及考慮語句詞組順序?qū)ο嗨贫鹊呢暙I(xiàn),對中文短文本相似度進(jìn)行計(jì)算.實(shí)驗(yàn)表明,本文提出的算法在中文短文本相似度計(jì)算結(jié)果上更加接近人們的主觀判斷并且擁有比較好的精確率與召回率.
關(guān)鍵詞:語法語義相似度;語句相似性計(jì)算;HowNet;語料庫;語法分析;語義分析;相似度計(jì)算
短文本相似度計(jì)算在文章查重、信息檢索、圖像檢索、智能機(jī)器問答、詞義消歧和搜索引擎等多個(gè)領(lǐng)域有著非常廣泛的應(yīng)用[1],并在英文處理方面取得了許多實(shí)質(zhì)性的成果,如機(jī)器人語音對話系統(tǒng)等.但是在中文信息處理中存在一些困難,例如未登錄詞識別問題、語法結(jié)構(gòu)復(fù)雜和一詞多義等[2].為此本文主要研究中文短文本(語句)相似度計(jì)算方法,并提高計(jì)算結(jié)果的精確度.
短文本相似度表示的是多個(gè)短文本(語句)之間的相似程度,屬于一種度量參數(shù),相似度值越高,則表明文本間越相似,反之越不相似[3].文本相似度包括語義和語法等方面,但是在實(shí)際中主要考慮語義層次的相似性,往往忽略了文本的語法結(jié)構(gòu)對文本相似度的重要影響.大量的研究證明短文本的語法結(jié)構(gòu)對相似性的影響是非常重要的[4],但是當(dāng)前基于HowNet[5]的中文短文本相似度計(jì)算大都是分析文本的語義層次的相似性,這樣就會導(dǎo)致計(jì)算結(jié)果的精確度和召回率都不高,為了提高相似度計(jì)算的精確度和召回率,本文以HowNet為語料庫和Stanford[6]為語法解析工具,在中文短文本的語義信息基礎(chǔ)上加入了文本的語法結(jié)構(gòu)信息來研究短文本相似度計(jì)算.
1語句相似度計(jì)算
HowNet主要揭示了概念間關(guān)系及概念的屬性間的關(guān)系,有關(guān)HowNet詳細(xì)介紹可見參考文獻(xiàn)[2],在此不贅述.
義原距離定義為兩個(gè)義原間最短路徑上邊的數(shù)目[7].義原距離反映的是兩個(gè)義原的相對關(guān)系,距離越大,則表明兩者相似性越低,反之則越高.義原深度定義為兩個(gè)義原的最近公共父節(jié)點(diǎn)到根節(jié)點(diǎn)的層次數(shù).義原深度反映的是兩個(gè)義原在義原層次結(jié)構(gòu)中的絕對關(guān)系,深度越小,表明兩者越不相似,反之則越相似.
兩個(gè)義原間的相似度用s(p1,p2)如文獻(xiàn)[2]中的表示方法,即:
s(p1,p2)=f1(l)·f2(h).
(1)
通過義原間的相似度來計(jì)算得到概念間的相似度,概念的相似度實(shí)現(xiàn)過程及計(jì)算公式的分析如文獻(xiàn)[2]所述,在此僅列出其計(jì)算公式,用s(S1,S2)來表示,S1,S2代表兩個(gè)概念,則:
(2)
HowNet中的詞語一般由若干個(gè)概念來進(jìn)行描述,所以一般可以通過概念相似度來計(jì)算詞語的相似度[2].詞語相似度可以定義如下:
(3)
公式(3)的詳細(xì)分析過程見文獻(xiàn)[2],此處不再重復(fù)描述.
可根據(jù)詞語相似度計(jì)算來獲得語句間的相似度,其詳細(xì)分析過程詳見文獻(xiàn)[2],此處僅列出計(jì)算公式,如下所示:
(4)
2基于語法語義的相似度計(jì)算
目前基于中文短文本的相似度算法中,大多數(shù)研究者著眼于語句的語義層次,然而組成一個(gè)語句的不單單是詞語本身的語義含義,還包括語法結(jié)構(gòu),例如一個(gè)句子包含不同的句法和詞語順序[8]等.
最近大量實(shí)驗(yàn)證明語句的語法結(jié)構(gòu)對相似度有著重要的影響,不能忽視[4].例如,“今天我追趕了一只狗.”和“一只狗今天追趕了我.”這兩個(gè)語句根據(jù)人的主觀判斷,是兩種相反的意思,可是目前絕大多數(shù)相似度算法中這兩個(gè)語句的相似度值是極其高的,甚至是1,即完全一樣,這顯然不合適.忽視了語句的語法信息,其計(jì)算結(jié)果往往缺乏合理性.
本文對中文語句的相似度算法進(jìn)行改進(jìn),在計(jì)算相似度的時(shí)候,不但考慮語義信息,還將語句的語法結(jié)構(gòu)加進(jìn)來.本文涉及的語法結(jié)構(gòu)主要從3方面來進(jìn)行考慮:
1)具有相同語法結(jié)構(gòu)的詞語集合間的相似度;
2)兩個(gè)語句中所包含的語法結(jié)構(gòu)的相似性;
3)經(jīng)過分詞后的詞組在語句中出現(xiàn)的位置的相似性.
為了解決目前中文領(lǐng)域大多數(shù)短文本相似度計(jì)算僅僅涉及語句語義特性的缺陷,本文結(jié)合語句的語義特性和語法特性,進(jìn)行短文本的相似度計(jì)算.
2.1語法結(jié)構(gòu)的提取
要對語句的語法結(jié)構(gòu)進(jìn)行提取與分析,首先需要對語句進(jìn)行分詞.本文使用Ictclas4j分詞工具,該工具是Sinboy在中科院張華平和劉群研制的FreeICTCLAS的基礎(chǔ)上完成的一個(gè)開源中文分詞項(xiàng)目.同時(shí)使用Stanford[6]工具進(jìn)行語法解析,該工具是由Stanford NLP Group開發(fā)的開源工具.
對于某一中文語句,經(jīng)過語法工具分析后,能夠得到某個(gè)詞語的具體詞性,斜杠后面表示的就是該詞語的具體詞性,如圖1所示.
圖1Stanford分析結(jié)果
Fig.1Stanford analytical result
但是,僅僅知道詞語的具體詞性是不夠的,具體的詞性代表的是詞語的特性,并不表示一個(gè)語句的結(jié)構(gòu)組成,我們需要從中提取出語句的語法結(jié)構(gòu),例如簡單從句、名詞性從句和動詞短語等,然后把相應(yīng)的詞語或短語歸類到語法結(jié)構(gòu)集合中.
本文通過分析漢語語法結(jié)構(gòu)的多樣性及詞語的具體詞性,提出一種新的語句語法結(jié)構(gòu)的提取方法,提取過程如下:
1)使用Ictclas4j與Stanford對語句進(jìn)行分詞處理以及語法解析,得到最基本的詞語或短語的詞性標(biāo)注.
2)進(jìn)一步分析以上獲得的結(jié)果,通過逐層解析以及句法樹分析的方式把已經(jīng)標(biāo)注好語法詞性的詞語或短語進(jìn)行抽取與歸納,抽取出語句的組成結(jié)構(gòu)類型,例如簡單從句類型和動詞短語類型等.
3)最后把具有相同語法結(jié)構(gòu)類型的詞語或短句存放在相應(yīng)結(jié)構(gòu)類型的集合中,形成不同的語法結(jié)構(gòu)集合,例如簡單從句類型集合、名詞性從句類型集合和動詞短語類型集合等,實(shí)現(xiàn)對語句的語法組成結(jié)構(gòu)的分析.
通過使用上述語句語法結(jié)構(gòu)提取方法進(jìn)行語句語法處理,提取出語句的語法結(jié)構(gòu)以及相應(yīng)所包含的詞組,如圖2所示.
圖2本文提取出的語句語法結(jié)構(gòu)
Fig.2The grammatical structure of sentence
與圖1相比較,我們發(fā)現(xiàn)一個(gè)中文語句經(jīng)過語法結(jié)構(gòu)提取后,可以得到該語句的結(jié)構(gòu)組成,例如動詞性短語和介詞性短語等,相比于圖1中單個(gè)詞語的詞性標(biāo)注,能夠得到語句的語法結(jié)構(gòu)組成,更加有利于對中文語句語法語義相似度的研究.因?yàn)檠芯空Z句的語法結(jié)構(gòu)時(shí),我們更加傾向于研究其整體的結(jié)構(gòu)類型組成,而不是單單某個(gè)詞語.
中文語句句法結(jié)構(gòu)類型部分見表1.
表1 中文語句句法結(jié)構(gòu)類型分類(節(jié)選)
2.2語句句法結(jié)構(gòu)類型相似度計(jì)算
經(jīng)過語句語法結(jié)構(gòu)提取方法分析后,每個(gè)語句都被切分成若干個(gè)結(jié)構(gòu)類型,例如有的包含名詞性短語和動詞性短語等,有的卻包括簡單從句、名詞性短語和副詞短語等.
語句語法結(jié)構(gòu)類型相似度計(jì)算思想就是計(jì)算兩個(gè)語句中含有相同結(jié)構(gòu)類型的個(gè)數(shù)與所有結(jié)構(gòu)類型的個(gè)數(shù)的比值.該比值反映了兩個(gè)語句在句法結(jié)構(gòu)上的相似性.
定義1假設(shè)語句Sen1包含m個(gè)不同的句法結(jié)構(gòu)類型,分別為ST11,ST12,…,ST1m,Sen2包含n個(gè)不同的句法結(jié)構(gòu)類型,分別為ST21,ST22,…,ST2n,則句法結(jié)構(gòu)上的相似度sst計(jì)算公式如下:
(5)
其中sameCount表示兩個(gè)語句中含有相同句法架構(gòu)類型的個(gè)數(shù).
2.3語句詞組位置相似度計(jì)算
中文語句中詞組的位置對短文本間的相似性有著重要影響,所以需要計(jì)算詞組位置的相似度[8].
本文中采用的方法不是以單個(gè)漢字為基本單位,而是以經(jīng)過分詞后的詞組為單位,因?yàn)閱蝹€(gè)漢字包含的信息太少,詞組能夠反映更多的信息,所以以詞組為單位計(jì)算詞組位置的相似度更加合理.
本文計(jì)算語句詞組位置相似度的方法如下:
1)對語句Sen1和Sen2分別進(jìn)行分詞,分別得到若干個(gè)詞組或短語,記為向量T1和T2,分別含有s和t個(gè)詞組,每個(gè)位置上的詞組分別為T11,T12,…,T1s和T21,T22,…,T2t.
2)通過T1和T2,得到它們的并集T,且包含k個(gè)詞組.
3)對于T中的每個(gè)詞組Ti,查找在T1中與之相同或含義最相近的詞組,預(yù)先設(shè)定的相似度閾值為thresholdVale,記下該詞組在T1中的下標(biāo)j,然后構(gòu)建詞組位置向量R1,令R1i=j;同理構(gòu)建向量R2.
4)通過R1和R2計(jì)算語句詞組位置相似度sp.
定義2假設(shè)語句Sen1和Sen2經(jīng)過分詞后分別得到若干個(gè)詞組或短語向量,記為T1和T2,向量T為T1和T2的并集,T1和T2對應(yīng)于T的詞組位置向量分別為R1和R2.則語句詞組位置相似度計(jì)算見式(6).
(6)
2.4基于語法結(jié)構(gòu)的語句語義相似度計(jì)算
目前絕大多數(shù)的中文語句相似度計(jì)算方法都是根據(jù)第一個(gè)語句中的每個(gè)詞語分別和第二個(gè)語句中的每對詞語計(jì)算相似度,取最大值作為第一個(gè)語句中的那個(gè)詞語對第二個(gè)語句的相似度,然后第一個(gè)語句中每個(gè)詞語都這樣計(jì)算,最后取所有相似度值的均值作為第一個(gè)語句對第二個(gè)語句的相似度.
上述的方法完全依靠語義信息,而忽視了語法結(jié)構(gòu)信息,計(jì)算結(jié)果都不太理想,因此本文把語法結(jié)構(gòu)信息加入計(jì)算中,即計(jì)算具有相同語法結(jié)構(gòu)類型的詞組間的相似度,綜合了語法和語義兩大方面.
定義3假設(shè)兩個(gè)語句Sen1和Sen2,Sen1包含m個(gè)不同的語法結(jié)構(gòu)類型,分別為ST11,ST12,…,ST1m,Sen2包含n個(gè)不同的語法結(jié)構(gòu)類型,分別為ST21,ST22,…,ST2n,其中具有相同語法結(jié)構(gòu)類型的重新記為SST1,SST2,…,SSTp,共有p個(gè),且p≤min(m,n),則令第i(i≤p)個(gè)相同類型結(jié)構(gòu)在第一個(gè)語句Sen1中表示為SST1i,在第二個(gè)語句中Sen2表示為SST2i,則對應(yīng)結(jié)構(gòu)類型的詞組集合在兩個(gè)語句中分別為WL1i和WL2i.
令count(WL1i)表示Sen1中語法結(jié)構(gòu)類型為SSTi對應(yīng)的詞組集合WL1i中詞組的個(gè)數(shù);同理count(WL2i)表示Sen2中語法結(jié)構(gòu)類型為SSTi對應(yīng)的詞組集合WL2i中詞組的個(gè)數(shù);WL1iq和WL2iq分別表示詞組集合WL1i和WL2i中第q個(gè)詞組.則Sen1和Sen2的基于語法結(jié)構(gòu)的語義層次的相似度公式為:
pf×noSameCount.
(7)
其中
且ratioi表示的是結(jié)構(gòu)類型SSTi所對應(yīng)的權(quán)重值,不同的語法結(jié)構(gòu)對整個(gè)語句的含義的貢獻(xiàn)度不一樣,最終的ratioi權(quán)重值也就不一樣;noSameCount表示的是上述兩條語句都不具有的句法結(jié)構(gòu)類型的個(gè)數(shù),即noSameCount=m+n-p;pf表示的是句法結(jié)構(gòu)差異的調(diào)節(jié)因子.
2.5基于語法語義的語句相似度計(jì)算
基于語法語義的語句相似度計(jì)算方法綜合考慮了語法和語義兩方面特性,主要包括基于語法結(jié)構(gòu)的語句語義相似度計(jì)算、語句語法結(jié)構(gòu)類型相似度計(jì)算和語句詞組位置相似度計(jì)算.
通過公式(5),(6)和(7)可以得到語句間的最終計(jì)算公式,見式(8).
(8)
式中:a和b都是權(quán)重因子.
公式(8)表示,中文語句間的相似度最終由語句的語法和語義的相似性共同構(gòu)成.在計(jì)算短文本(語句)間的相似度時(shí),改變了以往僅僅考慮語句語義相似性的思路,本文不但考慮語義相似性,還考慮了語句語法結(jié)構(gòu)對相似性的影響.
本文在計(jì)算語義相似度時(shí),加入語法結(jié)構(gòu)信息,即計(jì)算具有相同語法結(jié)構(gòu)的詞組集合間的相似度,另外充分考慮了句法結(jié)構(gòu)類型和詞組位置相似性對整體語句相似度的貢獻(xiàn)與影響.最終短文本(語句)間相似度計(jì)算更加符合中文語句的特點(diǎn),計(jì)算結(jié)果更加合理,與人們的主觀判斷更為接近.
3實(shí)驗(yàn)及分析
當(dāng)前基于語法的相似度計(jì)算方法多用于英文短文本處理,為進(jìn)行中文短文本相似度計(jì)算,本文采用了以下3種方法來對相似度算法進(jìn)行分析.
方法一:劉群、李素建等[9]提出的一種相似度方法,在計(jì)算時(shí)僅僅考慮義原距離,未考慮深度.
方法二:一種既考慮義原距離和深度,又在計(jì)算過程中加入詞語詞頻作為權(quán)重的方法[2],具體參數(shù)設(shè)置詳見參考文獻(xiàn)[2].
方法三:本文中介紹的基于語法語義的短文本相似度計(jì)算方法.
利用上述3種方法分別測試50對中文語句,計(jì)算語句(短文本)間的相似度值,部分計(jì)算結(jié)果見表2.
3.1權(quán)重因子實(shí)驗(yàn)與分析
利用上述實(shí)驗(yàn)數(shù)據(jù),對方法三的短文本相似度計(jì)算公式中的權(quán)重因子a和b進(jìn)行實(shí)驗(yàn)分析,獲得能夠使得計(jì)算公式的效果最佳的權(quán)重因子組合.
采用控制變量法對 a=0.35,0.45,0.55,0.65,0.75,0.85,0.90,0.95和b=0.3,0.4,0.5,0.6,0.7,0.8進(jìn)行實(shí)驗(yàn)分析,且設(shè)置相似度閾值為0.6,根據(jù)獲得的結(jié)果進(jìn)而計(jì)算得到不同的精確度和召回率.不管權(quán)重因子a和b取上述的哪個(gè)值,本文提出的相似度計(jì)算方法的召回率基本上都是差不多的,穩(wěn)定在0.882上下,這說明了本文方法的穩(wěn)定性. 根據(jù)實(shí)驗(yàn)結(jié)果繪制本文方法在權(quán)重因子a和b不同取值時(shí)的精確度的折線圖,如圖3所示,其中橫坐標(biāo)表示a的取值,縱坐標(biāo)表示精確度,b的不同取值采用不同的線條表示.
a
根據(jù)圖3分析可知,當(dāng)權(quán)重因子a的值大于0.6,b的取值在[0.4,0.6]時(shí),本文方法的精確度基本上都在0.75以上,尤其當(dāng)a值在(0.85,0.95]區(qū)間時(shí),本方法的精確度可達(dá)到最大值0.833,且比較穩(wěn)定.
綜上所述,可以得到本文最終計(jì)算公式中的權(quán)重因子a和b的取值范圍.當(dāng)a值在(0.85,0.95]區(qū)間,且b的取值在[0.4,0.6]時(shí),本文方法的召回率以及精確度能夠同時(shí)達(dá)到比較高的水平,分別為0.882和0.833.
3.2短文本相似度實(shí)驗(yàn)與分析
方法三中的權(quán)重因子a和b分別取為0.88和0.5,然后對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,計(jì)算3種不同計(jì)算方法的計(jì)算結(jié)果的精確率和召回率,且設(shè)置相似度閾值為0.6,結(jié)果如圖4所示.
方法
根據(jù)圖4可知,在召回率基本上比較高的情況下,本文提出的方法的精確率為0.833,比方法一的0.577和方法二的0.619都要高,這說明本文方法非常明顯地提高了查準(zhǔn)率,有效地減少了噪音數(shù)據(jù),計(jì)算結(jié)果更加能夠被人們接受.
把實(shí)驗(yàn)數(shù)據(jù)分為近義的語句對集合和反義的語句對集合,分別進(jìn)一步分析.
對于近義的語句對集合,將相似度區(qū)間分為3個(gè),圖5描述了不同方法在每個(gè)區(qū)間內(nèi)近義語句對占所有近義語句對的比例.方法一中接近一半的語句對的相似度值在(0.8,1]間,其在(0.5,8]間的語句對還不到一半,因?yàn)檎Z句對沒有完全一樣的,所以計(jì)算結(jié)果偏高,且還有一些語句對的相似度低于0.5,顯然其計(jì)算結(jié)果不合理.方法二中大概82.00%的語句對的相似度值都在(0.5,8]之間,比較符合實(shí)際,但是其計(jì)算結(jié)果中仍然有低于0.5的,結(jié)果也不太理想.而方法三中在(0.8,1]之間的不到25.00%,絕大部分都是在(0.5,8]之間,沒有低于0.5的,這樣的計(jì)算結(jié)果顯然更加合理,更接近人們的主觀判斷.
相似度區(qū)間
對于反義語句對集合,把相似度區(qū)間分為4個(gè),圖6描述了不同方法分別在每個(gè)區(qū)間中的測試語句對所占的比例.由圖可知,方法一和方法二在相似度大于0.5時(shí)大概都有75.00%的反義語句對,而低于0.5的卻只有25.00%,顯然它們的計(jì)算結(jié)果都非常不理想,計(jì)算粗糙.而方法三在(0.5,1]區(qū)間中只有29.00%左右的反義語句對,且約71.00%的語句相似度都是低于0.5.顯然方法三計(jì)算結(jié)果更加合理和精確.另外由表2可知,有些語句意思明明是完全相反的,可方法一和方法二計(jì)算結(jié)果都非常高,甚至是1,而方法三卻能夠得到非常合理的結(jié)果.
相似度區(qū)間
由上述實(shí)驗(yàn)結(jié)果可知,本文提出的方法相比于方法一和方法二,具有比較好的查全率,并且其精確率更高,能夠非常有效地減少噪音數(shù)據(jù)的產(chǎn)生,更加接近人們的主觀判斷.
4結(jié)論
本文以HowNet為詞典庫,以Stanford為語法解析工具,并在此基礎(chǔ)上研究了本文提出的基于語法語義的中文短文本的相似度計(jì)算.
在本文描述的方法中,我們結(jié)合語句的語法結(jié)構(gòu)和語義信息計(jì)算整個(gè)語句的相似度,即計(jì)算具有相同語法結(jié)構(gòu)的詞組間的語義相似度以及考慮語法結(jié)構(gòu)類型間相似性和詞組位置相似性對整個(gè)語句相似度的影響.即使兩個(gè)語句完全一樣,但是語句結(jié)構(gòu)不同或詞組位置不同,也會導(dǎo)致意思完全不一樣,這樣的計(jì)算方式與人們的主觀判斷更加接近,也符合中文語句(短文本)的復(fù)雜性特點(diǎn).
本文研究的方法在一定程度上解決了目前中文領(lǐng)域基于HowNet進(jìn)行短文本相似度計(jì)算的方法中存在的結(jié)果不合理現(xiàn)象.通過實(shí)驗(yàn)對3種方法進(jìn)行對比分析,證明了本文描述的中文短文本相似度方法更合理,具有比較好的召回率和精確率.
參考文獻(xiàn)
[1]蔣溢,丁優(yōu),熊安萍,等.一種基于知網(wǎng)的詞匯語義相似度改進(jìn)計(jì)算方法[J].重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版, 2009,21(4): 533-537.
JIANG Yi, DING You, XIONG An-ping,etal. An improved computation method of word’s semantic similarity based on HowNet[J]. Journal of Chongqing University of Posts and Telecommunications: Natural Science, 2009,21(4): 533-537.(In Chinese)
[2]廖志芳,邱麗霞,謝岳山, 等.一種頻率增強(qiáng)的語句語義相似度計(jì)算[J]. 湖南大學(xué)學(xué)報(bào):自然科學(xué)版,2013,40(2):82-88.
LIAO Zhi-fang, QIU Li-xia, XIE Yue-shan,etal. A frequency enhanced algorithm of sentence semantic similarity[J]. Journal of Hunan University: Natural Sciences, 2013,40(2): 82-88.(In Chinese)
[3]李連,朱愛紅,蘇濤.一種改進(jìn)的基于向量空間文本相似度算法的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(2):282-284.
LI Lian, ZHU Ai-hong, SU Tao. Research and implementation of an improved VSM-based text similarity algorithm[J]. Computer Applications and Software, 2012,29(2):282-284.(In Chinese)
[4]OLIVA J, SERRANO J I, CASTILLO M D,etal. SyMSS: a syntax-based measure for short-text semantic similarity[J]. Data & Knowledge Engineering, 2011,70(4):390-405.
[5]董振東,董強(qiáng).關(guān)于知網(wǎng)—中文信息結(jié)構(gòu)庫[EB/OL]//http://www.keenage.com/html/c_index.html.
DONG Zhen-dong, DONG Qiang.Chinese information database based on CNKI[EB/OL]//www.heenage, com/html/C.cndex.html.(In Chinese)
[6]The Stanford Natural Language Processing Group. The Stanford NLP[EB/OL]//http://nlp.stanford.edu/software/lex-parser.shtml.
[7]ISLAM A, INKPEN D. Semantic text similarity using corpus-based word similarity and string similarity[R]. Ottawa:University of Ottawa,2008.
[8]LI Y H, MCLEAN D, BANDAR Z A,etal. Sentence similarity based on semantic nets and corpus statistics[J]. IEEE Transactions on Knowledge and Data Engineering,2006,18(8):1138-1150.
[9]劉群,李素建. 基于《知網(wǎng)》的詞匯語義相似度計(jì)算[C]//第三屆語義學(xué)研討會論文集. 臺北:臺北中央研究院,2002: 149-163.
LIU Qun, LI Su-jian. How net-based lexical semantic similarity calculation[C]//Third Semantics Workshop Proceedings. Taipei: Academia Sinica, 2002: 149-16. (In Chinese)
A Chinese Short Text Similarity Algorithm Based on Semantic and Syntax
LIAO Zhi-fang1?, ZHOU Guo-en1, LI Jun-feng2, LIU Fei1, CAI Fei1
(1. School of Software, Central South Univ, Changsha, Hunan410075, China;2. School of Information Science and Engineering, Central South Univ, Changsha, Hunan410075, China)
Abstract:A short text algorithm based on semantic and syntax by analyzing the characteristics of Chinese short text was proposed. The algorithm combines semantic similarity with the similarity of sentence syntax in Chinese short text, that is to say, to calculate the similarity of short text with the same syntax structure and consider the contribution with sentence words order to similarity. The experiments show that the proposed algorithm is closer to people's judgment and gets a better precision rate and recall rate in the aspect of Chinese short text similarity calculation results.
Key words:semantic and syntax similarity; sentence similarity calculating; HowNet; corpus;semantic analysis; syntax analysis; similarity measure
中圖分類號:TP391.1
文獻(xiàn)標(biāo)識碼:A
作者簡介:廖志芳(1968-),女,湖南長沙人,中南大學(xué)副教授,博士?通訊聯(lián)系人,E-mail:zfliao@csu.edu.cn
基金項(xiàng)目:國家自然科學(xué)基金青年基金資助項(xiàng)目(61202095),National Natural Science Foundation of China(61202095) ;湖南省自然科學(xué)基金資助項(xiàng)目(12JJ3074)
*收稿日期:2015-01-18
文章編號:1674-2974(2016)02-0135-06