代鈺琴 徐魯強(qiáng)
(西南科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 四川綿陽(yáng) 621010)
自然語(yǔ)言的本質(zhì)屬性是信息的載體和信息的容量,其信息內(nèi)容目前已經(jīng)用計(jì)算詞相似度的方式來(lái)衡量[1]。為此,中文句子相似度計(jì)算成為人工智能研究的熱點(diǎn),在機(jī)器翻譯、信息檢索和智能標(biāo)記等領(lǐng)域也得到了廣泛應(yīng)用。由于漢語(yǔ)句子的多樣性及其意義的復(fù)雜性,使得兩句子之間的相似性更難準(zhǔn)確地比較。隨著自然語(yǔ)言處理技術(shù)的發(fā)展,各種計(jì)算句子相似度的算法應(yīng)運(yùn)而生。這些算法主要分為兩大類:統(tǒng)計(jì)方法和基于語(yǔ)義方法?;诮y(tǒng)計(jì)的方法是在大規(guī)模的語(yǔ)料庫(kù)下統(tǒng)計(jì)詞語(yǔ)的頻率,利用IDF算法、詞向量、N-Grammar等方法計(jì)算句子的相似度,注重句子的整體結(jié)構(gòu)。基于語(yǔ)義的方法則是在語(yǔ)義知識(shí)、句法依存、語(yǔ)義依存等方面進(jìn)行分析,注重句子的語(yǔ)義分析。
現(xiàn)有的算法主要有基于句子多種特征、基于詞向量[2]、基于語(yǔ)義角色標(biāo)注[3]、基于語(yǔ)義依存[4]及改進(jìn)TF-IDF 結(jié)合余弦定理的句子相似度計(jì)算[5]。這些算法都從句子結(jié)構(gòu)和詞語(yǔ)語(yǔ)義上考慮句子相似度,其中,改進(jìn)的TF-IDF算法既注重句子的整體結(jié)構(gòu),還與詞語(yǔ)語(yǔ)義相結(jié)合,即將語(yǔ)義與結(jié)構(gòu)結(jié)合起來(lái),更有效地反映了句子的相似度。盡管如此,該方法也忽略了句子不相似的部分[6]和詞語(yǔ)語(yǔ)義方向及一些有重大意義且在句中占比重輕的詞語(yǔ)。因此,本文提出了一種基于語(yǔ)義分析的融合了統(tǒng)計(jì)和語(yǔ)義兩個(gè)方面并考慮詞語(yǔ)語(yǔ)義方向和句子語(yǔ)義方向的改進(jìn)TF-IDF算法。
比較文本片段之間的語(yǔ)義意義就是比較單詞的語(yǔ)義特征及其關(guān)系[7],因此詞語(yǔ)相似度是計(jì)算句子相似度的基礎(chǔ),詞語(yǔ)相似度包含基于詞典的詞語(yǔ)相似度和基于語(yǔ)料庫(kù)的詞向量計(jì)算。基于詞典主要采用《知網(wǎng)》和《同義詞林》兩個(gè)詞典,能準(zhǔn)確地反映詞語(yǔ)之間語(yǔ)義的相似性,但很少考慮詞語(yǔ)之間句法特點(diǎn)。而基于語(yǔ)料庫(kù)就需要通過(guò)大量的數(shù)據(jù)訓(xùn)練,在詞語(yǔ)句法、語(yǔ)義、語(yǔ)用等方面都有客觀評(píng)價(jià),能綜合計(jì)算其相似度,但過(guò)于依賴訓(xùn)練的語(yǔ)料庫(kù),一旦某個(gè)詞語(yǔ)在語(yǔ)料庫(kù)中出現(xiàn)得較少或未出現(xiàn),則不能準(zhǔn)確判斷其相似度[5]。綜上,由于句法和語(yǔ)用等方面的特點(diǎn)可以分析句子結(jié)構(gòu),因此本文采用基于詞典的詞語(yǔ)相似度計(jì)算。
1.1.1 基于《知網(wǎng)》的詞語(yǔ)相似度
利用《知網(wǎng)》主要是計(jì)算詞語(yǔ)之間的語(yǔ)義程度[8],《知網(wǎng)》是把每個(gè)詞語(yǔ)的多個(gè)概念一一列出,并用一系列義原來(lái)描述每個(gè)概念,其中概念是對(duì)詞匯語(yǔ)義的描述,義原是描述概念的最小單位。在《知網(wǎng)》中,是將一系列義原通過(guò)上下位關(guān)系組織成一個(gè)樹狀義原層次體系,因此計(jì)算義原相似度采用語(yǔ)義距離計(jì)算。假設(shè)兩個(gè)義原在這個(gè)層次體系中的路徑距離為d,可以得到這兩個(gè)義原之間的語(yǔ)義距離:
(1)
其中,p1和p2表示兩個(gè)義原(Primitive),d是p1和p2在義原層次體系中的路徑長(zhǎng)度,是一個(gè)正整數(shù)。α是一個(gè)可調(diào)節(jié)的參數(shù)。
由于義原是組成詞語(yǔ)或概念的最小單位,因此對(duì)兩個(gè)詞語(yǔ)W1和W2,如果W1有n個(gè)義項(xiàng)(概念):S11,S12,……,S1n,W2有m個(gè)義項(xiàng)(概念):S21,S22,……,S2m,則W1和W2的相似度為各個(gè)概念相似度的最大值:
(2)
1.1.2 基于《同義詞林》的詞語(yǔ)相似度
同義詞詞林按照樹狀的層次結(jié)構(gòu)把所有收錄的詞條組織到一起,如圖1所示,把詞匯分成大、中、小3類。每個(gè)小類里都有很多的詞,這些詞又根據(jù)詞義的遠(yuǎn)近和相關(guān)性分成了若干個(gè)詞群。每個(gè)詞群中的詞語(yǔ)又進(jìn)一步分成了若干個(gè)行,同一行的詞語(yǔ)要么詞義相同,要么詞義有很強(qiáng)的相關(guān)性。
《同義詞林》的詞語(yǔ)相似度計(jì)算與《知網(wǎng)》類似,利用樹狀結(jié)構(gòu)的詞語(yǔ)中義項(xiàng)編碼,計(jì)算義項(xiàng)距離,從而得到義項(xiàng)相似度,由于中文詞語(yǔ)博大精深,一個(gè)詞語(yǔ)往往表達(dá)了很多意思,也就是說(shuō)有很多個(gè)義項(xiàng)。同義詞林編碼規(guī)則如下:第一層為大類,用大寫英文字母表示;第二層是中類,用小寫英文字母表示;第三層為小類,用兩位十進(jìn)制數(shù)表示;第四層為詞群,用大寫英文字母表示;第五層為原子詞群,用兩位十進(jìn)制數(shù)表示。計(jì)算詞語(yǔ)的相似度是根據(jù)一項(xiàng)編碼計(jì)算兩個(gè)詞語(yǔ)的各義項(xiàng)間的相似度,取最大值作為兩個(gè)詞語(yǔ)的相似度值。
《知網(wǎng)》和《同義詞林》都是通過(guò)收錄的詞典,雖然詞匯量大,但也可能出現(xiàn)沒(méi)有收錄的詞,如果結(jié)合兩個(gè)詞典,找到未收錄的詞就大大減少。因此本文采用的方法是如果某個(gè)詞語(yǔ)僅被一個(gè)詞典收錄,其相似度就為基于該詞典的相似度,若兩個(gè)詞典都收錄了這個(gè)詞,其相似度為二者的平均值。
詞語(yǔ)相似度不僅僅只看詞語(yǔ)表面的語(yǔ)義,還應(yīng)考慮其相關(guān)性[9],詞語(yǔ)所表達(dá)的意思也可進(jìn)行分解和合成[6],其主要目的是為了更準(zhǔn)確地判斷詞語(yǔ)的相似性,判斷語(yǔ)義方向就能將詞語(yǔ)相關(guān)性和整合詞語(yǔ)結(jié)合。詞語(yǔ)語(yǔ)義方向主要判斷詞語(yǔ)的積極性或消極性,而句子語(yǔ)義方向主要是通過(guò)分析謂語(yǔ)動(dòng)詞的極性。通過(guò)一般中文句子可以發(fā)現(xiàn),如果句子的謂語(yǔ)動(dòng)詞是否定的,則整個(gè)句子都是否定的,但如果某個(gè)形容詞是負(fù)向的,只影響該形容詞修飾的詞語(yǔ),因此,謂詞的語(yǔ)義方向才是影響整個(gè)句子方向的核心。通過(guò)這些特點(diǎn),本文采用哈爾濱工業(yè)大學(xué)開發(fā)的語(yǔ)言技術(shù)平臺(tái)提供的分詞、詞性標(biāo)注、依存句法等漢語(yǔ)語(yǔ)言處理模塊,可以分析判斷詞語(yǔ)和句子的極性。
1.2.1 詞語(yǔ)語(yǔ)義方向分析
通過(guò)總結(jié)發(fā)現(xiàn),能表示詞語(yǔ)極性的詞大多都是評(píng)價(jià)類或情感類的詞,因此本文對(duì)詞語(yǔ)極性的判斷采用了《知網(wǎng)》的情感詞典,若句中詞語(yǔ)為負(fù)面評(píng)價(jià)詞語(yǔ)或負(fù)面情感詞語(yǔ),則將句子標(biāo)記為消極,反之則標(biāo)記為積極。下面用簡(jiǎn)單的例子來(lái)說(shuō)明詞語(yǔ)的語(yǔ)義理解。
例句1 “教育具有不公平性?!钡姆衷~、此行標(biāo)注和依存句法標(biāo)注如圖2所示。
圖2 例1的句子結(jié)構(gòu)特點(diǎn)Fig.2 Sentence structure of Example 1
由主觀評(píng)判可以看出例句1是一個(gè)負(fù)向的句子,但根據(jù)句法分析發(fā)現(xiàn)其謂語(yǔ)為“具有”,是一個(gè)正向的詞語(yǔ),因此在分析句子極性時(shí)還需考慮其他成分的詞語(yǔ)極性。將例句2分詞后得到“教育”、“具有”“不”、“公平性”這幾個(gè)詞語(yǔ),其中“教育”、“具有”、“公平性”是正向詞語(yǔ),“不”屬于單重否定,是一個(gè)負(fù)向詞語(yǔ),但“不”是一個(gè)不具有實(shí)際意義的詞,因此需要找到“不”修飾的詞語(yǔ),即“公平性”,并認(rèn)為其為負(fù)向詞語(yǔ),因此句中“公平性”是一個(gè)負(fù)向詞語(yǔ)。
1.2.2 句子語(yǔ)義方向分析
由于中文句子的謂語(yǔ)成分占很大比重,且一般謂語(yǔ)直接影響著整個(gè)句子的方向,因此分析謂語(yǔ)語(yǔ)義方向能大致得到句子語(yǔ)義方向。謂語(yǔ)極性主要由謂詞及修飾謂詞的副詞決定,下面用簡(jiǎn)單的例子來(lái)說(shuō)明句子的語(yǔ)義理解。
例2“教育內(nèi)容不滿足學(xué)生需求?!钡姆衷~、此行標(biāo)注和依存句法標(biāo)注如圖3所示。
圖3 例2的句子結(jié)構(gòu)特點(diǎn)Fig.3 Sentence structure of Example 2
分析該例句,句子的謂語(yǔ)動(dòng)詞為“滿足”,依存句法標(biāo)注為“HED”,證明是句子最核心的成分,影響著整個(gè)句子的方向,即決定了句子的極性。根據(jù)詞語(yǔ)語(yǔ)義方向分析可得該句的謂詞“滿足”屬于正面評(píng)價(jià)詞語(yǔ),如果僅判斷謂詞的極性,則例句2應(yīng)該為積極,但人為判斷該句應(yīng)該為消極,其原因在于句中還有修飾謂詞的詞語(yǔ),這些詞語(yǔ)在句子結(jié)構(gòu)中占的比重不大,但能影響整個(gè)句子的意思。從語(yǔ)義分析可以看出,這類詞大多與謂詞構(gòu)成狀中結(jié)構(gòu),以修飾謂詞,即與謂詞間的關(guān)系為“ADV”,其類型大多也為評(píng)價(jià)詞、情感詞、連詞和否定詞[10]。其中連詞不具極性,評(píng)價(jià)詞和情感詞仍然采用《知網(wǎng)》的情感詞典,而否定詞則需要自定義。根據(jù)查閱,建立了如表1的否定詞表。
表1 否定詞詞典Table 1 Negative word dictionary
根據(jù)漢語(yǔ)特點(diǎn),雙重否定表肯定,結(jié)合謂語(yǔ)語(yǔ)義方向,若句子包含奇數(shù)個(gè)單重否定,謂語(yǔ)為消極詞語(yǔ),判定句子為積極;謂語(yǔ)為積極詞語(yǔ),句子為消極。若句子包含偶數(shù)個(gè)單重否定詞,句子的極性由謂語(yǔ)極性決定。若句子中有雙重否定,則句子極性也由謂語(yǔ)極性決定。
例句2的謂詞“滿足”為積極詞語(yǔ),但前有“不”修飾,“不”又是單重否定詞,根據(jù)以上規(guī)則,滿足句中包含一個(gè)單重否定,且謂語(yǔ)為積極,則句子為消極。
1.2.3 復(fù)合句簡(jiǎn)化
上述判斷句子極性的方法只適用于只有一個(gè)謂語(yǔ)的簡(jiǎn)單句,對(duì)多個(gè)謂語(yǔ)的復(fù)合句就不適用。復(fù)合句分為并列復(fù)句、遞進(jìn)復(fù)句、選擇復(fù)句和轉(zhuǎn)折復(fù)句。但不管哪種類型,復(fù)句中的每個(gè)單句謂語(yǔ)都屬于并列關(guān)系,下面進(jìn)行舉例說(shuō)明。
例3 “社會(huì)生活和教育融合,生產(chǎn)勞動(dòng)也和教育相結(jié)合?!钡姆衷~、此行標(biāo)注和依存句法標(biāo)注如圖4所示。
例句3是一個(gè)并列復(fù)句,該句子是由兩個(gè)簡(jiǎn)單句組成,每個(gè)單句的謂語(yǔ)動(dòng)詞都屬于并列關(guān)系,如圖4所示,單句1的謂詞“融合”與單句2的謂詞“結(jié)合”的關(guān)系便是并列,在依存句法中表示為“COO”。復(fù)合句的特點(diǎn)就是將其拆分為多個(gè)單句時(shí),句子意思不變,因此在判斷復(fù)合句方向時(shí)是將其拆分為多個(gè)單句,再對(duì)單句進(jìn)行一一比較。
圖4 例3的句子結(jié)構(gòu)特點(diǎn)Fig.4 Sentence structure of Example 3
根據(jù)研究,利用空間結(jié)構(gòu)更能反應(yīng)語(yǔ)義之間的關(guān)系[11],其中,向量表示是最為普遍的方法。TF-IDF算法就是將句子用空間向量進(jìn)行表示,然后計(jì)算兩個(gè)句子空間向量夾角的余弦值。目前,大多數(shù)學(xué)者都發(fā)現(xiàn)了TF-IDF算法的無(wú)法調(diào)整權(quán)值的缺點(diǎn)[12],因此對(duì)權(quán)值方面進(jìn)行了深入研究,例如TF-IGM(詞頻-逆權(quán)重)算法[13]。但TF-IDF算法還有語(yǔ)義分析不到位的缺點(diǎn)[14],本文則主要從語(yǔ)義分析方面對(duì)TF-IDF算法進(jìn)行改進(jìn)。
本文改進(jìn)的TF-IDF算法是根據(jù)詞語(yǔ)方向(DIR)分析句子詞頻(TF)和逆文檔詞頻(IDF),并將TF和IDF的乘積作為關(guān)鍵詞的特征值,將中文分詞后、去停用詞表得到句子的關(guān)鍵詞,計(jì)算關(guān)鍵詞的特征值,構(gòu)成空間向量相似度計(jì)算夾角余弦值,其中值越大,句子越相似。TF-IDF算法原理如下:
(1) 將兩個(gè)句子S1和S2的有效關(guān)鍵字組成數(shù)組V=(X1,X2,…,Xn)。
(2) 計(jì)算S1和S2兩個(gè)句子的詞頻向量V1={ω1,ω2,…,ωn},V2={ξ1,ξ2,…,ξn}。
其中,ωi(1≤i≤n)為關(guān)鍵詞組Xn在S1中出現(xiàn)的次數(shù)TF與 IDF的乘積,ξi(1≤i≤n)為關(guān)鍵詞組Xn在S2中出現(xiàn)的次數(shù)TF與IDF的乘積。TF-IDF算法如下:
實(shí)驗(yàn)組患者的滿意度為98.0%,對(duì)照組為7.0%,實(shí)驗(yàn)組顯著高于對(duì)照組,輸血差錯(cuò)率顯著低于對(duì)照組,差異均有統(tǒng)計(jì)學(xué)意義(P<0.05),詳見表1。
詞頻(TF)= 某個(gè)詞在句子中的出現(xiàn)次數(shù)
(3)
(4)
其中,只有當(dāng)該詞的方向與包含該詞的文檔中的詞語(yǔ)方向一致時(shí),文檔數(shù)才增加。
(3) 采用余弦相似性算法計(jì)算V1和V2相似度值:
(5)
其中,ωiξi為S1i和S2i的TF和IDF的乘積。
傳統(tǒng)的TF- IDF算法只注重關(guān)鍵詞,沒(méi)有考慮同義詞替換和語(yǔ)義方向等問(wèn)題,所以計(jì)算結(jié)果與實(shí)際結(jié)果有一定偏差。改進(jìn)的TF- IDF算法主要融入了詞語(yǔ)語(yǔ)義相似度,例如句子A和句子B的相似度算法主要依靠?jī)蓚€(gè)單句的相似度計(jì)算,若句子A,B是復(fù)合句,還需將其拆分為單句,并一一比較兩個(gè)單句的相似度,取相似度最大的值。兩個(gè)單句A1和B1的相似度算法步驟如下:
(2) 遍歷數(shù)組A1′,當(dāng)A1j′ 和C[i]的方向一致時(shí),統(tǒng)計(jì)數(shù)組C[i]的個(gè)數(shù),并賦值給TF1i;
(3) 如果存在不屬于A1′中的元素C[i],利用《知網(wǎng)》和《同義詞林》計(jì)算C[i]與A1′中各元素的最大相似度值sim,如果A1j′和C[i]的方向一致,將sim賦值給TF1i,否則,將1-sim賦值給TF1i;
(4) 根據(jù)IDF算法計(jì)算C1[i]的IDF1i值;
(5) TF1i與 IDF1i的乘積即為空間向量V1的一個(gè)元素;
(6) 遍歷數(shù)組B1′,重復(fù)步驟(2)-步驟(5),得到空間向量V2;
(7) 計(jì)算V1和V2空間向量的夾角余弦值,即為兩個(gè)句子的相似度similary;
(8) 計(jì)算句子A1和B1的謂語(yǔ)語(yǔ)義方向,如果A1和B1的謂語(yǔ)語(yǔ)義方向相同,則句子相似度為similary,否則句子相似度為1-similary。
實(shí)驗(yàn)數(shù)據(jù)以《教育知識(shí)與能力》為基礎(chǔ),根據(jù)章節(jié)模塊,選取了教育和教育發(fā)展、德育、班級(jí)管理和教師教學(xué)這4個(gè)模塊的簡(jiǎn)答題。為了直觀地將實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比分析,將每個(gè)模塊劃分為一組實(shí)驗(yàn),進(jìn)行了4組實(shí)驗(yàn)。將每組實(shí)驗(yàn)的題目分發(fā)給學(xué)生進(jìn)行在線測(cè)試,在收集的作答情況中,每道題均選取優(yōu)先作答的100位同學(xué)的作答情況,以比較學(xué)生作答情況和標(biāo)準(zhǔn)答案的相似度。實(shí)驗(yàn)分組及題目如表2。
學(xué)生作答可能存在白卷、句子意思表達(dá)不完整、沒(méi)有明確斷字?jǐn)嗑涞葐?wèn)題,因此,為了更加準(zhǔn)確地測(cè)試本文算法,需要人工篩選掉一些作答不規(guī)范的句子。同時(shí)為了更體現(xiàn)本文算法在反義詞和否定意義詞上的價(jià)值,需要篩選得到盡可能多的含反義或否定意義詞的句子,將有效數(shù)據(jù)作為測(cè)試數(shù)據(jù)。經(jīng)過(guò)人工篩選,得到表3的分組測(cè)試數(shù)據(jù)。
將每組數(shù)據(jù)分別采用了貪心算法、改進(jìn)的TF-IDF算法和本文基于語(yǔ)義分析的改進(jìn)TF-IDF算法對(duì)每個(gè)答案與標(biāo)準(zhǔn)答案之間進(jìn)行了相似度計(jì)算,然后對(duì)其相似度進(jìn)行比較。這3種算法的詞語(yǔ)相似度都是基于《知網(wǎng)》和《同義詞林》的,只有在計(jì)算句子相似度時(shí)算法不一致,因此該實(shí)驗(yàn)?zāi)軌虮WC得到的結(jié)果僅與句子相似度算法有關(guān)。為了驗(yàn)證本文算法的有效性,還增加了人工評(píng)判,以便驗(yàn)證該算法提高了其準(zhǔn)確性。
表2 實(shí)驗(yàn)分組及題目Table 2 Experimental group and topics
表3 分組測(cè)試數(shù)據(jù)Table 3 Group test data
本文首先以組一中的問(wèn)題1“簡(jiǎn)述教育對(duì)政治經(jīng)濟(jì)制度的影響?!睘槔?,收集100個(gè)學(xué)生對(duì)該題的作答情況,經(jīng)過(guò)篩選,剩余94條有效句子。將有效句子分別經(jīng)過(guò)貪心算法、改進(jìn)的TF-IDF算法和本文算法計(jì)算其相似度,對(duì)其結(jié)果進(jìn)行分析。為了更好地與人工進(jìn)行比較,將句子相似度劃分為以下4個(gè)階段:0~0.59, 0.6~0.79, 0.8~0.89, 0.9~1.0,經(jīng)過(guò)各種算法計(jì)算,比較每個(gè)相似度階段所包含句子數(shù)量占比得到的結(jié)果如表4。
表4 各階段相似度數(shù)量占比Table 4 Proportion of similarities in each stage
通過(guò)實(shí)驗(yàn)分析,在各相似度階段,本文算法與人工評(píng)判得到的句子數(shù)量更為接近,且在低相似度(0~0.59)和高相似度(0.85~1.0)階段句子數(shù)量較少,其余階段句子數(shù)量較多,符合日常中的正態(tài)分布情況,因此說(shuō)明本文方法更符合實(shí)際情況,更貼近人的思想。
為了更加準(zhǔn)確地說(shuō)明本文算法的性能,采用準(zhǔn)確率(Accuracy)和誤差率(Error Rate)進(jìn)行評(píng)判。根據(jù)大量經(jīng)驗(yàn)顯示,人工評(píng)判存在誤差性,但基本都在0.1以內(nèi),因此,如果測(cè)試結(jié)果與人工評(píng)判的相似度在0.1以內(nèi),則將該句子劃為正確,否則為錯(cuò)誤。
(6)
(7)
準(zhǔn)確率對(duì)比結(jié)果如表5所示。
表5 準(zhǔn)確率對(duì)比結(jié)果Table 5 Accuracy comparison results
通過(guò)實(shí)驗(yàn)對(duì)比發(fā)現(xiàn),每組實(shí)驗(yàn)結(jié)果的準(zhǔn)確率均得到提高,部分提高較明顯可能是因?yàn)檫x取的實(shí)驗(yàn)數(shù)據(jù)中包含的否定詞或反義詞較多。本文算法較貪心算法其平均準(zhǔn)確率提高了26%,較改進(jìn)TF-IDF算法提高了5.7%,因此,本文算法更能準(zhǔn)確地判斷句子的相似度。
為了從多角度展現(xiàn)本文算法的可行性,本文針對(duì)16道題目進(jìn)行平均誤差率計(jì)算,得到16組數(shù)據(jù)的平均誤差率對(duì)比結(jié)果如圖5所示。
從平均誤差率分析,本文算法16組測(cè)試結(jié)果中,有15組數(shù)據(jù)的平均誤差率均低于傳統(tǒng)算法,但有一組數(shù)據(jù)卻高于改進(jìn)的TF-IDF算法。經(jīng)過(guò)查看測(cè)試數(shù)據(jù)發(fā)現(xiàn),該組數(shù)據(jù)中其復(fù)合句較多,且復(fù)合句中的簡(jiǎn)單句語(yǔ)義方向不同,導(dǎo)致其相似度偏低,致使誤差率較低。但從整體上看,使用本文算法計(jì)算句子相似度能降低誤差率,得到與人工評(píng)判更接近的結(jié)果。
通過(guò)以上實(shí)驗(yàn)對(duì)比,本文采用的基于語(yǔ)義分析的算法在準(zhǔn)確率上提升了5.7%,且誤差率相比傳統(tǒng)算法均普遍較低,因此本文算法具有一定優(yōu)勢(shì)。
圖5 平均誤差率對(duì)比Fig.5 Comparison of the average error rate
本文提出的基于語(yǔ)義分析的改進(jìn)TF-IDF算法考慮句子語(yǔ)義方向,并結(jié)合詞語(yǔ)語(yǔ)義相似度,采用余弦定理計(jì)算了句子的相似度,使得計(jì)算結(jié)果更加準(zhǔn)確,更貼近實(shí)際情況。從實(shí)驗(yàn)數(shù)據(jù)可知,傳統(tǒng)的方法都沒(méi)有考慮句子語(yǔ)義方向,大多只計(jì)算關(guān)鍵詞的相似度,所以會(huì)出現(xiàn)兩個(gè)句子意思相反,但得到的相似度較高的情況,本文算法就解決了這個(gè)問(wèn)題。通過(guò)分析可以看出對(duì)復(fù)句進(jìn)行比較時(shí),由于本文是將復(fù)句拆分成簡(jiǎn)單句進(jìn)行一一比較的,因此會(huì)出現(xiàn)其相似度降低的情況,但這也防止了復(fù)句中語(yǔ)義方向所指對(duì)象不一致卻相似度高的情況。