亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于依存句法與詞語語義的漢語句子相似度計(jì)算

        2022-07-11 10:44:42黃樹成周尓昊
        關(guān)鍵詞:知網(wǎng)三元組計(jì)算方法

        申 震,王 遜,黃樹成,周尓昊

        (江蘇科技大學(xué) 計(jì)算機(jī)學(xué)院, 鎮(zhèn)江 212100)

        句子相似度計(jì)算廣泛用于自然語言處理的多個(gè)領(lǐng)域[1],具有很高的學(xué)術(shù)價(jià)值和應(yīng)用價(jià)值,在文檔查重中用來定位不同文檔間的相似內(nèi)容;在信息檢索中,通過相似度計(jì)算返回給用戶想要的信息;在問答系統(tǒng)、推薦系統(tǒng)中,經(jīng)過相似度計(jì)算返回最佳的答案或方案.在考試自動評分系統(tǒng)中,句子相似度用來衡量考生答案與參考答案的文本相似程度,直接影響考生成績的評定;為了更好地衡量兩個(gè)或多個(gè)文本內(nèi)容的相似或相關(guān)程度,需要進(jìn)一步改進(jìn)提高句子相似度計(jì)算的準(zhǔn)確性.國內(nèi)外學(xué)者對句子相似度計(jì)算方法的研究現(xiàn)狀[2-3]如表1.

        表1 國內(nèi)外研究現(xiàn)狀

        句法分析是對句子的語法結(jié)構(gòu)分析[8],也屬于語義分析的一種,但其不依賴于某種語料庫或世界知識.混合方法是對幾種方法的融合.針對現(xiàn)有基于句法分析的計(jì)算方法中,未充分考慮句子中各成分依存信息,并且忽略單個(gè)詞語的語義信息等問題,文中提出在句法分析的基礎(chǔ)上,加入基于本體知識詞典的詞語語義相似度計(jì)算方法,考慮到句子成分、依存關(guān)系、詞語語義等多個(gè)層面的語義特征,更準(zhǔn)確的計(jì)算句子間的相似程度,正確判斷句子內(nèi)容的一致性.

        1 相關(guān)工作

        1.1 依存句法分析

        文中使用哈工大語言技術(shù)平臺(LTP)提供的依存句法服務(wù)分析句子內(nèi)各成分之間的依存關(guān)系以揭示其句法結(jié)構(gòu).語言技術(shù)平臺是哈工大社會計(jì)算與信息檢索研究中心歷時(shí)十年研制的一整套開放中文自然語言處理系統(tǒng),該系統(tǒng)提供了中文分詞、詞性標(biāo)注、依存句法分析、語義依存分析等服務(wù),目前所有服務(wù)已經(jīng)部署到訊飛開放平臺.訊飛開放平臺是一個(gè)開放的移動互聯(lián)網(wǎng)智能交互技術(shù)服務(wù)平臺.

        通過構(gòu)造HTTP請求訪問相應(yīng)的Web API接口就可以使用語言技術(shù)平臺提供的服務(wù).例如:句子“我們即將以昂揚(yáng)的斗志迎來新的一年.”調(diào)用https://ltpapi.xfyun.cn/v1/{dp}依存句法分析接口后得到j(luò)son格式的響應(yīng)數(shù)據(jù):

        { "code": "0", "data": { "dp": [ {"parent": 6,"relate": "SBV"}, {"parent": 6, "relate": "ADV"}, {"parent": 6, "relate": "ADV"},

        {"parent": 5, "relate": "ATT"}, {"parent": 3, "relate": "RAD"}, {"parent": 2, "relate": "POB"}, {"parent": -1, "relate": "HED"}, {"parent": 10, "relate": "ATT"}, {"parent": 7, "relate": "RAD"}, {"parent": 10, "relate": "ATT"}, {"parent": 6, "relate": "VOB"}, { "parent": 6, "relate": "WP"} ] }, "desc": "success", "sid": "ltp00fefb0c@dx487a1323f800a00100"}

        句子分詞后對詞語編號,root根節(jié)點(diǎn)記作-1,后面詞語和標(biāo)點(diǎn)符號依次編號,parent字段為父節(jié)點(diǎn),relate字段代表依賴關(guān)系類型.對數(shù)據(jù)經(jīng)過結(jié)構(gòu)化整理后,得到句子的依存分析樹如圖1.

        圖1 依存句法分析

        依存句法分析樹中的依存關(guān)系標(biāo)注如表2.

        表2 依存關(guān)系的標(biāo)注類型

        1.2 知網(wǎng)的詞語相似度計(jì)算

        知網(wǎng)中有兩個(gè)重要的單位名詞:“概念”與“義原”.一個(gè)詞匯的語義可能由多個(gè)概念描述,而概念又是由一種“知識表示語言(即義原)”來表述的.多個(gè)義原之間的關(guān)系錯(cuò)綜復(fù)雜,以義原之間的上下位關(guān)系為主線可以將所有的義原組成一個(gè)有層次的樹狀結(jié)構(gòu),如圖2.知網(wǎng)的詞語相似度計(jì)算以義原相似度計(jì)算為基礎(chǔ).

        圖2 樹狀的義原層次結(jié)構(gòu)

        文獻(xiàn)[9]提出了將義原之間的路徑距離轉(zhuǎn)化為計(jì)算兩個(gè)義原之間的相似度,義原距離越小,義原相似度越大.若s1和s2表示兩個(gè)義原,Dis(s1,s2)為s1和s2在知網(wǎng)中的路徑距離,α為一個(gè)調(diào)節(jié)參數(shù),代表相似度是0.5時(shí)的取值,文獻(xiàn)中α取值為1.6.計(jì)算為:

        (1)

        對于兩個(gè)漢語詞語W1和W2,如果W1有m個(gè)概念:C11,C12,…,C1m;W2有n個(gè)概念:C21,C22,…,C2n,W1和W2的相似度為所有概念的相似度的最大值,為:

        (2)

        兩個(gè)概念語義表達(dá)式的計(jì)算方法為:

        (3)

        式中:βi(1≤i≤3)是不同義原的所占比重,分別代表獨(dú)立義原、關(guān)系義原和關(guān)系符號義原各自所占的權(quán)重,且β1+β2+β3=1,β1≥β2≥β3.文獻(xiàn)[10]中取值為:β1=0.7,β2=0.17,β3=0.13.采用連乘積的形式是讓主要義原的相似度制約次要義原的相似度,如果詞語的主要義原部分相似度不高,那么詞語的次要義原部分對詞語整體影響也不能過大.

        1.3 同義詞詞林詞語相似度計(jì)算

        《同義詞詞林》是由梅家駒等人編寫的一部大詞典,所有詞語也是被組織成一種有層次的樹狀結(jié)構(gòu).鑒于同義詞詞林中很多詞語為生僻詞且沒有更新,哈工大信息檢索研究室利用大量詞語相關(guān)資源,完成了《同義詞詞林?jǐn)U展版》的編寫,剔除了原版中的非常用詞,含有豐富的語義信息.《同義詞詞林?jǐn)U展版》繼承了《同義詞詞林》的編碼體系.如沒有加以說明,文中“詞林”指的是《同義詞詞林?jǐn)U展版》.詞林將所有的詞語分為大、中、小3類,為了體現(xiàn)各個(gè)詞語間的詞義遠(yuǎn)近和相關(guān)程度,又將小類分為詞群和原子詞群[11].樹狀結(jié)構(gòu)及每一類的層次編碼規(guī)則如圖3,例如:“東西南北”的編碼為Cb02A01=,詞語的編碼規(guī)則如表3.

        圖3 樹狀結(jié)構(gòu)及編碼規(guī)則

        表3 詞語編碼表

        在第五層之后,分別使用“=”,“#”,“@”3個(gè)符號標(biāo)記加以區(qū)別描述.“=”代表屬于同義詞;“#”代表屬于同類或相關(guān)詞語;“@”代表既沒有同義詞,也沒有相關(guān)詞.

        文獻(xiàn)[11]利用詞林的樹狀層次結(jié)構(gòu)和詞語的義項(xiàng)編碼,計(jì)算兩個(gè)義項(xiàng)之間的相似度為:

        (4)

        式中:A,B為兩個(gè)義項(xiàng);α為根據(jù)作為葉子節(jié)點(diǎn)的兩個(gè)義項(xiàng)在哪一層分支取相應(yīng)的系數(shù)值;n為分支處的節(jié)點(diǎn)總數(shù);k為兩個(gè)分支間的距離.一個(gè)詞語可能有多個(gè)義項(xiàng)編碼,兩兩計(jì)算兩個(gè)詞語所有的編碼,取其中的最大值作為詞語的語義相似度值.

        2 改進(jìn)的句子相似度計(jì)算方法

        句子相似度計(jì)算是一個(gè)較為復(fù)雜的過程,既要包含組成句子的詞語之間的詞義相似度計(jì)算,又要考慮到句子語法結(jié)構(gòu)對句子語義相似度的影響.文中首先通過調(diào)用訊飛開放平臺提供的哈工大研發(fā)的語言技術(shù)平臺依存句法分析接口得到句子中的依存句法信息,然后使用基于本體知識的詞語相似度計(jì)算獲得詞語之間的相似度.

        定義1:依存關(guān)系樹Tree(V,E,R):V是樹中所有節(jié)點(diǎn)的集合,E是樹中所有分支的集合,R是所有分支上的依存關(guān)系集合.且滿足:① ?e∈E,?u,v∈V(u≠v),使得e=;②R的取值是依存關(guān)系的15種標(biāo)志類型.

        2.1 基于依存句法的句子相似度計(jì)算

        文獻(xiàn)[12]通過計(jì)算句子中所有詞語之間的相似度得到句子相似度.假設(shè)計(jì)算句子A和句子B的句子相似度,句子A所有的詞語為:A1,A2,…,Am.句子B所有的詞語為:B1,B2,…,Bn;相似度為:

        (5)

        式中:

        ai=max(S(Ai,B1),S(Ai,B2),...,S(Ai,Bn))

        bj=max(S(A1,Bj),S(A2,Bj),...,S(Am,Bj))

        S(Ai,Bj)(1≤i≤m,1≤j≤n)為詞語Ai和Bj的詞語相似度.

        該方法單純的考慮了詞語方面的語義特征,存在語義缺失,不能準(zhǔn)確的反應(yīng)句子的含義.對一詞多義、結(jié)構(gòu)復(fù)雜的句子計(jì)算相似度時(shí),相似度結(jié)果不可靠.因此,文中提出在計(jì)算詞語相似度的基礎(chǔ)上,加入依存句法分析中依存關(guān)系特征.結(jié)合詞語和詞語間依存關(guān)系進(jìn)行相似度計(jì)算,增加了相似度結(jié)果的可靠性.

        文獻(xiàn)[13]根據(jù)依存句法分析將句子中的詞語分為:核心詞、關(guān)鍵詞和其他詞,各部分分配相應(yīng)的權(quán)重進(jìn)行詞語相似度計(jì)算.雖然考慮到了所有詞語,但只是簡單的將詞語分為3類,未利用句子中各個(gè)詞語或成分之間的依存關(guān)系信息.文獻(xiàn)[14]結(jié)合依存句法與詞林計(jì)算句子相似性,通過依存關(guān)系圖提取出關(guān)系路徑,計(jì)算相同長度的關(guān)系路徑上的詞語相似度,最后對不同長度的路徑進(jìn)行語義相似度加權(quán)求和,是一種較為理想的方法.但盡管關(guān)系路徑長度相同,對路徑上不同句法關(guān)系的詞語之間計(jì)算相似度,難免會造成相似度偏低.

        針對這些問題文中提出構(gòu)造依存關(guān)系三元組,同時(shí)考慮句中詞語層面上的相似度和句子依存句法層面上的相似度.具體步驟和計(jì)算方法為:

        定義2:依存關(guān)系三元組T(p,q,r):p是依存詞,q是被依存詞,r是兩者之間的依存關(guān)系.且滿足:

        ① (p,q∈V)∩(p≠q)∩∈E

        ②r∈R

        (1) 假設(shè)待計(jì)算相似度的兩個(gè)句子為A和B,調(diào)用語言技術(shù)平臺的依存句法分析接口得到依存句法分析信息,經(jīng)過結(jié)構(gòu)化數(shù)據(jù)整理得到依存關(guān)系樹Tree(V,E,R),并去掉其中沒有實(shí)際意義的標(biāo)點(diǎn)符號的依存關(guān)系;

        (2) 根據(jù)兩個(gè)句子的依存關(guān)系樹分別構(gòu)造依存關(guān)系三元組TA(pA,qA,rA)和TB(pB,qB,rB).例如在1.1小節(jié)的依存句法分析例句中“我們”是主語,“迎來”是謂語,兩者之間是主謂關(guān)系;“我們”是依存詞語,“迎來”是被依存詞語,構(gòu)成依存關(guān)系三元組T(我們,迎來,SBV).

        (3) 假設(shè)句子A和句子B分別有m和n個(gè)依存關(guān)系三元組.句子A的第i個(gè)依存關(guān)系三元組記作TAi(pAi,qAi,rAi)(1≤i≤m),pAi,qAi和rAi分別表示句子A的第i個(gè)依存關(guān)系三元組的依存詞、被依存詞和依存關(guān)系;句子B的第j個(gè)依存關(guān)系三元組記作TBj(pBj,qBj,rBj)(1≤j≤n),pBj,qBj和rBj分別表示句子B的第j個(gè)依存關(guān)系三元組的依存詞、被依存詞和依存關(guān)系.

        (4) 一般句子中可能有多個(gè)像定中、狀中、并列等關(guān)系的依存關(guān)系三元組,為了盡量讓主謂和主謂關(guān)系、動賓和動賓關(guān)系、狀中和狀中關(guān)系等這樣有相同依存關(guān)系的依存關(guān)系三元組進(jìn)行相似度計(jì)算,對A和B句子中提取出的依存關(guān)系三元組按一定的依存關(guān)系順序進(jìn)行排序.并增加了一個(gè)依存關(guān)系相似度標(biāo)志R_Sim(rAi,rBj),取值為:

        1≤i≤m,1≤j≤n

        (6)

        (5) 將詞語間的依存關(guān)系信息加入相似度計(jì)算中,依存關(guān)系三元組之間的相似度為:

        Sim(TAi,TBj)=Sim(pAi,pBj)×Sim(qAi,qBj)×R_Sim(rAi,rBj)

        (7)

        式中:(1≤i≤m)和(1≤j≤n);Sim(pAi,pBj)是句子A的第i個(gè)依存關(guān)系三元組的依存詞和句子B中第j個(gè)依存關(guān)系三元組的依存詞的詞語相似度;Sim(qAi,qBj)是句子A的第i個(gè)依存關(guān)系三元組的被依存詞和句子B中第j個(gè)依存關(guān)系三元組的被依存詞的詞語相似度;R_Sim(rAi,rBj)是依存關(guān)系相似度標(biāo)志.

        考慮到,依存關(guān)系三元組相似度體現(xiàn)的是兩對詞語以及語法結(jié)構(gòu)的相似度[15],如果相似度數(shù)值較小,不足以體現(xiàn)依存關(guān)系的重要程度.所以將式(7)改進(jìn)得:

        R_Sim(rAi,rBj)

        (8)

        (6) 句子A和B中所有的依存關(guān)系三元組之間相似度計(jì)算一一對應(yīng),構(gòu)成m*n維的相似度矩陣:

        (9)

        使用式(8)計(jì)算相似度矩陣中的每個(gè)元素Sim(TAi,TBj)的值.

        (7) 考慮到不同依存關(guān)系對整個(gè)句子相似度的影響可能不同[16],一個(gè)句子中主要成分是主語、謂語和賓語,輔助成分為“定狀補(bǔ)等”.因此,構(gòu)成主干成分比如:主謂、動賓等的依存關(guān)系占的比重較大,而其他比如:定中、狀中、介賓等依存關(guān)系,在句子中只是起到修飾的作用,所占的比重要小些.用W(r)代表依存關(guān)系r的權(quán)重,使用文獻(xiàn)[17]的研究成果進(jìn)行賦值,每個(gè)標(biāo)注類型對應(yīng)的權(quán)重如表4.

        表4 依存關(guān)系的權(quán)重

        (8) 綜上,對式(5)進(jìn)行改進(jìn),融入依存關(guān)系的語義影響因素,得到句子相似度為:

        (10)

        2.2 綜合知網(wǎng)與詞林的詞語相似度計(jì)算

        文獻(xiàn)[11]將義原之間的路徑距離轉(zhuǎn)化為計(jì)算兩個(gè)義原之間的相似度,義原距離越小,義原相似度越大.但是影響義原相似度的因素還有節(jié)點(diǎn)密度和節(jié)點(diǎn)層次等語義信息[18-19].

        文獻(xiàn)[10]中提出了一種綜合知網(wǎng)與詞林的詞語相似度計(jì)算方法,根據(jù)不同情況選擇不同權(quán)重計(jì)算詞語相似度,是一種比較簡單直觀的計(jì)算方法.但沒有考慮到還有兩種情況的處理:① 一個(gè)詞語被知網(wǎng)和詞林收錄,另一個(gè)詞語沒被收錄;② 兩個(gè)詞語都沒被收錄.文中對于第一種情況給定一個(gè)較小的常數(shù)值;對于第二種情況,轉(zhuǎn)化為比較兩個(gè)字符串是否相同,從而更全面,有更高的容錯(cuò)率.

        假設(shè)W1、W2是待計(jì)算相似度的兩個(gè)詞語,基于知網(wǎng)和詞林計(jì)算出的詞語相似度設(shè)為Sim1和Sim2,分別賦予權(quán)重λ1和λ2,且滿足:λ1+λ2=1,相似度計(jì)算為:

        Sim(W1,W2)=λ1Sim1+λ2Sim2

        (11)

        詞語在知網(wǎng)和詞林中的分布狀況如圖4,集合U表示所有的詞語;集合A表示知網(wǎng)中收錄的詞語,共計(jì)50 222個(gè);集合B表示詞林中收錄的詞語,共計(jì)52 256個(gè);集合C表示知網(wǎng)和詞林同時(shí)收錄的詞語,共計(jì)30 926個(gè)[20];目前知網(wǎng)和詞林仍在更新發(fā)展中,詞語的收錄情況也在不斷地變化.

        圖4 詞語分布圖

        采用如下的動態(tài)加權(quán)策略計(jì)算:

        (1) 當(dāng)W1∈C,W2∈C時(shí),使用知網(wǎng)和詞林分別計(jì)算W1和W2的詞語相似度,記為Sim1和Sim2的值,式(9)中λ1= 0.5,λ2= 0.5.

        (2) 當(dāng)W1∈(A-C),W2∈(A-C)或W1∈(B-C),W2∈(B-C) 時(shí),使用知網(wǎng)或詞林計(jì)算W1和W2的詞語相似度,記為Sim1或Sim2,此時(shí),式(9)中λ1=1,λ2=0或λ1= 0,λ2= 1.

        (3) 當(dāng)W1∈(A-C),W2∈(B-C)時(shí),在詞林中查找W2的所有相似詞,并依次與W1使用知網(wǎng)計(jì)算相似度,取其中的最大值作為詞語相似度值,記為Sim1,如果詞林中無相似詞,則取Sim1=0.2,此時(shí),式(9)中λ1=1,λ2=0.

        (4) 當(dāng)W1∈(A-C),W2∈C;或W2∈C,W1∈(B-C)時(shí),首先對W1和W2使用知網(wǎng)或詞林計(jì)算,記為Sim1或Sim2,然后在詞林中找到W2或W1的所有相似詞,依次與W1或W2使用知網(wǎng)計(jì)算相似度,取其中的最大值,記為Sim2或Sim1;如果在詞林中找不到相似詞,取Sim1=Sim2;此時(shí),式(9)中λ1=0.6,λ2=0.4或λ1=0.4,λ2=0.6.

        (5) 當(dāng)W1∈(A∪B),W2?(A∪B)時(shí),Sim(W1,W2)=0.2.

        (6) 當(dāng)W1?(A∪B),W2?(A∪B)時(shí),則對W1和W2進(jìn)行字符串的比較.如果字符串相同取Sim(W1,W2)=1,否則Sim(W1,W2)=0.

        綜合知網(wǎng)和詞林兩個(gè)知識庫的詞語相似度計(jì)算方法,可計(jì)算的詞語范圍得到了一定的擴(kuò)充,充分利用了詞語在兩個(gè)不同知識庫中層次體系結(jié)構(gòu)和語義的信息,從而使詞語相似度的計(jì)算更加全面,也更加精確.

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)設(shè)計(jì)

        實(shí)驗(yàn)數(shù)據(jù)集:選自西安科技大學(xué)提供的中文語義相似度訓(xùn)練集,該訓(xùn)練集將句子相似度值控制在[0,5]區(qū)間,5表示相似度最高(意思一樣),0表示相似度最低(語義相反或不相干).從中篩選了具有代表性的20個(gè)句子作為標(biāo)準(zhǔn)集,每個(gè)標(biāo)準(zhǔn)句有10個(gè)相似句子作為相似集,另外選取500個(gè)與標(biāo)準(zhǔn)集中句子不相似的句子作為噪聲集.測試集由相似集和噪聲集組成,共計(jì)700個(gè)句子.

        實(shí)驗(yàn)方法:依次選取標(biāo)準(zhǔn)集中的第i(1≤i≤20)個(gè)句子,與測試集中的700個(gè)句子兩兩計(jì)算相似度,然后選取相似度數(shù)值大的10個(gè)句子,根據(jù)這10個(gè)句子與第i個(gè)句子的10個(gè)相似句子的共有句子數(shù),判斷該計(jì)算方法的準(zhǔn)確程度.

        評價(jià)指標(biāo):主要采用準(zhǔn)確率P(Precision)、召回率R(Recall)和F值作為實(shí)驗(yàn)效果的度量標(biāo)準(zhǔn)[21].準(zhǔn)確率是選取的句子樣本中有多少是真正的相似句子樣本;召回率是在相似句子樣本中被選取的比例;F值是準(zhǔn)確率和召回率的組合度量,F(xiàn)值越大,實(shí)驗(yàn)結(jié)果越準(zhǔn)確.具體計(jì)算公式為:

        (12)

        (13)

        (14)

        式中:R1為200個(gè)相似句子的集合,R2為計(jì)算方法選取的句子集合.

        3.2 實(shí)驗(yàn)結(jié)果分析

        根據(jù)實(shí)驗(yàn)方法,對標(biāo)準(zhǔn)集中的每個(gè)句子和測試集句子進(jìn)行相似度計(jì)算,選取正確的相似句子樣本個(gè)數(shù)分布如圖5.

        圖5 各方法相似度計(jì)算效果

        提中出的基于依存句法與詞語語義的漢語句子相似度計(jì)算方法與其他4種方法的3個(gè)評價(jià)指標(biāo)如表5.

        表5 4種方法的性能對比

        通過表5中的實(shí)驗(yàn)數(shù)據(jù)可以看出,文中計(jì)算方法F值最高,與同類方法相比有一定程度的改進(jìn).基于HowNet的計(jì)算方法由于僅僅考慮了詞義的相似程度,且概念和詞庫在一定程度上不夠豐富,因此測試結(jié)果不太理想;基于Word2Vec的計(jì)算方法通過大規(guī)模語料庫訓(xùn)練得到詞向量模型來衡量句子相似度,相比基于詞典的方法3個(gè)指標(biāo)都得到了提升,但依賴于強(qiáng)大的語料庫,同時(shí)受數(shù)據(jù)噪聲的干擾比較大,導(dǎo)致計(jì)算正確率不高;結(jié)合依存關(guān)系和詞林的計(jì)算方法通過提取兩個(gè)句子之間的關(guān)系路徑來計(jì)算語義相似度,并結(jié)合詞林樹狀體系結(jié)構(gòu)計(jì)算詞語的相似度,考慮的比較全面,所以實(shí)驗(yàn)結(jié)果比較理想;第四種方法通過對句子模式歸納,識別出句子中的問題元,對中心詞擴(kuò)展.采用融合向量空間模型、TF-IDF方法、同義詞詞林的方法計(jì)算句子相似度.對特定規(guī)范和格式的句子計(jì)算性能較好,但需要大量歸納句子模式及問題元,適應(yīng)性比較窄,穩(wěn)定性低.文中方法的F值有了一定的提升是因?yàn)樵谝来骊P(guān)系的基礎(chǔ)上,構(gòu)建“依存關(guān)系三元組”,更加精確地計(jì)算句子中相同依存關(guān)系的相似度,對句子格式?jīng)]有要求.并且更加全面地利用了詞語在知網(wǎng)和詞林本體知識中的語義信息.既考慮了句子語法結(jié)構(gòu)的深層信息,也考慮了句子中詞匯詞義上的表層信息.

        4 結(jié)論

        文中提出的漢語句子相似度計(jì)算方法,在詞語相似度計(jì)算研究的基礎(chǔ)上,從句子的依存句法分析樹中構(gòu)造依存關(guān)系三元組,進(jìn)而考慮到了句子成分、依存關(guān)系、詞語語義等多個(gè)語義特征對句子相似程度的影響.對兩個(gè)句子中的有相同依存關(guān)系的依存關(guān)系三元組進(jìn)行相似度計(jì)算,不同的依存關(guān)系賦予不同的權(quán)重,并且在詞語相似度計(jì)算中充分利用了詞語在兩個(gè)不同知識庫中的語義信息.實(shí)驗(yàn)表明:該算法的準(zhǔn)確率相比同類方法有了一定的提高,證實(shí)了其有效性,但其未考慮專業(yè)領(lǐng)域中專業(yè)詞匯對相似度計(jì)算的影響,下一步將根據(jù)專業(yè)詞匯獲取句子主題特征,并加入到相似度計(jì)算,最后將相似度計(jì)算方法應(yīng)用于考試系統(tǒng)中主觀題自動評分中.

        猜你喜歡
        知網(wǎng)三元組計(jì)算方法
        基于語義增強(qiáng)雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
        著作權(quán)使用聲明
        浮力計(jì)算方法匯集
        關(guān)于余撓三元組的periodic-模
        基于知網(wǎng)的翻譯研究方向畢業(yè)論文寫作
        近三年維吾爾語言研究情況綜述
        隨機(jī)振動試驗(yàn)包絡(luò)計(jì)算方法
        HowNet在自然語言處理領(lǐng)域的研究現(xiàn)狀與分析
        科技視界(2016年5期)2016-02-22 11:41:39
        不同應(yīng)變率比值計(jì)算方法在甲狀腺惡性腫瘤診斷中的應(yīng)用
        欧美巨大精品欧美一区二区| 激情内射人妻1区2区3区| 亚洲av一二三四区四色婷婷 | 欧美色aⅴ欧美综合色| 中文字幕无码免费久久9| 今井夏帆在线中文字幕| 中文字幕日韩人妻在线视频| 国产精品福利视频一区| 丰满熟妇人妻无码区| 亚洲av综合av国一区二区三区| 亚洲av无码成h在线观看| 中文字幕一区二区人妻| 日韩偷拍一区二区三区视频| 国产一区二区三区在线观看黄| 亚洲av成人无码久久精品老人| 最近最好的中文字幕2019免费| 伊人婷婷色香五月综合缴激情 | 国产成人亚洲一区二区| 一本色道久久综合无码人妻| 日韩www视频| 亚洲色图视频在线观看,| 久久精品中文字幕女同免费| 亚洲精品一区久久久久久| 日韩亚洲制服丝袜中文字幕| 97中文乱码字幕在线| 免费大片黄国产在线观看 | 亚洲中文字幕久久精品蜜桃| 手机在线中文字幕av| 无码 人妻 在线 视频| 亚洲爱婷婷色婷婷五月| 国产精品国产三级国产an| 久久精品亚洲成在人线av乱码| 小sao货水好多真紧h无码视频| 人妻丰满熟妇av无码区hd| 日韩日本国产一区二区| 国产精品免费无遮挡无码永久视频| 国产精品成人99一区无码| 久久国产av在线观看| 在线观看 国产一区二区三区| 国产精品ⅴ无码大片在线看| 91精品国产91久久久久久青草|