亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語義與情感的句子相似度計算方法

        2021-08-19 11:01:24楊延嬌趙國濤王丕棟
        計算機工程與應(yīng)用 2021年16期
        關(guān)鍵詞:修飾詞計算方法語義

        楊延嬌,趙國濤,王丕棟

        西北師范大學(xué) 計算機科學(xué)與工程學(xué)院,蘭州730070

        句子相似度計算是自然語言處理中一項重要的基礎(chǔ)性研究,相關(guān)研究成果可以廣泛應(yīng)用到許多方面。在智能問答系統(tǒng)中,使用句子相似度從原始數(shù)據(jù)庫中找出與目標句子最相似的句子[1];在機器翻譯中,使用句子相似度從實例集中找出與待翻譯語句最相似的源語句[2];在文本自動分類中,使用句子相似度作為判別構(gòu)成文本的句子集歸類的主要標準[3];在文本檢測和文本查重中,句子相似度計算作為核心標準,決定了文本檢測和查重的準確率[4]。因此,句子相似度是一項重要的計算標準,其計算效率和準確率可影響到許多相關(guān)系統(tǒng)的運行效率。

        目前國外成熟的句子相似度計算方法有簡單匹配、最長公共子序列(Longest Common Length,LCS)、萊文斯坦距離(Levenshtein Distance)、Jaccard等[5]。不同于印歐語言以單詞為語義的最小單位,中文因為其構(gòu)詞表意的靈活性,使得上述方法應(yīng)用于中文句子相似度計算時,只考慮到了詞語的字面信息與句子相互轉(zhuǎn)化的次數(shù)等特征,而忽略了詞語的語義信息和操作可能引起的語義差異,導(dǎo)致此類方法對中文句子相似度計算準確率較低。

        在此基礎(chǔ)上,Ruan等[6]使用詞嵌入技術(shù),結(jié)合Word2vec與神經(jīng)網(wǎng)絡(luò)來計算句子相似度,這種方法考慮到了句子形態(tài)信息,但未考慮到句子語義信息。Gokul等[7]使用句子中關(guān)鍵詞的同義詞,結(jié)合余弦相似度在喜馬拉雅語中查找相似短語,取得了不錯的效果,但該方法適用于特定語言,通用性小。李曉等[8]使用哈爾濱工業(yè)大學(xué)LTP平臺,結(jié)合Word2vec模型提取句法結(jié)構(gòu)來計算句子的語義相似度,提高了相似度計算的準確率。翟社平等[9]提出一種融合多特征的句子相似度計算方法,分別提取詞性、詞序及句長特征計算句子相似度,提高了句子相似度計算的準確率,但該方法計算過程依靠本體詞語庫,若本體詞語庫很小則方法計算結(jié)果會出現(xiàn)偏差。陳俊月等[10]結(jié)合詞向量技術(shù)對傳統(tǒng)萊文斯坦距離方法和Jaccard方法進行了改進,提出一種多特征組合的句子相似度算法,提升了句子相似度計算的精度和效率。鄧涵等[11]在詞語相似度的基礎(chǔ)上分析句子的句法結(jié)構(gòu)和依存關(guān)系,提取出句子中的“主謂介賓”結(jié)構(gòu),并結(jié)合修飾詞分別計算各部分相似度。實驗證明該方法有不錯的準確率與F值,但該方法在提取“主謂介賓”的同時忽略了其他句子成分,遺漏了許多重要信息。紀明宇等[12]通過詞向量和神經(jīng)網(wǎng)絡(luò)提取詞語級與句子級的語義特征,在金融領(lǐng)域智能客服句子相似度計算上取得了不錯的效果。

        綜上所述,現(xiàn)有句子相似度計算方法計算句中關(guān)鍵詞以及關(guān)鍵詞附加部分相似度,或者直接比較組成句子詞語的相似度,以之代表整個句子的相似度,容易造成信息遺漏問題,且無法從語句表意內(nèi)容方面綜合計算,為此本文提出一種基于語義與情感的句子相似度計算方法,從更細粒度方面綜合比較句子中各個語義獨立成分以及各個語義獨立成分組成部分,結(jié)合情感與句型因子計算出一種綜合的句子相似度值。

        1 基于語義與情感的句子相似度計算方法

        1.1 本文創(chuàng)新點

        相似度是兩個事物之間的相似程度,句子是由詞或詞組按照一定的語法結(jié)構(gòu)組成的表達一個完整意思的語言單位,句子作為一個整體,其相似性建立在部分相似性的基礎(chǔ)上。起初的漢語句子相似度計算方法是基于字的,后來出現(xiàn)基于詞語的句子相似度計算方法,詞語類似于英文中的單詞,實驗證明,基于詞語的句子相似度計算方法在準確率上遠高于基于字的句子相似度計算方法。

        傳統(tǒng)的句子相似度計算方法基于詞語,以兩句中詞語的相似度表示兩句相似度,基于詞語的相似度計算方法通過鏈式最大匹配法計算句子相似度,方法過程簡單,準確率低。之后學(xué)者們在此基礎(chǔ)上加入了詞序詞長等影響因子,取得了一定效果,但這些方法未考慮到詞語在句中的語義語法特性,因此方法的效率受到限制。

        文獻[8]與文獻[11]使用哈工大LTP平臺對句子進行句法依存分析,以得到句子主謂賓部分,通過計算主謂賓部分相似度得到兩句相似度。這兩種方法考慮到了句中詞語的語法特征,相較于上述僅基于詞語的方法效率有所提升,但僅僅通過依存關(guān)系并不能準確得到詞語在句中的語義定位,且只提取主謂賓部分計算句子相似度容易遺漏其他重要成分,造成計算結(jié)果的偏差。

        因中英語言的差異性,適用于英文單詞體系的句子相似度算法在移植到中文時,未考慮到中文句子靈活多變的表達特點。以上兩種方法雖然在依存關(guān)系上對句子進行句法結(jié)構(gòu)分析,但還是基于詞語的句子相似度計算方法,句子相似度計算仍停留在詞語階段。

        考慮到中文語言的特性,相較于基于詞語的句子相似度計算方法而言,基于句意即基于理解的句子相似度計算方法具有更強的合理性與可解釋性。本文方法從表意層面計算兩句之間的相似度,在句法依存關(guān)系分析的基礎(chǔ)上對句子進行語義角色標注,使用語義角色標注結(jié)果將句子劃分為語義上獨立的若干部分,提取出句中動作發(fā)起者(廣義主語)、謂語、動作目標(廣義賓語)、動作效果、時間狀語、地點狀語、原因狀語等語義獨立成分,這些語義上的獨立成分囊括句中所有詞語,沒有遺漏任何信息,保證了本文方法計算結(jié)果的可靠性。

        得到兩句語義獨立成分后,本文方法根據(jù)語義獨立成分的標簽對各語義獨立成分賦予相似度權(quán)重系數(shù),然后計算兩句中相同標簽語義獨立成分(相同性質(zhì)的完整表意部分)相似度,計算過程中使用依存關(guān)系判別核心詞與修飾詞,參照詞法關(guān)系賦予各部分權(quán)重系數(shù),之后加權(quán)計算語義獨立成分相似度,從而得到句子整體相似度。最后使用情感值字典定量計算兩句的情感總值,在句子整體相似度的基礎(chǔ)上對情感差值大于閾值的兩句計算情感減益,對符號不同的高相似句子計算句式減益得到句子最終相似度。本文方法在表意層面上綜合情感與句式因子,使計算結(jié)果更加準確。本文方法句子整體相似度計算公式如式(1)所示:

        其中,S1、S2表示第一句與第二句;Pi為句子語義獨立成分,例如動作發(fā)起者、謂語、動作目標、動作效果、時間地點狀語;Sim(S1Pi,S2Pi)為兩句中此語義獨立成分的相似度;αS1Pi、αS2Pi為第一、二句此語義獨立部分的全局權(quán)重系數(shù)(當(dāng)任一句此部分為空時,值為0);min()為取最小值方法。

        1.2 詞語相似度計算方法

        句子相似度計算依賴于詞語相似度計算,本文方法使用哈工大《同義詞詞林》擴展版[13]計算詞語相似度。《同義詞詞林》是梅家駒等人[14]編撰的可計算漢語詞庫,用于同義詞及近義詞的歸類,經(jīng)哈爾濱工業(yè)大學(xué)社會計算與信息檢索中心擴展后,包含7萬多詞語,9萬多概念,這些概念被分為12個大類、95個中類、1 428個小類、4 026個詞群以及17 797個原子詞群[15],基本上涵蓋了日常生活中使用的大部分詞語?!锻x詞詞林》擴展版中詞語具體編碼示例如表1所示。

        表1 同義詞詞林編碼示例Table 1 SynonymCilin coding example

        文獻[16]提取詞林詞語編碼的最大公共塊,根據(jù)最大公共塊的長度計算詞語相似度,計算公式如式(2)所示:

        其中,coeff是不同層的影響系數(shù),公共塊的長度越大,coeff值越高;n是詞語所在分支的分支數(shù),即分支所在父節(jié)點的分支總數(shù);k是兩個詞語編碼對應(yīng)分支的距離;degree是內(nèi)置值,取180。

        文獻[17]提出一種以詞語距離d為主要因素,以分支節(jié)點數(shù)n與分支間隔數(shù)k作為調(diào)節(jié)參數(shù)的詞林詞語相似度計算方法,計算公式如式(3)所示:

        文獻[17]將同義詞詞林編碼分為五層樹結(jié)構(gòu),層次從高到底依次為大類、中類、小類、詞群、原子詞群,五層樹連接邊w1、w2、w3、w4的權(quán)重分別取0.5、1.0、2.5、2.5。式(3)中Dis()為詞語在樹狀結(jié)構(gòu)中的距離函數(shù),函數(shù)值等于詞語對的連接路徑中各邊的權(quán)重之和,取值為2w1、2(w1+w2)、2(w1+w2+w3)、2(w1+w2+w3+w4)。

        文獻[18]在《同義詞詞林》擴展版的基礎(chǔ)上進行本體改造,提出一種基于信息內(nèi)容的詞林詞語相似度計算方法,通過計算兩個概念及其父節(jié)點的信息內(nèi)容得到詞語相似度,計算公式如式(4)所示:

        其中,MaxDiff表示差異上界;MinDiff表示差異下界;Dis(C1,C2)表示詞語C1與C2的差異值。

        以上三種詞語相似度計算方法各有側(cè)重,各方法在計算某些詞語時會因為方法限制出現(xiàn)相似度過小的現(xiàn)象。而本文方法計算過程中多次進行乘法操作,為了保證計算結(jié)果的可靠性,使用上述詞語相似度計算方法結(jié)果最大值作為詞語相似度值,計算公式如式(5)所示:

        1.3 語義分析

        哈爾濱工業(yè)大學(xué)語言技術(shù)平臺(Language Technology Platform,LTP)提供了包括分詞、詞性標記、依存關(guān)系分析、語義角色標記等一系列中文信息處理功能[19]。

        本文使用哈工大LTP平臺作為句子結(jié)構(gòu)分析工具,通過哈工大LTP平臺對句子進行預(yù)處理,包括分詞、詞性標記、句法依存關(guān)系分析、語義角色標注,并將分詞結(jié)果與其對應(yīng)的詞性標記、句法依存標記共列為一項,將語義角色標注結(jié)果單獨列出。

        哈工大LTP平臺語義角色標注結(jié)果由語義角色標簽和分詞區(qū)間組成,本文方法根據(jù)語義角色標簽和分詞區(qū)間將句子劃分為語義上的獨立成分。LTP平臺語義角色標簽及其意義如表2所示。

        表2 語義角色標簽及其意義Table 2 Semantic role tags and their meaning

        例句“這本好看的書什么時候上架?”經(jīng)過哈工大LTP平臺預(yù)處理后,得到詞項列表:[(這,r,2,ATT,1),(本,q,5,ATT,2),(好看,a,5,ATT,3),(的,u,3,RAD,4),(書,n,8,SBV,5),(什么,r,7,ATT,6),(時候,n,8,ADV,7),(上架,v,0,HED,8),(?,wp,8,WP,9)]與語義角色標注結(jié)果[(A1,1,5),(TMP,6,7)]。

        詞項列表中詞項為元組,元組中第一項為分詞,第二項為分詞詞性,第三項為句法依存關(guān)系中分詞指向位置序號,第四項為句法依存標記,第五項為此項在句子中的位置序號。

        以詞項(好看,a,5,ATT,3)為例,分詞詞語為“好看”,詞性為“a”即形容詞,依存關(guān)系指向為5即修飾句中位置序號為5的詞項(書,n,8,SBV,5),依存標記“ATT”說明此詞語為形容詞性修飾部分修飾依存關(guān)系指向詞語,位置序號為3說明此詞語為句中第三個詞。需要注意的是,LTP句法依存標記中標記為“HED”的部分指向0項,此項為句子虛擬根節(jié)點,并無實際意義。

        語義角色標記結(jié)果中第一項為此區(qū)間的標簽意義,二、三項為此區(qū)間的起始位置與結(jié)束位置。如(A1,1,5)中A1表示此項為動作目標,1為此區(qū)間在句中的起始位置。5為此區(qū)間在句中的結(jié)束位置,例句中“這本好看的書”為A1區(qū)間內(nèi)容,作為“上架”的動作目標,是語義上完整獨立部分。得到語義獨立成分后,根據(jù)語義角色標簽給句中語義獨立成分分配權(quán)重系數(shù),如式(6)所示。

        其中,α1,α2,…,αn表示n個語義獨立成分權(quán)重系數(shù),和為1。

        在漢語言中,詞法、形態(tài)與句法之間并沒有明確的界限[20],詞法結(jié)構(gòu)和句法結(jié)構(gòu)具有同一性。文獻[21]整理了各類型構(gòu)詞結(jié)構(gòu)詞語貢獻度,鑒于詞法結(jié)構(gòu)與句法結(jié)構(gòu)的同一性,本文方法使用文獻[21]中相關(guān)系數(shù)參照語義角色標簽對句子中各語義獨立成分賦予全局相似度權(quán)重系數(shù),其中A0視為主語、A1視為賓語、A2視為補語、TMP與LOC等視為定語或狀語。表3為文獻[21]構(gòu)詞結(jié)構(gòu)貢獻度表。

        表3 構(gòu)詞結(jié)構(gòu)貢獻度Table 3 Contribution of word formation

        語義獨立成分中A0區(qū)間為動作發(fā)起者,A1區(qū)間為動作目標,A2區(qū)間為動作效果,其他區(qū)間意義如表2所示。在簡單的主謂賓結(jié)構(gòu)句子中,A0為句法依存標記為“SBV”的詞語(主語),A1為句法依存標記為“VOB”的詞語(賓語)。在帶有從句的復(fù)雜句子結(jié)構(gòu)中,A0與A1為名詞性短語,并不僅僅是句法依存標記中“SBV”與“VOB”詞語,且在A0區(qū)間中可能出現(xiàn)句法依存標記為“VOB”的詞語,在A1區(qū)間中可能出現(xiàn)句法依存標記為“SBV”的詞語。綜上所述,本文認為A0部分為句子廣義主語(動作發(fā)起者),A1部分為句子廣義賓語(動作目標)。

        本文將句法依存標記為“HED”的詞語作為單獨的HED部分即謂語部分,除單名詞組成句子外,所有句子都有謂語部分,此部分不出現(xiàn)在語義角色標注結(jié)果中,由本文方法單獨標識。

        因此當(dāng)語義角色標注結(jié)果僅為A0時,說明句子是主謂結(jié)構(gòu),參考表3中主謂結(jié)構(gòu)相關(guān)系數(shù),對A0與HED部分分別賦予權(quán)重系數(shù)0.4、0.6。

        當(dāng)出現(xiàn)兩個或以上語義角色標簽時,各語義獨立成分權(quán)重系數(shù)賦值方法如下:當(dāng)語義角色標簽數(shù)目為2時,HED部分權(quán)重系數(shù)為0.4,當(dāng)語義角色標簽數(shù)目大于2時,HED部分權(quán)重系數(shù)為0.3,其他部分中名詞性部分A0與A1占1.5個最低優(yōu)先級,其余部分占1個最低優(yōu)先級(實詞性部分相較于虛詞性部分具有更大的表意屬性)。如式(6)所示,各語義獨立成分權(quán)重系數(shù)之和為1,除HED部分外其他部分權(quán)重系數(shù)總和為1-αHED。首先使用(1-αHED)/n(n為其他部分所占最低優(yōu)先級數(shù)目之和)計算出每個最低優(yōu)先級單位所占權(quán)重系數(shù),然后乘于獨立成分所占最低優(yōu)先級數(shù)得到獨立成分的全局權(quán)重系數(shù)。

        例如當(dāng)語義角色標記結(jié)果為A0、A1時,說明句子為主謂賓結(jié)構(gòu),參考表3相關(guān)系數(shù)和上述權(quán)重系數(shù)賦值方法,對A0、HED與A1部分分別賦予權(quán)值0.3、0.4、0.3,其他情況時分別參考表3相關(guān)系數(shù)賦值。

        得到各語義獨立成分權(quán)重系數(shù)之后,本文方法將兩句中相同標簽語義獨立成分進行比較。例如用第一句A0部分比較第二句A0部分,即比較兩句動作發(fā)起者(廣義主語)的相似度。在語義獨立成分內(nèi)部比較時,根據(jù)語義獨立成分標簽找出獨立成分的核心詞語,在A0和A1等名詞性語義獨立成分中,句法依存標記為“SBV”與“VOB”的詞語為核心詞語,在TMP等狀語定語性語義獨立成分中,句法依存標記為“ADV”的詞語為核心詞語。

        找到核心詞語后,根據(jù)依存關(guān)系找出指向核心詞語的修飾詞,并將修飾詞按詞性加入對應(yīng)修飾詞表。例如將詞性為“a”的詞語加入形容詞修飾詞表,將詞性為“q”的詞語加入量詞修飾詞表,將詞性為“n”的詞語加入名詞修飾詞表,并根據(jù)修飾詞表種類分配修飾詞表與核心詞語的權(quán)重系數(shù),權(quán)重系數(shù)分配參考表3。

        獨立成分中修飾詞種類越多,核心詞語權(quán)重越小,沒有任何修飾詞時,核心詞語權(quán)重為1.0。當(dāng)修飾詞表只有一種成分時,查表3得修飾詞與核心詞語權(quán)重系數(shù)。例如當(dāng)修飾詞表只有形容詞表時,修飾詞與核心詞語形成定中結(jié)構(gòu),查表3得形容詞與核心詞語權(quán)重系數(shù)分別為0.3、0.7。當(dāng)修飾詞表有多種成分時,核心詞權(quán)重系數(shù)為0.5,形容詞表與名詞表占1.5個最低優(yōu)先級,其余詞表占1個最低優(yōu)先級,計算方法如語義獨立成分權(quán)重系數(shù)計算方法。

        詞表相似度為表中詞語相似度,實驗發(fā)現(xiàn),絕大多數(shù)句子中同一類型修飾詞語為0或1個,極少出現(xiàn)兩個及兩個以上同一類型修飾詞語。為了簡化計算,鑒于漢語重心后移現(xiàn)象,逆序選擇兩句同類型修飾詞表中第一個詞語(后置位詞語)計算詞語相似度得到修飾詞表相似度。

        式(7)為A0與A1部分相似度的計算公式,以A0部分為例:

        其中,S1A0HED、S2A0HED為第一句與第二句A0部分核心詞語;SimATT(S1A0ATT,S2A0ATT)為兩句A0部分形容詞表相似度;Simq(S1A0q,S2A0q)表示兩句A0部分量詞表相似度;以α開頭的為對應(yīng)部分的權(quán)重系數(shù)。

        式(7)省略的部分有名詞詞表、代詞詞表等,此類詞語最多只有一種黏著性修飾部分(修飾此詞語的部分),參照表3相關(guān)系數(shù)對詞語與其黏著性修飾部分賦予權(quán)重系數(shù),加權(quán)計算得到詞表相似度。

        修飾詞中,形容詞性修飾詞可能會有副詞或者前附加詞作為黏著部分。例如在短語“非??鞓返摹敝?,副詞“非?!毙揎棥翱鞓贰保暗摹弊鳛榭鞓返那案郊硬糠中揎棥翱鞓贰保ㄇ案郊邮请p詞組合結(jié)構(gòu),核心詞在前,附加詞在后,后附加同理),參考表3分別對副詞“非?!?、形容詞“可愛”、前附加詞“的”賦予0.3、0.6、0.1的權(quán)重系數(shù)。式(8)為形容詞性修飾詞相似度計算方法。

        其中,A1、A2為形容詞及其黏著部分;WS()為本文詞語相似度計算方法;A1ATT、A2ATT為形容詞本身;A1ADV、A2ADV為修飾形容詞的副詞;A1RAD、A2RAD為修飾形容詞的前附加部分;以α開頭的為對應(yīng)部分權(quán)重系數(shù)。

        計算HED部分相似度,即謂語部分相似度時,需要考慮到語義角色標注結(jié)果中的ADV部分,此部分為謂語副詞,用于修飾句子的HED部分(句法依存標記為“HED”的詞語)。本文方法并未將ADV部分當(dāng)作一個語義獨立成分看待,而是將其加入到HED部分的計算中。本文使用知網(wǎng)總結(jié)的否定詞表判斷ADV部分中的否定詞,使用知網(wǎng)總結(jié)的程度詞表判斷ADV部分中的程度詞,在此基礎(chǔ)上參照文獻[11]中相關(guān)系數(shù)對程度副詞賦予程度系數(shù),例如“極其”類系數(shù)為1.4,“欠”類系數(shù)為0.4。

        本文方法設(shè)置一個謂語系數(shù)λ,初始化為1,當(dāng)謂語部分出現(xiàn)否定副詞時,λ=-λ,當(dāng)出現(xiàn)程度副詞時,λ=κλ,κ為程度系數(shù)。這種方法解決了雙重否定以及多重否定句子的相似度計算問題。HED部分相似度計算公式如式(9)所示:

        計算其他語義獨立成分例如TMP(時間狀語)相似度時,本文方法依照兩句語義獨立成分的詞語數(shù)目,對滿足條件的部分使用縮略詞語相似度計算方法。實驗發(fā)現(xiàn),在許多時間地點等定語、狀語性語義獨立成分中,常有縮略詞語出現(xiàn),如縮略詞語“明晚”與短語“明天晚上”意義完全相同,表達卻不同,使用普通的計算方法容易得到極小的相似度值,本文針對此類特征設(shè)計了縮略詞語相似度計算方法。特別是兩部分出現(xiàn)一二結(jié)構(gòu)時(一部分只含一個詞語,另一部分包含兩個詞語),方法取唯一詞語的前一個字與另一部分中第一個詞語計算相似度乘前語貢獻系數(shù)0.4,取唯一詞語后一個字與另一部分中第二個詞語計算相似度乘后語貢獻系數(shù)0.6,相加得到縮略詞語與短語的相似度。

        本文詞語相似度計算方法使用《同義詞詞林》擴展版,在詞的編碼中,單字總是排在相關(guān)詞語的原子詞群中,非常有利于縮略詞與短語的相似度計算,保證了縮略詞語相似度計算方法的可行性。

        將上述各部分語義獨立成分計算公式代入式(1),得到句子整體相似度具體計算公式,如式(10)所示:

        式(10)省略的語義獨立成分相似度計算方法較為簡單,省略部分無復(fù)雜的構(gòu)造,一般只由一至兩個詞語構(gòu)成,計算詞語相似度得到語義獨立成分相似度。

        由式(10)可知,本文方法將句子分成語義上的獨立成分,加權(quán)計算語義獨立成分相似度得到句子整體相似度,即使兩句組成不一致,仍能計算出一種合理的相似度值。本文方法通過靈活賦值的方式增加了句子相似度計算的魯棒性。

        1.4 情感分析

        在上一節(jié)得到句子整體相似度之后,還需對句子進行情感分析,進一步提高句子相似度計算的準確率。在情感計算方面,文獻[11]使用知網(wǎng)褒貶義詞典提取句中定中或狀中關(guān)系形容詞,比較兩句形容詞褒貶性是否相同,以此粗粒度地判斷兩句是否為相同情感指向(同褒或同貶),對情感進行定性計算。而在現(xiàn)實世界中,情感除了有褒貶之分,亦有強度之別,“喜”“大喜”“狂喜”同為喜悅,表意程度上大有不同,通過定性計算難以區(qū)分情感程度。

        本文使用BosonNLP情感值詞典[22]對句中詞語進行定量情感計算。BosonNLP情感詞典是從大規(guī)模網(wǎng)絡(luò)語料庫中自動構(gòu)建的情感極性詞典,包括114 767個詞語及其情感值,基本囊括了所有規(guī)范用語與非規(guī)范用語,詞典中褒義詞詞性為正,貶義詞詞性為負,其值隨詞語褒貶義程度強弱而變化,取值范圍為-6.5~+6.5。

        因為動詞與名詞也有強烈的情感趨向,所以本文方法不僅計算句子中形容詞的情感值,還計算句子中名詞與動詞的情感值。

        句子是表達情感的表意結(jié)構(gòu),在一個完整的句子中,極少出現(xiàn)褒貶義詞同時存在的情況,句子整體情感趨于穩(wěn)定,因此本文計算句子的情感總值衡量句子的情感傾向。直接使用情感字典計算句子情感總值會因詞語數(shù)目差異出現(xiàn)突?,F(xiàn)象,當(dāng)句子出現(xiàn)許多情感詞語,尤其是情感趨向強烈的詞語時,直接計算情感總值會得到過高或過低的結(jié)果,與正常句區(qū)分明顯,如此機械地判斷句子情感傾向是不合理的。

        受到經(jīng)典聚類算法K-Means的啟發(fā),本文方法使用簡單K-Means方法聚類句中詞語的情感值(單維度聚類),取類中心詞語情感值做和處理,作為句子的情感總值。具體方式為:依序選擇句中情感詞語,將其作為初始聚類中心,并將情感值位于此詞語1.0范圍內(nèi)的詞語加入此類,循環(huán)此過程直至遍歷所有情感詞語,最后使用K-Means聚類過程聚類兩次得到最終聚類結(jié)果。這種變K值的單維K-Means方法將兩句的情感值平滑處理,避免因兩句情感詞語數(shù)目差異影響本文情感值的計算。

        通過大量實驗發(fā)現(xiàn),當(dāng)兩句的情感總值差值(絕對值)大于1.7(約為情感詞典極值的1/4)時,句子的情感傾向開始出現(xiàn)明顯差距,說明兩句情感傾向不同。為此當(dāng)兩句的情感總值相差大于1.7時,在上一節(jié)句子整體相似度的基礎(chǔ)上計算情感減益,如式(11)所示:

        其中,Mood(S1)與Mood(S2)表示第一句與第二句的情感總值。

        最后,參考文獻[8]對句式因子的處理,本文方法使用句法依存標記中WP(標點符號)部分判定句式,將句子分為疑問句、祈使句、陳述句三種類型。參考文獻[8]中句式影響因子,對不同句式設(shè)置懲罰因子,將疑問句與其他句式的懲罰因子設(shè)置為0.1,其余句式間的懲罰因子設(shè)置為0.5。計算情感減益之后,對相似度大于0.8的句子對(高相似句子對)計算句式減益,即在句子相似度值上乘于句式懲罰因子得到句子最終相似度。

        2 實驗與結(jié)果分析

        2.1 實驗環(huán)境

        硬件環(huán)境:Intel?CoreTM4510-U,內(nèi)存8 GB。軟件環(huán)境:Win10 64位,Python3.6+Pycharm2019.3.4。LTP庫:ltp_data_v3.4.0。

        2.2 實驗設(shè)計與評價指標

        中文句子并沒有標準的相似度計算句庫,本文從人工構(gòu)建的簡單句庫、復(fù)雜句庫、主謂句庫與非主謂句庫共600句中隨機選取30組句子作為測試集,并請12位專業(yè)人士對句子進行判斷,給出相似度值取平均作為核定標準,判斷核定標準0.1范圍內(nèi)的句子相似度值為正確結(jié)果。

        本文使用語義方法、Word2vec方法、海明距離方法、VSM方法、文獻[8]方法和文獻[11]方法6種句子相似度計算方法做對比實驗,使用準確率、MSE與RMSE評價實驗效果。

        MSE為均方誤差函數(shù),用來檢測模型預(yù)測值與真實值之間的偏差,MSE值越小,說明模型預(yù)測結(jié)果越貼近于真實值。RMSE為MSE的平方根。MSE的計算公式如式(12)所示,RMSE的計算公式如式(13)所示。

        其中,ym為真實值,y?m為模型預(yù)測值。

        2.3 實驗結(jié)果與分析

        表4 為各方法在測試集上的實驗結(jié)果,表5從測試集中隨機選取了5組句子,展示了本文方法與對比方法對例句的相似度計算結(jié)果。

        表4 實驗結(jié)果Table 4 Experimental results

        表5 部分實驗結(jié)果數(shù)據(jù)對比Table 5 Comparison of some experimental results

        由表4可知,不考慮語義特征的句子相似度計算方法準確率較低,基于句法依存關(guān)系與情感信息的方法準確率較高,本文提出的基于語義與情感的句子相似度計算方法具有最高的準確率與最小的MSE值,優(yōu)于上述對比方法,具有優(yōu)良的實用性。

        語義方法使用文獻[17]方法計算詞語相似度,通過鏈式法則以計算兩句中詞語最大相似度的方式得到兩句相似度;Word2vec方法基于WordEmbedding(詞嵌入),通過One-Hot和神經(jīng)網(wǎng)絡(luò)將詞語轉(zhuǎn)化為詞向量,將詞向量的均值歸一化作為句向量,計算句向量的余弦相似度得到句子相似度;海明距離方法使用SimHash將分詞后句子轉(zhuǎn)化為編碼,計算兩句編碼海明距離,以此作為兩句之間的相似度;VSM方法將句子映射為一個特征向量,通過對比特征向量的相似度得到句子相似度。

        上述四種句子相似度計算方法基于詞語、詞向量或句向量,并未考慮語義關(guān)系與情感信息,當(dāng)計算語義結(jié)構(gòu)不同或情感傾向不同(情感差值大于閾值)句子的相似度時,方法準確率較低。

        文獻[8]方法結(jié)合Word2vec與句法結(jié)構(gòu),使用Word2vec計算主謂賓相似度,使用詞語依存關(guān)系計算句法結(jié)構(gòu)相似度,綜合得到句子相似度。該方法有一定準確率,但其對主謂賓部分賦予固定的0.3、0.5、0.2的全局權(quán)重系數(shù),并非所有句子都有完整的主謂賓結(jié)構(gòu),對主謂賓部分固定賦值的方式降低了句子相似度計算的魯棒性與靈活性,且該方法并未考慮到句子的情感信息,無法有效計算不同情感傾向句子的相似度。

        文獻[11]方法提取主謂介賓與修飾部分計算句子相似度,在本文測試集上取得了不錯的效果,但該方法只提取主謂介賓與修飾詞計算句子相似度,存在信息遺漏問題。在情感計算方面,該方法提取定中或狀中關(guān)系中的修飾詞,參照知網(wǎng)總結(jié)的褒貶義詞表對兩句做褒貶義的情感趨向判斷,忽略了句中其他單元的情感信息。如表5第五組句子所示,“笑”與“哭”作為謂語,并不參與到情感計算中,導(dǎo)致該方法對第五組句子相似度值計算過高。

        不同于上述基于詞語的句子相似度計算方法,本文方法計算范圍包含句中所有詞語,解決了信息遺漏問題,計算結(jié)果更具可靠性;從表意層面計算句子相似度,通過對比兩句表意單元的相似性得到句子整體相似度,相對于上述基于詞語的句子相似度計算方法而言,從句子表意屬性上計算句子相似度更加符合人類認知規(guī)律,更具合理性;使用分層次的計算策略,通過靈活賦值匹配比對的方式得到句子整體相似度,對比于上述基于詞語或關(guān)鍵詞語的句子相似度計算方法而言,具有更強的魯棒性,方法在計算結(jié)構(gòu)不同或長短不同的句子時總能得到一個合理的相似度值。

        在情感計算方面,以往句子相似度計算方法基本沒有參考句子的情感屬性,因此該類方法無法有效計算不同情感趨向句子的相似度。文獻[11]方法從句子褒貶義方面對句子情感趨向做粗粒度判斷,提升了句子相似度計算的準確率,但該方法的使用范圍有限,無法定量計算句子情感值。在句子整體相似度的基礎(chǔ)上,本文使用變K值的單維K-Means方法,結(jié)合情感詞典計算情感減益,以此對句子相似度進行情感修正。情感減益在情感傾向明顯不同的客觀句子相似度計算中作用顯著,如表5第五組句子所示,若不計算情感減益會得到0.939 671的相似度值,與人類理解出現(xiàn)較大偏差。通過情感減益,在計算不同情感傾向句子的相似度時,可以得到一個合理的相似度值,進一步提升句子相似度計算的準確率與可靠性。

        本文方法計算句子構(gòu)成簡單尤其是單一結(jié)構(gòu)句子相似度時,在不考慮情感因素的情況下與其他方法效果相當(dāng);計算句子構(gòu)成復(fù)雜尤其是帶有從句部分句子的相似度時,能有效地提取各語義獨立成分及其組成部分,計算得到更為精準的句子相似度值。

        綜合來看,本文提出的基于語義與情感的句子相似度計算方法對比其他方法具有更高的準確率與魯棒性,計算結(jié)果更加符合人們對漢語言的認知,具有良好的實用性。

        3 結(jié)束語

        本文基于語義和情感,提出一種更細粒度的句子相似度計算方法。該方法以語義獨立成分代替詞語作為判斷句子相似度的主要標準,從語義層面計算句子相似度,計算過程中結(jié)合了依存關(guān)系、詞法關(guān)系、情感與句型因子得到一種更為精確的句子相似度結(jié)果,通過實驗證明了本文方法的有效性。但本文方法句子相似度計算依賴哈工大LTP平臺,當(dāng)哈工大LTP平臺處理結(jié)果中語義角色缺失時,方法效率會受到影響。因此,下一步工作是在LTP平臺處理結(jié)果中語義角色缺失時補全語義角色,并盡可能綜合更多語義與情感信息,繼續(xù)提升基于語義與情感的句子相似度計算方法的效率。

        猜你喜歡
        修飾詞計算方法語義
        浮力計算方法匯集
        學(xué)加修飾詞
        語言與語義
        我屬“懶”
        “上”與“下”語義的不對稱性及其認知闡釋
        隨機振動試驗包絡(luò)計算方法
        不同應(yīng)變率比值計算方法在甲狀腺惡性腫瘤診斷中的應(yīng)用
        認知范疇模糊與語義模糊
        一種伺服機構(gòu)剛度計算方法
        基于語料庫的中國英語學(xué)習(xí)者期刊論文中的弱化修飾詞研究
        亚洲av成人精品日韩一区| 最新中文字幕人妻少妇| 日本爽快片100色毛片| 国产无遮挡又黄又爽又色| 天天干夜夜躁| 日韩女优在线一区二区| 香蕉成人伊视频在线观看| 性一交一乱一乱一视频| 久久亚洲伊人| 日韩av天堂综合网久久| 免费a级毛片无码免费视频首页| 男女裸交无遮挡啪啪激情试看| 国产香蕉尹人综合在线观| 国产一级黄色性生活片| 日本国产亚洲一区二区| 中文无码久久精品| 亚洲AV无码久久久一区二不卡| 国产精品久久国产三级国| 国产精品女老熟女一区二区久久夜 | 日本少妇浓毛bbwbbwbbw| 久久天天躁狠狠躁夜夜96流白浆| 国产美女精品AⅤ在线老女人| 精品少妇人妻av一区二区蜜桃| 国产精品538一区二区在线| 黄 色 人 成 网 站 免 费| 人妻av一区二区三区高| 久久久精品亚洲一区二区国产av| 国内精品视频在线播放不卡| h在线国产| 精品午夜中文字幕熟女| 无套熟女av呻吟在线观看| 欧美性开放bbw| 国产成人精品cao在线| 91九色国产老熟女视频| 久久视频在线| 亚洲 国产 哟| 男人一插就想射的原因| 人妻少妇久久久久久97人妻| 亚洲一区中文字幕在线电影网| 91青青草在线观看视频| 国产情侣一区二区三区|