亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

短文本語(yǔ)義相似度計(jì)算研究

2019-10-23 11:23:20張敏

微型電腦應(yīng)用 2019年10期

張敏

(西安翻譯學(xué)院工程技術(shù)學(xué)院，西安 710105)

0 引言

文本相似度計(jì)算方法在文本分類(lèi)、信息檢索、提取摘要、機(jī)器翻譯自動(dòng)評(píng)估方法、文本摘要等大型文檔或同義詞測(cè)試等自然語(yǔ)言處理和相關(guān)領(lǐng)域的應(yīng)用中已有很長(zhǎng)的歷史，文本相似度的度量方法也被發(fā)現(xiàn)對(duì)文本一致性的評(píng)價(jià)有幫助[1]。在網(wǎng)絡(luò)信息呈爆炸性增長(zhǎng)的互聯(lián)網(wǎng)時(shí)代，如何高效利用網(wǎng)絡(luò)信息，對(duì)自然語(yǔ)言處理領(lǐng)域的研究有著更高的要求。

在文本相似度計(jì)算方面，AGI RREE[2]等人通過(guò)計(jì)算在WordNet中詞節(jié)點(diǎn)之間上下位關(guān)系構(gòu)成的最短路徑來(lái)計(jì)算詞語(yǔ)之間的相似度。許多學(xué)者也考慮到其他因素對(duì)語(yǔ)義距離的影響，如SU J等人[3]根據(jù)兩個(gè)詞的公共祖先節(jié)點(diǎn)的最大信息量來(lái)衡量?jī)蓚€(gè)詞的語(yǔ)義相似度; Dekang Lin[4]等人在計(jì)算詞語(yǔ)的語(yǔ)義相似度時(shí)，除了節(jié)點(diǎn)間的路徑長(zhǎng)度外，還考慮到概念層次樹(shù)的深度和區(qū)域密度的影響。王斌[5]利用《同義詞詞林》作為語(yǔ)義詞典計(jì)算漢語(yǔ)詞匯的相似度;在語(yǔ)義相似度計(jì)算領(lǐng)域中，劉群[6]等對(duì)“知網(wǎng)”的知識(shí)描述語(yǔ)言進(jìn)行了研究。該方法采用了“整體的相似度等于部分相似度加權(quán)平均”的做法，充分利用了“知網(wǎng)”中對(duì)每個(gè)概念進(jìn)行描述時(shí)的豐富的語(yǔ)義信息，得到的結(jié)果與人的直覺(jué)比較符合。但該方法對(duì)于相關(guān)性詞語(yǔ)(如法院和警察)的相似度計(jì)算方面與人的直覺(jué)比較不符合，影響在文本分類(lèi)，文本聚類(lèi)，文檔自動(dòng)文摘等領(lǐng)域的應(yīng)用。此外江敏[7]等人又在劉群的基礎(chǔ)上，加入義原間的反義、對(duì)義關(guān)系來(lái)計(jì)算詞語(yǔ)的相似度。吳健[8]等人提出了一種基于本體論的詞匯相似度計(jì)算方法。

本文提出了一種利用成分詞的相似性信息來(lái)度量文本語(yǔ)義相似性的度量方法。我們描述了單詞語(yǔ)義相似度度量，并展示了如何使用它們來(lái)推導(dǎo)一個(gè)文本到文本的相似度度量。通過(guò)對(duì)釋義識(shí)別任務(wù)的評(píng)估，我們證明了這種文本語(yǔ)義相似度的度量方法優(yōu)于現(xiàn)有的相似度方法。

1 短文本語(yǔ)義相似度

給定兩個(gè)輸入文本段，我們希望自動(dòng)得出一個(gè)分?jǐn)?shù)，表明它們?cè)谡Z(yǔ)義級(jí)別上的相似性，從而超越了傳統(tǒng)上用于此任務(wù)的簡(jiǎn)單詞匯匹配方法。雖然我們承認(rèn)一個(gè)綜合的文本語(yǔ)義相似度指標(biāo)也應(yīng)該考慮到文本的結(jié)構(gòu)，但我們首先分析了這個(gè)問(wèn)題，并試圖將文本的語(yǔ)義相似度作為組成詞的語(yǔ)義相似度的函數(shù)來(lái)建模。我們通過(guò)將詞與詞之間的相似性和詞的特異性指標(biāo)結(jié)合到一個(gè)公式中來(lái)實(shí)現(xiàn)這一點(diǎn)。給定輸入的兩個(gè)文本段T1和T2，用公式(1)計(jì)算兩個(gè)文本段之間的相似性，如式(1)。

(1)

給定一個(gè)詞與詞之間的相似性度量和一個(gè)詞的特異性度量，我們使用一個(gè)度量來(lái)定義兩個(gè)文本段T1和T2的語(yǔ)義相似性，該度量依次結(jié)合了每個(gè)文本段相對(duì)于另一個(gè)文本段的語(yǔ)義相似性。首先，對(duì)于T1段中的每個(gè)單詞w，我們嘗試根據(jù)下一節(jié)描述的單詞間相似性度量方法之一，識(shí)別T2段中語(yǔ)義相似度最高的單詞(max(sim(w,T2)))。接下來(lái)，同樣的過(guò)程被應(yīng)用于確定T1中最相似的單詞，從T2中的單詞開(kāi)始，然后，用對(duì)應(yīng)的詞的特異性對(duì)詞的相似性進(jìn)行加權(quán)，求和，并根據(jù)每個(gè)文本段的長(zhǎng)度進(jìn)行標(biāo)準(zhǔn)化，最后，使用平均值將得到的相似度評(píng)分組合在一起。注意，只有開(kāi)放類(lèi)單詞和基數(shù)可以參與這個(gè)語(yǔ)義匹配過(guò)程。正如前面使用基于向量的模型對(duì)文本相似性所做的工作一樣，所有虛詞都被丟棄。

這樣我們可以給兩個(gè)特定詞匯之間的語(yǔ)義匹配識(shí)別以更高的權(quán)重(例如,警察和特警),并給通用概念之間的相似性測(cè)量以較低的權(quán)重(例如,成為)。雖然單詞的特異性已經(jīng)在一定程度上由它們?cè)谡Z(yǔ)義層次中的深度來(lái)衡量，但是我們使用基于語(yǔ)料庫(kù)的單詞特異性度量來(lái)加強(qiáng)這一因素，該度量基于從大型語(yǔ)料庫(kù)中學(xué)習(xí)到的分布信息。

這個(gè)相似度得分在0和1之間，1表示相同的文本段，0表示兩個(gè)段之間沒(méi)有語(yǔ)義重疊。除了相似的單詞,我們也考慮到詞語(yǔ)特異性, 單詞的特異性是由Sparck-Jones[9]引入的逆文檔頻率(idf)確定的，它的定義是語(yǔ)料庫(kù)中的文檔總數(shù)除以包含該單詞的文檔總數(shù)，然后將得到的商取對(duì)數(shù)，計(jì)算公式如式(2)。

(2)

|D|：語(yǔ)料庫(kù)中的文件總數(shù),|{j:wi∈dj}|：包含詞語(yǔ)wi的文件數(shù)目(即ni,j≠0的文件數(shù)目)如果該詞語(yǔ)不在語(yǔ)料庫(kù)中，就會(huì)導(dǎo)致被除數(shù)為零，因此一般情況下使用1+|{j:wi∈dj}|

2 實(shí)驗(yàn)

通過(guò)實(shí)例說(shuō)明文本相似性度量的應(yīng)用。給定兩個(gè)文本段，如下所示，我們想要確定一個(gè)反映它們語(yǔ)義相似性的評(píng)分。為了便于說(shuō)明，我們將注意力限制在一個(gè)基于語(yǔ)體的度量上，我們還通過(guò)在數(shù)據(jù)集[10]上找到它們的覆蓋范圍，來(lái)獲得語(yǔ)義相似度度量的適用性。

文本段1：When secretary and other employees entered the office for investment intention, some functionary and investors ignored them.

文本段2： When secretary and clerks walked into the office together with investment project, civil servants and holders showed contempt for them.

從兩個(gè)文本段中的每一個(gè)開(kāi)始，對(duì)于每個(gè)開(kāi)放類(lèi)單詞，確定另一個(gè)文本段中最相似的單詞。如前所述，語(yǔ)義相似性只在詞性相同的詞之間存在。從第一個(gè)文本段開(kāi)始的單詞相似性評(píng)分和單詞特異性(idf)，如表1所示。

表1 短文本中詞語(yǔ)相似度值和單詞特異性idf值

利用式(1)，將單詞相似性及其對(duì)應(yīng)的特異性結(jié)合起來(lái)，確定兩篇文章的語(yǔ)義相似性為0.79。這個(gè)相似度評(píng)分正確地識(shí)別了兩個(gè)文本段之間的釋義關(guān)系。盡管有一些詞同時(shí)出現(xiàn)在兩個(gè)句子中(如secretary，investment)，但也有一些詞是不相同的，但卻緊密相關(guān)的(如: functionary，civil servants)。與傳統(tǒng)的基于詞匯匹配的相似度度量方法不同，我們的度量方法考慮了這些單詞的語(yǔ)義相似度，從而實(shí)現(xiàn)了更精確的文本相似度度量。

3 總結(jié)

實(shí)驗(yàn)證明，將語(yǔ)義信息納入文本相似度的測(cè)量中，大大增加了對(duì)隨機(jī)基線和基于向量余弦相似度基線的識(shí)別的可能性，余弦距離使用兩個(gè)向量夾角的余弦值作為衡量?jī)蓚€(gè)個(gè)體間差異的大小，更加注重兩個(gè)向量在方向上的差異，而不是位置，適合于網(wǎng)絡(luò)短文本相似度計(jì)算?；谙蛄康挠嘞蚁嗨苹€，使用一種將幾個(gè)相似度指標(biāo)結(jié)合在一起的方法來(lái)達(dá)到最佳的性能，在數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明，語(yǔ)義相似度方法優(yōu)于基于簡(jiǎn)單詞匯匹配的方法，其整體精確度提高，誤差率顯著降低。