亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合多源信息的平行語料庫相似句段去重算法

2021-11-17 07:18:36左世亮劉穩(wěn)良

計(jì)算機(jī)仿真 2021年8期

關(guān)鍵詞：單詞方法

左世亮，劉穩(wěn)良

(上海應(yīng)用技術(shù)大學(xué)，上海201418)

1 引言

我國和沿線國家之間的交流愈發(fā)緊密，各類深度合作項(xiàng)目日益增多，這對語言服務(wù)企業(yè)與人才能力都設(shè)定了更高的標(biāo)準(zhǔn)要求[1-2]。語言服務(wù)企業(yè)為支撐翻譯生產(chǎn)，創(chuàng)建了一系列平行語料庫，為多元化語言服務(wù)需求提供充足便利。但在多源信息發(fā)展的今天，隨著語料數(shù)量持續(xù)增長，出現(xiàn)越來越多的相似語句，為翻譯工作帶來諸多困擾[3]，由此要對相似句段進(jìn)行去重，保障語言服務(wù)效率與水平。

關(guān)于文本去重問題，陳平華[4]等提出一種采用簽名與哈希技術(shù)的云存儲(chǔ)去重方案，在數(shù)據(jù)去重過程中運(yùn)用雙層校驗(yàn)機(jī)制審計(jì)數(shù)據(jù)完整性，校驗(yàn)文件完整性并精確定位損壞數(shù)據(jù)塊；構(gòu)造Merkle哈希樹生成校驗(yàn)值，計(jì)算去重標(biāo)簽，確保檢測到重復(fù)數(shù)據(jù)。但該方法局限性高，不易廣泛推廣。鄧玉輝[5]等提出一種基于混合頁面的磁盤緩存去重策略。在磁盤緩存中引入混合頁機(jī)制，保留基頁增加巨頁，自適應(yīng)調(diào)整巨頁大小讓命中率最大化；監(jiān)測基頁、巨頁冷熱程度，將重復(fù)率高的冷巨頁拆分為基頁，實(shí)現(xiàn)基頁、巨頁動(dòng)態(tài)轉(zhuǎn)換；利用重刪技術(shù)對基頁、巨頁依次實(shí)施去重，在命中率最大化同時(shí)保持去重率，但方法去重速率緩慢。

綜合以上內(nèi)容，本文創(chuàng)建一種基于詞頻-逆向文件頻率(term frequency-inverse document frequency，TF-IDF)的平行語料庫相似句段去重算法。對齊平行語料庫互為對應(yīng)關(guān)聯(lián)的句子，推導(dǎo)句段相似程度，加強(qiáng)后續(xù)去除速度，融合TF-IDF技術(shù)與單詞主題相關(guān)性，計(jì)算關(guān)鍵詞權(quán)重，刪除高權(quán)重句段，達(dá)到平行語料庫句段去重目的。

2 平行語料庫句子對齊計(jì)算

為平行語料庫創(chuàng)建句子以及對齊關(guān)聯(lián)，明確源語言句段內(nèi)哪些句子和語料庫語言中的句段互為譯文。句子對齊關(guān)聯(lián)可能包含多種形式，最常見的是源語言句段內(nèi)一個(gè)句子與目標(biāo)語言句段內(nèi)的一個(gè)句子對應(yīng)[6]，此外還包含如下幾種狀況：源語言中一個(gè)句子與目標(biāo)語言內(nèi)兩個(gè)或若干個(gè)句子對應(yīng)；源語言中兩個(gè)或若干個(gè)句子與目標(biāo)語言中一個(gè)句子對應(yīng)；源語言中兩個(gè)或若干個(gè)句子與目標(biāo)語言中兩個(gè)或若干個(gè)句子相對。在特殊情況下，翻譯與原文存在較大差距，省略不譯狀況時(shí)有發(fā)生，同時(shí)為了讓目標(biāo)語言更便于理解，增添解釋性語言。此時(shí)會(huì)產(chǎn)生某種語言文本的句子與其它語言沒有句子相互對應(yīng)的現(xiàn)象。本文使用召回率與精確率，按照特有參照對句子對齊算法性能實(shí)施評估。

若一段對齊的雙語句段是〈S，T，Ar〉，Ar為參考對齊，針對隨機(jī)一個(gè)和Ar相同級(jí)別的對齊A，A內(nèi)準(zhǔn)確的雙語句段數(shù)和Ar全部雙語句段數(shù)的比率就是A對應(yīng)于Ar的對齊召回率，計(jì)算過程為

Recall(A，Ar)=|A∩Ar|/|Ar|

(1)

從上式可知，對齊召回率是在對齊內(nèi)準(zhǔn)確的雙語句段數(shù)和全部準(zhǔn)確雙語句段數(shù)的比值，證明A內(nèi)獲得正確對齊句段的個(gè)數(shù)越多。

如果一段對齊的雙語句段為〈S，T，Ar〉，Ar為參考對齊，關(guān)于隨機(jī)一個(gè)和AR擁有相等對齊長度的對齊A，A內(nèi)準(zhǔn)確的雙語句段和A內(nèi)全部雙語句段的比率為對齊精確率，即

Precision(A，Ar)=|A∩Ar|/|A|

(2)

在真實(shí)運(yùn)用中，通常采用F評估法當(dāng)作權(quán)衡對齊性能的指標(biāo)，該方法是對齊精確率與召回率的調(diào)和均值。

傳統(tǒng)對齊方法依靠句段內(nèi)的單詞個(gè)數(shù)，沒有考慮單詞自身形態(tài)與含義。在此前提下，創(chuàng)設(shè)一個(gè)概率模型，同時(shí)挑選最大概率路徑當(dāng)作對齊輸出，該模型的參數(shù)涵蓋句段類別概率與長度相對概率[7]。

使用基于長度的句子對齊方法，其核心思想是句子長度越相近，則變成對譯句段的概率越大。

3 句段相似度分析

按照源語言文本，從大范圍多源信息平行語料庫內(nèi)找到最為接近的翻譯范例，確保譯員準(zhǔn)確高效地完成翻譯工作，這就是句段相似度計(jì)算的根本任務(wù)[8]?，F(xiàn)階段對于相似度暫無一個(gè)確切定義，在不同實(shí)際應(yīng)用中，相似度內(nèi)涵各不相等。本文依照如下內(nèi)容進(jìn)行相似度類型區(qū)分：A和B間的相似度與它們的共性及區(qū)別有關(guān)，共性數(shù)量越多，相似度越高；區(qū)別越多，相似度越小。文中的相似度代表兩個(gè)句段字符重復(fù)水準(zhǔn)，按照句段相似水平將去重句段劃分為以下幾種：句段全部重復(fù)、句段內(nèi)涵重復(fù)、句型轉(zhuǎn)換和少部分同義詞變換。

將句段描述為單詞集合

π(S)={W1，W2，…，Wn}

(3)

式中，S代表句段，Wi是句段內(nèi)的單詞。

句段S1與句段S2之間的表層相似度為

Sim(S1，S2)=2*Γ(π(S1)Iπ(S2))

/(Len(S1)+Len(S2))

(4)

式中，I代表集合的求交運(yùn)算，Γ是集合的因子數(shù)量，Len是句段長度，也就是句段內(nèi)包含的單詞個(gè)數(shù)。

兩個(gè)句段表層相似度越高，輸入的待翻譯句段和翻譯實(shí)例相同的單詞越多，保障了平行語料庫譯文的高質(zhì)量。

句段中詞匯信息熵值越高，表明該詞匯在語料庫內(nèi)出現(xiàn)的頻率越小，對分辨句段相似度的作用越好，計(jì)算流程為

H(w)=lg(M/m)

(5)

式中，w為詞匯，M是平行語料庫內(nèi)的句段總數(shù)，m是出現(xiàn)詞匯w的句段數(shù)量。

相似度臨界值可以更好地約束句子相似度運(yùn)算精度，將臨界值設(shè)定在0.6～0.7之間。句段S1與句段S2的信息熵相似度臨界值計(jì)算過程為

SimH=∑H(wi)

(6)

實(shí)施待選實(shí)例搜索過程中，在多源信息下的平行語料庫內(nèi)挑選一定數(shù)量的句段，再使用式(6)的信息熵相似度臨界值計(jì)算過程，從句段中選出某些句子。

值得注意的是，本文方法無法在全部平行語料庫內(nèi)直接使用式(6)擇取待選實(shí)例。原因在于，假如在全部平行語料庫中直接使用信息熵相似度臨界值篩查待選模式，就會(huì)給某種特殊用詞過多比重，致使篩選出的翻譯句段和預(yù)期翻譯結(jié)果相差較多[9]，降低了譯文整體翻譯質(zhì)量。

使用基于泛化的匹配度計(jì)算，在泛化前提下算出待選實(shí)例和輸入的待翻譯句段之間的模糊匹配度。按照待翻譯的輸入句子對翻譯實(shí)例的有關(guān)語法單位實(shí)施泛化，構(gòu)成擁有相對復(fù)雜特征的參變量，憑借泛化實(shí)例類比推導(dǎo)組建輸入句段的譯文。

類比推理是一個(gè)變量屬性收斂匹配的過程，譯文結(jié)構(gòu)利用對泛化實(shí)例采取替換、拷貝、刪除等動(dòng)作來實(shí)現(xiàn)。實(shí)施泛化匹配過程中，要考慮詞形、詞類、詞的同義、反義和涵蓋的語境信息[10]。

詞語泛化匹配度代表輸入句段內(nèi)的某個(gè)詞語和翻譯實(shí)例內(nèi)的某個(gè)詞語能夠互相替換的幾率，與詞匯相似度具有密切關(guān)聯(lián)。將詞語泛化匹配度的計(jì)算方程描述為

LGMD(w1，w2)=f(SimLex，SimPos，SimCon)

(7)

式中，α、β、γ為三個(gè)系數(shù)，代表不同狀況下的可信度權(quán)值，SimLex為詞匯相似度，SimPos為詞性相似度，SimCon是語境相似度。SimLex的運(yùn)算過程如下

SimLex(w1，w2)

(8)

式中，dis_sem(w1，w2)代表詞匯w1、w2之間的語義距離，α為權(quán)值系數(shù)。語義距離的運(yùn)算使用基于HowNet方法，該方法提供的義原分類樹，用樹的模式呈現(xiàn)出每個(gè)義原及其關(guān)聯(lián)，樹內(nèi)父節(jié)點(diǎn)與子節(jié)點(diǎn)的義原擁有上下位關(guān)聯(lián)[11]，采用義原分類樹推算兩個(gè)詞語間的語義距離。

SimPos推導(dǎo)公式為

(9)

其中，Pos(w)為詞匯w處于句段中的詞類標(biāo)注屬性。

SimCon推導(dǎo)公式為：

(10)

式中，ω是權(quán)值系數(shù)，dis_con(w1，w2)是單詞w1、w2的上下文偏移間距。

句子泛化匹配度是翻譯實(shí)例以范例形式，對輸入句段實(shí)施類比翻譯的可靠度，計(jì)算過程為：

(11)

式中，分母內(nèi)的Len(s1)、Len(s2)依次代表輸入句段與翻譯實(shí)例的句段長度。

最終句段相似度計(jì)算公式為：

similarity(s1，s2)=a·SGMD(s1，s2)

+β·Sims(s1，s2)+γ·SimH

(12)

通過以上過程，就能從平行語料庫中找出最相近的翻譯句子，提升后續(xù)相似句段去重效果。

4 基于TF-IDF技術(shù)的平行語料庫相似句段去重算法

傳統(tǒng)相似句段去重將文檔分詞識(shí)別獲得的關(guān)鍵詞當(dāng)作特征值，權(quán)重是關(guān)鍵詞出現(xiàn)的數(shù)量。詞性與詞長是權(quán)衡單詞權(quán)重的主要元素，全方位呈現(xiàn)句段具體內(nèi)容，提升相似句段去重精確率。權(quán)重只取決于單詞出現(xiàn)的次數(shù)，句段內(nèi)的某些核心內(nèi)容會(huì)發(fā)生損壞，大幅減少了去重精度。為處理這一難題，本文運(yùn)用TF-IDF技術(shù)與單詞主題相關(guān)性推算關(guān)鍵詞權(quán)重，剔除權(quán)重值較高的句段，實(shí)現(xiàn)準(zhǔn)確高效的平行語料庫句段去重目標(biāo)。

TF-IDF技術(shù)主要計(jì)算關(guān)鍵詞在句段內(nèi)的重要程度，TF是關(guān)鍵詞在句段內(nèi)出現(xiàn)的頻度，將關(guān)鍵詞ti的TF描述成

(13)

逆向文本頻率IDF，代表關(guān)鍵詞所在句段處于句段集合中的比例，記作

(14)

式中，|D|是ti句段集合內(nèi)的句段總數(shù)，|{j:ti∈dj}|為包含關(guān)鍵詞的句段個(gè)數(shù)，并保證是ni，j不等于零的句段。

關(guān)鍵詞i在句段j中的TF-IDF定義是

tf-idfi，j=tfi，j×idfi

(15)

TF-IDF技術(shù)的有限性在于，句段出現(xiàn)次數(shù)越高，重要程度就越低，這對于某些句段而言擁有一定偏差，某類關(guān)鍵詞匯在句段中出現(xiàn)的次數(shù)也很多，要賦予此類詞匯更多的權(quán)重。

本文使用單詞主體相關(guān)性當(dāng)作附加權(quán)重，把專業(yè)術(shù)語單詞長度設(shè)定為辨別單詞主體相關(guān)性的憑據(jù)。選擇平行語料庫內(nèi)的關(guān)鍵詞為數(shù)據(jù)集合[12]，計(jì)算數(shù)據(jù)集合內(nèi)20000個(gè)中文術(shù)語長度，同時(shí)實(shí)施正態(tài)擬合，其結(jié)果如圖1所示。

圖1 中文譯文長度擬合示意圖

圖1內(nèi)的擬合正態(tài)分布函數(shù)是

(16)

將擬合后獲得的擬合函數(shù)確定系數(shù)書寫成Rsquare，該系數(shù)越趨近于1，證明擬合函數(shù)對真實(shí)數(shù)據(jù)的詮釋性能越強(qiáng)。

單詞長度約接近5，伴隨函數(shù)值的升高，單詞主題相關(guān)性也隨之上升。

運(yùn)用單詞主題相關(guān)性函數(shù)當(dāng)作附加權(quán)重，能提升TF-IDF技術(shù)對權(quán)重計(jì)算的準(zhǔn)確性。最后得到關(guān)鍵詞e的權(quán)重計(jì)算方程為

w(e)=tfe，j×idfe×(1+len(x))

(17)

以下為相似句段去重的具體步驟：在待檢測的文本內(nèi)選擇一個(gè)句段Si和目前已知的句段集合S，將Si與集合內(nèi)的句段按一定順序分別計(jì)算其權(quán)重，假如某個(gè)句段Sj和Si的權(quán)重超出設(shè)定的臨界值，那么Si就無法作為一個(gè)全新的句段放入S中，反之將其添加至S中。

5 實(shí)驗(yàn)分析

為證明所提方法去重成效，對該算法與文獻(xiàn)[4]、文獻(xiàn)[5]方法進(jìn)行實(shí)驗(yàn)分析，開發(fā)語言為Java。圖2是三種方法在相同狀況下對同一文本集句段進(jìn)行去重的運(yùn)算時(shí)間。

圖2 不同方法下的去重運(yùn)算時(shí)間

從圖2中可知，在句段數(shù)據(jù)量較小時(shí)，三種方法均耗費(fèi)很少的運(yùn)算時(shí)間，去重時(shí)間近乎相等。但在實(shí)驗(yàn)數(shù)據(jù)量逐步上升后，所有方法的時(shí)間呈現(xiàn)指數(shù)形式增長，文獻(xiàn)[5]方法所耗時(shí)間最長，其次為文獻(xiàn)[4]方法，所提方法耗費(fèi)的運(yùn)行時(shí)間最短。出現(xiàn)此種現(xiàn)象的原因是，本文方法充分考慮了句段相似度在不同情況下的重復(fù)模式，可使用在任何長度的語句比對中，增強(qiáng)了算法去重識(shí)別速率。

利用去重召回率與精確率權(quán)衡算法的實(shí)用性，把去重的關(guān)鍵放在短句與長句比率在0.3～0.9之間的句子。通過多次實(shí)驗(yàn)，設(shè)定的平衡參數(shù)λ1與λ2如表1所示，相似度臨界值為0.6。

表1 平衡參數(shù)設(shè)定

實(shí)驗(yàn)第一組數(shù)據(jù)為自主研發(fā)的樣本150個(gè)句段，第二、三、四組數(shù)據(jù)從互聯(lián)網(wǎng)中得到，分別為750、630、480個(gè)句段，實(shí)驗(yàn)結(jié)果如表2所示。

表2 算法召回率和精確率實(shí)驗(yàn)結(jié)果

從表2中可以看到，本文方法召回率與精確率均為最高的，另外三組數(shù)據(jù)均存在一定的誤判現(xiàn)象。在實(shí)際操作中，在相關(guān)度分析時(shí)制作一個(gè)分析報(bào)表，報(bào)表內(nèi)記載被系統(tǒng)認(rèn)為相似的句段編碼與內(nèi)容，再利用人工判別是否相似，去除誤判結(jié)果。

使用自主研發(fā)樣本數(shù)據(jù)，通過更改臨界值大小，觀測臨界值對本文方法召回率與精確率的影響，如圖3所示。

圖3 臨界值對本文方法去重效果的影響

從圖3看出，閾值在0.6～0.7之間時(shí)，召回率與精確率實(shí)現(xiàn)很好的均衡，這與上文設(shè)定結(jié)果相同，以此也證明了本文方法的可靠性。

6 結(jié)論

為提升語言服務(wù)企業(yè)翻譯工作時(shí)效性，提出一種基于TF-IDF技術(shù)的平行語料庫相似句段去重算法。該算法對整體重復(fù)與特別相近的句段擁有極強(qiáng)的去重效果，但該方法研究語義相似性的內(nèi)容較少，后續(xù)會(huì)對此點(diǎn)進(jìn)行改進(jìn)，深入提升算法去重的完整性。