亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合多源信息的平行語料庫相似句段去重算法

        2021-11-17 07:18:36左世亮劉穩(wěn)良
        計算機仿真 2021年8期
        關(guān)鍵詞:句段平行語句

        左世亮,劉穩(wěn)良

        (上海應(yīng)用技術(shù)大學(xué),上海201418)

        1 引言

        我國和沿線國家之間的交流愈發(fā)緊密,各類深度合作項目日益增多,這對語言服務(wù)企業(yè)與人才能力都設(shè)定了更高的標準要求[1-2]。語言服務(wù)企業(yè)為支撐翻譯生產(chǎn),創(chuàng)建了一系列平行語料庫,為多元化語言服務(wù)需求提供充足便利。但在多源信息發(fā)展的今天,隨著語料數(shù)量持續(xù)增長,出現(xiàn)越來越多的相似語句,為翻譯工作帶來諸多困擾[3],由此要對相似句段進行去重,保障語言服務(wù)效率與水平。

        關(guān)于文本去重問題,陳平華[4]等提出一種采用簽名與哈希技術(shù)的云存儲去重方案,在數(shù)據(jù)去重過程中運用雙層校驗機制審計數(shù)據(jù)完整性,校驗文件完整性并精確定位損壞數(shù)據(jù)塊;構(gòu)造Merkle哈希樹生成校驗值,計算去重標簽,確保檢測到重復(fù)數(shù)據(jù)。但該方法局限性高,不易廣泛推廣。鄧玉輝[5]等提出一種基于混合頁面的磁盤緩存去重策略。在磁盤緩存中引入混合頁機制,保留基頁增加巨頁,自適應(yīng)調(diào)整巨頁大小讓命中率最大化;監(jiān)測基頁、巨頁冷熱程度,將重復(fù)率高的冷巨頁拆分為基頁,實現(xiàn)基頁、巨頁動態(tài)轉(zhuǎn)換;利用重刪技術(shù)對基頁、巨頁依次實施去重,在命中率最大化同時保持去重率,但方法去重速率緩慢。

        綜合以上內(nèi)容,本文創(chuàng)建一種基于詞頻-逆向文件頻率(term frequency-inverse document frequency,TF-IDF)的平行語料庫相似句段去重算法。對齊平行語料庫互為對應(yīng)關(guān)聯(lián)的句子,推導(dǎo)句段相似程度,加強后續(xù)去除速度,融合TF-IDF技術(shù)與單詞主題相關(guān)性,計算關(guān)鍵詞權(quán)重,刪除高權(quán)重句段,達到平行語料庫句段去重目的。

        2 平行語料庫句子對齊計算

        為平行語料庫創(chuàng)建句子以及對齊關(guān)聯(lián),明確源語言句段內(nèi)哪些句子和語料庫語言中的句段互為譯文。句子對齊關(guān)聯(lián)可能包含多種形式,最常見的是源語言句段內(nèi)一個句子與目標語言句段內(nèi)的一個句子對應(yīng)[6],此外還包含如下幾種狀況:源語言中一個句子與目標語言內(nèi)兩個或若干個句子對應(yīng);源語言中兩個或若干個句子與目標語言中一個句子對應(yīng);源語言中兩個或若干個句子與目標語言中兩個或若干個句子相對。在特殊情況下,翻譯與原文存在較大差距,省略不譯狀況時有發(fā)生,同時為了讓目標語言更便于理解,增添解釋性語言。此時會產(chǎn)生某種語言文本的句子與其它語言沒有句子相互對應(yīng)的現(xiàn)象。本文使用召回率與精確率,按照特有參照對句子對齊算法性能實施評估。

        若一段對齊的雙語句段是〈S,T,Ar〉,Ar為參考對齊,針對隨機一個和Ar相同級別的對齊A,A內(nèi)準確的雙語句段數(shù)和Ar全部雙語句段數(shù)的比率就是A對應(yīng)于Ar的對齊召回率,計算過程為

        Recall(A,Ar)=|A∩Ar|/|Ar|

        (1)

        從上式可知,對齊召回率是在對齊內(nèi)準確的雙語句段數(shù)和全部準確雙語句段數(shù)的比值,證明A內(nèi)獲得正確對齊句段的個數(shù)越多。

        如果一段對齊的雙語句段為〈S,T,Ar〉,Ar為參考對齊,關(guān)于隨機一個和AR擁有相等對齊長度的對齊A,A內(nèi)準確的雙語句段和A內(nèi)全部雙語句段的比率為對齊精確率,即

        Precision(A,Ar)=|A∩Ar|/|A|

        (2)

        在真實運用中,通常采用F評估法當作權(quán)衡對齊性能的指標,該方法是對齊精確率與召回率的調(diào)和均值。

        傳統(tǒng)對齊方法依靠句段內(nèi)的單詞個數(shù),沒有考慮單詞自身形態(tài)與含義。在此前提下,創(chuàng)設(shè)一個概率模型,同時挑選最大概率路徑當作對齊輸出,該模型的參數(shù)涵蓋句段類別概率與長度相對概率[7]。

        使用基于長度的句子對齊方法,其核心思想是句子長度越相近,則變成對譯句段的概率越大。

        3 句段相似度分析

        按照源語言文本,從大范圍多源信息平行語料庫內(nèi)找到最為接近的翻譯范例,確保譯員準確高效地完成翻譯工作,這就是句段相似度計算的根本任務(wù)[8]?,F(xiàn)階段對于相似度暫無一個確切定義,在不同實際應(yīng)用中,相似度內(nèi)涵各不相等。本文依照如下內(nèi)容進行相似度類型區(qū)分:A和B間的相似度與它們的共性及區(qū)別有關(guān),共性數(shù)量越多,相似度越高;區(qū)別越多,相似度越小。文中的相似度代表兩個句段字符重復(fù)水準,按照句段相似水平將去重句段劃分為以下幾種:句段全部重復(fù)、句段內(nèi)涵重復(fù)、句型轉(zhuǎn)換和少部分同義詞變換。

        將句段描述為單詞集合

        π(S)={W1,W2,…,Wn}

        (3)

        式中,S代表句段,Wi是句段內(nèi)的單詞。

        句段S1與句段S2之間的表層相似度為

        Sim(S1,S2)=2*Γ(π(S1)Iπ(S2))

        /(Len(S1)+Len(S2))

        (4)

        式中,I代表集合的求交運算,Γ是集合的因子數(shù)量,Len是句段長度,也就是句段內(nèi)包含的單詞個數(shù)。

        兩個句段表層相似度越高,輸入的待翻譯句段和翻譯實例相同的單詞越多,保障了平行語料庫譯文的高質(zhì)量。

        句段中詞匯信息熵值越高,表明該詞匯在語料庫內(nèi)出現(xiàn)的頻率越小,對分辨句段相似度的作用越好,計算流程為

        H(w)=lg(M/m)

        (5)

        式中,w為詞匯,M是平行語料庫內(nèi)的句段總數(shù),m是出現(xiàn)詞匯w的句段數(shù)量。

        相似度臨界值可以更好地約束句子相似度運算精度,將臨界值設(shè)定在0.6~0.7之間。句段S1與句段S2的信息熵相似度臨界值計算過程為

        SimH=∑H(wi)

        (6)

        實施待選實例搜索過程中,在多源信息下的平行語料庫內(nèi)挑選一定數(shù)量的句段,再使用式(6)的信息熵相似度臨界值計算過程,從句段中選出某些句子。

        值得注意的是,本文方法無法在全部平行語料庫內(nèi)直接使用式(6)擇取待選實例。原因在于,假如在全部平行語料庫中直接使用信息熵相似度臨界值篩查待選模式,就會給某種特殊用詞過多比重,致使篩選出的翻譯句段和預(yù)期翻譯結(jié)果相差較多[9],降低了譯文整體翻譯質(zhì)量。

        使用基于泛化的匹配度計算,在泛化前提下算出待選實例和輸入的待翻譯句段之間的模糊匹配度。按照待翻譯的輸入句子對翻譯實例的有關(guān)語法單位實施泛化,構(gòu)成擁有相對復(fù)雜特征的參變量,憑借泛化實例類比推導(dǎo)組建輸入句段的譯文。

        類比推理是一個變量屬性收斂匹配的過程,譯文結(jié)構(gòu)利用對泛化實例采取替換、拷貝、刪除等動作來實現(xiàn)。實施泛化匹配過程中,要考慮詞形、詞類、詞的同義、反義和涵蓋的語境信息[10]。

        詞語泛化匹配度代表輸入句段內(nèi)的某個詞語和翻譯實例內(nèi)的某個詞語能夠互相替換的幾率,與詞匯相似度具有密切關(guān)聯(lián)。將詞語泛化匹配度的計算方程描述為

        LGMD(w1,w2)=f(SimLex,SimPos,SimCon)

        (7)

        式中,α、β、γ為三個系數(shù),代表不同狀況下的可信度權(quán)值,SimLex為詞匯相似度,SimPos為詞性相似度,SimCon是語境相似度。SimLex的運算過程如下

        SimLex(w1,w2)

        (8)

        式中,dis_sem(w1,w2)代表詞匯w1、w2之間的語義距離,α為權(quán)值系數(shù)。語義距離的運算使用基于HowNet方法,該方法提供的義原分類樹,用樹的模式呈現(xiàn)出每個義原及其關(guān)聯(lián),樹內(nèi)父節(jié)點與子節(jié)點的義原擁有上下位關(guān)聯(lián)[11],采用義原分類樹推算兩個詞語間的語義距離。

        SimPos推導(dǎo)公式為

        (9)

        其中,Pos(w)為詞匯w處于句段中的詞類標注屬性。

        SimCon推導(dǎo)公式為:

        (10)

        式中,ω是權(quán)值系數(shù),dis_con(w1,w2)是單詞w1、w2的上下文偏移間距。

        句子泛化匹配度是翻譯實例以范例形式,對輸入句段實施類比翻譯的可靠度,計算過程為:

        (11)

        式中,分母內(nèi)的Len(s1)、Len(s2)依次代表輸入句段與翻譯實例的句段長度。

        最終句段相似度計算公式為:

        similarity(s1,s2)=a·SGMD(s1,s2)

        +β·Sims(s1,s2)+γ·SimH

        (12)

        通過以上過程,就能從平行語料庫中找出最相近的翻譯句子,提升后續(xù)相似句段去重效果。

        4 基于TF-IDF技術(shù)的平行語料庫相似句段去重算法

        傳統(tǒng)相似句段去重將文檔分詞識別獲得的關(guān)鍵詞當作特征值,權(quán)重是關(guān)鍵詞出現(xiàn)的數(shù)量。詞性與詞長是權(quán)衡單詞權(quán)重的主要元素,全方位呈現(xiàn)句段具體內(nèi)容,提升相似句段去重精確率。權(quán)重只取決于單詞出現(xiàn)的次數(shù),句段內(nèi)的某些核心內(nèi)容會發(fā)生損壞,大幅減少了去重精度。為處理這一難題,本文運用TF-IDF技術(shù)與單詞主題相關(guān)性推算關(guān)鍵詞權(quán)重,剔除權(quán)重值較高的句段,實現(xiàn)準確高效的平行語料庫句段去重目標。

        TF-IDF技術(shù)主要計算關(guān)鍵詞在句段內(nèi)的重要程度,TF是關(guān)鍵詞在句段內(nèi)出現(xiàn)的頻度,將關(guān)鍵詞ti的TF描述成

        (13)

        逆向文本頻率IDF,代表關(guān)鍵詞所在句段處于句段集合中的比例,記作

        (14)

        式中,|D|是ti句段集合內(nèi)的句段總數(shù),|{j:ti∈dj}|為包含關(guān)鍵詞的句段個數(shù),并保證是ni,j不等于零的句段。

        關(guān)鍵詞i在句段j中的TF-IDF定義是

        tf-idfi,j=tfi,j×idfi

        (15)

        TF-IDF技術(shù)的有限性在于,句段出現(xiàn)次數(shù)越高,重要程度就越低,這對于某些句段而言擁有一定偏差,某類關(guān)鍵詞匯在句段中出現(xiàn)的次數(shù)也很多,要賦予此類詞匯更多的權(quán)重。

        本文使用單詞主體相關(guān)性當作附加權(quán)重,把專業(yè)術(shù)語單詞長度設(shè)定為辨別單詞主體相關(guān)性的憑據(jù)。選擇平行語料庫內(nèi)的關(guān)鍵詞為數(shù)據(jù)集合[12],計算數(shù)據(jù)集合內(nèi)20000個中文術(shù)語長度,同時實施正態(tài)擬合,其結(jié)果如圖1所示。

        圖1 中文譯文長度擬合示意圖

        圖1內(nèi)的擬合正態(tài)分布函數(shù)是

        (16)

        將擬合后獲得的擬合函數(shù)確定系數(shù)書寫成Rsquare,該系數(shù)越趨近于1,證明擬合函數(shù)對真實數(shù)據(jù)的詮釋性能越強。

        單詞長度約接近5,伴隨函數(shù)值的升高,單詞主題相關(guān)性也隨之上升。

        運用單詞主題相關(guān)性函數(shù)當作附加權(quán)重,能提升TF-IDF技術(shù)對權(quán)重計算的準確性。最后得到關(guān)鍵詞e的權(quán)重計算方程為

        w(e)=tfe,j×idfe×(1+len(x))

        (17)

        以下為相似句段去重的具體步驟:在待檢測的文本內(nèi)選擇一個句段Si和目前已知的句段集合S,將Si與集合內(nèi)的句段按一定順序分別計算其權(quán)重,假如某個句段Sj和Si的權(quán)重超出設(shè)定的臨界值,那么Si就無法作為一個全新的句段放入S中,反之將其添加至S中。

        5 實驗分析

        為證明所提方法去重成效,對該算法與文獻[4]、文獻[5]方法進行實驗分析,開發(fā)語言為Java。圖2是三種方法在相同狀況下對同一文本集句段進行去重的運算時間。

        圖2 不同方法下的去重運算時間

        從圖2中可知,在句段數(shù)據(jù)量較小時,三種方法均耗費很少的運算時間,去重時間近乎相等。但在實驗數(shù)據(jù)量逐步上升后,所有方法的時間呈現(xiàn)指數(shù)形式增長,文獻[5]方法所耗時間最長,其次為文獻[4]方法,所提方法耗費的運行時間最短。出現(xiàn)此種現(xiàn)象的原因是,本文方法充分考慮了句段相似度在不同情況下的重復(fù)模式,可使用在任何長度的語句比對中,增強了算法去重識別速率。

        利用去重召回率與精確率權(quán)衡算法的實用性,把去重的關(guān)鍵放在短句與長句比率在0.3~0.9之間的句子。通過多次實驗,設(shè)定的平衡參數(shù)λ1與λ2如表1所示,相似度臨界值為0.6。

        表1 平衡參數(shù)設(shè)定

        實驗第一組數(shù)據(jù)為自主研發(fā)的樣本150個句段,第二、三、四組數(shù)據(jù)從互聯(lián)網(wǎng)中得到,分別為750、630、480個句段,實驗結(jié)果如表2所示。

        表2 算法召回率和精確率實驗結(jié)果

        從表2中可以看到,本文方法召回率與精確率均為最高的,另外三組數(shù)據(jù)均存在一定的誤判現(xiàn)象。在實際操作中,在相關(guān)度分析時制作一個分析報表,報表內(nèi)記載被系統(tǒng)認為相似的句段編碼與內(nèi)容,再利用人工判別是否相似,去除誤判結(jié)果。

        使用自主研發(fā)樣本數(shù)據(jù),通過更改臨界值大小,觀測臨界值對本文方法召回率與精確率的影響,如圖3所示。

        圖3 臨界值對本文方法去重效果的影響

        從圖3看出,閾值在0.6~0.7之間時,召回率與精確率實現(xiàn)很好的均衡,這與上文設(shè)定結(jié)果相同,以此也證明了本文方法的可靠性。

        6 結(jié)論

        為提升語言服務(wù)企業(yè)翻譯工作時效性,提出一種基于TF-IDF技術(shù)的平行語料庫相似句段去重算法。該算法對整體重復(fù)與特別相近的句段擁有極強的去重效果,但該方法研究語義相似性的內(nèi)容較少,后續(xù)會對此點進行改進,深入提升算法去重的完整性。

        猜你喜歡
        句段平行語句
        向量的平行與垂直
        平行
        逃離平行世界
        重點:語句銜接
        精彩句段
        精彩句段一
        精彩句段二
        精彩語句
        再頂平行進口
        汽車觀察(2016年3期)2016-02-28 13:16:36
        如何搞定語句銜接題
        語文知識(2014年4期)2014-02-28 21:59:52
        又大又粗又爽18禁免费看| 亚洲长腿丝袜中文字幕| 日本激情网站中文字幕| 亚洲中文字幕无码中文字在线| 秋霞午夜无码鲁丝片午夜精品| 国产精品亚洲专区无码不卡| 99久久婷婷国产精品网| 男女猛烈拍拍拍无挡视频| 婷婷成人基地| 久久国产精品超级碰碰热| 亚洲av手机在线播放| 一本色道久久综合狠狠躁篇| 76少妇精品导航| 国产精品制服一区二区| 国产不卡在线观看视频| 久久久久久久97| 久久久男人天堂| 国产精品亚洲精品日韩动图| 亚洲精一区二区三av| 中国农村妇女hdxxxx| 国产精品27页| 亚洲中文字幕第一页免费| 欧美激情综合色综合啪啪五月 | 日本护士口爆吞精视频| 日本久久高清一区二区三区毛片| 国产a级网站| 中文字幕人妻在线少妇完整版| 国产在线高清理伦片a| 97精品人妻一区二区三区香蕉| 99riav精品国产| 国产精品亚洲一区二区三区在线| 67194熟妇人妻欧美日韩| 日本VA欧美VA精品发布| 免费看男女啪啪的视频网站| 欧美疯狂性受xxxxx喷水| 麻豆国产人妻欲求不满谁演的| 日本一区免费喷水| 手机av在线中文字幕| 51国偷自产一区二区三区| 亚洲嫩模高清在线视频| 91久久香蕉国产熟女线看|