亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        雙向詞典和語義相似度計算相結(jié)合的詞對齊算法

        2015-05-04 07:45:16尹寶生
        沈陽航空航天大學學報 2015年2期
        關(guān)鍵詞:語義英文

        尹寶生,楊 陽

        (沈陽航空航天大學 人機智能研究中心,沈陽 110136)

        ?

        雙向詞典和語義相似度計算相結(jié)合的詞對齊算法

        尹寶生,楊 陽

        (沈陽航空航天大學 人機智能研究中心,沈陽 110136)

        基于統(tǒng)計的詞對齊方法需要大規(guī)模的雙語語料作為輸入,難以避免數(shù)據(jù)稀疏的問題并且算法時間開銷大。針對句子或段落級的實時性對齊需求,提出了一種基于雙向詞典和語義相似度計算的高效詞對齊算法,通過采用動態(tài)組塊切分和匹配、基于知網(wǎng)的語義相似度計算、基于最大匹配的沖突消解和剪枝消歧等策略,有效地解決了由于翻譯的靈活性和多樣性帶來的近似譯文的詞對齊問題。實驗表明,該算法不僅繼承了基于詞典詞對齊算法的優(yōu)點,同時還改進了傳統(tǒng)基于詞典詞對齊算法的不足,有效提升了詞對齊的正確率和召回率,在小規(guī)模雙語語料和實時性對齊方面具有更好的適用性。

        詞對齊;雙向詞典;動態(tài)組塊切分和匹配;語義相似度計算

        雙語語料庫(Bilingual Corpus)包含兩種不同語言間的互譯信息,是基于統(tǒng)計(Statistic-Based)機器翻譯[1]和基于實例(Example-Based)機器翻譯[2]的重要知識源之一,被廣泛應用于詞典編纂、詞義消歧和命名實體識別等自然語言處理任務。然而,未經(jīng)任何處理的雙語語料庫(即生語料,Raw Corpus)不能直接應用在相關(guān)的自然語言處理任務中。依據(jù)互譯片段的大小,雙語語料庫對齊分為多個層次:篇章對齊、段落對齊、句對齊和詞對齊。所謂詞對齊是指從源文和譯文中匹配詞語級別的對應關(guān)系,詞語一級的對齊互譯片段最小,含有更細粒度的雙語互譯信息,需要豐富的資源和多種方法的融合,處理過程相比其他層次對齊更加復雜。

        目前,詞對齊的處理方法主要有:

        (1)基于統(tǒng)計的詞對齊方法:通過對大規(guī)模雙語語料的統(tǒng)計訓練,獲得詞語一級的同現(xiàn)概率,把它作為詞對齊的依據(jù)。文獻[3]根據(jù)Brown[4]提出的基于信源信道模型的統(tǒng)計翻譯方法,實現(xiàn)了第一個詞對齊軟件包GIZA。文獻[5-6]對GIZA進行優(yōu)化并發(fā)布新版的詞對齊軟件包,稱為GIZA++。基于統(tǒng)計翻譯模型方法的技術(shù)理論比較完善,主要不足是雙語語料庫規(guī)模的限制,難以避免數(shù)據(jù)稀疏的問題,并且算法時間開銷大,不適合小規(guī)模雙語語料庫、時間要求高的應用。

        (2)基于語言學的詞對齊方法:主要思想是利用語言資源和語言學知識來進行詞語級別的對齊。很多學者依據(jù)該方法進行了研究,如文獻[7]提出的基于雙語詞典的漢英詞對齊算法;文獻[8]基于錨點詞對的雙語詞對齊算法研究;文獻[9]基于語言學上相似性的觀點并充分利用語言學知識來進行詞對齊。基于語言學的詞對齊方法可以獲得很高的對齊正確率,往往受到分詞準確率以及雙語資源規(guī)模的影響,對齊召回率不高。因此,本文采用動態(tài)組塊切分匹配方法和基于知網(wǎng)對未對齊的組塊進行語義層面的相似度擴展對齊加以處理。

        近幾年,多位學者從不同的角度對詞對齊進行了研究,如文獻[10]基于深度神經(jīng)網(wǎng)絡探索了一種新的詞對齊模型;文獻[11]從約束雙語命名實體之間的對齊角度出發(fā),提出了一種改進詞對齊結(jié)果的方法;文獻[12]提出的基于對偶分解的詞對齊搜索算法,其基本思想是將復雜的問題分解為兩個相對簡單的子問題,迭代求解直至收斂;文獻[13]為減少詞對齊的錯誤,提出一種基于對齊困惑度的雙語語料過濾方法和一種改進的判別式詞對齊算法。

        本文使用英漢、漢英兩部詞典進行詞對齊,因為詞典含有豐富、高質(zhì)量的源語言(Source Language)和目標語(Target Language)之間的互譯信息,是諸多自然語言處理任務的基礎性資源。目前,隨著詞典規(guī)模的不斷擴充,充分利用現(xiàn)有的詞典來解決詞對齊問題已成為一種直接可靠的選擇。

        針對句子或段落級的實時性對齊需求,本文提出一種基于雙向詞典和語義相似度計算的高效詞對齊算法,實現(xiàn)了一種即時性詞對齊方法,利用英漢、漢英兩部詞典進行詞對齊,基本思想是雙向融合。本文使用詞典驅(qū)動的動態(tài)組塊切分匹配方法,不需要預先對漢語句子進行分詞處理,有效避免了漢語分詞不當而無法使用詞典進行對齊的問題。另外,針對詞典的完備性問題,本文基于知網(wǎng)對未對齊的組塊進行了語義層面的相似度擴展對齊,明顯提高了對齊的召回率。

        1 詞對齊的問題描述

        詞對齊是在句對齊的基礎上,自動獲得詞語一級的對應關(guān)系。不同英漢句對間內(nèi)容和形式的差異,導致詞對齊存在多種復雜的對應關(guān)系,如:一對一、多對一、一對多和多對多等。另外,英語和漢語分屬印歐語系和漢藏語系,各語言獨有的特點使得英漢雙語對齊不滿足順序上的絕對對齊,經(jīng)常出現(xiàn)前后交叉的現(xiàn)象。

        圖1 詞對齊實例1

        一對一:starboard[19,27]=> 右舷[4-5];probe[49,53]=> 探測器[12-14]

        多對一:LunarModule′s[4,17]=> 登月艙[0-2]

        圖2 詞對齊實例2

        一對多:LRE[12,14]=> 液體火箭發(fā)動機[0-6]

        交叉現(xiàn)象:leak[4,7]=> 泄漏[8-9];LRE[12,14]=> 液體火箭發(fā)動機[0-6]

        英語多省略、漢語多補充的特點導致詞對齊中經(jīng)常出現(xiàn)空對和對空的現(xiàn)象(空對,指譯文沒有對應的源文;對空,指源文沒有對應的譯文),如圖1、2所示:

        空對:NULL => 的[3-3];對空:a[19,19]=> NULL

        目前,漢語中關(guān)于詞還沒有一個絕對統(tǒng)一的定義,漢語的分詞界限尚未徹底解決,這就是分詞顆粒度問題,相同的漢語句子在不同領(lǐng)域分詞結(jié)果也不盡相同。然而,現(xiàn)有的詞對齊方法很大程度上依賴于分詞的效果,如何解決分詞帶來的弊端,是英漢詞對齊中的關(guān)鍵問題。本文中,登錄詞和未登錄詞的界定以詞典為標準,即詞典中出現(xiàn)的詞為登錄詞,否則為未登錄詞。

        2 詞對齊算法描述

        本文提出的方法不對漢語句子進行分詞處理,而是使用詞典驅(qū)動的動態(tài)組塊切分匹配方法,避免了漢語分詞不當而無法使用詞典進行對齊的問題,提高了詞典的翻譯覆蓋率,并且算法很好地處理了英文節(jié)點相同,中文位置相交的情況以及N對N等問題。采用基于知網(wǎng)的語義相似度計算、基于最大匹配的沖突消解和剪枝消歧等策略,實現(xiàn)了雙語未對齊組塊間的擴展對齊,提高了對齊召回率,算法流程如圖3所示:

        圖3 算法流程圖

        2.1 雙語句子處理

        英文句子處理:按照英文為詞(空格作為自然分界符)、標點符號獨立的原則,把英文句子最細化分詞形成獨立的單詞集合,記錄單詞的位置信息;然后,基于英漢詞典對集合中的英文單詞進行組合,形成所有可能的詞或詞組,查詢英漢詞典,返回其對應的所有中文譯項。將不能在詞典中查詢到的詞或詞組進行詞形還原,包括名詞復數(shù)變換(specialists/specialist)、形容詞比較級、最高級變化(narrower/ narrow、warmest/ warm)、大寫變換(Appropriate / appropriate)以及動詞時態(tài)還原(verified / verify、manufacturing/ manufacture);最后,對詞形還原的詞或詞組查詢英漢詞典,返回其對應的所有譯項。

        漢語句子處理:詞對齊中經(jīng)常會由于漢語分詞的差異而產(chǎn)生不同的對齊結(jié)果,從而影響對齊的準確率和召回率,如圖4所示:

        圖4 分詞不同產(chǎn)生不同的對齊結(jié)果

        為了解決漢語分詞不當產(chǎn)生的不完全對齊問題,降低漢語分詞增加的一對多、多對多等現(xiàn)象,算法不對漢語句子進行預先確定性分詞處理,使用詞典驅(qū)動的動態(tài)組塊切分匹配方法。首先,按照漢語為字、標點符號獨立的原則,把漢語句子最細化分詞形成獨立的字集合;然后,對集合中的字進行組合,并以詞典是否包含該組合為標準,得到所有可能的詞或詞組;最后,對得到的詞或詞組查詢漢英詞典,返回其對應的所有英文譯項。

        2.2 英中(EC)、中英(CE)單向詞對齊

        在2.1節(jié)中,算法分別獲得基于英漢詞典、漢英詞典形成的譯項集合,EC單向?qū)R是對集合中的中文譯項元素逐一判斷的過程,當與譯文中的詞或詞組匹配時,則返回源文及其對應的中文譯項元素作為EC單向?qū)R結(jié)果。

        同理,CE單向?qū)R是對集合中的英文譯項元素逐一判斷的過程,當與源文中的詞或詞組匹配時,則返回譯文及其對應的英文譯項元素作為CE單向?qū)R結(jié)果。

        2.3 雙向?qū)R結(jié)果的合并

        對EC、CE單向?qū)R結(jié)果進行雙向合并,按照EC單向?qū)R結(jié)果從前向后、由長到短排序,舍棄重復的對齊結(jié)果,保存全部可能的詞對齊結(jié)果,具體處理過程如下:

        (1)中英文完全一樣的節(jié)點,舍棄CE中的對齊結(jié)果,對齊等級(LEVEL)加1,LEVEL=2表示EC單向?qū)R和CE單向?qū)R均有對齊,如:

        EC單向?qū)R結(jié)果:aerocraft[45,53]=> 飛行器[13-15]

        CE單向 對齊結(jié)果:飛行器[13,15]=> aerocraft[45-53]

        合并譯項:aerocraft[45,53]=> 飛行器[13-15]LEVEL:2

        (2)若英文的起始位置一樣,原節(jié)點的結(jié)束位置比新節(jié)點的結(jié)束位置要大,則保存CE中的對齊結(jié)果,如:

        EC單向?qū)R結(jié)果:OrbitalModule[23,36]=> 軌道艙[15-17]

        CE 單向?qū)R結(jié)果:軌道[15,16]=> Orbital[23-29]

        保存全部譯項: OrbitalModule[23,36]=> 軌道艙[15-17]LEVEL:2

        Orbital[23,29]=> 軌道[15-16]LEVEL:2

        (3)新節(jié)點的開始位置比原節(jié)點的開始位置要大,直接保存CE中的對齊結(jié)果。

        2.4 雙向?qū)R結(jié)果的融合處理

        對雙向合并對齊結(jié)果進行融合處理,融合策略如下:

        (1)英文節(jié)點相同、中文位置相交的情況,采取最大匹配的原則,選擇中文譯項最長的對齊結(jié)果消解沖突,如:

        infrastructure[45,58]=> 基礎設施[12-15]LEVEL:2

        infrastructure[45,58]=> 基礎[12-13]LEVEL:2

        保留對齊結(jié)果:infrastructure[45,58]=> 基礎設施[12-15]LEVEL:2

        (2)英文節(jié)點相同、中文節(jié)點開始位置不同的情況:i)若待匹配的英文節(jié)點前面存在一個最近有效匹配的英文節(jié)點,則記錄該英文節(jié)點對應的中文譯項的開始位置信息;ii)否則,記錄后面一個最近有效匹配的英文節(jié)點對應的中文譯項的開始位置信息。

        把上面得到的開始位置信息作為參考點RePoint,計算它與待對齊中文節(jié)點之間的相對距離OpDist。算法按照最近原則匹配,保留相對距離最短的對齊結(jié)果,如:

        chargedparticles[18,34]=> 帶電粒子[19-22]LEVEL:2

        chargedparticles[18,34]=> 帶電粒子[35-38]LEVEL:2

        最近有效匹配的對齊:accelerate[7,16]=> 加速[17-18]LEVEL:2

        RePoint=17,OpDistA=︱17-19︱

        保留對齊結(jié)果:chargedparticles[18,34]=> 帶電粒子[19-22]LEVEL:2

        (3)匹配某個節(jié)點后,對其后續(xù)的節(jié)點進行剪枝消歧處理:a)舍棄和已匹配的中文譯項相同的譯項;b)把已匹配的英文開始、結(jié)束位置信息作為區(qū)間的左、右端點,舍棄子區(qū)間對應的所有譯項。如:

        turbinepropulsion[12,29]=> 渦輪推進[1-4]LEVEL:2

        turbine[12,18]=> 渦輪[1-2]LEVEL:1

        propulsion[20,29]=> 推進[3-4]LEVEL:2

        舍棄譯項:turbine[12,18]=> 渦輪[1-2]LEVEL:1

        propulsion[20,29]=> 推進[3-4]LEVEL:2

        2.5 基于語義相似度計算的擴展對齊

        我們對翻譯公司的調(diào)研發(fā)現(xiàn),翻譯人員在處理大規(guī)模翻譯任務時需要多人協(xié)作共同完成,不同翻譯人員的背景文化和語言習慣是不同的,相同的單詞往往會有不同的翻譯結(jié)果。另外,相同的源語言單詞(如:“capsule”)翻譯成目標語言時有多種的表達方式(如:“太空艙”、“航天艙”和“密封艙”)。結(jié)合實際翻譯中語言表達的多樣性和翻譯的靈活性,詞典不可能完全收錄詞語的解釋。針對該問題,算法在進行雙向融合處理之后,基于知網(wǎng)對未對齊的組塊進行語義層面的相似度擴展對齊,提高了對齊的召回率。

        2.5.1 語義相似度計算

        知網(wǎng)[14](HowNet)是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫。

        關(guān)于詞語相似度的計算,文獻[15]基于知網(wǎng)的詞匯語義相似度計算是這樣解釋的,對于兩個漢語詞語W1和W2,如果W1有n個概念:S11,S12,……,S1n,W2有m個概念:S21,S22,……,S2m,則W1和W2的相似度是各個概念的相似度之最大值,如式(1)所示:

        (1)

        這樣,兩個詞語之間的相似度計算就歸結(jié)到了兩個概念之間的相似度計算。知網(wǎng)中的概念是用義原來表示的,所以義原相似度計算是概念相似度計算的前提。

        文獻[16]從信息論的角度出發(fā),兩個事物的相似度不僅與其個性有關(guān),更應與其共性有關(guān)。定義義原相似度計算公式如式(2)所示:

        (2)

        其中Depth(p)表示義原p在整體義原層次體系中所處的層數(shù)位置,即義原深度。Spd(p1,p2)、Dsd(p1,p2)分別表示義原p1和p2的重合度、相異度。

        知網(wǎng)收錄的詞語分為虛詞和實詞兩類,由于虛詞和實詞的不可替換性,因此它們的概念相似度總為0;知網(wǎng)中虛詞的描述僅使用了“{句法義原}”或“{關(guān)系義原}”,對于虛詞之間的相似度只需計算虛詞對應的句法義原(關(guān)系義原)間的相似度即可。

        在知網(wǎng)中,實詞概念DEF項的描述分成4個部分:(1)第一基本義原;(2)其他基本義原;(3)關(guān)系義原;(4)符號義原。給出任意實詞概念S1和S2,其各部分的相似度分別為Sim1(S1,S2)、Sim2(S1,S2)、Sim3(S1,S2)、Sim4(S1,S2),則兩個實詞的語義相似度如式(3)所示:

        (S1,S2)Simi(S1,S2)

        (3)

        其中,βi表示可調(diào)參數(shù),分別描述了DEF項中各部分的權(quán)重,β1+β2+β3+β4=1,β1≥β2≥β3≥β4。式中通過第一部分對其他部分的語義相似度起強制制約作用,突出第一基本義原的重要程度。另外,文獻[16]通過對未登錄詞(知網(wǎng)中以外的詞)進行概念切分、組合概念的語義自動生成和相似度計算,解決了未登錄詞無法參與語義相似度計算的難題,基于知網(wǎng)實現(xiàn)了任意兩個漢語詞語在語義層面的相似度計算。本文基于上述方法來計算兩個漢語詞語的語義相似度,參數(shù)設置:β1=0.5,β2=0.2,β3=0.17,β4=0.13。

        2.5.2 語義相似度的擴展對齊

        在很多情況下,待對齊詞語的譯項并沒有被詞典收錄,但其對應的譯文和詞典的譯項在語義層面上具有極高的相似性,如表1所示:

        表1 詞典譯項與未登錄詞的語義相似度

        在進行雙向融合處理之后,算法基于知網(wǎng)對未對齊的組塊進行語義層面的相似度擴展對齊。語義相似度擴展對齊中融入停用詞過濾環(huán)節(jié),算法僅過濾英文和中文停用詞集合中包含的停用詞,保留含有停用詞的未對齊組塊(如:“a series of”、“give rise to”、“預期的”)。英文停用詞集合包含“it”、“the”、“at”、“of”等常見的停用詞129條;中文停用詞集合包含“的”、“著”、“啊”、“也好”等常見的停用詞200條。另外,為了解決“24.5±0.9%”、“#0”和英文縮寫之類的符號,在2.1節(jié)英文句子處理時把所有單詞組合強制翻譯成本身。

        基于知網(wǎng)的語義擴展對齊流程:首先,在雙向融合詞對齊結(jié)果的基礎上對雙語句對過濾,獲得未對齊的英文片段和中文片段;然后,基于英漢詞典對未對齊的英文片段進行英文最細化分詞、預處理及停用詞過濾等環(huán)節(jié),基于漢英詞典對未對齊的中文片段進行最細化分詞處理及停用詞過濾處理;最后,基于知網(wǎng)進行語義相似度的擴展對齊,實現(xiàn)模糊匹配(Fuzzy Matching)。

        模糊匹配采取最大匹配沖突消解原則和剪枝消歧策略,具體過程如下:(1)將未對齊的英文組塊形成的譯項集合分別與未對齊的中文組塊進行語義相似度計算,滿足指定相似度閾值λ(本文中設λ=1.0)則進行對齊,保留滿足閾值且最長的英文組塊及譯文(對齊結(jié)果),并過濾已對齊的英文組塊及其包含的英文子組塊;(2)如果集合元素的每個中文譯項與全部中文組塊均達不到指定閾值,則刪除該英文組塊及其對應的所有譯項;(3)依次取得下一個英文組塊對應的中文譯項,循環(huán)執(zhí)行上述步驟,直到未對齊的英文組塊形成的譯項集合為空集,算法結(jié)束。

        3 實驗與分析

        3.1 評價指標與實驗結(jié)果

        本實驗用到的測試語料是一本系統(tǒng)工程(System Engineering)雙語書籍[17],共9章,約20萬字規(guī)模。該批語料的特點是專業(yè)術(shù)語豐富、內(nèi)容關(guān)聯(lián)度高、語言規(guī)范性強。從文章中隨機抽取500個句對作為標準測試集并進行詞對齊的人工校對。使用的英漢、漢英詞典來自靈格斯中的朗道英漢、朗道漢英詞典,分別包含詞條數(shù)2,410,778條、2,248,593條。對齊結(jié)果使用準確率、召回率和F值3個指標進行評價,定義如式(4)、(5)、(6)所示:

        (4)

        (5)

        (6)

        本文使用詞典驅(qū)動的動態(tài)組塊切分匹配方法,不需要預先對漢語句子進行分詞處理,有效避免了漢語分詞不當而無法使用詞典進行對齊的問題。傳統(tǒng)詞對齊方法需要對漢語句子進行分詞處理之后再進行對齊,把傳統(tǒng)詞對齊方法作為對比實驗來驗證預先分詞對于詞對齊的影響,漢語句子采用中科院分詞系統(tǒng),對齊結(jié)果(λ=1.0)如表2所示:

        在基于知網(wǎng)的語義擴展對齊中,為了避免過對齊現(xiàn)象,需要對相似度閾值λ進行合理的設置。通過實驗驗證當閾值λ設定為1.0時,F(xiàn)-score最高,對齊效果最佳,如圖5所示:

        表2 英漢詞對齊結(jié)果

        圖5 不同λ值對詞對齊結(jié)果的影響

        在配置為Win7系統(tǒng)、Intel(R)Core(TM)i3-2350M CPU @ 2.30GHz 2.30GHz、內(nèi)存2GB的機器上,實驗總運行時間為50 566 ms,平均運行時間為101.13 ms/句對。

        3.2 實驗結(jié)果分析

        分析表2和表3的實驗數(shù)據(jù),可以得出:

        (1)基于詞典的詞對齊方法,可以獲得很高的正確率。EC單向?qū)R、CE單向?qū)R和雙向融合3種方法分別取得85.66%、83.70%和93.28%的對齊正確率。歸因于詞典含有豐富的、高質(zhì)量的源語言和目標語之間的互譯信息;

        (2)盡管詞典規(guī)模足夠龐大,單向?qū)R結(jié)果的召回率依舊不高。影響召回率偏低的主要因素是系統(tǒng)輸出的正確對齊數(shù)太少,僅使用單向?qū)R方法不能得到較好的詞對齊效果;

        (3)雙向融合的方法明顯提高了對齊的效果,相比EC單向?qū)R和CE單向?qū)RF值分別提高了10.51個百分點和14.79個百分點。相比雙向融合的方法,基于知網(wǎng)的語義相似度擴展對齊明顯提高了對齊的召回率,從82.65%提高到90.35%;

        (4)本算法平均運行時間為每句對101.13 ms,實現(xiàn)了一種高效、實時性詞對齊算法;

        (5)和傳統(tǒng)詞對齊方法對比,本文的方法有效避免了漢語分詞對詞對齊的影響。利用雙向融合思想和語義擴展對齊獲得了高質(zhì)量的詞對齊資源。

        4 結(jié)語

        詞典含有豐富的、高質(zhì)量的源語言和目標語言之間的互譯信息,是進行雙語對齊最直接可靠的資源。針對句子或段落級的實時性對齊需求,本文提出基于雙向詞典和語義相似度計算的高效詞對齊算法,采取詞典驅(qū)動的動態(tài)組塊切分和匹配、最大匹配沖突消解原則、最近匹配原則和剪枝消歧策略,基于知網(wǎng)對未對齊的組塊進行語義層面的擴展對齊,在不降低對齊正確率的情況下明顯提高了對齊的召回率。通過實驗驗證,該方法可以得到高質(zhì)量的詞對齊資源,既可用于實際工程應用,也為自然語言處理的許多任務提供了基礎性、有價值的詞對齊資源。此外,相比于基于統(tǒng)計的詞對齊方法,該方法在只有小規(guī)模語料和實時性對齊等方面具有更好的適用性。

        [1]Brown P,Della P S,Della P V,et al.The mathematics of statistical machine translation:parameter estimation[J].Computational Linguistics,1993,19(2):263-311.

        [2]Nagao M.A framework of a mechanical translation between japanese and english by analogy principle[A].In:A.Elithorn andR.Baneji,editors,Artificial and Human Intelligence,1984:173-180.

        [3]AI-Onaizan Y,Curin J,Jahr M,et al.Statistical machine translation,final report,JHU workshop[DB/OL].http://www.clsp.jhu.edu/ws99/projects/mt/final_report/mt-final-report.ps,1999.

        [4]Brown P F,Cocke J,Della-Pietra S A,et al.A statistical approach to machine translation[J].Computational Linguistics,1990,16(2):79-85.

        [5]Och F J,Ney H.Improved statistical alignment models[C].Proceedings of 38th Annual Meeting of Association for Computational Linguistics.Hong Kong,China,2000:440-447.

        [6]Och F J,Ney H.A comparison of alignment models for statistical machine translation[C].Proceedings of the 18th International Conference on Computational Linguistics.Saarbrucken,Germany,2000:1086-1090.

        [7]鄧丹,劉群,俞鴻魁.基于雙語詞典的漢英詞對齊算法研究[J].計算機工程,2005,31(16):45-47.

        [8]張孝飛,陳肇雄,黃河,等.基于錨點詞對的雙語詞對齊算法[J].小型微型計算機系統(tǒng),2006,27(2):330-334.

        [9]晉薇,黃河燕,夏云慶.基于語義相似度并運用語言學知識進行雙語語句詞對齊[J].計算機科學,2002,29(11):44-47.

        [10]Yang N,Liu S J,Li M,et al.Word alignment modeling with context dependent deep neural network[C].Proceedings of 51th Annual Meeting of Association for Computational Linguistics.Sofia,Bulgaria,2013:166-175.

        [11]羅維,吉宗誠,呂雅娟,等.一種改進詞對齊的新方法[C].第五屆全國青年計算語言學研討會.2010:292-298.

        [12]沈世奇,劉洋,孫茂松.基于對偶分解的詞對齊搜索算法[J].中文信息學報,2013,27(4):9-15.

        [13]梁華參,趙鐵軍.統(tǒng)計機器翻譯中雙語語料的過濾及詞對齊的改進[J].智能計算機與應用,2013,3(4):10-14.

        [14]董振東,董強.《知網(wǎng)》[DB/OL].下載地址:http://www.keenage.com,1999.

        [15]劉群,李素建.基于知網(wǎng)的詞匯語義相似度計算[C].第三屆漢語詞匯語義學研討會,2002:59-76.

        [16]夏天.漢語詞語語義相似度計算研究[J].計算機工程,2007,33(6):191-194.

        [17]張新國.系統(tǒng)工程手冊[M].北京:機械工業(yè)出版社,2013:2-10.

        (責任編輯:劉劃 英文審校:劉紅江)

        Word-alignment algorithm combined with bidirectional dictionary and semantic similarity calculation

        YIN Bao-sheng,YANG Yang

        (Research Center for Human-Computer Interaction,Shenyang Aerospace University,Shenyang 110136,China)

        Word-alignment based on statistical method requiresa large-scale bilingual corpus as input,soit is difficult to avoid the problem of data sparse and the algorithmtime overhead.This paper presents anefficient word-alignment algorithm based on bidirectional dictionary and semantic similarity calculation to satisfy the demand for real-time alignment of sentence or paragraph level.The approximate translation of word-alignment problem due to the flexibility and diversity of translation can beeffectively solved by taking dynamic block segmentation and matching,semantic similarity calculation based on the HowNet,the conflict resolution based on the maximum matching and the pruning disambiguation.Compared with the standard algorithm,the experimental results show that the accuracy rate and recall ratecan be effectively improved bythis alignment method on a small-scalebilingual corpus and real-timealignment with better adaptability.

        word-alignment;bidirectional dictionary;dynamic block segmentation and matching;semantic similarity calculation

        2014-10-08

        遼寧省百千萬人才基金項目(項目編號:04021401)

        尹寶生(1975-),男,遼寧沈陽人,副教授,主要研究方向:知識管理和機器翻譯,E-mail:ybs@ge-soft.com。

        2095-1248(2015)02-0067-08

        TP391

        A

        10.3969/j.issn.2095-1248.2015.02.014

        猜你喜歡
        語義英文
        語言與語義
        英文摘要
        鄱陽湖學刊(2016年6期)2017-01-16 13:05:41
        英文摘要
        英文摘要
        財經(jīng)(2016年19期)2016-08-11 08:17:03
        英文摘要
        “上”與“下”語義的不對稱性及其認知闡釋
        英文摘要
        英文摘要
        認知范疇模糊與語義模糊
        “深+N季”組配的認知語義分析
        當代修辭學(2011年6期)2011-01-29 02:49:50
        久久综合网天天 | 国产极品视觉盛宴| 全免费a敌肛交毛片免费| 午夜男女爽爽爽在线视频| 亚洲AV无码一区二区三区ba| 国产特黄1区2区3区4区| 一区二区三区视频亚洲| 乱码av麻豆丝袜熟女系列| 色妞色综合久久夜夜| 中文字幕av无码一区二区三区电影 | 美女av一区二区三区| 国产精品久久久久久久久KTV| 完整在线视频免费黄片| 中文字幕综合一区二区| 97人妻人人做人碰人人爽| 乱人伦中文字幕成人网站在线| 国产品精品久久久久中文| 全国一区二区三区女厕偷拍| 国产99视频精品免视看7 | 精品无码国产自产野外拍在线| 亚洲成a人片在线观看导航| 精品女人一区二区三区| 国产aⅴ激情无码久久久无码| 中文无码一区二区不卡αv| 91精品国产免费久久久久久青草| 97超碰中文字幕久久| 女人18片毛片60分钟| 亚洲乱亚洲乱少妇无码99p| 九九99久久精品午夜剧场免费| 黑丝美腿国产在线观看| 国语自产偷拍在线观看| 国产一区二区三区美女| av网站影片在线观看| 国产91精品高潮白浆喷水| 男男啪啪激烈高潮cc漫画免费 | 久久精品女人天堂AV一个| 手机在线看片国产人妻| 欧美俄罗斯40老熟妇| 久久久精品国产亚洲AV蜜| 精品人妻日韩中文字幕| 97久久久久人妻精品区一|