亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        TIMSS試題的機(jī)器翻譯系統(tǒng)構(gòu)建及其效果

        2013-09-13 02:50藍(lán)楊
        關(guān)鍵詞:詞序單字詞組

        藍(lán)楊

        (浙江警官職業(yè)學(xué)院,浙江杭州,310018)

        一、引言

        國際教育學(xué)習(xí)成就調(diào)查委員會(huì)(The International Association for the Evaluation of Education Achievement, 以下簡稱 IEA)的主要工作是了解各國學(xué)生數(shù)學(xué)及科學(xué)(含物理、化學(xué)、生物、及地球科學(xué))方面學(xué)習(xí)成就、教育環(huán)境等影響學(xué)生學(xué)習(xí)成效的因素,找出關(guān)聯(lián)性,并在國際間相互作比較。自1970年起開始第一次國際數(shù)學(xué)與科學(xué)教育成就調(diào)查后,世界各國逐漸對國際數(shù)學(xué)與科學(xué)教育成就研究感到興趣,IEA便在 1995年開始每四年辦理國際數(shù)學(xué)與科學(xué)教育成就研究一次,稱為國際數(shù)學(xué)與科學(xué)教育成就趨勢調(diào)查(Trends in International Mathematics and Science Study,以下簡稱TIMSS )。

        中國教育科學(xué)研究院于1983年正式成為IEA的團(tuán)體會(huì)員,并計(jì)劃加入和引進(jìn)TIMSS的調(diào)研活動(dòng),以期對中國數(shù)學(xué)教育和科學(xué)教育產(chǎn)生積極的作用。而我國的臺灣省于1999年加入TIMSS后,已經(jīng)開始著手實(shí)施相關(guān)工作,包括負(fù)責(zé)試題翻譯及測驗(yàn)工作。本文在對國外和臺灣的相關(guān)試題測試工作進(jìn)行研究和分析后,對TIMSS試題翻譯作了初步的研究分析。

        以往使用人工翻譯雖然可以達(dá)到很高的翻譯質(zhì)量,但是需要耗費(fèi)相當(dāng)多的人力資源和時(shí)間,而且在翻譯過程中不同的翻譯者會(huì)有不同的翻譯標(biāo)準(zhǔn),相同的翻譯者也可能在文章前后翻譯方式不一致而產(chǎn)生語意上的混淆。因此此類語言轉(zhuǎn)換導(dǎo)致的問題間接影響試題難易程度。若直接將英文詞匯透過英漢字典翻譯成相對的中文詞匯,翻譯的結(jié)果可能會(huì)不符合一般人的用詞順序。另外中文的自由度較高,很容易造成翻譯上用詞順序的不同。例如:“下圖顯示某一個(gè)國家所種谷物的分布圖”,也可翻譯為“某一個(gè)國家所種谷物的分布圖,如下圖顯示”??赡軙?huì)影響到受測者的思緒,使作答時(shí)粗心的情形增加。因此,若能利用機(jī)器翻譯(machine translation)的技術(shù)來輔助翻譯以及調(diào)整詞序,便可提高翻譯的質(zhì)量和效率。

        Dorr等學(xué)者[1]將現(xiàn)在機(jī)器翻譯依據(jù)系統(tǒng)處理的方式來分類,分成以語言學(xué)為基礎(chǔ)翻譯(linguistic-based paradigms),例如基于知識(knowledge-based)和基于規(guī)則(rule-based)等;以及非語言學(xué)為基礎(chǔ)翻譯(nonlinguistic-based paradigms) ,例如基于統(tǒng)計(jì)(statisticalbased)和基于范例(example-based)等。

        以知識為基礎(chǔ)的機(jī)器翻譯(knowledge-based machine translation)系統(tǒng)是運(yùn)用字典、語法規(guī)則或是語言學(xué)家的知識來幫助翻譯。這種利用字典來幫助翻譯的系統(tǒng),會(huì)有一字多義的情形發(fā)生,一個(gè)詞匯在字典中通常有一個(gè)以上的翻譯。以英翻中為例“current”這個(gè)字在字典里就有十多種不同的翻譯,即使專家也無法找出一個(gè)統(tǒng)一的規(guī)則,在何種情況下要用何種翻譯,所以在翻譯的質(zhì)量和正確性上很難滿足使用者的的需求。因此,翻譯系統(tǒng)通常都會(huì)限定領(lǐng)域來減少一字多義,例如“current”在電子電機(jī)類的文章中出現(xiàn),最常被翻譯為電流,在文學(xué)類的文章中,最常被翻譯為現(xiàn)代。

        以范例為基礎(chǔ)的機(jī)器翻譯(example-based machine translation,以下簡稱為 EBMT)的相關(guān)研究已有相當(dāng)多年歷史,在1990年美國學(xué)者Brown和Pietra[2]所提出的EBMT是將翻譯過程分為分解(decomposition)、轉(zhuǎn)換(transfer)和合成(composition)三步驟。分解階段是將來源句放到范例庫中搜尋,將所搜尋到 worddependency tree當(dāng)作來源句的word-dependency tree,并且形成來源句的表示式;轉(zhuǎn)換階段將來源句的表示式轉(zhuǎn)換成目標(biāo)句的表示式;合成階段將目標(biāo)句的表示式展開為目標(biāo)句的word-dependency tree,并輸出翻譯結(jié)果。Al- Adhaileh等學(xué)者[3]將 structured string tree correspondence(SSTC)運(yùn)用在英文翻譯成馬來西亞文的過程中,SSTC是一種能將英文對應(yīng)馬來西亞文的結(jié)構(gòu),但此結(jié)構(gòu)并沒有解決詞序交換的問題。目前較完整的EBMT系統(tǒng)為tree-string correspondence (TSC)結(jié)構(gòu)和統(tǒng)計(jì)式模型所組成的 EBMT系統(tǒng)[4],在比對TSC結(jié)構(gòu)的機(jī)制是計(jì)算來源句剖析樹和 TSC比對的分?jǐn)?shù),產(chǎn)生翻譯的是由來源詞匯翻譯成目標(biāo)詞匯的機(jī)率和目標(biāo)句的語言模型所組成。

        我們提出雙語樹對應(yīng)字符串的結(jié)構(gòu)(bilingual structured string tree correspondence,簡稱為BSSTC)是可以運(yùn)用在多元剖析樹上的,并且 BSSTC可在翻譯過程中當(dāng)作詞序交換的參考。根據(jù)我們實(shí)驗(yàn)結(jié)果,我們能有效的調(diào)動(dòng)詞序,以提升翻譯的質(zhì)量。完成詞序交換后,再透過字典翻譯成中文,最后運(yùn)用統(tǒng)計(jì)式選詞模型,產(chǎn)生初步翻譯結(jié)果,但本系統(tǒng)尚屬于半自動(dòng)翻譯系統(tǒng),故需要人工加以修飾編輯。

        二、系統(tǒng)架構(gòu)

        由于我們的目的在于利用中英互為翻譯的句子找出詞序關(guān)系,并且將英文句和中文句詞序的信息儲存在計(jì)算機(jī)中,儲存的格式是將中英文句的詞序關(guān)系記錄在英文剖析樹的結(jié)構(gòu)中,此結(jié)構(gòu)將成為之后英文句的結(jié)構(gòu)調(diào)整為適合中文的結(jié)構(gòu)的參考。最后再將英文詞匯翻譯成中文詞匯,并利用統(tǒng)計(jì)式選詞選出最有可能翻譯成的中文詞匯,讓翻譯的結(jié)果更符合一般人的用詞和順序。

        本系統(tǒng)的架構(gòu)如圖1所示。我們針對范例樹產(chǎn)生的系統(tǒng)和英文句翻譯系統(tǒng)這兩部份分別簡介如下。

        范例樹產(chǎn)生系統(tǒng):這個(gè)系統(tǒng)利用中英平行語料作為基礎(chǔ),這里的中英平行語料必需要一句英文句對應(yīng)一句中文句,且每一組中英文句都要是互為翻譯的句子。中文句經(jīng)過斷詞處理后,被斷成數(shù)個(gè)中文詞匯,以空白隔開;英文句則經(jīng)過英文剖析器建成英文剖析樹。將斷詞后的結(jié)果和英文剖析樹經(jīng)過剖析樹對應(yīng)字符串模塊處理,建成英文剖析樹對應(yīng)字符串的結(jié)構(gòu)樹,此結(jié)構(gòu)樹稱為范例樹。再將每個(gè)范例樹取出子樹,并且判斷是否有詞序交換,將需要詞序交換的范例樹全部存入范例樹數(shù)據(jù)庫中方便搜尋。

        英文句翻譯系統(tǒng):當(dāng)輸入英文句后,先將句子透過英文剖析器,建成英文剖析樹。有了英文剖析樹就可以透過搜尋范例樹模塊,標(biāo)記英文剖析樹上需要調(diào)動(dòng)詞序的結(jié)構(gòu),并依照所標(biāo)記的詞序作調(diào)整。詞序調(diào)整完成后再將英文結(jié)構(gòu)樹中的英文單字或詞組透過翻譯模塊做翻譯。其中翻譯模塊包含了大小寫轉(zhuǎn)換、斷詞處理和禁用詞過濾等環(huán)節(jié),之后將處理過的詞匯透過字典文件做翻譯[5]。每個(gè)英文單字或詞組都可能有一個(gè)以上的中文翻譯,因此需要選詞的機(jī)制來產(chǎn)生初步翻譯結(jié)果,此翻譯結(jié)果尚需要人工作后續(xù)的編修。

        圖1 系統(tǒng)框架圖

        三、系統(tǒng)相關(guān)技術(shù)

        根據(jù)上一節(jié)介紹,系統(tǒng)架構(gòu)分為范例樹產(chǎn)生系統(tǒng)和英文句翻譯系統(tǒng)兩大系統(tǒng)。范例樹產(chǎn)生系統(tǒng)的執(zhí)行流程為先處理中文句斷詞和剖析英文句,再將斷詞和剖析后的結(jié)果輸入至剖析樹對應(yīng)字符串模塊,并將處理后的范例樹存入數(shù)據(jù)庫中。英文句翻譯系統(tǒng)的執(zhí)行流程區(qū)分為三大部分,第一部分為搜尋范例樹模塊,將英文剖析樹跟范例樹數(shù)據(jù)庫作比對,并且將未比對到的子樹做修剪;第二部分將修剪后的剖析樹輸入到翻譯模塊翻成中文;第三部分以中英詞匯對列工具及bi-gram語言模型,計(jì)算出中英詞匯間最有可能之翻譯組合。

        (一) 雙語樹對應(yīng)字符串的結(jié)構(gòu)(BSSTC)

        在建立 BSSTC結(jié)構(gòu)之前,我們必須將中英平行語料中的中英文句先作前處理,我們將英文句透過StanfordLexParser-1.6[6]建成剖析樹,剖析樹的每個(gè)葉子節(jié)點(diǎn)為一個(gè)英文單字,并以英文單字為單位由1開始標(biāo)號。這里我們將樹根定義為第0層,樹根的子樹是第1層,越往下層數(shù)越大,故葉子節(jié)點(diǎn)必定是英文單字,且不屬于任何一層,如圖2所示。中文句子斷詞后的單位由1開始標(biāo)號。這里的中文句代表來源句;英文句則代表目標(biāo)句。本結(jié)構(gòu)都假設(shè)中英文對應(yīng)是在詞匯的對應(yīng)或連續(xù)字符串的對應(yīng)基礎(chǔ)上。假設(shè)剖析樹的節(jié)點(diǎn)集合N={N1,N2, …,Nm},m為剖析樹上節(jié)點(diǎn)個(gè)數(shù),對任一節(jié)點(diǎn)n∈N,n有三個(gè)參數(shù)分別是n[STREE//]、n[/STC/]和n[//ORDER]; 我 們 以n[STREE/STC/ORDER]來表示。為了方便說明,若節(jié)點(diǎn)n只有n[STREE//]和n[/STC/],則以n[STREE/STC/]表示。再假設(shè)nC(n)為節(jié)點(diǎn)n有1到C(n)個(gè)子節(jié)點(diǎn)。n[STREE//]為節(jié)點(diǎn)n所涵蓋來源句的范圍,層數(shù)最大節(jié)點(diǎn)的n[STREE//]必定對應(yīng)到一個(gè)來源句單字,此參數(shù)的功用為當(dāng)作每個(gè)節(jié)點(diǎn)的鍵值(primary key),故在同一棵剖析樹中n[STREE//]不會(huì)重復(fù)。圖 3是一個(gè)BSSTC結(jié)構(gòu)的例子,來源句為英文:“Our experiments were simple in concept”;目標(biāo)句為中文:“我們的實(shí)驗(yàn)概念很簡單”。首先英文句必須先建成剖析樹,每個(gè)葉子節(jié)點(diǎn)為一個(gè)英文單字,并以英文單字為單位做標(biāo) 號 , 例 如 : “Our(1)”, “ex-periments(2)”,“were(3)”, “simple(4)”, “in(5)”,“concept(6)”。另外中文句經(jīng)過斷詞的處理后,以斷詞后的單位做標(biāo)號,例如:“我們(1)”, “的(2)”, “實(shí)驗(yàn)(3)”, “概念(4)”, “很(5)”, “簡單(6)”。中英對應(yīng)句都標(biāo)號后,以標(biāo)號為單位開始做詞匯對準(zhǔn)(word alignment),并標(biāo)記在剖析樹的節(jié)點(diǎn)上。剖析樹是用文法結(jié)構(gòu)來分層,不同層節(jié)點(diǎn)能對應(yīng)到不同的范圍的目標(biāo)句字符串。n[STREE/STC/]若為 VP[3-6/4-6/],則 STREE代表節(jié)點(diǎn) VP對應(yīng)來源句第三到第六個(gè)字 “were simple in concept”;STC代表“were simple in concept”對應(yīng)目標(biāo)句的第四到第六個(gè)字“概念很簡單”。nC(n)[STREE/STC/ORDER]的兄弟節(jié)點(diǎn)(sibling node)若為JJ[4/6/2]和PP[5-6/4/1],我們可以觀察到JJ的ORDER大于PP的ORDER,故PP[5-6/4/1]的中文對應(yīng)「概念」在JJ[4/6/2] 的中文對應(yīng)「簡單」之前。

        圖2 英文剖析數(shù)

        圖3 BSSTC結(jié)構(gòu)的表示法

        (二) 建立BSSTC結(jié)構(gòu)和產(chǎn)生范例樹

        建立 BSSTC結(jié)構(gòu)必需要有英文跟中文互為翻譯的句子,建構(gòu)的順序是從最底層也就是層數(shù)最大的開始標(biāo)記,再一層一層往上建置到第0層為止,標(biāo)記參數(shù)順序是先將所有節(jié)點(diǎn)的n[STREE//]和n[/STC/]標(biāo)記完后,再標(biāo)記n[//ORDER]。首先,標(biāo)記最底層n[STREE//]的方法,是將最底層的節(jié)點(diǎn)n所對應(yīng)葉子節(jié)點(diǎn)的編號標(biāo)記在n[STREE//]。如圖3節(jié)點(diǎn)NNS所對應(yīng)來源句的“experiments”的編號為 2,故 NNS[STREE//]中的 STREE標(biāo)記為 2。接著標(biāo)記最底層n[/STC/]的方法是尋找中英對應(yīng)句中互為翻譯的中文詞匯和英文詞匯,也就是詞匯對準(zhǔn)。詞匯對準(zhǔn)若采用人工方式,則相當(dāng)耗時(shí)費(fèi)力,其本身也是一項(xiàng)困難的研究。如圖3來源句的“experiments”在字典中的翻譯有“實(shí)驗(yàn)”、“經(jīng)驗(yàn)”和“試驗(yàn)”,將這三個(gè)中文翻譯到目標(biāo)句去比對,此例子將會(huì)比對到目標(biāo)句第三個(gè)詞匯“實(shí)驗(yàn)”,接著將目標(biāo)句“實(shí)驗(yàn)”的編號標(biāo)記在NNS[2/STC/]中的STC上。最后將比對到的個(gè)數(shù)除以英文句單字的個(gè)數(shù),稱為對應(yīng)率。最佳情況下是每個(gè)英文單字都有相對應(yīng)的中文翻譯,對應(yīng)率為 1;最差的情況下每個(gè)英文單字都沒有相對應(yīng)的中文翻譯,對應(yīng)率為0,所以對應(yīng)率會(huì)落在0到1之間,值越大代表對應(yīng)率越高。我們需要夠大的對應(yīng)率,才能認(rèn)定為范例樹。因此,需要定一個(gè)門坎值來篩選,根據(jù)實(shí)驗(yàn)結(jié)果當(dāng)門坎值越高留下來的范例樹越少,而門坎值越低會(huì)使翻譯的質(zhì)量下降。

        圖4 僅標(biāo)記最底層

        (三) 搜尋相同范例樹

        根據(jù)搜尋范例樹算法的流程,如圖 7。首先將來源句的剖析樹加到數(shù)列(queue)里,從數(shù)列里面取出一棵剖析樹到范例樹數(shù)據(jù)庫中,搜尋是否有相同結(jié)構(gòu)的范例樹;如為否,則將此棵樹的下一層的子樹加入數(shù)列,加入數(shù)列的順序?yàn)樽笞訕涞接易訕?;如為是,則將該樹的ORDER標(biāo)記在來源句的剖析樹上,繼續(xù)取出數(shù)列內(nèi)的剖析樹,直到數(shù)列里沒有剖析樹為止。所以來源句的剖析樹是由一個(gè)以上的匹配子樹所組成。

        圖5 僅標(biāo)記STREE及STC

        圖6為剖析樹搜尋范例樹的情形。來源句:“The graph shows the heights of four girls”,剖析樹為“(S(NP(DT The)(NN graph))(VP(VBZ shows)(NP(NP(DT the)(NNS heights))(PP(IN of)(NP(CD four)(NNS girls)))))”。透過搜尋范例樹算法找出匹配子樹,首先以節(jié)點(diǎn)S為樹根的剖析樹到數(shù)據(jù)庫作搜尋,搜尋時(shí)不包含葉子節(jié)點(diǎn),此例子沒搜尋到匹配子樹,則將節(jié)點(diǎn)S的子樹NP和VP加入數(shù)列中。接下來將從數(shù)列中取出的子樹為 NP,到范例樹數(shù)據(jù)庫搜尋匹配子樹,但數(shù)據(jù)庫中沒有相同的范例樹,此時(shí)NP的子樹皆為葉子節(jié)點(diǎn),所以并無子樹在加入數(shù)列中。依照先進(jìn)先出的原則下一個(gè)從數(shù)列取出的是S的右子樹VP,在范例樹數(shù)據(jù)庫中還是搜尋不到,因此要將VP的子樹VBZ和NP加入數(shù)列中,但VBZ為葉子節(jié)點(diǎn),故只有NP加入數(shù)列中。接下來是子樹NP從數(shù)列中被取出來,子樹NP在數(shù)據(jù)庫中搜尋到相同的范例樹,如圖六的范例樹就是所搜尋到的匹配子樹,因此將范例樹的ORDER標(biāo)記上去,標(biāo)記后的剖析樹將如圖8所示。此時(shí)數(shù)列中已經(jīng)為空,搜尋范例樹的流程到此為止。

        標(biāo)記完ORDER之后,將沒有標(biāo)記的子樹作修剪,也就是將不用作詞序交換的子樹修剪到最小層樹。如圖8節(jié)點(diǎn)S的右子樹、NP[2]和NP[1]的子樹皆不需要作詞序交換,因此修剪的結(jié)果為“(S(NP The graph)(VP(VBZ shows)(NP(NP[2] the heights)(PP[1](IN[2]of)(NP[1] four girls))))) ”,如圖9所示。最后從層數(shù)最大的每個(gè)兄弟節(jié)點(diǎn)開始逐層往上依照優(yōu)先權(quán)順序調(diào)整剖析樹的結(jié)構(gòu);調(diào)整后的結(jié)果將會(huì)輸入到翻譯模塊產(chǎn)生翻譯。若我們直接取來源句剖析樹的葉子節(jié)點(diǎn)作翻譯,將會(huì)成為單字式的翻譯,我們將無法對詞組或詞組作翻譯。翻譯的部分會(huì)在下一節(jié)會(huì)作詳細(xì)說明。

        圖6 剖析數(shù)與范例數(shù)的對應(yīng)關(guān)系

        圖7 搜尋范例數(shù)演算法

        圖8 完成ORDER標(biāo)記

        圖9 剖析書修剪后的結(jié)果

        圖10 調(diào)整詞序后的結(jié)果

        (四) 翻譯處理

        經(jīng)過上一節(jié)處理最后得到修剪樹,修剪樹的葉子節(jié)點(diǎn)可能為英文單字(word)、詞組(term)。詞組即為數(shù)個(gè)單字結(jié)合的字符串,不一定為完整的句子,如“would be left on the floor”或詞組(phrase,如名詞詞組、動(dòng)詞詞組、形容詞詞組等) ,如“in order to”。在翻譯處理上會(huì)遇到英文單字或詞組,在英文單字的部分,直接查尋字典文件作翻譯;詞組的部分利用規(guī)則詞典文件的詞組,和詞組進(jìn)行字符串比對,以找出符合的詞組及中文翻譯。以下為字典文件及規(guī)則詞典文件分項(xiàng)說明。

        字典文件:字典文件部分我們使用Concise Oxford English Dictionary[8](牛津現(xiàn)代英漢雙解詞典,收錄39429個(gè)詞匯),將前處理過后的英文單字或詞組做翻譯對等字搜尋的動(dòng)作,找出所有和該英文單字的中文詞組,作為翻譯的候選名單。如無法在字典文件中搜尋到對應(yīng)的中文翻譯。如姓名和專有名詞,則直接輸出該英文字。

        規(guī)則詞典文件:為常用的名詞詞組、動(dòng)詞詞組、形容詞詞組等詞組,以及試題翻譯小組所決議之統(tǒng)一翻譯詞組以人工的方式建立的中英翻譯對照檔,如in order to(為了)。 分成單字和詞組翻譯是因?yàn)槿粼谝?guī)則詞典文件比對不到,則用空白來做一般字和字之間的斷詞,也就變成單字的翻譯,因?yàn)樵~組較能完整表現(xiàn)出動(dòng)作或敘述。如只用單字作翻譯,會(huì)造成翻譯上的錯(cuò)誤。須注意的是比對的句型若有相似結(jié)構(gòu)但不同長度的字符串樣式,則取長度最長的為結(jié)果。如一英文句子為“…as shown in diagram…”,同時(shí)滿足規(guī)則詞典文件內(nèi)的“as shown in diagram”和“in diagram”片語句型,則我們會(huì)選擇長度較長的“as shown in diagram”而不是選擇“in diagram”加上“as show”作為斷詞的結(jié)果。 在英文翻譯成中文的過程中,有些英文單字不需要翻譯或是無意義的情形,所以我們將這些單字過濾不翻譯,這些單字稱為stop word。例如:冠詞the直接去除。介詞for、to、of等,若前一單字為 what、how、who、when、why等疑問詞,則允許刪除,另外,to出現(xiàn)在句首直接刪除。助動(dòng)詞do、does等,判斷方式與介詞相同。在翻譯過程中還可能出現(xiàn)詞干變化(如~ing、~ed等)和詞性變化(如動(dòng)詞break,其過去式為 broke,被動(dòng)式為 broken,以及名詞單復(fù)數(shù)型態(tài))。詞干變化的部份,我們可以還原各詞性(名詞、動(dòng)詞、形容詞、副詞);詞性變化的部分,有些是不規(guī)則的變化,較難用算法處理。

        四、系統(tǒng)翻譯效果評估

        本節(jié)主要介紹利用本系統(tǒng)翻譯國際數(shù)學(xué)與科學(xué)教育成就趨勢調(diào)查2010年考題,簡稱TIMSS2010,并將試題依照年齡別和科目別,分別比較翻譯的質(zhì)量。最后將與在線翻譯以及已經(jīng)研發(fā)在用的翻譯系統(tǒng)作比較。評估方式為利用BLEU(IBM公司的機(jī)器翻譯評測標(biāo)準(zhǔn))及美國國家標(biāo)準(zhǔn)與技術(shù)研究院 NIST(National Institute of Standards and Technology)指標(biāo)。

        (一) 實(shí)驗(yàn)來源

        用來翻譯的來源為TIMSS2010試題, 所有實(shí)驗(yàn)語料句對數(shù)、中英詞匯數(shù)、中英總詞匯個(gè)數(shù)及平均句長,皆如表1所示。用來建立范例樹的來源有中國教育科學(xué)院委托北京實(shí)驗(yàn)二小和北京第四中學(xué)語文學(xué)習(xí)教科書補(bǔ)充資料題庫[7]及科學(xué)人雜志。補(bǔ)充數(shù)據(jù)題庫以人工方式完成中英語句對列(sentence alignment),再經(jīng)過范例樹的篩選門坎值為0.6的情況下有565句。用來訓(xùn)練選詞機(jī)率模型的來源有自由時(shí)報(bào)中英對照讀新聞及科學(xué)人雜志。自由時(shí)報(bào)中英對照讀新聞從2009年2月14日至2011年10月31日,而自由時(shí)報(bào)中英對照讀新聞本身就已經(jīng)作好中英語句對列??茖W(xué)人雜志是從2006年3月至2009年12月共110 篇為語料來源。

        (二) 實(shí)驗(yàn)設(shè)計(jì)

        首先,將TIMSS2010試題問句以逗號、問號或驚嘆號作為斷句的單位,每個(gè)誘答選項(xiàng)做為斷句的單位,若一道題目為一句試題問句及四項(xiàng)誘答選項(xiàng)所組成,則一道題目可斷出五句。經(jīng)過人工斷句處理TIMSS2010試題,小學(xué)數(shù)學(xué)領(lǐng)域有165句;小學(xué)科學(xué)領(lǐng)域有262句;中學(xué)數(shù)學(xué)領(lǐng)域有439句;中學(xué)科學(xué)領(lǐng)域有236句,并整理為文字文件。建立范例樹數(shù)據(jù)庫所使用的語料為中學(xué)補(bǔ)充數(shù)據(jù)題庫,訓(xùn)練機(jī)率模型所使用的語料自由時(shí)報(bào)中英對照讀新聞加上科學(xué)人雜志,其中訓(xùn)練語言模型得到的bi-gram共有134435個(gè)。

        主要評估的對象有Google在線翻譯、Yahoo在線翻譯及本系統(tǒng)互相做比較,并且評估翻譯系統(tǒng)在不同年級的試題內(nèi)容上,翻譯質(zhì)量是否會(huì)按照越低年級其翻譯質(zhì)量越好的趨勢。因此,我們將實(shí)驗(yàn)組別分為中學(xué)生段和小學(xué)生段;數(shù)學(xué)領(lǐng)域以M為代號,科學(xué)領(lǐng)域以S為代號,當(dāng)作實(shí)驗(yàn)組別的名稱??梢訲IMSS2010分為中學(xué)段2010 M組、中學(xué)段2010 S組、小學(xué)段2010 M組及以小學(xué)段2010 S組四組;在加上TIMSS 2010數(shù)學(xué)及科學(xué)領(lǐng)域之中學(xué)段試題,和TIMSS 2010數(shù)學(xué)及科學(xué)領(lǐng)域之小學(xué)段試題,分別為中學(xué)段2010MS組及小學(xué)段2010MS組,總共六組,如表2所示。

        (三) 實(shí)驗(yàn)結(jié)果

        從表3可觀察到,中學(xué)段2010 M組NIST分?jǐn)?shù)以Yahoo!最高分,但 BLEU分?jǐn)?shù)與本系統(tǒng)相近,可知Yahoo對中學(xué)段2010 M組所翻譯的詞匯跟參考翻譯較相同,但Yahoo和本系統(tǒng)翻譯后詞序的正確性是差不多的。小學(xué)段2010 M組試題中有較多特殊符號,例如○和●等,Yahoo及Google在線翻譯系統(tǒng)會(huì)將這些特殊符號處理成亂碼,但本系統(tǒng)可以將特殊符號保留下來,故小學(xué)段和中學(xué)段2010 M組與最高分系統(tǒng)的差距較小。先前我們假設(shè)翻譯質(zhì)量是否會(huì)按照越低年級其翻譯質(zhì)量越好的趨勢,觀察中學(xué)段2010MS組及小學(xué)段MS組,可發(fā)現(xiàn)與假設(shè)相反,各系統(tǒng)在中學(xué)段2010 MS組的表現(xiàn)都比小學(xué)段2010 MS組要好??赏茰y出本系統(tǒng)其中一種語料為中學(xué)補(bǔ)充數(shù)據(jù)題庫較符合TIMSS中學(xué)段2010的試題。

        表1 實(shí)驗(yàn)語料來源統(tǒng)計(jì)

        表2 TIMSS試題實(shí)驗(yàn)組別表

        表3 本系統(tǒng)及以上翻譯系統(tǒng)之NIST及BLEU值比較表

        我們將中學(xué)段 2010M組和中學(xué)段 2010S組作比較,小學(xué)段2010 M組和小學(xué)段2010 S組作比較,可以發(fā)現(xiàn)各系統(tǒng)除了Google之外,在M組上表現(xiàn)都比S組好,因?yàn)镸組的試題內(nèi)容包含較多的數(shù)字,對于翻譯系統(tǒng)較容易處理,而S組則包含較多專有名詞,對于翻譯系統(tǒng)較為困難。

        五、結(jié)論

        本論文提出 BSSTC結(jié)構(gòu),此結(jié)構(gòu)能夠記錄來源句詞匯的位置、目標(biāo)句詞匯的位置及來源句與目標(biāo)句詞匯對應(yīng)的關(guān)系;并且將 BSSTC結(jié)構(gòu)運(yùn)用在我們實(shí)作的翻譯系統(tǒng)上。本系統(tǒng)是利用 BSSTC結(jié)構(gòu)建立范例樹,將來源句經(jīng)過搜尋范例樹算法,來達(dá)到修正詞序的目的。最后,在依據(jù)修正后的詞序進(jìn)行翻譯,翻譯時(shí)再利用中英詞匯對列工具及 bi-gram語言模型,選出最適合的中文翻譯,產(chǎn)生建議的翻譯,此翻譯還需要人工修整。 TIMSS的試題為數(shù)學(xué)及科學(xué)類,應(yīng)該要用大量數(shù)學(xué)及科學(xué)類的語料,但實(shí)際上我們并無法找到夠多的數(shù)學(xué)及科學(xué)類語料,尤其以中英對應(yīng)的語料最少,所以我們選用新聞及補(bǔ)充數(shù)據(jù)題庫來擬補(bǔ)語料的不足。不過訓(xùn)練量還是不夠多,在選詞上會(huì)有許多機(jī)率為0的情況,造成選詞錯(cuò)誤。未來將盡量找尋相關(guān)領(lǐng)域的語料,來建立范例樹和訓(xùn)練語言模型,就能針對不同領(lǐng)域的內(nèi)容進(jìn)行翻譯,使翻譯的結(jié)果更為精確。 訓(xùn)練語料中的斷詞是使用國外的系統(tǒng),而我們翻譯使用的字典為牛津字典,兩者所使用的字典并不相同,會(huì)使斷詞后的詞匯可能無法在牛津字典中找到,造成選詞錯(cuò)誤。未來可將翻譯后的詞匯,找出同義詞來擴(kuò)充詞匯數(shù),便能增加被找到的可能性。

        英文的語言特性上并沒有量詞,而中文句中運(yùn)用了很多的量詞,如缺少量詞也會(huì)使中文的流暢度下將。本系統(tǒng)的翻譯結(jié)果也缺少中文的量詞。未來若能將翻譯結(jié)果填補(bǔ)上缺少的量詞,便可達(dá)到更好的質(zhì)量,這也是我們今后要做的工作。

        [1] B. J. Dorr, P. W. Jordan and J. W. Benoit. “A Survey of Current Paradigms in Machine Translation” Advances in Computers [M].London: Academic Press, 1999: 1?8.

        [2] P. F. Brown, J. Cocke, S. A. D. Pietra, V. J. D. Pietra, F. Jelinek,J. D. Lafferty, R. L. Mercer and P. S. Roossin. A Statistical Approach to Machine Translation [J]. Computa-tional Linguistics, 1990, 12(6): 79?85.

        [3] M. H. Al-Adhaileh, T. E. Kong and Y. Zaharin, A synchronization structure of SSTC and its applications in machine translation [C]// Proceedings of the International Conference on Computational Linguistics-2002 Post-Conference Workshop on Machine Translation in Asia. 2002:1?8.

        [4] Z. Liu, H. Wang and H. Wu. Example-based Machine Translation Based on TSC and Statistical Generation [C]//Proceedings of the Tenth Machine Translation Summit, 2005:25?32.

        [5] 桂詩春. 標(biāo)準(zhǔn)化考試一理論、原則與方法[M]. 廣州: 廣東高等教育出版社, 1986.

        [6] R.L.桑代克E.P.哈根. 心理與教育的測量和評價(jià)[M]. 北京: 人民教育出版社, 1985.

        [7] 藏忠恒. 心理與教育測量[M]. 上海: 華東師范大學(xué)出敝社,1987.

        [8] Bachman L F. Fundamental Considerations in Language Testing[M]. 上海: 上海外語教育出版社, 1999.

        猜你喜歡
        詞序單字詞組
        河北大名話單元音韻母、單字調(diào)及雙音節(jié)非輕聲詞連調(diào)的實(shí)驗(yàn)語音學(xué)初探
        修改病句的妙招
        論計(jì)算機(jī)字庫單字的著作權(quán)保護(hù)
        ——以方正訴寶潔案為例
        漢語搭配信息對詞匯識別的影響
        俄漢語定語對比
        “對仗不宜分解到單字”毋庸置疑——答顧紳先生“四點(diǎn)質(zhì)疑”
        影響詞序的“普通重音”規(guī)則
        副詞和副詞詞組
        《通鑒釋文》所反映的宋代單字音特殊變化
        国产精品制服一区二区| 无码国产福利av私拍| 熟妇高潮一区二区三区| 97视频在线播放| 成人综合亚洲国产成人| 一二三四在线观看视频韩国| 成视频年人黄网站免费视频| 国产精品久久久久久无码| 在线无码国产精品亚洲а∨| 国产成人高清亚洲一区二区| 青青手机在线观看视频| 高潮又爽又无遮挡又免费| 亚洲欧美日韩综合在线观看| 国产精品99久久精品女同| 在线免费观看黄色国产强暴av | 日韩av无码久久一区二区| 少妇内射高潮福利炮| 人妻系列无码专区久久五月天| 亚洲熟少妇一区二区三区| 午夜天堂精品久久久久| 狠狠躁夜夜躁人人爽天天天天97| 亚洲色婷婷综合开心网 | 欧美性受xxxx狂喷水| 国产精品黑丝美腿美臀| 国产狂喷潮在线观看| 97se在线观看| 日韩人妻系列在线视频| 亚洲精品一品区二品区三区| 亚洲狠狠婷婷综合久久久久图片| 亚洲人妻无缓冲av不卡| 亚洲国产精品嫩草影院久久av| 99久久久无码国产精品性| 搡老熟女老女人一区二区| 一区在线播放| 国产视频激情在线观看| 激情内射日本一区二区三区| 精品无码AV无码免费专区| 在线高清亚洲精品二区| 国产精品186在线观看在线播放| 无码三级在线看中文字幕完整版 | 亚洲an日韩专区在线|