亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

實(shí)例統(tǒng)計(jì)翻譯混合策略的漢民病歷翻譯的研究?

2015-11-02 05:20:00達(dá)瓦伊德木草艾山吾買爾

新疆大學(xué)學(xué)報(bào)(自然科學(xué)版)(中英文) 2015年1期

達(dá)瓦伊德木草艾山吾買爾

(1.新疆大學(xué) 信息科學(xué)與工程學(xué)院;2.新疆大學(xué) 多語言技術(shù)重點(diǎn)實(shí)驗(yàn)室)

0 引言

新疆有13個(gè)民族，70%以上的少數(shù)民族群眾居住在遠(yuǎn)離大城市的邊遠(yuǎn)地區(qū).很多地方自然條件惡劣，生產(chǎn)力薄弱，經(jīng)濟(jì)建設(shè)緩慢，民眾的患病率也比較高[1,2]，醫(yī)療衛(wèi)生服務(wù)條件有限.

目前，新疆大多數(shù)城市醫(yī)院門診基本用漢文處方、藥物和醫(yī)療設(shè)備的說明書基本用漢字.這對少數(shù)民族群眾看病求醫(yī)，正確理解病名病情病狀，安全用藥，放心使用醫(yī)療器件等方面帶來不少語言障礙甚至擔(dān)憂.

另一方面，有不少的少數(shù)民族民眾帶著地方醫(yī)院民文病歷來到城市大醫(yī)院求醫(yī)，漢語醫(yī)者難以參考患者病歷信息，重復(fù)多次的門診檢查對醫(yī)患者雙方帶來不同程度的壓力和負(fù)擔(dān).為此，借助于現(xiàn)有先進(jìn)技術(shù)，通過機(jī)器自動翻譯和輔助翻譯手段是解決這類問題的最有效而可行的途徑.近年來機(jī)器翻譯技術(shù)取得很大的突破，特別是統(tǒng)計(jì)翻譯技術(shù)，使得借助于計(jì)算機(jī)的機(jī)器翻譯質(zhì)量有了很大的提高.相對于普通文本，醫(yī)學(xué)用語具有以下特點(diǎn)：

（1）醫(yī)療衛(wèi)生用語具有很強(qiáng)的領(lǐng)域特性，具有固定形式的醫(yī)學(xué)，藥物術(shù)語；

（2）醫(yī)學(xué)術(shù)語格式比較固定，醫(yī)文語法要求不是那么嚴(yán)格；

（3）人命關(guān)天，要求高精度保障醫(yī)藥用詞術(shù)語的正確性及完整性；

（4）翻譯的語言種類多，因此醫(yī)療衛(wèi)生用文翻譯需要實(shí)現(xiàn)不同語言之間的翻譯.如果對于每種語言翻譯方向都建立一個(gè)翻譯系統(tǒng)則需要大量的開發(fā)成本.因此，使用與語言無關(guān)的翻譯技術(shù)是比較合理的選擇.

為此，為了幫助醫(yī)患者準(zhǔn)確傳遞看病治病信息，使少數(shù)民族患者便于閱讀理解藥品及醫(yī)療器件說明書，本研究提出研制醫(yī)療衛(wèi)生專業(yè)術(shù)語多語種平行實(shí)例句對語料(實(shí)例庫)，合并與基于短語的統(tǒng)計(jì)機(jī)器翻譯技術(shù)實(shí)現(xiàn)漢民醫(yī)療衛(wèi)生用文翻譯方案，研討高精度多語種醫(yī)療衛(wèi)生用文自動翻譯系統(tǒng).本系統(tǒng)的開發(fā)應(yīng)用，對提升新疆公共衛(wèi)生服務(wù)能力以及便民穩(wěn)疆有著重大的實(shí)際意義.

1 機(jī)器翻譯技術(shù)簡述

目前，基于計(jì)算機(jī)的機(jī)器翻譯技術(shù)分為基于規(guī)則的翻譯方法RBMT(Rule-based Machine Translation)，基于實(shí)例的翻譯EBTM(Example-Based Machine Translation)以及基于大型語料庫和統(tǒng)計(jì)技術(shù)的機(jī)器翻譯方法SBMT(StatisticsBased Machine Translation)等三種方法[3,4,5].

RBMT方法只能按已知的語言學(xué)規(guī)則翻譯有限的、語法規(guī)則較嚴(yán)密的文本，一般對于千變?nèi)f化的自然語言一一描述其規(guī)則是較難的，所以采取混合策略的翻譯方式較多見.EBMT翻譯方法也是一種基于語料的方法.使用預(yù)處理過的雙語例句集作為主要翻譯資源，通過編輯與待翻譯句子匹配的翻譯實(shí)例來生成譯文.在EBMT翻譯系統(tǒng)中，翻譯實(shí)例選擇及譯文選擇對系統(tǒng)性能影響較大[6].SBMT翻譯方法，尤其是現(xiàn)流行的基于Moses開源軟件的短語統(tǒng)計(jì)翻譯方法PBSMT(Phrase-based SMT)，從雙語平行語料中自動學(xué)習(xí)生成統(tǒng)計(jì)翻譯模型庫，不需要任何語言學(xué)知識，語法規(guī)則及實(shí)例模板，只要平行語料足夠大對任何一個(gè)語言可以擴(kuò)展引用[7].

但是，SBMT技術(shù)由于所包含的句語法成分較低，對于法語和英語那樣句語法關(guān)系較相近的語言(比如英語句法主謂語結(jié)構(gòu)為S+V+O)實(shí)施翻譯其譯文精度較高，而對于中文和民文那樣句語法關(guān)系幾乎相反的語言(比如中文S+V+O，而民文S+O+V)，其譯文精度低下[8,9].

醫(yī)療衛(wèi)生用文關(guān)乎人命，對于系統(tǒng)譯文質(zhì)量要求極高，要保障醫(yī)學(xué)用語、病情、病狀及用藥信息的絕對正確性.因此，對于不同句語法關(guān)系的漢-民語言醫(yī)療用文的機(jī)器翻譯采取單一翻譯方法難以保障較高的譯文質(zhì)量.為此本文提出，首先人工研制醫(yī)療衛(wèi)生常用術(shù)語多語平行實(shí)例句對語料庫，通過編輯與待翻譯句子匹配的翻譯實(shí)例來生成譯文句子、再把該譯文句子輸入Moses軟件實(shí)施同一個(gè)語種(如民對民)的PBSMT機(jī)器翻譯，從而提高最終譯文質(zhì)量的翻譯方案.

2 相關(guān)研究狀況

文獻(xiàn)[3,4]報(bào)告了基于規(guī)則翻譯和統(tǒng)計(jì)機(jī)器翻譯組合的日英專利文獻(xiàn)的翻譯實(shí)驗(yàn).這也是一種特定領(lǐng)域混合策略翻譯方法.該方法先用SBMT翻譯，然后對譯文進(jìn)行規(guī)則修整(后編輯方法)，從而提高了譯文BLEU得分值.文獻(xiàn)[10]研討了RBMT+SMT方法，僅對醫(yī)院門診藥物處方日英表格詞條進(jìn)行翻譯.很多研究結(jié)果都顯示對于語法結(jié)構(gòu)不同的語言，采取不同翻譯技術(shù)的組合翻譯有望提升譯文質(zhì)量[11,12].

3 雙語語料的建設(shè)

在EBMT中，對齊的雙語語料庫是最重要的知識資源之一.本研究基于短語的統(tǒng)計(jì)翻譯盡可能地吸收原語言和目標(biāo)語言句語法的一致性，對專業(yè)用詞互譯的正確性及緩解統(tǒng)計(jì)翻譯局部性語言模型問題，實(shí)施EBMT+SMT合并方式的兩層翻譯技術(shù).EBMT很重要的一項(xiàng)工作就是構(gòu)建知識庫，其中，包括構(gòu)建對齊的實(shí)例庫、雙語詞典和語義詞典.

3.1 實(shí)例庫的研制

與新疆醫(yī)科大學(xué)醫(yī)務(wù)工作者和學(xué)生協(xié)作收集整理多科患者一手病歷及常用藥物使用說明書漢語句子文獻(xiàn)10萬條，句子平均詞長為16個(gè)字.其次，利用中科院計(jì)算所研發(fā)的ICTCLAS漢語分詞系統(tǒng)對漢語句進(jìn)行自動分詞，人工檢查，按詞長排序生成以詞為單位的漢語片段句子.再聘請維哈語言翻譯專家對每條漢語片段句子經(jīng)人工翻譯添加民文，標(biāo)注雙語片段對應(yīng)序號生成雙語實(shí)例庫.實(shí)例庫中民文句子部分按空格區(qū)分用ASCII碼拉丁文字形式存儲.

3.2 語義詞典的生成

在實(shí)例翻譯中語義詞典也是不可或缺的重要知識源.在這里引入實(shí)例翻譯的創(chuàng)始人長尾真教授的例子：例如(a)He eats potatoes是待翻譯的句子，同時(shí)，假定實(shí)例庫中有如下的實(shí)例：(b)A man eats vegetables，(c)Acid eats Metal.實(shí)例(b)和(c)從形式上看都可以和(a)匹配，但是結(jié)果只能選擇(b)，而不是(c).這一選擇有賴于語義詞典.通過語義詞典可以判斷He能取代“A man”，不能取代“Acid”，同樣，“potato”和“vegetables”間的語義比“potato”與“metal”間的語義更相似.

利用本研究研制雙語實(shí)例庫，參照漢民句子片段及對應(yīng)序號切分生成語義詞典.再借助于漢民語詞性標(biāo)注詞典生成語義詞典(包含65萬條詞匯).

3.3 雙語詞典

本研究與新疆衛(wèi)生廳衛(wèi)生出版社協(xié)作研制了6萬條詞匯的面向醫(yī)療衛(wèi)生用語并詞性標(biāo)注的漢民電子詞典.用來生成上述語義詞典之外，還可以對不能夠在實(shí)例庫中獲得翻譯的片段查找對應(yīng)詞條實(shí)施翻譯.

3.4 多語言文本語料的建設(shè)

本研究除了建設(shè)上述雙語語料之外，與自治區(qū)多語言重點(diǎn)實(shí)驗(yàn)室協(xié)作建設(shè)了漢-民語言(維哈蒙)平行文本語料及單民文多領(lǐng)域文本語料[13]，用來生成統(tǒng)計(jì)翻譯模板和語言模型.

4 系統(tǒng)的翻譯流程

圖1以一段漢語句子的翻譯為例，給出系統(tǒng)的主要翻譯流程.對于一段待翻譯漢語句子，該系統(tǒng)翻譯工作原理如下:

首先通過記憶庫管理模塊對待翻譯句子查找翻譯記憶庫，如果(yes)已經(jīng)存在翻譯結(jié)果，

直接返回，并記錄其結(jié)果：否則，系統(tǒng)調(diào)用切分工具做漢語分詞，并對分詞結(jié)果進(jìn)行后處理.

實(shí)例檢索：對于預(yù)處理后的待翻譯句子，系統(tǒng)參照實(shí)例庫，按句子片段順序，采取基于向量空間模型的余玄相似算法進(jìn)行匹配計(jì)算獲取最相近的片段及對應(yīng)的民語翻譯片段，再借助于語義詞典和雙語詞典按民語SOV規(guī)則組合調(diào)整片段順序輸出民語句子[14].本系統(tǒng)選擇多個(gè)候選民語句子并按相似度從高到低排序輸出.獲得相似度sim的數(shù)理模型如下公式(1)：

其中，w(pos(i)是相應(yīng)詞的詞性，wL(i)為詞長.而句子匹配值用公式(2)獲齲即

這里，w(i)和e(i)分別是待翻譯片段和實(shí)例片段.

圖1 系統(tǒng)邏輯流程圖

PBSMT翻譯:對于實(shí)例翻譯輸出的若干個(gè)候選民語句子，作為GIZA++訓(xùn)練工具training-phrase-model.perl的輸入，訓(xùn)練短語對齊表(Phrase Table).同時(shí)，引用解碼器Moses，協(xié)助于雙語翻譯模型和民語語言模型實(shí)施統(tǒng)計(jì)翻譯，輸出若干個(gè)(民語)譯文句子.

對于PBSMT若干個(gè)輸出譯文，用戶可以人工方式挑選最為合適的翻譯句子結(jié)果.

5 實(shí)驗(yàn)與結(jié)果分析

5.1 數(shù)據(jù)準(zhǔn)備

本研究在國家自然科學(xué)基金(61163030)的資助下，配合醫(yī)療衛(wèi)生工作者及翻譯專家研制三套語料資源；一是收集整理醫(yī)學(xué)用語漢語短句語料10萬條，再進(jìn)行人工翻譯增加民語(維哈蒙)生成醫(yī)學(xué)用語漢-民平行句對集(樣本見表1)；二是研制了7萬個(gè)詞匯的漢民醫(yī)學(xué)詞典(樣本見表2)；三是統(tǒng)計(jì)模板訓(xùn)練語料，見表3、4.

表1 本研究研發(fā)漢-民醫(yī)學(xué)用語實(shí)例句子片段對齊標(biāo)注

表2 多語言醫(yī)學(xué)辭典

表3 本研究開發(fā)漢-民門診用語會話平行語料

表4 本次實(shí)驗(yàn)使用語料規(guī)模

5.2 實(shí)驗(yàn)條件

本次翻譯實(shí)驗(yàn)解碼器參數(shù)設(shè)定為如表5所示.在訓(xùn)練集上運(yùn)行了GIZA++得到雙向的單詞對齊信息，并使用啟發(fā)式的方法“grow-diag-final”改善單詞對齊結(jié)果；利用單詞對齊信息自動抽取短語表.用開源軟件SRILM訓(xùn)練獲取語言模型；通過開發(fā)集上使用最小錯(cuò)誤率訓(xùn)練法得到特征的權(quán)重.由于該解碼器部分實(shí)施對民-民的翻譯，輸入輸出文語序一致，distortion-limit取值選取6，而實(shí)施基線測試(漢-民翻譯)時(shí)設(shè)定為-1.

表5 Moses參數(shù)設(shè)定

5.3BLEU尺度：互譯文常用自動評測工具為BLEU值.它據(jù)N-gram匹配率由式(3)表示，

其中，C為MT譯句長度，r為參考譯句中最近譯句長度.

考慮到本次實(shí)驗(yàn)語料有限，另外，由于BLEU和NIST值評估：①BLEU值基本上不反應(yīng)譯文和參考文語序；②同義詞的N-gram表現(xiàn)不同值；③民文詞根連接功能詞不能夠反應(yīng)到Ngram中;④參考譯文越多，出現(xiàn)的Ngram個(gè)數(shù)越多，BLEU值越提高等缺陷.所以，在本次試驗(yàn)結(jié)果的評估中，我們除了BLEU和NIST尺度評估實(shí)驗(yàn)結(jié)果之外，還引用MT譯文句與參考譯文句的余弦相似度量sim值考察了實(shí)驗(yàn)結(jié)果.

5.3 cosine相似尺度

設(shè)有兩個(gè)n和m維向量A和B，如公式(4)所示，兩個(gè)向量的相似性由公式(5)獲取.當(dāng)兩個(gè)向量A和B相同，即A和B完全相似；當(dāng)兩個(gè)向量A和B完全不相同，即A和B無相關(guān)性；用在[0,1]之間的取值度量兩個(gè)向量A和B的相關(guān)程度[10].

5.4 實(shí)驗(yàn)數(shù)據(jù)預(yù)處理

漢民文實(shí)驗(yàn)數(shù)據(jù)的預(yù)處理，首先對維哈蒙文句子進(jìn)行拉丁文字轉(zhuǎn)寫及小寫化處理.然后對中文語料進(jìn)行詞切分處理，其中出現(xiàn)的全角字符，比如“123ABC”，轉(zhuǎn)換為對應(yīng)的半角字符“123ABC”處理.

5.5 實(shí)驗(yàn)結(jié)果評估

本次實(shí)驗(yàn)只嘗試了漢-維和維-漢語言處方文本雙向翻譯實(shí)驗(yàn).表6給出了漢-維文按句子翻譯的結(jié)果.表6中基線(Moses)結(jié)果為單用Moses解碼器實(shí)施常用短語統(tǒng)計(jì)翻譯(SMT)，EBMT為單用實(shí)例翻譯，而EBMT+SMT為提案方法的翻譯結(jié)果.sim值為每個(gè)測試句對應(yīng)3個(gè)參考譯文的平均相似度.sim的取值范圍為(0-1).當(dāng)譯文句與參考句完全一致時(shí)，sim取值為1，完全不相關(guān)時(shí)取值為0.否則取0到1之間值.

5.6 實(shí)驗(yàn)結(jié)果分析

從表6可以看到，在漢-維或維-漢雙向翻譯結(jié)果中，提案方法實(shí)驗(yàn)結(jié)果EBMT+SMT值明顯高于其他方法取值.尤其是維-漢方向翻譯結(jié)果明顯好于漢-維翻譯結(jié)果.

6 結(jié)論

從表6可見，基于實(shí)例譯句集混合統(tǒng)計(jì)翻譯策略相比于單一用方法(維-漢方向基線值分別為0.2654，7.323，0.682)可以提升翻譯質(zhì)量(最好譯值為0.3132，7.731，0.823).說明，在SMT前引入實(shí)例方法在一定程度上吸了原語言和目標(biāo)語言的句語法關(guān)系，擴(kuò)大了專用詞匯選取范圍，有助于提升統(tǒng)計(jì)翻譯的譯文質(zhì)量.另外，從翻譯實(shí)例值可以看到，提案方法實(shí)測結(jié)果均好于單一方法，而且句詞數(shù)較短時(shí)，sim值更接近實(shí)際值.

表6 實(shí)驗(yàn)結(jié)果

醫(yī)療衛(wèi)生用語數(shù)據(jù)，尤其是漢-民多語言醫(yī)學(xué)用語數(shù)據(jù)資源的收集整理，人工翻譯以及預(yù)處理等先行研究工作剛剛起步，估計(jì)一定程度上影響了本次實(shí)驗(yàn)結(jié)果.

由于實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備有限，在本次試驗(yàn)中我們只給出了漢-維語雙向翻譯結(jié)果.醫(yī)療衛(wèi)生用語多語言資源的完善，系統(tǒng)對多語言翻譯的實(shí)測是今后工作的重點(diǎn).