達(dá)瓦伊德木草艾山吾買爾
(1.新疆大學(xué) 信息科學(xué)與工程學(xué)院;2.新疆大學(xué) 多語言技術(shù)重點(diǎn)實(shí)驗(yàn)室)
新疆有13個(gè)民族,70%以上的少數(shù)民族群眾居住在遠(yuǎn)離大城市的邊遠(yuǎn)地區(qū).很多地方自然條件惡劣,生產(chǎn)力薄弱,經(jīng)濟(jì)建設(shè)緩慢,民眾的患病率也比較高[1,2],醫(yī)療衛(wèi)生服務(wù)條件有限.
目前,新疆大多數(shù)城市醫(yī)院門診基本用漢文處方、藥物和醫(yī)療設(shè)備的說明書基本用漢字.這對少數(shù)民族群眾看病求醫(yī),正確理解病名病情病狀,安全用藥,放心使用醫(yī)療器件等方面帶來不少語言障礙甚至擔(dān)憂.
另一方面,有不少的少數(shù)民族民眾帶著地方醫(yī)院民文病歷來到城市大醫(yī)院求醫(yī),漢語醫(yī)者難以參考患者病歷信息,重復(fù)多次的門診檢查對醫(yī)患者雙方帶來不同程度的壓力和負(fù)擔(dān).為此,借助于現(xiàn)有先進(jìn)技術(shù),通過機(jī)器自動翻譯和輔助翻譯手段是解決這類問題的最有效而可行的途徑.近年來機(jī)器翻譯技術(shù)取得很大的突破,特別是統(tǒng)計(jì)翻譯技術(shù),使得借助于計(jì)算機(jī)的機(jī)器翻譯質(zhì)量有了很大的提高.相對于普通文本,醫(yī)學(xué)用語具有以下特點(diǎn):
(1)醫(yī)療衛(wèi)生用語具有很強(qiáng)的領(lǐng)域特性,具有固定形式的醫(yī)學(xué),藥物術(shù)語;
(2)醫(yī)學(xué)術(shù)語格式比較固定,醫(yī)文語法要求不是那么嚴(yán)格;
(3)人命關(guān)天,要求高精度保障醫(yī)藥用詞術(shù)語的正確性及完整性;
(4)翻譯的語言種類多,因此醫(yī)療衛(wèi)生用文翻譯需要實(shí)現(xiàn)不同語言之間的翻譯.如果對于每種語言翻譯方向都建立一個(gè)翻譯系統(tǒng)則需要大量的開發(fā)成本.因此,使用與語言無關(guān)的翻譯技術(shù)是比較合理的選擇.
為此,為了幫助醫(yī)患者準(zhǔn)確傳遞看病治病信息,使少數(shù)民族患者便于閱讀理解藥品及醫(yī)療器件說明書,本研究提出研制醫(yī)療衛(wèi)生專業(yè)術(shù)語多語種平行實(shí)例句對語料(實(shí)例庫),合并與基于短語的統(tǒng)計(jì)機(jī)器翻譯技術(shù)實(shí)現(xiàn)漢民醫(yī)療衛(wèi)生用文翻譯方案,研討高精度多語種醫(yī)療衛(wèi)生用文自動翻譯系統(tǒng).本系統(tǒng)的開發(fā)應(yīng)用,對提升新疆公共衛(wèi)生服務(wù)能力以及便民穩(wěn)疆有著重大的實(shí)際意義.
目前,基于計(jì)算機(jī)的機(jī)器翻譯技術(shù)分為基于規(guī)則的翻譯方法RBMT(Rule-based Machine Translation),基于實(shí)例的翻譯EBTM(Example-Based Machine Translation)以及基于大型語料庫和統(tǒng)計(jì)技術(shù)的機(jī)器翻譯方法SBMT(StatisticsBased Machine Translation)等三種方法[3,4,5].
RBMT方法只能按已知的語言學(xué)規(guī)則翻譯有限的、語法規(guī)則較嚴(yán)密的文本,一般對于千變?nèi)f化的自然語言一一描述其規(guī)則是較難的,所以采取混合策略的翻譯方式較多見.EBMT翻譯方法也是一種基于語料的方法.使用預(yù)處理過的雙語例句集作為主要翻譯資源,通過編輯與待翻譯句子匹配的翻譯實(shí)例來生成譯文.在EBMT翻譯系統(tǒng)中,翻譯實(shí)例選擇及譯文選擇對系統(tǒng)性能影響較大[6].SBMT翻譯方法,尤其是現(xiàn)流行的基于Moses開源軟件的短語統(tǒng)計(jì)翻譯方法PBSMT(Phrase-based SMT),從雙語平行語料中自動學(xué)習(xí)生成統(tǒng)計(jì)翻譯模型庫,不需要任何語言學(xué)知識,語法規(guī)則及實(shí)例模板,只要平行語料足夠大對任何一個(gè)語言可以擴(kuò)展引用[7].
但是,SBMT技術(shù)由于所包含的句語法成分較低,對于法語和英語那樣句語法關(guān)系較相近的語言(比如英語句法主謂語結(jié)構(gòu)為S+V+O)實(shí)施翻譯其譯文精度較高,而對于中文和民文那樣句語法關(guān)系幾乎相反的語言(比如中文S+V+O,而民文S+O+V),其譯文精度低下[8,9].
醫(yī)療衛(wèi)生用文關(guān)乎人命,對于系統(tǒng)譯文質(zhì)量要求極高,要保障醫(yī)學(xué)用語、病情、病狀及用藥信息的絕對正確性.因此,對于不同句語法關(guān)系的漢-民語言醫(yī)療用文的機(jī)器翻譯采取單一翻譯方法難以保障較高的譯文質(zhì)量.為此本文提出,首先人工研制醫(yī)療衛(wèi)生常用術(shù)語多語平行實(shí)例句對語料庫,通過編輯與待翻譯句子匹配的翻譯實(shí)例來生成譯文句子、再把該譯文句子輸入Moses軟件實(shí)施同一個(gè)語種(如民對民)的PBSMT機(jī)器翻譯,從而提高最終譯文質(zhì)量的翻譯方案.
文獻(xiàn)[3,4]報(bào)告了基于規(guī)則翻譯和統(tǒng)計(jì)機(jī)器翻譯組合的日英專利文獻(xiàn)的翻譯實(shí)驗(yàn).這也是一種特定領(lǐng)域混合策略翻譯方法.該方法先用SBMT翻譯,然后對譯文進(jìn)行規(guī)則修整(后編輯方法),從而提高了譯文BLEU得分值.文獻(xiàn)[10]研討了RBMT+SMT方法,僅對醫(yī)院門診藥物處方日英表格詞條進(jìn)行翻譯.很多研究結(jié)果都顯示對于語法結(jié)構(gòu)不同的語言,采取不同翻譯技術(shù)的組合翻譯有望提升譯文質(zhì)量[11,12].
在EBMT中,對齊的雙語語料庫是最重要的知識資源之一.本研究基于短語的統(tǒng)計(jì)翻譯盡可能地吸收原語言和目標(biāo)語言句語法的一致性,對專業(yè)用詞互譯的正確性及緩解統(tǒng)計(jì)翻譯局部性語言模型問題,實(shí)施EBMT+SMT合并方式的兩層翻譯技術(shù).EBMT很重要的一項(xiàng)工作就是構(gòu)建知識庫,其中,包括構(gòu)建對齊的實(shí)例庫、雙語詞典和語義詞典.
與新疆醫(yī)科大學(xué)醫(yī)務(wù)工作者和學(xué)生協(xié)作收集整理多科患者一手病歷及常用藥物使用說明書漢語句子文獻(xiàn)10萬條,句子平均詞長為16個(gè)字.其次,利用中科院計(jì)算所研發(fā)的ICTCLAS漢語分詞系統(tǒng)對漢語句進(jìn)行自動分詞,人工檢查,按詞長排序生成以詞為單位的漢語片段句子.再聘請維哈語言翻譯專家對每條漢語片段句子經(jīng)人工翻譯添加民文,標(biāo)注雙語片段對應(yīng)序號生成雙語實(shí)例庫.實(shí)例庫中民文句子部分按空格區(qū)分用ASCII碼拉丁文字形式存儲.
在實(shí)例翻譯中語義詞典也是不可或缺的重要知識源.在這里引入實(shí)例翻譯的創(chuàng)始人長尾真教授的例子:例如(a)He eats potatoes是待翻譯的句子,同時(shí),假定實(shí)例庫中有如下的實(shí)例:(b)A man eats vegetables,(c)Acid eats Metal.實(shí)例(b)和(c)從形式上看都可以和(a)匹配,但是結(jié)果只能選擇(b),而不是(c).這一選擇有賴于語義詞典.通過語義詞典可以判斷He能取代“A man”,不能取代“Acid”,同樣,“potato”和“vegetables”間的語義比“potato”與“metal”間的語義更相似.
利用本研究研制雙語實(shí)例庫,參照漢民句子片段及對應(yīng)序號切分生成語義詞典.再借助于漢民語詞性標(biāo)注詞典生成語義詞典(包含65萬條詞匯).
本研究與新疆衛(wèi)生廳衛(wèi)生出版社協(xié)作研制了6萬條詞匯的面向醫(yī)療衛(wèi)生用語并詞性標(biāo)注的漢民電子詞典.用來生成上述語義詞典之外,還可以對不能夠在實(shí)例庫中獲得翻譯的片段查找對應(yīng)詞條實(shí)施翻譯.
本研究除了建設(shè)上述雙語語料之外,與自治區(qū)多語言重點(diǎn)實(shí)驗(yàn)室協(xié)作建設(shè)了漢-民語言(維哈蒙)平行文本語料及單民文多領(lǐng)域文本語料[13],用來生成統(tǒng)計(jì)翻譯模板和語言模型.
圖1以一段漢語句子的翻譯為例,給出系統(tǒng)的主要翻譯流程.對于一段待翻譯漢語句子,該系統(tǒng)翻譯工作原理如下:
首先通過記憶庫管理模塊對待翻譯句子查找翻譯記憶庫,如果(yes)已經(jīng)存在翻譯結(jié)果,
直接返回,并記錄其結(jié)果:否則,系統(tǒng)調(diào)用切分工具做漢語分詞,并對分詞結(jié)果進(jìn)行后處理.
實(shí)例檢索:對于預(yù)處理后的待翻譯句子,系統(tǒng)參照實(shí)例庫,按句子片段順序,采取基于向量空間模型的余玄相似算法進(jìn)行匹配計(jì)算獲取最相近的片段及對應(yīng)的民語翻譯片段,再借助于語義詞典和雙語詞典按民語SOV規(guī)則組合調(diào)整片段順序輸出民語句子[14].本系統(tǒng)選擇多個(gè)候選民語句子并按相似度從高到低排序輸出.獲得相似度sim的數(shù)理模型如下公式(1):
其中,w(pos(i)是相應(yīng)詞的詞性,wL(i)為詞長.而句子匹配值用公式(2)獲齲 即
這里,w(i)和e(i)分別是待翻譯片段和實(shí)例片段.
圖1 系統(tǒng)邏輯流程圖
PBSMT翻譯:對于實(shí)例翻譯輸出的若干個(gè)候選民語句子,作為GIZA++訓(xùn)練工具training-phrase-model.perl的輸入,訓(xùn)練短語對齊表(Phrase Table).同時(shí),引用解碼器Moses,協(xié)助于雙語翻譯模型和民語語言模型實(shí)施統(tǒng)計(jì)翻譯,輸出若干個(gè)(民語)譯文句子.
對于PBSMT若干個(gè)輸出譯文,用戶可以人工方式挑選最為合適的翻譯句子結(jié)果.
本研究在國家自然科學(xué)基金(61163030)的資助下,配合醫(yī)療衛(wèi)生工作者及翻譯專家研制三套語料資源;一是收集整理醫(yī)學(xué)用語漢語短句語料10萬條,再進(jìn)行人工翻譯增加民語(維哈蒙)生成醫(yī)學(xué)用語漢-民平行句對集(樣本見表1);二是研制了7萬個(gè)詞匯的漢民醫(yī)學(xué)詞典(樣本見表2);三是統(tǒng)計(jì)模板訓(xùn)練語料,見表3、4.
表1 本研究研發(fā)漢-民醫(yī)學(xué)用語實(shí)例句子片段對齊標(biāo)注
表2 多語言醫(yī)學(xué)辭典
表3 本研究開發(fā)漢-民門診用語會話平行語料
表4 本次實(shí)驗(yàn)使用語料規(guī)模
本次翻譯實(shí)驗(yàn)解碼器參數(shù)設(shè)定為如表5所示.在訓(xùn)練集上運(yùn)行了GIZA++得到雙向的單詞對齊信息,并使用啟發(fā)式的方法“grow-diag-final”改善單詞對齊結(jié)果;利用單詞對齊信息自動抽取短語表.用開源軟件SRILM訓(xùn)練獲取語言模型;通過開發(fā)集上使用最小錯(cuò)誤率訓(xùn)練法得到特征的權(quán)重.由于該解碼器部分實(shí)施對民-民的翻譯,輸入輸出文語序一致,distortion-limit取值選取6,而實(shí)施基線測試(漢-民翻譯)時(shí)設(shè)定為-1.
表5 Moses參數(shù)設(shè)定
5.3BLEU尺度:互譯文常用自動評測工具為BLEU值.它據(jù)N-gram匹配率由式(3)表示,
其中,C為MT譯句長度,r為參考譯句中最近譯句長度.
考慮到本次實(shí)驗(yàn)語料有限,另外,由于BLEU和NIST值評估:①BLEU值基本上不反應(yīng)譯文和參考文語序;②同義詞的N-gram表現(xiàn)不同值;③民文詞根連接功能詞不能夠反應(yīng)到Ngram中;④參考譯文越多,出現(xiàn)的Ngram個(gè)數(shù)越多,BLEU值越提高等缺陷.所以,在本次試驗(yàn)結(jié)果的評估中,我們除了BLEU和NIST尺度評估實(shí)驗(yàn)結(jié)果之外,還引用MT譯文句與參考譯文句的余弦相似度量sim值考察了實(shí)驗(yàn)結(jié)果.
設(shè)有兩個(gè)n和m維向量A和B,如公式(4)所示,兩個(gè)向量的相似性由公式(5)獲取.當(dāng)兩個(gè)向量A和B相同,即A和B完全相似;當(dāng)兩個(gè)向量A和B完全不相同,即A和B無相關(guān)性;用在[0,1]之間的取值度量兩個(gè)向量A和B的相關(guān)程度[10].
漢民文實(shí)驗(yàn)數(shù)據(jù)的預(yù)處理,首先對維哈蒙文句子進(jìn)行拉丁文字轉(zhuǎn)寫及小寫化處理.然后對中文語料進(jìn)行詞切分處理,其中出現(xiàn)的全角字符,比如“123ABC”,轉(zhuǎn)換為對應(yīng)的半角字符“123ABC”處理.
本次實(shí)驗(yàn)只嘗試了漢-維和維-漢語言處方文本雙向翻譯實(shí)驗(yàn).表6給出了漢-維文按句子翻譯的結(jié)果.表6中基線(Moses)結(jié)果為單用Moses解碼器實(shí)施常用短語統(tǒng)計(jì)翻譯(SMT),EBMT為單用實(shí)例翻譯,而EBMT+SMT為提案方法的翻譯結(jié)果.sim值為每個(gè)測試句對應(yīng)3個(gè)參考譯文的平均相似度.sim的取值范圍為(0-1).當(dāng)譯文句與參考句完全一致時(shí),sim取值為1,完全不相關(guān)時(shí)取值為0.否則取0到1之間值.
從表6可以看到,在漢-維或維-漢雙向翻譯結(jié)果中,提案方法實(shí)驗(yàn)結(jié)果EBMT+SMT值明顯高于其他方法取值.尤其是維-漢方向翻譯結(jié)果明顯好于漢-維翻譯結(jié)果.
從表6可見,基于實(shí)例譯句集混合統(tǒng)計(jì)翻譯策略相比于單一用方法(維-漢方向基線值分別為0.2654,7.323,0.682)可以提升翻譯質(zhì)量(最好譯值為0.3132,7.731,0.823).說明,在SMT前引入實(shí)例方法在一定程度上吸了原語言和目標(biāo)語言的句語法關(guān)系,擴(kuò)大了專用詞匯選取范圍,有助于提升統(tǒng)計(jì)翻譯的譯文質(zhì)量.另外,從翻譯實(shí)例值可以看到,提案方法實(shí)測結(jié)果均好于單一方法,而且句詞數(shù)較短時(shí),sim值更接近實(shí)際值.
表6 實(shí)驗(yàn)結(jié)果
醫(yī)療衛(wèi)生用語數(shù)據(jù),尤其是漢-民多語言醫(yī)學(xué)用語數(shù)據(jù)資源的收集整理,人工翻譯以及預(yù)處理等先行研究工作剛剛起步,估計(jì)一定程度上影響了本次實(shí)驗(yàn)結(jié)果.
由于實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備有限,在本次試驗(yàn)中我們只給出了漢-維語雙向翻譯結(jié)果.醫(yī)療衛(wèi)生用語多語言資源的完善,系統(tǒng)對多語言翻譯的實(shí)測是今后工作的重點(diǎn).
新疆大學(xué)學(xué)報(bào)(自然科學(xué)版)(中英文)2015年1期