亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        實(shí)例統(tǒng)計(jì)翻譯混合策略的漢民病歷翻譯的研究?

        2015-11-02 05:20:00達(dá)瓦伊德木草艾山吾買爾
        關(guān)鍵詞:語義語言實(shí)驗(yàn)

        達(dá)瓦伊德木草艾山吾買爾

        (1.新疆大學(xué) 信息科學(xué)與工程學(xué)院;2.新疆大學(xué) 多語言技術(shù)重點(diǎn)實(shí)驗(yàn)室)

        0 引言

        新疆有13個(gè)民族,70%以上的少數(shù)民族群眾居住在遠(yuǎn)離大城市的邊遠(yuǎn)地區(qū).很多地方自然條件惡劣,生產(chǎn)力薄弱,經(jīng)濟(jì)建設(shè)緩慢,民眾的患病率也比較高[1,2],醫(yī)療衛(wèi)生服務(wù)條件有限.

        目前,新疆大多數(shù)城市醫(yī)院門診基本用漢文處方、藥物和醫(yī)療設(shè)備的說明書基本用漢字.這對少數(shù)民族群眾看病求醫(yī),正確理解病名病情病狀,安全用藥,放心使用醫(yī)療器件等方面帶來不少語言障礙甚至擔(dān)憂.

        另一方面,有不少的少數(shù)民族民眾帶著地方醫(yī)院民文病歷來到城市大醫(yī)院求醫(yī),漢語醫(yī)者難以參考患者病歷信息,重復(fù)多次的門診檢查對醫(yī)患者雙方帶來不同程度的壓力和負(fù)擔(dān).為此,借助于現(xiàn)有先進(jìn)技術(shù),通過機(jī)器自動翻譯和輔助翻譯手段是解決這類問題的最有效而可行的途徑.近年來機(jī)器翻譯技術(shù)取得很大的突破,特別是統(tǒng)計(jì)翻譯技術(shù),使得借助于計(jì)算機(jī)的機(jī)器翻譯質(zhì)量有了很大的提高.相對于普通文本,醫(yī)學(xué)用語具有以下特點(diǎn):

        (1)醫(yī)療衛(wèi)生用語具有很強(qiáng)的領(lǐng)域特性,具有固定形式的醫(yī)學(xué),藥物術(shù)語;

        (2)醫(yī)學(xué)術(shù)語格式比較固定,醫(yī)文語法要求不是那么嚴(yán)格;

        (3)人命關(guān)天,要求高精度保障醫(yī)藥用詞術(shù)語的正確性及完整性;

        (4)翻譯的語言種類多,因此醫(yī)療衛(wèi)生用文翻譯需要實(shí)現(xiàn)不同語言之間的翻譯.如果對于每種語言翻譯方向都建立一個(gè)翻譯系統(tǒng)則需要大量的開發(fā)成本.因此,使用與語言無關(guān)的翻譯技術(shù)是比較合理的選擇.

        為此,為了幫助醫(yī)患者準(zhǔn)確傳遞看病治病信息,使少數(shù)民族患者便于閱讀理解藥品及醫(yī)療器件說明書,本研究提出研制醫(yī)療衛(wèi)生專業(yè)術(shù)語多語種平行實(shí)例句對語料(實(shí)例庫),合并與基于短語的統(tǒng)計(jì)機(jī)器翻譯技術(shù)實(shí)現(xiàn)漢民醫(yī)療衛(wèi)生用文翻譯方案,研討高精度多語種醫(yī)療衛(wèi)生用文自動翻譯系統(tǒng).本系統(tǒng)的開發(fā)應(yīng)用,對提升新疆公共衛(wèi)生服務(wù)能力以及便民穩(wěn)疆有著重大的實(shí)際意義.

        1 機(jī)器翻譯技術(shù)簡述

        目前,基于計(jì)算機(jī)的機(jī)器翻譯技術(shù)分為基于規(guī)則的翻譯方法RBMT(Rule-based Machine Translation),基于實(shí)例的翻譯EBTM(Example-Based Machine Translation)以及基于大型語料庫和統(tǒng)計(jì)技術(shù)的機(jī)器翻譯方法SBMT(StatisticsBased Machine Translation)等三種方法[3,4,5].

        RBMT方法只能按已知的語言學(xué)規(guī)則翻譯有限的、語法規(guī)則較嚴(yán)密的文本,一般對于千變?nèi)f化的自然語言一一描述其規(guī)則是較難的,所以采取混合策略的翻譯方式較多見.EBMT翻譯方法也是一種基于語料的方法.使用預(yù)處理過的雙語例句集作為主要翻譯資源,通過編輯與待翻譯句子匹配的翻譯實(shí)例來生成譯文.在EBMT翻譯系統(tǒng)中,翻譯實(shí)例選擇及譯文選擇對系統(tǒng)性能影響較大[6].SBMT翻譯方法,尤其是現(xiàn)流行的基于Moses開源軟件的短語統(tǒng)計(jì)翻譯方法PBSMT(Phrase-based SMT),從雙語平行語料中自動學(xué)習(xí)生成統(tǒng)計(jì)翻譯模型庫,不需要任何語言學(xué)知識,語法規(guī)則及實(shí)例模板,只要平行語料足夠大對任何一個(gè)語言可以擴(kuò)展引用[7].

        但是,SBMT技術(shù)由于所包含的句語法成分較低,對于法語和英語那樣句語法關(guān)系較相近的語言(比如英語句法主謂語結(jié)構(gòu)為S+V+O)實(shí)施翻譯其譯文精度較高,而對于中文和民文那樣句語法關(guān)系幾乎相反的語言(比如中文S+V+O,而民文S+O+V),其譯文精度低下[8,9].

        醫(yī)療衛(wèi)生用文關(guān)乎人命,對于系統(tǒng)譯文質(zhì)量要求極高,要保障醫(yī)學(xué)用語、病情、病狀及用藥信息的絕對正確性.因此,對于不同句語法關(guān)系的漢-民語言醫(yī)療用文的機(jī)器翻譯采取單一翻譯方法難以保障較高的譯文質(zhì)量.為此本文提出,首先人工研制醫(yī)療衛(wèi)生常用術(shù)語多語平行實(shí)例句對語料庫,通過編輯與待翻譯句子匹配的翻譯實(shí)例來生成譯文句子、再把該譯文句子輸入Moses軟件實(shí)施同一個(gè)語種(如民對民)的PBSMT機(jī)器翻譯,從而提高最終譯文質(zhì)量的翻譯方案.

        2 相關(guān)研究狀況

        文獻(xiàn)[3,4]報(bào)告了基于規(guī)則翻譯和統(tǒng)計(jì)機(jī)器翻譯組合的日英專利文獻(xiàn)的翻譯實(shí)驗(yàn).這也是一種特定領(lǐng)域混合策略翻譯方法.該方法先用SBMT翻譯,然后對譯文進(jìn)行規(guī)則修整(后編輯方法),從而提高了譯文BLEU得分值.文獻(xiàn)[10]研討了RBMT+SMT方法,僅對醫(yī)院門診藥物處方日英表格詞條進(jìn)行翻譯.很多研究結(jié)果都顯示對于語法結(jié)構(gòu)不同的語言,采取不同翻譯技術(shù)的組合翻譯有望提升譯文質(zhì)量[11,12].

        3 雙語語料的建設(shè)

        在EBMT中,對齊的雙語語料庫是最重要的知識資源之一.本研究基于短語的統(tǒng)計(jì)翻譯盡可能地吸收原語言和目標(biāo)語言句語法的一致性,對專業(yè)用詞互譯的正確性及緩解統(tǒng)計(jì)翻譯局部性語言模型問題,實(shí)施EBMT+SMT合并方式的兩層翻譯技術(shù).EBMT很重要的一項(xiàng)工作就是構(gòu)建知識庫,其中,包括構(gòu)建對齊的實(shí)例庫、雙語詞典和語義詞典.

        3.1 實(shí)例庫的研制

        與新疆醫(yī)科大學(xué)醫(yī)務(wù)工作者和學(xué)生協(xié)作收集整理多科患者一手病歷及常用藥物使用說明書漢語句子文獻(xiàn)10萬條,句子平均詞長為16個(gè)字.其次,利用中科院計(jì)算所研發(fā)的ICTCLAS漢語分詞系統(tǒng)對漢語句進(jìn)行自動分詞,人工檢查,按詞長排序生成以詞為單位的漢語片段句子.再聘請維哈語言翻譯專家對每條漢語片段句子經(jīng)人工翻譯添加民文,標(biāo)注雙語片段對應(yīng)序號生成雙語實(shí)例庫.實(shí)例庫中民文句子部分按空格區(qū)分用ASCII碼拉丁文字形式存儲.

        3.2 語義詞典的生成

        在實(shí)例翻譯中語義詞典也是不可或缺的重要知識源.在這里引入實(shí)例翻譯的創(chuàng)始人長尾真教授的例子:例如(a)He eats potatoes是待翻譯的句子,同時(shí),假定實(shí)例庫中有如下的實(shí)例:(b)A man eats vegetables,(c)Acid eats Metal.實(shí)例(b)和(c)從形式上看都可以和(a)匹配,但是結(jié)果只能選擇(b),而不是(c).這一選擇有賴于語義詞典.通過語義詞典可以判斷He能取代“A man”,不能取代“Acid”,同樣,“potato”和“vegetables”間的語義比“potato”與“metal”間的語義更相似.

        利用本研究研制雙語實(shí)例庫,參照漢民句子片段及對應(yīng)序號切分生成語義詞典.再借助于漢民語詞性標(biāo)注詞典生成語義詞典(包含65萬條詞匯).

        3.3 雙語詞典

        本研究與新疆衛(wèi)生廳衛(wèi)生出版社協(xié)作研制了6萬條詞匯的面向醫(yī)療衛(wèi)生用語并詞性標(biāo)注的漢民電子詞典.用來生成上述語義詞典之外,還可以對不能夠在實(shí)例庫中獲得翻譯的片段查找對應(yīng)詞條實(shí)施翻譯.

        3.4 多語言文本語料的建設(shè)

        本研究除了建設(shè)上述雙語語料之外,與自治區(qū)多語言重點(diǎn)實(shí)驗(yàn)室協(xié)作建設(shè)了漢-民語言(維哈蒙)平行文本語料及單民文多領(lǐng)域文本語料[13],用來生成統(tǒng)計(jì)翻譯模板和語言模型.

        4 系統(tǒng)的翻譯流程

        圖1以一段漢語句子的翻譯為例,給出系統(tǒng)的主要翻譯流程.對于一段待翻譯漢語句子,該系統(tǒng)翻譯工作原理如下:

        首先通過記憶庫管理模塊對待翻譯句子查找翻譯記憶庫,如果(yes)已經(jīng)存在翻譯結(jié)果,

        直接返回,并記錄其結(jié)果:否則,系統(tǒng)調(diào)用切分工具做漢語分詞,并對分詞結(jié)果進(jìn)行后處理.

        實(shí)例檢索:對于預(yù)處理后的待翻譯句子,系統(tǒng)參照實(shí)例庫,按句子片段順序,采取基于向量空間模型的余玄相似算法進(jìn)行匹配計(jì)算獲取最相近的片段及對應(yīng)的民語翻譯片段,再借助于語義詞典和雙語詞典按民語SOV規(guī)則組合調(diào)整片段順序輸出民語句子[14].本系統(tǒng)選擇多個(gè)候選民語句子并按相似度從高到低排序輸出.獲得相似度sim的數(shù)理模型如下公式(1):

        其中,w(pos(i)是相應(yīng)詞的詞性,wL(i)為詞長.而句子匹配值用公式(2)獲齲 即

        這里,w(i)和e(i)分別是待翻譯片段和實(shí)例片段.

        圖1 系統(tǒng)邏輯流程圖

        PBSMT翻譯:對于實(shí)例翻譯輸出的若干個(gè)候選民語句子,作為GIZA++訓(xùn)練工具training-phrase-model.perl的輸入,訓(xùn)練短語對齊表(Phrase Table).同時(shí),引用解碼器Moses,協(xié)助于雙語翻譯模型和民語語言模型實(shí)施統(tǒng)計(jì)翻譯,輸出若干個(gè)(民語)譯文句子.

        對于PBSMT若干個(gè)輸出譯文,用戶可以人工方式挑選最為合適的翻譯句子結(jié)果.

        5 實(shí)驗(yàn)與結(jié)果分析

        5.1 數(shù)據(jù)準(zhǔn)備

        本研究在國家自然科學(xué)基金(61163030)的資助下,配合醫(yī)療衛(wèi)生工作者及翻譯專家研制三套語料資源;一是收集整理醫(yī)學(xué)用語漢語短句語料10萬條,再進(jìn)行人工翻譯增加民語(維哈蒙)生成醫(yī)學(xué)用語漢-民平行句對集(樣本見表1);二是研制了7萬個(gè)詞匯的漢民醫(yī)學(xué)詞典(樣本見表2);三是統(tǒng)計(jì)模板訓(xùn)練語料,見表3、4.

        表1 本研究研發(fā)漢-民醫(yī)學(xué)用語實(shí)例句子片段對齊標(biāo)注

        表2 多語言醫(yī)學(xué)辭典

        表3 本研究開發(fā)漢-民門診用語會話平行語料

        表4 本次實(shí)驗(yàn)使用語料規(guī)模

        5.2 實(shí)驗(yàn)條件

        本次翻譯實(shí)驗(yàn)解碼器參數(shù)設(shè)定為如表5所示.在訓(xùn)練集上運(yùn)行了GIZA++得到雙向的單詞對齊信息,并使用啟發(fā)式的方法“grow-diag-final”改善單詞對齊結(jié)果;利用單詞對齊信息自動抽取短語表.用開源軟件SRILM訓(xùn)練獲取語言模型;通過開發(fā)集上使用最小錯(cuò)誤率訓(xùn)練法得到特征的權(quán)重.由于該解碼器部分實(shí)施對民-民的翻譯,輸入輸出文語序一致,distortion-limit取值選取6,而實(shí)施基線測試(漢-民翻譯)時(shí)設(shè)定為-1.

        表5 Moses參數(shù)設(shè)定

        5.3BLEU尺度:互譯文常用自動評測工具為BLEU值.它據(jù)N-gram匹配率由式(3)表示,

        其中,C為MT譯句長度,r為參考譯句中最近譯句長度.

        考慮到本次實(shí)驗(yàn)語料有限,另外,由于BLEU和NIST值評估:①BLEU值基本上不反應(yīng)譯文和參考文語序;②同義詞的N-gram表現(xiàn)不同值;③民文詞根連接功能詞不能夠反應(yīng)到Ngram中;④參考譯文越多,出現(xiàn)的Ngram個(gè)數(shù)越多,BLEU值越提高等缺陷.所以,在本次試驗(yàn)結(jié)果的評估中,我們除了BLEU和NIST尺度評估實(shí)驗(yàn)結(jié)果之外,還引用MT譯文句與參考譯文句的余弦相似度量sim值考察了實(shí)驗(yàn)結(jié)果.

        5.3 cosine相似尺度

        設(shè)有兩個(gè)n和m維向量A和B,如公式(4)所示,兩個(gè)向量的相似性由公式(5)獲取.當(dāng)兩個(gè)向量A和B相同,即A和B完全相似;當(dāng)兩個(gè)向量A和B完全不相同,即A和B無相關(guān)性;用在[0,1]之間的取值度量兩個(gè)向量A和B的相關(guān)程度[10].

        5.4 實(shí)驗(yàn)數(shù)據(jù)預(yù)處理

        漢民文實(shí)驗(yàn)數(shù)據(jù)的預(yù)處理,首先對維哈蒙文句子進(jìn)行拉丁文字轉(zhuǎn)寫及小寫化處理.然后對中文語料進(jìn)行詞切分處理,其中出現(xiàn)的全角字符,比如“123ABC”,轉(zhuǎn)換為對應(yīng)的半角字符“123ABC”處理.

        5.5 實(shí)驗(yàn)結(jié)果評估

        本次實(shí)驗(yàn)只嘗試了漢-維和維-漢語言處方文本雙向翻譯實(shí)驗(yàn).表6給出了漢-維文按句子翻譯的結(jié)果.表6中基線(Moses)結(jié)果為單用Moses解碼器實(shí)施常用短語統(tǒng)計(jì)翻譯(SMT),EBMT為單用實(shí)例翻譯,而EBMT+SMT為提案方法的翻譯結(jié)果.sim值為每個(gè)測試句對應(yīng)3個(gè)參考譯文的平均相似度.sim的取值范圍為(0-1).當(dāng)譯文句與參考句完全一致時(shí),sim取值為1,完全不相關(guān)時(shí)取值為0.否則取0到1之間值.

        5.6 實(shí)驗(yàn)結(jié)果分析

        從表6可以看到,在漢-維或維-漢雙向翻譯結(jié)果中,提案方法實(shí)驗(yàn)結(jié)果EBMT+SMT值明顯高于其他方法取值.尤其是維-漢方向翻譯結(jié)果明顯好于漢-維翻譯結(jié)果.

        6 結(jié)論

        從表6可見,基于實(shí)例譯句集混合統(tǒng)計(jì)翻譯策略相比于單一用方法(維-漢方向基線值分別為0.2654,7.323,0.682)可以提升翻譯質(zhì)量(最好譯值為0.3132,7.731,0.823).說明,在SMT前引入實(shí)例方法在一定程度上吸了原語言和目標(biāo)語言的句語法關(guān)系,擴(kuò)大了專用詞匯選取范圍,有助于提升統(tǒng)計(jì)翻譯的譯文質(zhì)量.另外,從翻譯實(shí)例值可以看到,提案方法實(shí)測結(jié)果均好于單一方法,而且句詞數(shù)較短時(shí),sim值更接近實(shí)際值.

        表6 實(shí)驗(yàn)結(jié)果

        醫(yī)療衛(wèi)生用語數(shù)據(jù),尤其是漢-民多語言醫(yī)學(xué)用語數(shù)據(jù)資源的收集整理,人工翻譯以及預(yù)處理等先行研究工作剛剛起步,估計(jì)一定程度上影響了本次實(shí)驗(yàn)結(jié)果.

        由于實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備有限,在本次試驗(yàn)中我們只給出了漢-維語雙向翻譯結(jié)果.醫(yī)療衛(wèi)生用語多語言資源的完善,系統(tǒng)對多語言翻譯的實(shí)測是今后工作的重點(diǎn).

        猜你喜歡
        語義語言實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        語言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        語言與語義
        做個(gè)怪怪長實(shí)驗(yàn)
        讓語言描寫搖曳多姿
        累積動態(tài)分析下的同聲傳譯語言壓縮
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        我有我語言
        日本一区二区不卡在线| 久久国产亚洲精品超碰热| 国产成人精品cao在线| 亚洲免费一区二区av| 麻豆国产一区二区三区四区| 精品无码日韩一区二区三区不卡 | 久久九九有精品国产尤物| 成人精品国产亚洲av久久| 国产一级二级三级在线观看av| 亚洲av永久无码精品网站在线观看| 天天爱天天做天天爽| 亚洲欧洲日产国码无码av野外| 国产在线不卡免费播放| 亚洲综合天堂av网站在线观看 | 人妻精品人妻一区二区三区四区| 男女猛烈xx00免费视频试看| 日本少妇被黑人xxxxx| 无码日日模日日碰夜夜爽| 亚洲天堂一区二区三区视频| 夜夜爽夜夜叫夜夜高潮| aaa级久久久精品无码片| 中文字幕乱码亚洲无线精品一区| 国产亚洲av一线观看| 熟女无套高潮内谢吼叫免费| 国产精品人妻一区夜夜爱| 粉嫩小泬无遮挡久久久久久| 国产精品一区二区偷拍| 国产 麻豆 日韩 欧美 久久| 国产精品片211在线观看| 久久婷婷夜色精品国产| 亚洲乱码一区二区三区在线观看| 色天使综合婷婷国产日韩av| 热99精品| 亚洲精品综合一区二区| 中文字幕av伊人av无码av | 在线亚洲高清揄拍自拍一品区 | 国产69久久精品成人看| 777午夜精品免费观看| 青草网在线观看| 国产中文字幕亚洲国产| 日本中文一区二区在线观看|