亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        《三國演義》中英文平行語料庫的研制與創(chuàng)建

        2013-10-13 05:42:32劉克強沈映梅
        紅河學院學報 2013年2期
        關鍵詞:三國演義段落語料

        劉克強,沈映梅

        (云南紅河學院外國語學院,云南蒙自 661100)

        《三國演義》是我國章回小說的開山之作,小說描寫的是從東漢末年到西晉初年之間近百年的歷史風云,展示了近半個世紀魏、蜀、吳三國的紛爭和興衰過程.其情節(jié)曲折生動,人物形象栩栩如生,結構宏大嚴密,“文不甚深,言不甚俗”(蔣大器《三國志通俗演義序》)的特點,使它流行之廣,影響之深,比起其它作品來,有過之而無不及.李時人(2002: 90-96)認為《三國演義》不是一般意義的古代歷史小說,而是一部“史詩”性質的作品,在某種程度上,甚至可以說是一部代表我們民族一定歷史時期“文化精神”的“文化經典”.但是長期以來,無論是對《三國演義》中文本的研究還是對其英譯本的研究都遠遠落后于《紅樓夢》和《水滸傳》,(張浩然,2001: 49-54;駱海輝,2009: 42-45).現有的研究以定性分析評價的居多,定量分析的少,特別是基于多譯本定量分析的研究成果很少,而“翻譯比較與評論只有建立在大量、具體的具比較性(即同一原文的不同譯本)的基礎上(而非個別譯者的個別譯本的部分章節(jié)、句段之上),才能取得客觀、可供檢測和橫向推廣的結論”(劉澤權,2010: 31).因此,《三國演義》中英文平行語料庫的研制和建立就成為必要,在此基礎上才有助于對這一中華文學名著及其英譯進行全面、系統(tǒng)、科學的研究.本文介紹《三國演義》中英文平行語料庫的設計、建立及應用,主要是總結在現有免費共享軟件的支持下,結合人工干預的方式建立一本多譯、句級對應的平行語料庫,并開展相應的研究的經驗,旨在為類似的研究提供借鑒.

        1 研制目的

        王克非(2004:36)認為建立語料庫,首先明確創(chuàng)建語料庫的目的,并圍繞這一目的構建整個語料庫,包括規(guī)模、范圍、選材、取樣、加工程度等等.我們建立《三國演義》中英文平行語料庫的目的主要是對比研究、分析譯文的特征,具體如下:

        (1)對比分析《三國演義》兩個全譯本在段落、句子、詞匯等層次語言使用的情況,著重分析它們在處理對話、描寫、詩歌及公文體方面的異同.

        (2)對比分析成語及有關文化詞翻譯的異同.

        (3)建立網絡檢索平臺,供研究者使用.

        2 版本選擇

        基于上述目的,平行語料庫中的英語譯本選擇學界認可的兩個《三國演義》的英語全譯本,這兩個全譯本分別是泰勒(C.H Brewitt-Taylor)1925年翻譯的由美國拉特蘭佛蒙特查爾斯E.塔特爾公司(Tuttle Publishing)于1959年出版的重印本,(以下簡稱泰譯);以及由外文出版社1994年出版的羅慕士(Moss Roberts)的譯本,(以下簡稱羅譯).前者書名是Romance of the Three Kingdoms,后者則是Three Kingdoms.

        《三國演義》版本甚多,習見者有明嘉靖元年刻本《三國志通俗演義》,一般簡稱“嘉靖元年本”和清毛綸、毛宗崗修訂本《三國志演義》,一般簡稱“毛本”.本研究中文底本選擇的是1973年人民文學出版社出版的《三國演義》.選擇此本,一方面是因為這是一個基于毛本的通行本,流傳范圍廣;另一方面,更加重要的是上述的兩個全譯本是基于毛本翻譯的.石昌渝先生在給羅譯本的序言中明確指出羅譯本是基于人民文學出版社1973年出版的《三國演義》翻譯的;而2001年海格爾(Robert.E.Hegel)在泰譯本中的序言中也指出該譯本是基于毛本翻譯的,因而這樣的選擇能夠保證原文和譯文能夠較好的對應.

        3 創(chuàng)建步驟

        3.1 建立單語語料庫

        建立單語語料庫是建立平行語料庫的前提,其工作量較大,涉及到文本的掃描、錄入和多次校對.由于目前這兩個全譯本未見電子文稿,只有紙質印刷文本,因此首先要將紙質印刷文本電子化,轉化成計算機可以讀取和編輯的文檔,一般是使用掃描儀將文檔掃描成圖片后,利用OCR識別軟件轉化成可編輯的電子文檔.對于英語文本,我們使用OmniPage專業(yè)版OCR軟件,其正確率在95%以上,掃描轉化后進行校對,校對時往往能夠發(fā)現一些經常出現錯誤的字母或單詞,如將“Yu”誤認為“Yit”等等.可以利用軟件PowerGREP的查找功能,在正則表達式狀態(tài)下輸入Yit,這時所有被查對象就會高亮顯示,確定錯誤后利用該軟件的替換功能進行替換.總結規(guī)律,進行批量處理,可以提高工作效率.至于漢語文本,在網絡上雖然可以找到電子版,但是往往存在各種各樣的錯誤,我們選擇質量較好的一個網絡文檔,拷貝下來后,對著紙質文檔進行逐字較對,期間還有增、刪等編輯工作.事實上,經過這樣反復校對后,往往還存在少許錯誤,在此后進行對齊工作時,仍然須留意語料是否有錯誤,一旦發(fā)現錯誤,立即改正,目的是將錯誤降到最少.

        文本經校對整理后,按章節(jié)將文檔存放,文本存儲類型均為純文本文檔,編碼分別為ANSI和UTF-8,前者主要用于單機版軟件如ParaConc的分析,后者用于網絡檢索版.中文和英文分別存放在Chinese和English兩個文件夾下,其中English文件夾下又設泰譯和羅譯兩個子文件夾,中文文本和英文文本分別以SGYY 001、SGYY 002、……SGYY 120;ROTK 001、ROTK 002、……ROTK 120和TK001、TK002、……TK120.文件名依序命名,其中英文代表書名的簡寫,數字代表章回數,此外,中文文本均為全角字符,英文文本均為半角字符.經過不同人員反復較對后,三個單語語料庫的總字(漢語)詞(英語)如下表所列:

        表1 漢英語料庫入庫文本統(tǒng)計

        3.2 建立平行語料庫

        3.2.1 語料對齊原則

        原始語料入庫后,接著進行語料間的段落、句子對齊工作.“語料間的對齊在平行語料庫的建設及應用中都是一個關鍵步驟”(McEnery, Xiao &Tono,2006: 50).對齊的方式按語言單位劃分,可分為段落對齊、句子對齊、短語對齊和詞對齊四種.對齊單位越小,處理難度就越大,段落對齊相對較為容易,短語對齊和詞對齊目前研究正在進行中.句子對齊對西文來講,已經有很多準確率很高的軟件面世,如由David Wools開發(fā)的雙語或多語間對齊和檢索軟件Multiconcord,適合于多種西方語言,精確度很高(謝家成,2004: 45-48).但由于英漢語間的巨大差異,目前沒有準確率很高的軟件出現.劉澤權(2010: 34)認為目前還沒有任何程序可以做到高準確率地把中國古典文學文本與其譯文自動對齊,尤其是在句子層面.所以人工手動操作是必不可少的.

        鑒于譯文語料的實際情況和語料庫建設的真實原則,我們在進行段落和句子對齊中遵循如下原則:以原文為基準,忠實原文,實現對齊;實施過程中先段落對齊,然后進行句子對齊.段落或句子中原文未譯時,分別標注“This paragraph was not translated.”(即該段未譯)、“This sentence was not translated.”(即該句未譯).

        3.2.2 段落對齊

        進行段落對齊的時,首先將原始語料的段落進行標注,對譯文來說,目的是對段落的劃分進行分析,這是因為譯者在翻譯時往往對原語言語料中的段落進行拆分、合并、重組,通過對此分析來弄清譯者如何分段的.以中文語料為例,處理方法是使用EditPlus軟件,加載所有中文語料后,利用其替換功能,分別在查找框中輸入“^”和“$”,在替換框輸入“<P>”和“</P>”選擇“正則表達式”就可以對所有段落進行標注,經過這樣的處理,所有中文段落的段首以“<P>”開頭,段尾以“</P>”結尾,同樣的方法,對譯文的段落進行標注.接下來進行段落對齊,段落對齊是依據中文文本的段落為基準,依照中文文本段落的起始位置對兩個譯本的段落進行標注,段落的開始和結束都分別標上<PA>和</PA>.另外,每章的回目也作為一個段落來處理,首尾分別用<Title>和</Title>標注.

        經過上面處理后,就可以載入ParaConc軟件進行分析,此軟件由著名語料庫專家Michael Barlow研制,軟件雖小,功能十分強大,界面友好,可進行原語在內的四種文本的分析處理,支持正則表達式,因此漢語字符間不加空格或不分詞都可以進行檢索分析.該軟件支持四種對齊格式,對于已經進行段落對齊并已經標注的上述語料,可以使用其中的標記對齊(start/stop tags)格式,在設定欄中分別輸入標記<PA>和</PA>就可以進行檢索分析.雖然此軟件的折行功能可顯示整段而使界面看起來不顯得臃腫,但對于精確的分析還是需要進行句子切分和對齊后才能進行.

        3.2.3 句子切分

        語料段落對齊后,就可以進行句子對齊.句子對齊的前提是句子的界定,只有句子進行明確的界定后,對齊才能保證較高的信度和效度.在可能的范圍內,切分句子單位越小,越能夠精確地進行相關對比研究.學界普遍認為,句號、問號、感嘆號和句尾的省略號是句子的天然標志.參考王克非(2004:46-53)的經驗,結合《三國演義》語料本身的特點和研究目的,我們將句號、問號、感嘆號、句尾的省略號、分號以及后接直接引語的冒號或逗號作為劃分漢英文本句子及切分單位的依據,并在此基礎上進行對齊.下面以《三國演義》第九十九回一完整段落原始語料及相對應的泰譯原始語料為切分樣例,來說明切分情況.其中“//”代表切分位置.

        孔明聽詔畢,謂費祎曰:// “吾國事未成,安可復丞相之職?” // 堅辭不受.// 祎曰:// “丞相若不受職,拂了天子之意,又冷淡了將士之心.// 宜且權受.”// 孔明方才拜受.// 祎辭去.

        K'ung-ming heard the edict to the end and then said, // "My task is not yet accomplished;// how can I return to my duties as Prime Minister? // I must really decline to accept this."http:// Fei I said, // "If you decline this you flout the desires of the king and also show contempt for the feelings of the army.// At any rate accept for the moment." //

        Then K'ung-ming humbly bowed acquiescence.//

        Fei I went away.//

        實際切分后,符號“//”就變成回車符,即有幾個“//”符號,就重新分成幾段.樣例表明,漢語一個段落,譯文為三個段落.實際上,原語段落最多的章回也不過二十段,而譯文的段落往往成數倍甚至數十倍增加.以第一回為例,切分前漢語語料、泰譯及羅譯的段落數分別為:13, 119, 60;切分后段落為:281, 337, 312.可發(fā)現切分后語料間的段落差異明顯少于切分前.事實上,所有章回進行切分后段落差異并不大,這樣便于進行句子對齊.

        實施上述漢、英語料句子切分的軟件是一個免費共享軟件,由北京大學計算語言研究所詹衛(wèi)東博士研制,名為文本預處理軟件(TextPreProcessing),可在詹博士的主頁下載.對于英語語料,直接運行該程序;對于漢語語料,則需要預先經過簡單的處理,方法是將漢語語料中的“;”號和“:”從全角轉化成半角,就可以基本實施如樣例劃分的切分,切分后將這兩種符號從半角還原成全角.此外,這個軟件的另一個特點是可以成批處理中、英文語料,十分快捷.除英文語料中逗號后直接引語用此軟件不能切分外,其余都可以切分.解決的方法是:利用正則表達式,在EditPlus軟件的幫助下,使用其替換功能,在查找框中鍵入“(,)( ")”,在替換框中鍵入“1 2”就可以進行切分;另外軟件還將諸如A.D.,B.C.這些縮略形式切分成兩個句子,這是不允許的,故提前須將這些替換成A D,B C,經過這樣的處理后,就不會出現將這些縮略形式切分成多個句子的情況,對齊工作結束后,再通過替換的方法將它們還原回來.

        3.2.4 句子對齊

        語料切分成最小的單位的過程中,如果原語語料及對應的譯語料切分后保持能夠全部一致,這是最理想的情況,即切分的過程同時就是對齊的過程,實際上這種幾率很小,大部分都要通過人工合并的方式進行對齊.對齊時使用的是一款名為“文本整理器”免費共享軟件,該軟件的作者署名為“風林”,在網絡上很容易找到其下載鏈接.同TextPreProcessing軟件一樣,此軟件操作簡便,界面清晰.左邊是軟件的功能區(qū),右邊是編輯區(qū);軟件的功能涉及對空格、行、段落、標點、甚至編碼都可以進行處理,既可以對單個文本進行處理,也可批量處理多個文本,用戶可以根據自己的研究情況訂制整理一個或數個方案,可一次性進行多個不同功能的處理,效率很高.編輯區(qū)一次可同時打開四個窗口進行操作.操作結束后,使用軟件上方的“統(tǒng)計”功能,可以對段落、字(詞)進行統(tǒng)計.圖4.1是對齊時的工作界面,使用的語料都是上面的樣例經TextPreProcessing軟件切分過的,只增加了羅譯對應部分.

        圖1 語料對齊工作界面

        上圖中,編輯區(qū)的上面兩個文本框分別是翻譯文本,其中左邊是泰譯,右邊羅譯;下面文本框是漢語語料,可以發(fā)現“吾國事未成,安可復丞相之職?”這一句,泰譯和羅譯都譯作兩句,因此在對齊時需要將這兩句合并,只要選中這兩句后,在左邊的功能區(qū)點擊“合并段落”按鈕就將這兩句合并.圖中高亮部分是需要合并的部分句對.前面已經分析過,由于我們在切分句子時已經做到最小程度了,因此對齊工作實際上大部分是合并前切分單位的過程.

        逐一對齊完成后,三個文本框中的段落數應該相同,這時可以利用上述提及的統(tǒng)計功能進行段落統(tǒng)計,如不一致,則需要校對.校對可以利用本軟件的“只空一行”功能,就能夠發(fā)現對齊過程中的問題,然后予以解決;亦可以使用EditPlus軟件“窗口”菜單下的“文件并置”命令,將三個文本并置起來,由于此軟件每行前都有行號,特別有利于發(fā)現對齊中出現的問題.

        圖2 語料對齊校對及加工界面

        上圖是樣例已經對齊后的結果,其中最左邊的漢語語料的前面出現如(1-2-1)的標記,是句對齊后人工添加上去的,本應屬于標注的范疇.需要指出的是,標注和對齊有時是穿插進行的.(1-2-1)表達的意思是:漢語一句對應泰譯兩句、羅譯一句.經過上述標注,就可以提取這些數據進行原語與譯語句子對應分析.

        4 標注

        標注就是對語料庫中的原始語料進行加工,把表示語言特征的附碼添加在相應的語言成分上,以便于計算機識讀.標注根據研究的需要可以在語言的各個層次上進行,如語音標注、語法標注、句法標注、語義標注、語用標注等等.標注是研究目的的一種體現形式,根據研究需要,我們對語料的語言文類、語法、及相關的文化信息進行標注.

        4.1 語言文類標注

        《三國演義》作為中國古典小說的第一部,而且是一部累積型的創(chuàng)作,其語言面貌自然是多樣化的.明人高儒在其《百川志書》稱《三國演義》是“據正史,采小說,證文辭,通好尚,非俗非虛,易觀易入.”這個評價概括了小說的素材和材料來源的多樣性.但對語料的語言進行標注,必須選擇一種客觀的分類體系,本研究采用柳士鎮(zhèn)(2003: 103-116)的分類方法,將《三國演義》的語言分為三類:敘事性語言,對話性語言及引用語料.敘事性語言,顧名思義,就是在小說中敘述事件所使用的語言;對話性語言就是對話過程使用的語言;引用語料是指作者從書籍或口頭流傳的作品中借以入書,以豐富自己創(chuàng)作的語言.引用語料可以細分為三種:第一種是公文類,包括詔令、疏表、奏章、策文、檄文、榜文、盟文、告示、祭文,共計三十八篇;第二種是書信,共計四十三篇;第三類是詩歌,共計二百零六首.

        標注是在句子對齊的基礎上,以原語語料為基礎進行的,對原語、譯語語料都進行人工標注.結合檢索軟件的要求和研究目的的需要,使用表2的標注方案.

        表2 語料語言文類標注內容及標記

        4.2 語法標注

        語法標注也稱詞性標注.文本經過詞性標注后可以進行句法研究.目前,針對現代漢語和英語的詞性標注軟件已經相當成熟,準確率極高,并進入商業(yè)化階段.現今中文詞性標注中常用的軟件有中科院開發(fā)的ICT中文斷詞詞性標注軟件和臺灣的中央研究院開發(fā)的CKIP軟件.這兩個軟件使用不同的詞性標注系統(tǒng),其中前者適用于簡體文本而后者適用于繁體文本;英文詞性標注軟件常用的有英國蘭卡斯特大學UCREL研究小組開發(fā)的CLAWS和德國斯圖加特大學計算語言學研究所開發(fā)的TreeTagger.前者是商業(yè)軟件,后者是免費共享軟件.遺憾的是,至今還沒有一款針對古代漢語進行詞性標注的軟件面世.這里我們只對漢語語料進行分字處理,就是給漢字字符間加上空格,這樣便于檢索分析軟件處理.給漢字字符間加空格的方法比較多,如利用EditPlus軟件的替換功能,打開待處理的文件后,在檢索框中輸入“.”在替換框中輸入“

        人妻av不卡一区二区三区| 欧美日韩精品一区二区三区高清视频| 999zyz玖玖资源站永久| 日韩激情网| 国产自偷自偷免费一区| 人妻中文久久人妻蜜桃| 97视频在线播放| 日韩人妻无码精品久久| 国产一区二区亚洲一区| 国产亚洲av片在线观看18女人| 视频在线观看国产自拍| 国产在线精品福利大全| 成人精品视频一区二区| 日韩精品久久伊人中文字幕| 久久不见久久见免费视频6| 91精品综合久久久久m3u8 | 久久久精品人妻久久影视| 亚洲中文久久精品无码ww16| 亚洲另在线日韩综合色| 中文字幕一区二区三在线| 干出白浆视频在线观看| 国产人妖乱国产精品人妖| 亚洲熟妇久久国产精品| 国产在线无码一区二区三区| 亚洲国产成人精品91久久久| 中文字幕一区二区三在线| 免费一区二区在线观看视频在线| 新婚人妻不戴套国产精品| 男人激烈吮乳吃奶视频免费| 国内精品久久久久久久久久影院| 精品一区二区三区四区少妇 | 丝袜美腿国产一区二区| 狠狠色噜噜狠狠狠777米奇| 久久久g0g0午夜无码精品| 久久99精品国产99久久6男男 | 狠狠色噜噜狠狠狠97影音先锋| 97久久久久国产精品嫩草影院 | 中文字日产幕码三区的做法大全| 人人妻人人狠人人爽天天综合网| 国产99久久亚洲综合精品 | 一本色道久久综合中文字幕|