亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        平行語料庫檢索軟件SDAU-ParaConc設(shè)計與實現(xiàn)

        2019-10-18 02:57:59葛曉帥翟紅華
        軟件導刊 2019年9期

        葛曉帥 翟紅華

        摘 要:當代語言研究離不開語料庫,對語料庫的檢索需要計算機軟件支持,但平行語料庫檢索軟件數(shù)量極少,且存在不符合中國國情的情況。因此,有必要開發(fā)一款符合中國國情、適應大數(shù)據(jù)檢索需求、減少語言研究中重復勞動的平行語料庫檢索軟件。在考察現(xiàn)有4款平行語料庫檢索軟件,對比分析它們各自的優(yōu)勢及不足后,結(jié)合中國國情及語言研究實踐經(jīng)驗,提出了新的平行語料庫檢索軟件SDAU-ParaConc設(shè)計理念。介紹了SDAU-ParaConc的實現(xiàn)方式與特點。與之前的軟件對比結(jié)果表明,SDAU-ParaConc操作步驟平均簡化了60%,檢索效率平均提升了9.5%。

        關(guān)鍵詞:SDAU-ParaConc;平行語料庫;檢索軟件;翻譯記憶庫

        DOI:10. 11907/rjdk. 191027 開放科學(資源服務)標識碼(OSID):

        中圖分類號:TP319文獻標識碼:A 文章編號:1672-7800(2019)009-0112-04

        The Design and Implementation of SDAU-ParaConc:

        A Paralleled Corpus Concordancer

        GE Xiao-shuai,ZHAI Hong-hua

        (Foreign Language School, Shangdong Agriculture University, Tai'an 271000,China)

        Abstract: Linguistic studies nowadays rely heavily on corpora, and computer applications are needed in searching corpora. Paralleled corpus tools are rarely found home and abroad, worse still the tools from abroad often do not fit for Chinese language. Therefore, it is necessary to develop a handy tool that deals with Chinese language and big data. After analyzing the four existing concondancers and taking the Chinese context their own experience into consideration, the authors, as language researchers,propose the design of SDAU-ParaConc and introduce its implementation and features. The results show that on average SDAU-ParaConc simplifies 60% operational steps and the searching rate is 9.5% higher.

        Key Words: SDAU-ParConc; paralleled corpora; concordancer; translation memory exchange

        0 引言

        語料庫是當代語言研究與教學[1]的一項重要參考,不論是翻譯研究、詞典編纂抑或是教材編寫都離不開語料庫支持[2]。

        語料庫指在一定原則下收集的批量口頭或筆頭語篇素材,以電子版本的形式存儲在電腦中,用于語言的調(diào)查和質(zhì)性分析[3]。當代語料庫指電子語料庫,語料庫的快速發(fā)展主要是依賴電子計算機的快速發(fā)展與普及。語料庫的規(guī)模從第一代電子語料庫的百萬詞次級別發(fā)展到現(xiàn)在上億詞次級別[4],如此大規(guī)模的文本是不可能依靠人工去讀取分析的,因此語料庫檢索軟件在語料庫研究中十分重要。

        平行語料庫由源語文本及平行對應的譯語文本構(gòu)成雙語語料庫[5]。平行語料庫與單語語料庫相比有其自身特點:①平行語料庫包含兩種以上語言;②語料之間按照特定層次平行對齊。這些特點決定了平行語料庫的檢索無法使用單語語料庫軟件,需要專用的平行語料庫檢索軟件。

        雖然語言研究者數(shù)量眾多,但研究工具卻十分匱乏。平行語料庫的研究主要集中在翻譯研究[6]、術(shù)語抽取和自動對齊等方面 [7]。國內(nèi)外比較知名的平行語料庫檢索軟件僅有4款,分別是ParaConc、AntPConc、CUC_Paraconc、BFSU ParaConc。近年的語料庫應用有逐步向云端遷移的趨勢,如最新開發(fā)的在線平行語料庫檢索系統(tǒng)有3款是在線的:OPUS Search Interface[8]、TANGO Concordancer[9]以及WebParaNews[10];另有一款桌面軟件Bilingual KRC Concordancer只能找到一篇介紹性文獻[11],無法獲取該軟件。在線版檢索系統(tǒng)有速度快、檢索方便等優(yōu)點,但也存在無法滿足研究者個性化檢索的缺點。如上述WebParaNews只能檢索系統(tǒng)設(shè)置好的英文—日文新聞語料庫,無法自行添加修改語料庫。本文主要針對桌面軟件進行研究分析,故對在線系統(tǒng)不多著筆墨。上述4款桌面軟件各有優(yōu)點但也存在不足,筆者在使用過程中發(fā)現(xiàn)其無法滿足中國語言研究者在大數(shù)據(jù)時代的需求,有必要開發(fā)一款更加簡潔易用、能夠處理大規(guī)模語料的檢索軟件。

        1 現(xiàn)有平行語料庫檢索軟件

        目前已開發(fā)出了優(yōu)秀的平行語料庫檢索軟件,如新西蘭奧克蘭大學Micheal Barlow[12]研制的ParaConc,Laurence Anthony [13]開發(fā)的AntPConc,程南昌[14]研制的CUC_Paraconc以及許家金、梁茂成、賈云龍[15]開發(fā)的BFSU ParaConc。下面對現(xiàn)有4款軟件進行簡要介紹:

        ParaConc是最早且最著名的平行語料庫檢索和建設(shè)軟件[16],其功能強大,除了檢索功能外還有對齊語料功能,這一功能在早期沒有自動對齊工具時期非常實用。該軟件支持Unicode文件編碼,并且有詞頻統(tǒng)計功能,但軟件需要對漢語語料進行提前分詞才能檢索。該軟件是收費軟件,單機版價格49美元,對于普通語言研究者有一定經(jīng)濟負擔。

        AntPConc是最著名的免費語料庫檢索軟件AntConc的同系列軟件,作者是日本早稻田大學的Laurence Anthony教授。軟件繼承了作者一貫簡潔明快的風格,界面十分友好,主要有建庫和檢索兩個功能。檢索結(jié)果界面分為上下兩部分,第一部分呈現(xiàn)目標語料庫檢索結(jié)果,第二部分呈現(xiàn)參照語料庫檢索結(jié)果,可以保存檢索結(jié)果,不提供索引行的來源文件,不支持正則表達式檢索。該軟件也需要對漢語語料進行提前分詞。另外值得注意的是,軟件存放的路徑不能有漢字,否則無法運行。

        CUC_Paraconc由中國傳媒大學程南昌博士開發(fā),可進行雙語和多語平行語料庫檢索,支持任意編碼的純文本語料。軟件界面語言可自主設(shè)定,可對檢索結(jié)果進行排序。軟件設(shè)計十分人性化,可自動識別雙語保存在單文件中的對齊形式,支持字母語言正則表達式檢索,漢語不用分詞。每次檢索軟件都會對平行語料空行進行彈窗提醒,作者本意應該是提醒語料可能沒有對齊,但在實際對齊中很多句子可能會沒有譯文,這時提醒就會給使用者帶來不必要的麻煩。軟件在處理大規(guī)模語料時可能會崩潰,檢索結(jié)果不提供索引行的來源文件。

        BFSU ParaConc由北京外國語大學許家金教授、梁茂成教授和賈云龍共同設(shè)計開發(fā)。漢語文本無需提前分詞,支持正則表達式檢索,支持英文詞形還原檢索。檢索結(jié)果呈現(xiàn)索引行來源文本,支持包含或不包含檢索,但僅支持ANSI編碼文本。

        將平行語料庫檢索軟件最常用的功能按照各軟件支持與否進行整理如表1所示。

        從表1可以看出,國外的檢索軟件并不適合我國國情,比如漢語需要提前分詞,AntPConc甚至不能在包含漢語的路徑下正常工作,兩款軟件都不呈現(xiàn)索引行的所在文本。國內(nèi)兩款軟件進行了大膽改進,都支持漢語不分詞檢索,支持正則表達式。這兩款軟件各有特色,如CUC_Paraconc 支持任意編碼的文本文件,BFSU支持不包含檢索,支持英文詞形還原檢索,并且是唯一呈現(xiàn)索引行文件的一款軟件。4款軟件都是非常優(yōu)秀的軟件,但也有各自的不足。因此,筆者借鑒其優(yōu)勢,根據(jù)翻譯研究中的實踐經(jīng)驗設(shè)計并開發(fā)了一款新的平行語料庫檢索軟件SDAU-ParaConc。

        2 SDAU-ParaConc設(shè)計

        SDAU-ParaConc以山東農(nóng)業(yè)大學英文縮寫(SDAU)加平行語料庫檢索工具(ParaConc)命名(下載地址http://corpus.bfsu.edu.cn/tools),基于Aardio與 Javascript開發(fā),在Windows操作系統(tǒng)運行。其核心設(shè)計理念是簡潔易用。軟件是免費軟件,界面只有3個選項卡,創(chuàng)建語料庫選項卡包含檢索前語料的導入和語料數(shù)據(jù)文件的選擇功能,檢索語料庫選項卡包含檢索條件指定、結(jié)果呈現(xiàn)與保存功能,幫助選項卡有作者信息及幫助文檔。

        軟件摒棄了ParaConc下拉菜單式的檢索條件指定方式,在同一界面提供檢索條件和結(jié)果呈現(xiàn),方便迅速改變檢索條件查詢。

        界面雖然簡潔,但軟件沒有犧牲核心功能,如英文檢索詞提供了大小寫敏感、正則表達式支持和英文詞形還原檢索功能,這些研究中最常用到的功能較完備,至于詞頻統(tǒng)計等功能完全可以結(jié)合AntConc,WordSmithTools等單語語料庫檢索軟件實現(xiàn)。

        下面從創(chuàng)建語料庫和檢索語料庫兩個方面介紹SDAU-ParaConc的特點。

        2.1 語料庫功能創(chuàng)建

        2.1.1 智能識別文件命名

        文本文件的平行語料庫如果是雙文件對齊的,也就是說兩種語言分別存儲在兩個文本文件中,兩個文件首先要進行匹配,否則無法進行雙語對齊。國外兩款軟件的設(shè)計思路是兩種語言的文件放在不同的文件夾中,按照文件排列順序匹配。國內(nèi)兩款軟件的設(shè)計思路是將兩種文件放在同一個文件夾下,通過在文件名中添加前綴或后綴的方式進行匹配。CUC_Paraconc支持前綴命名,并且支持自定義前綴,如漢語文本命名為ch-abc.txt,其對應的英語文本命名為en-abc.txt。BFSU ParaConc支持特定后綴,中文文件名為*.ZH.txt,對應英文文件名為*.EN.txt。

        通過借鑒兩款優(yōu)秀國產(chǎn)軟件優(yōu)點,SDAU-ParaConc支持更加靈活的文件命名方式,可以用前綴也可以用后綴,前綴后綴均可自定義。只要符合命名規(guī)則,軟件將智能匹配兩種語言的文本,方便語言研究者根據(jù)自己的需求對文件命名,減少不必要的重復勞動。

        2.1.2 支持任意編碼文本文件

        平行語料庫涉及至少兩種語言[17],文件的存儲形式可以分為兩種情況:①兩種語言存儲在同一個文件內(nèi),按照一行A語言一行B語言進行對齊;②兩種語言分別存儲在兩個文件內(nèi),兩種語言按照行號對齊。文本文件的存儲編碼標準分為ANSI及Unicode。簡單來說ANSI標準的文件節(jié)省存儲空間,但有可能造成非英語文字的亂碼情況,比如新建一個文本文件會默認保存為ANSI編碼,輸入“聯(lián)通”兩字保存后再打開就會出現(xiàn)亂碼。Unicode標準根據(jù)不同編碼方案又有一些變體,如UTF-8、UTF-16等[18]。其中最通用的是UTF-8編碼方案,它保證了字符的準確存儲,兼容ANSI標準,又根據(jù)不同字符變長,節(jié)省了空間。

        在翻譯實踐中經(jīng)常會遇到一些特殊字符,如希臘字母、數(shù)學符號、音標字符等,用ANSI格式存儲會有亂碼情況,破壞語料的準確性。

        綜上,SDAU-ParaConc設(shè)計為支持所有編碼標準,比如英文文本可以用ANSI格式存儲,節(jié)省空間;漢語文本用UTF-8存儲,保證準確性。只要文本文件可以正常顯示,軟件均可正常識別,這樣既提高了軟件的靈活性,又兼顧了存儲空間的經(jīng)濟性。

        2.1.3 支持TMX記憶庫文件直接導入

        TMX是Translation Memory eXchange的縮寫[19],是翻譯記憶庫交換格式。各大翻譯輔助軟件如Trados、MemoQ、Déjà Vu、Google Translate、雪人CAT等均支持TMX格式的記憶庫。

        所謂翻譯記憶庫,本質(zhì)上就是一一對齊的雙語句子,導入翻譯輔助軟件后,軟件會將新的翻譯任務與記憶庫中的句子進行匹配,如果發(fā)現(xiàn)記憶庫中有過同樣或類似的句子,就會將翻譯結(jié)果自動呈現(xiàn)出來,給譯者帶來極大方便,免去了很多重復勞動。對齊工具對齊后的文本也常用TMX格式保存。具有這種特性的TMX文件其實就是天然的對齊平行語料,對于建設(shè)平行語料庫非常方便。

        本文首創(chuàng)語料庫檢索軟件支持TMX格式,無需將TMX格式轉(zhuǎn)換為純文本格式,直接將TMX格式文件導入軟件即可進行檢索分析,這對于翻譯工作無疑是一項十分實用的功能。TMX記憶庫現(xiàn)有多家平臺進行共享和銷售,研究者可直接購買TMX記憶庫進行平行語料庫的建庫工作。

        通過對比4款語料庫創(chuàng)建過程,結(jié)果表明SDAU-ParaConc比其它4款軟件平均簡化了60%的操作步驟。

        2.2 語料庫檢索功能特點

        2.2.1 SQLite數(shù)據(jù)庫檢索

        為了提高檢索速度,將平行語料庫導入SQLite數(shù)據(jù)庫進行檢索,檢索效率明顯提升。對一個3萬句對的平行語料庫進行檢索對比測試,結(jié)果表明SDAU-ParaConc的檢索效率平均提升了9.4%,且在進行大量文本文件檢索時也不會崩潰。語料庫的容量越來越大,適應了大數(shù)據(jù)時代的平行語料檢索需求。

        另外,SQLite數(shù)據(jù)庫文件除了SDAU-ParaConc.db外可以以任何文件名保存?zhèn)溆茫罄m(xù)檢索無需再次生成語料數(shù)據(jù)庫,只需選擇SQLite數(shù)據(jù)庫文件導入即可,節(jié)省了語料導入分析時間。

        2.2.2 支持中文不分詞檢索

        英文等字母語言是依靠空格識別單詞的邊界,國外軟件設(shè)計時都采用了空格作為詞的邊界,這樣分詞可以方便進行詞頻統(tǒng)計等分析[17],國外軟件也因此無法對不分詞的漢語連續(xù)文本進行檢索分析[20]。但即使是現(xiàn)在最優(yōu)秀的中文分詞引擎也不能做到百分百的分詞準確率[21],并且分詞標準不同也會造成結(jié)果不同,如把“北京大學”是看成一個詞還是“北京”和“大學”兩個詞?如果上述例子被分成了兩個詞,那么檢索“北京大學”就無法得到正確結(jié)果。當然不分詞也可能造成將不是詞的連續(xù)文本識別為詞的結(jié)果,如檢索“中國”會將“發(fā)展中國家”也呈現(xiàn)出來。

        為解決這一矛盾,設(shè)計的軟件檢索條件既要支持分詞的漢語文本也要支持不分詞的漢語文本,使用者可根據(jù)需要導入任何漢語文本。

        2.2.3 自動定位檢索結(jié)果句所在文件

        4款軟件僅BFSU ParaConc會在檢索結(jié)果句后呈現(xiàn)文件名,其它3款只呈現(xiàn)索引行,使用者無法獲知索引行出自哪個文件,但這一信息非常重要。在需要查看上下文時,如果文件數(shù)量很多,查找該句的出處就會很困難,需要點開文件夾反復查找。

        SDAU-ParaConc不僅很清晰地呈現(xiàn)出索引行所在文件名,并且實現(xiàn)了點擊文件名(File)即可打開句子所在文件的功能,如圖1所示。

        在翻譯研究及教學過程中,如果單個句子無法給出確定信息需要進行上下文查閱,或是發(fā)現(xiàn)翻譯錯誤需要修改原文時,這一功能會帶來極大便利。

        2.2.4 支持檢索結(jié)果保存

        現(xiàn)有軟件對檢索結(jié)果大多以純文本格式保存,而該軟件不僅提供純文本格式保存,還提供HTML格式保存。HTML文件可以用任何瀏覽器打開查看,與在軟件中查看效果一樣,檢索關(guān)鍵詞時高亮顯示。文件名以檢索條件命名,可以避免同一條件的反復檢索,也方便進行結(jié)果對比。

        3 結(jié)語

        SDAU-ParaConc開發(fā)并非重復勞動,而是在吸收前人優(yōu)秀設(shè)計理念、摒棄不合理的繁瑣功能,結(jié)合我國語言研究者使用實際設(shè)計開發(fā)的一款方便實用的平行語料庫檢索軟件。該軟件更加貼近一線研究者需求,簡化重復性勞動,提升研究效率。我國語言研究者眾多,但語言研究工具總體相對匱乏,SDAU-ParaConc的發(fā)布為語言研究者科研及教學帶來了方便。

        參考文獻:

        [1] CORTES V. Corpus tools for writing teachers[J]. The TESOL Encyclopedia of English Language Teaching, 2018(1): 1-6.

        [2] BREZINA V. Statistics in corpus linguistics: a practical guide[M]. Cambridge: Cambridge University Press, 2018.

        [3] 何安平. 語料庫輔助英語教學入門[M]. 北京:外語教學與研究出版社, 2010.

        [4] 王克非. 語料庫翻譯學探索[M]. 上海:上海交通大學出版社,2012.

        [5] 王克非. 雙語對應語料庫: 研制與應用[M]. 北京:外語教學與研究出版社, 2004.

        [6] 王若楓. 基于平行語料庫的計算機輔助翻譯軟件在翻譯教學中的應用[D].哈爾濱:黑龍江大學,2015.

        [7] 司莉,何依.2000年以來我國多語言語料庫研究進展[J].現(xiàn)代情報,2016,36(6):165-170.

        [8] TIEDEMANN J. Parallel data, tools and interfaces in OPUS[C]. LREC,2012: 2214-2218.

        [9] REYNOLDS B L. Action research: applying a bilingual parallel corpus collocational concordancer to Taiwanese medical school EFL academic writing[J]. RELC ?Journal, 2016, 47(2): 213-227.

        [10] CHUJO K, KOBAYASHI Y, MIZUMOTO A, et al. Exploring the effectiveness of combined web-based corpus tools for beginner EFL DDL[J]. Linguistics and Literature Studies, 2016,4(4):262-274.

        [11] HMIDA F,MORIN E,DAILLE B, et al. A bilingual KRC concordancer for assisted translation revision based on specialized comparable corpora[C]. Terminology and Knowledge Engineering Conference,2016.

        [12] BARLOW M. Paraconc: concordance software for multilingual parallel corpora[C]. Proceedings of the Third International Conference on Language Resources and Evaluation,Workshop on Language Resources in Translation Work and Research,2002: 20-24.

        [13] ANTHONY ?L. Antpconc (Version 1.1.0) [D]. Tokyo: Waseda University,2014.

        [14] 程南昌. CUC_Paraconc[D].北京:中國傳媒大學,2013.

        [15] XU J J,LIANG M C,JIA Y L. BFSU Paraconc 1.2[D]. Beijing: Beijing Foreign Studies University,2012.

        [16] MOROPA K. Analysing the English-Xphosa parallel corpus of technical texts with Paraconc: a case study of term formation processes[J]. Southern African Linguistics and Applied Language Studies, 2007,25(2):183-205.

        [17] 胡開寶. 語料庫翻譯學概論[M]. 上海:上海交通大學出版社,2013.

        [18] UNICODE CONSORTIUM. The unicode standard, version 2.0[M]. Redwood City: Addison-Wesley Longman Publishing Co. Inc. 1997.

        [19] WIKIPEDIA. Translation memory exchange[EB/OL]. https://en.wikipedia.org/wiki/Translation_Memory_eXchange.

        [20] 胡開寶,鄒頌兵. 莎士比亞戲劇英漢平行語料庫的創(chuàng)建與應用[J]. 外語研究,2009(5): 64-71.

        [21] 王建新. 計算機語料庫的建設(shè)與應用[M].北京:清華大學出版社, 2005.

        (責任編輯:杜能鋼)

        人人狠狠综合久久亚洲婷婷| 国内自拍色第一页第二页| 极品粉嫩嫩模大尺度无码视频| 四虎影视永久地址www成人| 五月天婷婷综合网| 男人的天堂av一二三区| 日本按摩偷拍在线观看| 国产特黄级aaaaa片免| 亚洲欧美日韩中文无线码| 亚洲精品国产二区三区在线| 国产不卡在线播放一区二区三区| 国产 精品 自在 线免费| 骚小妹影院| 亚洲AV无码成人精品区天堂| 国产精品自拍视频免费看| 免费a级毛片18禁网站免费| 午夜福利92国语| 国产在线精品福利大全| 日本久久久精品免费免费理论| 久久精品中文字幕| 亚洲精品无码mv在线观看| 亚洲a人片在线观看网址| 精品国产日韩亚洲一区在线| 日韩夜夜高潮夜夜爽无码| 国产无套护士在线观看| 四虎国产精品成人影院| 蜜桃网站免费在线观看视频| 香港三日本三级少妇三级视频| 国产偷窥熟女精品视频| 国产三级自拍视频在线| 中国亚洲一区二区视频| 久久久无码人妻精品一区| 亚洲AV无码成人精品区天堂| 三级网站亚洲三级一区| 国产乱人伦av在线a麻豆| 亚洲香蕉成人AV网站在线观看| 影音先锋色小姐| 亚洲人成网站77777在线观看| 亚洲av粉色一区二区三区| 国产不卡在线视频观看| 玩弄放荡人妻少妇系列|