王 琳 劉伍穎 梁曉波
(1.國(guó)防科學(xué)技術(shù)大學(xué),湖南長(zhǎng)沙 410073;2.解放軍外國(guó)語(yǔ)學(xué)院,河南洛陽(yáng) 471003)
公元1799年在埃及發(fā)現(xiàn)的羅塞塔石碑(Rosetta Stone)制作于公元前196年。石碑上用三種不同文字(古埃及象形文Hieroglyphic、古埃及草書(shū)文 Demotic、古希臘文)平行刻著古埃及法老Ptolemy V的詔書(shū)。到近代古希臘文還是可閱讀的,通過(guò)比對(duì)分析,人類(lèi)破譯了兩種失傳已久的古埃及文字的意義。
公元1909年在中國(guó)內(nèi)蒙古額濟(jì)納旗發(fā)現(xiàn)的木刻雕版印刷紙本《番漢合時(shí)掌中珠》刊行于西夏乾祐21年(公元1190年),是一本西夏文和漢文雙向雙解注音詞典,編者是西夏人骨勒茂才。書(shū)前有西夏文和漢文平行序言,“……不學(xué)番言,則豈和番人之眾;不會(huì)漢語(yǔ),則豈入漢人之?dāng)?shù)……”表明該書(shū)目的在于方便西夏人和漢人互相學(xué)習(xí)對(duì)方語(yǔ)言。目前該書(shū)成為研究和破譯西夏文的關(guān)鍵工具書(shū)。
羅塞塔石碑的多語(yǔ)平行文本設(shè)計(jì)、《番漢合時(shí)掌中珠》的雙向雙解設(shè)計(jì)在當(dāng)時(shí)都是十分先進(jìn)和實(shí)用的,對(duì)后世也產(chǎn)生了深遠(yuǎn)影響。當(dāng)前大數(shù)據(jù)背景下,如何利用雙語(yǔ)平行文本[1]和雙向信息檢索技術(shù)對(duì)術(shù)語(yǔ)大數(shù)據(jù)進(jìn)行處理成為極具挑戰(zhàn)的研究課題。
文章開(kāi)始處的例子說(shuō)明多語(yǔ)種平行文本和雙語(yǔ)詞典歷來(lái)就是人類(lèi)溝通不同語(yǔ)種的重要方法。隨著計(jì)算機(jī)和網(wǎng)絡(luò)的普及,這些古老的方法借助現(xiàn)代手段煥發(fā)出新的生命力。如金山詞霸、有道詞典、靈格斯(Lingoes)、Babylon、句酷等已經(jīng)成為主流的電子詞典和翻譯軟件。又如維基百科(Wikipedia)、微軟(Microsoft)、谷歌(Google)等在多語(yǔ)種處理方面也是成果豐富。
金山詞霸是金山公司推出的電子詞典,收錄了140多本版權(quán)詞典。有道詞典是網(wǎng)易有道推出的電子詞典,它利用大數(shù)據(jù)挖掘技術(shù)對(duì)有道搜索引擎爬取的網(wǎng)頁(yè)大數(shù)據(jù)進(jìn)行處理,得到海量漢語(yǔ)與外語(yǔ)的平行文本,以此支撐詞語(yǔ)和例句的查詢。靈格斯是由凱文(Kevin)個(gè)人開(kāi)發(fā)的翻譯與詞典軟件,支持80多個(gè)國(guó)家語(yǔ)言的詞語(yǔ)查詢和全文翻譯。Babylon是一款提供翻譯和詞典服務(wù)的桌面軟件,它的多語(yǔ)種詞典是由Babylon所屬的語(yǔ)言專(zhuān)家開(kāi)發(fā)出來(lái)的。句酷是北京郵電大學(xué)開(kāi)發(fā)的雙語(yǔ)例句搜索引擎,已積累了上千萬(wàn)的雙語(yǔ)例句。
維基百科是一種借助維基技術(shù)開(kāi)發(fā)的多語(yǔ)種百科知識(shí)庫(kù),它公布了截至2011年底因特網(wǎng)上最主要的35種網(wǎng)頁(yè)內(nèi)容語(yǔ)種。微軟的Windows Phone 8手機(jī)操作系統(tǒng)能為用戶提供50種不同國(guó)家和地區(qū)語(yǔ)種支持,微軟的Windows 8操作系統(tǒng)支持多達(dá)109種語(yǔ)種。谷歌翻譯目前可提供64種語(yǔ)言之間的即時(shí)翻譯,而且還啟動(dòng)了瀕危語(yǔ)言計(jì)劃以挽救3054種瀕危語(yǔ)種。
上述相關(guān)研究已經(jīng)取得了很多產(chǎn)品級(jí)的應(yīng)用成果。在技術(shù)上的啟示是把桌面軟件與網(wǎng)絡(luò)數(shù)據(jù)庫(kù)銜接起來(lái),既有本地基本數(shù)據(jù)庫(kù),又有在線大數(shù)據(jù)庫(kù);借助搜索引擎網(wǎng)絡(luò)爬蟲(chóng)技術(shù)和Wiki技術(shù)[2]不斷擴(kuò)充后臺(tái)大數(shù)據(jù)庫(kù);詞典與句典相結(jié)合,詞語(yǔ)查詢向機(jī)器翻譯邁進(jìn)。然而已有的產(chǎn)品在使用時(shí)還是暴露出一些不足。如大部分電子詞典為了追求詞量,把各種詞典機(jī)械合成,造成結(jié)果重復(fù)、冗長(zhǎng)、雜亂、大而不精;專(zhuān)業(yè)術(shù)語(yǔ)存在較多的翻譯錯(cuò)誤,或者根本查不到相關(guān)的專(zhuān)業(yè)術(shù)語(yǔ)等。
隨著2010年底美國(guó)《規(guī)劃數(shù)字化未來(lái)》報(bào)告的出爐,美國(guó)政府2012年投入2億美元啟動(dòng)大數(shù)據(jù)研究發(fā)展倡議,大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨。微軟研究院出版的《第四范式:數(shù)據(jù)密集型的科學(xué)發(fā)現(xiàn)》論文集全面描述了快速興起的數(shù)據(jù)密集型科學(xué)研究,從理論上指導(dǎo)著大數(shù)據(jù)挖掘的方向。在大數(shù)據(jù)背景下,哲學(xué)和社會(huì)科學(xué)的飛速發(fā)展、計(jì)算技術(shù)和網(wǎng)絡(luò)技術(shù)的不斷進(jìn)步、國(guó)際交流的日益深化使得多語(yǔ)種哲學(xué)社科術(shù)語(yǔ)不斷涌現(xiàn)。本文對(duì)英漢雙向哲學(xué)社科術(shù)語(yǔ)詞典系統(tǒng)的構(gòu)建方法進(jìn)行了探索,對(duì)限定領(lǐng)域[3]的雙向網(wǎng)絡(luò)術(shù)語(yǔ)詞典構(gòu)建進(jìn)行了嘗試。目的是利用計(jì)算機(jī)和網(wǎng)絡(luò)促進(jìn)術(shù)語(yǔ)使用處理的規(guī)范化與標(biāo)準(zhǔn)化[4]、增強(qiáng)哲學(xué)社科術(shù)語(yǔ)翻譯的準(zhǔn)確性、提升使用者的英文文獻(xiàn)閱讀理解和寫(xiě)作能力。
英漢雙向哲學(xué)社科術(shù)語(yǔ)詞典系統(tǒng)(哲譯通)是一套基于網(wǎng)絡(luò)B/S架構(gòu)的Web應(yīng)用系統(tǒng)。哲譯通系統(tǒng)架構(gòu)如圖1所示,總體上分為兩大部分。
圖1 哲譯通系統(tǒng)架構(gòu)
一部分是通過(guò)網(wǎng)絡(luò)接入的各種用戶終端,它們可以是安裝了瀏覽器(browser)的任意接入設(shè)備,只需通過(guò)網(wǎng)絡(luò)訪問(wèn)服務(wù)器就可以使用哲譯通系統(tǒng),簡(jiǎn)化了客戶端的安裝,便于跨硬件、軟件、網(wǎng)絡(luò)平臺(tái)使用系統(tǒng)。另一部分是采用高速內(nèi)網(wǎng)連接起來(lái)的各類(lèi)服務(wù)器,包括用于存儲(chǔ)英漢雙向哲學(xué)社科術(shù)語(yǔ)詞典庫(kù)的數(shù)據(jù)服務(wù)器,提供結(jié)構(gòu)化存儲(chǔ)、漢英雙向檢索、應(yīng)用編程接口的應(yīng)用服務(wù)器,接收Web請(qǐng)求并進(jìn)行相應(yīng)處理的Web服務(wù)器。
服務(wù)器端的詞條處理服務(wù)器并發(fā)接收單條詞條的Web提交,也接收批處理詞條提交,并把詞條數(shù)據(jù)提交到結(jié)構(gòu)化存儲(chǔ)服務(wù)器。Query處理服務(wù)器接收漢文Query或英文Query的Web提交,支持高級(jí)搜索的邏輯表達(dá)式處理,并提交Query到漢英雙向檢索服務(wù)器,接收檢索服務(wù)器的返回結(jié)果,通過(guò)網(wǎng)絡(luò)反饋給瀏覽器端。結(jié)構(gòu)化存儲(chǔ)服務(wù)器支持詞條數(shù)據(jù)的格式化、詞條相關(guān)性挖掘、索引編排、數(shù)據(jù)庫(kù)操作等功能。漢英雙向檢索服務(wù)器接收Query請(qǐng)求,查詢英漢雙向哲學(xué)社科術(shù)語(yǔ)詞典庫(kù)的索引,返回檢索結(jié)果。應(yīng)用編程接口服務(wù)器擴(kuò)展通用的編程接口,提供印刷紙本詞典的自動(dòng)排版清樣、機(jī)器翻譯等數(shù)據(jù)增值服務(wù)。
我們?cè)O(shè)計(jì)的用于存儲(chǔ)術(shù)語(yǔ)的數(shù)據(jù)庫(kù)term表結(jié)構(gòu)如圖2所示,每條詞條包含10個(gè)屬性域(術(shù)語(yǔ)ID、漢文詞條、英文詞條、漢文注釋、英文注釋、插圖文件名、學(xué)科類(lèi)別、譯文出處、提供者、聯(lián)系方式),其中漢文注釋和英文注釋是雙語(yǔ)平行文本,而插圖采用文件系統(tǒng)進(jìn)行存儲(chǔ),所以插圖文件名是文件系統(tǒng)存儲(chǔ)和訪問(wèn)路徑。
圖2 哲譯通數(shù)據(jù)庫(kù)term表結(jié)構(gòu)
從系統(tǒng)功能角度分析,哲譯通是一個(gè)以術(shù)語(yǔ)詞典庫(kù)為核心的綜合系統(tǒng),既包含詞典數(shù)據(jù)高效收集、存儲(chǔ)、維護(hù)、管理、分析、共享等基本功能,又包含漢英全文檢索、組合邏輯檢索、學(xué)科分類(lèi)檢索、相關(guān)推薦檢索等便捷的搜索功能,還包含漢英雙解展示、開(kāi)放詞條在線提交、紙本詞典自動(dòng)出版、機(jī)器翻譯等數(shù)據(jù)增值服務(wù)功能。
根據(jù)上文提出的系統(tǒng)架構(gòu),首先我們構(gòu)造了英漢雙向哲學(xué)社科術(shù)語(yǔ)詞典庫(kù)。《番漢合時(shí)掌中珠》將詞條分為天體、天相、天變、地體、地相、地用、人體、人相、人事九大類(lèi)。同理根據(jù)哲學(xué)和社會(huì)科學(xué)分類(lèi)體系把英漢雙向哲學(xué)社科術(shù)語(yǔ)分為哲學(xué)、歷史、經(jīng)濟(jì)、法學(xué)、文學(xué)、教育、管理、軍事、科技史九大類(lèi)。如表1所示九大類(lèi)總共收集了44 136條詞條。
表1 哲譯通學(xué)科類(lèi)別和詞條數(shù)
接著我們實(shí)現(xiàn)了結(jié)構(gòu)化存儲(chǔ)服務(wù)器和詞條處理服務(wù)器,按照上文的term表結(jié)構(gòu)對(duì)詞條進(jìn)行格式化,對(duì)用于挖掘的域(漢文注釋、英文注釋)文本進(jìn)行分詞處理,建立全文倒排索引,并存儲(chǔ)到數(shù)據(jù)服務(wù)器。然后我們實(shí)現(xiàn)了漢英雙向檢索服務(wù)器和Query處理服務(wù)器,支持以下四種搜索方式。
基本搜索類(lèi)似于谷歌主頁(yè)的搜索,實(shí)現(xiàn)漢英全文檢索功能。在哲譯通主頁(yè)面的輸入框中輸入搜索請(qǐng)求(Query),點(diǎn)擊搜索按鈕就可以得到詳細(xì)的雙語(yǔ)雙解詞條信息。哲譯通基本搜索可以很好地支持對(duì)漢文英文的全文搜索,對(duì)Query中的人名、地名、機(jī)構(gòu)名等專(zhuān)名進(jìn)行了識(shí)別,提高了搜索的語(yǔ)義準(zhǔn)確性。
學(xué)科搜索實(shí)現(xiàn)按照學(xué)科分類(lèi)進(jìn)行檢索的功能。由于在構(gòu)造英漢雙向哲學(xué)社科術(shù)語(yǔ)詞典庫(kù)時(shí),對(duì)每條詞條進(jìn)行了學(xué)科分類(lèi),因此在輸入框上方有相應(yīng)的學(xué)科分類(lèi)鏈接,通過(guò)點(diǎn)擊鏈接選擇學(xué)科,能夠更加精準(zhǔn)地限定搜索范圍,提高返回詞條的相關(guān)性。
高級(jí)搜索能夠?qū)崿F(xiàn)復(fù)雜的多條件組合邏輯檢索。通過(guò)“+”“-”按鈕增刪搜索條件,搜索條件之間的邏輯關(guān)系可以通過(guò)邏輯下拉框設(shè)定,包括“并且”“或者”和“不含”三種邏輯運(yùn)算符。除此之外,每個(gè)條件的權(quán)重可以通過(guò)權(quán)重輸入框設(shè)定,通常權(quán)重采用一個(gè)整數(shù)表示。用戶通過(guò)權(quán)重設(shè)置來(lái)準(zhǔn)確描述自己搜索的側(cè)重點(diǎn)。
推薦搜索是采用數(shù)據(jù)挖掘技術(shù)計(jì)算Query與每條詞條內(nèi)容的相關(guān)性,輸出術(shù)語(yǔ)詞條中不含Query文本,但術(shù)語(yǔ)內(nèi)容與Query緊密相關(guān)的詞條。這是一種暗含的隱式搜索,不需要用戶人工干預(yù),伴隨上述三種搜索方式自動(dòng)完成的。比如:輸入Query(秦始皇)點(diǎn)擊搜索按鈕后的搜索結(jié)果頁(yè)面,除了兩條搜索結(jié)果(秦始皇、秦始皇陵)之外,還向用戶推薦有可能感興趣的三條相關(guān)詞條(秦兵馬俑、先秦思想、郡縣制度),如果用戶感興趣可以進(jìn)一步點(diǎn)擊相關(guān)詞條鏈接打開(kāi)具體內(nèi)容頁(yè)面。
最后我們還實(shí)現(xiàn)了應(yīng)用編程接口服務(wù)器,支持印刷紙本詞典的自動(dòng)排版清樣生成功能,這是對(duì)傳統(tǒng)紙本詞典出版的一次變革,能夠縮短詞典版本更新周期,提高詞典的時(shí)效性。此外應(yīng)用編程接口服務(wù)器還為機(jī)器翻譯提供術(shù)語(yǔ)翻譯接口[5]。
哲譯通系統(tǒng)不僅詞庫(kù)容量大、學(xué)科類(lèi)別全,而且詞條注釋詳略得當(dāng)、譯文出處權(quán)威準(zhǔn)確,2008年底在軍網(wǎng)上線試運(yùn)行[6],方便教學(xué)和科研人員查詢、提交詞條。查詢時(shí)用戶只需要輸入漢文或英文詞條,便可獲得譯文詞條、漢英注釋、插圖、學(xué)科類(lèi)別、譯文出處、提供者等信息。提交新詞時(shí)用戶只需要根據(jù)哲譯通詞條模板逐項(xiàng)填寫(xiě),其中包括提供者的姓名,通過(guò)審核后提供者自動(dòng)成為哲譯通電子詞典的作者之一[7]。試運(yùn)行以來(lái)得到用戶廣泛好評(píng),成為從事哲學(xué)與社會(huì)科學(xué)教學(xué)和科研人員的好助手。
時(shí)代劃分依據(jù)多種多樣,若以“紙”為依據(jù),我們可以把紙發(fā)明之前的人類(lèi)文明時(shí)期稱為“紙前時(shí)代”,從紙的發(fā)明到普及使用稱為“紙質(zhì)時(shí)代”,那么今天趨于無(wú)紙化的大數(shù)據(jù)時(shí)代則是當(dāng)之無(wú)愧的“后紙時(shí)代”。羅塞塔石碑是紙前時(shí)代的多語(yǔ)平行語(yǔ)料庫(kù),《番漢合時(shí)掌中珠》是紙質(zhì)時(shí)代的雙向雙解詞典,而哲譯通就像是后紙時(shí)代對(duì)英漢雙向網(wǎng)絡(luò)詞典的一種有益嘗試。盡管信息記錄材料發(fā)生了翻天覆地的變化,但上述三者的本質(zhì)并沒(méi)有太多不同,哲譯通不過(guò)是古今中外跨語(yǔ)言文字信息處理的一種延續(xù)。
在下一步的研究工作中,我們將加強(qiáng)用戶與研發(fā)者之間的交流互動(dòng),根據(jù)試運(yùn)行反饋完善系統(tǒng)功能,擴(kuò)充系統(tǒng)詞量使得詞典覆蓋面越來(lái)越廣??梢灶A(yù)見(jiàn)哲譯通將在哲學(xué)與社會(huì)科學(xué)研究領(lǐng)域發(fā)揮更大的作用。此外進(jìn)一步擴(kuò)展應(yīng)用編程接口,將英漢雙向哲學(xué)社科術(shù)語(yǔ)詞典作為一種重要的知識(shí)源,支撐機(jī)器翻譯領(lǐng)域進(jìn)行更深的研究。還可以通過(guò)遷移學(xué)習(xí)技術(shù)把我們?cè)O(shè)計(jì)的術(shù)語(yǔ)詞典系統(tǒng)構(gòu)建方法和實(shí)現(xiàn)的軟件部件用于醫(yī)藥術(shù)語(yǔ)庫(kù)、氣象術(shù)語(yǔ)庫(kù)、古籍翻譯術(shù)語(yǔ)庫(kù)、國(guó)防縮略術(shù)語(yǔ)庫(kù)[8]、軍事術(shù)語(yǔ)庫(kù)[9]等其他專(zhuān)業(yè)術(shù)語(yǔ)網(wǎng)絡(luò)詞典建設(shè)之中。
[1]王克非,黃立波.國(guó)外雙語(yǔ)庫(kù)研制與應(yīng)用評(píng)析[EB/OL].(2013-04-23)[2013-11-15].http://www.npopsscn.gov.cn/n/2013/0423/c362514 -21242066.html.
[2]王莉,梁冰,郝春云,等.基于Wiki技術(shù)的標(biāo)準(zhǔn)術(shù)語(yǔ)庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)[J].數(shù)字圖書(shū)館論壇,2011(3):44-51.
[3]向音,李蘇鳴.領(lǐng)域術(shù)語(yǔ)特征分析——以軍語(yǔ)為例[J].中國(guó)科技術(shù)語(yǔ),2012(5):5-9.
[4]馮志偉.一個(gè)新興的術(shù)語(yǔ)學(xué)科——計(jì)算術(shù)語(yǔ)學(xué)[J].術(shù)語(yǔ)標(biāo)準(zhǔn)化與信息技術(shù),2008(4):4-9.
[5]羅季美.機(jī)器翻譯中的術(shù)語(yǔ)錯(cuò)譯分析[J].中國(guó)科技術(shù)語(yǔ),2013(1):41-45.
[6]況守忠,周雨花.國(guó)防科大人文與社會(huì)科學(xué)學(xué)院開(kāi)發(fā)出我國(guó)第一部“哲譯通”電子辭典[N].解放軍報(bào),2008-12-26.
[7]王握文.在線電子辭典,網(wǎng)友也能當(dāng)作者——國(guó)防科大研發(fā)“哲學(xué)與社會(huì)科學(xué)專(zhuān)有名詞電子辭典”紀(jì)實(shí)[N].解放軍報(bào),2009-2-17.
[8]易綿竹,劉伍穎,劉萬(wàn)義,王琳.多語(yǔ)種國(guó)防縮略術(shù)語(yǔ)庫(kù)研究[J].中國(guó)科技術(shù)語(yǔ),2013(5):18-21.
[9]張國(guó)君,吳曉燕,丁國(guó)瑞.建立多語(yǔ)種軍事術(shù)語(yǔ)數(shù)據(jù)庫(kù)系統(tǒng)的基本構(gòu)想[J].中國(guó)科技術(shù)語(yǔ),2013(5):9-13.