武智
摘 要 本文將介紹SEAlang項(xiàng)目(Southeast Asia Language Projects)在東南亞非通用語教學(xué)與科研中的應(yīng)用。主要以介評SEAlang項(xiàng)目中的老撾語詞典、單語語料庫及文獻(xiàn)典藏目錄檢索功能為主。
關(guān)鍵詞 老撾語 詞典檢索 語料庫 語言學(xué)典藏
中圖分類號:G642 文獻(xiàn)標(biāo)識碼:A DOI:10.16400/j.cnki.kjdks.2016.12.020
Abstract This article will introduce the application of SEAlang project in the teaching and scientific research of non - common language in Southeast Asia. Mainly in the review of SEAlang projects in the Lao language dictionary and monolingual corpora and literature collection directory retrieval function.
Keywords Lao language; dictionary retrieval; corpus; linguistics collection
0 引言
SEAlang項(xiàng)目①主要收集、開發(fā)和分享東南亞語言的相關(guān)資料,包括碑文、原始語言的重構(gòu)、歷史及現(xiàn)代詞典編纂、文本語料庫等,是一個以數(shù)字化形式分析和標(biāo)記文獻(xiàn)材料的在線軟件工具。該項(xiàng)目主要內(nèi)容包括:在線詞典(單語、雙語)、文本語料庫(單語、雙語平行)、東南亞文獻(xiàn)典藏目錄等。其中在線詞典(單語、雙語)及文本語料庫包含語種有:巴厘語、布吉斯語、緬甸語、宿霧語、查瓦卡諾語、希利蓋農(nóng)語、伊洛卡諾語、印尼語、爪哇語、克倫語、高棉語、老撾語、泰語、越南語、馬來語、馬來諾語、撣語、他加祿語、德頓語等。
從地理位置上看,該項(xiàng)目主要對東南亞大陸國家(泰國、緬甸、老撾、柬埔寨)及東南亞海島國家(菲律賓、馬來西亞、印度尼西亞)進(jìn)行語言資源開發(fā),并致力于開發(fā)東南亞非通用語種的教學(xué)及翻譯工具,為東南亞語言學(xué)、計(jì)算語言學(xué)、歷史、詞典學(xué)、詞源學(xué)、區(qū)域研究及跨語言信息檢索提供幫助,為東南亞裔美國人及相關(guān)領(lǐng)域?qū)W者提供免費(fèi)的語言學(xué)習(xí)資料工具。
1 詞典檢索功能②
SEAlang在線老撾語-英語詞典的詞庫主要來源于兩個版本的已出版詞典。一部由William L. Patterson 及 Mario E. Severino (1995, Dunwoody Press)編纂的老撾語-英語詞典,此版是在參考老撾語-俄語詞典(1982, Russkiy Yazik,Moscow)的基礎(chǔ)上進(jìn)行編纂的,超過32000條詞匯,也收入了1975年老撾政府實(shí)施新語言政策③以來部分老撾語用法。另一部詞典也為老撾語-英語詞典(1972, Allen Kerr),詞典內(nèi)容也參考了相關(guān)詞典及出版物,并在老撾語母語者協(xié)助下完成,詞典包括44000條詞匯,8798183 條釋義,一些動植物詞條也包含在內(nèi)。此外,在查詢結(jié)果顯示界面的每一個詞條后標(biāo)注了來自哪部詞典,供使用者參考。
圖1為詞典查詢界面,A區(qū)為字串查詢區(qū),B區(qū)為查詢結(jié)果排列區(qū)。
1.1 字串查詢區(qū)(A)
見圖2,查詢方法:可用老撾語、英文及IPA進(jìn)行搜索,在Lao對話框中輸入要查詢的老撾語詞匯及Text框中輸入英文字串,④點(diǎn)擊Go鍵或回車(Enter)進(jìn)行查詢。IPA查詢功能還在開發(fā)中,不提供聲調(diào)的搜索。點(diǎn)擊Habeas Corpus可迅速跳轉(zhuǎn)至語料,顯示該詞條在語料庫中的搭配情況。
1.2 查詢結(jié)果排列區(qū)(B)
如圖3,以搜索單詞“”一詞為例,查詢結(jié)果排列方式區(qū)基本標(biāo)簽有:英語釋義,詞性,詞源等。如單擊Show all可顯示與“”前后搭配的全部詞條。點(diǎn)擊藍(lán)色leading 、黃色trailing可顯示該詞置于某詞組或短語前后的搭配情況。
Kerr的詞典保留了早期老撾語的拼寫方式,而P & S (William L. Patterson 、Mario E. Severino)的詞典里用了現(xiàn)代拼寫標(biāo)準(zhǔn),并在A區(qū)搜索選項(xiàng)里為用戶提供了選擇(,, , .),類似漢語的模糊音搜索設(shè)置。如“”一詞的舊時拼法就為“” ,再如“ ”一詞,只有拼寫為“ ”才能查詢到其釋義。Kerr詞典里的羅馬拼音轉(zhuǎn)寫自原始文本,而P & S的拼寫則是采用了約翰.M.德?。―r. John M. Durdin)的老撾語腳本工具,⑤二者在標(biāo)調(diào)上略有不同。該在線詞典在每項(xiàng)詞條后標(biāo)注了出自哪部詞典并會顯示該詞的詞源,如“”顯示來自巴利語。此外,還附上了詞典使用視頻。⑥
1.3 瑪哈西拉·維拉馮版《老撾語詞典》⑦
瑪哈西拉·維拉馮所編纂的《老撾語詞典》(1960),共收錄11500條詞匯,24000條釋義。此版線詞典的檢索界面及方法基本同SEAlang老撾語在線詞典,其最大特點(diǎn)為在此頁面可瀏覽DjVu格式的掃描版原文書,可輸入特定頁碼進(jìn)行檢索,及在字串查詢區(qū)中檢索目標(biāo)詞在語料庫中的用法。如圖4所示。
1.4 優(yōu)點(diǎn)與不足
SEAlang老撾語詞典相較其他在線老撾語-英語詞典收錄的詞條數(shù)量多,義項(xiàng)及詞性較豐富,查詢方便快捷,不必查閱厚重的紙版詞典,可提高查詞速度、閱讀效率及閱讀量,激發(fā)學(xué)生閱讀興趣。此在線電子詞典也可用移動設(shè)備瀏覽,便攜實(shí)用性強(qiáng)。
但SEAlang老撾語詞典也存在一些不足,如:P&S 詞典的詞條個別詞標(biāo)注為擬聲詞,實(shí)際上是重疊詞,一些詞條標(biāo)注不恰當(dāng)甚至有誤。再如很多詞條僅有基本釋義無例句?,敼骼ぞS拉馮版《老撾語詞典》缺點(diǎn)為詞條少,義項(xiàng)及詞性標(biāo)注不夠豐富,其電子版部分詞條的顯示不夠清晰。
2 老撾語語料庫檢索功能⑧
2.1 語料庫檢索方式
SEAlang項(xiàng)目中的老撾語單語語料庫中的語料為生語料,主要由在互聯(lián)網(wǎng)上發(fā)布的老撾語文本構(gòu)成,作研究及學(xué)習(xí)之用。上下文搜索將會顯示搜索目標(biāo)置于上下文語境中的詞語搭配情況。此語料庫包括4206351條詞項(xiàng)同現(xiàn)及17083194 條例句。本文將結(jié)合字串查詢區(qū)(C)、查詢結(jié)果排列方式區(qū)(D)等方面介紹SEAlang老撾語語料庫主要的檢索功能(圖5)。
Corpus Search標(biāo)簽下的搜索框內(nèi)輸入檢索詞,點(diǎn)擊Go即可顯示結(jié)果。如圖6所示,以搜索“”為例,顯示與“”搭配的詞組及短語,有49項(xiàng)左搭配詞、42項(xiàng)右搭配詞及267條例句。以及在上下文中置于其左右各5個詞語與其搭配的情況及所占百分比,也可選為其與10、20個詞語的搭配情況。點(diǎn)擊圖標(biāo)可顯示在線老撾語鍵盤,并且具備輸入預(yù)測功能。Habeas lexis鍵可迅速查詢檢索詞在詞典中的釋義。Collocates為搭配統(tǒng)計(jì)功能,能將檢索詞的搭配按照統(tǒng)計(jì)數(shù)據(jù)從高到低排列,從而給研究者或?qū)W習(xí)者一個直觀的印象。
2.2 優(yōu)點(diǎn)與不足
老撾語單語語料庫檢索軟件主要用于單語語言研究、單語辭書編纂和自然語言開發(fā)等方面,也廣泛應(yīng)用于語言課堂中。使用者可以從語料庫中檢索并提取含有某個詞( 可以是詞的某一部分,也可以是詞的組合) 的語言范例。此外,單語語料庫分析工具可以列出字頻、詞頻表以及對應(yīng)和搭配表。通過這些功能,使用者可以了解所檢索的詞在各種語境下使用的具體記錄,有助于掌握該詞在具體語境中的使用情況。幫助教師或?qū)W生根據(jù)詞頻率得知哪些詞在具體的語境中更加重要、更加專業(yè),有利于在翻譯過程中進(jìn)行取舍。⑨
SEAlang老撾語單語語料庫存在的主要問題有三點(diǎn)即:語料來源單一、語料不夠豐富、為未經(jīng)處理的生語料庫。此外,其語料多數(shù)來自老撾語網(wǎng)絡(luò)新聞及文章,語料庫文本類型不夠豐富。
3 東南亞語言學(xué)典藏⑩
東南亞語言學(xué)典藏簡稱SALA(Southeast Asian Linguistics Archives)主要收集掃描文獻(xiàn)、編制索引和傳播東南亞語言學(xué)術(shù)性出版物,采用創(chuàng)新方法匯集該領(lǐng)域分散的文獻(xiàn),旨在建立一個龐大的東南亞語言學(xué)典藏目錄程序,包括以下幾項(xiàng)內(nèi)容:(1)可在線搜索的文獻(xiàn)庫:包括東南亞語言學(xué)的重要期刊、會議論文集、系列叢書、合集及未發(fā)表的文獻(xiàn)資料(田野筆記、論文)等,并提供上述文章及出版物電子版。(2)文獻(xiàn)引用、分析引文索引、文獻(xiàn)評價的工具,計(jì)算其影響因子、G指數(shù)(G-index)等。并為讀者提供了多種參考文獻(xiàn)引用格式,如:Harvard、APA、Chicago、MLA、Citation within the text、Zotero、BibTeX等格式。(3)應(yīng)用程序界面:允許SALA與其他在線工具之間的互操作(例如:Multi-Tree, LL-MAP, and our own SEAlang Library及孟高棉語言項(xiàng)目等),以及與其他數(shù)字檔案館的數(shù)據(jù)共享和引文跟蹤。此外,SALA還收錄了東南亞語言學(xué)領(lǐng)域著名學(xué)者們未公開發(fā)表的文章,及各大學(xué)的學(xué)位論文。
3.1 文獻(xiàn)搜索方式
SALA支持兩種搜索方法:特定搜索(如標(biāo)題、作者)及全文搜索??砂雌诳?、會議論文集、系列專著、作者、關(guān)鍵詞標(biāo)簽、語言等標(biāo)簽搜索文獻(xiàn),縮小搜索范圍,更為精確的找到所需文獻(xiàn)。如圖7,例如在搜索框輸入 “Lao”,點(diǎn)擊Search選項(xiàng)后的“&Tags”標(biāo)簽,搜索結(jié)果會顯示共有274篇題目及關(guān)鍵詞包含“Lao”的文獻(xiàn),文獻(xiàn)引用情況及排序結(jié)果、文獻(xiàn)發(fā)表的年代及數(shù)量,這些文獻(xiàn)發(fā)表的時間跨度為1904-2006年。見圖8。
3.2 優(yōu)點(diǎn)與不足
SALA啟用自動語義查詢擴(kuò)展,使用戶以簡易快捷的方式搜索及引用目標(biāo)文獻(xiàn)。SALA可以幫助學(xué)者們迅速找到自己需要的早期相關(guān)文獻(xiàn),包括一些難尋的未出版文獻(xiàn)。
由于全部文獻(xiàn)都采用了光學(xué)字符識別技術(shù)技術(shù)(OCR),對于非英語及IPA文本而言,全文搜索功能不太理想。此外,一些相關(guān)領(lǐng)域的文獻(xiàn)未被編目、出版,無法像JSTOR一樣將此類文獻(xiàn)聚合。
4 結(jié)語
SEAlang項(xiàng)目每個語種的語料及文獻(xiàn)數(shù)量不同,其中泰語及高棉語族的語料及文獻(xiàn)數(shù)量最多,并且還專門建立了泰語語音語料庫、孟高棉語言項(xiàng)目、高棉銘文語料庫,望其他東南亞語言文學(xué)研究學(xué)者也能充分利用此項(xiàng)目程序,更好地服務(wù)于科研及教學(xué)。
本文僅從使用者角度介評SEAlang項(xiàng)目,難免掛一漏萬,誤謬之處敬請專家學(xué)者批評指正。
注釋
① http://SEAlang.net/
② http://SEAlang.net/lao/dictionary.htm
③ 50年代至70年代初期,在老撾愛國戰(zhàn)線解放區(qū),為了群眾掃盲和使用方便,又對老撾文字進(jìn)行了一此改革,刪繁就簡,重新規(guī)范,使文字拼寫與語言更趨一致。(董友忱,萬國博覽——亞洲卷,新華出版社,1998年09月第1版,第498頁)
④ 由于此詞典為老撾語-英語詞典,故在Text框中輸入詞典釋義文本中所包含的英文字串,亦可顯示對應(yīng)的老撾語詞條。
⑤ 參見 http://www.laoscript.net
⑥ http://SEAlang.net/help/
⑦ http://sealang.net/dictionary/sila/
⑧ http://SEAlang.net/lao/corpus.htm
⑨ 劉穩(wěn)良.電子語料庫與語文辭書的編纂修訂[J].上海翻譯,2013(4).
⑩ http://sealang.net/sala/index.htm
參考文獻(xiàn)
[1] The SEAlang Projects: Southeast Asian Language & Linguistics Resources,Center for Research in Computational Linguistics , Doug Cooper.
[2] 董友忱.萬國博覽-亞洲卷[M].北京:新華出版社,1998.
[3] 汪興富,Mark Davies,劉國輝.美國當(dāng)代英語語料庫(COCA)——英語教學(xué)與研究的良好平臺[J].外語電化教學(xué),2008(5).