扎西加,高定國(guó)
(1. 西藏大學(xué) 工學(xué)院計(jì)算機(jī)科學(xué)系,西藏 拉薩 850000;2. 西藏大學(xué) 藏文信息技術(shù)研究中心,西藏 拉薩 850000)
據(jù)目前相關(guān)報(bào)道: 西北民族大學(xué)建立了1.3億字節(jié)的大型藏文語(yǔ)料庫(kù),用于藏文詞匯頻度和通用度的統(tǒng)計(jì);中國(guó)社會(huì)科學(xué)院民族學(xué)與人類學(xué)研究所建立了 500 萬(wàn)藏語(yǔ)字符的藏語(yǔ)語(yǔ)料庫(kù),進(jìn)行詞語(yǔ)切分和標(biāo)注的研究;青海師范大學(xué)建立了100萬(wàn)字的藏語(yǔ)語(yǔ)料庫(kù);西藏大學(xué)也建立了規(guī)模較大的藏語(yǔ)文本語(yǔ)料庫(kù)和語(yǔ)音語(yǔ)料庫(kù),語(yǔ)料庫(kù)的收集范圍比較廣泛,并且正在不斷地?cái)U(kuò)充,豐富了藏語(yǔ)語(yǔ)料庫(kù)的內(nèi)容和應(yīng)用范圍。
“語(yǔ)料庫(kù)不是任意文本的隨意堆積,為了發(fā)揮語(yǔ)料庫(kù)的作用,通常都需要對(duì)語(yǔ)料庫(kù)進(jìn)行一定的加工,進(jìn)行何種加工和加工深度如何通常和應(yīng)用目標(biāo)相關(guān)”[1]。經(jīng)過(guò)不同階段的語(yǔ)料庫(kù)加工處理,語(yǔ)料庫(kù)所攜帶的信息也不斷地增加和完善,最終將成為一個(gè)名副其實(shí)的語(yǔ)言知識(shí)庫(kù)。這樣的知識(shí)庫(kù)可以為藏語(yǔ)統(tǒng)計(jì)分析、機(jī)器理解和機(jī)器翻譯提供豐富的資源。
藏文編碼的不統(tǒng)一問(wèn)題導(dǎo)致語(yǔ)料分散,資源無(wú)法共享。目前有北大方正、華光、同元、班智達(dá)、桑布扎等近10種編碼不同的藏文字處理軟件,各種語(yǔ)料資源編碼不一,互不兼容。因此,便于語(yǔ)料庫(kù)的管理、處理、共享和交換,我們將不同編碼的語(yǔ)料資源全部統(tǒng)一為藏文ISO/IEC10646的小字符集編碼。TEI(Text Encoding Initiative)語(yǔ)言作為編碼的元語(yǔ)言,它是目前在信息處理界普遍使用的置標(biāo)語(yǔ)言,TEI所訂規(guī)范的應(yīng)用范圍廣,標(biāo)記的層次高,通用度強(qiáng),軟件支持好,因此對(duì)藏語(yǔ)語(yǔ)料庫(kù)采用TEI語(yǔ)言來(lái)標(biāo)記。
“TEI適用于對(duì)電子形式的全文的編碼和描述。TEI元數(shù)據(jù)標(biāo)準(zhǔn)同時(shí)也規(guī)定了可供數(shù)據(jù)交換的標(biāo)準(zhǔn)編碼格式,使用SGML作為編碼語(yǔ)言”[2]。TEI 格式具有很大限度的靈活性、 綜合性、可擴(kuò)展性,能支持對(duì)各種類型或特征的文檔進(jìn)行編碼。TEI元數(shù)據(jù)標(biāo)記可以對(duì)語(yǔ)料庫(kù)的文本屬性信息與文本結(jié)構(gòu)信息進(jìn)行規(guī)范的標(biāo)記。
TEI文檔,也是一個(gè)SGML文檔,一般有四個(gè)部分: teiHeader(題名), front(文本前的信息), body(正文), back(文本后的信息)。其含義分別是:
TeiHeader: 對(duì)電子文本對(duì)象的描述。front: 對(duì)正文前的信息描述,包含位于文件最前端的項(xiàng)目 (標(biāo)頭、題名頁(yè)、前言、獻(xiàn)詞等)。body: 對(duì)正文信息的描述,單篇文章的整體部分,不包含正文前及正文后信息。back: 對(duì)正文后的信息描述,包含附錄等。
TEI標(biāo)頭的第一層可以包含
TEI元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)定了描述文本的書(shū)目信息所需要的標(biāo)記,主要在fileDesc部分,有6個(gè)復(fù)合元素;在此6種元素的基礎(chǔ)上,為了便于對(duì)語(yǔ)料搜索和統(tǒng)計(jì),可自定義語(yǔ)料的標(biāo)題、作者、來(lái)源、領(lǐng)域、體裁、語(yǔ)言層次、文類、語(yǔ)式、年代、譯者、編者、本次、版本、出版、日期、語(yǔ)言、國(guó)家、性別、年代、創(chuàng)作時(shí)間、記錄者等18項(xiàng)屬性信息,具體如下:
1)標(biāo)題屬性信息
2)作者屬性信息
3)來(lái)源屬性信息
4)領(lǐng)域?qū)傩孕畔?/p>
5)載體屬性信息
6)語(yǔ)言種類信息
7)語(yǔ)式屬性信息
8)年代屬性信息
9)譯者屬性信息
10)編者屬性信息
11)版本屬性信息
12)地方屬性信息
13)出版屬性信息
14)語(yǔ)言屬性信息
15)國(guó)家屬性信息
16)作者性別屬性信息
17)時(shí)代屬性信息
18)記錄者屬性信息
以上18項(xiàng)屬性信息比較全面地反映了一個(gè)文本的總體信息,在實(shí)際標(biāo)注時(shí),按照文本收集的具體情況和文本使用的具體情況,可以進(jìn)行一定的附加屬性的標(biāo)記,也可以只標(biāo)記其中部分屬性。
“任何文件或?qū)V加衅渥陨淼慕Y(jié)構(gòu)。如: 書(shū)信由發(fā)信人、收信人、信件本體等部分組成,公文由發(fā)文單位、收文單位、題目、文號(hào)、公文本體等部分組成[3]”,一般學(xué)術(shù)著作是由文本前的信息(出版說(shuō)明等)、序言、目錄、正文、后記、文本后的信息(如: 參考文獻(xiàn)等)等組成。比如: 學(xué)術(shù)專著的結(jié)構(gòu)可以用下面的樹(shù)形圖來(lái)表示。
圖1 學(xué)術(shù)專著樹(shù)形圖
樹(shù)形圖上的每一個(gè)非終端節(jié)點(diǎn)叫做“元素”,一個(gè)元素的子節(jié)點(diǎn),叫做這個(gè)元素的“內(nèi)容”。例如,在學(xué)術(shù)著作的樹(shù)形圖結(jié)構(gòu)中,“章”是“著作本體”的內(nèi)容,“節(jié)”是“章”的內(nèi)容,“段”是“節(jié)”的內(nèi)容,“句”是“段”的內(nèi)容,“詞”是“句”的內(nèi)容。樹(shù)形圖上的每一個(gè)終端節(jié)點(diǎn)沒(méi)有內(nèi)容,這些沒(méi)有內(nèi)容的終極節(jié)點(diǎn),叫做“數(shù)據(jù)”。此樹(shù)形圖可以用來(lái)仿造書(shū)籍的傳統(tǒng)結(jié)構(gòu)。書(shū)籍的傳統(tǒng)結(jié)構(gòu)可依照層次分解為許多單位。普遍來(lái)說(shuō),TEI文件都符合這個(gè)簡(jiǎn)單的層次模式。正文中“章”與“節(jié)”的標(biāo)記可以簡(jiǎn)單用章節(jié)號(hào)和相應(yīng)的標(biāo)題來(lái)進(jìn)行標(biāo)記,其“段落”、“句”和“詞”的標(biāo)記可以采用如下的標(biāo)記方式。
…
,該標(biāo)記必須有一個(gè)屬性,屬性的名稱是ID,ID的值即為該段落的序號(hào)。在標(biāo)記規(guī)范中規(guī)定: 對(duì)于文中出現(xiàn)的標(biāo)題、子標(biāo)題等均作為特殊的段落加以標(biāo)記。加入了段落標(biāo)記的文本體部(含有n個(gè)段落)形狀一般如:......
......
......
......
內(nèi)部。例如在某個(gè)藏語(yǔ)文本第20個(gè)段落中出現(xiàn)了4個(gè)句子,標(biāo)記情況如下:
如果建立雙語(yǔ)對(duì)齊語(yǔ)料庫(kù),還可以增加對(duì)齊標(biāo)記。
詞匯標(biāo)記用來(lái)標(biāo)記文本中詞匯的開(kāi)始邊界和結(jié)束邊界。無(wú)論是漢語(yǔ)文本還是藏語(yǔ)文本,一個(gè)句子都是由若干個(gè)詞組成的。在語(yǔ)料庫(kù)中詞匯標(biāo)記用TEI標(biāo)記,標(biāo)記中還需要標(biāo)記分詞和詞性規(guī)范,其中有一個(gè)pos的屬性,用來(lái)記錄詞性屬性。例如:
......
至此,語(yǔ)料庫(kù)就詳細(xì)標(biāo)記到了詞的層面。有了該層面的標(biāo)記,就可以按照需求開(kāi)展相應(yīng)的很多工作了。
以上探討了語(yǔ)料庫(kù)整體框架的標(biāo)記。下面對(duì)《更敦群培文集》進(jìn)行一個(gè)整體框架的標(biāo)記,供大家參考。
< /titleStmt>
以上范例中描述了電子文本的標(biāo)題、作者、來(lái)源、語(yǔ)式、載體、語(yǔ)言、出版日期、修訂、編碼等屬性,對(duì)藏語(yǔ)語(yǔ)料庫(kù)框架標(biāo)記提供一個(gè)參考。 本文由于篇幅所限,不再贅述藏語(yǔ)料庫(kù)結(jié)構(gòu)標(biāo)記的實(shí)例。
本文結(jié)合我們建設(shè)語(yǔ)料庫(kù)和使用語(yǔ)料庫(kù)的實(shí)際情況,提出了藏語(yǔ)語(yǔ)料庫(kù)框架標(biāo)記、結(jié)構(gòu)標(biāo)記規(guī)范及標(biāo)記方法,并嘗試用一定的實(shí)例表述我們的標(biāo)記方法。藏文語(yǔ)料庫(kù)的建設(shè)比較滯后,并且規(guī)模也不大。希望我們提出的藏語(yǔ)語(yǔ)料庫(kù)的標(biāo)記方法對(duì)藏語(yǔ)語(yǔ)料庫(kù)的建設(shè)起一個(gè)拋磚引玉的作用。
[1] 常寶寶,柏曉靜. 北京大學(xué)漢英雙語(yǔ)語(yǔ)料庫(kù)標(biāo)記規(guī)范
[J].漢語(yǔ)語(yǔ)言與計(jì)算學(xué)報(bào),2003,13(2): 197-214.
[2] 中文元數(shù)據(jù)標(biāo)準(zhǔn)研究項(xiàng)目組. 國(guó)外元數(shù)據(jù)標(biāo)準(zhǔn)比較研究報(bào)告—中文文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)系列報(bào)告之一[R]. http://www.idl.pku.edu.cn/pdf/metadata1.pdf.2000.
[3] 馮志偉.標(biāo)準(zhǔn)通用置標(biāo)語(yǔ)言SGML及其在自然語(yǔ)言處理中的應(yīng)用[J].當(dāng)代語(yǔ)言學(xué)(試刊). 1998,(4):1-11.
[4] 魯·伯納,麥克·蘇寶麥昆,馬德偉著,謝筱琳,黃韋寧譯.TEI使用指南—運(yùn)用TEI處理中文文獻(xiàn)[OL].http://ablogtags.info/2011/tei-chinloc-2ndprinted-gjba/.
[5] David Mertz博士.TEI—文本編碼規(guī)范[OL]. [2003 年 10 月 01 日].http://www.ibm.com/ developerworks/cn/xml/x-matters/part30/.
[6] 扎西加,頓珠次仁.自然語(yǔ)言處理用藏語(yǔ)格助詞的語(yǔ)法信息研究[J].中文信息學(xué)報(bào),2010,24(5):41-45.
[7] Roma:制作TEI的文件模型檔[OL].http://www.tei-c.org/Roma/.
[8] 圣才學(xué)習(xí)網(wǎng).圖書(shū)館資源描述標(biāo)準(zhǔn)[OL].[2010-10-19 11:49].http://www.100bjcb.com/HP/20101019/OTD 246998.shtml.
[9] 吳守用,古麗拉·阿東別克.哈薩克文語(yǔ)料庫(kù)XML格式標(biāo)注規(guī)范初探[C]//中國(guó)少數(shù)民族語(yǔ)言文字信息處理研究與發(fā)展.民族出版社, 2010.