亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        人機(jī)交互式的漢語(yǔ)辭書編纂系統(tǒng)

        2013-02-23 01:26:46傅愛平
        辭書研究 2013年6期
        關(guān)鍵詞:內(nèi)容語(yǔ)言系統(tǒng)

        傅愛平 吳 杰 張 弘 李 蕓

        一、概 述

        人機(jī)交互式的漢語(yǔ)辭書編纂系統(tǒng)(以下簡(jiǎn)稱“編纂系統(tǒng)”)是中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所研制的一個(gè)計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)用系統(tǒng),用于漢語(yǔ)語(yǔ)文辭書的編纂。這個(gè)系統(tǒng)涵蓋了漢語(yǔ)語(yǔ)文辭書編纂的完整流程,包括新編詞典立項(xiàng),詞條結(jié)構(gòu)設(shè)置,選詞立目,詞條編寫、修改和審定,詞條編審歷程的保留與追溯,輔助詞典成書等,同時(shí)也集成了各種語(yǔ)料庫(kù)、已有辭書和詞表,供詞典編者參考使用。

        多年來(lái),傳統(tǒng)的漢語(yǔ)辭書編纂工作一直是手工操作,費(fèi)時(shí)費(fèi)力,效率低,很不適應(yīng)當(dāng)前科學(xué)技術(shù)迅速發(fā)展、信息數(shù)量與日俱增的形勢(shì)。近些年,國(guó)內(nèi)先是語(yǔ)言信息處理領(lǐng)域的學(xué)者提出了辭書編纂自動(dòng)化的必要性,中國(guó)大百科全書出版社和商務(wù)印書館先后嘗試用計(jì)算機(jī)輔助編纂詞典,北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所和教育部語(yǔ)言文字應(yīng)用研究所也研制了各自的詞典編纂系統(tǒng)。中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所有著數(shù)十年漢語(yǔ)辭書編纂研究和實(shí)踐的歷史,積累了豐富的專業(yè)知識(shí)和經(jīng)驗(yàn)。我們研制這個(gè)辭書編纂系統(tǒng),是希望以這些知識(shí)和經(jīng)驗(yàn)為基礎(chǔ),應(yīng)用計(jì)算機(jī)軟件工程和網(wǎng)絡(luò)技術(shù),在大規(guī)模語(yǔ)言數(shù)據(jù)資源和互聯(lián)網(wǎng)上人機(jī)交互機(jī)制的支持下,把語(yǔ)言數(shù)據(jù)建模、語(yǔ)言信息處理與辭書編纂過程結(jié)合起來(lái),改變以往辭書編纂和修訂全部由手工操作的工作方式,提高辭書編纂的質(zhì)量、效率和科學(xué)性,同時(shí)為辭書研究和漢語(yǔ)詞匯研究提供數(shù)字化的語(yǔ)言資源。

        人機(jī)交互式漢語(yǔ)辭書編纂系統(tǒng)建立在TOMCAT網(wǎng)絡(luò)發(fā)布系統(tǒng)上,在WINDOWS SERVER下采用瀏覽器/服務(wù)器方式運(yùn)行。系統(tǒng)程序用JSP、JAVA、HTML等語(yǔ)言編制,主要用Berkeley DB XML(以下簡(jiǎn)稱BDB XML)數(shù)據(jù)庫(kù)系統(tǒng)在后臺(tái)管理各種語(yǔ)言數(shù)據(jù)。

        二、編纂系統(tǒng)的結(jié)構(gòu)設(shè)計(jì)

        編纂系統(tǒng)的總體設(shè)計(jì)思路是:以語(yǔ)言數(shù)據(jù)資源的開發(fā)和管理為基礎(chǔ),借鑒語(yǔ)言信息處理的相關(guān)研究成果,融入漢語(yǔ)語(yǔ)文辭書編纂的知識(shí)和經(jīng)驗(yàn),用人機(jī)交互方式管理編寫詞典的工作流程,提供編者需要的各種資料和信息。整個(gè)編纂系統(tǒng)由人機(jī)交互式工作流程控制平臺(tái)、在編詞典數(shù)據(jù)庫(kù)和語(yǔ)言數(shù)據(jù)資源庫(kù)三個(gè)子系統(tǒng)組成。圖1是編纂系統(tǒng)的組織結(jié)構(gòu)圖,其中:

        (1)人機(jī)交互式工作流程控制平臺(tái):按照詞典編纂的流程,根據(jù)詞典編者的不同權(quán)限,提供從詞條結(jié)構(gòu)定制、選詞立目、詞條編寫、修改和審定、編者信息交流,到詞條過錄、排序、生成檢字表、輸出詞典的各種處理功能和操作界面。在處理過程中編者可以隨時(shí)調(diào)用語(yǔ)言資源庫(kù)的內(nèi)容,進(jìn)行語(yǔ)料檢索或統(tǒng)計(jì),查詢各種參考詞典,也可以回溯在編詞典庫(kù)中保存的詞條修改和編審的歷史記錄。

        圖1 編纂系統(tǒng)的組織結(jié)構(gòu)

        (2)在編詞典數(shù)據(jù)庫(kù):在編詞典是編纂系統(tǒng)人機(jī)交互式工作流程的主要操作對(duì)象和產(chǎn)出目標(biāo)。在編詞典的每個(gè)詞條以義項(xiàng)為單位存儲(chǔ),每個(gè)義項(xiàng)的內(nèi)容由各種屬性或特征組成。在編詞典數(shù)據(jù)庫(kù)建立之初,要先由主編根據(jù)編纂系統(tǒng)提供的詞條結(jié)構(gòu)模型來(lái)確定詞條的內(nèi)容結(jié)構(gòu),再由編纂系統(tǒng)生成詞條編寫界面。編者就在這個(gè)界面上編寫詞條。編好的詞條可以再修改或提交審定,在編詞典數(shù)據(jù)庫(kù)會(huì)保留修改和審定的記錄(包括:修改/審定者、改動(dòng)內(nèi)容、修改/審定時(shí)間等),以供日后查詢,也能為每個(gè)編者保存?zhèn)€人編寫日志。在編詞典一旦編寫完成,編纂系統(tǒng)會(huì)自動(dòng)把它的副本轉(zhuǎn)為參考詞典。

        (3)語(yǔ)言數(shù)據(jù)資源庫(kù):由詞目總表、參考詞典數(shù)據(jù)庫(kù)、語(yǔ)料庫(kù)及其檢索統(tǒng)計(jì)模塊組成。詞目總表用開放的方式盡量多地收錄現(xiàn)代漢語(yǔ)的詞語(yǔ),記錄每個(gè)詞語(yǔ)的各種屬性/特征,主要為選詞立目提供素材,也可以在編寫詞條時(shí)供編者參考。參考詞典數(shù)據(jù)庫(kù)收集各種已有詞典的各個(gè)版本,供用戶在編寫詞條時(shí)隨時(shí)調(diào)閱參考,也可以用于詞典查考和詞匯研究。語(yǔ)料庫(kù)里集成了編纂詞典需要的各種語(yǔ)料。檢索統(tǒng)計(jì)模塊在編寫詞條時(shí)隨時(shí)調(diào)用,對(duì)集成在系統(tǒng)里的語(yǔ)料庫(kù)和數(shù)據(jù)庫(kù)進(jìn)行檢索和統(tǒng)計(jì)。

        在整個(gè)編纂系統(tǒng)的設(shè)計(jì)中,自然語(yǔ)言數(shù)據(jù)資源的形式化描述和結(jié)構(gòu)化處理是基礎(chǔ)性的工作,有兩個(gè)主要內(nèi)容:一是用數(shù)據(jù)建模的方法研究漢語(yǔ)語(yǔ)文辭書的內(nèi)容結(jié)構(gòu)和漢語(yǔ)語(yǔ)料庫(kù)的文本結(jié)構(gòu),建立辭書內(nèi)容結(jié)構(gòu)模型和語(yǔ)料庫(kù)文本描述模型;二是研制詞典內(nèi)容結(jié)構(gòu)化處理和語(yǔ)料文本描述的軟件工具,建立基于XML的詞典數(shù)據(jù)庫(kù)和語(yǔ)料庫(kù)。這些語(yǔ)言數(shù)據(jù)資源支撐著整個(gè)編纂系統(tǒng)的構(gòu)造和運(yùn)行。

        三、編纂系統(tǒng)的主要功能

        1.辭書編纂業(yè)務(wù)和系統(tǒng)管理

        編纂系統(tǒng)以人工編寫詞典的知識(shí)和經(jīng)驗(yàn)為基礎(chǔ),用歸納與分析結(jié)合的方法,對(duì)編寫漢語(yǔ)語(yǔ)文辭書的全過程進(jìn)行需求分析,提出要解決的問題,建立需求模型,描述整個(gè)系統(tǒng)的任務(wù)流程,確定系統(tǒng)的總體結(jié)構(gòu)和設(shè)計(jì)方案。在編纂系統(tǒng)中,面向用戶的全部應(yīng)用功能集成在人機(jī)交互式工作流程控制平臺(tái)上,位于系統(tǒng)的前臺(tái)。

        這些應(yīng)用功能可以分為三類:編寫業(yè)務(wù)流程功能、編寫業(yè)務(wù)輔助功能和系統(tǒng)管理功能。前兩項(xiàng)包括詞典編寫過程中的各項(xiàng)操作,有詞條內(nèi)容定制、編寫任務(wù)分派、個(gè)人任務(wù)、待編詞目、詞目確認(rèn)、詞條編寫、詞條初審、詞條終審、編寫進(jìn)程處理、詞條統(tǒng)計(jì)、詞條提取和詞條刪除,還有缺字處理、規(guī)范用詞的補(bǔ)充等。第三項(xiàng)系統(tǒng)管理功能包括辭書瀏覽、語(yǔ)料檢索、項(xiàng)目管理、詞表管理、人員管理、消息管理、數(shù)據(jù)管理等。詳情可參見編纂系統(tǒng)操作指南(編纂系統(tǒng)課題組2011)。

        進(jìn)入編纂系統(tǒng)的每個(gè)用戶都有自己的權(quán)限:主編、組長(zhǎng)、編者、訪客。權(quán)限不同,能夠使用的功能也不同:

        訪客:辭書瀏覽、語(yǔ)料檢索。

        編者:除訪客的全部權(quán)限以外,還有:待編詞目、詞條編寫、詞條初審、詞條統(tǒng)計(jì)和詞條提取。

        組長(zhǎng):除編者的全部權(quán)限以外,還有:人員管理、任務(wù)分配、進(jìn)程管理、詞條終審。

        主編:除組長(zhǎng)的全部權(quán)限以外,還有:詞條內(nèi)容定制、詞目確認(rèn)。

        此外還設(shè)有系統(tǒng)管理員。他除了有上述所有權(quán)限以外,還有系統(tǒng)后臺(tái)的全部管理權(quán)限,負(fù)責(zé)系統(tǒng)數(shù)據(jù)安全、數(shù)據(jù)備份、用戶管理、項(xiàng)目管理等工作。

        圖2是人機(jī)交互式工作流程控制平臺(tái)的主要功能。

        圖2 工作流程控制平臺(tái)的主要功能

        2.基于XML的詞典數(shù)據(jù)資源管理

        編纂系統(tǒng)里的詞典數(shù)據(jù)庫(kù)有兩種:在編詞典和參考詞典。前者是系統(tǒng)的主要操作對(duì)象和產(chǎn)出結(jié)果(可以同時(shí)編寫多部在編詞典),后者供詞典編者參考(目前系統(tǒng)收錄了六部參考詞典)。詞典數(shù)據(jù)資源管理系統(tǒng)在編纂系統(tǒng)的后臺(tái)運(yùn)行,負(fù)責(zé)所有詞典的內(nèi)容管理,主要是詞典內(nèi)容描述、詞條信息標(biāo)注、建立詞典數(shù)據(jù)庫(kù)、詞典數(shù)據(jù)庫(kù)管理和詞條內(nèi)容查詢。

        從語(yǔ)言信息處理和辭書數(shù)字化的角度來(lái)看,漢語(yǔ)語(yǔ)文辭書里蘊(yùn)含著大量系統(tǒng)的漢語(yǔ)文字、語(yǔ)音、詞匯、句法、語(yǔ)義、修辭、語(yǔ)用等信息。要把詞典作為一種語(yǔ)言數(shù)據(jù)資源用計(jì)算機(jī)來(lái)處理,首先需要把文本形式的詞典轉(zhuǎn)換成結(jié)構(gòu)化的詞典數(shù)據(jù)庫(kù)。這就需要對(duì)詞典的內(nèi)容進(jìn)行結(jié)構(gòu)化的描述和組織:描述詞條內(nèi)容的表現(xiàn)形式和其中蘊(yùn)含的語(yǔ)言知識(shí);并把這些信息組織成合理有效的數(shù)據(jù)結(jié)構(gòu)。

        在編纂系統(tǒng)中為了給漢語(yǔ)語(yǔ)文辭書建立數(shù)據(jù)結(jié)構(gòu),我們提出了用XML Schema表示的辭書內(nèi)容結(jié)構(gòu)模型XML Schema for Dictionary(以下簡(jiǎn)稱XSD)。在這個(gè)模型支持下對(duì)每一部詞典做結(jié)構(gòu)化處理,建立辭書XML數(shù)據(jù)庫(kù),用原生XML數(shù)據(jù)庫(kù)系統(tǒng)BDB XML管理和訪問[1],形成了基于XML的詞典數(shù)據(jù)資源管理系統(tǒng),它可以創(chuàng)建、管理和訪問編纂系統(tǒng)里的全部詞典數(shù)據(jù)庫(kù),主要功能是:

        (1)用XSD描述詞條內(nèi)容,建立詞典的數(shù)據(jù)結(jié)構(gòu);

        (2)根據(jù)XSD用自動(dòng)標(biāo)注程序?qū)υ~典文本做XML標(biāo)注,描述詞條中包含的各種屬性或特征,再通過人機(jī)交互方式校對(duì),得到詞典的XML文檔;

        (3)根據(jù)XSD用通用XML軟件工具對(duì)標(biāo)注好的詞典XML文檔進(jìn)行良構(gòu)性(wellformedness)和有效性(validation)檢驗(yàn),保證數(shù)據(jù)的有效性和一致性;

        (4)把通過檢驗(yàn)的詞典XML文檔以節(jié)點(diǎn)方式批量導(dǎo)入BDB XML數(shù)據(jù)庫(kù)系統(tǒng)的容器中,并根據(jù)訪問方式設(shè)定多線程(進(jìn)程)鎖策略,自動(dòng)生成詞典數(shù)據(jù)庫(kù)。不同的詞典在數(shù)據(jù)庫(kù)系統(tǒng)的容器里用命名空間加以區(qū)別;

        (5)詞典數(shù)據(jù)庫(kù)建立以后,根據(jù)編纂系統(tǒng)前臺(tái)可能提出的各種檢索需求,針對(duì)XML文檔元素設(shè)置相應(yīng)的索引類型,編制適當(dāng)?shù)乃饕呗?,以達(dá)到快速讀寫的要求。此外,通過事務(wù)子系統(tǒng)、鎖子系統(tǒng)和日志子系統(tǒng)來(lái)處理系統(tǒng)的并發(fā)策略;

        (6)根據(jù)編纂系統(tǒng)前臺(tái)客戶端生成的XQuery查詢語(yǔ)境,對(duì)XQuery導(dǎo)航函數(shù)解釋執(zhí)行,轉(zhuǎn)換和返回XQuery的查詢結(jié)果,實(shí)現(xiàn)多層次元素及屬性查詢、多元素復(fù)合查詢、多容器查詢等檢索要求。

        除了在編詞典數(shù)據(jù)庫(kù)以外,目前詞典數(shù)據(jù)資源管理系統(tǒng)里可用的參考詞典數(shù)據(jù)庫(kù)有《現(xiàn)代漢語(yǔ)詞典》第4版、第5版等六部,共307670個(gè)詞條。

        3.語(yǔ)料資源的建設(shè)、管理和使用

        編纂系統(tǒng)集成了多個(gè)語(yǔ)料庫(kù)供編寫詞條時(shí)查詢,語(yǔ)料資源管理系統(tǒng)在后臺(tái)運(yùn)行,目前有內(nèi)置語(yǔ)料庫(kù)六個(gè),外部語(yǔ)料庫(kù)一個(gè)。用于詞典編纂的語(yǔ)料庫(kù)可以有多種來(lái)源、多種類型、多種篇章形式、多種標(biāo)注方法。為了能夠在編纂系統(tǒng)里用統(tǒng)一的方法使用不同的語(yǔ)料資源,我們提出了漢語(yǔ)書面語(yǔ)語(yǔ)料的文檔描述模型XML Schema for Corpora(以下簡(jiǎn)稱XSC),用以描述各種漢語(yǔ)語(yǔ)料的文本組織形式、表現(xiàn)語(yǔ)料庫(kù)中標(biāo)記的語(yǔ)言知識(shí)信息、記錄語(yǔ)料庫(kù)的說明性信息。

        XSC規(guī)定了語(yǔ)料XML文檔的語(yǔ)法格式,在它的約束下,經(jīng)過標(biāo)注的各種語(yǔ)料庫(kù)可以自動(dòng)生成XML結(jié)構(gòu)的文檔,然后在通用的XML開發(fā)應(yīng)用環(huán)境下做各種加工處理。例如用XML解析器對(duì)語(yǔ)料文檔進(jìn)行良構(gòu)性和有效性檢驗(yàn),保證數(shù)據(jù)結(jié)構(gòu)和內(nèi)容都符合XSC的規(guī)定。經(jīng)過驗(yàn)證的XML語(yǔ)料文檔,已經(jīng)完成了從非結(jié)構(gòu)化文本到XML數(shù)據(jù)結(jié)構(gòu)的轉(zhuǎn)換,可以直接導(dǎo)入XML數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行管理、提供訪問,或者用通用編程接口來(lái)實(shí)現(xiàn)各種應(yīng)用。這樣就能夠在同一個(gè)數(shù)據(jù)庫(kù)平臺(tái)上,用同一種方法和技術(shù)管理和訪問多個(gè)不同類型的語(yǔ)料庫(kù)。

        之所以選擇通用可擴(kuò)充置標(biāo)語(yǔ)言XML來(lái)描述語(yǔ)料庫(kù),是因?yàn)樗四芗嫒荻喾N標(biāo)注需求以外,還是正式發(fā)布的國(guó)際標(biāo)準(zhǔn),在規(guī)范性和通用性方面有優(yōu)點(diǎn),便于有效地規(guī)范語(yǔ)料文檔的數(shù)據(jù)結(jié)構(gòu),有助于與國(guó)際語(yǔ)料庫(kù)編碼標(biāo)準(zhǔn)接軌,也有助于語(yǔ)料庫(kù)的數(shù)據(jù)交換和資源共享。

        語(yǔ)料資源管理系統(tǒng)使用原生XML數(shù)據(jù)庫(kù)系統(tǒng)BDB XML,以XSC為基礎(chǔ),建立了一個(gè)多種語(yǔ)料庫(kù)文本標(biāo)注、文檔管理和數(shù)據(jù)處理的集成環(huán)境。利用BDB XML的XML文檔分析器、XQuery查詢引擎和獨(dú)特的索引系統(tǒng),優(yōu)化語(yǔ)料內(nèi)容索引策略,建立基于成本的查詢方案,實(shí)現(xiàn)對(duì)XML文檔節(jié)點(diǎn)、元素、屬性以及元數(shù)據(jù)的靈活索引,在多層次元素及屬性查詢、多元素復(fù)合查詢、多容器查詢等檢索環(huán)境中,使復(fù)雜的XQuery語(yǔ)句快速命中目標(biāo),提供檢索結(jié)果。目前在編纂系統(tǒng)里內(nèi)置的六個(gè)語(yǔ)料庫(kù)全部采用這種基于XML的方法和技術(shù)。

        此外,編纂系統(tǒng)還有外部的動(dòng)態(tài)語(yǔ)料庫(kù)。這是一個(gè)原始語(yǔ)料庫(kù),用動(dòng)態(tài)跟蹤的方式采集了24種報(bào)紙語(yǔ)料,單份報(bào)紙的時(shí)間跨度為2—13年,共采集了142年次、約40億字,用基于Apache Solr的分布式語(yǔ)料全文檢索系統(tǒng)提供查詢。

        表1是編纂系統(tǒng)里可用的語(yǔ)料庫(kù):

        表1

        四、編纂系統(tǒng)研制中的關(guān)鍵技術(shù)

        1.基于XML的語(yǔ)言資源處理方法

        編纂系統(tǒng)用基于XML的語(yǔ)言數(shù)據(jù)資源處理方法設(shè)計(jì)數(shù)據(jù)結(jié)構(gòu),這包括以下幾方面的探索性工作:詞典的內(nèi)容描述和數(shù)據(jù)組織,語(yǔ)料庫(kù)的文本描述和數(shù)據(jù)組織,以及應(yīng)用原生XML數(shù)據(jù)庫(kù)系統(tǒng)處理語(yǔ)言數(shù)據(jù)資源,研究和開發(fā)實(shí)用的軟件技術(shù)和應(yīng)用系統(tǒng)。

        (1)基于XML的詞典內(nèi)容描述和數(shù)據(jù)組織

        文本形式的詞典可以認(rèn)為是一種用非結(jié)構(gòu)化形式表現(xiàn)的、具有半結(jié)構(gòu)化特征的語(yǔ)言數(shù)據(jù)。我們用辭書內(nèi)容結(jié)構(gòu)模型XSD為詞典做數(shù)據(jù)建模,用XML Schema定義詞條的內(nèi)容和詞典的組織結(jié)構(gòu),提取詞條中蘊(yùn)含的各種語(yǔ)言學(xué)信息,把文本形式的詞典轉(zhuǎn)換成詞典數(shù)據(jù)庫(kù)。在XSD里,詞典以詞條為基本單位,由眾多詞條組成,每個(gè)詞條含有形、音、義、用法等各種屬性。一部詞典的全部?jī)?nèi)容表現(xiàn)為樹形結(jié)構(gòu),樹的第一層節(jié)點(diǎn)是詞條,每個(gè)詞條的各層下位節(jié)點(diǎn)是這個(gè)詞條的各個(gè)屬性。全部詞條的屬性和屬性之間的關(guān)系構(gòu)成了一部詞典的內(nèi)容結(jié)構(gòu)。在XML Schema框架下,所有代表詞條屬性的節(jié)點(diǎn)都表現(xiàn)為元素或子元素,對(duì)這些元素進(jìn)行定義和約束,就可以得到各個(gè)屬性節(jié)點(diǎn)的確切定義。通過XSD對(duì)一部詞典進(jìn)行結(jié)構(gòu)化標(biāo)注,再把文本形式的詞典轉(zhuǎn)換成XML原生數(shù)據(jù)庫(kù),就能夠系統(tǒng)地組織并完整地描述詞典內(nèi)容的表現(xiàn)形式和其中蘊(yùn)含的語(yǔ)言知識(shí)。這種詞典數(shù)據(jù)庫(kù)也是一種詞語(yǔ)知識(shí)庫(kù),它不僅可以用于詞典的編纂、查考和典藏,也可以為語(yǔ)言研究、詞匯研究和語(yǔ)言工程提供數(shù)據(jù)資源。

        以往的辭書數(shù)字化工作大多是把詞典做成二維表,再用關(guān)系型數(shù)據(jù)庫(kù)來(lái)處理。我們選擇XML Schema代替關(guān)系型數(shù)據(jù)模式作為詞典數(shù)據(jù)建模的方法,是因?yàn)閄ML的數(shù)據(jù)結(jié)構(gòu)適合描述語(yǔ)文詞典的結(jié)構(gòu)形式,XML Schema的樹形數(shù)據(jù)模式正好完全體現(xiàn)了詞條結(jié)構(gòu)的層次關(guān)系和管轄關(guān)系。用XML Schema可以方便地描述不定長(zhǎng)內(nèi)容的詞條屬性(例如詞條的釋義部分);描述不定量重復(fù)出現(xiàn)的詞條屬性(例如詞條釋義中的例句);描述詞條中的嵌套關(guān)系(例如多層級(jí)義項(xiàng)的嵌套)。更重要的是,可以根據(jù)詞條描述的需要,動(dòng)態(tài)地為XML Schema補(bǔ)充子樹或元素、變更對(duì)已有元素的約束,只要不改變?cè)械臉湫渭軜?gòu),就不會(huì)影響它的兼容性。這些都是關(guān)系型數(shù)據(jù)模式不容易做到的。(傅愛平等2009:28)

        辭書內(nèi)容結(jié)構(gòu)模型XSD也有一種通用性:它定義的是漢語(yǔ)語(yǔ)文辭書中每一個(gè)詞條所有可能的屬性,以及每一個(gè)屬性所有可能的取值(屬性值)。這樣就可以涵蓋多部詞典的內(nèi)容和組織結(jié)構(gòu)。也就是說,同一個(gè)XSD可以描述多部語(yǔ)文詞典。在編纂系統(tǒng)里,每一個(gè)在編詞典數(shù)據(jù)庫(kù)和六部參考詞典數(shù)據(jù)庫(kù)都是用這個(gè)XSD定義的,它們都在BDB XML數(shù)據(jù)庫(kù)系統(tǒng)上用統(tǒng)一的方法建立和管理,用統(tǒng)一的技術(shù)提供查詢,獲得了理想的使用效果。

        除了通用性以外,XSD還有某種抽象性:它描述的詞典內(nèi)容模式是一種底層數(shù)據(jù)結(jié)構(gòu),與詞條及其屬性或特征在具體詞典中的表現(xiàn)形式?jīng)]有關(guān)系。比如對(duì)異形詞的處理,有的詞典用“同××”表示,有的詞典用“也作××”表示,還有的詞典兩者都用或者更隨意。無(wú)論在具體詞典中表現(xiàn)如何,在XSD中都定義成一個(gè)可選的屬性“異形”,其屬性值為“是”或“否”。這樣就把詞典數(shù)據(jù)的內(nèi)容和形式分離開了。詞典編者只需集中精力琢磨詞條內(nèi)容,無(wú)須考慮詞條體例的表現(xiàn)形式,有關(guān)體例樣式的工作都由編纂系統(tǒng)通過“詞條定制”的功能用人機(jī)交互的方式來(lái)完成。

        (2)基于XML的語(yǔ)料文本描述和數(shù)據(jù)組織

        用于詞典編纂的語(yǔ)料庫(kù)有多種類型,收錄了各種各樣的篇章樣本。這些語(yǔ)料樣本或者表現(xiàn)為原始文本的形式(可帶有原生標(biāo)記[4]),或者是帶有附加標(biāo)記的形式(帶有非原生標(biāo)記[5])。目前國(guó)內(nèi)語(yǔ)料庫(kù)研究和開發(fā)的情況是,不論帶標(biāo)語(yǔ)料庫(kù)還是原始語(yǔ)料庫(kù),只要研究或應(yīng)用目的不同,就會(huì)有不同的標(biāo)記集和標(biāo)注規(guī)范,也就有各自的語(yǔ)料庫(kù)管理和檢索系統(tǒng)。在分析了各種類型的語(yǔ)料庫(kù)及其加工現(xiàn)狀之后,我們用XML Schema構(gòu)建了一個(gè)語(yǔ)料文本描述模型XSC,定義語(yǔ)料標(biāo)注的描述規(guī)則,描述語(yǔ)料的各種原生標(biāo)記和非原生標(biāo)記。目的是客觀地表現(xiàn)語(yǔ)料文本的原貌,兼顧各種不同類型的標(biāo)注需要,盡可能容納不同的標(biāo)記集,描述各種原始的和帶標(biāo)的語(yǔ)料庫(kù)。與此同時(shí)以XSC為基礎(chǔ),建立了一個(gè)語(yǔ)料庫(kù)文本標(biāo)注、文檔管理和數(shù)據(jù)處理的語(yǔ)料資源管理系統(tǒng)。

        XSC面向多種類型的漢語(yǔ)書面語(yǔ)語(yǔ)料。傅愛平等(2011)認(rèn)為,語(yǔ)料庫(kù)中不管是原生態(tài)的標(biāo)注,還是非原生的標(biāo)注,通常都主要描述三類信息:一是篇章組織和文本結(jié)構(gòu)信息,即組成語(yǔ)料文本的篇章、段落、句子、詞語(yǔ)等語(yǔ)言結(jié)構(gòu)成分,語(yǔ)言成分在文本中是以文字符號(hào)等實(shí)體形式表現(xiàn)的;二是語(yǔ)言知識(shí)信息,是語(yǔ)料在詞匯、語(yǔ)音、語(yǔ)法、語(yǔ)義、語(yǔ)用等各個(gè)層面的屬性或特征,它們附著于各個(gè)語(yǔ)言成分之上;三是功能性或說明性信息,有兩種:第一種是主題、語(yǔ)體、作者、出版者、版本、承載媒體、出版時(shí)間等,一般附著于語(yǔ)料的單位樣本之上;第二種是校注、言者角色、言語(yǔ)伴隨行為、言語(yǔ)環(huán)境等關(guān)于文本正文的說明,一般情況下,它們附著于各個(gè)語(yǔ)言成分之上。語(yǔ)料文本描述模型XSC的主要任務(wù)就是描述這三類信息,即描述各種漢語(yǔ)語(yǔ)料的文本組織形式、表現(xiàn)語(yǔ)料中標(biāo)記的語(yǔ)言知識(shí)信息、記錄語(yǔ)料庫(kù)的說明性信息。XSC定義的是語(yǔ)料庫(kù)的描述規(guī)則,不管語(yǔ)料庫(kù)是原始的還是帶標(biāo)的,不管標(biāo)注的是哪些信息,XSC都應(yīng)該能用XML把這些語(yǔ)料文檔表現(xiàn)出來(lái)。

        一般來(lái)說,語(yǔ)料標(biāo)注的主要對(duì)象一是語(yǔ)言成分,二是語(yǔ)言知識(shí)信息。后者是語(yǔ)言成分的屬性、特征或語(yǔ)言成分之間的關(guān)系。在語(yǔ)料文本中,語(yǔ)言成分是文字或符號(hào)的實(shí)體形式,關(guān)系附著于成分之上。不管出于什么需要、用哪個(gè)語(yǔ)法體系去研究語(yǔ)言,語(yǔ)言成分及其關(guān)系都是基本的研究對(duì)象。語(yǔ)料標(biāo)注不論采用多少種標(biāo)記集,也無(wú)非是從不同的角度去描述各個(gè)語(yǔ)言成分及其關(guān)系。所以在XSC中,“成分”和“關(guān)系”是最基本的描述對(duì)象。

        在XSC中語(yǔ)料庫(kù)表現(xiàn)為樹形結(jié)構(gòu),含有元素和屬性兩類結(jié)點(diǎn),用元素來(lái)定義語(yǔ)言成分,用元素的屬性來(lái)定義關(guān)系。在語(yǔ)料文本中,語(yǔ)言成分有其客觀實(shí)體表現(xiàn),描述語(yǔ)言成分的主要原則是客觀,要盡可能反映它們的原貌。XSC能夠根據(jù)不同的需要,描述各種語(yǔ)言成分及其在語(yǔ)料中的各種出現(xiàn)方式。語(yǔ)言成分的屬性或特征,以及語(yǔ)言成分之間的關(guān)系是帶有主觀性的信息,描述它們的原則是兼容。XSC可以提供一種自選參數(shù)的兼容機(jī)制,描述每個(gè)語(yǔ)言成分的多種關(guān)系,盡可能表現(xiàn)各種語(yǔ)法體系和分析方法所需要的標(biāo)記信息。

        在編纂系統(tǒng)中,我們應(yīng)用XSC描述語(yǔ)篇的組織和語(yǔ)言成分的各種組合,能夠兼顧不同類型的語(yǔ)料文本和語(yǔ)言分析方法,生成XML結(jié)構(gòu)文檔并自動(dòng)導(dǎo)入XML數(shù)據(jù)庫(kù),使用通用的軟件工具管理和訪問語(yǔ)料庫(kù)。編纂系統(tǒng)中六個(gè)內(nèi)置的語(yǔ)料庫(kù)(約2.15億字)都是用這個(gè)XSC定義的。它們?cè)贐DB XML數(shù)據(jù)庫(kù)系統(tǒng)上用同一種方法建立和管理,在統(tǒng)一的語(yǔ)料資源管理平臺(tái)上提供查詢,獲得了預(yù)期的使用效果。

        2.詞典編纂流程的功能集成設(shè)計(jì)

        編纂系統(tǒng)的前臺(tái)是人機(jī)交互式工作流程控制平臺(tái),它除了為用戶提供參考詞典和語(yǔ)料庫(kù)以外,主要任務(wù)是詞典編寫全過程的業(yè)務(wù)流程控制。這個(gè)平臺(tái)的設(shè)計(jì)既體現(xiàn)了人工編寫詞典的知識(shí)和經(jīng)驗(yàn),也集成了一些應(yīng)用計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)提高詞典編纂效率和科學(xué)性的功能。下面是幾個(gè)例子:

        (1)可視化的詞條編寫界面

        編纂系統(tǒng)給編者提供了可視化的操作界面(見圖3):

        圖3 編纂系統(tǒng)的操作界面

        這個(gè)界面的主要功能是人機(jī)交互編寫詞條,同時(shí)也提供編纂系統(tǒng)的管理和語(yǔ)言數(shù)據(jù)資源的使用。

        詞條編寫是整個(gè)編纂業(yè)務(wù)的核心部分,主要有詞條內(nèi)容定制、任務(wù)分配、編者任務(wù)、待編詞目、詞目確認(rèn)、詞條編寫、詞條初審、詞條終審、進(jìn)程處理、詞條統(tǒng)計(jì)、詞條提取、刪除詞條、缺字處理等多項(xiàng)功能,逐一列在編寫界面左端。編寫界面的主要部分用來(lái)表現(xiàn)詞條的內(nèi)容和結(jié)構(gòu)。

        在詞條界面上,內(nèi)容按義項(xiàng)顯示,左側(cè)給出了整個(gè)詞條的結(jié)構(gòu)。語(yǔ)文詞典的一個(gè)詞條下面可以有若干個(gè)義項(xiàng),義項(xiàng)下面還可以有子義項(xiàng)。在辭書內(nèi)容結(jié)構(gòu)模型XSD里,我們用樹形結(jié)構(gòu)定義這種義項(xiàng)之間的嵌套關(guān)系,體現(xiàn)在詞條編寫界面上,是主義項(xiàng)、一級(jí)義項(xiàng)、二級(jí)義項(xiàng)等的層級(jí)結(jié)構(gòu)視圖。一個(gè)詞條可以只有一個(gè)主義項(xiàng),也可以有若干個(gè)一級(jí)義項(xiàng)或二級(jí)義項(xiàng),通過這個(gè)結(jié)構(gòu)視圖,一個(gè)詞條的內(nèi)容結(jié)構(gòu)可以一目了然。編者可以根據(jù)需要打開各個(gè)義項(xiàng)查看或填寫內(nèi)容,也可以增加或刪除各級(jí)義項(xiàng),還可以對(duì)義項(xiàng)重新排序。

        詞條編寫的操作以義項(xiàng)為單位,編寫界面的中心視圖是每個(gè)義項(xiàng)的內(nèi)容,用列表框給出每一個(gè)屬性,編者只需要按照視圖的提示在屬性框中填入內(nèi)容。有的屬性值編者可以自主填寫,比如詞義和例句。有的屬性值規(guī)定了取值范圍,比如詞性,只能在給定的參數(shù)里選擇,這樣有助于表達(dá)形式的規(guī)范和平衡。詞典編纂是多人參與的項(xiàng)目,各位編者在專業(yè)水平、編寫經(jīng)驗(yàn)和表達(dá)習(xí)慣上都會(huì)有所不同,比如詞條屬性值或標(biāo)記符號(hào)的使用就可能因人而異。編纂系統(tǒng)在詞條編寫界面提供了選項(xiàng)和賦值兩種內(nèi)容填寫方式。前一種只能在詞條屬性值的取值范圍內(nèi)選擇,后一種也會(huì)對(duì)編者自主填寫的內(nèi)容做一些檢查校核。目前采用選項(xiàng)操作的屬性有:詞目類別、詞性、詞性附類或小類、兒化、語(yǔ)體說明、領(lǐng)域說明、釋義引語(yǔ)、搭配類別、語(yǔ)種、參見、同義近義、對(duì)義反義等。各個(gè)選項(xiàng)的參數(shù)根據(jù)需求可以由主編隨時(shí)增加或修改。

        此外,編寫界面還提供了參考詞典、語(yǔ)料庫(kù)、詞條修改記錄等供編者調(diào)用。

        (2)詞條內(nèi)容的定制

        在編纂系統(tǒng)里新編一部詞典時(shí),先要定制新詞典的詞條內(nèi)容。詞條內(nèi)容定制的意思是:以辭書內(nèi)容結(jié)構(gòu)模型XSD為基礎(chǔ),根據(jù)新編詞典的需要,確定詞條里要包含哪些屬性、屬性之間有什么關(guān)系、對(duì)屬性值有哪些約束,并規(guī)定詞典輸出的體例或版面格式。詞條內(nèi)容定制實(shí)際上是對(duì)詞典內(nèi)容的設(shè)計(jì)。

        漢語(yǔ)語(yǔ)文辭書的一個(gè)詞條下包含形、音、義、用法等各種屬性,比如字形、拼音、詞性、釋義、例句等。根據(jù)各自不同的編纂理念和應(yīng)用需求,各個(gè)詞典對(duì)屬性選擇不同、多少不等。主編給新詞典做了詞條內(nèi)容定制以后,編纂系統(tǒng)會(huì)根據(jù)定制的結(jié)果,按照XSD的樹形結(jié)構(gòu)規(guī)則,自動(dòng)生成一部新的在編詞典的內(nèi)容結(jié)構(gòu)(是XSD的一棵子樹),再根據(jù)這個(gè)內(nèi)容結(jié)構(gòu)在后臺(tái)自動(dòng)生成新在編詞典數(shù)據(jù)庫(kù)的數(shù)據(jù)結(jié)構(gòu),在前臺(tái)自動(dòng)生成供編者使用的可視化操作界面以及數(shù)據(jù)顯示格式和數(shù)據(jù)保存格式,為新詞典的編寫做好準(zhǔn)備。利用詞條內(nèi)容定制功能,編纂系統(tǒng)可以同時(shí)創(chuàng)建幾部新的在編詞典。

        在編纂系統(tǒng)中,利用詞條內(nèi)容定制還可以控制在文本形式下詞條輸出的體例或版面格式??刂圃~條輸出體例的意思是,指定詞條中部分屬性名和屬性值的標(biāo)志符或縮略符,用于文本形式的詞條數(shù)據(jù)輸出。例如在有的詞典文本里,詞條的屬性“詞性”用外加□表示;屬性“例詞”“例句”“比喻例”用“◇”“|”等符號(hào)表示。通過詞條結(jié)構(gòu)定制可以給屬性值指定表達(dá)符號(hào)和位置信息(分為屬性值前附加、屬性值間附加或?qū)傩灾岛蟾郊拥葞追N位置)。控制文本形式下詞條輸出的版面格式,是為了把詞條從編纂系統(tǒng)的詞典數(shù)據(jù)庫(kù)里取出來(lái),按照印刷文本的形式呈現(xiàn)給詞典編者。版面格式的控制主要包含詞條中各個(gè)屬性排列的順序、各屬性值的顯示格式(例如空格、折行、縮進(jìn)等)。處理得當(dāng)?shù)陌婷娓袷侥軌蛟谠~典的編寫過程和排版過程之間起到溝通的作用,編者可以比較直觀地看到詞條的基本排版樣例。

        詞條內(nèi)容定制也可以在詞典修訂時(shí)用來(lái)變更原有的內(nèi)容格局,還可以在已有詞典的基礎(chǔ)上減去一些屬性項(xiàng),不需改動(dòng)內(nèi)容,直接自動(dòng)生成原詞典的屬性縮減本。

        在編纂系統(tǒng)的XSD里目前一共有39個(gè)屬性,供定制詞條內(nèi)容結(jié)構(gòu)時(shí)選擇。不夠的話,還可以擴(kuò)充XSD,添加新的屬性或?qū)傩灾怠?duì)于不同詞典的內(nèi)容需求,XSD中包含的屬性就像是個(gè)最小公倍數(shù),能夠兼容各種屬性。這得益于辭書內(nèi)容結(jié)構(gòu)模型XSD的通用性和抽象性,它們是詞條內(nèi)容定制功能得以實(shí)現(xiàn)的基礎(chǔ),也為XSD提供了更多的應(yīng)用空間。

        (3)詞典數(shù)據(jù)的內(nèi)容與形式相互分離

        前面說過,辭書內(nèi)容結(jié)構(gòu)模型XSD定義的是抽象的詞典數(shù)據(jù),它描述詞條所有可能的屬性,也定義每個(gè)屬性所有可能的屬性值,跟詞條及其屬性在具體詞典中的表現(xiàn)形式?jīng)]有關(guān)系,這樣就把詞典數(shù)據(jù)的內(nèi)容和形式分離開了。

        這種分離的作用是,利用詞條內(nèi)容定制功能可以控制文本形式下詞條輸出的體例或版面格式,還可以規(guī)范詞條輸出格式、標(biāo)點(diǎn)符號(hào)、特殊標(biāo)記等。目前編纂系統(tǒng)已經(jīng)對(duì)非正體、詞類、語(yǔ)體說明、語(yǔ)用說明、注釋、用例、外來(lái)語(yǔ)等詞條屬性的表達(dá)方式做了一致性處理,以避免輸出時(shí)的隨意性。

        詞典數(shù)據(jù)的內(nèi)容與形式分離,還使我們能夠在不同的設(shè)備上用不同的格式表現(xiàn)同一部詞典的內(nèi)容,輸出便于人們查閱的各種文本形式。排版印刷格式是其中之一,還可以是網(wǎng)頁(yè)格式、在移動(dòng)設(shè)備上表現(xiàn)的格式(比如手機(jī)上顯示),等等。另外還有詞典的排序,可以根據(jù)拼音字母做正序排列,也可以做逆序排列。想用什么符號(hào)表示每一個(gè)屬性,也可以自行設(shè)定。

        (4)詞條編寫記錄的保存和回溯

        一個(gè)詞條在編寫、審校過程中,編寫人員和審校人員可能做多次修改。保留詞條編寫和修改的記錄并根據(jù)需要回溯詞條的編寫過程,對(duì)于語(yǔ)文詞典的編纂來(lái)說十分重要。以前人工編寫的時(shí)候,編者大都在卡片上用不同顏色的筆來(lái)做歷次記錄。通過這些記錄可以追溯詞條編寫的過程,反映語(yǔ)言和詞匯的變化,回顧歷任詞條編者的工作思路。

        編纂系統(tǒng)提供了“保存修改記錄”和“回看修改記錄”的功能,根據(jù)編者的要求,把每一次編寫和審校的信息記錄和保存下來(lái),供日后回溯。這些信息包括:修改者、修改前后的內(nèi)容、修改時(shí)所處的進(jìn)程、修改提交日期,還可以留下修改備注(包括修改原因、參考資料、遺留問題等)?;乜葱薷挠涗洉r(shí),會(huì)突出顯示修改前后不同的內(nèi)容。另外系統(tǒng)還有“撤消修改”的功能,在編寫過程中可以根據(jù)需要隨時(shí)恢復(fù)某次修改前的詞條內(nèi)容。這些功能有助于追溯詞典的編審歷程,不僅對(duì)編寫詞條有用,對(duì)詞典修訂和詞典研究也有用處。

        (5)編纂進(jìn)程的動(dòng)態(tài)處理

        進(jìn)程處理是控制編纂業(yè)務(wù)流程的功能,由主編或組長(zhǎng)操作,分成編寫、初審、終審、定稿等幾個(gè)進(jìn)程。在不同的進(jìn)程中,詞條根據(jù)需要在編者、組長(zhǎng)、主編之間往返傳遞。進(jìn)程處理的作用是幫助主編和組長(zhǎng)了解每個(gè)編者當(dāng)前的工作進(jìn)度,掌握每個(gè)詞條當(dāng)前所在的進(jìn)程和處理狀態(tài),在此基礎(chǔ)上設(shè)定權(quán)限、分配任務(wù)、了解編寫中的問題、組織協(xié)同作業(yè),借助網(wǎng)絡(luò)平臺(tái)處理詞條編寫的各個(gè)環(huán)節(jié),科學(xué)合理地管理詞典編纂的全過程。

        在詞條編寫過程中,每個(gè)編者也都可以在自己的詞條編寫界面中看到當(dāng)前詞條的操作進(jìn)程、修改狀態(tài)、當(dāng)前進(jìn)程是否完成等信息,明確自己的任務(wù)和工作進(jìn)度,還能通過進(jìn)程處理功能與其他編者交流信息、配合工作。

        五、下一步工作

        人機(jī)交互式漢語(yǔ)辭書編纂系統(tǒng)是面向應(yīng)用的計(jì)算機(jī)網(wǎng)絡(luò)服務(wù)系統(tǒng),能否在語(yǔ)言技術(shù)、計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)和詞典編者的智慧之間實(shí)現(xiàn)最佳的結(jié)合,還需要在實(shí)際運(yùn)行中驗(yàn)證和完善。編纂系統(tǒng)和用戶之間應(yīng)該經(jīng)歷一段較長(zhǎng)時(shí)間的磨合,根據(jù)用戶的體驗(yàn)和意見不斷改進(jìn)系統(tǒng)的設(shè)計(jì)和功能。

        當(dāng)前信息技術(shù)的發(fā)展日新月異,新的產(chǎn)品和網(wǎng)絡(luò)應(yīng)用模式不斷涌現(xiàn),互聯(lián)網(wǎng)上開放式的網(wǎng)絡(luò)詞典編纂和服務(wù)已經(jīng)成為漢語(yǔ)辭書編纂的一個(gè)新的應(yīng)用方向。我們?yōu)檫@個(gè)編纂系統(tǒng)研制開發(fā)的關(guān)鍵技術(shù)和核心模塊,有些已經(jīng)具有開放應(yīng)用模式的功能,可以作為下一步工作的基礎(chǔ)。這種開放模式通過互聯(lián)網(wǎng)(包括移動(dòng)互聯(lián)網(wǎng)平臺(tái)),一方面為公眾提供詞語(yǔ)查詢服務(wù),另一方面開放詞典編寫平臺(tái),讓所有對(duì)詞典有興趣、有建設(shè)性見解、愿意有所貢獻(xiàn)的各界人士都能參與詞典編寫:提出新的條目,修改已有的詞條,給出形、音、義、用法、來(lái)源等新的信息。讀者和編者之間形成互動(dòng)關(guān)系,利用先進(jìn)的信息技術(shù)和海量的互聯(lián)網(wǎng)資源,實(shí)現(xiàn)龐大的用戶群和眾多領(lǐng)域?qū)<抑g的分工協(xié)作,使詞典的編纂和研究更好地適應(yīng)語(yǔ)言生活的實(shí)際。

        附 注

        [1]Berkeley DB XML是由美國(guó)Sleepycat Software公司開發(fā)的開源嵌入式數(shù)據(jù)庫(kù)管理系統(tǒng)。

        [2]廣電語(yǔ)料庫(kù)采用了中國(guó)傳媒大學(xué)傳媒語(yǔ)言語(yǔ)料庫(kù)的一部分原始語(yǔ)料,謹(jǐn)向中國(guó)傳媒大學(xué)國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心有聲媒體語(yǔ)言分中心誠(chéng)致謝意。

        [3]平衡語(yǔ)料庫(kù)采用了國(guó)家語(yǔ)委語(yǔ)料庫(kù)的一部分原始語(yǔ)料,謹(jǐn)向教育部語(yǔ)言文字應(yīng)用研究所誠(chéng)致謝意。

        [4]原生標(biāo)記描述語(yǔ)料文本的篇章組織形式(如冊(cè)、篇、卷、章、回、節(jié)等)、對(duì)正文的說明(如校注等)等信息。

        [5]非原生標(biāo)記描述語(yǔ)料在詞匯、語(yǔ)音、語(yǔ)法、語(yǔ)義、語(yǔ)用等方面的屬性或特征(如詞性、短語(yǔ)結(jié)構(gòu)、語(yǔ)法功能、語(yǔ)義關(guān)系等)。

        1.常寶寶.基于語(yǔ)料庫(kù)的雙語(yǔ)詞典編纂平臺(tái)的構(gòu)建.辭書研究,2006(3):122—133.

        2.傅愛平,吳杰,李蕓.漢語(yǔ)語(yǔ)文詞典的詞條結(jié)構(gòu)模型.辭書研究,2009(2):28—37.

        3.傅愛平,張弘.漢語(yǔ)語(yǔ)料庫(kù)的文本描述.∥漢語(yǔ)語(yǔ)料庫(kù)及語(yǔ)料庫(kù)語(yǔ)言學(xué)圓桌會(huì)議論文,香港,2011.

        4.劉輝.詞典微觀數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)化和關(guān)系數(shù)據(jù)庫(kù)設(shè)計(jì).∥羅益民,文旭主編.中國(guó)辭書學(xué)會(huì)雙語(yǔ)詞典專業(yè)委員會(huì)第七屆年會(huì)論文集.成都:四川人民出版社,2007.

        5.陸汝占.漢語(yǔ)詞典編纂一體化環(huán)境(上、下).辭書研究,2000(2):37—48,2000(3):35—43.

        6.張弘,傅愛平.Berkeley DB XML在語(yǔ)料庫(kù)管理中的應(yīng)用.∥第八屆兩岸三院信息技術(shù)交流與資源共享研討會(huì)論文集.臺(tái)北,2010:355—365.

        7.章宜華,劉輝.基于微觀數(shù)據(jù)結(jié)構(gòu)的雙語(yǔ)詞典生成系統(tǒng)初探.外語(yǔ)與外語(yǔ)教學(xué),2007(8):61—64.

        猜你喜歡
        內(nèi)容語(yǔ)言系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        內(nèi)容回顧溫故知新
        WJ-700無(wú)人機(jī)系統(tǒng)
        ZC系列無(wú)人機(jī)遙感系統(tǒng)
        語(yǔ)言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        讓語(yǔ)言描寫搖曳多姿
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        累積動(dòng)態(tài)分析下的同聲傳譯語(yǔ)言壓縮
        主要內(nèi)容
        臺(tái)聲(2016年2期)2016-09-16 01:06:53
        我有我語(yǔ)言
        成人国产精品一区二区八戒网| 乱人伦中文字幕在线不卡网站| 好看午夜一鲁一鲁一鲁| 狼狼色丁香久久女婷婷综合| 很黄很色很污18禁免费| 亚洲精品中文字幕无码蜜桃| 日本精品一区二区三本中文| 国产午夜激情视频在线看| 欧美白人战黑吊| 午夜精品久久久久久久久久久久| 国产aⅴ天堂亚洲国产av| 人妻熟女中文字幕av| 性高朝久久久久久久3小时| 999久久久国产精品| 久久免费视亚洲无码视频| 亚洲男人的天堂色偷偷| 亚洲国产精品综合久久网络| 射死你天天日| 亚洲三级在线播放| 久久成人精品国产免费网站| 精品人妻一区二区三区四区在线 | 亚洲高清三区二区一区| 亚洲中文久久精品无码| 国产精品自产拍在线观看免费 | 97在线视频免费| 精品不卡视频在线网址| 精品视频一区二区三区在线观看| 欧美变态口味重另类在线视频 | 日韩在线精品视频观看| 免费亚洲老熟熟女熟女熟女| 中文字幕精品久久久久人妻红杏ⅰ| 久久av无码精品人妻糸列| 亚洲精品中文字幕乱码3| 日本a片大尺度高潮无码| 好大好硬好爽免费视频| 色老汉亚洲av影院天天精品| 粉嫩av最新在线高清观看| 人妻少妇精品无码专区二区| 亚洲VA欧美VA国产VA综合| 久久久精品国产av麻豆樱花 | 亚洲av无码1区2区久久|