王海靜
(山西省社會(huì)科學(xué)院語(yǔ)言研究所 太原 030006)
語(yǔ)料是辭書(shū)編纂的基礎(chǔ),語(yǔ)料庫(kù)是辭書(shū)編纂重要的支撐平臺(tái)和技術(shù)手段。合理運(yùn)用語(yǔ)料庫(kù)進(jìn)行辭書(shū)編纂,是辭書(shū)編纂現(xiàn)代化發(fā)展的必然趨勢(shì)。漢語(yǔ)俗語(yǔ)(包括諺語(yǔ)、歇后語(yǔ)、慣用語(yǔ)、俗成語(yǔ)),是歷代群眾創(chuàng)造并在口語(yǔ)中廣泛流傳的語(yǔ)言單位。它題材廣泛,內(nèi)容豐富,幾乎涉及社會(huì)生活的各個(gè)方面,是人們世代集體經(jīng)驗(yàn)和智慧的結(jié)晶,是中華民族文化的重要組成部分。編纂俗語(yǔ)語(yǔ)典不僅是對(duì)傳統(tǒng)文化的一種繼承和發(fā)揚(yáng),而且能夠進(jìn)一步促進(jìn)漢語(yǔ)研究的深入發(fā)展。
研究俗語(yǔ)這種特殊的語(yǔ)言材料,編纂高質(zhì)量的語(yǔ)典,更需要語(yǔ)料庫(kù)的支持。由于俗語(yǔ)的特殊性,在建設(shè)語(yǔ)料庫(kù)時(shí),也需要我們特殊對(duì)待,以便同其他專(zhuān)業(yè)語(yǔ)料庫(kù)區(qū)分開(kāi)來(lái)。筆者曾在國(guó)家社科基金項(xiàng)目“漢語(yǔ)俗語(yǔ)語(yǔ)料的計(jì)算機(jī)處理與相關(guān)語(yǔ)言學(xué)問(wèn)題研究”中承擔(dān)“漢語(yǔ)俗語(yǔ)語(yǔ)料庫(kù)”的開(kāi)發(fā)研制工作,并承擔(dān)完成了山西省社會(huì)科學(xué)院2008年度青年課題“基于計(jì)算機(jī)語(yǔ)料庫(kù)的歇后語(yǔ)研究”任務(wù),完成了“歇后語(yǔ)語(yǔ)料庫(kù)模型”。現(xiàn)總結(jié)兩個(gè)語(yǔ)料庫(kù)的經(jīng)驗(yàn)教訓(xùn),對(duì)俗語(yǔ)語(yǔ)料庫(kù)的建設(shè)及應(yīng)用做一介紹。
現(xiàn)代意義上的語(yǔ)料庫(kù)(即狹義的語(yǔ)料庫(kù))應(yīng)具備以下特征:
(1)有明確的建庫(kù)目的(學(xué)習(xí)、研究、編纂辭書(shū)等);
(2)按照一定標(biāo)準(zhǔn)收集的類(lèi)型多樣、真實(shí)自然的語(yǔ)言材料(口語(yǔ)或書(shū)面語(yǔ));
(3)存儲(chǔ)在計(jì)算機(jī)中,并能借助各種計(jì)算機(jī)技術(shù)對(duì)語(yǔ)料進(jìn)行加工;
(4)具有多種功能、滿足多種用途的語(yǔ)料集合。
用一句話來(lái)概括,現(xiàn)代意義上的語(yǔ)料庫(kù)是指按一定目的和標(biāo)準(zhǔn)收集各種類(lèi)型的真實(shí)語(yǔ)料,并利用計(jì)算機(jī)的存儲(chǔ)、檢索等技術(shù)手段對(duì)語(yǔ)料進(jìn)行加工而建立起來(lái)的、滿足多種用途的語(yǔ)料集合。語(yǔ)料也是一種特殊的數(shù)據(jù),承載著一定的信息。新世紀(jì),在科學(xué)技術(shù)飛速發(fā)展的強(qiáng)力推動(dòng)下,計(jì)算機(jī)處理文字的能力愈來(lái)愈強(qiáng),數(shù)據(jù)庫(kù)技術(shù)已經(jīng)發(fā)展得比較成熟,語(yǔ)料庫(kù)的設(shè)計(jì)和實(shí)現(xiàn)完全可以借鑒數(shù)據(jù)庫(kù)技術(shù)的發(fā)展成果。
總的來(lái)說(shuō),“漢語(yǔ)俗語(yǔ)語(yǔ)料庫(kù)”、“歇后語(yǔ)語(yǔ)料庫(kù)模型”的建設(shè)主要分三個(gè)階段:收集整理語(yǔ)料——建立語(yǔ)料模型——編寫(xiě)應(yīng)用程序軟件。
收集整理語(yǔ)料,要有目的性,并有一定的標(biāo)準(zhǔn),這是建立語(yǔ)料庫(kù)的前提。語(yǔ)料的性質(zhì)和特點(diǎn),從一定程度上決定了語(yǔ)料庫(kù)建設(shè)的類(lèi)型和方法。語(yǔ)料信息是語(yǔ)料庫(kù)的核心內(nèi)容。建設(shè)俗語(yǔ)語(yǔ)料庫(kù)時(shí),以漢語(yǔ)語(yǔ)匯學(xué)理論為指導(dǎo),根據(jù)俗語(yǔ)的性質(zhì)和特點(diǎn)去甄別收集語(yǔ)料。首先界定什么是俗語(yǔ);然后對(duì)俗語(yǔ)內(nèi)部的歇后語(yǔ)、諺語(yǔ)、慣用語(yǔ)、俗成語(yǔ)進(jìn)行區(qū)分;進(jìn)而保證所收集的俗語(yǔ)全面而典型。
語(yǔ)料庫(kù)中的語(yǔ)料應(yīng)該如何存儲(chǔ),才能全面反映俗語(yǔ)語(yǔ)料的各種特性,顯示出單個(gè)語(yǔ)料之間的聯(lián)系,便于用戶從中研究出各種規(guī)律,這就是語(yǔ)料模型的問(wèn)題。語(yǔ)料模型是語(yǔ)料庫(kù)系統(tǒng)運(yùn)行的后臺(tái)和基礎(chǔ),正如不同的數(shù)據(jù)模型具有不同的數(shù)據(jù)結(jié)構(gòu)一樣,對(duì)于不同的語(yǔ)料,應(yīng)采用不同的語(yǔ)料模型。例如,英漢雙語(yǔ)平行語(yǔ)料庫(kù)和《四庫(kù)全書(shū)》語(yǔ)料庫(kù)中,對(duì)于語(yǔ)料的組織、存儲(chǔ)等,就不能采用相同的處理方法。語(yǔ)料模型要根據(jù)語(yǔ)料的自身特征來(lái)確定,俗語(yǔ)語(yǔ)料庫(kù)的建設(shè),關(guān)鍵也在于抓住俗語(yǔ)語(yǔ)料的特點(diǎn),進(jìn)行分析,尋找最合適的語(yǔ)料構(gòu)成方式,合理組織語(yǔ)料庫(kù)的結(jié)構(gòu)模型。
一條俗語(yǔ)語(yǔ)目,附帶有語(yǔ)性、書(shū)證、例句等屬性特征,完全可以采用二維表格的形式來(lái)描述。因此我們主要采用關(guān)系模型來(lái)組織俗語(yǔ)語(yǔ)料。關(guān)系模型是數(shù)學(xué)化的模型,一個(gè)表格代表一個(gè)關(guān)系,是一個(gè)集合,概念清晰,便于用戶理解和使用。關(guān)系模型是一種成熟的數(shù)據(jù)模型,Visual FoxPro、Access等多種數(shù)據(jù)庫(kù)軟件都用其組織數(shù)據(jù)。另外,采用關(guān)系模型組織的語(yǔ)料很容易轉(zhuǎn)化為XML數(shù)據(jù)格式,具有很大的通用性。
編寫(xiě)應(yīng)用程序軟件,是指根據(jù)需求有針對(duì)性地開(kāi)發(fā)出各種功能(如排序、檢索等),有效地實(shí)現(xiàn)人機(jī)互動(dòng),從龐大繁雜的語(yǔ)料庫(kù)中抽取有用信息,使資源得以合理共享?!皾h語(yǔ)俗語(yǔ)語(yǔ)料數(shù)據(jù)庫(kù)”共有四種排序方式,實(shí)現(xiàn)了四種檢索方式,并在每次檢索完畢后,自動(dòng)進(jìn)行使用頻率統(tǒng)計(jì);“歇后語(yǔ)語(yǔ)料庫(kù)模型”則在此基礎(chǔ)上,根據(jù)歇后語(yǔ)的結(jié)構(gòu)特點(diǎn),增加了前語(yǔ)和后語(yǔ)分別排列、分別檢索的功能,并實(shí)現(xiàn)了整個(gè)語(yǔ)料庫(kù)程序的可移植性。
目前國(guó)內(nèi)建設(shè)的語(yǔ)料庫(kù)主要包括英語(yǔ)語(yǔ)料庫(kù)、漢語(yǔ)語(yǔ)料庫(kù)和平行語(yǔ)料庫(kù)。漢語(yǔ)語(yǔ)料庫(kù)主要包括口語(yǔ)語(yǔ)料庫(kù)、書(shū)面語(yǔ)語(yǔ)料庫(kù),書(shū)面語(yǔ)語(yǔ)料庫(kù)主要為詞匯研究服務(wù),涉及新聞、文學(xué)等語(yǔ)體。我們建立的語(yǔ)料庫(kù),以“俗語(yǔ)”這種特殊的漢語(yǔ)材料為主要內(nèi)容,必然有其自身的特點(diǎn):
1.收集范圍寬廣
我們所建立的是俗語(yǔ)語(yǔ)料庫(kù),包括諺語(yǔ)、慣用語(yǔ)、歇后語(yǔ)、俗成語(yǔ)四類(lèi),語(yǔ)料來(lái)源涉及古今經(jīng)典、通俗小說(shuō)、口頭文學(xué)等各方面。語(yǔ)料庫(kù)中不僅收集了大量的不帶例句的俗語(yǔ)語(yǔ)目,而且也收集了適量的帶有例證的俗語(yǔ)。這種做法既有利于單純的語(yǔ)目與帶有例證的語(yǔ)目相互補(bǔ)充配合,又使得語(yǔ)料庫(kù)的內(nèi)容相對(duì)豐富和完整。
2.檢索手段多樣
檢索功能是語(yǔ)料庫(kù)最重要的組成部分。以“歇后語(yǔ)語(yǔ)料庫(kù)模型”為例,總的來(lái)說(shuō),有三種檢索手段:前語(yǔ)檢索、后語(yǔ)檢索和整條檢索。這是根據(jù)歇后語(yǔ)的結(jié)構(gòu)特征來(lái)設(shè)計(jì)的:“前語(yǔ)檢索”是對(duì)歇后語(yǔ)破折號(hào)前的“引子”部分進(jìn)行任意字檢索;“后語(yǔ)檢索”是對(duì)歇后語(yǔ)破折號(hào)后的“注釋”部分進(jìn)行任意字檢索;“整條檢索”是對(duì)歇后語(yǔ)語(yǔ)目進(jìn)行任意字檢索,包括諧音檢索。幾種檢索方式可以搭配使用,檢索完畢后,還會(huì)自動(dòng)顯示查找結(jié)果的頻率統(tǒng)計(jì)。
例如,在語(yǔ)料庫(kù)中檢索“張飛”二字,前語(yǔ)檢索結(jié)果為44條,反過(guò)來(lái)在后語(yǔ)中檢索,則顯示“沒(méi)有匹配內(nèi)容”。同樣,檢索“黃鼠狼”三字,前語(yǔ)檢索結(jié)果為40條,反過(guò)來(lái)在后語(yǔ)中檢索,也顯示“沒(méi)有匹配內(nèi)容”?!皬堬w”是人民大眾熟悉的歷史文化人物,“黃鼠狼”也是人們熟悉的動(dòng)物形象,他們只在前語(yǔ)中出現(xiàn),而不出現(xiàn)在后語(yǔ)中,說(shuō)明歇后語(yǔ)中“引子”具有形象色彩、感情色彩、風(fēng)格色彩、身份色彩等,特別是形象色彩幾乎貫穿于每條歇后語(yǔ)。
又如,在語(yǔ)料庫(kù)中檢索“不安好心”四字,就可以發(fā)現(xiàn)作為結(jié)論的“不安好心”,只在后語(yǔ)中出現(xiàn),用來(lái)給前面的各種描述作“注釋”。另外,除了人們所熟悉的“黃鼠狼給雞拜年——不安好心”外,還有“野貓來(lái)給雞拜年——不安好心”、“狐貍裝貓叫——不安好心”兩種說(shuō)法,此時(shí),即使前語(yǔ)不同,只要后語(yǔ)一樣,就可以歸為同義歇后語(yǔ)。
再如,在語(yǔ)料庫(kù)中檢索“對(duì)牛彈琴”四字,全部檢索結(jié)果顯示為8條匹配記錄,“對(duì)牛彈琴”,可以既當(dāng)前語(yǔ),又作后語(yǔ)。其中,“對(duì)牛彈琴”四字,在前語(yǔ)中出現(xiàn)3次,在后語(yǔ)中出現(xiàn)5次。后語(yǔ)相同的5條歇后語(yǔ)為:“抱琵琶進(jìn)磨房——對(duì)牛彈琴”、“抱著琵琶趕大車(chē)——對(duì)牛彈琴”、“抱著琵琶進(jìn)磨房——對(duì)牛彈琴”、“抱著琵琶進(jìn)牛棚——對(duì)牛彈琴”、“背著琵琶進(jìn)磨房——對(duì)牛彈琴”,都可以歸為同義歇后語(yǔ)。另外3條歇后語(yǔ)為:“對(duì)牛彈琴——充耳不聞”、“對(duì)牛彈琴——枉費(fèi)心機(jī)”、“對(duì)牛彈琴——一竅不通”,雖然前語(yǔ)相同,但后語(yǔ)卻截然不同,不能歸為同義歇后語(yǔ)。
3.分類(lèi)標(biāo)注語(yǔ)性
“漢語(yǔ)俗語(yǔ)語(yǔ)料庫(kù)”中的每條俗語(yǔ)按屬性分類(lèi)標(biāo)注,分為諺語(yǔ)、歇后語(yǔ)、慣用語(yǔ)、俗成語(yǔ)四類(lèi)。此外,針對(duì)歇后語(yǔ)構(gòu)成上的特殊性,進(jìn)一步標(biāo)出其前后兩部分的語(yǔ)性。通過(guò)檢索排序等手段,可以發(fā)現(xiàn)大量語(yǔ)類(lèi)交叉現(xiàn)象,幫助人們進(jìn)一步劃清語(yǔ)的界限,對(duì)于研究不同語(yǔ)類(lèi)之間的轉(zhuǎn)化,也有一定研究參考作用。
“漢語(yǔ)俗語(yǔ)語(yǔ)料庫(kù)”、“歇后語(yǔ)語(yǔ)料庫(kù)”除了能為語(yǔ)典編纂提供大量例句外,還有以下四方面的作用。
語(yǔ)匯類(lèi)辭書(shū)要求語(yǔ)目按一定格式排列。語(yǔ)料庫(kù)中語(yǔ)料采用多種排序方法:語(yǔ)目音序排列、筆畫(huà)排列、書(shū)證出處排列、書(shū)證作者排列,后兩者采用時(shí)代先后排列。具有相同、相似特征的語(yǔ)料排列在一起,便于編寫(xiě)人員在選擇語(yǔ)目時(shí),按需要導(dǎo)出大量資料,并且進(jìn)行初步排序。
語(yǔ)言總是處在一種“變”的狀態(tài)中,“語(yǔ)”也不可能沒(méi)有變體,而且流通時(shí)間越長(zhǎng)、流通范圍越廣,變體就越多。因此,在編纂語(yǔ)典時(shí),編寫(xiě)者就需要在意義相近的多條語(yǔ)目中,選擇通用的作為主條,選擇由于地域、時(shí)間等因素造成的變體作為副條。表1就是以“情人眼”為檢索關(guān)鍵字,通過(guò)“漢語(yǔ)俗語(yǔ)語(yǔ)料庫(kù)”檢索出的相關(guān)結(jié)果:
表1 “情人眼”檢索結(jié)果
在檢索出的25項(xiàng)結(jié)果中,“情人眼里出西施”出現(xiàn)了18次,其中古代作品中引用了7次,近現(xiàn)代作品中引用了9次;而“情人眼內(nèi)出西施”、“情人眼里有西施”分別出現(xiàn)了4次、3次,在近現(xiàn)代作品中未出現(xiàn)。這個(gè)數(shù)據(jù)能夠在一定程度上反映出“情人眼里出西施”是最通用的,可以作為主條,而其他兩條則可以作為副條收錄。由此可見(jiàn),利用語(yǔ)料庫(kù)的檢索手段,特別是語(yǔ)料庫(kù)的自動(dòng)統(tǒng)計(jì)頻率功能,可以迅速將同義或異形的語(yǔ)排在一起,顯示出變體,并可以根據(jù)“語(yǔ)”出現(xiàn)的頻率統(tǒng)計(jì),確定主、副條。
俗語(yǔ)也存在一條語(yǔ)目包含多個(gè)義項(xiàng)的情況,使用語(yǔ)料庫(kù)進(jìn)行檢索可以幫助避免義項(xiàng)遺漏。比如諺語(yǔ):“聞名不如見(jiàn)面,見(jiàn)面勝似聞名”,其常用意義為:“聽(tīng)說(shuō)一個(gè)人的名聲,不如親眼見(jiàn)到本人來(lái)得真切;見(jiàn)到了本人,比聽(tīng)說(shuō)的名聲更好。含褒義。舊時(shí)多作為見(jiàn)面時(shí)的客套話?!比欢ㄟ^(guò)檢索語(yǔ)料庫(kù),就可以看到如下兩條例句:
①《水滸全傳》四回:“那官人下馬,入到里面,老兒請(qǐng)魯提轄來(lái),那官人撲翻身便拜道:`聞名不如見(jiàn)面,見(jiàn)面勝似聞名,義士提轄受禮。'”
②《后西游記》三二回:“聞名不如見(jiàn)面,見(jiàn)面勝似聞名。人人久傳你孫大圣的名頭,我只道你是他嫡派子孫,又傳了金箍鐵棒的道法,定然是個(gè)三頭六臂的好漢,卻怎生得這般尖嘴縮腮,猴子般的模樣?”
例①所表達(dá)的是人們比較熟悉的意思,例②所表達(dá)的感情色彩則與例①完全相反,指聽(tīng)說(shuō)的只是虛名,親眼見(jiàn)到后才知不怎么樣,含貶義。類(lèi)似于這樣排列在一起的例句,使編者可以一目了然地發(fā)現(xiàn)同一語(yǔ)目的多義性,做出完整、合理的注釋。
諺語(yǔ)、歇后語(yǔ)、慣用語(yǔ)、俗成語(yǔ)之間都或多或少地存在語(yǔ)類(lèi)交叉的現(xiàn)象。如下例:
①康濯《東方紅》一五章四:“他們下車(chē)以后,首先就碰到商業(yè)局……非要留住他們細(xì)細(xì)談?wù)劜少?gòu)、運(yùn)轉(zhuǎn)當(dāng)中的經(jīng)驗(yàn)和問(wèn)題!好老天!這不是叫他們魯班門(mén)前耍大斧!”
②《紅樓夢(mèng)》一九回:“寶玉笑道:`再不說(shuō)了。那原是那小時(shí)不知天高地厚,信口胡說(shuō),如今再不敢說(shuō)了。'”
③ 劉紹棠《鄉(xiāng)土》:“我說(shuō):`人家說(shuō)這號(hào)生馬難整,只有他敢掛,物缺為貴嘛!'`花腳王'一捋胡子:`魯班門(mén)前掄斧,不知天高地厚。他掛掌劉的老爺爺是俺爺爺?shù)耐降?差輩呢!'”
例①“魯班門(mén)前耍大斧”是慣用語(yǔ),比喻在行家面前逞能賣(mài)弄。例②“不知天高地厚”也是慣用語(yǔ),形容人不知道事情的艱難,自高自大。例③組成“魯班門(mén)前掄斧——不知天高地厚”則為歇后語(yǔ),形容人狂妄自大,過(guò)高估計(jì)了自己。一條歇后語(yǔ)包含了兩個(gè)慣用語(yǔ),三個(gè)例句語(yǔ)意各有差別。這種語(yǔ)類(lèi)交叉的現(xiàn)象,通過(guò)語(yǔ)料庫(kù)的特殊處理,能夠清楚地表現(xiàn)出來(lái),供編寫(xiě)者在編纂辭書(shū)時(shí)參考。
在兩個(gè)語(yǔ)料庫(kù)的語(yǔ)料錄入問(wèn)題上,我們雖然采用了OCR掃描錄入、光盤(pán)電子書(shū)復(fù)制錄入、網(wǎng)上搜集等方法,但首先必須人工識(shí)別出大量語(yǔ)料中的俗語(yǔ),挑選出來(lái)再進(jìn)行錄入工作。也就是說(shuō),目前還無(wú)法從大量連續(xù)的自然文本語(yǔ)料中,自動(dòng)識(shí)別出哪些是俗語(yǔ),再將有用信息提取出來(lái)。漢語(yǔ)中“語(yǔ)”的使用非常靈活,特別是歇后語(yǔ)在結(jié)構(gòu)上的特殊性,使得它的自動(dòng)切分和識(shí)別更加困難。例如:
①我可是個(gè)好強(qiáng)的人,什么事我都想得開(kāi),窗戶紙兒,一戳就透。(浩然《艷陽(yáng)天》四九章)
②“師兄!”橋隆飆道,“這是層窗戶紙,一捅就破呀,你為什么不早捅開(kāi)?”(曲波《橋隆飆》八)
③后來(lái)才知道他有個(gè)姓陳的女朋友,倆人的關(guān)系很好,只隔一層薄窗戶紙——一捅就破,就是誰(shuí)也不先開(kāi)口。(李英儒《野火春風(fēng)斗古城》五章二)
可以看到,“語(yǔ)”的結(jié)構(gòu)并不像詞那樣固定,這三條同義歇后語(yǔ),前后兩部分可以分開(kāi)運(yùn)用,破折號(hào)可以換成逗號(hào),語(yǔ)節(jié)之間還可以加入其他成分。其他語(yǔ)類(lèi)的結(jié)構(gòu)也存在不同程度的非固定性。因此,如何針對(duì)“語(yǔ)”的結(jié)構(gòu)利用已有的詞的自動(dòng)切分成果,實(shí)現(xiàn)“語(yǔ)”的自動(dòng)切分,是我們今后要解決的問(wèn)題。
“漢語(yǔ)俗語(yǔ)語(yǔ)料庫(kù)”和“歇后語(yǔ)語(yǔ)料庫(kù)模型”的所有語(yǔ)性的標(biāo)注都是人工進(jìn)行的,這無(wú)疑增加了語(yǔ)料庫(kù)建立的繁復(fù)性。而且目前國(guó)內(nèi)對(duì)于俗語(yǔ)的定性分類(lèi)還沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),我們采用的是溫端政先生《漢語(yǔ)語(yǔ)匯學(xué)》(商務(wù)印書(shū)館,2005)一書(shū)中的分類(lèi)標(biāo)準(zhǔn)。該分類(lèi)標(biāo)準(zhǔn)主要將俗語(yǔ)分為四類(lèi):諺語(yǔ)、歇后語(yǔ)、慣用語(yǔ)、俗成語(yǔ)。其中,諺語(yǔ)是表述性的,慣用語(yǔ)是描述性的,歇后語(yǔ)則是引注式的,成語(yǔ)則是“二二相承”的四字格形式。請(qǐng)看下例:
①楊錦元《芹菜炒魷魚(yú)》:魷魚(yú)中含有鈣、鐵元素,對(duì)骨骼發(fā)育和造血十分有益,且含大量的牛磺酸,可抑制血中膽固醇含量。而芹菜有降壓消脂的作用。芹菜炒魷魚(yú)是很好的降壓搭配,不妨試試吧。
②王玉平等《中國(guó)的金領(lǐng)階層》:“他很幸運(yùn)地被聘為技術(shù)員,但他找不到事業(yè)的感覺(jué)。在最初的日子里,他竟連續(xù)炒了五個(gè)老板的魷魚(yú)?!?/p>
例①里的“炒魷魚(yú)”,是特指煎炒菜肴,屬于詞組。例②里的“炒魷魚(yú)”,就是比喻解雇或辭職,是慣用語(yǔ)。因?yàn)轸滛~(yú)片本來(lái)是切得又平又直,一下油鍋就自動(dòng)卷成圓筒狀,和卷起來(lái)的鋪蓋外形差不多,所以人們多用作比喻義“卷鋪蓋走人”。可見(jiàn),即使實(shí)現(xiàn)了自動(dòng)分語(yǔ),計(jì)算機(jī)能夠從大量的文本資料中提取出“語(yǔ)”的相關(guān)資料,對(duì)于這些定性及分類(lèi)標(biāo)準(zhǔn)也是無(wú)法理解的,因此必須先建立起標(biāo)準(zhǔn)的機(jī)讀語(yǔ)料庫(kù)。如何設(shè)計(jì)編成完整精確的機(jī)讀語(yǔ)料庫(kù),是需要進(jìn)一步開(kāi)發(fā)的大工程。
擴(kuò)大、完善俗語(yǔ)語(yǔ)料庫(kù)的工作,仍有很長(zhǎng)的路要走。辭書(shū)編纂以語(yǔ)料庫(kù)為基礎(chǔ),語(yǔ)料庫(kù)要以語(yǔ)言學(xué)和計(jì)算機(jī)技術(shù)的發(fā)展為基礎(chǔ)。因此,辭書(shū)編纂者最好既有語(yǔ)言學(xué)的理論功底,又有豐富的辭書(shū)編纂經(jīng)驗(yàn),同時(shí)還能夠熟練地掌握計(jì)算機(jī)技術(shù),具有一定的編程經(jīng)驗(yàn),這樣才能不斷完善語(yǔ)料庫(kù)。好的語(yǔ)料庫(kù)經(jīng)過(guò)稍許的加工提煉,就可以作為辭書(shū)編纂的輔助平臺(tái),不僅能夠幫助編纂者又好又快地編寫(xiě)出高質(zhì)量的辭書(shū),還能加快電子辭書(shū)的編制過(guò)程。
1.馮志偉.計(jì)算語(yǔ)言學(xué)基礎(chǔ).北京:商務(wù)印書(shū)館,2001.
2.馮志偉.應(yīng)用語(yǔ)言學(xué)綜論.廣州:廣東教育出版社,2001.
3.李寶安.中文信息處理技術(shù)原理與應(yīng)用.北京:清華大學(xué)出版社,2006.
4.劉開(kāi)瑛.中文文本自動(dòng)分詞和標(biāo)注.北京:商務(wù)印書(shū)館,2000.
5.王馥芳.當(dāng)代語(yǔ)言學(xué)與詞典創(chuàng)新.上海:上海辭書(shū)出版社,2004.
6.溫端政.漢語(yǔ)語(yǔ)匯學(xué).北京:商務(wù)印書(shū)館,2005.
7.俞士汶.計(jì)算語(yǔ)言學(xué)概論.北京:商務(wù)印書(shū)館,2004.
8.張紹麒.辭書(shū)與數(shù)字化研究.上海:上海辭書(shū)出版社,2005.
9.章宜華.計(jì)算詞典學(xué)與新型詞典.上海:上海辭書(shū)出版社,2004.
10.Douglas Biber等.語(yǔ)料庫(kù)語(yǔ)言學(xué).北京:外語(yǔ)教學(xué)與研究出版社,2000.