亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        圖書館古籍?dāng)?shù)字資料庫建設(shè)與質(zhì)量評價(jià)新論——以資料庫建設(shè)與語文詞典編纂的結(jié)合為例

        2011-03-19 05:27:15王麗英王東海
        圖書館理論與實(shí)踐 2011年2期
        關(guān)鍵詞:資料庫古籍詞典

        ●王麗英 ,王東海

        (魯東大學(xué) a.圖書館;b.文學(xué)院,山東 煙臺(tái) 264000)

        數(shù)字資源庫建設(shè)是圖書館工作的核心之一,而承載中國文化與文明的古籍資料的數(shù)字化建設(shè)與智能化使用又是工作重心。古籍?dāng)?shù)字資料庫建設(shè)既可減少古籍整理、保護(hù)、使用方面的財(cái)力、人力、物力成本,又可為用戶提供更方便、智能的檢索和輸出功能,提高了效率,更好地體現(xiàn)出圖書資源服務(wù)社會(huì)的功能。

        我們認(rèn)為,古籍資料庫資源的建設(shè)必須緊跟用戶的需求,在充分開展用戶需求分析后,再有的放矢地建設(shè),這樣才能提高古籍資料庫的針對性和應(yīng)用價(jià)值。隨著計(jì)算機(jī)技術(shù)及古籍整理工作的發(fā)展,古籍?dāng)?shù)字資料庫建設(shè)的目標(biāo)和原則都發(fā)生了很大變化,要滿足不斷發(fā)展變化的使用需要,就要進(jìn)行改革與創(chuàng)新;另外,當(dāng)前古籍資料庫的重復(fù)建設(shè)情況比較嚴(yán)重,互相抄襲拷貝文本數(shù)據(jù)的情況大有泛濫之勢,在這方面需要建立明確的評價(jià)鑒定標(biāo)準(zhǔn),以防止這種低水平的重復(fù)建設(shè)。我們擬從數(shù)字資料庫輔助工具的特性出發(fā),以語文詞典的編纂對古籍資料庫的需求為解剖對象,探討當(dāng)前圖書館古籍?dāng)?shù)字資料庫建設(shè)和質(zhì)量評價(jià)的八個(gè)要求。

        1 服務(wù)于詞典編纂的古籍?dāng)?shù)字資料庫定位

        歷史語文詞典的編纂需要什么樣的語料庫?

        首先要區(qū)別開第一代語料庫和第二代語料庫。第一代語料庫主要是生語料庫,即將紙制印刷文本電子化,提供各種全文搜索功能。第二代語料庫是利用計(jì)算機(jī)給生語料自動(dòng)加上分詞、詞性、語義特征、句法、語篇、語用等屬性標(biāo)記(目前做得最成熟的是詞性標(biāo)注),基于這些語言學(xué)標(biāo)記,可進(jìn)行各種數(shù)理統(tǒng)計(jì)、形式分析。例如自動(dòng)統(tǒng)計(jì)文本字頻、詞頻,對詞語搭配進(jìn)行數(shù)據(jù)挖掘和知識發(fā)現(xiàn),自動(dòng)提取文本常用句樹(句型形式樹)、句型(常用搭配角度)、句模(句義角度)、句類(語用角度)等。當(dāng)前流行的古籍?dāng)?shù)字資料庫屬于第一代語料庫。

        詞典編纂是一項(xiàng)實(shí)用性很強(qiáng)的工作。當(dāng)代詞典由于所編纂的內(nèi)容都是活生生的使用態(tài)的語言,所以對語言事實(shí)和規(guī)律的描寫要求細(xì)致全面,因此有各種語言屬性標(biāo)記賦碼的第二代語料庫就是首選。而歷史性語文詞典的編纂核心是詞義的引申變化,對語料庫的要求有所不同。

        第一,目前在古籍語料庫計(jì)算機(jī)技術(shù)方面,除了少數(shù)古文今譯方面的應(yīng)用需要建立古今漢語對齊平衡語料庫(即文言文本和白話翻譯的對齊)外,其余資料庫的開發(fā)重心都集中在古籍資料文本化、版面還原、文本版面與原籍版面的對應(yīng)保真、檢索關(guān)鍵詞異體字關(guān)聯(lián)、大型數(shù)據(jù)庫索引與檢索技術(shù)五大方面,并沒有向二代語料庫過渡。這一思路是對的。對于中文信息處理技術(shù)來講,古籍歷史文本歷時(shí)跨度大,綿延幾千年,難以用一套定型的分詞和詞性標(biāo)注標(biāo)準(zhǔn)進(jìn)行統(tǒng)一標(biāo)注,所以進(jìn)行賦碼的難度較高,可操作性較弱。

        第二,歷史語文詞典的編纂中,詞義和詞用信息的厘定和釋義主要依靠詞典編纂者的主觀經(jīng)驗(yàn),即使在語料庫大行其道的今天,人們也不能否定主觀經(jīng)驗(yàn)在詞典編纂中不可替代的作用。歷史詞典的編纂要求主觀推斷和客觀驗(yàn)證緊密結(jié)合,“語料庫至上論”在歷史性語文詞典編纂中是行不通的。

        第三,歷史詞典編纂要?dú)w納詞義的引申變化,最關(guān)心的是詞用語境的時(shí)間性屬性,而這一屬性是靠資料文本中的書證進(jìn)行標(biāo)記的,編纂者對于文本分詞、詞性標(biāo)注等賦碼沒有太多要求。

        第四,即使有人做過古籍文本的賦碼工作,也只適合個(gè)別詞的個(gè)案分析,不適用于大范圍的詞典編纂工作,因?yàn)殡S著語料庫文本賦碼的增多,有時(shí)不但不會(huì)引導(dǎo)形成正確的結(jié)論,反而會(huì)形成很多不必要的干擾信息,而且還影響到檢索效率以及檢索結(jié)果呈現(xiàn)的簡明性。

        結(jié)合以上四點(diǎn)意見,作為第一代語料庫的古籍資料庫基本能滿足歷史詞典編纂需要,目前無必要也無可能將歷史語文詞典的編纂所依據(jù)的古籍資料庫提升到二代語料庫水平,但這并不意味著現(xiàn)在的古籍資料庫就能很好滿足歷史語文詞典編纂的需要。

        國內(nèi)歷史性語文詞典編纂中使用比較多的是四大綜合性數(shù)字資料庫——“四庫全書”“四部叢刊”“國學(xué)寶典”“中國基本古籍庫”。一些新的文本化數(shù)據(jù)庫工程還在不斷開發(fā)過程中,舊有的數(shù)據(jù)庫工程也在不斷完善與擴(kuò)容。這些數(shù)據(jù)庫工程在為文史哲的研究和應(yīng)用方面提供了重要的材料支撐,根本性地改變,甚至顛覆了傳統(tǒng)史料學(xué)的存在形態(tài)及使用機(jī)制。不過也存在不少問題,如重復(fù)性建設(shè)、互相抄襲數(shù)據(jù)等,但這并不是最大的不足。

        數(shù)字資料庫最大的價(jià)值體現(xiàn)在兩方面:一是內(nèi)容,二是服務(wù),以上這些資料庫的建立定位并不是為語文詞典編纂服務(wù),而是以服務(wù)于知識主題檢索為主,所以大都追求擴(kuò)大收錄文獻(xiàn)的篇目數(shù)量和文字字?jǐn)?shù),而在內(nèi)容的平衡性和服務(wù)的多樣化方面做得還有所欠缺,特別是用戶需求分析不夠,缺少明顯的針對性,同質(zhì)化現(xiàn)象嚴(yán)重,這些才是最大的問題。

        古籍資料庫的建設(shè)工程浩大,僅為詞典編纂這一單一用戶服務(wù)的思路是不切實(shí)際的,但將資料庫的建設(shè)與詞典編纂需求緊密結(jié)合,適當(dāng)增加功能,在技術(shù)上是完全可行的。

        2 內(nèi)容平衡性分析

        數(shù)字資料庫建設(shè)在資料收錄方面追求“人無我有,人有我優(yōu),人優(yōu)我特”的目標(biāo),這是無可厚非的。但對于詞典編纂來講,必須優(yōu)先考慮語料庫內(nèi)容的平衡性。庫內(nèi)文本沒有平衡性就沒有代表性,歷史語文詞典的編纂要基于平衡性的資料庫,其釋義才能準(zhǔn)確客觀,符合歷史語言事實(shí)和語言規(guī)律的原貌,否則就會(huì)犯以偏概全的錯(cuò)誤。具體的建設(shè)原則和要求如下:

        (1)語篇內(nèi)容要盡量保持主題類別的平衡(語域平衡)。語文詞典的編纂對義項(xiàng)的語域使用情況比較關(guān)注,例如“保辜”一詞是法律術(shù)語,如果法律語域的語篇數(shù)量不足,則其釋義難免偏頗,因此,建立一個(gè)庫中語篇的主題分類知識本體(Ontology)至關(guān)重要。建庫者從主題分類樹上即可觀察:哪些分支的語篇量不足,哪些葉子節(jié)點(diǎn)出現(xiàn)空位等,然后進(jìn)行適當(dāng)?shù)难a(bǔ)充。

        當(dāng)前的古籍分類主要依據(jù)的是“經(jīng)史子集”四部法,例如“四庫全書”電子版。從保真性、還原性的原則看,這一分類是必須的。但這一傳承自古代的分類體系顆粒度比較大,相對粗疏。例如,在“四庫全書”電子版中,很多“四部”總目下只有一二個(gè)分類層次,而更多語篇的主題內(nèi)容則沒有做類別標(biāo)記,這直接導(dǎo)致定向檢索范圍過大,檢索結(jié)果過多,冗余數(shù)據(jù)影響詞典編纂的效率;另外,分類標(biāo)準(zhǔn)混雜,集部下層分類分為“楚辭”類和“別集類”,而二者的下位,一個(gè)是直接列專書,一個(gè)是按照時(shí)代標(biāo)準(zhǔn)再次分類,不同的分類標(biāo)準(zhǔn)存在于一個(gè)分類體系中,這不利于觀察平衡性。

        可以適當(dāng)借鑒現(xiàn)代圖書館分類索引使用的敘詞表、主題詞表的分類模式來建構(gòu)古籍分類體系,但由于古今差別,具體內(nèi)容不能照搬,如果能夠建立一個(gè)古籍主題詞知識本體,各類文獻(xiàn)都可以根據(jù)這一分類體系進(jìn)行比附,形成語篇分類樹,即可評價(jià)各語篇所占比重,較易實(shí)現(xiàn)語篇內(nèi)容的基本平衡。

        (2)成書年代屬性要盡量保持平衡。歷史語文詞典編纂的一項(xiàng)基礎(chǔ)工作是根據(jù)提取書證的源語篇的年代屬性來確立義項(xiàng)的排列順序,因此資料庫中語篇的成書年代屬性是最為關(guān)鍵的影響因子;另外,歷史語文詞典一般需要列出首出書證,這也需要對語篇的年代屬性進(jìn)行準(zhǔn)確認(rèn)定。缺少一個(gè)時(shí)代的資料,義項(xiàng)的引申義列中可能就會(huì)出現(xiàn)缺環(huán),同時(shí)也無法保證例證的首見性,所以,標(biāo)注語篇的年代屬性對于古籍資料庫建設(shè)尤為重要。要根據(jù)年代屬性進(jìn)行語篇類聚,衡量哪些年代的古籍資料會(huì)有所缺欠,然后積極開展搜集、文本化等工作,對其進(jìn)行完善。

        古籍資料庫年代屬性的確定不同于現(xiàn)代語篇,這要求做好兩方面工作:

        第一,在浩瀚的古籍資料中,古籍的偽造、損毀、亡佚等現(xiàn)象都會(huì)直接影響到成書年代的確定,所以文獻(xiàn)資料索引入庫前,一定要仔細(xì)鑒偽。可結(jié)合已有《四庫總目提要》、各種藏書索引等資料對成書年代進(jìn)行考證,做到資料庫中的每一古籍語篇的成書年代都有確考,還要將時(shí)代屬性落實(shí)到具體朝代年號上,并換算成具體的公元紀(jì)年。

        第二,對古籍的內(nèi)容文本的時(shí)代屬性進(jìn)行鑒別。這主要是針對一些類書、政書、資料長編等輯佚類古籍,其中輯錄的文本本身就是泛時(shí)性的,并非都是一個(gè)時(shí)代,如果根據(jù)類書的成書年代來判斷文本或書證的年代,只能是貽笑大方。另外,還要關(guān)注訓(xùn)釋類文本的時(shí)代屬性鑒別。原文和注釋的作者并非同一時(shí)代的人,所以成文年代不同,但在語篇中,它們卻是共現(xiàn)的,提取書證時(shí)極易出錯(cuò)。很多已有資料庫已經(jīng)關(guān)注到訓(xùn)釋類語篇的特點(diǎn),將原文和注文用大小字或單雙行排版的方式進(jìn)行區(qū)分并分別檢索,如果能進(jìn)一步標(biāo)記原文與一度訓(xùn)釋、再度訓(xùn)釋材料的時(shí)代屬性,效果更好。如果無法對語篇內(nèi)泛時(shí)文本進(jìn)行全面的時(shí)間屬性標(biāo)注,一定要對這種類型的古籍語篇設(shè)置提醒標(biāo)記,以防止國學(xué)基礎(chǔ)薄弱者將文本年代屬性與成書年代相等同,從而誤用語料導(dǎo)致詞典內(nèi)容錯(cuò)誤。

        做好這兩方面工作,還有助于完善資料庫檢索功能。根據(jù)年代屬性測查是每個(gè)歷史性語文詞典編纂者使用最多的基礎(chǔ)檢索,但現(xiàn)在的資料庫大多沒有提供這一功能。

        (3)語篇典型性要盡量保持平衡。當(dāng)前已有的資料庫大多崇尚收錄經(jīng)典文獻(xiàn),甚至追求經(jīng)典版本,有的資料庫將所有能夠找到的版本都進(jìn)行錄入,因而產(chǎn)生資料同質(zhì)化、相似性過高的問題,這將古籍資料庫的建設(shè)囿于文獻(xiàn)學(xué)研究的范圍。

        詞典編纂對資料庫的要求是詞義的使用語境要有豐富的類型,詞匯語用特征要有多樣性,經(jīng)典文獻(xiàn)并不都能全面準(zhǔn)確地反映當(dāng)時(shí)的主流語言現(xiàn)象,一些非經(jīng)典文獻(xiàn)可能對當(dāng)時(shí)的語言事實(shí)和重要規(guī)律反映得更加明顯。因此詞典編纂要求的資料必須是全面的,要將經(jīng)典文獻(xiàn)與非經(jīng)典文獻(xiàn)、主流文獻(xiàn)與非主流文獻(xiàn)的收錄按照一定的比例初步平衡起來。

        可以根據(jù)文獻(xiàn)的影響面、流通度、知曉度、重要性等因素建立一個(gè)評價(jià)標(biāo)注體系,最好等級化和參數(shù)化,這樣可以允許用戶根據(jù)語篇重要性的閾值設(shè)置檢索參數(shù),進(jìn)行對比檢索,以保證被釋詞的義域的廣度、釋義的豐度以及例證的代表性。

        (4)語體色彩要盡量保持平衡。很多資料庫排斥古白話作品,認(rèn)為其不登大雅之堂,這種做法是不可取的。

        歷史語文詞典側(cè)重描寫歷史詞匯歷時(shí)發(fā)展演變或歷史上某一時(shí)期的詞匯情況,觀察和描寫的范圍應(yīng)該包括所有的詞匯,文言詞(雅言)、口語詞、方言詞、語法功能詞等類型都應(yīng)按照一定的收詞標(biāo)準(zhǔn)進(jìn)行適當(dāng)收錄,這是詞典收詞平衡性的體現(xiàn),這就要求使用這些詞的古籍文本不能在資料庫中失衡。如果只收錄經(jīng)典文言作品,由于其以模仿上古語體風(fēng)格為榮(如唐朝的古文運(yùn)動(dòng)文風(fēng)、乾嘉學(xué)派文風(fēng)、清朝桐城派文風(fēng)莫不如此),文言詞居多,與當(dāng)時(shí)的共時(shí)語言現(xiàn)象疏離,如果僅依靠文言語體風(fēng)格的文本,歷史詞典就無法準(zhǔn)確、客觀地反映出詞義的全面發(fā)展?fàn)顩r。

        (5)難易度要盡量保持平衡。詞匯學(xué)中測量現(xiàn)代語篇傳播度和難易度的常用方法是詞匯密度法。語篇的詞匯密度是通過一個(gè)語篇或語句中實(shí)詞數(shù)量占整個(gè)語篇或語句總單詞數(shù)的百分比來表示,[1]如果比值高,說明其所含信息豐富,如果比值低,則信息量較低。一般信息密度高的文本較難解,而信息密度低的較易懂?,F(xiàn)代文本中,科技語篇的詞匯密度是最高的,而日常交際口語語篇的詞匯密度則最低。

        仿照這種方法,也可對資料庫語篇的難易度進(jìn)行測查并標(biāo)記。由于古代漢語中很多字、詞有同形同體的特點(diǎn),所以可用每個(gè)古代語篇所用的生僻字字?jǐn)?shù)除以全文總字?jǐn)?shù)的比值來標(biāo)記語篇的難易度。如果僻字占比大,文字密度就高,文章難解度就高,使用面就比較窄;而生僻字占比少,文字密度小,則較易解讀,流通面也就相對廣泛。

        詞典編纂需要的資料庫要求難易度平衡,也就是文字密度屬性平衡,這可以輔助考察詞典被釋詞在平易性文獻(xiàn)、中等難度文獻(xiàn)、高難度文獻(xiàn)的分布度,提供更多的詞匯信息。例如一個(gè)詞在難度高的文獻(xiàn)中分布度過高,說明這個(gè)詞的文雅度比較高,一般可以設(shè)為雅詞;而一個(gè)詞在平易性文獻(xiàn)中分布度高,說明此詞可能更為通用,有可能是當(dāng)時(shí)的基本詞匯中的一員。

        這項(xiàng)工作可利用計(jì)算機(jī)自動(dòng)完成,在索引每個(gè)語篇入庫時(shí),系統(tǒng)可自動(dòng)提取字表,并提供字種與字頻、總字種數(shù)與總字?jǐn)?shù)等方面的信息,最后計(jì)算出每個(gè)語篇的文字密度。所有的語篇進(jìn)行文字密度標(biāo)注后,還可以衡量古籍資料庫整體內(nèi)容難易度,成為評估資料庫的一個(gè)重要的參數(shù)。

        3 服務(wù)性分析

        資料庫的服務(wù)不是指產(chǎn)品的售前或售后服務(wù),而是功能服務(wù)。詞典編纂需要古籍資料庫能提供多樣化的定向檢索服務(wù)。大一統(tǒng)的檢索模式只能造成檢索結(jié)果的混亂蕪雜,給人工排檢、聚類帶來麻煩。當(dāng)前資料庫大多將古籍以文本數(shù)據(jù)存儲(chǔ),輔以主流的關(guān)鍵詞檢索,有些提供表達(dá)式檢索功能,但這些檢索服務(wù)同質(zhì)化現(xiàn)象比較嚴(yán)重,也沒有關(guān)照到應(yīng)用的個(gè)性需求,還需要做好定向檢索技術(shù)的開發(fā)。定向檢索技術(shù)可分為主動(dòng)型檢索和自動(dòng)型檢索兩種。

        在檢索方面要注意三方面的開發(fā)原則和要求。

        3.1 滿足主動(dòng)性檢索服務(wù)需求與立體語篇特征標(biāo)注法

        主動(dòng)型檢索由用戶主導(dǎo),按自己感興趣的關(guān)鍵詞檢索。這種檢索也是一種主動(dòng)創(chuàng)造。因?yàn)闄z索結(jié)果不是預(yù)期的,當(dāng)出現(xiàn)大量檢索結(jié)果超出自己的預(yù)期,就將產(chǎn)生“發(fā)現(xiàn)”的喜悅。在詞典編纂中,這些檢索結(jié)果將極大地超出其原有經(jīng)驗(yàn),大量的語言事實(shí)不斷豐富完善詞典編纂者的經(jīng)驗(yàn),同時(shí)也使詞典的釋義信息不斷豐化。

        基本的主動(dòng)定向檢索服務(wù)就是關(guān)鍵詞檢索,這是資料庫提供的基本功能。有些數(shù)據(jù)庫,提供了一些可選擇的定向檢索服務(wù),如允許用戶在指定作者、指定著作、指定分類中進(jìn)行定向檢索,這是非常符合用戶需要的,能使檢索的指向更集中,檢索結(jié)果更具針對性,但能提供的定向條件太少了,這也成了當(dāng)前資料庫的最大應(yīng)用“短板”。

        衡量一個(gè)資料庫檢索服務(wù)的水平,很重要的標(biāo)準(zhǔn)是其定向檢索條件的多樣性,這需要建立語篇屬性的多維度、多角度、多特征的立體標(biāo)記法。

        多維度主要指的是用戶維度。要建立多用戶觀念,分清文獻(xiàn)研究用戶、古代文學(xué)研究用戶、古代史研究用戶、漢語史研究用戶、文字學(xué)研究用戶、歷史性詞典編纂用戶等,這樣可以保證一庫多用,在增強(qiáng)資料庫用戶群的適用面的同時(shí),又不影響其服務(wù)的針對性。維度在檢索時(shí)可由用戶自主選擇,而各維度中和用戶無關(guān)的角度和屬性標(biāo)記則忽略不計(jì),這樣可以實(shí)現(xiàn)檢索的精確化。

        每個(gè)用戶還可根據(jù)需要,設(shè)定語篇標(biāo)注角度和具體的語篇屬性特征群,如語篇載體角度,要建好語篇名、內(nèi)容的主題分類、文體類型、版本、總字?jǐn)?shù)、字種數(shù)、難易度與文字密度、語體風(fēng)格屬性、文獻(xiàn)典型性等特征群;時(shí)間角度要建好成書年代、朝代及年號、公元紀(jì)年、文本內(nèi)容年代屬性等特征群;作者角度要建好作者名、作者時(shí)代、性別、籍貫等特征群……這些屬性特征要以關(guān)鍵詞的形式確定,最后形成關(guān)鍵詞表。有了詞表,就能初步體現(xiàn)主動(dòng)型檢索的定制性和多樣性的特點(diǎn)。例如根據(jù)基于內(nèi)容主題分類標(biāo)記就可以類聚同語域文獻(xiàn),如選擇“立法文獻(xiàn)”,則《法經(jīng)》《唐律疏議》《宋刑統(tǒng)》《通制條格》《大明律》《大清律例》等材料就會(huì)自動(dòng)類聚成一個(gè)小型立法法律資料庫;選擇“司法文獻(xiàn)”,則《龍筋鳳髓判》《棠陰比事》《折獄龜鑒》等材料就會(huì)自動(dòng)類聚成一個(gè)古代司法資料庫,為歷史語文詞典中的法律百科詞的編纂提供了幫助。

        有了語篇屬性的立體標(biāo)記群,還可進(jìn)行跨類系聯(lián)檢索。例如查找“凌遲”一詞時(shí),除了在前面所說的法律文獻(xiàn)子庫中進(jìn)行查詢,也可自動(dòng)跨庫系聯(lián)二十四史中的“刑法志”、類書《文苑英華》中的判詞等材料進(jìn)行擴(kuò)展測查,提供這些法律詞語在司法語境中的使用情況。目前,“北大法寶”[2]最新的技術(shù)就是開發(fā)了法規(guī)條文和相關(guān)案例、裁判文書、法學(xué)文獻(xiàn)等信息之間的關(guān)聯(lián)功能,不僅能直接查找到目標(biāo)關(guān)鍵詞,還可鏈接與此相關(guān)的其他法律、法規(guī)、司法解釋、案例、裁判文書、法律釋義、實(shí)務(wù)指南和法學(xué)論文,能快速、全面、準(zhǔn)確地提供使用者所需要的相關(guān)法律知識。但在古籍?dāng)?shù)字資料庫中,這種自動(dòng)的跨類檢索還沒有做過探索和嘗試。

        另外,有了多維度的特征標(biāo)注集,還可以實(shí)現(xiàn)自由的組合檢索,不同的組合檢索將產(chǎn)生不同的檢索結(jié)果,從而以材料的獨(dú)特發(fā)現(xiàn)保證詞典內(nèi)容的新穎性,這樣編纂出來的詞典與同類詞典相比創(chuàng)新性更為突出,更具競爭優(yōu)勢。

        3.2 滿足自動(dòng)型檢索需求與語義聯(lián)想

        主動(dòng)檢索是檢索的主要方式,但畢竟是有目的的檢索,需要用戶有充足的預(yù)備知識,而且有既定思路。這一思路有時(shí)會(huì)因檢索者知識儲(chǔ)備的不足或盲區(qū),遺漏一些重要的語言事實(shí)和語言現(xiàn)象,自動(dòng)型檢索可很好地彌補(bǔ)這一缺陷。

        詞語在一種語言中都是處于一個(gè)復(fù)雜的語義網(wǎng)絡(luò)中,詞和詞之間通過類義、同義、反義等最多達(dá)幾十種語義關(guān)系進(jìn)行復(fù)雜的線性和非線性聯(lián)系。近些年已經(jīng)建立了很多大型的“語義網(wǎng)”知識庫,如詞網(wǎng)、知網(wǎng)等。基于語義網(wǎng)的檢索在詞典編纂中尤其重要。

        詞典編纂是一個(gè)系統(tǒng)工程,詞條的釋義并非是個(gè)體獨(dú)立的,詞和詞義都處于一個(gè)復(fù)雜的網(wǎng)絡(luò)中,任何一個(gè)人都不可能憑個(gè)人力量掌握所有的已有詞匯信息。而有了語義網(wǎng),就可以對海量文本數(shù)據(jù)進(jìn)行自動(dòng)的知識挖掘和數(shù)據(jù)挖掘,將與搜索關(guān)鍵詞有語義關(guān)系的其他詞的用例全部類聚出來,從而使檢索擁有了“語義聯(lián)想”的功能。這一自動(dòng)型聯(lián)想機(jī)制所形成的擴(kuò)展檢索不是由用戶控制的,而是由計(jì)算機(jī)自動(dòng)提供的,既可為用戶提供重要的二次檢索的線索,也可為用戶提供大量知識儲(chǔ)備以外的檢索線索,從而彌補(bǔ)用戶知識面的不足。如果與主動(dòng)檢索的方式相結(jié)合,效果更好。

        對于古籍資料庫,建立這樣的語義網(wǎng)絡(luò)是有基礎(chǔ)的,因?yàn)楝F(xiàn)在已經(jīng)有大量的紙媒知識庫,如人名詞典、地名詞典、職官名詞典、文化詞典以及雅書等類型資料匯編和辭書,如果能用現(xiàn)代知識本體理念整合這些已有的歷史語言知識工程,建立一個(gè)全面的、層次清晰的古代詞匯語義網(wǎng)是可能實(shí)現(xiàn)的。誰先擁有這樣一個(gè)知識工程,誰將領(lǐng)導(dǎo)下一代古籍?dāng)?shù)字資料庫的發(fā)展方向,同時(shí)對詞典編纂者的吸引力也就最大。

        目前,李鐸在這方面做了一些研究,[3]如在《資治通鑒》中,結(jié)合擴(kuò)充的正史、墓志、地方志、家譜、年譜、筆記等文獻(xiàn),可以要求計(jì)算機(jī)自動(dòng)報(bào)告唐代皇族世系關(guān)系,生成一個(gè)以李淵為根的一個(gè)大型樹狀結(jié)構(gòu),不僅如此,再由母系“戚”的關(guān)系聯(lián)絡(luò)到李氏以外的人物,一個(gè)唐代社會(huì)結(jié)構(gòu)圖也會(huì)由此而產(chǎn)生。這一研究為服務(wù)于詞典編纂的古籍?dāng)?shù)字資料庫的建設(shè)提供了借鑒的樣板。

        3.3 滿足全面的輔助檢索需求——以生僻詞和常用詞的檢索為例

        主動(dòng)型和自動(dòng)型檢索可以稱為用戶的主檢索行為,要提高一個(gè)古籍語料庫對詞典編纂的服務(wù)水平,還要設(shè)計(jì)全面的輔助檢索功能。例如,歷史語文詞典收詞包括常用詞和偏僻詞,這兩種詞的處理對資料庫的檢索功能的要求是不同的。

        在資料庫中檢索生僻詞時(shí),結(jié)果不會(huì)太多,處理起來較容易。但要保證兩方面目標(biāo)的實(shí)現(xiàn):

        第一,查全率。即資料要全,詞典所收錄的生僻詞盡量都能在資料庫中檢索到用例。

        第二,查準(zhǔn)率。古漢語字、詞多同形,生僻詞在文字層面很多時(shí)候指的是生僻字,生僻字的最大特點(diǎn)是異體字多,與其他字之間的“通”“同”等字際關(guān)系比較復(fù)雜,所以常出現(xiàn)查錯(cuò)現(xiàn)象。為此,我們曾經(jīng)做過專門的研究。[4]很多資料庫在檢索時(shí)都建好了字際關(guān)系整理表,查找一個(gè)關(guān)鍵字時(shí),其異體關(guān)系也都在檢索范圍之內(nèi),這是一個(gè)很好的解決思路。

        但字際關(guān)系是很復(fù)雜的,現(xiàn)在的系聯(lián)工作還不夠全面和細(xì)致。其中有一點(diǎn)至關(guān)重要,那就是一個(gè)字往往是多音、多義、多用字,而字際關(guān)系往往發(fā)生在某一個(gè)具體的義項(xiàng)上,所以系聯(lián)時(shí)不能簡單化地以詞位來對應(yīng),而應(yīng)該落實(shí)到詞項(xiàng),即以音帶義,以義定用,嚴(yán)格按照這一原則建立一個(gè)字際關(guān)系網(wǎng)絡(luò),對于提高古籍檢索的查準(zhǔn)率和查全率都有裨益。為實(shí)現(xiàn)這一目標(biāo),我們正在研制基于Unicode大字符集的“字網(wǎng)”。

        古漢語常用詞的數(shù)目大體是固定的,幾千年來基本詞匯因其穩(wěn)定性特點(diǎn),詞種變化不是太大。在一個(gè)巨型資料庫中檢索常用詞,常會(huì)出現(xiàn)幾萬甚至幾十萬條的數(shù)據(jù),而一般人手工處理檢索結(jié)果的數(shù)目最高閾值在2000條左右,這使常用詞語例的利用反而更困難。這種不足主要是由兩種原因造成:

        第一,重復(fù)用例。例如后世古籍經(jīng)常會(huì)引用前世古籍,就會(huì)產(chǎn)生大量重復(fù)的例句,即使不是原句的重復(fù),固定搭配字串的重復(fù)率也非常高,所以檢索結(jié)果重復(fù)率的控制以及重復(fù)檢索結(jié)果的有效過濾一直是資料庫所要面對的重要問題。

        第二,呈現(xiàn)方式。當(dāng)前資料庫檢索結(jié)果的呈現(xiàn)方式一般是采用篇目呈現(xiàn),而不是例句。使用檢索結(jié)果時(shí)需要逐一打開才能看到例句及其上下文,這種呈現(xiàn)方式當(dāng)然也就無法應(yīng)用“關(guān)鍵詞居中”技術(shù)。另外,這種顯示方式整體性差,無法對檢索結(jié)果產(chǎn)生直觀的印象,而詞典編纂有時(shí)特別倚重語感,語感往往就是由這些直觀印象觸發(fā)的。

        可有針對性地采用以下措施對檢索結(jié)果進(jìn)行限制:

        第一,過濾重復(fù)結(jié)果。如果古籍文獻(xiàn)有句讀,可以順利地過濾掉完全重復(fù)的例句,如果沒有句讀,根據(jù)古文獻(xiàn)短句多的特點(diǎn),將檢索跨距設(shè)置為5—8個(gè)字符(5字串以下詞匯單位所占比例較大),然后類聚相同的詞匯串,最后過濾重復(fù)的詞匯串用例。

        第二,抽樣提取。如果檢索結(jié)果數(shù)量過大,用戶可設(shè)定例句提取的間隔行,如每n行提取一條例句,這樣雖可能有遺漏,但便于詞典編纂者總體了解一個(gè)常用詞的大體使用情況,根據(jù)一些抽樣出來的線索,再進(jìn)行二次定向檢索。

        第三,二次檢索??筛鶕?jù)語篇屬性的立體特征群對海量檢索結(jié)果進(jìn)行二次檢索。二次檢索常用到組合檢索方式。詞典編纂者大多是文科出身,所以最好將多特征組合檢索所要用的表達(dá)式直觀化,設(shè)置好窗口界面的編程控件,讓用戶通過簡單的點(diǎn)擊操作就可完成合取、析取、排除檢索、跨距等方面的設(shè)置。

        第四,檢索結(jié)果以例句的形式顯示。例句及其前后語境是詞典編纂的第一關(guān)注點(diǎn),一屏顯示多個(gè)例句并減少操作步驟,這本身也是約束常用詞過多檢索結(jié)果的便捷處理方式。

        綜上所述,我們提出了圖書館古籍?dāng)?shù)字資料庫服務(wù)于語文詞典編纂的建設(shè)方向,即內(nèi)容方面要滿足五個(gè)方面的平衡性要求,服務(wù)方面要滿足主動(dòng)檢索、自動(dòng)檢索、輔助檢索的功能需要。圍繞這一建設(shè)方向進(jìn)行圖書館古籍?dāng)?shù)字資料庫的開發(fā)和應(yīng)用,才能形成開發(fā)者和用戶多贏的局面。同時(shí)這八方面的要求也會(huì)成為評價(jià)圖書館古籍?dāng)?shù)字資料庫質(zhì)量的重要參數(shù)或參考標(biāo)準(zhǔn)。

        [1] Eggins Suzanne.An Introduction to Systemic Functional Linguistics[M].London:Pinter,1994:61.

        [2]“北大法寶——中國法律檢索系統(tǒng)”能幫我們做什么 [EB/OL].[2010-11-23].http://www.chinalaw info.com/bdfb/Lib_02.asp.

        [3]李鐸.從檢索到分析——計(jì)算機(jī)知識服務(wù)的時(shí)代[J].文學(xué)遺產(chǎn),2009(1):135-137.

        [4]王東海.古文獻(xiàn)數(shù)字語料庫的異形字處理[J].語言文字應(yīng)用,2005(4):116-120.

        猜你喜歡
        資料庫古籍詞典
        中醫(yī)古籍“疒”部俗字考辨舉隅
        基于內(nèi)容與協(xié)同過濾的GitHub學(xué)習(xí)資料庫推薦
        關(guān)于版本學(xué)的問答——《古籍善本》修訂重版說明
        天一閣文叢(2020年0期)2020-11-05 08:28:06
        國家社科基金重大項(xiàng)目“‘古今字’資料庫建設(shè)與相關(guān)專題研究”成果鑒定會(huì)順利召開
        施工企業(yè)技術(shù)資料庫的建立與完善
        天津科技(2020年5期)2020-01-08 12:27:35
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        關(guān)于古籍保護(hù)人才培養(yǎng)的若干思考
        天一閣文叢(2018年0期)2018-11-29 07:48:08
        評《現(xiàn)代漢語詞典》(第6版)
        我是古籍修復(fù)師
        金橋(2017年5期)2017-07-05 08:14:41
        詞典例證翻譯標(biāo)準(zhǔn)探索
        岛国熟女精品一区二区三区| 中文字幕亚洲乱码熟女一区二区| 国产自产精品露脸刺激91在线| 久久久久久无中无码| 亚洲av乱码一区二区三区观影| 国产一区资源在线播放| 亚洲精品国产第一综合色吧 | 青春草在线视频免费观看| 免费观看又色又爽又黄的韩国| 国产精品美女AV免费观看| 亚洲综合免费在线视频| 亚洲天堂av在线免费观看| 8x国产精品视频| 水蜜桃精品一二三| 亚洲中久无码永久在线观看软件| 国产91AV免费播放| 美女被内射很爽的视频网站| 日韩av免费在线不卡一区| 久久91精品国产一区二区| 亚洲成a∨人片在线观看无码| 肥臀熟女一区二区三区| 亚洲免费天堂| 99精品国产av一区二区| 美女免费观看一区二区三区| 色哟哟最新在线观看入口| 四虎影视4hu4虎成人| 本道无码一区二区久久激情| 亚洲中文字幕诱惑第一页| 精品国产自在现线看久久| 精品国产精品国产偷麻豆| 99热久久这里只精品国产www| 日韩毛片久久91| 亚洲一区在线二区三区| 国产精品美女久久久免费| 日韩欧群交p片内射中文| 99热成人精品国产免| 国产精品又黄又爽又色| 亚洲熟妇自偷自拍另类| 日本怡春院一区二区三区| 国产精品久久久久久久久免费观看 | 亚洲一区二区三在线播放|