李明杰 劉 峰
(武漢大學(xué)信息管理學(xué)院,武漢,430072)
1949年至今,我國古籍整理事業(yè)取得了輝煌成就,但對(duì)于古代科技文獻(xiàn)仍存在整體發(fā)展不充分、學(xué)科分布不平衡、利用方式不鮮活等問題:公開出版的整理成果約2000種,不足現(xiàn)存古代科技文獻(xiàn)總量的1/10;絕大多數(shù)成果為中醫(yī)藥典籍,無法反映先賢智慧的全貌[1];已有的古代科技文獻(xiàn)整理成果大多停留在文本復(fù)原、內(nèi)容組織的層面,未能充分闡釋其時(shí)代價(jià)值,特別是在與當(dāng)下鄉(xiāng)村振興、健康中國等重大戰(zhàn)略相結(jié)合的活化利用方面存在明顯不足。
當(dāng)前,國家正在推進(jìn)古籍整理向“文本結(jié)構(gòu)化、知識(shí)體系化、利用智能化”轉(zhuǎn)型[2],而語義出版所具有的內(nèi)容結(jié)構(gòu)化、數(shù)據(jù)融合化、信息可視化、對(duì)象關(guān)聯(lián)化、閱讀個(gè)性化[3]等特征,正好與之相契合。作為結(jié)合自然語言處理、本體可視化等技術(shù)發(fā)展起來的一種新興出版形態(tài),語義出版在古代科技文獻(xiàn)整理中的應(yīng)用,恰可彌補(bǔ)古代科技文獻(xiàn)活化利用的不足。而且,古代科技文獻(xiàn)在語義出版的適用性方面,具備了一定基礎(chǔ):有的古代科技文獻(xiàn)內(nèi)部形成了獨(dú)立的知識(shí)分類體系(如《本草綱目》就建立了1個(gè)16部、60類的藥物分類法);有的古代科技文獻(xiàn)之間因?yàn)橹鲞^程中的采摭與編錄,形成了錯(cuò)綜復(fù)雜的引證關(guān)系;另外,還構(gòu)建了《中國中醫(yī)藥學(xué)主題詞表》這樣的專業(yè)性知識(shí)組織系統(tǒng)。
有鑒于此,筆者以自編的《中國古代科技文獻(xiàn)總目(農(nóng)學(xué)卷)》(以下簡稱《總目》,稿本)為書目本體的數(shù)據(jù)來源,探討語義出版在農(nóng)學(xué)古籍整理中的應(yīng)用途徑與方法,以期為其他學(xué)科門類的古代科技文獻(xiàn)的整理提供一定的參考。
2001年6月,由南京農(nóng)業(yè)大學(xué)整合中國農(nóng)業(yè)遺產(chǎn)研究室在內(nèi)的相關(guān)學(xué)科力量成立的中華農(nóng)業(yè)文明研究院,承擔(dān)了中央級(jí)科研院所科技基礎(chǔ)性工作專項(xiàng)“中國農(nóng)業(yè)典籍的搜集、整理與保存”項(xiàng)目,拉開了農(nóng)學(xué)古籍?dāng)?shù)字化的序幕。該項(xiàng)目歷時(shí)兩年,除編纂出版《中國農(nóng)業(yè)古籍目錄》(收編存目農(nóng)書2084種,新增書目1441種)外,并設(shè)計(jì)制作了包括《齊民要術(shù)》《農(nóng)政全書》等16種善本書在內(nèi)的農(nóng)學(xué)古籍的電子光盤版[4]。此后,中華農(nóng)業(yè)文明研究院還建成了包括《古農(nóng)書題錄數(shù)據(jù)庫》《農(nóng)業(yè)古籍全文庫》在內(nèi)的首個(gè)中國農(nóng)史學(xué)科信息門戶[5],并在該項(xiàng)目實(shí)踐基礎(chǔ)上對(duì)農(nóng)學(xué)古籍?dāng)?shù)字化的理念、技術(shù)、服務(wù)等各方面進(jìn)行了探研[6][7][8][9][10]。同時(shí)推進(jìn)的項(xiàng)目還有國家科研院所社會(huì)公益性研究專項(xiàng)“中國農(nóng)業(yè)科技遺產(chǎn)數(shù)字化保護(hù)與利用研究”、中央級(jí)公益性科研院所基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金項(xiàng)目“中國傳統(tǒng)農(nóng)業(yè)資料搜集與整理研究”等。
清華大學(xué)科技史暨古文獻(xiàn)研究所在CALIS一、二期特色庫項(xiàng)目資助下先后建成“中國工程技術(shù)史料數(shù)據(jù)庫”(2001)、“中國水利史數(shù)字圖書館模型”(2008)等,后將資源整合成為“中國科技史數(shù)字圖書館資料庫”,其子庫“科技典籍全文庫”的工程技術(shù)類和“中國工程發(fā)明史專題庫”的農(nóng)業(yè)機(jī)械類目均包含有農(nóng)學(xué)古籍[11]。
2002年,中國農(nóng)業(yè)大學(xué)圖書館利用清華同方專業(yè)數(shù)據(jù)庫制作管理系統(tǒng)(Tongfang Professional Information System,TPI)開發(fā)了“農(nóng)書古籍圖片庫”,包括9種農(nóng)學(xué)古籍的電子光盤,后又將其網(wǎng)絡(luò)化為“農(nóng)書古籍圖片數(shù)據(jù)庫”和“農(nóng)書古籍全文圖片數(shù)據(jù)庫”。中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所承擔(dān)的2004—2006年度國家科技基礎(chǔ)性工作專項(xiàng)“農(nóng)業(yè)古籍珍藏及全文數(shù)字化研究與建設(shè)”,依托其下轄國家農(nóng)業(yè)圖書館所藏的農(nóng)書、史書、志書、類書,利用清華同方專業(yè)數(shù)據(jù)庫制作管理系統(tǒng)首次進(jìn)行了大規(guī)模的農(nóng)學(xué)古籍?dāng)?shù)字化,著錄了13044冊(cè)古籍的書目信息,鏈接了6000余冊(cè)古籍的數(shù)字對(duì)象[12]。該項(xiàng)目的理論成果較多著眼于組織管理和方案設(shè)計(jì)[13][14][15][16][17],較少涉及清華同方專業(yè)數(shù)據(jù)庫制作管理系統(tǒng)的技術(shù)實(shí)現(xiàn)[18][19]。
隨著Web2.0在我國的推廣,農(nóng)業(yè)古籍?dāng)?shù)字化也逐漸從文本的復(fù)原性逐步向語義的闡釋性和內(nèi)容的組織性整理轉(zhuǎn)移:南京農(nóng)業(yè)大學(xué)侯漢清教授的團(tuán)隊(duì)承擔(dān)的2009—2011年度國家社會(huì)科學(xué)基金重點(diǎn)項(xiàng)目“文化典籍整理與開發(fā)的智能技術(shù)研究”對(duì)農(nóng)業(yè)古籍的自動(dòng)斷句標(biāo)點(diǎn)、自動(dòng)編纂等取得突破性進(jìn)展[20][21],西南大學(xué)承擔(dān)的國家“十一五”文化發(fā)展規(guī)劃重要項(xiàng)目《中華大典·農(nóng)業(yè)典》6個(gè)分典借助媒介技術(shù)和數(shù)字化系統(tǒng),實(shí)現(xiàn)了數(shù)字化編纂[22]。豐富的農(nóng)學(xué)古籍?dāng)?shù)字化實(shí)踐活動(dòng)推動(dòng)了可視化、元數(shù)據(jù)、云計(jì)算、大數(shù)據(jù)等關(guān)鍵技術(shù)的研究和應(yīng)用進(jìn)展[23][24][25]。
近年來“數(shù)字人文”的興起促進(jìn)了跨學(xué)科研究,農(nóng)學(xué)古籍?dāng)?shù)字化研究的主體也不再局限于農(nóng)林或科技史學(xué)者,如山東大學(xué)儒學(xué)高等研究院王加華教授團(tuán)隊(duì)承擔(dān)的2020年度國家社會(huì)科學(xué)基金重大項(xiàng)目“中國古代農(nóng)耕圖像的搜集、整理與研究”最終將以數(shù)據(jù)庫的形式予以呈現(xiàn)[26],武漢大學(xué)信息管理學(xué)院吳平教授的團(tuán)隊(duì)承擔(dān)的2021年度國家社會(huì)科學(xué)基金重大項(xiàng)目“中國古農(nóng)書的搜集、整理與研究”將探索古農(nóng)書創(chuàng)造性轉(zhuǎn)化和創(chuàng)新性傳播的路徑、構(gòu)建古農(nóng)書資源開放共享與知識(shí)服務(wù)平臺(tái)作為預(yù)期成果[27]。
與古籍?dāng)?shù)字化相比,古籍的語義出版尚處于起步階段。陋見所及,僅有中華書局古聯(lián)數(shù)字傳媒科技有限公司開發(fā)的“中華經(jīng)典古籍庫”具備語義出版的概念特征[28],但該庫是以已經(jīng)整理出版的古籍點(diǎn)校本為基礎(chǔ),還不是真正意義上的語義出版[29]。其內(nèi)容組織和服務(wù)形態(tài)有如下特色:第一,標(biāo)引人名、篇目、事件、地點(diǎn)、職官、紀(jì)年等專名,并建立分類主題詞表,在此基礎(chǔ)上實(shí)現(xiàn)繁簡字、異體字、異稱等不同語詞指向同一概念的關(guān)聯(lián)檢索;第二,內(nèi)嵌“聯(lián)機(jī)詞典”“紀(jì)年換算”功能,通過字典、年表等工具書實(shí)現(xiàn)古籍文本的語義化增強(qiáng),在某些特定情況下可以視為自動(dòng)注釋;第三,可選定某段文本進(jìn)行全庫檢索,方便查找參考文獻(xiàn)、引證文獻(xiàn)和共引文獻(xiàn)等,從而實(shí)現(xiàn)多維度、跨學(xué)科的語義關(guān)聯(lián)。
作為數(shù)字出版的高級(jí)階段,語義出版要求將農(nóng)學(xué)古籍轉(zhuǎn)換成數(shù)字形態(tài)作為基礎(chǔ)資源。而為了實(shí)現(xiàn)農(nóng)學(xué)古籍?dāng)?shù)字資源的大規(guī)模組織、管理和利用,就需要開發(fā)農(nóng)學(xué)古籍知識(shí)庫。利用元數(shù)據(jù)標(biāo)準(zhǔn)將農(nóng)學(xué)古籍?dāng)?shù)字資源納入RDF的知識(shí)表示是建立農(nóng)學(xué)古籍知識(shí)庫的首要步驟,因此筆者參考《古籍類元數(shù)據(jù)規(guī)范》[30],設(shè)計(jì)出能突出農(nóng)學(xué)古籍?dāng)?shù)字資源特點(diǎn)并滿足農(nóng)林或科技史知識(shí)組織和檢索需求的“農(nóng)學(xué)古籍元數(shù)據(jù)(Metadata for Ancient Agricultural Books,MAAB)”,如表 1 所示。
表1 農(nóng)學(xué)古籍元數(shù)據(jù)的17個(gè)元素構(gòu)成
3.1.1 農(nóng)學(xué)古籍知識(shí)單元的識(shí)別
知識(shí)單元是客觀知識(shí)系統(tǒng)中具有實(shí)際意義的基本單位,具有意義完整性、表達(dá)獨(dú)立性、粒度多元性等特征[31]。根據(jù)開發(fā)農(nóng)學(xué)古籍知識(shí)庫的實(shí)際需求,農(nóng)學(xué)古籍的知識(shí)單元被劃分為3種類型,即以文獻(xiàn)整體為陳述對(duì)象的粗粒度知識(shí)單元、以文獻(xiàn)中具備查考價(jià)值篇章為陳述對(duì)象的中粒度知識(shí)單元和以人、時(shí)、地、事、物要素為陳述對(duì)象的細(xì)粒度知識(shí)單元。
粗粒度知識(shí)單元分為2個(gè)模塊:第一,單種農(nóng)學(xué)古籍或古農(nóng)書叢集的描述,例如《神農(nóng)》二十篇“其內(nèi)容應(yīng)該是關(guān)于農(nóng)耕技術(shù)的”、《農(nóng)圃四書》四卷“有《稻品》《蠶經(jīng)》《魚經(jīng)》《藝菊書》各一卷”;第二,多種農(nóng)學(xué)古籍或古農(nóng)書叢集的相關(guān)文物,例如包含了《農(nóng)圃四書》四卷、《農(nóng)桑輯要》七卷等在內(nèi)的《格致叢書》。
中粒度知識(shí)單元分為4個(gè)模塊:第一,農(nóng)田水利地圖,例如光緒刻本《山東黃河全圖》一冊(cè)為地圖集、《江蘇水利圖說》二卷每篇卷首繪有一幅地圖并附以簡要文字;第二,人、事、物圖像,例如諸本王禎《農(nóng)書·農(nóng)器圖譜》有281幅至306幅不等的插圖、光緒刻本《武林掌故叢編·捍海塘志》有《武肅王像》等;第三,表譜,例如天啟刻崇禎增修本《南河志》卷二《年表》、萬歷《古香齋寶藏蔡帖》本《荔枝譜》第七篇載有建安荔枝的32個(gè)品種;第四,手冊(cè),例如元刻本《蕃牧纂驗(yàn)方》卷上有“四時(shí)調(diào)適法”等、明刻本《問水集》卷一有“植柳六法”等。
細(xì)粒度知識(shí)單元分為3個(gè)模塊:第一,創(chuàng)作,例如《水經(jīng)》三卷的創(chuàng)作者為桑欽,創(chuàng)作方式為撰,創(chuàng)作時(shí)間為東漢,創(chuàng)作地點(diǎn)為洛陽;第二,版本,包括當(dāng)前的所在位置和過往的出版發(fā)行、流傳經(jīng)歷,例如木活字本《種田雜說》一卷現(xiàn)藏中國國家圖書館,出版時(shí)間為清光緒二十九年(1903),出版地點(diǎn)為撫郡學(xué)堂;第三,科技遺產(chǎn),包括但不限于農(nóng)業(yè)科技遺產(chǎn),例如《趙氏》五篇的相關(guān)知識(shí)“代田法”,乾隆《武英殿聚珍版叢書》本《農(nóng)書》的相關(guān)知識(shí)“木活字印刷術(shù)”。
上述9個(gè)模塊的知識(shí)單元有助于處理農(nóng)學(xué)古籍中不完整、不明確的信息,并將其納入通用的語義關(guān)聯(lián)模型[32]。
3.1.2 創(chuàng)建農(nóng)學(xué)古籍的語義關(guān)聯(lián)
上述知識(shí)單元構(gòu)成了農(nóng)學(xué)古籍知識(shí)庫的節(jié)點(diǎn)(node),語義關(guān)聯(lián)則為其邊(edge)。農(nóng)學(xué)古籍的語義關(guān)聯(lián)可以分為內(nèi)部關(guān)聯(lián)和外部關(guān)聯(lián)兩類,前者指知識(shí)單元之間固有的實(shí)體、屬性之間的關(guān)系,后者借助網(wǎng)絡(luò)本體和知識(shí)組織系統(tǒng)實(shí)現(xiàn)知識(shí)單元的有序化、網(wǎng)絡(luò)化。
第一,內(nèi)部關(guān)聯(lián)。
實(shí)體關(guān)系。美國國會(huì)圖書館的芭芭拉·蒂利特(Barbara Tillett)博士曾從“文物—作品”“等同—衍生”兩個(gè)向度區(qū)分了23種書目實(shí)體之間的關(guān)系[33],對(duì)于農(nóng)學(xué)古籍而言,可以簡化為表2所示的18種關(guān)系。
表2 農(nóng)學(xué)古籍的18種書目實(shí)體關(guān)系
屬性關(guān)系。通過提取、分析和匹配描述性元素的屬性值,可以發(fā)現(xiàn)共有相關(guān)知識(shí)、相關(guān)文物等關(guān)系,見圖1,但是創(chuàng)作者、創(chuàng)作時(shí)間等節(jié)點(diǎn)僅為字面量而非本體。
圖1 農(nóng)學(xué)古籍元數(shù)據(jù)的數(shù)據(jù)模型
第二,外部關(guān)聯(lián)。
科技遺產(chǎn)的本體化。《農(nóng)業(yè)科學(xué)敘詞表》和《中國農(nóng)業(yè)百科全書》是我國農(nóng)業(yè)農(nóng)村部指定的知識(shí)組織系統(tǒng),前者已經(jīng)設(shè)計(jì)出結(jié)構(gòu)嚴(yán)謹(jǐn)、模塊齊全、功能完備、使用友好的敘詞庫系統(tǒng)[34],后者僅有委托數(shù)字出版商制作的網(wǎng)絡(luò)版,故采用前者為主、后者為輔的做法。先將標(biāo)識(shí)農(nóng)業(yè)科技遺產(chǎn)的語詞與《農(nóng)業(yè)科學(xué)敘詞表》正式或非正式敘詞進(jìn)行模式匹配,若有未命中的語詞,再利用《中國農(nóng)業(yè)百科全書》進(jìn)行手動(dòng)查詢。
人物的本體化。農(nóng)學(xué)古籍涉及到的人物主要有創(chuàng)作者、出版者、印刷者和舊藏者,但是人物之間固有的語義關(guān)聯(lián)較少,不具備知識(shí)組織和檢索的意義。調(diào)用《上海圖書館人名規(guī)范庫》的應(yīng)用程序編程接口(Application on Programming Interface,API)[35], 可 以 自 動(dòng)生成特定人物關(guān)系圖譜。筆者以《蠶桑備要》的作者盛宣懷為例,建立了人物本體,見圖2。
圖2 盛宣懷的人物關(guān)系圖譜
時(shí)間的本體化。時(shí)間本體不僅有實(shí)體識(shí)別、語義標(biāo)注和標(biāo)簽構(gòu)建等應(yīng)用[36],而且能使表譜的知識(shí)內(nèi)容有序化、可視化:調(diào)用《中國歷史紀(jì)年表》的應(yīng)用程序編程接口構(gòu)建時(shí)間軸[37],將表譜的文字通過OCR技術(shù)保留排版格式識(shí)別,將朝代、紀(jì)年文字與時(shí)間軸匹配,而較低一格的文字作為時(shí)間軸上發(fā)生的事、存在的物,見圖3。
圖3 《泉河史》卷之五《職官表·寧陽分司》可視化
地理名稱的本體化。流傳經(jīng)歷和所在地理位置的屬性值中含有大量的收藏機(jī)構(gòu),但是處于分散狀態(tài),故不“足以備學(xué)者顧問”[38]。根據(jù)《收藏機(jī)構(gòu)名錄》提供的“館藏機(jī)構(gòu)—所在地區(qū)—地理名詞”三元組和《開放街圖》提供的地理空間數(shù)據(jù)[39][40],實(shí)現(xiàn)農(nóng)學(xué)古籍收藏機(jī)構(gòu)的地理分布的可視化,見圖4??梢暬囊饬x不僅在于提供更多檢索入口,更對(duì)特色館藏建設(shè)、館際資源共享等圖書館工作的開展大有助益。
圖4 我國農(nóng)學(xué)古籍的收藏?cái)?shù)量分布圖
地理名稱的本體化過程較為復(fù)雜;首先要通過“創(chuàng)作時(shí)間”這一修飾詞對(duì)地圖進(jìn)行斷代,然后OCR技術(shù)識(shí)別地圖中的文字說明,接著調(diào)用《中國歷史地理信息系統(tǒng)》應(yīng)用程序編程接口進(jìn)行自動(dòng)匹配[41],最終得到農(nóng)田水利地圖和斷代歷史地圖疊加的圖層,見圖5。
圖5 《太湖全圖》和清宣統(tǒng)三年(1911)歷史地圖
開發(fā)農(nóng)學(xué)古籍知識(shí)庫的最終目的是提供智能服務(wù),使用戶能夠根據(jù)需求和情境獲取信息,故筆者設(shè)計(jì)了3種服務(wù)模式:語義檢索、情境感知和關(guān)系推理。
3.2.1 語義檢索模式
語義檢索是基于概念的檢索技術(shù),它使用存儲(chǔ)在被檢索數(shù)據(jù)集外的附加語義信息提高檢索效率、優(yōu)化經(jīng)典模型[42]。語義檢索的優(yōu)勢(shì)首先體現(xiàn)在聯(lián)想查詢(Prediction Queries):第一,外來語詞拓寬了用戶群體,通過傳教士的外文原名、古人姓名的漢語拼音進(jìn)行檢索,方便海外學(xué)者使用;第二,同義詞提高了查全率,通過字、號(hào)等人物異稱檢索人物知識(shí)單元;第三,準(zhǔn)同義詞揭示了相關(guān)科技遺產(chǎn),例如“旱”的近義詞為“干”,泛指詞為“災(zāi)”,反義詞為“澇”。
語義檢索實(shí)現(xiàn)了知識(shí)單元的詞義消歧(Word Sense Disambiguation):在檢索結(jié)果較多的情況下,推薦使用限義詞在檢索界面區(qū)分二者,如檢索“大順元年”即出現(xiàn)“大順元年(唐代)”和“大順元年(張獻(xiàn)忠)”兩個(gè)選項(xiàng);在檢索結(jié)果較少的情況下,用戶可以通過人物關(guān)系、地理位置等可視化圖譜自行甄別所需信息。
語義檢索提供了多分面的瀏覽式檢索(Index Browsing):第一,書目類表不僅顯示古籍分類法固有的等級(jí)關(guān)系,而且揭示古籍及其不同版本之間的書目關(guān)系,有助于研究古代農(nóng)林或科技史、考辨農(nóng)學(xué)古籍版本源流;第二,創(chuàng)作時(shí)間和出版時(shí)間都盡量顯示準(zhǔn)確年份,與僅顯示朝代的漢文古籍?dāng)?shù)據(jù)庫相比,更加充分地體現(xiàn)了農(nóng)學(xué)知識(shí)和社會(huì)背景的互動(dòng)關(guān)系。
3.2.2 情境感知模式
所謂情境是指任何一個(gè)有助于刻畫用戶目前所處狀態(tài)的信息,可以是個(gè)體、設(shè)備、任務(wù)和時(shí)空等要素的存在方式或運(yùn)動(dòng)狀態(tài)[43]。情境感知能適應(yīng)不同用戶的治學(xué)興趣和信息需求,從而提高農(nóng)學(xué)古籍知識(shí)庫的利用率。原則上,情境可以映射任何一個(gè)元素,但出于用戶界面易用性的考慮,僅設(shè)計(jì)了下列4種情境感知模型,見表3。
表3 情境感知模型
3.2.3 關(guān)系推理模式
關(guān)系推理通過推理引擎將邏輯規(guī)則運(yùn)用到知識(shí)庫中,實(shí)現(xiàn)信息挖掘從而為用戶的自然語言檢索式提供解決方案[44],具體應(yīng)用到農(nóng)學(xué)古籍知識(shí)庫有知識(shí)補(bǔ)全、語義糾錯(cuò)和智能問答3種場景。
知識(shí)補(bǔ)全是基于現(xiàn)有知識(shí)單元和語義關(guān)聯(lián)推斷出新關(guān)系的過程,主要運(yùn)用了演繹推理的邏輯規(guī)則。以人物關(guān)系為例:已知盛宣懷和謝庭芝在晚清義賑中為合作關(guān)系,而且謝庭芝為謝家福之侄,則可以推知謝庭芝為清末民初人。
語義糾錯(cuò)實(shí)現(xiàn)了半自動(dòng)檢測(cè)并修改知識(shí)庫中實(shí)體、屬性、關(guān)系等錯(cuò)誤,主要運(yùn)用了歸納推理的邏輯規(guī)則。以書目實(shí)體為例:現(xiàn)狀屬性取值為“亡佚”的書目實(shí)體一般沒有鏈接數(shù)字對(duì)象,而佚書《農(nóng)桑撮要》七卷卻有數(shù)字對(duì)象,經(jīng)過核驗(yàn)果然發(fā)現(xiàn)是同名異書引發(fā)的錯(cuò)誤。
智能問答基于問答系統(tǒng)(Question Answering System)從知識(shí)庫的結(jié)構(gòu)化的信息內(nèi)容中對(duì)答案進(jìn)行推理。中粒度知識(shí)單元在此過程中發(fā)揮著關(guān)鍵作用,例如用戶提問“錢镠的長相是什么樣的”,先通過人物本體匹配錢镠的謚號(hào)“武肅王”,從而找到《武肅王像》。
農(nóng)學(xué)古籍知識(shí)庫作為一個(gè)真正的語義出版物,固然具有廣闊的前景,但也存在一些比較棘手的挑戰(zhàn),在今后的運(yùn)營和維護(hù)中需要格外注意。農(nóng)學(xué)古籍知識(shí)庫的應(yīng)用前景可以概括為如下3點(diǎn):第一,為中華民族農(nóng)業(yè)史梳理了堅(jiān)實(shí)而系統(tǒng)的文獻(xiàn)依據(jù),并與傳世文物、考古發(fā)掘和田野調(diào)查成果相互印證,有助于回答中華文明起源、形成和發(fā)展的基本圖景、內(nèi)在機(jī)制以及各區(qū)域文明演進(jìn)路徑等重大問題;第二,為古籍尤其是古代科技文獻(xiàn)的數(shù)字化工作提供了完備而可行的解決方案,開發(fā)其他類型古籍知識(shí)庫以農(nóng)學(xué)古籍知識(shí)庫為原型,可以復(fù)用代碼以減小工作量;第三,為農(nóng)學(xué)古籍的自然語言處理建設(shè)了大量而優(yōu)質(zhì)的語料庫,農(nóng)學(xué)古籍知識(shí)庫標(biāo)引了大量知識(shí)單元,適合作為古籍自動(dòng)分詞、斷句、標(biāo)點(diǎn)或??钡挠?xùn)練集。
農(nóng)學(xué)古籍知識(shí)庫面臨的挑戰(zhàn)首先來自于基礎(chǔ)層,最突出的問題在于缺乏健全的古籍?dāng)?shù)字化標(biāo)準(zhǔn)規(guī)范體系:古籍?dāng)?shù)字資源加工標(biāo)準(zhǔn)有《古籍印刷通用字規(guī)范字形表》,但古籍?dāng)?shù)字化硬件設(shè)備和加工方式均無國家標(biāo)準(zhǔn);古籍?dāng)?shù)字資源管理標(biāo)準(zhǔn)多停留在描述、分類層次,未深入到知識(shí)組織;古籍?dāng)?shù)字資源的應(yīng)用、服務(wù)和古籍?dāng)?shù)字化工作的標(biāo)準(zhǔn),也都處在探索階段。挑戰(zhàn)還來自于資源層:古籍的著作權(quán)早已進(jìn)入公有領(lǐng)域,但是館藏機(jī)構(gòu)將古籍進(jìn)行數(shù)字化之后形成的數(shù)據(jù)庫享有匯編作品和計(jì)算機(jī)軟件的法律地位,批量下載并進(jìn)一步開發(fā)需要遵守我國相關(guān)法律和國際通用的知識(shí)共享許可協(xié)議。
注 釋
[1] 孫顯斌.中國科技典籍整理的回顧與思考(上)[J].古籍整理出版情況簡報(bào),2018:565
[2] 新華社.中共中央辦公廳、國務(wù)院辦公廳印發(fā)《關(guān)于推進(jìn)新時(shí)代古籍工作的意見》[EB/OL].[2022-06-27].http://www.gov.cn/zhengce/2022-04/11/content_5684555.htm
[3] 王曉光,陳孝禹.語義出版:數(shù)字時(shí)代科學(xué)交流系統(tǒng)新模型[J].出版科學(xué),2012(4):81-86
[4] 農(nóng)業(yè)文明網(wǎng).中國傳統(tǒng)文化研究的一項(xiàng)重要基礎(chǔ)工程[EB/OL].[2022-06-27].http:// www.icac.edu.cn/info/1083/1406.htm
[5] 王雅戈,沈志忠.“中國農(nóng)業(yè)科技遺產(chǎn)信息數(shù)據(jù)庫建設(shè)”項(xiàng)目研究簡報(bào)[J].中國農(nóng)史,2007(1):138-140
[6] 曹玲,常娥,薛春香.農(nóng)史研究的新工具:中國農(nóng)業(yè)遺產(chǎn)信息平臺(tái)的設(shè)計(jì)與構(gòu)建[J].中國農(nóng)史,2006(1):127-133
[7] 何琳,曹玲.農(nóng)業(yè)古籍本體的構(gòu)建及其檢索機(jī)制研究[J].現(xiàn)代圖書情報(bào)技術(shù),2006(12):37-39+53
[8] 常娥,侯漢清.農(nóng)業(yè)古籍自動(dòng)編纂的設(shè)計(jì)和研究[J].南京農(nóng)業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2007(1):99-104
[9] 常娥,侯漢清,曹玲.古籍自動(dòng)校勘的研究和實(shí)現(xiàn)[J].中文信息學(xué)報(bào),2007(2):83-88
[10] 宋靜,殷子,李群.王禎《農(nóng)書》在文獻(xiàn)學(xué)、數(shù)字化方面的現(xiàn)狀研究[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2008(1):67-69
[11] 清華大學(xué)圖書館.中國科技史數(shù)字圖書館資料庫[DB/OL].[2022-06-27].http://166.111.120.21:4237/home/database/htm/browse.htm
[12] 盛玲玉.國家農(nóng)業(yè)圖書館農(nóng)業(yè)古籍?dāng)?shù)據(jù)化的探討與實(shí)現(xiàn)[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2005(12):11-13+16
[13] 常春,潘淑春,盧文林,等.基于圖像的數(shù)字化農(nóng)業(yè)古籍全文檢索方案[J].情報(bào)雜志,2005(6):56-57
[14] 常春,潘淑春.農(nóng)業(yè)古籍?dāng)?shù)字化項(xiàng)目的建設(shè)意義和SWOT分析[J].情報(bào)雜志,2005(11):117-118+121
[15] 常春,張桂英.農(nóng)業(yè)古籍?dāng)?shù)字圖書館項(xiàng)目評(píng)價(jià)方案[J].現(xiàn)代情報(bào),2005(11):59-61
[16] 盛玲玉.農(nóng)業(yè)古籍圖文數(shù)據(jù)庫建設(shè)中的質(zhì)量管理與控制[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2007(11):90-92
[17] 盧文林.農(nóng)業(yè)古籍?dāng)?shù)據(jù)庫建立和著錄實(shí)踐[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2011(11):23-26
[18] 金晨,牛離平.農(nóng)業(yè)古籍全文數(shù)字化加工技術(shù)[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2005(10):8-9
[19] 牛離平.國家農(nóng)業(yè)圖書館古籍?dāng)?shù)字圖像館藏建設(shè)的研究[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2005(10):10-12
[20] 黃建年,侯漢清.農(nóng)業(yè)古籍?dāng)嗑錁?biāo)點(diǎn)模式研究[J].中文信息學(xué)報(bào),2008(4):31-38
[21] 常娥.農(nóng)史專題資料自動(dòng)編纂系統(tǒng)的構(gòu)建與測(cè)試[J].圖書館學(xué)研究,2009(6):10-14
[22] 毛春,周安平.探索古籍整理與出版新路徑:《中華大典·農(nóng)業(yè)典》數(shù)字化編纂出版探究[J].出版發(fā)行研究,2018(6):58-60
[23] 胡以濤,惠富平.農(nóng)業(yè)文化遺產(chǎn)保護(hù)中的數(shù)字化技術(shù)應(yīng)用前景初探[J].中國農(nóng)史,2015(4):120-126
[24] 胡以濤,惠富平.元數(shù)據(jù)方法在數(shù)字人文視域下的應(yīng)用探索:以農(nóng)業(yè)文化遺產(chǎn)為例[J].圖書館,2019(1):82-87
[25] 胡最,閔慶文.構(gòu)建農(nóng)業(yè)文化遺產(chǎn)數(shù)字化保護(hù)的概念框架探討[J].地球信息科學(xué)學(xué)報(bào),2021(9):1632-1645
[26] 蒙錦賢.國家社科基金重大項(xiàng)目“中國古代農(nóng)耕圖像的搜集、整理與研究”開題論證會(huì)暨“圖像敘事與農(nóng)耕傳統(tǒng)”論壇成功舉行[EB/OL].[2022-06-27].https://www.rxgdyjy.sdu.edu.cn/info/1017/7749.htm
[27] 武漢大學(xué)廣東研究院.國家社科基金重大項(xiàng)目“中國古農(nóng)書的搜集、整理與研究”舉行開題報(bào)告會(huì)[EB/OL].[2022-06-27].http://www.whunf.com/news_view.php?SortID=12&ID=3020
[28] 中華書局有限公司下屬古聯(lián)(北京)數(shù)字傳媒科技有限公司.中華經(jīng)典古籍庫[DB/OL].[2022-06-27].http://publish.ancientbooks.cn/docShuju/platform.jspx
[29] Kuhn T, Dumontier M. Genuine semantic publishing[J]. Data Science, 2017, 1(1-2):139-154
[30] 國家圖書館.古籍類元數(shù)據(jù)規(guī)范(征求意見稿)[S/OL].[2022-06-27].https://www.lib.pku.edu.cn/portal/sites/default/ fi les/news/cms/resupload/0000001494/29.pdf
[31] 王子舟.圖書館學(xué)是什么[M].北京:北京大學(xué)出版社,2019:24
[32] Patel A, Jain S, Shandilya S K. Data of semantic web as unit of knowledge[J]. Journal of Web Engineering, 2018, 17(8): 647-674
[33] Tillett B B. Bibliographic relationships[M]//Relationships in the Organization of Knowledge.Dordrecht: Springer, 2001 : 19-35
[34] 中國農(nóng)業(yè)科學(xué)院.農(nóng)業(yè)科學(xué)敘詞表(網(wǎng)絡(luò)版)[DB/OL].[2022-06-27].http://211.103.202.31: 8080/cat
[35] 上海圖書館.上海圖書館人名規(guī)范庫[DB/OL].[2022-06-27]. http://names.library.sh.cn/mrgf/home/index
[36] 唐振貴,羅錦坤.中國古代時(shí)間本體:細(xì)化數(shù)字人文研究的時(shí)間軸向[J].圖書館雜志,2022(4):87-95+37
[37] 上海圖書館.中國歷史紀(jì)年表[DB/OL].[2022-06-27].http://data.library.sh.cn/dynasty/main
[38] 湯志鈞,湯仁澤編.梁啟超全集·第十集·論著十[M].北京:中國人民大學(xué)出版社,2018:772
[39] 上海圖書館.機(jī)構(gòu)名錄[DB/OL].[2022-06-27].http://data.library.sh.cn/organization/main
[40] The Open Street Map Foundation.Open Street Map [DB/OL]. [2022-06-27]. https://www.openstreetmap.org
[41] Center of Historical Geographical Studies of Fudan University, Harvard-Yenching Institute, etc..China Historical CHGIS[DB/OL]. [2022-06-27]. https://www.openstreetmap.org
[42] Hyv?nen E. Publishing and using cultural heritage linked data on the semantic web[M]. Cham :Springer Nature Switzerland AG, 2018 : 109
[43] 鐘義信.機(jī)制主義人工智能理論[M].北京:北京郵電大學(xué)出版社,2020:127
[44] Pearl J. Probabilistic reasoning in intelligent systems: networks of plausible inference[M]. San Francisco : Morgan Kaufmann Publishers, 1988 : 28