●李 敏 (海南師范大學(xué) 海口 571158)
古籍具有極高的研究價(jià)值,也具有一定的特殊性,經(jīng)常性的翻閱會(huì)導(dǎo)致古籍受到損害。數(shù)字人文時(shí)代出現(xiàn)了文本挖掘、數(shù)字孿生、語義技術(shù)、機(jī)器學(xué)習(xí)等技術(shù),為古籍?dāng)?shù)字化建設(shè)提供了新的研究方法和研究方式,古籍文獻(xiàn)資料能以數(shù)據(jù)形式呈現(xiàn)出來,利用計(jì)算機(jī)技術(shù)可以對(duì)古籍進(jìn)行數(shù)據(jù)化組織和處理,提高了古籍的學(xué)術(shù)價(jià)值。目前,圖書館在古籍資源建設(shè)領(lǐng)域已具有一定規(guī)模,開發(fā)了一些古籍?dāng)?shù)據(jù)庫(如鼎秀古籍、中國基本古籍庫、雕龍古籍等),為古籍研究提供了檢索途徑。但是古籍?dāng)?shù)據(jù)化組織比較偏重古籍事實(shí)的描述,缺乏一些古籍知識(shí)發(fā)現(xiàn)、知識(shí)關(guān)聯(lián)的服務(wù),同時(shí)呈現(xiàn)方式比較單一,可視化服務(wù)較少。因此本文在分析數(shù)字人文時(shí)代圖書館古籍?dāng)?shù)據(jù)化組織基本要求的基礎(chǔ)上,從注重知識(shí)關(guān)聯(lián)以及可視化呈現(xiàn)的角度提出了數(shù)字人文時(shí)代圖書館古籍?dāng)?shù)據(jù)化組織途徑,從完善古籍?dāng)?shù)據(jù)組織標(biāo)準(zhǔn)化建設(shè)、加強(qiáng)古籍知識(shí)關(guān)聯(lián)研究以及促進(jìn)不同機(jī)構(gòu)共建共享三方面為未來古籍?dāng)?shù)據(jù)化組織建言獻(xiàn)策,旨在不斷提高圖書館古籍服務(wù)的效能。
數(shù)字人文是在計(jì)算機(jī)技術(shù)的推動(dòng)下發(fā)展而來的,數(shù)字人文時(shí)代最大的特點(diǎn)是人文資料可以利用計(jì)算機(jī)實(shí)現(xiàn)數(shù)據(jù)化,使人文資料可以被量化分析[1]。目前圖書館的數(shù)字人文研究主要集中在館藏資源建設(shè),如數(shù)字資源知識(shí)圖譜構(gòu)建[2]、館藏資源數(shù)字化建設(shè)[3],圖書館人文服務(wù),如服務(wù)優(yōu)化[4]、館員職責(zé)分配[5]等方面。圖書館利用數(shù)字人文相關(guān)技術(shù)對(duì)人文資料進(jìn)行數(shù)據(jù)化,形成數(shù)字化資源,為人文研究提供豐富的學(xué)術(shù)資料。
圖書館古籍文獻(xiàn)資源具有三方面特點(diǎn):一是數(shù)量龐大,人類幾千年的歷史文明產(chǎn)生的文化遺產(chǎn)頗多[6];二是結(jié)構(gòu)比較復(fù)雜,古籍中有散文、小說、地方志等,內(nèi)容復(fù)雜多樣;三是表現(xiàn)形式多樣,語言隔閡、文化差異以及不同的傳播途徑導(dǎo)致古籍形式多樣。古籍不同于一般的圖書,經(jīng)常性的翻閱會(huì)對(duì)古籍造成一定的損害。目前圖書館古籍資源的研究主要集中在資源開發(fā)利用與保護(hù)[7-8]、古籍?dāng)?shù)據(jù)庫建設(shè)[9]、知識(shí)組織應(yīng)用研究[10]等方面。圖書館對(duì)古籍的數(shù)據(jù)化組織需要保證古籍的真實(shí)性、完整性和可讀性,通過計(jì)算機(jī)揭示古籍資源的形式,發(fā)現(xiàn)古籍知識(shí)間的規(guī)律,實(shí)現(xiàn)知識(shí)之間的關(guān)聯(lián)性,促進(jìn)知識(shí)共享,從而更好地為學(xué)術(shù)研究服務(wù)。
古籍具有豐富的學(xué)術(shù)與研究價(jià)值,同時(shí)又具有一定的特殊性。通過計(jì)算機(jī)技術(shù)實(shí)現(xiàn)古籍?dāng)?shù)據(jù)化組織對(duì)于古籍的保護(hù)、利用和共享具有重要的意義。目前古籍?dāng)?shù)字化建設(shè)雖然取得了一定的進(jìn)展,但仍存在缺乏統(tǒng)一的編目標(biāo)準(zhǔn)、文字轉(zhuǎn)化率不高等問題。由于各個(gè)圖書館使用的數(shù)字化平臺(tái)不同,數(shù)據(jù)格式存在差異,古籍?dāng)?shù)字資源無法直接轉(zhuǎn)換,限制了古籍?dāng)?shù)字資源的檢索和共享。數(shù)字人文時(shí)代開展古籍?dāng)?shù)據(jù)化組織的意義,一是增強(qiáng)古籍?dāng)?shù)據(jù)化組織的標(biāo)準(zhǔn)化和規(guī)范化;二是提高古籍利用率,促進(jìn)古籍文獻(xiàn)資源的傳播;三是為人文研究提供可靠的數(shù)據(jù)來源,提高古籍的學(xué)術(shù)價(jià)值。
數(shù)字人文時(shí)代古籍?dāng)?shù)據(jù)化組織必須保證古籍的真實(shí)可靠。古籍?dāng)?shù)據(jù)真實(shí)性主要體現(xiàn)在以下四個(gè)方面:古籍來源可溯源到原始材料;古籍加工、處理、分析過程需要保證數(shù)據(jù)一致性;針對(duì)某一類古籍?dāng)?shù)據(jù)收錄的比較齊全,覆蓋面廣;系統(tǒng)能夠準(zhǔn)確呈現(xiàn)出古籍?dāng)?shù)據(jù)化組織結(jié)果,確保數(shù)據(jù)真實(shí)性。數(shù)字人文時(shí)代古籍?dāng)?shù)據(jù)的真實(shí)性將直接影響古籍的可信度以及古籍的利用效率。
數(shù)字人文時(shí)代最大的特點(diǎn)是人文數(shù)據(jù)可以被量化分析,古籍?dāng)?shù)據(jù)化組織的基礎(chǔ)是古籍?dāng)?shù)據(jù)可計(jì)算性。古籍本不具備數(shù)字特征,通過計(jì)算機(jī)技術(shù)實(shí)現(xiàn)古籍的數(shù)字化,使古籍具有明確的計(jì)量屬性,揭示了古籍的多種屬性,并通過對(duì)這些屬性進(jìn)行描述與標(biāo)注,為后續(xù)古籍?dāng)?shù)據(jù)的挖掘與知識(shí)關(guān)聯(lián)奠定基礎(chǔ)。
古籍?dāng)?shù)據(jù)差異性大,數(shù)據(jù)混雜,可能存在數(shù)據(jù)孤島現(xiàn)象。數(shù)字人文時(shí)代古籍?dāng)?shù)據(jù)化組織的目的是提高古籍?dāng)?shù)據(jù)的利用效率以及更好地服務(wù)于學(xué)術(shù)研究,因此古籍?dāng)?shù)據(jù)化組織的過程需要保證古籍?dāng)?shù)據(jù)的可獲得性、可訪問性。為了提高古籍?dāng)?shù)據(jù)的可獲得性,古籍?dāng)?shù)據(jù)化組織必須加強(qiáng)數(shù)據(jù)揭示以及數(shù)據(jù)的著錄、本體等的描述,注重古籍?dāng)?shù)據(jù)關(guān)聯(lián)以及知識(shí)發(fā)現(xiàn)。古籍?dāng)?shù)據(jù)檢索工具的實(shí)用性、準(zhǔn)確性、響應(yīng)速度同樣對(duì)數(shù)據(jù)的可獲得性產(chǎn)生較大影響。
數(shù)字人文時(shí)代各種計(jì)算機(jī)技術(shù)發(fā)展迅猛,為古籍?dāng)?shù)據(jù)化組織提供了文本識(shí)別技術(shù)[11]、文本挖掘技術(shù)[12]、地理信息系統(tǒng)技術(shù)[13]、關(guān)聯(lián)數(shù)據(jù)技術(shù)等,提高了古籍文獻(xiàn)數(shù)據(jù)化組織的智能化水平。傳統(tǒng)模式下的古籍?dāng)?shù)據(jù)化管理主要是深入分析單一數(shù)據(jù)源,數(shù)字人文時(shí)代強(qiáng)調(diào)對(duì)古籍?dāng)?shù)據(jù)源的多視角分析,實(shí)現(xiàn)古籍知識(shí)關(guān)聯(lián)。數(shù)字人文時(shí)代圖書館古籍文獻(xiàn)資源的數(shù)據(jù)化組織包含古籍?dāng)?shù)字化、古籍?dāng)?shù)據(jù)融合、實(shí)現(xiàn)知識(shí)關(guān)聯(lián)及應(yīng)用三方面內(nèi)容(見圖1)。古籍?dāng)?shù)字化是古籍?dāng)?shù)據(jù)化組織的基礎(chǔ),將紙質(zhì)資源轉(zhuǎn)化為數(shù)字資源,實(shí)現(xiàn)古籍資源在數(shù)字世界的映射,使得古籍資源能夠被計(jì)算機(jī)存儲(chǔ)。古籍?dāng)?shù)據(jù)融合是古籍?dāng)?shù)據(jù)化組織的核心環(huán)節(jié),是實(shí)現(xiàn)古籍知識(shí)關(guān)聯(lián)的關(guān)鍵,將多源異構(gòu)多模的古籍?dāng)?shù)字資源進(jìn)行融合,進(jìn)行多維度數(shù)據(jù)挖掘和分析,發(fā)現(xiàn)更多古籍?dāng)?shù)據(jù)間的規(guī)律。古籍知識(shí)關(guān)聯(lián)是古籍?dāng)?shù)據(jù)化組織的目的,通過語義技術(shù)和關(guān)聯(lián)技術(shù)構(gòu)建古籍知識(shí)網(wǎng)絡(luò),發(fā)現(xiàn)隱性古籍知識(shí),促進(jìn)古籍知識(shí)的利用和共享。最后通過可視化工具如文本可視化工具、HTML可視化工具、XML可視化工具等將古籍?dāng)?shù)據(jù)化組織結(jié)果呈現(xiàn)出來,幫助用戶快速理解和分析古籍。
圖1 數(shù)字人文時(shí)代古籍?dāng)?shù)據(jù)化組織的途徑
數(shù)字人文時(shí)代開發(fā)了很多數(shù)字化處理古籍的工具,為古籍?dāng)?shù)據(jù)化組織提供了可行方案。古籍?dāng)?shù)字化的核心是將紙質(zhì)古籍轉(zhuǎn)化為可量化分析的數(shù)據(jù),重組文獻(xiàn)的內(nèi)容,便于后續(xù)的古籍?dāng)?shù)據(jù)加工與分析。目前古籍?dāng)?shù)字化流程主要包含4個(gè)步驟:古籍掃描、文獻(xiàn)識(shí)別、文獻(xiàn)數(shù)字化、信息入庫。古籍掃描大多采用線性CCD掃描,既可以采用V模型,也可以采用平面模式掃描古籍。通過線性CCD掃描能捕捉到古籍中的所有內(nèi)容,同時(shí)減少掃描對(duì)古籍的傷害,保護(hù)珍貴古籍。文獻(xiàn)識(shí)別一般采用光學(xué)字符識(shí)別技術(shù),通過特征提取和特征識(shí)別實(shí)現(xiàn)古籍文本、圖像、表格等的識(shí)別。文獻(xiàn)數(shù)字化是指將識(shí)別后的古籍進(jìn)行重組,轉(zhuǎn)化為可量化分析的數(shù)據(jù),便于后續(xù)文本挖掘與分析。信息入庫是最后將識(shí)別出的紙質(zhì)古籍資源錄入數(shù)據(jù)庫。
古籍?dāng)?shù)字化的過程需要保證古籍的完整性、準(zhǔn)確性,同時(shí)還需要減少對(duì)古籍的損傷。如通過冷光掃描儀,采用非接觸掃描結(jié)合冷光技術(shù)大幅度減少了對(duì)古籍的損害,同時(shí)掃描速度快,掃描準(zhǔn)確度高,可以將掃描完成的古籍轉(zhuǎn)化為pdf、word等格式,為后續(xù)古籍處理和分析提供了便利。圖書館在古籍?dāng)?shù)字化處理階段,可以選擇與數(shù)字化供應(yīng)商合作,保障古籍掃描工具的性能,提高古籍?dāng)?shù)字化處理效率。
數(shù)據(jù)融合是實(shí)現(xiàn)古籍?dāng)?shù)據(jù)化組織的關(guān)鍵,對(duì)提高古籍資源利用率至關(guān)重要。古籍?dāng)?shù)據(jù)融合是采用一定的方法聚合或整合同一對(duì)象的多個(gè)屬性,消除數(shù)據(jù)冗雜,生成該對(duì)象的綜合數(shù)據(jù)集。古籍?dāng)?shù)據(jù)融合遵循一些通用的古籍編目規(guī)則,對(duì)不同來源的數(shù)字化古籍資源進(jìn)行清理和數(shù)據(jù)轉(zhuǎn)換,構(gòu)建結(jié)構(gòu)化數(shù)據(jù),通過數(shù)據(jù)組合和聚合形成相應(yīng)的數(shù)據(jù)集。
古籍?dāng)?shù)據(jù)融合包含異構(gòu)數(shù)據(jù)、多源數(shù)據(jù)、多模數(shù)據(jù)融合,從數(shù)據(jù)簡(jiǎn)單組合到特征提取分析再到語義信息融合,層層遞進(jìn),將不同屬性以及可能存在關(guān)聯(lián)的數(shù)據(jù)融合成新的數(shù)據(jù)集,增強(qiáng)了古籍?dāng)?shù)據(jù)的完整性。
古籍?dāng)?shù)據(jù)集是多源異構(gòu)古籍?dāng)?shù)據(jù)融合的數(shù)據(jù)集,數(shù)據(jù)集之間存在著緊密的關(guān)系,通過元數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)等聚類方法進(jìn)行古籍知識(shí)聚合和集成,建立數(shù)據(jù)間的語義關(guān)聯(lián),構(gòu)建知識(shí)鏈條,形成知識(shí)網(wǎng)絡(luò)。古籍知識(shí)關(guān)聯(lián)過程包含元數(shù)據(jù)構(gòu)建、本體設(shè)計(jì)、數(shù)據(jù)關(guān)聯(lián)等。通過構(gòu)建語義本體,顯示古籍資源之間的關(guān)聯(lián)關(guān)系,揭示古籍知識(shí)內(nèi)容,實(shí)現(xiàn)古籍?dāng)?shù)據(jù)鏈接的新模式。知識(shí)圖譜是古籍?dāng)?shù)據(jù)關(guān)聯(lián)的一種方式,通過語義標(biāo)注和鏈接相關(guān)古籍文獻(xiàn)資源,描述相關(guān)概念、實(shí)體、事件間的語義關(guān)系,建立知識(shí)網(wǎng)絡(luò),為建立知識(shí)庫以及為用戶語義檢索提供便利。
古籍知識(shí)應(yīng)用是為用戶提供古籍語義檢索的服務(wù),提高了古籍文獻(xiàn)資源的利用率,拓展了古籍知識(shí)共享范圍,同時(shí)將檢索結(jié)果通過可視化工具呈現(xiàn)出來,方便用戶直觀地了解古籍?dāng)?shù)據(jù)。例如,中華經(jīng)典古籍庫提供同義詞和關(guān)聯(lián)字檢索,為知識(shí)結(jié)構(gòu)不完整的用戶提供了檢索便利,提高了古籍的查全率,同時(shí)為科研工作者發(fā)現(xiàn)隱性關(guān)聯(lián)知識(shí)提供了檢索途徑;上海圖書館的家譜服務(wù)平臺(tái)以時(shí)間軸的方式呈現(xiàn)相關(guān)聯(lián)的名人、宗譜古籍以及相關(guān)歷史事件,方便用戶深入了解家譜文化。
計(jì)算機(jī)技術(shù)為古籍文獻(xiàn)數(shù)據(jù)化組織提供了可能,很多圖書館也開發(fā)了古籍?dāng)?shù)字化系統(tǒng),實(shí)現(xiàn)了古籍的數(shù)據(jù)化。為了減少編目規(guī)則的混亂,2003年國內(nèi)啟動(dòng)了CALIS古籍聯(lián)合編目項(xiàng)目[14],建立了古籍?dāng)?shù)據(jù)化組織的參照體系。目前國內(nèi)圖書館主要以《CALIS古籍聯(lián)機(jī)合作編目規(guī)則》為古籍編目的規(guī)則,采用統(tǒng)一的標(biāo)準(zhǔn)對(duì)古籍進(jìn)行歸類、記錄和標(biāo)引,準(zhǔn)確地揭示了古籍資源,為古籍資源整合和古籍?dāng)?shù)據(jù)庫建設(shè)提供了有利條件。未來圖書館仍需與時(shí)俱進(jìn),進(jìn)一步完善古籍?dāng)?shù)據(jù)化組織規(guī)則,提高數(shù)據(jù)的標(biāo)準(zhǔn)化和規(guī)范化,提高古籍?dāng)?shù)字化的轉(zhuǎn)化效率和速度,促進(jìn)古籍文獻(xiàn)資源智能化發(fā)展。
古籍?dāng)?shù)據(jù)化組織的目的是促進(jìn)古籍文獻(xiàn)資源的利用和共享,實(shí)現(xiàn)古籍知識(shí)關(guān)聯(lián)。本體技術(shù)是實(shí)現(xiàn)古籍知識(shí)關(guān)聯(lián)的重要工具。本體技術(shù)支持古籍自動(dòng)化編目,可以實(shí)現(xiàn)對(duì)古籍文獻(xiàn)資源的語義分析,自動(dòng)抽取古籍概念,建立古籍知識(shí)關(guān)聯(lián),形成古籍知識(shí)網(wǎng)絡(luò)。古籍的本體構(gòu)建可以從兩個(gè)角度進(jìn)行[15]:一是基于學(xué)科特色構(gòu)建領(lǐng)域本體,如中醫(yī)古籍本體構(gòu)建以中醫(yī)專業(yè)名詞為核心概念;二是基于文獻(xiàn)類型構(gòu)建領(lǐng)域本體,如人物傳記古籍本體構(gòu)建以人物和歷史事件為核心概念。未來的古籍研究仍需不斷研究開發(fā)知識(shí)表示的工具,加強(qiáng)古籍語料庫的積累,自動(dòng)更新知識(shí)組織工具,深化對(duì)古籍?dāng)?shù)據(jù)挖掘與語義關(guān)聯(lián)的研究,完善古籍知識(shí)網(wǎng)絡(luò)。
目前很多圖書館對(duì)古籍文獻(xiàn)資源進(jìn)行加工,構(gòu)建了多個(gè)古籍?dāng)?shù)據(jù)庫。不同的數(shù)據(jù)形式對(duì)不同平臺(tái)間的資源整合造成了一定的困難。因此不同機(jī)構(gòu)間應(yīng)加強(qiáng)合作,實(shí)現(xiàn)多源異構(gòu)古籍資源的融合,促進(jìn)古籍文獻(xiàn)資源的利用和共享。首先,建立統(tǒng)一的古籍?dāng)?shù)據(jù)庫,采取統(tǒng)一的數(shù)據(jù)清洗方式、統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn),為用戶提供統(tǒng)一的古籍?dāng)?shù)據(jù)資源檢索平臺(tái)。該方法可以促進(jìn)機(jī)構(gòu)間的共建共享,通過緊密的合作避免資源重復(fù)建設(shè),加強(qiáng)古籍資源數(shù)字化規(guī)范性建設(shè),提高古籍?dāng)?shù)據(jù)質(zhì)量。其次,利用跨庫檢索技術(shù),建立集成古籍?dāng)?shù)據(jù)庫系統(tǒng),用戶只需要一個(gè)檢索接口就可以檢索到多源異構(gòu)資源。該方法可以減少用戶的檢索時(shí)間,用戶僅需在集成數(shù)據(jù)庫中進(jìn)行檢索就可以得到多種數(shù)據(jù)來源。不同機(jī)構(gòu)間要不斷強(qiáng)化合作,積極為古籍?dāng)?shù)據(jù)化組織建言獻(xiàn)策,不斷完善古籍保護(hù)機(jī)制。
數(shù)字人文時(shí)代古籍?dāng)?shù)據(jù)是古籍?dāng)?shù)據(jù)化組織的基礎(chǔ)和關(guān)鍵,通過計(jì)算機(jī)技術(shù)實(shí)現(xiàn)了古籍?dāng)?shù)字化,為古籍?dāng)?shù)據(jù)挖掘與分析奠定了基礎(chǔ)。本文分析了數(shù)字人文時(shí)代圖書館古籍?dāng)?shù)據(jù)化組織的基本要求:保證古籍?dāng)?shù)據(jù)的真實(shí)性、可計(jì)算性以及可獲得性,并在此基礎(chǔ)上提出了古籍?dāng)?shù)據(jù)化組織的途徑,注重古籍?dāng)?shù)據(jù)挖掘以及知識(shí)關(guān)聯(lián),利用可視化工具直觀地展示古籍?dāng)?shù)據(jù)化組織結(jié)果。圖書館古籍?dāng)?shù)據(jù)化組織不但能提高古籍的利用效率,拓展古籍的共享范圍,而且能提高圖書館知識(shí)服務(wù)水平,帶動(dòng)人文科學(xué)的發(fā)展。未來圖書館古籍?dāng)?shù)據(jù)化組織仍需不斷完善古籍?dāng)?shù)據(jù)組織標(biāo)準(zhǔn)化建設(shè),提高古籍知識(shí)發(fā)現(xiàn)能力,加強(qiáng)機(jī)構(gòu)間共建共享,以減少數(shù)據(jù)庫重復(fù)性建設(shè)以及減少資源浪費(fèi)。