于亞秀,李欣
1. 華東師范大學圖書館,上海 200062;
2. 華東師范大學數(shù)據(jù)科學與工程學院, 上海 200062
“古”是相對于“今”而言的,未采用現(xiàn)代印刷技術印制的書籍,皆可被稱為古籍[1]。近些年,隨著數(shù)字化項目的推進,大量的古籍數(shù)字化成果被推出[2],除了鼎秀古籍全文平臺、中國基本古籍庫、中華經(jīng)典古籍庫等商業(yè)數(shù)據(jù)庫外,還有兩個線上開放平臺:中國哲學書電子化計劃平臺和維基文庫。線上開放的中國哲學書電子化計劃平臺收藏的文本已超過3萬部,有50億字之多,涵蓋先秦兩漢、漢代之后的眾多資料,是歷代中文文獻資料庫最大者。維基文庫典籍和史書目錄中也涵蓋了經(jīng)史子集等眾多古籍數(shù)字化資源。借助互聯(lián)網(wǎng)、大數(shù)據(jù)帶來的便利,學者得以通過互聯(lián)網(wǎng)查詢到以往不易獲得的海量文獻。
數(shù)字人文視域中,數(shù)據(jù)驅動在人文學科領域的研究范式越來越多地被采用,人文學者運用計算機技術在海量文本中發(fā)現(xiàn)更多新材料與新問題。柯平等人[3]以Web of Science核心數(shù)據(jù)集為來源,通過文獻計量法分析數(shù)字人文的研究熱點,其中文本挖掘是數(shù)字人文的實踐前沿之一,文本標注又是文本挖掘過程中重要的環(huán)節(jié)[4]。一個好的模型需要質量優(yōu)異的數(shù)據(jù)資源做支撐,數(shù)據(jù)標注是各種算法得以有效運行的關鍵環(huán)節(jié),數(shù)據(jù)標注越準確、標注的數(shù)據(jù)量越大,算法的性能就越好,能被發(fā)現(xiàn)的知識就越多。但在古籍研究中,大部分古籍研究者的文科背景及古籍數(shù)據(jù)的特殊性對人文學者的古籍文本標注工作提出了挑戰(zhàn)。
古籍研究普遍面臨文本量大、標注精度高、存在計算機技術短板的難點和痛點。而借助普適性的數(shù)據(jù)標注工具,可以提高標注效率、降低技術門檻,滿足人文學者進行多種計量分析的研究需要。因此,本文通過對古籍的特點及常見標注需求進行分析,結合MARKUS的功能及特點,提出普適性的古籍標注標準模型,探索基于MARKUS進行古籍標注的方法,助推借助數(shù)字人文工具改變古籍人文研究方式,拓寬研究規(guī)模的應用深度。
在古籍數(shù)字化項目的推動下,古籍電子化的程度越來越高,各種大型的網(wǎng)絡版、單機版的電子古籍檢索系統(tǒng)被開發(fā)出來。以袁行霈主編的《中國文學史》中所提到的古籍為例,其電子文本大部分可以在互聯(lián)網(wǎng)上找到。在古籍文本資源的數(shù)據(jù)庫構建方面,國內(nèi)外已經(jīng)有了一些重要的研究工作,古籍文本的電子化已經(jīng)取得了許多重大成果,古籍數(shù)字化數(shù)據(jù)庫見表1。此外,隨著近些年人工智能的發(fā)展和深度學習的興起,學術界開展了與古籍光學字符識別(optical character recognition,OCR)相關的眾多的科研實踐[5],古籍OCR的準確率有顯著提升?;谌斯ぶ悄艿腛CR技術及基于互聯(lián)網(wǎng)協(xié)作的古籍數(shù)字化工作平臺陸續(xù)被推出,如:如是古籍數(shù)字化平臺,中文古籍OCR等在線開放平臺,漢王、深延科技古籍字識別軟件,ABBYY、Calamari等國內(nèi)外商用軟件。這些平臺極大地方便了人文學者自主進行古籍圖片的OCR,進一步方便人文學者獲取古籍文本數(shù)據(jù)。
表1 古籍數(shù)字化數(shù)據(jù)庫
在古籍研究中,人名、官職、地理、物質等信息的標注是人文研究者常見的標注任務。近10年來,為了滿足漢語研究的需要,學術界開始嘗試建設深加工的標注型語料庫,具體工作包括對古代文獻進行詞語切分,并添加詞性、義項、語法地位標注等多方面信息,形成的語料庫可以輔助人文研究進行分詞和標注。例如,中國歷代人物傳記資料庫(China biographical database,CBDB)目前已系統(tǒng)性地收入中國歷史上重要的傳記資料,并將其內(nèi)容毫無限制地、免費地公諸學術之用,截至2021年12月,該資料庫共收錄515 488人的傳記資料,這些人物主要出自7世紀至19世紀,目前該資料庫正致力于增錄更多唐代和明清的人物傳記資料。中國歷史地理信息系統(tǒng)(China historical GIS,CHGIS)是一個免費的中國朝代地名和歷史行政單位數(shù)據(jù)庫,旨在通過建立連續(xù)的時間序列描述地名、行政建制和其他基礎地理要素隨時間的變化,記錄中國從公元前221年至1911年人口稠密地和歷史行政單位,并為用戶提供按不同歷史時期進行查詢、檢索和展示等功能。法鼓文理學院的佛學規(guī)范資料庫整合已完成的和進行中的各專案人物與地點資料,建立時間、地點、人物與佛經(jīng)目錄4個規(guī)范資料庫,并建立歷史對照年表,面向互聯(lián)網(wǎng)開放資源共享,供佛學研究專家進行項目研究。
隨著古典文獻的數(shù)字化程度不斷刷新歷史新高,學者似乎沒有理由抱怨資料不足或者難以獲取之類的問題。與此同時,數(shù)字人文學科的發(fā)展為古籍的研究帶來新的方法,技術驅動研究、數(shù)據(jù)驅動研究已成為人文學科發(fā)展的一個方向[6],不以傳統(tǒng)的近距離方式閱讀文本,而是采用遠距離閱讀,對大規(guī)模人文資源進行定量分析挖掘,借助統(tǒng)計、圖表、地圖等方式讓文本數(shù)據(jù)形象化地成為數(shù)字人文的研究熱點[7]。一個純文字的文檔對于計算機而言,是一個個平面的數(shù)值,但對于使用者來說,一篇文本中可能包含的人、事、時、地、物,甚至更多不同性質的詞匯都代表不同的意義。在古籍研究領域,對大規(guī)模古籍資源進行定量分析挖掘也已成為古籍研究中的一種新的、行之有效的辦法。文本標記是研究過程中的關鍵一步,其利用自然語言處理(natural language processing, NLP)技術,將古籍文本數(shù)據(jù)以自動或半自動的方式進行分詞、詞性標注、命名實體(常見有人名、地名、機構名)識別、關系抽取、主題建模等,從而挖掘并展示古籍文本中的潛在特征和語義信息。
數(shù)據(jù)特征方面,綜合分析蘇祺等人[8]、謝韜[9]關于古籍數(shù)字化及識別的相關文獻,分析古籍文本相對于現(xiàn)代漢語的不同,主要體現(xiàn)在現(xiàn)代漢語分詞中已有比較通用的分詞標準,如MSRA標準、CTB標準、PKU標準等,并有相應的語料庫,而在古籍方面尚缺乏統(tǒng)一的分詞標準。此外,在古籍中,單體字有比在現(xiàn)代漢語中更加豐富的意義,從字符組合中定義“詞”更加模糊。以上因素都導致現(xiàn)有的現(xiàn)代文語料上的分詞標注技術無法直接應用于古籍語料,古籍分詞比現(xiàn)代漢語更難以定義和實現(xiàn)。古代漢語的分詞處理尚處于探索、驗證階段,國內(nèi)外學者也對古籍文本分析進行了諸多研究。馬海麗等人[10]對古籍的分詞標注現(xiàn)狀進行了詳細分析。2014年錢智勇等人[11]將隱馬爾可夫模型(hidden Markov model, HMM)應用于《楚辭》的分詞標注,實驗證明這種方法是可行的,但是對詞性的標注方面還有待提升。2021年張琪等人[12]提出了面向多領域先秦典籍的分詞詞性一體化自動標注模型,實驗結果準確率達到88.97%,準確度有待提高。上述研究都未能提出成熟的普適性模型,缺乏通用性。
實踐方面,傳統(tǒng)的古籍研究主要依靠人文學者博聞強識才能進行更精準的人工標注。盡管近10年NLP技術有了飛速發(fā)展,但具體到古籍領域,可用的NLP工具并不多,目前有針對古漢語處理的NLP工具包“甲言”,以及由Yasuoka K[13]開發(fā)的另一款名為UD-Kanbun的工具包。此外,邢付貴等人[14]于2021年提出了基于互聯(lián)網(wǎng)大規(guī)模古籍語料構建古文基礎詞典的分詞技術。但這些工具包和技術都需要一定的編程基礎,對于大多數(shù)人文研究者而言,計算機技術是短板,能使用Java、Python、R等進階的編程語言進行數(shù)字人文研究的學者只是少數(shù),大多數(shù)人文學者不能通過編程解決文本標注問題。
雖然古籍以單字詞為主,但是多字詞仍占了相當大的比例,官職、人名、地名、年代等均存在大量的多字詞,而名詞、動詞、人名、年代等細類區(qū)分的詞類標注,對于古籍的研究有重要意義[15],人以及各種人和人、人和地、人和官職等之間的關聯(lián)研究,在歷史研究中經(jīng)常出現(xiàn)。目前在人名、年代、官名等方面已有成熟的語料庫,普適性的工具和模型可以幫助古籍人文研究者應對挑戰(zhàn),改進研究方式,擴展研究規(guī)模。
人文研究者進行古籍文本標注的標準流程如圖1所示。文本標注首先從數(shù)據(jù)采集開始,采集圖片、文本等多種類型的數(shù)據(jù),然后對采集的數(shù)據(jù)進行預處理,以獲得高質量數(shù)據(jù),清洗不合格的數(shù)據(jù),減少無意義的標注工作,提高標注效率。隨后制定標注目標,選擇標注工具和標注方式,對清洗后的數(shù)據(jù)進行標注。
圖1 古籍文本標注標準流程
在數(shù)據(jù)標注階段,針對不同的標注任務,選擇不同的標注方法。對于已有成熟的全自動標注模型或者自行訓練的模型,可采用全自動標注方式;半自動標注方式則用于處理沒有特定語料庫或模型的標注任務,預先標注一定數(shù)量的文本,由系統(tǒng)基于已標注的數(shù)據(jù)進行訓練,而后對剩余文本進行標注;對于標注數(shù)據(jù)量較少的標注任務,可采用人工標注方式;任務標注適用于有大量標注數(shù)據(jù)的情況,管理員將標注數(shù)據(jù)拆分,分給標注員,以減少單人標注的任務量,進而提升標注效率。
面對不同的標注任務及古籍人文研究者的技術短板,普適性的標注工具和模型尤為重要,可以幫助古籍人文研究者提高標注效率,擴展研究規(guī)模,發(fā)現(xiàn)新的知識。MARKUS 是數(shù)字人文浪潮下的一款具有很強應用性、普適性的古籍標注工具,其正式名稱為“古籍半自動標記平臺”(中文譯名:碼庫思),由荷蘭萊頓大學魏希德(Hilde De Weerdt)教授與何浩洋博士開發(fā)設計。MARKUS通過關聯(lián)多個權威語料庫實現(xiàn)古籍中歷史人名、地名、官名與時間等實體的自動標注,也為研究者提供通過定義關鍵詞列表、上下文中的關鍵詞、正則表達式等進行半自動標注的方式,且支持以txt、excel、html 格式輸出標注結果,以便做進一步分析。基于MARKUS的古籍文本標注模型如圖2所示。
圖2 基于MARKUS的古籍文本標注模型
地方志是記載地方的建筑、地理、歷史、人物、自然生態(tài)以及產(chǎn)業(yè)等資訊的著作,是研究地方史的重要參考資料。本文以《民國郫縣誌》為例,探討MARKUS如何助力人文研究者進行古籍文本標注,改變古籍人文研究方式,擴大古籍人文研究規(guī)模。
設定標注任務為標注《民國郫縣誌》中的日期、官名、人名信息,以及寺廟及寺廟的朝代信息。在MARKUS中,把“民國郫縣誌.TXT”文件導入文本分析工具,通過MARKUS自動標注功能對日期、地名等信息進行快速標注,基于CBDB標記人名(全名、字號)及官名,基于中國歷史地理信息系統(tǒng)及臺灣歷史地名資料庫(Taiwan GIS,TWGIS)標記地名,基于法鼓文理學院的佛學規(guī)范資料庫中的時間規(guī)范資料庫標記日期。自動標注可在短短幾分鐘內(nèi)完成標注目標,如圖3所示,并產(chǎn)生表2所示的標注數(shù)量。
表2 使用MARKUS自動標注《民國郫縣誌》統(tǒng)計結果
圖3 使用MARKUS自動標注《民國郫縣誌》標注展示
在自動標注的基礎上,使用關鍵詞標注功能補充搜索標注《民國郫縣誌》中出現(xiàn)的寺廟及朝代信息。通過關鍵詞助手定義關鍵詞規(guī)則,系統(tǒng)自動進行全文檢索分析查找關鍵詞,然后利用詞夾子功能反復人工擴充種子、重啟演算法補充朝代信息。MARKUS關鍵詞助手和詞夾子如圖4所示。最后基于關鍵詞助手分析詞夾子得到的詞匯,進行人工篩選后定義關鍵詞、標記名稱以及字體顏色,載入正則表達式,參與全文檢索標記,最終顯示全文標注結果,如圖5所示。將標注結果保存導出生成報表,具體見表3,通過可視化工具可直觀地分析《民國郫縣誌》中寺廟的朝代分布。
圖5 使用MARKUS正則表達式進行《民國郫縣誌》全文標注
在MARKUS項目論壇中也有部分古籍人文研究實踐案例,如猶他大學副教授瑪格麗特·萬(Margaret Wan)在進行的中國小說研究項目。Margaret Wan發(fā)現(xiàn),使用傳統(tǒng)方法大規(guī)模地標注并在地圖上繪制小說中提到的地名非常困難,通過MARKUS可以很好地概述特定小說中提到的所有地方,并以《百家公案》為例,進行了基于MARKUS的研究,使用MARKUS自動標注《百家公案》中的地名,加上后續(xù)人工更正,最終的標注結果通過QGIS可視化。通過此研究,Margaret Wan也得到了啟發(fā),打算繼續(xù)用MARKUS來調(diào)查數(shù)百部中國傳統(tǒng)小說中提到的地理空間情況,以揭示大量被忽視的小說,并認為像MARKUS這樣的數(shù)字工具可以擴大人文研究的研究規(guī)模。
MARKUS借助CBDB、CHGIS等成熟語料庫實現(xiàn)精準標注歷史人物、年代、官名、地名等信息,關鍵詞助手和詞夾子功能又增加了標注的靈活性,降低了古籍人文研究者技術門檻,節(jié)省了大量人力。此外,通過與語料庫的實時關聯(lián),可拓寬人工校對和標注時參考資料的范圍,提高人工矯正及標注效率。以案例中的《民國郫縣誌》標注任務為例,基于MARKUS,半小時內(nèi)可完成任務中3 877個地名、3 070個官名、2 872個日期的精準自動標注和統(tǒng)計,以及92個寺廟朝代信息的抽取。對于大多數(shù)沒有編程基礎的人文研究者而言,不借助工具,僅靠人力完成這些標注任務,不僅需要豐富的知識儲備,也需要大量的時間,要完成Margaret Wan副教授提到的數(shù)百部中國傳統(tǒng)小說地理空間標注更是不可能的。與UD-Kanbun、甲言等專注古籍標注的工具包相比,MARKUS分詞和標注范圍的靈活性較差,但具有技術門檻低的優(yōu)點,且因其強大的語料庫,在歷史人名、地名、年代等方面標注更精準,應用領域更廣泛。
數(shù)字人文項目通常旨在從大量(半)結構化文本或異構數(shù)據(jù)中發(fā)現(xiàn)知識,數(shù)據(jù)標注在人文學者發(fā)現(xiàn)新知識的研究過程中至關重要。本文介紹基于MARKUS的古籍標注模型,通過具體的標注實踐案例,證明了MARKUS具有很好的應用性和普適性,可以彌補人文研究者的技術短板,為其提供一個相對容易起步的平臺。但MARKUS也有其局限性,在文本類型方面,文檔需為純文本格式、UTF-8編碼,其余格式不能保證正確標注,需要在數(shù)據(jù)預處理階段進行格式轉換。且MARKUS在標注范圍上有局限性,古籍文本標注的常用任務是命名實體標注和文本相似性標注[16],由于語料庫的限制,MUARKUS更側重于歷史人名、官名、地名等命名實體的精準自動標注。關于古籍標注的研究,眾多學者在努力進一步深入,不斷提出新的研究思路,更多成熟的古籍數(shù)字人文分析和標注工具開始涌現(xiàn),如DocuSky、LoGaRT等。如何深入挖掘工具的應用深度和廣度,助力古籍人文研究,值得進一步深入探討。