鄭童哲恒,李斌,馮敏萱,常博林,王東波
1. 南京師范大學(xué)文學(xué)院,江蘇 南京 210097;
2. 南京農(nóng)業(yè)大學(xué)信息管理學(xué)院,江蘇 南京 210095
古籍是我 國(guó)傳統(tǒng)文化的重要載體,是民族精神的集中體現(xiàn)。我國(guó)古籍浩如煙海,在綿延千年的發(fā)展過程中歷久彌新,蘊(yùn)藏了大量的歷史人文知識(shí),是研究傳統(tǒng)文化和挖掘歷史信息的珍貴材料。在眾多古籍之中,《史記》意義重大,它是中國(guó)歷史上第一部紀(jì)傳體通史,記載了從傳說中的黃帝時(shí)代至漢武帝時(shí)期共3 000多年的歷史,對(duì)后世文學(xué)和史學(xué)發(fā)展具有重要指導(dǎo)意義?!妒酚洝饭?30篇,其中列傳有70篇,共24萬余字,占《史記》全文篇幅的一半左右,記載了眾多歷史人物的言行事跡,具有很高的研究?jī)r(jià)值。
古文信息處理是指借助信息技術(shù)手段對(duì)古代漢語文本的音、形、義進(jìn)行處理和加工[1]。數(shù)字人文(digital humanities)也被稱為人文計(jì)算(humanities computing),面向人文社會(huì)科學(xué)與計(jì)算之間的交叉領(lǐng)域開展研究,通過智能檢索、文本挖掘、可視化等各種信息技術(shù)和手段達(dá)到研究目的[2]。近年來,隨著古文信息處理技術(shù)、人工智能與大數(shù)據(jù)技術(shù)的持續(xù)發(fā)展,數(shù)字人文研究范式在古籍研究中的應(yīng)用范圍不斷擴(kuò)大、應(yīng)用方式不斷演進(jìn)[3]。古籍?dāng)?shù)字人文研究為解決古代典籍因卷帙浩繁、晦澀難懂而不易開發(fā)利用等問題提供了新思路,為深入挖掘古籍文本信息、全面檢索古籍文本內(nèi)容、直觀展示古籍文本內(nèi)涵提供了新方法。
本文繼承南京師范大學(xué)開發(fā)的《左傳》[4]、《史記·本紀(jì)》(以下簡(jiǎn)稱為《本紀(jì)》)[5]和《史記·世家》(以下簡(jiǎn)稱為《世家》)3個(gè)數(shù)字人文知識(shí)庫,創(chuàng)新性、發(fā)展性地以《史記·列傳》(以下簡(jiǎn)稱為《列傳》)為研究語料,首先進(jìn)行自動(dòng)分詞和詞性標(biāo)注并進(jìn)行人工校對(duì),再進(jìn)一步人工標(biāo)注人物和地點(diǎn)等實(shí)體信息,得到《列傳》高質(zhì)量標(biāo)注文本。在此基礎(chǔ)上構(gòu)建《列傳》數(shù)字人文知識(shí)庫和檢索平臺(tái),并據(jù)此完成詞匯、人物、地點(diǎn)3個(gè)方面的信息挖掘與計(jì)量統(tǒng)計(jì),力圖運(yùn)用大數(shù)據(jù)技術(shù)推動(dòng)歷史典籍的結(jié)構(gòu)化探索,進(jìn)而為歷史文獻(xiàn)學(xué)、歷史地理學(xué)、語言學(xué)等學(xué)科的研究提供服務(wù)。
古籍?dāng)?shù)字化開發(fā)分為表層和深層兩個(gè)層次[6]。表層古籍?dāng)?shù)字化包括古籍的錄入、數(shù)字化存儲(chǔ)、網(wǎng)絡(luò)傳播等,深層古籍?dāng)?shù)字化則包括古籍的信息標(biāo)注、內(nèi)容加工和知識(shí)檢索。表層古籍?dāng)?shù)字化研究與實(shí)踐始于20 世紀(jì) 70 年代末[7],在其發(fā)展初期涌現(xiàn)出以文本錄入為基礎(chǔ)實(shí)現(xiàn)全文檢索的古籍語料庫。如中國(guó)社會(huì)科學(xué)院開發(fā)的《全唐詩》速檢系統(tǒng),提供字、詩句、標(biāo)題檢索[8];愛如生公司開發(fā)的中國(guó)基本古籍庫,提供分類、條目、全文檢索[9]。由于沒有對(duì)古籍文本進(jìn)行深加工,上述表層古籍?dāng)?shù)字化成果的功能較為單一,查全率和查準(zhǔn)率亦不夠理想。
隨著人們對(duì)古籍?dāng)?shù)字化的認(rèn)識(shí)不斷發(fā)展,數(shù)字化古籍文本的知識(shí)加工不斷完善,邁向更深的“知識(shí)域”,進(jìn)入深層古籍?dāng)?shù)字化階段。深層古籍?dāng)?shù)字化旨在對(duì)古籍內(nèi)容進(jìn)行標(biāo)注并構(gòu)建知識(shí)網(wǎng)絡(luò),進(jìn)而推動(dòng)古籍文本可視化、文本信息挖掘等工作。對(duì)古籍文本進(jìn)行詞語切分和詞性標(biāo)注,是突破基于“字”的全文檢索、構(gòu)建詞匯級(jí)別古籍?dāng)?shù)據(jù)庫的必要條件。古代漢語標(biāo)注語料庫目前較為稀少,主要有:臺(tái)灣的上古、中古漢語標(biāo)記語料庫;南京師范大學(xué)先秦、中古[10]漢語標(biāo)注語料庫;留金騰等人[11]以《淮南子》為文本構(gòu)建的上古漢語分詞及詞性標(biāo)注語料庫。針對(duì)目前古漢語標(biāo)注語料庫數(shù)量少、深度不足的問題,本文對(duì)古籍文本進(jìn)行了更深層次的數(shù)字化加工。
21世紀(jì)初興起的數(shù)字人文研究以古籍?dāng)?shù)字化為基礎(chǔ)條件,對(duì)古籍內(nèi)容進(jìn)行數(shù)據(jù)統(tǒng)計(jì)、信息和知識(shí)挖掘等處理[12]。基于知識(shí)本體(ontology)的古籍知識(shí)庫建設(shè)取得進(jìn)展。唐振貴等人[13]在時(shí)間軸上由粗至細(xì)系統(tǒng)梳理了中國(guó)古代時(shí)間譜系,構(gòu)建了涵蓋時(shí)間系統(tǒng)等五大主要模塊的中國(guó)古代時(shí)間本體。中國(guó)歷代人物傳記資料庫(China biographical database,CBDB)通過創(chuàng)建關(guān)系型數(shù)據(jù)庫,記錄了史料中保存下來的歷史人物的職業(yè)、親屬關(guān)系、社會(huì)關(guān)系等數(shù)據(jù)[14]。古籍專書數(shù)據(jù)庫亦取得成果。錢智勇等人[15]論述了楚辭知識(shí)庫和網(wǎng)站設(shè)計(jì)的實(shí)現(xiàn)步驟、技術(shù)難點(diǎn)及解決思路,力求實(shí)現(xiàn)辭賦知識(shí)的多維度關(guān)聯(lián)與智能檢索。在南京師范大學(xué)先秦語料庫的基礎(chǔ)上,許超等人[16]提取《左傳》中的人物、事件,使用社會(huì)網(wǎng)絡(luò)分析軟件Pajek建立春秋時(shí)期的社會(huì)網(wǎng)絡(luò),并對(duì)其進(jìn)行定性、定量探索性研究。李斌等人[4]在詞語切分、詞性、人物ID信息標(biāo)注的基礎(chǔ)上進(jìn)一步標(biāo)注時(shí)間、地點(diǎn)坐標(biāo)信息,構(gòu)建深度標(biāo)注的《左傳》知識(shí)庫,實(shí)現(xiàn)了一系列基于詞語、實(shí)體和時(shí)間地理信息的統(tǒng)計(jì)與可視化。相同的思路也被應(yīng)用于南京師范大學(xué)《史記·本紀(jì)》和《史記·世家》數(shù)字人文知識(shí)庫的構(gòu)建當(dāng)中。
《史記》在漢籍當(dāng)中至關(guān)重要,因此相關(guān)數(shù)字化研究很受重視。1987年,哈爾濱工業(yè)大學(xué)建成《史記》全文檢索系統(tǒng),這是中國(guó)對(duì)古文獻(xiàn)全文進(jìn)行字檢索的開創(chuàng)性成果?!抖π愎偶返裙偶洳?cái)?shù)據(jù)庫將《史記》收錄在內(nèi),提供全文檢索功能,完成了《史記》的表層數(shù)字化工作。隨著《史記》數(shù)字化走向深層階段,《瀚堂典藏》數(shù)據(jù)庫收錄《史記》,并運(yùn)用人工智能分詞技術(shù),實(shí)現(xiàn)了古籍文本基于詞的檢索。2014年中華書局推出收錄《史記》在內(nèi)的《中華經(jīng)典古籍庫》,提供專名查詢(包括人名、事件、地名、紀(jì)年、職官機(jī)構(gòu))、聯(lián)機(jī)字典、紀(jì)年換算等檢索功能[17]。
近年來,《史記》專書數(shù)字人文研究亦有發(fā)展。張琪等人[18]探究基于深度學(xué)習(xí)方法的古籍分詞詞性一體化標(biāo)注技術(shù),并將其應(yīng)用于《史記》,統(tǒng)計(jì)出《史記》中人名、地名、動(dòng)詞、時(shí)間詞4種詞類的高頻詞。劉忠寶等人[19]提出面向《史記》的歷史事件及其組成元素抽取方法,并基于此構(gòu)建《史記》事理圖譜。南京師范大學(xué)開發(fā)的《史記·本紀(jì)》數(shù)字人文知識(shí)庫,提供詞匯、人物、地點(diǎn)與地理信息系統(tǒng)(geographical information system,GIS)信息檢索功能。
綜上可知,《史記》專書深層數(shù)字化和數(shù)字人文研究已有一定成果,詞匯級(jí)別的、提供實(shí)體信息查詢的《史記》數(shù)字人文知識(shí)庫正在逐步建設(shè)當(dāng)中。本文有效結(jié)合詞匯、實(shí)體信息、GIS技術(shù)等方面,完成《史記》中《列傳》部分的內(nèi)容標(biāo)注與知識(shí)挖掘,為建成完整的《史記》數(shù)字人文知識(shí)庫補(bǔ)充大量語料,也為后續(xù)進(jìn)行綜合性、多層次的《史記》全文文本知識(shí)挖掘、計(jì)量分析與可視化檢索提供可能。
知識(shí)庫是存儲(chǔ)、組織和處理知識(shí)以及提供知識(shí)服務(wù)的重要知識(shí)集合[20]。數(shù)字人文視域下的古籍知識(shí)庫建設(shè)是在古籍文本錄入的基礎(chǔ)之上,對(duì)生文本進(jìn)行詞性、句法、語義等不同層面的標(biāo)注,提取時(shí)間、地點(diǎn)、人物、事件等不同類型的實(shí)體,通過大數(shù)據(jù)技術(shù)重組古籍文獻(xiàn)知識(shí),并支持可視化分析。為建設(shè)《史記·列傳》數(shù)字人文知識(shí)庫,首先對(duì)《列傳》進(jìn)行自動(dòng)分詞和人工詞性標(biāo)注,再為每個(gè)人物、地點(diǎn)指定唯一的ID編號(hào),進(jìn)一步完善命名實(shí)體信息。人物方面補(bǔ)充人物別名、性別、國(guó)別,地點(diǎn)方面補(bǔ)充今地名和GIS坐標(biāo),由此實(shí)現(xiàn)了《列傳》詞類標(biāo)注基礎(chǔ)上的歷史時(shí)間、地點(diǎn)、人物信息全面標(biāo)注,得到6張數(shù)據(jù)表:文本表、文本標(biāo)注表、人物表、地點(diǎn)表、人物同現(xiàn)表、人地同現(xiàn)表。進(jìn)而以6張一維線性序列表為基礎(chǔ),構(gòu)建多維《列傳》知識(shí)網(wǎng)絡(luò),打通人物庫與GIS庫,使《史記·列傳》數(shù)字人文知識(shí)庫成為基于詞和實(shí)體的、結(jié)構(gòu)化、一體化的知識(shí)集合。
《史記·列傳》數(shù)據(jù)庫的原始數(shù)據(jù)來自《史記》(點(diǎn)校修訂本)[21]的《列傳》部分。首先使用南京師范大學(xué)開發(fā)的古漢語分詞與詞性標(biāo)注規(guī)范和自動(dòng)分析工具[22],對(duì)《列傳》全文24萬余字進(jìn)行自動(dòng)分詞和詞性標(biāo)注,詞性標(biāo)記共分為32類:形容詞(a)、連詞(c)、副詞(d)、方位詞(f)、詞綴(i)、兼詞(j)、數(shù)詞(m)、普通名詞(n)、書名(nb)、國(guó)名(ng)、年號(hào)(nh)、民族(nn)、官職(no)、人名(nr)、地名(ns)、專名(nx)、介詞(p)、量詞(q)、代詞(r)、擬聲詞(s)、時(shí)間詞(t)、助詞(u)、動(dòng)詞(v)、使動(dòng)用法(vs)、為動(dòng)用法(vw)、意動(dòng)用法(vy)、標(biāo)點(diǎn)(w)、其他語素和字(x)、語氣詞(y)、形容詞作狀語(za)、名詞作狀語(zn)、動(dòng)詞作狀語(zv)。再根據(jù)《二十四史全譯》[23]等工具書,對(duì)自動(dòng)分詞和詞性標(biāo)注結(jié)果進(jìn)行人工校對(duì)。在人工校對(duì)的基礎(chǔ)之上,對(duì)《列傳》全文進(jìn)行二次實(shí)體信息人工標(biāo)注(標(biāo)注內(nèi)容包括人物信息和地點(diǎn)信息等),由此形成了《列傳》高質(zhì)量、多層次的標(biāo)注文本。多層次標(biāo)注樣例見表1。
表1 多層次標(biāo)注樣例
2.2.1 人物信息標(biāo)注
《列傳》中人物和名稱往往不是一一對(duì)應(yīng)的,異名同指(一人對(duì)應(yīng)多個(gè)名稱)、同名異指(一個(gè)名稱對(duì)應(yīng)多人)的情況時(shí)有出現(xiàn)。人物與名稱的參差對(duì)應(yīng)使后續(xù)計(jì)量分析的準(zhǔn)確性受到很大影響,因此本文采取為每個(gè)人物標(biāo)注唯一人物ID編號(hào)的方法,選取其最具代表性和概括性的、為人們所熟知的稱呼為“正名”,其余歸為“別名”,同一人物的不同名稱都指向同一個(gè)ID。如果某人物在《史記》的《本紀(jì)》和《世家》部分出現(xiàn)過,則沿用其先前被匹配的人物ID,如果是在《列傳》中出現(xiàn)的新人物,則為其標(biāo)注新的ID。除人物ID、正名、別名之外,《史記·列傳》數(shù)據(jù)庫中收錄的人物信息還包括每個(gè)人物的性別、國(guó)別、備注,人名表示例見表2。
表2 人名表示例
2.2.2 地點(diǎn)信息標(biāo)注
《史記·列傳》知識(shí)庫收錄的地點(diǎn)信息包括文中每個(gè)地點(diǎn)的地點(diǎn)ID、地名、今地名、類別(一般地名、諸侯國(guó)名、河流、山名等)、百度地圖GIS坐標(biāo),地名表示例見表3。同樣,如果某地點(diǎn)在《史記》的《本紀(jì)》和《世家》部分出現(xiàn)過,則沿用其先前被匹配的地點(diǎn)ID;如果是在《列傳》中出現(xiàn)的新地點(diǎn),則為其標(biāo)注新的ID。筆者參考《史記地名考》[24]等文獻(xiàn)以考證文中古地名的今地點(diǎn),在此基礎(chǔ)上利用百度地圖應(yīng)用程序接口(application program interface,API)解析今地點(diǎn),獲得對(duì)應(yīng)的GIS坐標(biāo)數(shù)據(jù)。
表3 地名表示例
在經(jīng)過二次校對(duì)的分詞和詞性標(biāo)注、人物信息標(biāo)注、地點(diǎn)信息標(biāo)注的基礎(chǔ)之上,完成了《列傳》文本的歷史時(shí)間、地點(diǎn)、人物信息的全面標(biāo)注,形成 文本表、文本標(biāo)注表、人物表、地點(diǎn)表、人物同現(xiàn)表、人地同現(xiàn)表,構(gòu)建了《史記·列傳》數(shù)字人文知識(shí)庫,知識(shí)庫結(jié)構(gòu)如圖1所示。
圖1 《史記·列傳》數(shù)字人文知識(shí)庫結(jié)構(gòu)
本文構(gòu)建的《史記·列傳》檢索平臺(tái)包含全文檢索、人物檢索、地名檢索三大功能,全文檢索包括“文本”“詞頻詞性”檢索功能,而人物和地名實(shí)體查詢需要依托實(shí)體ID,其中人物檢索包括“人物基本信息”“原文追蹤”和“人物關(guān)系”檢索功能,地名檢索包括“地點(diǎn)基本信息”和“人地同現(xiàn)”檢索功能。檢索平臺(tái)結(jié)構(gòu)如圖2所示。
圖2 檢索平臺(tái)結(jié)構(gòu)
在全文檢索方面,本檢索平臺(tái)除提供基礎(chǔ)的文本字符匹配檢索之外,還提供詞頻詞性檢索。詞頻詞性檢索可以基于詞,如檢索“者”,可得“者”在《列傳》中以助詞(u)詞性出現(xiàn)2 714次,以代詞(r)詞性出現(xiàn)1 812次,以名詞(n)詞性出現(xiàn)86次。從不同詞性的應(yīng)用比例來看,在《列傳》中“者”主要以助詞和代詞形式出現(xiàn),尤以助詞為主,這可以為《史記》的詞匯研究提供支撐材料。詞頻詞性檢索也可以基于詞性,如檢索名詞(n),可得《列傳》中的名詞按頻次由多到少排列分別為“人、王、兵、臣、國(guó)……”,從高頻名詞可以看出,這是一段群雄交鋒、英雄輩出、戰(zhàn)爭(zhēng)四起的歷史歲月。詞頻詞性檢索示例見表4和表5。
表4 詞頻詞性檢索示例(詞:者)
表5 詞頻詞性檢索示例(詞性:名詞)
相較于傳統(tǒng)的人物檢索,本平臺(tái)的人物檢索功能更加全面、準(zhǔn)確、直觀。人物檢索頁面能夠?yàn)橛脩籼峁┧樵內(nèi)宋锏幕拘畔ⅲㄈ宋颕D、正名、別名、性別、國(guó)別)、上下文信息(出現(xiàn)次數(shù)、原文追蹤)以及人物關(guān)系(交往人物、交往頻次)。以檢索“公孫敖”為例,首先在人物檢索頁面輸入“公孫敖”,繼而呈現(xiàn)“公孫敖”的人物基本信息,可知其人物ID為7731。以人物ID為線索,進(jìn)一步檢索可得“公孫敖”在《列傳》中以各種稱謂出現(xiàn)的24個(gè)文段。“公孫敖”人物檢索示例見表6,原文追蹤示例見表7。
表6 “公孫敖”人物檢索示例
表7 “公孫敖”人物原文追蹤示例
地點(diǎn)檢索頁面供用戶檢索《列傳》中所有地點(diǎn)的基本信息(地點(diǎn)ID、地名、今地點(diǎn)、類別),并使用百度地圖API,添加地圖控件,將《列傳》中出現(xiàn)的地名還原為精確的地圖坐標(biāo),并做出相應(yīng)標(biāo)記,使用戶能夠從地圖上直觀感受《列傳》地名的具體位置。
人物游歷軌跡是歷史研究中的重要問題之一,但用傳統(tǒng)方法進(jìn)行研究往往需要進(jìn)行大量考證,且文字描寫不夠直觀。為了用更加簡(jiǎn)潔且直觀的方式來展現(xiàn)《列傳》中人物的游歷軌跡,運(yùn)用近似計(jì)算和可視化方法,根據(jù)人物和地點(diǎn)在文本中的同現(xiàn)信息(在用逗號(hào)或句號(hào)分隔的一個(gè)句子中同時(shí)出現(xiàn))生成人地同現(xiàn)軌跡圖,并在檢索平臺(tái)網(wǎng)站上提供地圖信息查詢功能。
以“李廣”為例,平臺(tái)檢索“李廣”的高頻同現(xiàn)地點(diǎn)見表8。由此可以推斷出“李廣”的游歷軌跡,生成人地同現(xiàn)圖,為“李廣”事跡研究提供可視化線索。
表8 平臺(tái)檢索“李廣”的高頻同現(xiàn)地點(diǎn)
《史記·列傳》數(shù)字人文知識(shí)庫及檢索平臺(tái)進(jìn)行了歷史典籍的結(jié)構(gòu)化探索,在數(shù)據(jù)的豐富性和檢索的層次性上遠(yuǎn)超傳統(tǒng)全文檢索數(shù)據(jù)庫。本節(jié)將在此基礎(chǔ)上,對(duì)《列傳》進(jìn)行詞匯、人物、地點(diǎn)、實(shí)體同現(xiàn)等層面的知識(shí)挖掘與計(jì)量分析。
不同于以往基于字的古籍?dāng)?shù)據(jù)庫,本文構(gòu)建的《史記·列傳》數(shù)據(jù)庫以經(jīng)過大量切分和標(biāo)注工作得到的《列傳》分詞標(biāo)注文本為基礎(chǔ),實(shí)現(xiàn)了基于詞的檢索,能夠從詞匯層面對(duì)《列傳》全文進(jìn)行窮盡式的統(tǒng)計(jì),將《列傳》全文的計(jì)量分析從單字層面拓展到詞匯層面。據(jù)統(tǒng)計(jì),《列傳》共有216 942個(gè)詞(247 540個(gè)字),其中單字詞有189 683個(gè),雙字詞有23 175個(gè),三字及以上詞語有4 084個(gè),全文以單字詞為主,平均每詞1.1個(gè)字。
運(yùn)用《史記·列傳》數(shù)據(jù)庫可以進(jìn)行以往基于字的數(shù)據(jù)庫無法完成的多字詞統(tǒng)計(jì),這是沒有分詞的數(shù)據(jù)庫無法實(shí)現(xiàn)的工作?!读袀鳌犯哳l多字詞(前10位)見表9。構(gòu)詞方面,《列傳》中的多字詞以雙字詞為主;詞性方面,《列傳》中的多字詞以名詞為主,其他詞性較少出現(xiàn);詞義方面,高頻多字詞均與國(guó)家、政治體系、軍事、民族等相關(guān),符合《史記》記敘朝代興替、帝王與人臣事跡的文本特點(diǎn)。《列傳》高頻多字詞詞云如圖3所示。
圖3 《列傳》高頻多字詞詞云
表9 《列傳》高頻多字詞(前10位)
除了對(duì)詞匯長(zhǎng)度進(jìn)行統(tǒng)計(jì),還可以從詞性角度對(duì)各詞性內(nèi)部的詞匯分布進(jìn)行計(jì)算,得出各詞類的高頻詞。如《列傳》全文中副詞共出現(xiàn)16 956次,其中最高頻的前5個(gè)副詞見表10,由此可知文中最常用的副詞是“不”,頻次高達(dá)4 453次,遠(yuǎn)遠(yuǎn)超過其他副詞。
表10 《列傳》高頻副詞(前5位)
4.2.1 人物分布
不同于《本紀(jì)》和《世家》,《列傳》主要記錄人臣事跡,所涉人物必然相應(yīng)地與前兩部分有所不同。對(duì)文中記錄的歷史人物進(jìn)行頻次層面的梳理,有助于把握《列傳》的重點(diǎn)人物和事件。據(jù)統(tǒng)計(jì),《列傳》出場(chǎng)人物共1 787位,其中未在《本紀(jì)》《世家》出現(xiàn)的《列傳》特有人物共1 092位。
統(tǒng)計(jì)《列傳》高頻人物有助于把握《列傳》的人物事件主基調(diào),而高頻人物往往有多個(gè)不同稱謂,這給人物統(tǒng)計(jì)增加了難度。本文使用的為每個(gè)人物標(biāo)注唯一人物ID的方法,不僅在很大程度上降低了“異名同指”和“同名異指”問題對(duì)人物統(tǒng)計(jì)造成的負(fù)面影響,還為《列傳》人物研究提供了人物的不同稱謂頻次方面的研究材料?!读袀鳌分邪闯鰣?chǎng)頻次排序前10位的人物如圖4所示,由內(nèi)圈至外圈分別為人物ID、人物主名以及該人物的不同稱謂占比。
圖4 《列傳》高頻人物及稱謂分布(前10位)
4.2.2 地點(diǎn)分布
傳統(tǒng)的古籍地點(diǎn)研究往往以某地在文本中出現(xiàn)的若干處例句為對(duì)象,研究方法以列舉、歸納為主,研究結(jié)果也多停留在文字層面。而通過窮盡式的統(tǒng)計(jì)與可視化的檢索,本文可收集《列傳》任意地點(diǎn)的所有出處,并將其定位至百度地圖,這為《列傳》地點(diǎn)研究提供了更精細(xì)的語料、更高效的方法、更直觀的結(jié)果。
據(jù)統(tǒng)計(jì),《列傳》共提及地點(diǎn)1 173個(gè),按頻次排序前10位的高頻地點(diǎn)(不包括諸侯國(guó))見表11,出現(xiàn)范圍最廣、次數(shù)最多的地點(diǎn)多為河流、古都城。
黃河作為頻次最高的地點(diǎn),在《列傳》乃至《史記》全文中的地位一目了然,這印證了北方黃河流域是《史記》所記載歷史的主要地理背景。表11中排名第二的邯鄲為趙國(guó)國(guó)都,排名第八的咸陽為秦國(guó)國(guó)都(秦朝都城),再次為趙國(guó)和秦國(guó)的影響力提供了佐證。值得注意的是,《列傳》中邯鄲的頻次高于咸陽,與《本紀(jì)》中情況相反,這正體現(xiàn)了秦國(guó)和趙國(guó)的不同歷史地位:趙國(guó)為戰(zhàn)國(guó)七雄之一,但后被秦軍攻滅;而秦國(guó)兼并六國(guó)進(jìn)而完成統(tǒng)一大業(yè),建立了中國(guó)歷史上首個(gè)統(tǒng)一封建王朝,因此在以王朝更替為主的《本紀(jì)》之中,秦國(guó)都城的出現(xiàn)頻次自然比趙國(guó)都城高得多。這足以證明從《史記》地名的分布規(guī)律中可以窺見歷史信息,為古籍研究提供材料。
表11 《列傳》高頻地點(diǎn)(前10位)
《列傳》中出現(xiàn)的1 173個(gè)地點(diǎn)中,有556個(gè)未在《本紀(jì)》和《世家》中出現(xiàn)過。為了更好地探索《列傳》獨(dú)特的歷史地理信息,本文統(tǒng)計(jì)得出《列傳》獨(dú)有的高頻地點(diǎn)前5位(不包括諸侯國(guó)),具體見表12。
表12 高頻《列傳》獨(dú)有高頻地點(diǎn)(前5位)
《列傳》獨(dú)有高頻地點(diǎn)前5位中包含“烏孫”“康居”兩個(gè)西域地名,可見《列傳》有許多前文較少涉及的與西域相關(guān)的歷史事件描寫,這值得相關(guān)學(xué)科的研究人員特別關(guān)注。
傳統(tǒng)古籍研究很難自動(dòng)地、全面地挖掘人物、地點(diǎn)等實(shí)體間的關(guān)系,并以客觀統(tǒng)一的標(biāo)準(zhǔn)對(duì)其進(jìn)行衡量。本文在對(duì)《列傳》進(jìn)行全文實(shí)體標(biāo)注的基礎(chǔ)上,計(jì)算實(shí)體ID間的同現(xiàn)情況并進(jìn)行統(tǒng)計(jì),實(shí)體同現(xiàn)次數(shù)越多則相關(guān)度越高。據(jù)此本文進(jìn)行了《列傳》人物關(guān)系密度和廣度、人物的同現(xiàn)地點(diǎn)數(shù)、地點(diǎn)的同現(xiàn)人物數(shù)的統(tǒng)計(jì)和匯總。
4.3.1 人物關(guān)系密度
兩個(gè)人物之間的同現(xiàn)次數(shù)可以作為估算人物關(guān)系的指標(biāo),往往聯(lián)系越緊密的兩個(gè)人同現(xiàn)次數(shù)越多。本文在《列傳》中選取表13所示的3對(duì)同現(xiàn)人物進(jìn)行分析,高頻同現(xiàn)人物對(duì)多與歷史事件、血緣親族、君臣關(guān)系等相關(guān)。漢高祖劉邦和項(xiàng)羽在《列傳》中為最高頻同現(xiàn)人物對(duì),這正是“楚漢爭(zhēng)霸”的縮影;漢文帝與漢景帝是父子關(guān)系,并共同造就“文景之治”;秦昭王和藺相如同現(xiàn)多次,這源于“完璧歸趙”和“澠池會(huì)盟”。由此可見,統(tǒng)計(jì)《列傳》中的高頻同現(xiàn)人物對(duì)可以為眾多歷史人物和歷史事件的研究提供量化參考。
表13 《列傳》高頻人物同現(xiàn)對(duì)
為了更好地展現(xiàn)《列傳》眾多人物間的關(guān)聯(lián)以及交往密度,本文選取《列傳》同現(xiàn)人物高頻前120對(duì),借助ECharts技術(shù)繪制人物關(guān)系網(wǎng)絡(luò)(如圖5所示)。圖5中節(jié)點(diǎn)表示人物,邊表示交往關(guān)系,根據(jù)圖中節(jié)點(diǎn)大小、關(guān)系網(wǎng)疏密,可以直觀地把握人物交際網(wǎng)絡(luò)。從整體上看,《列傳》中的人物交際關(guān)系網(wǎng)主要以漢高祖、秦始皇、韓信、項(xiàng)羽、秦昭王等人物為核心。
圖5 《列傳》同現(xiàn)人物關(guān)系網(wǎng)絡(luò)(前120對(duì))
4.3.2 人物關(guān)系廣度
廣度同樣是衡量人物交往情況的參考依據(jù)。某一特定人物對(duì)的同現(xiàn)頻次可以顯示兩人之間的關(guān)系疏密,而某一特定人物擁有的同現(xiàn)對(duì)數(shù)量,則可以顯示該人物的交往范圍。統(tǒng)計(jì)出某一特定人物共擁有多少對(duì)人物關(guān)系后,可以進(jìn)一步細(xì)化查詢?cè)撊宋锓謩e與哪些人物有過幾次同現(xiàn),在研究歷史人物生平時(shí)便可比較完整地把握其人際關(guān)系。借助ECharts繪制的“李廣”在《列傳》中的人物關(guān)系圖如圖6所示。中心節(jié)點(diǎn)為“李廣”,周圍節(jié)點(diǎn)為與其有同現(xiàn)關(guān)系的人物,節(jié)點(diǎn)越大說明同現(xiàn)關(guān)系越多,也即關(guān)系越緊密、相關(guān)度越高。由圖6可見,“李廣”在《列傳》中共與29人有過同現(xiàn),其中相關(guān)度最高的是“公孫敖”,“衛(wèi)青”“李敢”“程不識(shí)”3人次之。
圖6 “李廣”在《列傳》中的人物關(guān)系圖
4.3.3 人地關(guān)系
人物-地點(diǎn)關(guān)系是古籍研究的重要問題之一,有助于探究歷史人物生平經(jīng)歷、把握歷史地點(diǎn)重要程度。但使用傳統(tǒng)研究方法很難從量化的角度讓人們對(duì)古人游歷情況有直觀的了解。本文在計(jì)算人物-地點(diǎn)同現(xiàn)關(guān)系的基礎(chǔ)上估算《列傳》人物游歷地點(diǎn),分別從人物角度計(jì)算人物的同現(xiàn)地點(diǎn)數(shù)量、從地點(diǎn)角度計(jì)算地點(diǎn)的同現(xiàn)人物數(shù)量,這可以作為推斷某特定人物在《列傳》中所記錄的游歷軌跡、某特定地點(diǎn)在《列傳》中的重要程度的參考。
《列傳》中同現(xiàn)地點(diǎn)數(shù)最多的前5個(gè)人物和同現(xiàn)人物數(shù)量最多的前5個(gè)地點(diǎn)見表14??梢钥闯鏊腥嗣偷孛c前文統(tǒng)計(jì)得到的高頻人物、高頻地點(diǎn)、廣交人物、密交人物多有重合。
表14 《列傳》高頻共現(xiàn)人物、地點(diǎn)(前5位)
古籍?dāng)?shù)字化不斷向深層方向發(fā)展,將傳統(tǒng)典籍的文本轉(zhuǎn)換為高度結(jié)構(gòu)化的新型數(shù)字人文知識(shí)庫,將文本中詞匯、人物、地理實(shí)體等要素有機(jī)組織起來,推動(dòng)古籍文本可視化、文本信息挖掘等工作,對(duì)我國(guó)古籍的研究與傳承意義重大,對(duì)語言學(xué)、歷史文獻(xiàn)學(xué)、歷史地理學(xué)等學(xué)科具有積極的推動(dòng)作用。本文為進(jìn)行歷史典籍的結(jié)構(gòu)化探索、推動(dòng)《史記》深層數(shù)字化工作,以《列傳》為對(duì)象,將傳統(tǒng)典籍的文本轉(zhuǎn)換為高度結(jié)構(gòu)化的新型數(shù)字人文知識(shí)庫,主要完成了以下工作。
● 對(duì)《列傳》進(jìn)行詞性、實(shí)體標(biāo)注,完善《列傳》人物表、地名表等6張數(shù)據(jù)表,在此基礎(chǔ)上建成了基于詞和實(shí)體的、結(jié)構(gòu)化、一體化的《史記·列傳》數(shù)據(jù)庫。這對(duì)南京師范大學(xué)開發(fā)的《史記·本紀(jì)》《史記·世家》數(shù)字人文知識(shí)庫起到了重要的承接作用,為《史記》整體數(shù)據(jù)庫的構(gòu)建做了豐富的內(nèi)容補(bǔ)充。
● 基于數(shù)據(jù)庫開發(fā)線上檢索系統(tǒng),檢索功能包括全文檢索以及傳統(tǒng)數(shù)據(jù)庫無法實(shí)現(xiàn)的基于深度標(biāo)注的詞頻詞性檢索、人物檢索、地點(diǎn)檢索等,并結(jié)合百度地圖實(shí)現(xiàn)人物關(guān)系、人地關(guān)系的可視化。
● 在數(shù)據(jù)庫和檢索平臺(tái)的基礎(chǔ)上,本文進(jìn)行了一系列數(shù)據(jù)統(tǒng)計(jì)和可視化分析。首先描寫《列傳》多字詞的基本面貌,計(jì)算得到《列傳》平均每詞1.1個(gè)字。其次統(tǒng)計(jì)《列傳》人物、地點(diǎn)分布情況,列出了《列傳》的高頻人物和地點(diǎn),得出《列傳》共出現(xiàn)人物1 787位、地點(diǎn)1 173個(gè)。且較之《本紀(jì)》和《世家》,《列傳》特有人物共1 092位,特有地點(diǎn)共556個(gè),量化了《列傳》與《本紀(jì)》《世家》的差異。最后,量化《列傳》人物關(guān)系和人地關(guān)系,對(duì)人物-人物、人物-地點(diǎn)的交往密度和廣度進(jìn)行計(jì)量。
但受制于時(shí)間、人力等因素,本文研究仍存在不足之處有待在未來的工作中不斷改進(jìn),具體如下。
● 完善標(biāo)注規(guī)則,提高標(biāo)注準(zhǔn)確性。本文數(shù)據(jù)正在持續(xù)校對(duì)當(dāng)中,后續(xù)將對(duì)細(xì)節(jié)問題進(jìn)行補(bǔ)充和校正。在此過程中需要及時(shí)記錄并整理所遇到的問題,相應(yīng)地對(duì)標(biāo)注規(guī)則進(jìn)行細(xì)化。亦可通過開放在線標(biāo)注校正系統(tǒng),為邀請(qǐng)各界專家學(xué)者加入標(biāo)注校對(duì)工作提供便利條件,最終形成系統(tǒng)性的標(biāo)注規(guī)范,使《列傳》標(biāo)注文本具有更高的準(zhǔn)確度。
● 后續(xù)將繼續(xù)擴(kuò)大數(shù)據(jù)規(guī)模,將《本紀(jì)》《世家》和《列傳》三部分?jǐn)?shù)據(jù)庫進(jìn)行整合,形成更加完整的《史記》數(shù)據(jù)庫。
● 嘗試運(yùn)用多種數(shù)字化技術(shù),對(duì)包括人物關(guān)系、人地關(guān)系在內(nèi)的實(shí)體關(guān)系計(jì)算進(jìn)行改進(jìn),使其突破限于近似估算的水平。
● 嘗試設(shè)計(jì)交互可視化系統(tǒng),使可視化效果更加多維、豐富。優(yōu)化檢索平臺(tái)性能,使檢索平臺(tái)更好地為社會(huì)服務(wù),起到科研和科普作用。還可以與其他學(xué)科和數(shù)據(jù)庫聯(lián)動(dòng),拓寬研究思路,得出更加多層次、寬領(lǐng)域的研究成果。