高瑞卿 董啟文 方 達(dá) 王弘治 方 勇
(1.華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院 上海 200062;2.華東師范大學(xué)中文系 上海 200062;3.上海師范大學(xué)人文學(xué)院 上海 200234)
《老子》是春秋時(shí)期老子(李耳)的哲學(xué)作品,又稱《道德真經(jīng)》《道德經(jīng)》《五千言》《老子五千文》,是中國古代先秦諸子分家前的一部著作,是道家哲學(xué)思想的重要來源。老子思想對中國現(xiàn)代文明建設(shè)[1]、當(dāng)代教育[2]、生態(tài)幸福觀的建構(gòu)[3]、我國行政管理建設(shè)[4],甚至對日本近現(xiàn)代名家[5]都產(chǎn)生了深刻影響。據(jù)聯(lián)合國教科文組織統(tǒng)計(jì),《老子》一書是除《圣經(jīng)》外被譯成外國文字發(fā)布量最多的文化名著。
從古至今解老注老者很多,在老學(xué)思想文化史上較有影響的,從最早的列子、莊子、文子、稷下黃老學(xué)的宗老,韓非子解老喻老,河上公、嚴(yán)君平、王弼諸家注老,唐代傅奕,宋代王安石、蘇轍、呂惠卿,明末王夫之,元代吳澄等,直到晚清經(jīng)世學(xué)者魏源,無不發(fā)表心得,增益老學(xué),為后人探究老子思想留下了豐厚的文化資源[6]。因而《老子》版本眾多,歷史上比較流行且重要的版本有:馬王堆帛書(甲本為5344字。乙本為5342字,外加重文124字);今本,河上公《道德經(jīng)章句》(5201字,外加重文94字),王弼《老子道德經(jīng)注》(5162字,外加重文106字),傅奕《道德經(jīng)古本》(5450字,外加重文106字)。
老子思想是中國文化早期發(fā)展的一個(gè)典型,如何理解其思想,關(guān)乎如何理解中國早期文化。關(guān)于老子的起源、內(nèi)涵及影響問題歷史上以及當(dāng)代已經(jīng)有了大量的研究成果。本研究主要針對利用大數(shù)據(jù)計(jì)算的方式,對先秦老子思想的源頭及涵義進(jìn)行實(shí)證性研究并得出相應(yīng)結(jié)論,利用文本分析技術(shù)、人文數(shù)字處理手段,通過定量統(tǒng)計(jì)、定性分析,嘗試解決老子研究領(lǐng)域長期存在的疑而難決的問題,發(fā)掘依靠閱讀經(jīng)驗(yàn)難以發(fā)現(xiàn)的文本組織特征及相互關(guān)系;在完成上述研究的同時(shí),獲得古漢語語料訓(xùn)練的BERT預(yù)訓(xùn)練語言模型并開源在GitHub上(https://github.com/RuiqingGao/ancient_Chinese.git)。
從概念的內(nèi)涵和外延上看,古文信息處理是一個(gè)交叉的研究領(lǐng)域,涉及了數(shù)學(xué)、計(jì)算機(jī)科學(xué)、語言學(xué)和圖書情報(bào)學(xué)等多個(gè)學(xué)科的理論、方法、知識和技術(shù)[7]。近年來,古籍自動(dòng)錄入技術(shù)令古籍?dāng)?shù)字化工作取得了豐富的實(shí)際成果[8]。在此基礎(chǔ)上,眾多學(xué)者在古代典籍的自動(dòng)分詞[9-11],命名實(shí)體自動(dòng)識別[12-15],句子或術(shù)語對齊[16-17]研究,古文斷句研究[18-20]以及文本分類[21]方面取得了一系列研究成果。
從研究方法上看,僅在統(tǒng)計(jì)層面上有簡單的詞頻統(tǒng)計(jì)[22],互文度量[23]等方法;更深入地,N-gram模型[24],貝葉斯模型[9],支持向量機(jī)[10],條件隨機(jī)場等傳統(tǒng)機(jī)器學(xué)習(xí)模型被大規(guī)模應(yīng)用在對古文的信息挖掘中,這與關(guān)于古代漢語文本的信息處理研究集中在分詞、命名實(shí)體識別的任務(wù)上有密切關(guān)系。近些年來,隨著運(yùn)算力的快速提升和深度學(xué)習(xí)的再度興起,循環(huán)神經(jīng)網(wǎng)絡(luò)[19,20]、BERT[18]模型也被應(yīng)用到古文斷句中。
從研究對象上看,先秦古漢語典籍是研究所用的主要語料,特別是早些年,大部分研究學(xué)者僅用少量典籍劃分出訓(xùn)練集和測試集進(jìn)行模型訓(xùn)練與應(yīng)用;近年來,深度學(xué)習(xí)模型在各種人工智能研究領(lǐng)域取得了顯著的成功后,研究者使用的語料才豐富起來,在一個(gè)研究項(xiàng)目中就涉及到史藏、詩藏、儒藏、集藏和子藏等文獻(xiàn)。在研究對象內(nèi)容上,早期應(yīng)用傳統(tǒng)機(jī)器學(xué)習(xí)模型時(shí),使用的語料較為單一,但在近些年,研究所用語料涉及眾多方面,包括地理,歷史,小說,宗教,物產(chǎn)方方面面,以混合語料研究居多,以追求大而通用的模型。
盡管關(guān)乎古代文獻(xiàn)典籍的研究已經(jīng)有豐富的研究成果,但是從人文學(xué)科研究的深度來看,上述的數(shù)據(jù)化處理還停留在較為基本與淺顯的層面,并不能深入到思想的闡釋領(lǐng)域,而思想研究與闡釋的主觀性也正是人文學(xué)科的關(guān)鍵所在。從人文學(xué)科研究的廣度來看,前述的古文信息處理呈現(xiàn)出散點(diǎn)狀,沒有完整的體系,缺乏不同典籍在時(shí)間維度上關(guān)聯(lián)與逐步發(fā)展的研究。
總而言之,如何利用大數(shù)據(jù)得出具有洞見性的結(jié)論,還需要進(jìn)一步的探討。本文所開展的研究,力求找出不同典籍之間的聯(lián)系。
2.1研究框架本研究以大數(shù)據(jù)計(jì)算為依托,以《老子》典籍為研究對象,通過數(shù)字人文技術(shù),考察了老子思想與其他典籍之間的相似程度與關(guān)系。所使用的技術(shù)手段如圖1所示。
圖1 本文研究框架
首先,選取河上公《道德經(jīng)章句》這一版本作為本研究所用《老子》語料,下文提到的《老子》均為這一版本。河上公本大致成書于兩漢之際[25],文句簡古,近民間系統(tǒng),是歷史中流傳最廣的《老子》版本之一,與另一流傳廣泛的王弼《老子道德經(jīng)注》相比,一些學(xué)者認(rèn)為河上公注本有的地方勝過了王弼注本,保存不少精義。
研究過程中以字為單位統(tǒng)計(jì)老子語料中的語詞出現(xiàn)狀況,從宏觀上了解《老子》的用字特點(diǎn);統(tǒng)計(jì)典籍之間的引用情況并繪出網(wǎng)絡(luò)圖;精選出先秦到東漢之間的典籍,基于統(tǒng)計(jì)進(jìn)行相似度分析;使用先進(jìn)的深度學(xué)習(xí)方法,訓(xùn)練BERT模型,按照BERT模型生成的字嵌入計(jì)算典籍內(nèi)部句子之間的相似程度,并與使用TF-IDF的方法作為對比,將《老子》中所有句子和其他典籍中句子的相似度計(jì)算情況匯總,得出創(chuàng)作于《老子》之前的、與其最相似的典籍。本研究以《老子》為著力點(diǎn),分別研究了其對后世的影響和之前作品與《老子》的關(guān)系,廣泛研究了先秦兩漢時(shí)期的典籍特征,力圖從數(shù)據(jù)角度為人文學(xué)科提供實(shí)證。
2.2語料庫介紹本研究使用102篇典籍所構(gòu)成的語料庫,這些典籍涵蓋了先秦諸子百家的法、道、墨、儒、兵等學(xué)術(shù)派別的代表作品;作品的時(shí)代性大致包含了傳統(tǒng)六藝經(jīng)典,一般戰(zhàn)國典籍,從戰(zhàn)國到西漢的過渡性質(zhì)的典籍,確定的西漢典籍,東漢典籍,漢后典籍(有引用早期內(nèi)容),共計(jì)8686320字。
之后在訓(xùn)練BERT模型時(shí),本研究將語料庫范圍擴(kuò)大到915部作品,加入了三國兩晉南北朝時(shí)期的漢達(dá)古籍。考慮到先秦兩漢時(shí)期流傳的作品較少,只是中國古代文學(xué)的一小部分,因此加入先秦兩漢之后朝代的語料,可以更加有效地訓(xùn)練字向量,能足夠開展文本數(shù)字分析。
2.3關(guān)鍵技術(shù)
2.3.1 統(tǒng)計(jì)分析 詞頻分析是對文章中重要詞匯出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì)與分析,是文本挖掘的重要手段,是文獻(xiàn)計(jì)量學(xué)中傳統(tǒng)的、具有代表性的一種內(nèi)容分析方法。在分析《老子》內(nèi)容環(huán)節(jié),本研究首先想到的方法就是基于字的層面,從宏觀上查看老子的內(nèi)容情況,按照《老子》中每個(gè)字出現(xiàn)的次數(shù)統(tǒng)計(jì)后,以頻次從大到小排列。
引文分析(Citation Analysis)利用數(shù)學(xué)及統(tǒng)計(jì)學(xué)的方法和比較、歸納、抽象、概括等邏輯方法,通常是對科學(xué)期刊、論文、著者等各種分析對象的引證與被引證現(xiàn)象進(jìn)行分析,進(jìn)而揭示其中的數(shù)量特征和內(nèi)在規(guī)律的一種文獻(xiàn)計(jì)量分析方法[26]。本研究所用語料中存在表1中的引用情況,例如《中論》中使用《詩》的句子“高山仰止,景行行止”。如果典籍A引用了典籍B的句子,則繪制出一條由節(jié)點(diǎn)A指向節(jié)點(diǎn)B的有向線段,并且通過引用次數(shù)的高低控制有向線段的粗細(xì),引用次數(shù)越多,線段越粗。該部分的結(jié)果將借助Gephi軟件進(jìn)行典籍節(jié)點(diǎn)布局和作力導(dǎo)向圖。
表1 語料庫中典籍的引用示例
2.3.2 文本向量化 僅統(tǒng)計(jì)字頻無法表示文本豐富的語義信息,因此需要語言知識表示。在自然語言處理技術(shù)中,一般將詞義信息編碼到詞語的向量化表示中,目前常用的文本表示方式分為離散式表示和分布式表示,本研究在進(jìn)行分析《老子》與其他典籍的關(guān)系時(shí),采取了這兩種向量化手段。離散式表示選用了容易理解且解釋性較強(qiáng)的TF-IDF方法,將每一篇典籍表示成向量;分布式表示采用深度神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練嵌入式表示方法,具體選取了流行的BERT模型,將典籍中的句子投影到高維空間中,為后續(xù)應(yīng)用數(shù)學(xué)上計(jì)算向量間的夾角余弦值做鋪墊。
TF-IDF方法簡單快速,是最常用的基于統(tǒng)計(jì)的向量化方法,本研究使用該方法簡述如下。在一個(gè)給定的典籍或句子里,字頻指的是某一個(gè)給定的字在該典籍或句子中出現(xiàn)的次數(shù),用TF(Term frequency)表示先進(jìn)行正規(guī)化,以防止它偏向文本長的典籍。
(1)
以上式子中ni,j是該字在典籍dj中的出現(xiàn)次數(shù),而分母則是在典籍dj中所有字的出現(xiàn)次數(shù)。
逆向文件頻率(inverse document frequency,IDF)是一個(gè)詞語普遍重要性的度量。
(2)
分子|D|表示本語料庫中的典籍總數(shù),分母表示含字ti的典籍?dāng)?shù)目,如果存在字未出現(xiàn)在本研究所用的語料庫中,就會導(dǎo)致被除數(shù)為零,因此在計(jì)算時(shí)進(jìn)行了拉普拉斯平滑。
tfidfi,j=tfi,j*idfi
(3)
某一典籍內(nèi)的高頻率字,以及該字在整個(gè)語料典籍集合中的低文件頻率,可以產(chǎn)生出高權(quán)重的TF-IDF。因此,TF-IDF傾向于過濾掉常見的字,保留重要的詞語。該方法的缺點(diǎn)是有時(shí)候用字頻來衡量文章中的一個(gè)詞的重要性不夠全面,且這種計(jì)算無法體現(xiàn)位置信息,無法體現(xiàn)字的上下文的關(guān)系。因此之后加入了BERT模型進(jìn)行字的向量化表示。
BERT[27](Bidirectional Encoder Representation from Transformers)是由Google AI于2018年10月提出的一種基于深度學(xué)習(xí)的語言表示模型,是NLP領(lǐng)域近期重要的研究成果。BERT模型可以視為一種自監(jiān)督的文本向量化手段,它充分地描述了字符級、詞級、句子級甚至句間關(guān)系特征。
BERT模型的主要結(jié)構(gòu)是真正雙向的Transformer編碼器。Transformer是2017年谷歌《Attention is all you need》[28]論文中提到的。論文中提出了transformer一種新的結(jié)構(gòu),包括編碼器與解碼器兩部分,有很強(qiáng)大的文本編碼能力,應(yīng)用于機(jī)器翻譯領(lǐng)域上時(shí),取得了很好的效果。該模型的訓(xùn)練任務(wù)有兩個(gè),一個(gè)是完形填空任務(wù)(Masked Language Model),隨機(jī)遮蓋典籍語料中15%的字(本研究的粒度在字層面),將經(jīng)過雙向編碼器的隱層向量送入softmax,來預(yù)測被遮蓋的字;第二個(gè)任務(wù)是訓(xùn)練模型捕捉句子聯(lián)系的能力(Next Sentence Prediction),即給出兩個(gè)句子A和B,B有一半的可能性是A的下一句話,訓(xùn)練模型來預(yù)測B是否為A的下一句話。
通常情況下,基于BERT模型的自然語言處理任務(wù)需要經(jīng)過預(yù)訓(xùn)練與微調(diào)兩個(gè)階段。在本研究中的模型中,預(yù)訓(xùn)練階段如圖2所示,首先利用大規(guī)模未標(biāo)注過的典籍文本,也就是915部作品進(jìn)行充分的自監(jiān)督學(xué)習(xí),有效學(xué)習(xí)文本的語言特征得到深層次的文本向量表示,使用12個(gè)注意力頭,12層隱藏層,在18 144個(gè)字符基礎(chǔ)上訓(xùn)練出784維的語境向量表示。鑒于本研究不存在有標(biāo)注的下游任務(wù),因此沒有進(jìn)行第二階段的微調(diào)工作。
圖2 本研究BERT模型的輸入輸出示例
2.3.3 相似度計(jì)算 在信息檢索、網(wǎng)頁判重、推薦系統(tǒng)中,都涉及到對象之間或者對象和對象集合的相似性計(jì)算,本研究通過相似度計(jì)算比較兩個(gè)典籍或者典籍間句子的相似性。相似度計(jì)算中的關(guān)鍵技術(shù)主要是兩個(gè)部分,對象的特征表示,特征集合之間的相似關(guān)系。對象的特征表示已在“文本向量化”中介紹;本文使用了余弦相似度進(jìn)行特征集合之間的相似關(guān)系計(jì)算,其簡單,廣泛使用且效果很好。余弦相似度是基于向量空間模型(Vector space model)的,使用A、B兩個(gè)語境向量夾角的余弦值作為衡量兩個(gè)典籍或句子間差異的大小,余弦相似度體現(xiàn)的是每個(gè)向量的方向關(guān)系(角度),而非幅度,計(jì)算方法如公式4。
(4)
3.1老子內(nèi)容整體分析河上公版本的《老子》典籍中,有八十一章,去除標(biāo)點(diǎn)符號、河上公的注以及章名,有字5 665個(gè)。根據(jù)統(tǒng)計(jì)“之”“不”“以”“其”“而”“為”“者”“無”“也”“天”是出現(xiàn)次數(shù)最多的字。根據(jù)史學(xué)知識可知,“之”“以”“其”“而”“者”“也”是常用的虛詞,“不”“無”是否定副詞,不過“無”同時(shí)又是《老子》思想中的核心概念,后代魏晉玄學(xué)又進(jìn)一步標(biāo)榜老子的“貴無”思想。在《老子》的文本當(dāng)中,“無”也經(jīng)常作為抽象提煉的概念名詞使用,如《老子》著名的第一章中“無名天地之始;有名萬物之母。故常無欲,以觀其妙;常有欲,以觀其徼?!币话銛嗑涠及选盁o”作為否定性的存在動(dòng)詞。但是《莊子·天下篇》說:“老聃聞其風(fēng)而悅之,建之以常無有?!保埔浴俺o”“常有”為斷句處,后世王安石說“道之本出于無,故常無,所以自觀其妙?!痹谶@種解讀中,“無”就被作為單獨(dú)的哲學(xué)概念使用了。除此以外,出現(xiàn)次數(shù)最多的前10個(gè)字中,另有“為”“天”是實(shí)詞。在文本中出現(xiàn)次數(shù)超過30次的字已經(jīng)展示在圖3中,可以看出,除去實(shí)詞、方位詞、形容詞,主要名詞的出現(xiàn)頻次由高到低有“為”“無”“天”“人”“道”“善”“德”“物”“民”。 《老子》主要圍繞“道”和“無為”的宗旨,將“道”運(yùn)用在治國理政中的“德”來進(jìn)行論述其思想觀念[28]。在天、人關(guān)系上,老子尊天更敬人,外王論是“貴以賤為本”“無為而無不為”,社會理想是“小國寡民”“至德之世”[29]。本研究中抽取出的高頻詞基本能夠凸顯出《老子》的這些哲學(xué)思想。
圖3 河上公版本《老子》的字頻次統(tǒng)計(jì)
3.2典籍引用分析通過對《老子》的引用統(tǒng)計(jì)得出《老子》中沒有引用其他典籍,因此,本小節(jié)展開《老子》一書被先秦兩漢時(shí)期哪些典籍所引用,也就是《老子》的后世影響。統(tǒng)計(jì)后,按照節(jié)點(diǎn)的大小與節(jié)點(diǎn)的入度的大小成正比,邊粗細(xì)與引用次數(shù)高低成正比,做出圖4。
圖4 《老子》的被引情況網(wǎng)絡(luò)圖
由于本研究是以書名號中含有“老子”字段匹配,不免有所疏漏,因此在匹配書名的過程中還加入了《老子》的上下篇“德經(jīng)”“道經(jīng)”作為關(guān)鍵詞,并加入《老子》的其他稱謂“五千言”“五千文”“道德經(jīng)”。通過圖4可以清晰地看出,《漢書》對《老子》的引用最多,其次是《史記》和《韓詩外傳》,他們的引用老子的次數(shù)分別是9次,5次,3次。另外《尹文子》引用《老子》2次,圖4中其他典籍之間的引用次數(shù)都是1次?!稘h書》《史記》是兩部紀(jì)傳體史書,是“前四史”之二,其中提及”老子“主要是引用《老子》中語句和陳述歷史人物“好《老子》書”?!俄n詩外傳》《尹文子》中都是直接引用《老子》中的典句。其他典籍關(guān)于對《老子》一書的引用,主要是引用其中的句子。
道家思想影響廣而遠(yuǎn),其它經(jīng)典著作還有《文子》《莊子》《列子》《淮南子》等,可以從圖5中尋找各個(gè)典籍之間的引用關(guān)系與思想繼承發(fā)展脈絡(luò)。
圖5 以入度大小繪制節(jié)點(diǎn)得到的先秦兩漢典籍引用關(guān)系網(wǎng)絡(luò)
道家學(xué)派是以老莊學(xué)說為中心的學(xué)術(shù)派別,代表人物有老子和莊子。接下來,本研究分析了莊子的思想精髓《莊子》一書的引用情況?!肚f子》全書中引用了《詩》《書》《禮》《樂》《春秋》,并被《尸子》所引用。《詩》《書》《禮》《樂》《春秋》對《莊子》思想有所影響,在《莊子》中被引次數(shù)分別是6、6、5、4、3?!妒印芬话阏J(rèn)為是托名戰(zhàn)國時(shí)期作品,兼容諸家之學(xué),其中引用了《莊子》釋文的內(nèi)容,例如“天地四方曰宇,往古往今來曰宙?!币痪洌娪谔瞥蹶懙旅魉鞯摹肚f子》釋文引《三蒼》之說《釋文》,雖然晚出,但《三蒼》乃秦時(shí)文獻(xiàn),因此并不能排除《尸子》中內(nèi)含早期的文獻(xiàn)來源的可能性。
本小節(jié)同時(shí)做出以出度大小繪制節(jié)點(diǎn)的網(wǎng)絡(luò)關(guān)系圖,通過圖6可以清晰地看出,在所挖掘的文本中,《水經(jīng)注》《漢書》《周易》《京氏易傳》是最常引用其他典籍的先秦兩漢時(shí)的史書?!稘h書》篇幅較長,是綜合型史籍,《水經(jīng)注》原是對地理名著漢代《水經(jīng)》的注解,大部分內(nèi)容為北魏時(shí)酈道元所作,引用范圍十分廣泛,包括自然地理、人文地理、山川勝景、歷史沿革、風(fēng)俗習(xí)慣、人物掌故、神話故事等,因此多引用先秦兩漢舊籍?!吨芤住贰毒┦弦讉鳌繁M管篇幅相對很短,但是其非常尊重前賢的著作,開創(chuàng)了“引經(jīng)據(jù)典”的先河,因此這兩部典籍引用其他典籍的次數(shù)也較多。
圖6 以出度大小繪制節(jié)點(diǎn)得到的先秦兩漢典籍引用關(guān)系網(wǎng)絡(luò)
3.3《老子》與后世典籍的關(guān)系借助Python的Scikit-Learn模塊計(jì)算每一篇文檔的TF-IDF的值,兩兩典籍之間計(jì)算余弦相似度,得到102篇典籍的兩兩相似度結(jié)果。經(jīng)過分析其中的相似度情況,可以得出,《九章算術(shù)》《新語》《忠經(jīng)》《楚辭》《佛說二十四章經(jīng)》《爾雅》與其他典籍都不相似的,這與它們的主題內(nèi)容有關(guān),是相對于其他典籍所獨(dú)特的。《九章算術(shù)》是數(shù)學(xué)專著;《新語》是西漢時(shí)期陸賈的政論散文集;《忠經(jīng)》是系統(tǒng)總結(jié)忠德的專門經(jīng)典;《楚辭》是中國文學(xué)史上第一部浪漫主義詩歌總集,是一種新詩體;《佛說二十四章經(jīng)》一般認(rèn)為是中國第一部漢譯佛經(jīng);《爾雅》是辭書之祖。通過上面的分析,說明應(yīng)用TF-IDF和余弦相似度的計(jì)算方法對分析典籍之間的關(guān)系一定程度上有效,因此在對《老子》的分析時(shí),表2抽取出《老子》典籍的相似情況,進(jìn)行詳細(xì)說明。
表2 《老子》與其他典籍相似度降序排名前5
該小節(jié)中得到的《老子》與其他典籍相似度排名,體現(xiàn)了《老子》思想對后世的影響,正是因?yàn)橛小暗兰摇彼枷牒螅笫雷髌分胁庞邪包S老思想”的典句著作。整體上看,與《老子》相似度的計(jì)算結(jié)果最高只有33.30%,最相似的《淮南子》是一部集諸子百家思想于一體的著作, 道家思想在其中占據(jù)了一定的優(yōu)勢,它的“道”既繼承了先秦道家老莊思想, 同時(shí)又染有漢初“黃老思想”的時(shí)代氣息[30]?!读凶印贰肚f子》是道家重要典籍,《山海經(jīng)》多神仙怪誕之風(fēng),《易林》同為玄學(xué)所宗,這兩種文獻(xiàn)在用字遣詞的風(fēng)格上與《老子》相近,似乎也不能算特別意外。除此以外,其他典籍與《老子》的相似程度較低,本部分不再分析。
3.4《老子》與其之前典籍的關(guān)系探索《老子》與其之前典籍的關(guān)系,主要是為了研究老子的思想是受哪些已有思想的影響。為了量化比較與《老子》的相似程度,該部分選取了兩種方法,以獲得不同方法的結(jié)果和對比差異,這兩種方法是TF-IDF和余弦相似度、BERT和余弦相似度。兩種方法的原理和BERT的參數(shù)設(shè)置已在本文第二部分“研究方法”中說明。使用915部作品進(jìn)行BERT模型的自監(jiān)督學(xué)習(xí),有效地學(xué)習(xí)到文本的語言特征得到深層次的文本向量表示,通過訓(xùn)練達(dá)到在完形填空任務(wù)上52.11%的精度和在預(yù)測是否是下一個(gè)句子上98.45%的精度,參考Sentence-BERT[31],使用句子中各個(gè)字嵌入的平均后的向量作為句子的表示,之后使用了余弦相似度衡量句子相似程度。
該部分需要查找成書于《老子》之前的典籍,這類典籍難以考證確切成書時(shí)間且數(shù)量較少?!吨芤住贰渡袝贰对娊?jīng)》《墨子》《論語》《逸周書》,這些基本都可以肯定在老子文本之前成書的[32]?!冻o》與《老子》時(shí)代相對接近。本部分研究的基本理念是把《老子》當(dāng)成一個(gè)混雜的文本,來源不單一,只要時(shí)代相近的都納入范圍。最終,本小節(jié)研究使用的典籍有《周易》《尚書》《詩經(jīng)》《墨子》《論語》《逸周書》《楚辭》。
將《老子》中的每一個(gè)句子與前述7部典籍中的每一個(gè)句子計(jì)算相似度得分并由大到小排序,分別取前20、10、5條相似的句子,目的是防止出現(xiàn)因所劃分的數(shù)目不同而導(dǎo)致的結(jié)果差異。以 “此兩者同出而異名?!边@句為例,使用TF-IDF與BERT生成的字嵌入,之后計(jì)算出的相似句子結(jié)果如表3。需要說明的是,表3中重復(fù)出現(xiàn)的句子是典籍原始內(nèi)容中就存在相同的句子。
表3 與“此兩者同出而異名”最相似的前20個(gè)句子
表3是在句子層面上進(jìn)行了相似度計(jì)算,為了衡量典籍之間的相似程度,本研究將排名前20、10、5個(gè)相似句子的相似程度相加,即每一個(gè)句子都為自身的來源典籍進(jìn)行加權(quán),以表3為例,如果只根據(jù)“此兩者同出而異名”,那么《老子》之前的7部典籍的每一部得到一個(gè)分?jǐn)?shù),即根據(jù)這一個(gè)句子,可以得出每部典籍與《老子》相似的排序,表3的結(jié)果顯然表現(xiàn)出《墨子》與《老子》最相似。依照此方法,將《老子》中所有的句子的權(quán)重相加再排序后得到與《老子》的典籍相似的結(jié)果,如表4與表5所示。
表4 基于TF-IDF計(jì)算相似度之后的排序情況
表5 基于BERT計(jì)算相似度之后的排序情況
量化方法固定時(shí),無論是前20還是前10、前5個(gè)最相似的句子統(tǒng)計(jì)的結(jié)果的排序都是沒有差別的。兩種方法都認(rèn)為《墨子》是與《老子》最相似的典籍,這一現(xiàn)象看似打破了傳統(tǒng)對于道家、墨家學(xué)說的分野。除卻《墨子》是本小節(jié)研究所用的文本中篇幅最長的,因此其含有的句子最多,在一定程度上增加了從中找出與《老子》相似的文本的可能因素以外,一個(gè)比較意外的結(jié)果是,通過文本相似度的計(jì)算,計(jì)量結(jié)果進(jìn)一步引導(dǎo)我們對兩種文獻(xiàn)的內(nèi)容進(jìn)行了比對和思考,令我們發(fā)現(xiàn)《老子》和《墨子》中反映出有關(guān)思想史與科技史相結(jié)合的近似觀念。對此問題,我們擬另設(shè)專文討論。
《周易》被譽(yù)為“大道之源”,《老子》思維方式與方法同樣與《易經(jīng)》有著內(nèi)在的聯(lián)系[33]。后世《易》《老》并稱,同謂之玄這一結(jié)果,與前一小節(jié)通過余弦相似度分析,發(fā)現(xiàn)漢代《易林》與《老子》之間的相似關(guān)系恰可呼應(yīng)。
《逸周書》與《尚書》都是記言史書,一說《逸周書》為孔子刪書時(shí)剔落的部分。諸子皆出于六經(jīng)王官之學(xué),“書經(jīng)”是諸子文獻(xiàn)中的高頻引用來源,相傳老子本為周朝柱下之史,由此我們或可理解“書”類文獻(xiàn)與《老子》文本間的聯(lián)系。
表4表5中,兩種方法對《論語》的判斷是差距較大的,TF-IDF方法中,《論語》排在第2,而在BERT方法中《論語》排在第5位?!墩撜Z》儒道本身就是中華文明中不可缺少的兩個(gè)思想寶庫, 從其發(fā)展歷程來說, 都是“同源一體”的[34]。
《楚辭》《詩經(jīng)》在兩種方法中都與《老子》最不相似,兩者都是我國早期詩歌中的杰作;而《老子》的核心思想是哲學(xué)上的樸素辯證法。通過計(jì)算相似度,表現(xiàn)出淵源上較遠(yuǎn)的關(guān)系這一結(jié)果是合理的。
《老子》內(nèi)容豐富,凝結(jié)著道家的思想與智慧。本文通過兩種相似度計(jì)算的方式,以尋求與《老子》相似的文本進(jìn)行文本關(guān)系研究,主要利用了文本相似度,用機(jī)器學(xué)習(xí)方法進(jìn)行了探索?;赥F-IDF的方法更多在統(tǒng)計(jì)層面上,因此對一些專有名詞的關(guān)聯(lián)度比較敏感;利用BERT語言模型的方法得到的結(jié)果對整體語義的把握相對好;兩者可以滿足對文本使用的不同需求。為方便之后的學(xué)者進(jìn)一步探索,本研究開源出所訓(xùn)練的BERT模型。
在統(tǒng)計(jì)《老子》字頻情況時(shí),本文從字層面捕捉到《老子》反復(fù)提到的“為”“無”“天”“人”“道”“善”“德”“物”“民”等概念;進(jìn)行典籍引用分析后,《漢書》《史記》等作品提及《老子》的頻次較高,多是描述古人“好《老子》書”,可以窺見《老子》一書的在后世廣為流行。通過一系列相似度對比,本研究發(fā)現(xiàn)《淮南子》受《老子》影響頗深,《山海經(jīng)》次之,《淮南子》本身是一部集諸子百家思想于一體的著作, 先秦道家老莊思想在其中占據(jù)了一定的優(yōu)勢,《山海經(jīng)》則是玄學(xué)所宗,與《老子》在遣詞上的相近之處。在《老子》出現(xiàn)前的典籍上進(jìn)行相似度計(jì)算時(shí),本研究挖掘出《墨子》的思想史與科技史與其近似,例如兩者都對自然有探究傾向。
本項(xiàng)研究與之前通過字詞的字符文本檢索的比較研究有很大不同,更多是基于語言的特征分析得出的數(shù)據(jù)統(tǒng)計(jì)。本文的分析,不是基于普通的文本閱讀印象,而是利用字詞在文本中的出現(xiàn)頻率和文本的向量關(guān)系,初步建立文本之間的聯(lián)系。在此基礎(chǔ)上,再進(jìn)行思想史研究的考量。定量分析尤同探礦,是進(jìn)行深入挖掘前的可行性測試手段。這種方法,正在幫助我們對《老子》和《墨子》間的論說思想關(guān)系進(jìn)行一番新的思考。
目前本文的研究較為粗略,關(guān)于《老子》、道家學(xué)說仍有很多亟待研究的方面。在今后的工作中,我們準(zhǔn)備從文本的字段、詞段、句法與虛詞特征等方面進(jìn)行更細(xì)致的研究,為一個(gè)完整的大數(shù)據(jù)視域下老學(xué)的起源、發(fā)展提供更加有針對性的、具體的實(shí)證結(jié)果。