數(shù)字技術(shù)下《老子》文本與先秦兩漢典籍的關(guān)系挖掘*

2021-11-05 03:05:32高瑞卿董啟文王弘治

情報(bào)雜志 2021年10期

高瑞卿董啟文方達(dá) 王弘治方勇

(1.華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院上海 200062；2.華東師范大學(xué)中文系上海 200062；3.上海師范大學(xué)人文學(xué)院上海 200234)

《老子》是春秋時(shí)期老子(李耳)的哲學(xué)作品，又稱《道德真經(jīng)》《道德經(jīng)》《五千言》《老子五千文》，是中國古代先秦諸子分家前的一部著作，是道家哲學(xué)思想的重要來源。老子思想對中國現(xiàn)代文明建設(shè)[1]、當(dāng)代教育[2]、生態(tài)幸福觀的建構(gòu)[3]、我國行政管理建設(shè)[4]，甚至對日本近現(xiàn)代名家[5]都產(chǎn)生了深刻影響。據(jù)聯(lián)合國教科文組織統(tǒng)計(jì)，《老子》一書是除《圣經(jīng)》外被譯成外國文字發(fā)布量最多的文化名著。

從古至今解老注老者很多，在老學(xué)思想文化史上較有影響的，從最早的列子、莊子、文子、稷下黃老學(xué)的宗老，韓非子解老喻老，河上公、嚴(yán)君平、王弼諸家注老，唐代傅奕，宋代王安石、蘇轍、呂惠卿，明末王夫之，元代吳澄等，直到晚清經(jīng)世學(xué)者魏源，無不發(fā)表心得，增益老學(xué)，為后人探究老子思想留下了豐厚的文化資源[6]。因而《老子》版本眾多，歷史上比較流行且重要的版本有：馬王堆帛書(甲本為5344字。乙本為5342字，外加重文124字)；今本，河上公《道德經(jīng)章句》(5201字，外加重文94字)，王弼《老子道德經(jīng)注》(5162字，外加重文106字)，傅奕《道德經(jīng)古本》(5450字，外加重文106字)。

老子思想是中國文化早期發(fā)展的一個(gè)典型，如何理解其思想，關(guān)乎如何理解中國早期文化。關(guān)于老子的起源、內(nèi)涵及影響問題歷史上以及當(dāng)代已經(jīng)有了大量的研究成果。本研究主要針對利用大數(shù)據(jù)計(jì)算的方式，對先秦老子思想的源頭及涵義進(jìn)行實(shí)證性研究并得出相應(yīng)結(jié)論，利用文本分析技術(shù)、人文數(shù)字處理手段，通過定量統(tǒng)計(jì)、定性分析，嘗試解決老子研究領(lǐng)域長期存在的疑而難決的問題，發(fā)掘依靠閱讀經(jīng)驗(yàn)難以發(fā)現(xiàn)的文本組織特征及相互關(guān)系；在完成上述研究的同時(shí)，獲得古漢語語料訓(xùn)練的BERT預(yù)訓(xùn)練語言模型并開源在GitHub上(https://github.com/RuiqingGao/ancient_Chinese.git)。

1 古文信息處理進(jìn)展

從概念的內(nèi)涵和外延上看，古文信息處理是一個(gè)交叉的研究領(lǐng)域，涉及了數(shù)學(xué)、計(jì)算機(jī)科學(xué)、語言學(xué)和圖書情報(bào)學(xué)等多個(gè)學(xué)科的理論、方法、知識和技術(shù)[7]。近年來，古籍自動(dòng)錄入技術(shù)令古籍?dāng)?shù)字化工作取得了豐富的實(shí)際成果[8]。在此基礎(chǔ)上，眾多學(xué)者在古代典籍的自動(dòng)分詞[9-11]，命名實(shí)體自動(dòng)識別[12-15]，句子或術(shù)語對齊[16-17]研究，古文斷句研究[18-20]以及文本分類[21]方面取得了一系列研究成果。

從研究方法上看，僅在統(tǒng)計(jì)層面上有簡單的詞頻統(tǒng)計(jì)[22]，互文度量[23]等方法；更深入地，N-gram模型[24]，貝葉斯模型[9]，支持向量機(jī)[10]，條件隨機(jī)場等傳統(tǒng)機(jī)器學(xué)習(xí)模型被大規(guī)模應(yīng)用在對古文的信息挖掘中，這與關(guān)于古代漢語文本的信息處理研究集中在分詞、命名實(shí)體識別的任務(wù)上有密切關(guān)系。近些年來，隨著運(yùn)算力的快速提升和深度學(xué)習(xí)的再度興起，循環(huán)神經(jīng)網(wǎng)絡(luò)[19,20]、BERT[18]模型也被應(yīng)用到古文斷句中。

從研究對象上看，先秦古漢語典籍是研究所用的主要語料，特別是早些年，大部分研究學(xué)者僅用少量典籍劃分出訓(xùn)練集和測試集進(jìn)行模型訓(xùn)練與應(yīng)用；近年來，深度學(xué)習(xí)模型在各種人工智能研究領(lǐng)域取得了顯著的成功后，研究者使用的語料才豐富起來，在一個(gè)研究項(xiàng)目中就涉及到史藏、詩藏、儒藏、集藏和子藏等文獻(xiàn)。在研究對象內(nèi)容上，早期應(yīng)用傳統(tǒng)機(jī)器學(xué)習(xí)模型時(shí)，使用的語料較為單一，但在近些年，研究所用語料涉及眾多方面，包括地理，歷史，小說，宗教，物產(chǎn)方方面面，以混合語料研究居多，以追求大而通用的模型。

盡管關(guān)乎古代文獻(xiàn)典籍的研究已經(jīng)有豐富的研究成果，但是從人文學(xué)科研究的深度來看，上述的數(shù)據(jù)化處理還停留在較為基本與淺顯的層面，并不能深入到思想的闡釋領(lǐng)域，而思想研究與闡釋的主觀性也正是人文學(xué)科的關(guān)鍵所在。從人文學(xué)科研究的廣度來看，前述的古文信息處理呈現(xiàn)出散點(diǎn)狀，沒有完整的體系，缺乏不同典籍在時(shí)間維度上關(guān)聯(lián)與逐步發(fā)展的研究。

總而言之，如何利用大數(shù)據(jù)得出具有洞見性的結(jié)論，還需要進(jìn)一步的探討。本文所開展的研究，力求找出不同典籍之間的聯(lián)系。

2 研究方法

2.1研究框架本研究以大數(shù)據(jù)計(jì)算為依托，以《老子》典籍為研究對象，通過數(shù)字人文技術(shù)，考察了老子思想與其他典籍之間的相似程度與關(guān)系。所使用的技術(shù)手段如圖1所示。

圖1 本文研究框架

首先，選取河上公《道德經(jīng)章句》這一版本作為本研究所用《老子》語料，下文提到的《老子》均為這一版本。河上公本大致成書于兩漢之際[25]，文句簡古，近民間系統(tǒng)，是歷史中流傳最廣的《老子》版本之一，與另一流傳廣泛的王弼《老子道德經(jīng)注》相比，一些學(xué)者認(rèn)為河上公注本有的地方勝過了王弼注本，保存不少精義。

研究過程中以字為單位統(tǒng)計(jì)老子語料中的語詞出現(xiàn)狀況，從宏觀上了解《老子》的用字特點(diǎn)；統(tǒng)計(jì)典籍之間的引用情況并繪出網(wǎng)絡(luò)圖；精選出先秦到東漢之間的典籍，基于統(tǒng)計(jì)進(jìn)行相似度分析；使用先進(jìn)的深度學(xué)習(xí)方法，訓(xùn)練BERT模型，按照BERT模型生成的字嵌入計(jì)算典籍內(nèi)部句子之間的相似程度，并與使用TF-IDF的方法作為對比，將《老子》中所有句子和其他典籍中句子的相似度計(jì)算情況匯總，得出創(chuàng)作于《老子》之前的、與其最相似的典籍。本研究以《老子》為著力點(diǎn)，分別研究了其對后世的影響和之前作品與《老子》的關(guān)系，廣泛研究了先秦兩漢時(shí)期的典籍特征，力圖從數(shù)據(jù)角度為人文學(xué)科提供實(shí)證。

2.2語料庫介紹本研究使用102篇典籍所構(gòu)成的語料庫，這些典籍涵蓋了先秦諸子百家的法、道、墨、儒、兵等學(xué)術(shù)派別的代表作品；作品的時(shí)代性大致包含了傳統(tǒng)六藝經(jīng)典，一般戰(zhàn)國典籍，從戰(zhàn)國到西漢的過渡性質(zhì)的典籍，確定的西漢典籍，東漢典籍，漢后典籍(有引用早期內(nèi)容)，共計(jì)8686320字。

之后在訓(xùn)練BERT模型時(shí)，本研究將語料庫范圍擴(kuò)大到915部作品，加入了三國兩晉南北朝時(shí)期的漢達(dá)古籍。考慮到先秦兩漢時(shí)期流傳的作品較少，只是中國古代文學(xué)的一小部分，因此加入先秦兩漢之后朝代的語料，可以更加有效地訓(xùn)練字向量，能足夠開展文本數(shù)字分析。

2.3關(guān)鍵技術(shù)

2.3.1 統(tǒng)計(jì)分析詞頻分析是對文章中重要詞匯出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì)與分析，是文本挖掘的重要手段，是文獻(xiàn)計(jì)量學(xué)中傳統(tǒng)的、具有代表性的一種內(nèi)容分析方法。在分析《老子》內(nèi)容環(huán)節(jié)，本研究首先想到的方法就是基于字的層面，從宏觀上查看老子的內(nèi)容情況，按照《老子》中每個(gè)字出現(xiàn)的次數(shù)統(tǒng)計(jì)后，以頻次從大到小排列。

引文分析(Citation Analysis)利用數(shù)學(xué)及統(tǒng)計(jì)學(xué)的方法和比較、歸納、抽象、概括等邏輯方法，通常是對科學(xué)期刊、論文、著者等各種分析對象的引證與被引證現(xiàn)象進(jìn)行分析，進(jìn)而揭示其中的數(shù)量特征和內(nèi)在規(guī)律的一種文獻(xiàn)計(jì)量分析方法[26]。本研究所用語料中存在表1中的引用情況，例如《中論》中使用《詩》的句子“高山仰止，景行行止”。如果典籍A引用了典籍B的句子，則繪制出一條由節(jié)點(diǎn)A指向節(jié)點(diǎn)B的有向線段，并且通過引用次數(shù)的高低控制有向線段的粗細(xì)，引用次數(shù)越多，線段越粗。該部分的結(jié)果將借助Gephi軟件進(jìn)行典籍節(jié)點(diǎn)布局和作力導(dǎo)向圖。

表1 語料庫中典籍的引用示例

2.3.2 文本向量化僅統(tǒng)計(jì)字頻無法表示文本豐富的語義信息，因此需要語言知識表示。在自然語言處理技術(shù)中，一般將詞義信息編碼到詞語的向量化表示中，目前常用的文本表示方式分為離散式表示和分布式表示，本研究在進(jìn)行分析《老子》與其他典籍的關(guān)系時(shí)，采取了這兩種向量化手段。離散式表示選用了容易理解且解釋性較強(qiáng)的TF-IDF方法，將每一篇典籍表示成向量；分布式表示采用深度神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練嵌入式表示方法，具體選取了流行的BERT模型，將典籍中的句子投影到高維空間中，為后續(xù)應(yīng)用數(shù)學(xué)上計(jì)算向量間的夾角余弦值做鋪墊。

TF-IDF方法簡單快速，是最常用的基于統(tǒng)計(jì)的向量化方法，本研究使用該方法簡述如下。在一個(gè)給定的典籍或句子里，字頻指的是某一個(gè)給定的字在該典籍或句子中出現(xiàn)的次數(shù)，用TF(Term frequency)表示先進(jìn)行正規(guī)化，以防止它偏向文本長的典籍。

(1)

以上式子中ni,j是該字在典籍dj中的出現(xiàn)次數(shù)，而分母則是在典籍dj中所有字的出現(xiàn)次數(shù)。

逆向文件頻率(inverse document frequency，IDF)是一個(gè)詞語普遍重要性的度量。

(2)

分子|D|表示本語料庫中的典籍總數(shù)，分母表示含字ti的典籍?dāng)?shù)目，如果存在字未出現(xiàn)在本研究所用的語料庫中，就會導(dǎo)致被除數(shù)為零，因此在計(jì)算時(shí)進(jìn)行了拉普拉斯平滑。

tfidfi,j=tfi,j*idfi

(3)

某一典籍內(nèi)的高頻率字，以及該字在整個(gè)語料典籍集合中的低文件頻率，可以產(chǎn)生出高權(quán)重的TF-IDF。因此，TF-IDF傾向于過濾掉常見的字，保留重要的詞語。該方法的缺點(diǎn)是有時(shí)候用字頻來衡量文章中的一個(gè)詞的重要性不夠全面，且這種計(jì)算無法體現(xiàn)位置信息，無法體現(xiàn)字的上下文的關(guān)系。因此之后加入了BERT模型進(jìn)行字的向量化表示。

BERT[27](Bidirectional Encoder Representation from Transformers)是由Google AI于2018年10月提出的一種基于深度學(xué)習(xí)的語言表示模型，是NLP領(lǐng)域近期重要的研究成果。BERT模型可以視為一種自監(jiān)督的文本向量化手段，它充分地描述了字符級、詞級、句子級甚至句間關(guān)系特征。

BERT模型的主要結(jié)構(gòu)是真正雙向的Transformer編碼器。Transformer是2017年谷歌《Attention is all you need》[28]論文中提到的。論文中提出了transformer一種新的結(jié)構(gòu)，包括編碼器與解碼器兩部分，有很強(qiáng)大的文本編碼能力，應(yīng)用于機(jī)器翻譯領(lǐng)域上時(shí)，取得了很好的效果。該模型的訓(xùn)練任務(wù)有兩個(gè)，一個(gè)是完形填空任務(wù)(Masked Language Model)，隨機(jī)遮蓋典籍語料中15%的字(本研究的粒度在字層面)，將經(jīng)過雙向編碼器的隱層向量送入softmax，來預(yù)測被遮蓋的字；第二個(gè)任務(wù)是訓(xùn)練模型捕捉句子聯(lián)系的能力(Next Sentence Prediction)，即給出兩個(gè)句子A和B，B有一半的可能性是A的下一句話，訓(xùn)練模型來預(yù)測B是否為A的下一句話。

通常情況下，基于BERT模型的自然語言處理任務(wù)需要經(jīng)過預(yù)訓(xùn)練與微調(diào)兩個(gè)階段。在本研究中的模型中，預(yù)訓(xùn)練階段如圖2所示，首先利用大規(guī)模未標(biāo)注過的典籍文本，也就是915部作品進(jìn)行充分的自監(jiān)督學(xué)習(xí)，有效學(xué)習(xí)文本的語言特征得到深層次的文本向量表示，使用12個(gè)注意力頭，12層隱藏層，在18 144個(gè)字符基礎(chǔ)上訓(xùn)練出784維的語境向量表示。鑒于本研究不存在有標(biāo)注的下游任務(wù)，因此沒有進(jìn)行第二階段的微調(diào)工作。

圖2 本研究BERT模型的輸入輸出示例

2.3.3 相似度計(jì)算在信息檢索、網(wǎng)頁判重、推薦系統(tǒng)中，都涉及到對象之間或者對象和對象集合的相似性計(jì)算，本研究通過相似度計(jì)算比較兩個(gè)典籍或者典籍間句子的相似性。相似度計(jì)算中的關(guān)鍵技術(shù)主要是兩個(gè)部分，對象的特征表示，特征集合之間的相似關(guān)系。對象的特征表示已在“文本向量化”中介紹；本文使用了余弦相似度進(jìn)行特征集合之間的相似關(guān)系計(jì)算，其簡單，廣泛使用且效果很好。余弦相似度是基于向量空間模型(Vector space model)的，使用A、B兩個(gè)語境向量夾角的余弦值作為衡量兩個(gè)典籍或句子間差異的大小，余弦相似度體現(xiàn)的是每個(gè)向量的方向關(guān)系(角度)，而非幅度，計(jì)算方法如公式4。

(4)

3 實(shí)驗(yàn)結(jié)果與分析

3.1老子內(nèi)容整體分析河上公版本的《老子》典籍中，有八十一章，去除標(biāo)點(diǎn)符號、河上公的注以及章名，有字5 665個(gè)。根據(jù)統(tǒng)計(jì)“之”“不”“以”“其”“而”“為”“者”“無”“也”“天”是出現(xiàn)次數(shù)最多的字。根據(jù)史學(xué)知識可知，“之”“以”“其”“而”“者”“也”是常用的虛詞，“不”“無”是否定副詞，不過“無”同時(shí)又是《老子》思想中的核心概念，后代魏晉玄學(xué)又進(jìn)一步標(biāo)榜老子的“貴無”思想。在《老子》的文本當(dāng)中，“無”也經(jīng)常作為抽象提煉的概念名詞使用，如《老子》著名的第一章中“無名天地之始；有名萬物之母。故常無欲，以觀其妙；常有欲，以觀其徼?！币话銛嗑涠及选盁o”作為否定性的存在動(dòng)詞。但是《莊子·天下篇》說：“老聃聞其風(fēng)而悅之，建之以常無有?！保埔浴俺o”“常有”為斷句處，后世王安石說“道之本出于無，故常無，所以自觀其妙?！痹谶@種解讀中，“無”就被作為單獨(dú)的哲學(xué)概念使用了。除此以外，出現(xiàn)次數(shù)最多的前10個(gè)字中，另有“為”“天”是實(shí)詞。在文本中出現(xiàn)次數(shù)超過30次的字已經(jīng)展示在圖3中，可以看出，除去實(shí)詞、方位詞、形容詞，主要名詞的出現(xiàn)頻次由高到低有“為”“無”“天”“人”“道”“善”“德”“物”“民”。《老子》主要圍繞“道”和“無為”的宗旨，將“道”運(yùn)用在治國理政中的“德”來進(jìn)行論述其思想觀念[28]。在天、人關(guān)系上,老子尊天更敬人，外王論是“貴以賤為本”“無為而無不為”，社會理想是“小國寡民”“至德之世”[29]。本研究中抽取出的高頻詞基本能夠凸顯出《老子》的這些哲學(xué)思想。

圖3 河上公版本《老子》的字頻次統(tǒng)計(jì)

3.2典籍引用分析通過對《老子》的引用統(tǒng)計(jì)得出《老子》中沒有引用其他典籍，因此，本小節(jié)展開《老子》一書被先秦兩漢時(shí)期哪些典籍所引用，也就是《老子》的后世影響。統(tǒng)計(jì)后，按照節(jié)點(diǎn)的大小與節(jié)點(diǎn)的入度的大小成正比，邊粗細(xì)與引用次數(shù)高低成正比，做出圖4。

圖4 《老子》的被引情況網(wǎng)絡(luò)圖

由于本研究是以書名號中含有“老子”字段匹配，不免有所疏漏，因此在匹配書名的過程中還加入了《老子》的上下篇“德經(jīng)”“道經(jīng)”作為關(guān)鍵詞，并加入《老子》的其他稱謂“五千言”“五千文”“道德經(jīng)”。通過圖4可以清晰地看出，《漢書》對《老子》的引用最多，其次是《史記》和《韓詩外傳》，他們的引用老子的次數(shù)分別是9次，5次，3次。另外《尹文子》引用《老子》2次，圖4中其他典籍之間的引用次數(shù)都是1次?！稘h書》《史記》是兩部紀(jì)傳體史書，是“前四史”之二，其中提及”老子“主要是引用《老子》中語句和陳述歷史人物“好《老子》書”?！俄n詩外傳》《尹文子》中都是直接引用《老子》中的典句。其他典籍關(guān)于對《老子》一書的引用，主要是引用其中的句子。

道家思想影響廣而遠(yuǎn)，其它經(jīng)典著作還有《文子》《莊子》《列子》《淮南子》等，可以從圖5中尋找各個(gè)典籍之間的引用關(guān)系與思想繼承發(fā)展脈絡(luò)。

圖5 以入度大小繪制節(jié)點(diǎn)得到的先秦兩漢典籍引用關(guān)系網(wǎng)絡(luò)

道家學(xué)派是以老莊學(xué)說為中心的學(xué)術(shù)派別，代表人物有老子和莊子。接下來，本研究分析了莊子的思想精髓《莊子》一書的引用情況?！肚f子》全書中引用了《詩》《書》《禮》《樂》《春秋》，并被《尸子》所引用。《詩》《書》《禮》《樂》《春秋》對《莊子》思想有所影響，在《莊子》中被引次數(shù)分別是6、6、5、4、3?！妒印芬话阏J(rèn)為是托名戰(zhàn)國時(shí)期作品，兼容諸家之學(xué)，其中引用了《莊子》釋文的內(nèi)容，例如“天地四方曰宇，往古往今來曰宙?！币痪洌娪谔瞥蹶懙旅魉鞯摹肚f子》釋文引《三蒼》之說《釋文》，雖然晚出，但《三蒼》乃秦時(shí)文獻(xiàn)，因此并不能排除《尸子》中內(nèi)含早期的文獻(xiàn)來源的可能性。

本小節(jié)同時(shí)做出以出度大小繪制節(jié)點(diǎn)的網(wǎng)絡(luò)關(guān)系圖，通過圖6可以清晰地看出，在所挖掘的文本中，《水經(jīng)注》《漢書》《周易》《京氏易傳》是最常引用其他典籍的先秦兩漢時(shí)的史書?！稘h書》篇幅較長，是綜合型史籍，《水經(jīng)注》原是對地理名著漢代《水經(jīng)》的注解，大部分內(nèi)容為北魏時(shí)酈道元所作，引用范圍十分廣泛，包括自然地理、人文地理、山川勝景、歷史沿革、風(fēng)俗習(xí)慣、人物掌故、神話故事等，因此多引用先秦兩漢舊籍?！吨芤住贰毒┦弦讉鳌繁M管篇幅相對很短，但是其非常尊重前賢的著作，開創(chuàng)了“引經(jīng)據(jù)典”的先河，因此這兩部典籍引用其他典籍的次數(shù)也較多。

圖6 以出度大小繪制節(jié)點(diǎn)得到的先秦兩漢典籍引用關(guān)系網(wǎng)絡(luò)

3.3《老子》與后世典籍的關(guān)系借助Python的Scikit-Learn模塊計(jì)算每一篇文檔的TF-IDF的值，兩兩典籍之間計(jì)算余弦相似度，得到102篇典籍的兩兩相似度結(jié)果。經(jīng)過分析其中的相似度情況，可以得出，《九章算術(shù)》《新語》《忠經(jīng)》《楚辭》《佛說二十四章經(jīng)》《爾雅》與其他典籍都不相似的，這與它們的主題內(nèi)容有關(guān)，是相對于其他典籍所獨(dú)特的。《九章算術(shù)》是數(shù)學(xué)專著；《新語》是西漢時(shí)期陸賈的政論散文集；《忠經(jīng)》是系統(tǒng)總結(jié)忠德的專門經(jīng)典；《楚辭》是中國文學(xué)史上第一部浪漫主義詩歌總集，是一種新詩體；《佛說二十四章經(jīng)》一般認(rèn)為是中國第一部漢譯佛經(jīng)；《爾雅》是辭書之祖。通過上面的分析，說明應(yīng)用TF-IDF和余弦相似度的計(jì)算方法對分析典籍之間的關(guān)系一定程度上有效，因此在對《老子》的分析時(shí)，表2抽取出《老子》典籍的相似情況，進(jìn)行詳細(xì)說明。

表2 《老子》與其他典籍相似度降序排名前5

該小節(jié)中得到的《老子》與其他典籍相似度排名，體現(xiàn)了《老子》思想對后世的影響，正是因?yàn)橛小暗兰摇彼枷牒螅笫雷髌分胁庞邪包S老思想”的典句著作。整體上看，與《老子》相似度的計(jì)算結(jié)果最高只有33.30%，最相似的《淮南子》是一部集諸子百家思想于一體的著作, 道家思想在其中占據(jù)了一定的優(yōu)勢，它的“道”既繼承了先秦道家老莊思想, 同時(shí)又染有漢初“黃老思想”的時(shí)代氣息[30]?！读凶印贰肚f子》是道家重要典籍，《山海經(jīng)》多神仙怪誕之風(fēng)，《易林》同為玄學(xué)所宗，這兩種文獻(xiàn)在用字遣詞的風(fēng)格上與《老子》相近，似乎也不能算特別意外。除此以外，其他典籍與《老子》的相似程度較低，本部分不再分析。

3.4《老子》與其之前典籍的關(guān)系探索《老子》與其之前典籍的關(guān)系，主要是為了研究老子的思想是受哪些已有思想的影響。為了量化比較與《老子》的相似程度，該部分選取了兩種方法，以獲得不同方法的結(jié)果和對比差異，這兩種方法是TF-IDF和余弦相似度、BERT和余弦相似度。兩種方法的原理和BERT的參數(shù)設(shè)置已在本文第二部分“研究方法”中說明。使用915部作品進(jìn)行BERT模型的自監(jiān)督學(xué)習(xí)，有效地學(xué)習(xí)到文本的語言特征得到深層次的文本向量表示，通過訓(xùn)練達(dá)到在完形填空任務(wù)上52.11%的精度和在預(yù)測是否是下一個(gè)句子上98.45%的精度，參考Sentence-BERT[31]，使用句子中各個(gè)字嵌入的平均后的向量作為句子的表示，之后使用了余弦相似度衡量句子相似程度。

該部分需要查找成書于《老子》之前的典籍，這類典籍難以考證確切成書時(shí)間且數(shù)量較少?！吨芤住贰渡袝贰对娊?jīng)》《墨子》《論語》《逸周書》，這些基本都可以肯定在老子文本之前成書的[32]?！冻o》與《老子》時(shí)代相對接近。本部分研究的基本理念是把《老子》當(dāng)成一個(gè)混雜的文本，來源不單一，只要時(shí)代相近的都納入范圍。最終，本小節(jié)研究使用的典籍有《周易》《尚書》《詩經(jīng)》《墨子》《論語》《逸周書》《楚辭》。

將《老子》中的每一個(gè)句子與前述7部典籍中的每一個(gè)句子計(jì)算相似度得分并由大到小排序，分別取前20、10、5條相似的句子，目的是防止出現(xiàn)因所劃分的數(shù)目不同而導(dǎo)致的結(jié)果差異。以 “此兩者同出而異名?！边@句為例，使用TF-IDF與BERT生成的字嵌入，之后計(jì)算出的相似句子結(jié)果如表3。需要說明的是，表3中重復(fù)出現(xiàn)的句子是典籍原始內(nèi)容中就存在相同的句子。

表3 與“此兩者同出而異名”最相似的前20個(gè)句子

表3是在句子層面上進(jìn)行了相似度計(jì)算，為了衡量典籍之間的相似程度，本研究將排名前20、10、5個(gè)相似句子的相似程度相加，即每一個(gè)句子都為自身的來源典籍進(jìn)行加權(quán)，以表3為例，如果只根據(jù)“此兩者同出而異名”，那么《老子》之前的7部典籍的每一部得到一個(gè)分?jǐn)?shù)，即根據(jù)這一個(gè)句子，可以得出每部典籍與《老子》相似的排序，表3的結(jié)果顯然表現(xiàn)出《墨子》與《老子》最相似。依照此方法，將《老子》中所有的句子的權(quán)重相加再排序后得到與《老子》的典籍相似的結(jié)果，如表4與表5所示。

表4 基于TF-IDF計(jì)算相似度之后的排序情況

表5 基于BERT計(jì)算相似度之后的排序情況

量化方法固定時(shí)，無論是前20還是前10、前5個(gè)最相似的句子統(tǒng)計(jì)的結(jié)果的排序都是沒有差別的。兩種方法都認(rèn)為《墨子》是與《老子》最相似的典籍，這一現(xiàn)象看似打破了傳統(tǒng)對于道家、墨家學(xué)說的分野。除卻《墨子》是本小節(jié)研究所用的文本中篇幅最長的，因此其含有的句子最多，在一定程度上增加了從中找出與《老子》相似的文本的可能因素以外，一個(gè)比較意外的結(jié)果是，通過文本相似度的計(jì)算，計(jì)量結(jié)果進(jìn)一步引導(dǎo)我們對兩種文獻(xiàn)的內(nèi)容進(jìn)行了比對和思考，令我們發(fā)現(xiàn)《老子》和《墨子》中反映出有關(guān)思想史與科技史相結(jié)合的近似觀念。對此問題，我們擬另設(shè)專文討論。

《周易》被譽(yù)為“大道之源”，《老子》思維方式與方法同樣與《易經(jīng)》有著內(nèi)在的聯(lián)系[33]。后世《易》《老》并稱，同謂之玄這一結(jié)果，與前一小節(jié)通過余弦相似度分析，發(fā)現(xiàn)漢代《易林》與《老子》之間的相似關(guān)系恰可呼應(yīng)。

《逸周書》與《尚書》都是記言史書，一說《逸周書》為孔子刪書時(shí)剔落的部分。諸子皆出于六經(jīng)王官之學(xué)，“書經(jīng)”是諸子文獻(xiàn)中的高頻引用來源，相傳老子本為周朝柱下之史，由此我們或可理解“書”類文獻(xiàn)與《老子》文本間的聯(lián)系。

表4表5中，兩種方法對《論語》的判斷是差距較大的，TF-IDF方法中，《論語》排在第2，而在BERT方法中《論語》排在第5位?！墩撜Z》儒道本身就是中華文明中不可缺少的兩個(gè)思想寶庫, 從其發(fā)展歷程來說, 都是“同源一體”的[34]。

《楚辭》《詩經(jīng)》在兩種方法中都與《老子》最不相似，兩者都是我國早期詩歌中的杰作；而《老子》的核心思想是哲學(xué)上的樸素辯證法。通過計(jì)算相似度，表現(xiàn)出淵源上較遠(yuǎn)的關(guān)系這一結(jié)果是合理的。

4 結(jié)論與展望

《老子》內(nèi)容豐富，凝結(jié)著道家的思想與智慧。本文通過兩種相似度計(jì)算的方式，以尋求與《老子》相似的文本進(jìn)行文本關(guān)系研究，主要利用了文本相似度，用機(jī)器學(xué)習(xí)方法進(jìn)行了探索?；赥F-IDF的方法更多在統(tǒng)計(jì)層面上，因此對一些專有名詞的關(guān)聯(lián)度比較敏感；利用BERT語言模型的方法得到的結(jié)果對整體語義的把握相對好；兩者可以滿足對文本使用的不同需求。為方便之后的學(xué)者進(jìn)一步探索，本研究開源出所訓(xùn)練的BERT模型。

在統(tǒng)計(jì)《老子》字頻情況時(shí)，本文從字層面捕捉到《老子》反復(fù)提到的“為”“無”“天”“人”“道”“善”“德”“物”“民”等概念；進(jìn)行典籍引用分析后，《漢書》《史記》等作品提及《老子》的頻次較高，多是描述古人“好《老子》書”，可以窺見《老子》一書的在后世廣為流行。通過一系列相似度對比，本研究發(fā)現(xiàn)《淮南子》受《老子》影響頗深，《山海經(jīng)》次之，《淮南子》本身是一部集諸子百家思想于一體的著作, 先秦道家老莊思想在其中占據(jù)了一定的優(yōu)勢，《山海經(jīng)》則是玄學(xué)所宗，與《老子》在遣詞上的相近之處。在《老子》出現(xiàn)前的典籍上進(jìn)行相似度計(jì)算時(shí)，本研究挖掘出《墨子》的思想史與科技史與其近似，例如兩者都對自然有探究傾向。

本項(xiàng)研究與之前通過字詞的字符文本檢索的比較研究有很大不同，更多是基于語言的特征分析得出的數(shù)據(jù)統(tǒng)計(jì)。本文的分析，不是基于普通的文本閱讀印象，而是利用字詞在文本中的出現(xiàn)頻率和文本的向量關(guān)系，初步建立文本之間的聯(lián)系。在此基礎(chǔ)上，再進(jìn)行思想史研究的考量。定量分析尤同探礦，是進(jìn)行深入挖掘前的可行性測試手段。這種方法，正在幫助我們對《老子》和《墨子》間的論說思想關(guān)系進(jìn)行一番新的思考。

目前本文的研究較為粗略，關(guān)于《老子》、道家學(xué)說仍有很多亟待研究的方面。在今后的工作中，我們準(zhǔn)備從文本的字段、詞段、句法與虛詞特征等方面進(jìn)行更細(xì)致的研究，為一個(gè)完整的大數(shù)據(jù)視域下老學(xué)的起源、發(fā)展提供更加有針對性的、具體的實(shí)證結(jié)果。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

數(shù)字技術(shù)下《老子》文本與先秦兩漢典籍的關(guān)系挖掘*

1 古文信息處理進(jìn)展

2 研究方法

3 實(shí)驗(yàn)結(jié)果與分析

4 結(jié)論與展望