摘 要: [目的/ 意義] 通過構(gòu)建動態(tài)知識圖譜實現(xiàn)中醫(yī)疫病古籍知識動態(tài)組織與可視化, 并依此挖掘中醫(yī)疫病古籍隱性知識。[方法/ 過程] 構(gòu)建融合動態(tài)元素的中醫(yī)疫病古籍知識元語義描述模型, 以溫病學派為例,基于知識元語義描述模型和深度學習技術(shù)進行知識抽取并構(gòu)建動態(tài)知識圖譜, 結(jié)合知識計算方法對溫病學派疫病古籍知識進行組方用藥規(guī)律演化分析以及辯證發(fā)展規(guī)律探析。[結(jié)果/ 結(jié)論] 結(jié)果表明, 隨著時間推移, 溫病學派逐漸偏向使用甘苦寒類中藥, 各時期疫病癥狀描述較為一致, 辯證理論日益擴充, 研究揭示了中醫(yī)疫病古籍知識演化發(fā)展規(guī)律并為中醫(yī)古籍知識發(fā)現(xiàn)等相關(guān)研究提供新思路。
關(guān)鍵詞: 數(shù)字人文; 動態(tài)知識圖譜; 知識演化; 知識元; 中醫(yī)古籍
DOI:10.3969 / j.issn.1008-0821.2025.02.003
〔中圖分類號〕G255 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2025) 02-0026-12
中醫(yī)古籍研究工作重要性日漸提升。2022 年4月, 中共中央辦公廳、國務院辦公廳印發(fā)《關(guān)于推進新時代古籍工作的意見》明確指出, 要梳理挖掘古典醫(yī)籍精華, 推動中醫(yī)藥傳承創(chuàng)新發(fā)展[1] 。中醫(yī)所述疫病是指由疫癘病邪引起的具有強烈傳染性和廣泛流行性的一類外感病, 相當于現(xiàn)代的傳染病[2] 。中醫(yī)疫病古籍中記載著海量有關(guān)疫病的辯證理論和組方配藥知識, 對現(xiàn)代流行病和傳染病的防治具有重大指導作用。2022 年3 月, 世界衛(wèi)生組織發(fā)布《世界衛(wèi)生組織中醫(yī)藥救治新冠肺炎專家評估會報告》,明確肯定了中醫(yī)藥救治新冠肺炎感染的有效性和安全性[3] 。因此, 充分挖掘中醫(yī)疫病古籍內(nèi)容是傳承中醫(yī)文化、助益中醫(yī)價值實現(xiàn)的重要環(huán)節(jié)。
中醫(yī)疫病古籍涵蓋陰陽五行、臟象經(jīng)絡(luò)等學說,其內(nèi)容結(jié)構(gòu)和知識關(guān)聯(lián)錯綜復雜, 辯證理論及用藥規(guī)律也多有更新變化。中醫(yī)疫病知識是由兩千年的疫病防治經(jīng)驗長期積累而成, 尤其是明清時期形成的溫病學派在發(fā)展過程中逐漸形成了全面的疫病診療體系, 至今在防治傳染病方面仍有極大的臨床意義, 溫病學派代表性古籍也是溫熱性質(zhì)類傳染病最具研究價值的中醫(yī)疫病古籍。中醫(yī)溫病學派在長期演變歷程中, 不斷形成全新藥物組合、變更方劑內(nèi)容并補充辯證方法, 同名方劑、癥狀或疾病等知識概念產(chǎn)生新內(nèi)涵, 導致中醫(yī)古籍考證和知識梳理工作時易產(chǎn)生混淆或遺漏。因此, 對各發(fā)展階段的古籍知識內(nèi)容進行縱向?qū)Ρ龋?有助于厘清中醫(yī)疫病史的知識發(fā)展脈絡(luò)、掌握中醫(yī)知識創(chuàng)造規(guī)律, 并據(jù)此產(chǎn)生中醫(yī)用藥診療創(chuàng)新思路。然而, 現(xiàn)有研究多針對一本古籍的單一知識內(nèi)容進行知識挖掘, 忽略了疫病知識的動態(tài)發(fā)展變化規(guī)律, 中醫(yī)疫病學發(fā)展過程中的知識完整性以及知識動態(tài)演變規(guī)律缺乏研究。
因此, 本文以溫病學派古籍為例, 構(gòu)建融合動態(tài)元素的知識元語義描述模型, 對溫病學派古籍進行涵蓋時間和屬性特征的全面知識組織, 并依此構(gòu)建動態(tài)知識圖譜, 展示溫病學派疫病知識動態(tài)演變過程, 之后借助知識計算的方法對溫病學派各發(fā)展階段的知識內(nèi)容進行深層次的知識演化分析, 挖掘用藥偏向、方劑演變和辯證理論發(fā)展等知識動態(tài)變化規(guī)律, 以幫助實現(xiàn)中醫(yī)疫病古籍知識的充分展示和利用。
1 相關(guān)工作
1. 1 動態(tài)知識圖譜相關(guān)研究
知識圖譜的基本組成單位是“實體—關(guān)系—實體” 三元組以及實體的相關(guān)屬性, 實體間通過關(guān)系相互聯(lián)結(jié), 構(gòu)成網(wǎng)狀的知識結(jié)構(gòu)[4] 。知識圖譜可以清晰地表示知識結(jié)構(gòu), 近年來被廣泛應用于知識組織和知識可視化的相關(guān)研究, 但通常不考慮時間元素, 只能表示單一維度的知識結(jié)構(gòu)。Leblay J 等[5]將知識圖譜表示為<s,p,o>(<主語,謂語,賓語>)的三元組結(jié)構(gòu), 并在此基礎(chǔ)上添加了時間標簽t, 將三元組擴展到四元組<s,p,o,t>形成動態(tài)知識圖譜,用于解決時間預測和與時間相關(guān)的查詢問題。動態(tài)知識圖譜是融入時間因素的知識圖譜, 如圖1 所示,隨著時間因素的改變, 原本時間節(jié)點下的知識結(jié)構(gòu)會發(fā)生變化, 知識圖譜的節(jié)點和邊也會隨之變化,因此, 動態(tài)知識圖譜可以用來表示隨時間改變的知識結(jié)構(gòu)。目前基于動態(tài)知識圖譜的圖學習研究有:Sankar A 等[6] 提出了動態(tài)自注意神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(DyS?AT), 通過學習節(jié)點表示捕捉動態(tài)知識圖譜結(jié)構(gòu)的演變完成鏈路預測實驗。Pareja A 等[7] 提出了進化圖卷積網(wǎng)絡(luò)(EvolveGCN), 通過使用循環(huán)模型進化圖卷積網(wǎng)絡(luò), 用于捕獲和學習圖序列的動態(tài)變化特征。Duan P T 等[8] 提出了一個耦合過程模型(Dy?CPM)來捕捉圖動態(tài)機制, 通過神經(jīng)網(wǎng)絡(luò)參數(shù)化時間點過程(TPP)來表征時間動態(tài)規(guī)律。
在動態(tài)知識圖譜的應用方面, 楊波等[9] 構(gòu)建了企業(yè)動態(tài)風險知識圖譜并提出Res Net 動態(tài)知識推理方法, 有效提高實體預測和關(guān)系預測的準確性,適用于企業(yè)領(lǐng)域知識推理和預測。陳宗源等[10] 用動態(tài)四元組的形式表達電網(wǎng)調(diào)度的歷史運行數(shù)據(jù), 通過時空同步圖卷積網(wǎng)絡(luò)挖掘數(shù)據(jù)的時空關(guān)聯(lián)并構(gòu)建動態(tài)知識圖譜, 利用其提高新能源消納能力來評估精度與速度。
上述研究均注重動態(tài)知識圖譜的預測功能, 將已有時段的局部圖譜作為動態(tài)學習和推理的模塊,用于對未來事件或知識的推理預測。本文則利用動態(tài)知識圖譜對不同時段知識的表示能力, 將不同時期的古籍知識可視化并深入回溯挖掘, 探討知識的演化規(guī)律。
1."2 知識元相關(guān)研究
知識元可以幫助細粒度組織中醫(yī)疫病古籍知識,尤其可以很好地融合和表達中醫(yī)知識復雜的屬性特征和知識發(fā)展動態(tài)特征。對于知識元的概念, 文庭孝[11] 認為, 知識元是知識的基本單元, 由不能再分割的知識框架表示且知識元之間存在著復雜的關(guān)系。索傳軍[12] 認為, 知識元是指語義上相對完整的知識單元, 知識元的形式上具有多樣性, 在內(nèi)容上具有獨立性和完整性。董坤[13] 認為, 知識元是可以自由切分、表達、存取、組織、檢索和利用的最小的獨立知識單位。另外, 也有“知識單元” “知識實體”等相關(guān)概念被提出, 文庭孝等[14] 經(jīng)過梳理“知識基因” “知識元” 和“知識因子” 等眾多相似概念后, 認為知識單元是有可表達性、獨立性和具有一定內(nèi)部結(jié)構(gòu)的知識單位。溫雯等[15] 認為, 知識實體是具有專業(yè)領(lǐng)域性且能表達核心知識的術(shù)語。章成志等[16-17] 認為, 知識實體是知識的基本單位,知識實體之間存在關(guān)聯(lián)關(guān)系, 并實現(xiàn)了對知識實體的細粒度抽取和關(guān)聯(lián)分析。對于知識元的語義結(jié)構(gòu),戎軍濤[18] 認為, 知識元包含知識項、知識資源和屬性函數(shù)。高勁松等[19] 將文獻知識元表示為文獻知識元={知識元概念, 知識元屬性, 知識元方法, 知識元關(guān)系}。索傳軍等[20] 認為, 一個知識元可以分為N 個語義三元組, 且三元組之間存在邏輯關(guān)系。
在知識元的應用方面, 曾剛等[21] 構(gòu)建了萬里茶道知識元語義描述模型, 基于該模型實現(xiàn)知識抽取和知識語義層面的細粒度組織。任亮等[22] 以知識元為核心, 構(gòu)建科技文獻細粒度知識組織模型并構(gòu)建知識圖譜, 揭示科學知識之間的內(nèi)在關(guān)聯(lián)。宋雪雁等[23] 構(gòu)建了水書習俗非遺資源知識元語義描述模型, 對水書習俗非遺資源進行細粒度知識組織與可視化, 實現(xiàn)了水書習俗非遺資源多維知識關(guān)聯(lián)關(guān)系揭示。
綜上所述, 知識元是對知識進行細粒度組織的工具, 目前已在科技文獻、文化知識等領(lǐng)域被有效利用, 但在中醫(yī)藥古籍知識組織研究領(lǐng)域還未被應用。
2 融合動態(tài)特征的中醫(yī)疫病古籍知識元語義描述模型構(gòu)建
2. 1 知識元的概念與語義結(jié)構(gòu)
對于知識元的概念, 本文認為知識元的獨立性、完整性與其可以自由切分組合并不矛盾, 知識元的獨立性體現(xiàn)在語義表達方面, 即一個知識元可以完整地表達某個特定知識(如一篇文獻、一個理論或一則公式等), 而知識元可自由切分是指可以將原本的語義內(nèi)容拆解, 拆分后的知識元無法用于表達原本的知識內(nèi)涵, 但同時形成新的知識元(如一篇文獻可以拆解出數(shù)據(jù)、概念、原理和方法等)。綜上, 本文將知識元定義為可以切分重組、關(guān)聯(lián)組織、獨立存儲、檢索利用的知識語義描述單元。
對于知識元的語義結(jié)構(gòu), 本文認為知識元語義結(jié)構(gòu)是可以獨立表達知識元內(nèi)涵和知識元之間關(guān)系的完整結(jié)構(gòu), 知識元內(nèi)涵可以理解為由多項屬性共同描述的知識特征總和, 知識元之間的關(guān)系是不同類別知識元之間產(chǎn)生的關(guān)聯(lián)關(guān)系。據(jù)此, 本文將知識元語義結(jié)構(gòu)定義為: 知識元={知識元標識, 知識元屬性, 知識元關(guān)系}。
2. 2 中醫(yī)疫病古籍知識元動態(tài)特征描述
依據(jù)前文描述, 中醫(yī)疫病古籍知識元結(jié)構(gòu)應包含: 知識元標識, 即知識元名稱, 用中醫(yī)疫病知識術(shù)語表示; 知識元屬性, 即知識元自身具有的各類屬性特征, 例如疫病癥狀的病勢、疫病方劑的劑型和中藥的性味等; 知識元關(guān)系, 即該知識元與其他關(guān)聯(lián)知識元之間的具體關(guān)系。該結(jié)構(gòu)能夠完整描述一項疫病知識, 具備獨立性和固定性, 滿足了中醫(yī)知識的傳承需求。然而隨著疫病知識的演變發(fā)展,不同時期古籍中的同名知識元內(nèi)容也會有變更, 這與著作當時疫病情況以及著者醫(yī)術(shù)觀念等有關(guān), 不代表先前的知識內(nèi)容失去價值, 因此需要對同名知識元加以區(qū)分。在知識元結(jié)構(gòu)中加入動態(tài)特征屬性即可區(qū)別不同時期的同名知識元, 而為了方便存儲檢索以及保護知識元的完整性, 本文選擇在知識元屬性之外獨立添加動態(tài)特征描述項。綜上, 本文將中醫(yī)疫病古籍知識元結(jié)構(gòu)定義為: 中醫(yī)疫病古籍知識元={知識元標識, 知識元屬性, 知識元動態(tài)特征, 知識元關(guān)系}。
中醫(yī)疫病古籍知識元動態(tài)特征的作用是區(qū)別不同時期的同名知識元, 因此有必要對中醫(yī)疫病史的變革階段進行劃分?;仡欀嗅t(yī)疫病史, 在明朝末期,疫病肆虐, 吳又可“每見時師誤以正傷寒法治之,未有不殆者”, 于是著成《溫疫論》以區(qū)分傷寒和溫病。中醫(yī)學專著《中醫(yī)疫病學》認為, 《溫疫論》是第一部中醫(yī)疫病學專著, 同時, 主治疫病的溫病學派也就此開始形成。清朝中期, 由葉天士口述,其弟子顧景文執(zhí)筆著成《溫熱論》, 開始形成完整的疫病辯證體系。清朝中后期, 吳瑭結(jié)合在北京大疫中的救治經(jīng)驗, 在前人著作的基礎(chǔ)上創(chuàng)作了《溫病條辨》, 標志著溫病學說體系正式形成。清朝末期, 王士雄深究溫病學說, 結(jié)合多部疫病著作逐條注釋解析, “以軒岐仲景之文為經(jīng), 葉薛諸家之辨為緯” 寫成《溫熱經(jīng)緯》, 標志著古代疫病學的成熟。綜上, 本文結(jié)合溫病學派從產(chǎn)生至成熟的發(fā)展歷程以及代表性古籍的產(chǎn)生時期, 將中醫(yī)疫病古籍知識元的動態(tài)特征劃分為4 個階段, 分別標注為t1、t2、t3、t4, 具體內(nèi)容如表1 所示。
2. 3 中醫(yī)疫病古籍知識元類型及關(guān)系
為詳細探討中醫(yī)疫病古籍知識元的內(nèi)容結(jié)構(gòu)和關(guān)聯(lián)關(guān)系, 構(gòu)建動態(tài)知識圖譜知識框架, 本文將梳理中醫(yī)疫病古籍中的知識元類型、各類知識元屬性及其關(guān)聯(lián)關(guān)系。本文參考了中醫(yī)藥學語言系統(tǒng)(TC?MLS)和《中國中醫(yī)藥學主題詞表》等中醫(yī)藥領(lǐng)域權(quán)威資料, 并結(jié)合《溫疫論》《溫熱條辨》等疫病古籍內(nèi)容, 將中醫(yī)疫病知識元類型定義為: 疾病知識元、癥狀知識元、方劑知識元、中藥知識元、人體基礎(chǔ)部位知識元, 具體內(nèi)容如下:
疾病知識元: 包括中醫(yī)疫病古籍中記載的各類疾病, 如溫病、肝熱病等。
癥狀知識元: 指廣義的癥狀概念, 包括中醫(yī)疫病古籍中記載的各種癥狀(狹義), 如頭痛、嘔吐等, 以及體征, 如舌象、脈象等。
方劑知識元: 指用于治療疾病、癥狀的藥方,包括中醫(yī)疫病古籍中記載的方劑、加減方劑等。
中藥知識元: 指中醫(yī)疫病古籍中記載的中藥材,包括草本植物藥材、動物類藥材和礦物類藥材等。
人體基礎(chǔ)部位知識元: 包括中醫(yī)理論中的人體組成部分, 如五臟、穴位和經(jīng)脈等。
為全面描述知識元內(nèi)涵, 需將知識元的各類屬性進行整合, 結(jié)合中醫(yī)學知識與實際診療需求, 本文選擇了各類知識元的重要屬性特征納入知識元語義描述模型, 如表2 所示。
結(jié)合古籍內(nèi)容以及中醫(yī)辯證邏輯梳理了各類知識元之間的關(guān)聯(lián)關(guān)系, 例如, 方劑治療某疾病或癥狀、方劑包含各類中藥、中藥作用于具體的人體基礎(chǔ)部位、疾病包含多種癥狀或體征, 具體如表3 所示。
2. 4 中醫(yī)疫病古籍知識元語義描述模型構(gòu)建
中醫(yī)疫病古籍知識元語義描述模型是抽象表示中醫(yī)疫病古籍知識元語義結(jié)構(gòu)的邏輯框架,前文將中醫(yī)疫病古籍知識元語義結(jié)構(gòu)定義為:中醫(yī)疫病古籍知識元={知識元標識,知識元屬性,知識元動態(tài)特征,知識元關(guān)系}。借鑒Leblay J 等[5] 和董坤[13]的研究構(gòu)建如下模型:
KE =<E,P(k:v),T,R>
其中, KE 為中醫(yī)古籍知識元語義描述模型;E 表示知識元標識, 主要是中醫(yī)疫病古籍術(shù)語; P表示知識元屬性, 包括描述項k 和屬性值v; T 表示知識元動態(tài)特征, 包括t1 ~ t4 這4 個階段; R 表示知識元之間的語義關(guān)系。上述模塊在構(gòu)建動態(tài)知識圖譜后均可通過查詢語言進行限定查詢和增刪改操作。
表示知識元屬性, 包括描述項k 和屬性值v; T 表示知識元動態(tài)特征, 包括t1 ~ t4 這4 個階段; R 表示知識元之間的語義關(guān)系。上述模塊在構(gòu)建動態(tài)知識圖譜后均可通過查詢語言進行限定查詢和增刪改操作。
3 基于知識元語義描述模型的中醫(yī)溫病學派古籍動態(tài)知識圖譜構(gòu)建
3. 1 數(shù)據(jù)來源與預處理
溫病學派是中醫(yī)疫病學代表性學派, 其提出的“雜氣由口鼻入” 的觀點與現(xiàn)代傳染病認同的傳染方式一致, 其將各類由溫邪導致的急性外感熱病稱為溫病或溫疫, 溫病學派初起到興盛的過程也是中醫(yī)疫病學迅速發(fā)展成熟的過程。本文選取中醫(yī)溫病學派發(fā)展歷程中的四部代表性古籍作為數(shù)據(jù)源探析中醫(yī)疫病學知識的發(fā)展演變規(guī)律, 分別是《溫疫論》《溫熱論》《溫病條辨》和《溫熱經(jīng)緯》?!稖匾哒摗肥敲鞒瘏怯挚伤?, 是第一部疫病學專著;《溫熱論》是清朝葉天士所著, 提出了溫病治療中重要的衛(wèi)氣營血辨證體系, 是溫病學理奠基之作;《溫病條辨》是清朝吳瑭所著, 標志著溫病學派“三焦辨證” 論治體系正式形成; 《溫熱經(jīng)緯》是清朝王士雄所著, 是溫病學之集大成者。四部古籍內(nèi)容的不斷補充發(fā)展可以映射溫病學派疫病學各發(fā)展時期的理論知識演變。
根據(jù)前文所述知識元語義描述模型的內(nèi)容, 對即將構(gòu)建的動態(tài)知識圖譜中的節(jié)點、邊、節(jié)點屬性和時間特征進行歸納描述: 節(jié)點類型即知識元類型,包括疾病、癥狀、方劑、中藥、人體基礎(chǔ)部位; 邊是知識元之間的關(guān)聯(lián)關(guān)系, 包括治療關(guān)系、包含關(guān)系、作用于、有癥狀; 節(jié)點屬性即知識元屬性; 時間特征指知識元所在的發(fā)展時期, 包括t1 ~ t4 共4個階段。由于數(shù)據(jù)量較大, 本文采用深度學習模型實現(xiàn)全部數(shù)據(jù)的實體抽取和關(guān)系抽取, 預先使用自然語言處理平臺“Label Studio” 對古籍原文中的相關(guān)知識元實體與關(guān)系進行人工標注, 標注樣例如圖2 所示。兩位標注人員提前了解中醫(yī)基礎(chǔ)知識并通讀古籍原文, 明確各類知識元的相關(guān)概念和知識關(guān)聯(lián), 在標注過程中借助《中國中醫(yī)藥學主題詞表》等工具書查詢確認難以界定的術(shù)語。標注完成后使用Kappa 指標評估標注者在標注結(jié)果中的一致性。當Kappa 值大于或等于0. 80 時, 可以認為對比內(nèi)容完全一致。經(jīng)計算, 本文標注人員對古籍原文中各類實體與關(guān)系的標注結(jié)果的Kappa 值為0. 82, 說明不同標注者的工作一致性強, 標注質(zhì)量良好。最終標注結(jié)果交由中醫(yī)專家檢查修訂后導出,分別形成實體數(shù)據(jù)集和關(guān)系數(shù)據(jù)集, 用于知識自動抽取。
3. 2 知識抽取
為構(gòu)建動態(tài)知識圖譜, 需依據(jù)知識元語義描述模型抽取各階段古籍知識內(nèi)容, 主要包括中醫(yī)疫病知識元標識、知識元關(guān)系、知識元屬性以及時間特征。為保證抽取結(jié)果的準確性, 本文采用深度學習技術(shù)與人工檢查輔助的方式進行中醫(yī)疫病古籍知識抽取。
3. 2. 1 知識元實體抽取
在中醫(yī)文獻命名實體識別領(lǐng)域, BERT-BiLSTMCRF模型被證明有較高的實體識別準確率[24] 。本文隨機抽取人工標注數(shù)據(jù)集的80%設(shè)為訓練集,用于訓練對中醫(yī)疫病古籍有效的BERT-BiLSTMCRF實體抽取模型20%設(shè)為測試集, 用于測試模型效果, 使用精確率(Precision)、召回率(Recall)和F1 值(F1-score)作為評價指標。經(jīng)過參數(shù)調(diào)試和實驗, 最終模型訓練效果如表5 所示。其中, 方劑和中藥實體的識別效果最好, 人體基礎(chǔ)部位實體識別效果不顯著, 可能與標注數(shù)據(jù)中的相關(guān)實體數(shù)量較少有關(guān)。使用訓練好的模型分階段對古籍原文進行實體抽取, 進行人工檢查和補充后, 將實體數(shù)據(jù)存儲。
3. 2. 2 知識元關(guān)系抽取
本文使用BERT 模型進行實體關(guān)系抽取, 隨機抽取數(shù)據(jù)集的80%為訓練集, 用于訓練對中醫(yī)疫病古籍有效的BERT 實體關(guān)系抽取模型, 剩余20%為測試集, 用于測試模型效果, 使用準確率Accu?racy(ACC)作為評價指標。經(jīng)過實驗, 最終模型訓練效果如表6 所示。其中, 方劑與中藥實體的包含關(guān)系識別效果不顯著, 這與文本中相關(guān)實體數(shù)量較多且關(guān)系復雜有關(guān)。使用訓練后的模型分階段對古籍原文進行關(guān)系抽取并將抽取結(jié)果存儲。
3. 2. 3 知識元屬性與時間特征抽取
知識演化分析過程中需要結(jié)合疫病知識元實體的屬性特征進行分析, 而前文設(shè)定的知識元屬性中,部分實體的對應屬性值在古籍原文中沒有提及, 無法進行大規(guī)模自動抽取。由于中藥實體的相關(guān)屬性如性味等是固定不變的, 因此本文采用詞典匹配的方式, 從《中藥大辭典》中查詢匹配相關(guān)中藥的屬性值并賦值給對應實體。對于方劑等數(shù)據(jù)量和屬性值較少的實體, 在動態(tài)知識圖譜構(gòu)建階段直接錄入相關(guān)屬性。
知識演化分析過程中需要結(jié)合疫病知識元實體的屬性特征進行分析, 而前文設(shè)定的知識元屬性中,部分實體的對應屬性值在古籍原文中沒有提及, 無法進行大規(guī)模自動抽取。由于中藥實體的相關(guān)屬性如性味等是固定不變的, 因此本文采用詞典匹配的方式, 從《中藥大辭典》中查詢匹配相關(guān)中藥的屬性值并賦值給對應實體。對于方劑等數(shù)據(jù)量和屬性值較少的實體, 在動態(tài)知識圖譜構(gòu)建階段直接錄入相關(guān)屬性。
3. 3 中醫(yī)溫病學派古籍動態(tài)知識圖譜構(gòu)建與可視化
本文使用Python 后端鏈接Neo4j 數(shù)據(jù)庫, 將知識抽取得到的實體詞典和關(guān)系詞典中的數(shù)據(jù)循環(huán)輸入到圖譜中生成相應節(jié)點、邊和屬性, 時間特征作為節(jié)點屬性存儲到圖譜中。由于古籍中存在部分術(shù)語簡寫的情況, 在實體抽取時將同義實體重復存儲,如“安宮牛黃丸” 和“牛黃丸”, 因此進行人工消歧并融合同義實體, 最終共得到實體1 826個, 關(guān)系1 499條, 涵蓋了各階段古籍中抽取的全部知識元和知識元關(guān)系。經(jīng)試驗可以使用圖譜查詢語言對知識元結(jié)構(gòu)中的E(知識元標識)、P(知識元屬性)、k(屬性描述項)、v(屬性值)、T(知識元動態(tài)特征)和R(知識元關(guān)系)等各個模塊進行限定查詢展示以及更新刪改, 可以有效助力后期知識挖掘和知識計算等工作。經(jīng)中醫(yī)專家閱覽和操作檢查, 確定本文構(gòu)建的中醫(yī)溫病學派古籍動態(tài)知識圖譜規(guī)模完整、功能健全。
通過Neo4j 查詢語言Cypher 實現(xiàn)單個節(jié)點的知識元語義描述結(jié)構(gòu)查詢與展示, 如圖3 所示, 以中藥節(jié)點“甘草” 為例展示中藥知識元的模型實例,知識元類型為中藥(Medicine), 知識元標識為“甘草”, 知識元屬性包括甘草的性味屬性“甘平”、歸經(jīng)屬性“心脾肺胃” 以及時間特征t1, 知識元關(guān)系包括甘草與方劑、人體基礎(chǔ)部位等其他知識元之間的關(guān)系。
通過查詢語言限定時間特征實現(xiàn)t1 ~t4 不同階段的圖譜狀態(tài)查詢與動態(tài)展示, 圖4 是t1 ~t4 階段中醫(yī)疫病古籍知識圖譜的全局動態(tài)變化過程。隨著時間階段的遞進, 圖譜規(guī)模和知識結(jié)構(gòu)都有所改變,其中t2 時期的無關(guān)聯(lián)節(jié)點較多, 該時期的古籍《溫熱論》對舌象、齒象、斑疹等癥狀描述較多而其他相關(guān)知識描述較少, 導致缺乏關(guān)聯(lián)節(jié)點。
4 基于中醫(yī)溫病學派古籍動態(tài)知識圖譜的疫病知識演化分析
4. 1 中醫(yī)溫病學派組方用藥規(guī)律演變分析
隨著溫病學辯證理論的發(fā)展, 治療溫病的方劑組配方式也在不斷完善, 本文依據(jù)中醫(yī)溫病學派古籍動態(tài)圖譜, 分別對溫病學派發(fā)展不同階段的組方用藥規(guī)律進行演變分析。鑒于t2 時期和t4 時期中涉及的方藥論述較少, 本文主要抽?。簦?和t3 時期的數(shù)據(jù)進行分析, 通過限定時間特征從圖譜中查詢兩個階段的相關(guān)方藥信息并進行分析, 共查詢到t1時期中的方劑32 首, t3 時期中的方劑109 首。
4. 1. 1 關(guān)鍵中藥對比分析
本文使用復雜網(wǎng)絡(luò)中的度中心性概念計算中醫(yī)古籍動態(tài)知識圖譜中的關(guān)鍵性藥物。度中心性描述一個節(jié)點在網(wǎng)絡(luò)中與其他節(jié)點的關(guān)聯(lián)性強弱, 度中心性越高, 該節(jié)點在網(wǎng)絡(luò)中就越重要[25] 。在中醫(yī)古籍動態(tài)知識圖譜中, 度中心性高的中藥節(jié)點即代表該中藥的使用率高, 在組方中是關(guān)鍵藥物。節(jié)點度中心性計算如式(1) 所示:
D(i)= di/N-1 (1)
其中, di 為網(wǎng)絡(luò)中與節(jié)點i 相連的邊數(shù), N 為節(jié)點總數(shù), N-1 為節(jié)點i 與其他節(jié)點都相連的邊數(shù)。
經(jīng)查詢與計算得出t1 和t3 時期的藥物節(jié)點度中心性部分結(jié)果如表7 所示, t1 時期的關(guān)鍵性中藥是甘草、當歸、大黃、知母等, t3 時期的關(guān)鍵性中藥是人參、厚樸、麥冬、杏仁等, 可見t3 時期治療疫病使用頻率較高的中藥已發(fā)生明顯變化。通過知識元屬性查詢發(fā)現(xiàn), t1 時期的關(guān)鍵性藥物的性味多為甘平、寒苦、辛苦溫等, 多入脾經(jīng)、胃經(jīng)、大腸經(jīng), 符合該時期創(chuàng)立的病理學說“邪伏膜原”的治法, 膜原與腸胃相連, 多用脾胃大腸經(jīng)藥物;t3 時期關(guān)鍵性中藥的性味多為甘、甘溫、苦寒等,多入肺經(jīng)、脾經(jīng), 這與該時期創(chuàng)立的三焦辨證治法相符, 用藥多對應三焦腑臟。
4. 1. 2 方劑用藥變化規(guī)律分析
在溫病學派發(fā)展過程中方劑會不斷演變, 主要包括同一方劑的加減變化和針對同一病癥的方劑替換, 例如, 在t3 時期桃仁承氣湯發(fā)生加減變化, 如圖5 所示。通過在圖譜中查詢不同時期的方劑節(jié)點及其相關(guān)節(jié)點, 對比提取出發(fā)生變化的方劑, 通過匹配方劑鏈接的中藥節(jié)點分別返回節(jié)點信息, 使用Jaccard 相似度計算方劑變更前后的相似性, Jac?card 相似度常用于計算兩個集合之間的相似程度。
其計算如式(2) 所示:
其中, A 和B 為兩個集合, J(A,B)介于0~1之間, 值越大則相似度越高。
分別將抽取出的方劑和配對中藥文本處理為集合, 計算后部分結(jié)果如表8 所示, 可以看出無論是加減變化還是替換變化, t3 時期在治療同類疾病時, 配藥方案較t1 時刻發(fā)生很大變化, 這說明在溫病學派, 自身存在改革和創(chuàng)新。
對發(fā)生變化的新舊方劑中的中藥進行統(tǒng)計, 將出現(xiàn)頻次最高的幾類中藥在方劑中的替換關(guān)系可視化, 如圖6 所示??梢园l(fā)現(xiàn)t1 時期有50%的原方劑中的甘草和當歸被替換, 在圖譜中查詢到這兩味中藥的性味分別是甘平和甘溫; 在t3 時期有67%的變更方劑中新加了細生地, 50%新加了元參、知母和麥冬, 上述4 味中藥的性味均為甘苦寒。由此可見,在t3 時期, 對相同癥狀的用藥方式發(fā)生改變, 更傾向于使用性味甘苦寒的中藥, 這與該時期提出衛(wèi)氣營血辨證理論有關(guān), 此類中藥同時也是治療營分證和血分證的常用藥。
對發(fā)生變化的新舊方劑中的中藥進行統(tǒng)計, 將出現(xiàn)頻次最高的幾類中藥在方劑中的替換關(guān)系可視化, 如圖6 所示。可以發(fā)現(xiàn)t1 時期有50%的原方劑中的甘草和當歸被替換, 在圖譜中查詢到這兩味中藥的性味分別是甘平和甘溫; 在t3 時期有67%的變更方劑中新加了細生地, 50%新加了元參、知母和麥冬, 上述4 味中藥的性味均為甘苦寒。由此可見,在t3 時期, 對相同癥狀的用藥方式發(fā)生改變, 更傾向于使用性味甘苦寒的中藥, 這與該時期提出衛(wèi)氣營血辨證理論有關(guān), 此類中藥同時也是治療營分證和血分證的常用藥。
4. 2 中醫(yī)溫病學派辯證理論發(fā)展探析
中醫(yī)通過辨證和論治兩個過程診療疾病, 辯證是通過四診(望、聞、問、切)收集患者的癥狀和體征信息并依此分析判斷疾病性質(zhì); 論治是根據(jù)辯證結(jié)果給予患者相應療法。本文通過分析各時期古籍中的癥狀知識進而發(fā)現(xiàn)溫病學派辯證理論的發(fā)展規(guī)律。
4. 2. 1 癥狀描述相似度分析
本文使用余弦相似度計算不同時期出現(xiàn)的疫病癥狀表現(xiàn)相似性, 余弦相似度是n 維空間中兩個n維向量之間角度的余弦, 用于測量文本相似度時,兩段文本的用詞越相似則余弦相似度值越大。使用查詢語言檢索圖譜中各個時期的癥狀節(jié)點并分別導出, 余弦相似度計算結(jié)果如表9 所示。對比發(fā)現(xiàn),各階段古籍對于疫病癥狀的描述較為相似, 均達到70%以上, 且由于t4 階段古籍具有綜述性質(zhì), 該時期與其他各時期癥狀相似度都較高。由此可見, 各時期古籍對疫病癥狀的記載較為統(tǒng)一, 符合溫病學派自成一脈的知識特征。
具體而言, 4 個時期均出現(xiàn)的癥狀有發(fā)熱、汗出、煩躁、喘、神昏、斑疹等, 即溫病學派描述的疫病主要癥狀, 主要參考的體征信息有脈象、舌象,即溫病學派主要辨證依據(jù)。主要區(qū)別在于t2 時期出現(xiàn)了大量關(guān)于齒象的描述, 例如齒縫流清、齒焦有垢、切牙嚙齒等, 這與該階段獨特的驗齒辯證方法有關(guān), 下文將對這一發(fā)現(xiàn)進行詳細闡述。
4. 2. 2 癥狀類型對比分析
由前文可知, 溫病學派古籍在癥狀描述方面有較大的相似性, 然而在某些階段仍然出現(xiàn)較為特殊的知識內(nèi)容以至于相似度有所降低, 例如t1 與t3 階段、t2 與t3 階段。因此, 本文綜合查詢4 個時期的癥狀節(jié)點, 觀察節(jié)點在圖譜中的網(wǎng)絡(luò)關(guān)系, 將邊數(shù)多的節(jié)點視為重要描述的癥狀, 并將其歸為九類,分別是熱痛情況(發(fā)熱、身痛等)、汗出情況(大汗、戰(zhàn)汗等)、消化情況(嘔吐、大小便異常等)、皮膚情況(斑疹、面赤等)、神智情況(不安、狂言等)、渴狀(口渴、煩渴等)、舌象、脈象、齒象。分別查詢統(tǒng)計各階段上述癥狀或體征描述詞的詞頻, 如圖7 所示, 整體而言4 個時期古籍中關(guān)于熱痛情況、汗出情況和皮膚情況的描述頻率較為一致, 說明發(fā)熱身痛、汗出異常、斑疹等癥狀在各時期均有出現(xiàn)且作為辨證依據(jù)的重要程度相似。
具體而言, 在t1 時期描述頻率最高的是消化類癥狀或體征, 說明該時期嘔吐、腹痛、大小便異常等情況被作為主要辨證依據(jù)著重診療。
t2 時期出現(xiàn)了其他各時期均未描述的齒象體征,且從詞頻可以看出該時期關(guān)于舌象、齒象的論述篇幅很大, 說明該時期主要依據(jù)舌象、齒象辨證論治,是極具特色的辯證方法。
t3 時期相對其他時期在脈象方面的論述較多,除了齒象外的各類癥狀描述比重較為一致。
t4 時期除了齒象, 其他各類癥狀的描述情況與其他時期較為重合, 該時期整合了前期各古籍的內(nèi)容形成綜述, 是溫病學派古籍的集大成者。
4. 2. 3 辯證理論發(fā)展分析
通過查詢圖譜中各時期的癥狀節(jié)點及與其相關(guān)的邊, 可以看出癥狀節(jié)點的聚類效果, 結(jié)合前文所述的各時期癥狀類型描述特點, 可以歸納各時期辯證理論。
如圖8 所示, t1 時期聚集出現(xiàn)的癥狀有“發(fā)熱—汗—渴—舌象”、消化情況、神智情況等, 通常需要結(jié)合多類癥狀體征進行辨證, 這與該時期形成的“九傳治法” 有關(guān), 通過以上各類癥狀的交替聯(lián)合出現(xiàn)情況推斷“外邪” 與“表里” 的位置關(guān)系, 進而辨證用藥。
t2 時期圖譜顯示常見癥狀有舌象和齒象, 且二者聚類現(xiàn)象不明顯, 說明舌象和齒象均可作為獨立辨證依據(jù), 這意味著辨舌驗齒法在該時期成為溫病的一項系統(tǒng)的診斷方法。
t3 時期圖譜中癥狀聚集現(xiàn)象顯著, 脈象、舌象、熱痛、汗、渴等癥狀通常同時出現(xiàn), 說明該時期的辯證方法需要綜合各類體征和癥狀, 出現(xiàn)了較為全面和系統(tǒng)的辯證方法體系。
t4 時期圖譜中癥狀類型更加豐富, 聚類情況也更為復雜, 說明該時期可診療的疫病癥狀已經(jīng)較為全面且溫病學派辯證理論發(fā)展已經(jīng)較為成熟。
上述發(fā)現(xiàn)結(jié)果說明, 自t1 時期確立疫病學論述基調(diào)以來, 后續(xù)發(fā)展階段中均圍繞相似的癥狀類型展開討論, 但各時期或出現(xiàn)新的辯證依據(jù), 或?qū)σ延邪Y狀類型進行新的組合聚類進而辯證。整體而言, 溫病學派各時期古籍辯證理論各有所長且在發(fā)展歷程中互相補充完善, 最終形成擁有辨舌驗齒等診斷方法、衛(wèi)氣營血辨證和三焦辨證等辯證理論體系的特色溫病診療系統(tǒng), 在論治溫病方面形成科學的中醫(yī)診療范式。
5 結(jié) 語
中醫(yī)疫病古籍中記載了大量疫病診療知識, 其中溫病學派古籍更是對疫病的起因、癥狀、辯證、用藥等有著系統(tǒng)且詳實的闡述, 對現(xiàn)代傳染病防治有重要借鑒意義。本文使用知識元語義描述模型對中醫(yī)疫病古籍知識體系進行建模, 突出描述中醫(yī)各類知識元的屬性和關(guān)系, 并且通過融入動態(tài)元素構(gòu)建動態(tài)知識圖譜, 將溫病學派古籍知識分時期組織、存儲和展示, 最終結(jié)合圖結(jié)構(gòu)和知識計算等方式對動態(tài)知識圖譜中的中醫(yī)知識進一步挖掘, 從方劑用藥規(guī)律演變和辯證發(fā)展過程兩方面探析了溫病學派4 個時期的知識特征, 為中醫(yī)疫病辨證治療和現(xiàn)代傳染病防治提供可借鑒知識。本文在動態(tài)知識圖譜構(gòu)建過程中只使用了溫病學派古籍作為數(shù)據(jù)集并加以分析, 然而傷寒學派古籍在防治疫病方面同樣有重要參考價值, 未來將考慮結(jié)合多學派古籍對中醫(yī)疫病知識進行更全面的對比分析和挖掘利用, 使中醫(yī)古籍知識得到更加全面地開發(fā)和使用。
參考文獻
[1] 中華人民共和國中央人民政府. 中共中央辦公廳 國務院辦公廳印發(fā)《關(guān)于推進新時代古籍工作的意見》[ EB/ OL]. ht?tps: / / www.gov.cn/ zhengce/2022- 04/11/ content_5684555. htm,2022-04-23.
[2] 谷曉紅. 中醫(yī)疫病學[M]. 北京: 中國中醫(yī)藥出版社, 2023.
[3] 中華人民共和國中央人民政府. 世衛(wèi)組織: 中醫(yī)藥對治療新冠有效[EB/ OL]. https: / / www.gov.cn/ xinwen/2022-04/06/ con?tent_5683689.htm, 2022-04-06.
[4] 劉嶠, 李楊, 段宏, 等. 知識圖譜構(gòu)建技術(shù)綜述[J]. 計算機研究與發(fā)展, 2016, 53 (3): 582-600.
[5] Leblay J, Chekol M W. Deriving Validity Time in KnowledgeGraph [ C] / / Companion Proceedings of the World Wide WebConference, 2018: 1771-1776.
[6] Sankar A, Wu Y H, Gou L, et al. DySAT: Deep Neural Repre?sentation Learning on Dynamic Graphs via Self-Attention Networks[C] / / Proceedings of the 13th International Conference on WebSearch and Data Mining, 2020: 519-527.
[7] Pareja A, Domeniconi G, Chen J, et al. EvolveGCN: EvolvingGraph Convolutional Networks for Dynamic Graphs [ J]. Proceed?ings of the AAAI Conference on Artificial Intelligence, 2020, 34(4): 5363-5370.
[8] Duan P T, Zhou C, Liu Y T. Dynamic Graph RepresentationLearning via Coupling-Process Model [ J]. IEEE Transactions onNeural Networks and Learning Systems, 2024, 35 (9): 12383-12395.
[9] 楊波, 廖怡茗. 面向企業(yè)動態(tài)風險的知識圖譜構(gòu)建與應用研究[J]. 現(xiàn)代情報, 2021, 41 (3): 110-120.
[10] 陳宗源, 余濤, 丁茂生, 等. 基于時空卷積動態(tài)知識圖譜的新能源消納評估方法[J]. 電力系統(tǒng)自動化, 2023, 47 (15):46-54.
[11] 文庭孝. 知識單元的演變及其評價研究[J]. 圖書情報工作,2007, 51 (10): 72-76.
[12] 索傳軍. 知識轉(zhuǎn)移視角下的學術(shù)論文老化與創(chuàng)新研究[J]. 圖書情報工作, 2014, 58 (5): 5-12.
[13] 董坤. 基于知識元的非物質(zhì)文化遺產(chǎn)知識抽取與組織研究[J]. 情報理論與實踐, 2021, 44 (9): 155-160, 148.
[14] 文庭孝, 羅賢春, 劉曉英, 等. 知識單元研究述評[ J]. 中國圖書館學報, 2011, 37 (5): 75-86.
[15] 溫雯, 伍思杰, 蔡瑞初, 等. 面向?qū)I(yè)文獻知識實體類型的抽取和標注[J]. 中文信息學報, 2018, 32 (1): 102-115.
[16] 章成志, 謝雨欣, 宋云天. 學術(shù)文本中細粒度知識實體的關(guān)聯(lián)分析[J]. 圖書館論壇, 2021, 41 (3): 12-20.
[17] 章成志, 謝雨欣, 張恒. 學術(shù)文獻全文內(nèi)容中的方法實體細粒度抽取及演化分析研究[J]. 情報學報, 2023, 42 (8): 952-966.
[18] 戎軍濤. 學術(shù)文獻內(nèi)容知識元語義描述模型研究[ J]. 情報科學, 2019, 37 (7): 30-35.
[19] 高勁松, 馬倩倩, 周習曼, 等. 文獻知識元語義鏈接的圖式存儲研究[J]. 情報科學, 2015, 33 (1): 126-131.
[20] 索傳軍, 蓋雙雙. 知識元的內(nèi)涵、結(jié)構(gòu)與描述模型研究[ J].中國圖書館學報, 2018, 44 (4): 54-72.
[21] 曾剛, 趙雪芹. 基于知識元的萬里茶道數(shù)字資源知識抽取與組織研究[J]. 情報理論與實踐, 2021, 44 (10): 173-178, 164.
[22] 任亮, 杜薇薇, 劉偉利. 面向科技文獻知識元的知識圖譜構(gòu)建研究[J]. 情報科學, 2022, 40 (9): 26-31.
[23] 宋雪雁, 張祥青, 張偉民. 水書習俗非物質(zhì)文化遺產(chǎn)知識元組織與可視化研究[J]. 現(xiàn)代情報, 2023, 43 (10): 3-15.
[24] 胡為, 劉偉, 石玉敬. 基于BERT-BiLSTM-CRF 的中醫(yī)醫(yī)案命名實體識別方法[J]. 計算機時代, 2022, (9): 119-122, 135.
[25] 吳果, 房禮國, 李中. 基于多指標綜合的復雜網(wǎng)絡(luò)節(jié)點重要性評估[J]. 計算機工程與設(shè)計, 2016, 37 (12): 3146-3150.
(責任編輯: 郭沫含)
基金項目: 國家社會科學基金冷門絕學專項研究項目“本草典籍整理、知識組織與智慧化建設(shè)研究” (項目編號: 23VJXT024)。