朱垚,陸明,楊濤,倪海雯
(1.南京中醫(yī)藥大學(xué)第一臨床醫(yī)學(xué)院,江蘇 南京 210023;2.南京中醫(yī)藥大學(xué)針灸推拿學(xué)院·養(yǎng)生康復(fù)學(xué)院,江蘇 南京 210023;3.南京醫(yī)中數(shù)據(jù)挖掘中心,江蘇 南京 210029;4.南京中醫(yī)藥大學(xué)人工智能與信息技術(shù)學(xué)院,江蘇 南京 210023;5.南京中醫(yī)藥大學(xué)附屬醫(yī)院,江蘇 南京 210029)
基于中醫(yī)臨床醫(yī)案的數(shù)據(jù)挖掘與知識發(fā)現(xiàn)是近年來中醫(yī)藥研究的熱點(diǎn)之一。中醫(yī)醫(yī)案數(shù)據(jù)挖掘雖然研究方法眾多,但符合中醫(yī)臨床辨治特點(diǎn)且能有效總結(jié)專家經(jīng)驗的挖掘方法,主要還是以頻數(shù)解構(gòu)、關(guān)聯(lián)規(guī)則、聚類分析為主。聚類分析是將數(shù)據(jù)分到不同類的過程,同一個類中的數(shù)據(jù)有較大相似性,而不同類間的數(shù)據(jù)差異性較大。聚類分析是一種探索性的數(shù)據(jù)挖掘方法,在分類過程中,不必預(yù)先制定分類標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā)自動分類。通過對中醫(yī)醫(yī)案實際數(shù)據(jù)樣本集的系列研究發(fā)現(xiàn),同一醫(yī)案數(shù)據(jù)樣本集所采用的聚類分析方法不同,結(jié)論亦有較大差異。不同研究者對于同一組數(shù)據(jù)進(jìn)行相同的聚類分析方法,由于研究設(shè)計不同,所得到的聚類值也不盡相同。因此,基于中醫(yī)藥學(xué)知識發(fā)現(xiàn)的客觀規(guī)律與前期大量中醫(yī)醫(yī)案數(shù)據(jù)挖掘?qū)嵺`[1-5],本團(tuán)隊提出藥物分散性聚類與方劑分散性聚類的概念,并根據(jù)聚類分析在中醫(yī)醫(yī)案研究中的主要目的,確立藥物分散性聚類與方劑分散性聚類的內(nèi)涵及外延,以期擴(kuò)展和豐富聚類分析在中醫(yī)醫(yī)案數(shù)據(jù)挖掘領(lǐng)域的應(yīng)用。本文采用淋巴瘤醫(yī)案為范例數(shù)據(jù),對不同聚類分析方法的挖掘結(jié)果進(jìn)行比較,從而分析中醫(yī)醫(yī)案采用不同聚類分析方法的優(yōu)化方案與結(jié)果差異,為中醫(yī)藥數(shù)據(jù)挖掘提供更加優(yōu)化的研究范式。
本研究采用數(shù)據(jù)挖掘中的單源數(shù)據(jù)庫類研究,旨在研究單一來源數(shù)據(jù)庫的醫(yī)案數(shù)據(jù)結(jié)構(gòu)特點(diǎn),其優(yōu)勢在于能夠有效降低建庫噪點(diǎn),減少研究復(fù)核能耗,留存單源數(shù)據(jù)研究樣本,為多源數(shù)據(jù)庫類研究形成比對數(shù)據(jù),確保后續(xù)多源數(shù)據(jù)庫類醫(yī)案研究的差異值顯現(xiàn)最大化。
選擇目標(biāo)單源數(shù)據(jù)庫為中國知網(wǎng)(CNKI),進(jìn)行“淋巴瘤”單病種、單源數(shù)據(jù)庫類醫(yī)案研究論文檢索。論文數(shù)據(jù)庫保留Download Index索引清單,進(jìn)行雙人復(fù)核,確保論文數(shù)據(jù)庫與索引清單的量值一致。檢索式:(SU="淋巴瘤") AND (SU="國醫(yī)大師" OR SU="名老中醫(yī)") AND (SU="驗案" OR SU="經(jīng)驗" OR SU="治驗" OR SU="醫(yī)案"),檢索時間設(shè)置為1988年1月1日-2019年8月15日。
在論文數(shù)據(jù)庫的基礎(chǔ)上,采用Medcase Ver3.8診籍中醫(yī)師工作室-名老中醫(yī)經(jīng)驗傳承輔助平臺,進(jìn)行臨床醫(yī)案數(shù)據(jù)文本提取,建立淋巴瘤專病醫(yī)案數(shù)據(jù)庫。錄入完成后進(jìn)行二次數(shù)據(jù)審核;不同研究人員進(jìn)行錄入及審核,控制相異率<3%。
納入標(biāo)準(zhǔn):①論文醫(yī)案描述中明確“淋巴瘤”診斷;②論文醫(yī)案描述中存在中藥內(nèi)服干預(yù)方案;③論文醫(yī)案描述中有復(fù)診信息存在可供進(jìn)行療效判別的癥狀。
排除標(biāo)準(zhǔn):經(jīng)校驗復(fù)核確認(rèn)在不同論文中,記錄了同一主診醫(yī)師相同的醫(yī)案,排除時序首位記錄外的所有醫(yī)案。
中醫(yī)辨證分型及證候要素參照《現(xiàn)代中醫(yī)腫瘤學(xué)》[6]《中藥新藥臨床研究指導(dǎo)原則》[7];西醫(yī)診斷標(biāo)準(zhǔn)參照《WHO(2008)造血與淋巴組織腫瘤分類診斷標(biāo)準(zhǔn)》[8]根據(jù)受累淋巴結(jié)或結(jié)外腫瘤組織病理報告確定診斷。
針對淋巴瘤專病醫(yī)案數(shù)據(jù)庫中文本醫(yī)案,在醫(yī)案錄入與數(shù)據(jù)提取過程中對明顯的癥狀、病機(jī)、治法、藥物、理化檢查等數(shù)據(jù)源中的錯誤等非研究性數(shù)據(jù)噪點(diǎn),進(jìn)行溯源性預(yù)處理,達(dá)到降噪、優(yōu)化的目的。溯源數(shù)據(jù)值與修正數(shù)據(jù)值由不同研究人員實時雙備份標(biāo)記。
預(yù)處理后的醫(yī)案數(shù)據(jù)庫按照研究分析類型的不同,進(jìn)行數(shù)據(jù)規(guī)范。規(guī)范化中醫(yī)藥術(shù)語分項集進(jìn)行,癥狀項集、診斷項集、病機(jī)項集規(guī)范參考《中醫(yī)診斷學(xué)》[9];藥物項集規(guī)范根據(jù)臨床經(jīng)驗導(dǎo)向型知識獲取原則,遵照中醫(yī)醫(yī)案真實世界研究范式,藥物名稱參考《中藥學(xué)》[10],其他類型數(shù)據(jù)規(guī)范化采用《中醫(yī)臨床醫(yī)案數(shù)據(jù)挖掘研究數(shù)據(jù)規(guī)范化標(biāo)準(zhǔn)》[11]。對于明確為非標(biāo)準(zhǔn)簡寫或非標(biāo)準(zhǔn)全稱藥物,均按照中藥標(biāo)準(zhǔn)名稱進(jìn)行規(guī)范;對于中醫(yī)臨床療效有差異或?qū)<沂褂脧?qiáng)調(diào)道地藥材功效的藥物,則保留原醫(yī)案藥名規(guī)則,以促進(jìn)較多臨床型知識規(guī)則的獲??;對于真實醫(yī)案中未能明確炮制方法或生、熟特性的藥物,保留原始醫(yī)案藥名,由研究者根據(jù)最終獲取的知識規(guī)則,對藥物的炮制方法與生、熟特性進(jìn)行臨床讀判與學(xué)術(shù)研究。非標(biāo)準(zhǔn)全稱完善為標(biāo)準(zhǔn)全稱,如生薏仁、生苡仁統(tǒng)一規(guī)范為生薏苡仁,熟薏仁、熟苡仁統(tǒng)一規(guī)范為熟薏苡仁,但生薏苡仁與熟薏苡仁從臨床使用角度看,療效有差別,因此按照真實世界研究范式,遵從臨床專家的使用習(xí)慣,以便多維度獲取臨床知識規(guī)則。在此次聚類研究中,不再進(jìn)行合并性藥物名稱規(guī)范,如附子原始醫(yī)案中標(biāo)明生附子與熟附子的采用生、熟區(qū)分,未注明生熟均按照醫(yī)案原文保留為附子,作為不同研究項集素材存在,以獲得更多層次知識規(guī)則,供研究者進(jìn)行臨床擬合分析。對于多種不同炮制方法產(chǎn)生不同療效特點(diǎn)的藥物,不進(jìn)行合并性藥物名稱規(guī)范,如清半夏、法半夏、礬半夏、姜半夏、竹瀝半夏、制半夏(原文未標(biāo)明,不做硬性劃分)等不做統(tǒng)一性規(guī)范。對于同一大類藥物,子類內(nèi)涵臨床選用存在差異的,均予以保留,不進(jìn)行合并性藥物名稱規(guī)范,如金錢白花蛇主指小白花蛇,白花蛇作為大類名稱包含大白花蛇。臨床醫(yī)家常用小方或成藥,按照臨床使用習(xí)慣,作為獨(dú)立項集素材存在,不做進(jìn)一步藥物細(xì)化分拆及藥名規(guī)范化處理,如黛蛤散、猴棗散等。
Medcase V3.8診籍中醫(yī)師工作室-名老中醫(yī)經(jīng)驗傳承輔助平臺系江蘇省科技創(chuàng)新專項研究成果,由南京中醫(yī)藥大學(xué)國醫(yī)大師周仲瑛工作室、第二臨床醫(yī)學(xué)院、人工智能與信息技術(shù)學(xué)院聯(lián)合研發(fā)[12],已在江蘇地區(qū)中醫(yī)臨床、教學(xué)、科研單位廣泛使用。研究采用Medcase系統(tǒng)中的XMiner V1.0中醫(yī)藥數(shù)據(jù)挖掘平臺進(jìn)行格式化和編碼,并根據(jù)文本特征計算數(shù)據(jù)權(quán)重,參考《中醫(yī)臨床醫(yī)案數(shù)據(jù)挖掘研究數(shù)據(jù)分析操作標(biāo)準(zhǔn)》[13]操作執(zhí)行系統(tǒng)常規(guī)極值處理,實時記錄調(diào)參標(biāo)值,基于Pycharm的Kmeans工具與Hierarchy工具進(jìn)行運(yùn)算數(shù)據(jù)的可視化表達(dá)。
對于淋巴瘤臨床醫(yī)案的范例數(shù)據(jù),在先期統(tǒng)一預(yù)處理與規(guī)范后,運(yùn)用分散性聚類中的快速聚類、結(jié)構(gòu)性聚類中的層次聚類進(jìn)行分析挖掘,并在研究中設(shè)計不同的挖掘路徑。在分散性聚類中根據(jù)方劑藥物重頻規(guī)則,采用藥物分散性聚類與方劑分散性聚類并行挖掘;在結(jié)構(gòu)性聚類中根據(jù)藥物頻幅的節(jié)段,設(shè)置F10、F20、F30 3個藥物凝聚層次進(jìn)行并行挖掘。將最終的挖掘結(jié)果根據(jù)算法特點(diǎn)、終值偏倚與臨床擬合3個方面進(jìn)行綜合分析比較,從而得出中醫(yī)醫(yī)案藥物聚類挖掘方法的優(yōu)化方案與結(jié)果差異。
此次比較研究中采用的聚類分析方法,大類選取的是以K-Means聚類為代表的分散性聚類和以系統(tǒng)聚類為代表的結(jié)構(gòu)性聚類。分散性聚類亞類選取筆者所在團(tuán)隊提出的藥物聚類分散性與方劑分散性聚類。結(jié)構(gòu)性聚類亞類選取則是定向性藥物凝聚層次聚類,根據(jù)不同的藥物頻幅,設(shè)定高、中、低3段頻幅的藥物凝聚層次聚類。
藥物分散性聚類是分散性聚類中的一種結(jié)合中醫(yī)臨床用藥特點(diǎn)優(yōu)化的聚類亞型。其核心內(nèi)涵是數(shù)據(jù)降維,在中醫(yī)臨床醫(yī)案的藥物數(shù)據(jù)挖掘中,僅計算藥物在所有診次中全部藥物的絕對值及藥物間的絕對距離。藥物分散性聚類研究的具體實施操作是將藥物項集縱向矩陣化,根據(jù)每個藥物在矩陣中的共現(xiàn)特征,賦予相應(yīng)權(quán)值,根據(jù)可視化需要進(jìn)行降維處理,采用藥物唯一性定位,根據(jù)歐氏距離進(jìn)行藥物聚類分析。
方劑分散性聚類是分散性聚類中的一種結(jié)合中醫(yī)臨床組方特點(diǎn)優(yōu)化的聚類亞型。其核心內(nèi)涵是數(shù)據(jù)升維,在中醫(yī)臨床醫(yī)案的藥物數(shù)據(jù)挖掘中,僅計算共現(xiàn)藥物在全部診次中的相對值及共現(xiàn)藥物的位點(diǎn)數(shù)值。方劑分散性聚類研究是將藥物項集橫向矩陣化,根據(jù)不同診次共現(xiàn)藥物在矩陣中的特征,賦予相應(yīng)權(quán)值,按照可視化需要進(jìn)行升維處理,采用共現(xiàn)藥物的位點(diǎn)頻次,根據(jù)歐氏距離進(jìn)行共現(xiàn)藥物診次特征聚類分析。
凝聚層次聚類是結(jié)構(gòu)性聚類的常見聚類亞型,但在中醫(yī)藥領(lǐng)域中的運(yùn)用,缺乏統(tǒng)一劃分凝聚層的優(yōu)化方案。筆者所在團(tuán)隊根據(jù)前期中醫(yī)醫(yī)案挖掘?qū)嵺`,在中醫(yī)臨床醫(yī)案的藥物數(shù)據(jù)挖掘中,采用藥物頻幅權(quán)重劃分聚類的凝聚層,常規(guī)劃分標(biāo)準(zhǔn)為所有診次全部藥物中出現(xiàn)頻率每10次為一個頻幅節(jié)點(diǎn)。藥物凝聚層次聚類研究的具體實施操作是先根據(jù)藥物頻幅的權(quán)重進(jìn)行分層,將全部目標(biāo)藥物進(jìn)行頻幅分布挖掘,再根據(jù)分布結(jié)果設(shè)定頻幅分層節(jié)點(diǎn),確定高、中、低3段頻幅節(jié)點(diǎn)后,采用結(jié)構(gòu)性聚類中的定向性藥物凝聚層次聚類分析。
本次淋巴瘤研究中的藥物凝聚層次聚類中,F(xiàn)10頻幅即經(jīng)過權(quán)重分層,設(shè)定頻幅分層節(jié)點(diǎn)為全部藥物頻次中大于10次的藥物凝聚層,F(xiàn)20頻幅即經(jīng)過權(quán)重分層,設(shè)定頻幅分層節(jié)點(diǎn)為全部藥物頻次中大于20次的藥物凝聚層,F(xiàn)30的頻幅即經(jīng)過權(quán)重分層,設(shè)定頻幅分層節(jié)點(diǎn)為全部藥物頻次中大于30次的藥物凝聚層,然后針對3個頻段凝聚層進(jìn)行結(jié)構(gòu)性聚類,獲得終值。
本次研究符合納入標(biāo)準(zhǔn)的醫(yī)案138則,共計138人次,354診次,其中男性176診次,占總診次數(shù)的49.72%;女性總共178診次,占總診次數(shù)的50.28%。年齡最大患者86歲,最小者6歲。研究涉及病機(jī)59條,癥狀215種,脈象18種,舌象80種,藥物451種。
本次醫(yī)案138則,其中僅記錄初診的單診次醫(yī)案54則,記錄復(fù)診的多診次醫(yī)案84則,復(fù)診癥狀改善陽性醫(yī)案81則,復(fù)診癥狀改善率為96.43%;診療超過5診次的長診次醫(yī)案為17則,診療時間超過6個月的長療程醫(yī)案18則,全部長診次醫(yī)案及長療程醫(yī)案復(fù)診臨床癥狀改善率均為100%。
結(jié)果見表1。
表1 藥物分散性聚類群集值
(續(xù)表)
本次藥物分散性聚類共計挖掘獲得群集類26項,其中群集數(shù)<10區(qū)間的群集類有4項,群集數(shù)在10~20區(qū)間的有12項,群集數(shù)>20區(qū)間的有10項。藥物分散性聚類所得藥物組合的藥味數(shù)量普遍偏大,不完全符合中醫(yī)臨床組方原理;雖然此類方法目標(biāo)藥物沒有重復(fù)性,但挖掘所得藥物組合中部分存在個別藥物的臨床低解釋性特征;個別群集僅為單味藥物,雖有可能為專病單方,但從臨床實際出發(fā)可能性較低,應(yīng)配合其他藥物組合使用。
結(jié)果見表2。
表2 方劑分散性聚類群集值
本次方劑分散性聚類共計挖掘獲得群集類22項,其中群集數(shù)<10區(qū)間的群集類有12項,群集數(shù)在10~20區(qū)間的有9項,群集數(shù)>20區(qū)間的有1項。方劑分散性聚類研究結(jié)果所得藥物組合的藥味數(shù)量普遍偏小,相對符合中醫(yī)臨床組方原理;雖然此類方法目標(biāo)藥物有重復(fù)性,但挖掘所得藥物組合具有臨床高解釋性特征;未出現(xiàn)單味藥物,最低群集為3,符合臨床角藥小方特征,更加符合中醫(yī)臨床實際。
結(jié)果見表3。
表3 F10藥物凝聚層次聚類群集值
在藥物頻幅大于10的F10藥物凝聚層次聚類分析結(jié)果中,滿足標(biāo)列參數(shù)Mark Parameter符合Frequency amplitude>10且Pick points<30的條件下,共計挖掘獲得群集類4項,其中群集數(shù)在10~20區(qū)間的有2項,群集數(shù)≥20區(qū)間的有2項。F10藥物凝聚層次性聚類所得藥物組合的藥味數(shù)量普遍偏大,不完全符合中醫(yī)臨床組方原理;挖掘所得藥物組合中存在部分藥物臨床解釋性低。
結(jié)果見表4。
表4 F20藥物凝聚層次聚類群集值
在藥物頻幅大于20的F20藥物凝聚層次聚類分析結(jié)果中,滿足標(biāo)列參數(shù)Mark Parameter符合Frequency amplitude>20且Pick points<25的條件下,共計挖掘獲得群集類4項,其中群集數(shù)<10區(qū)間的有2項,群集數(shù)在10~20區(qū)間的有1項,群集數(shù)>20區(qū)間的有1項。F20藥物凝聚層次性聚類所得藥物組合的藥味數(shù)量較F10的域?qū)挼燃売兴s減,相對符合中醫(yī)臨床組方原理;挖掘所得藥物組合中存在少量藥物的臨床解釋性低。
結(jié)果見表5。
表5 F30藥物凝聚層次聚類群集值
在藥物頻幅大于30的F30藥物凝聚層次聚類分析結(jié)果中,滿足標(biāo)列參數(shù)Mark Parameter符合Frequency amplitude>30且Pick points=Total的條件下,共計挖掘獲得群集類5項,其中群集數(shù)<10區(qū)間的有2項,群集數(shù)在10~20區(qū)間的有3項。F30藥物凝聚層次性聚類所得藥物組合的藥味數(shù)量較F20的域?qū)挼燃夁M(jìn)一步縮減,更加符合中醫(yī)臨床組方原理;挖掘所得藥物組合大部分具有臨床高解釋性特征。
分散性聚類的算法原理是首先選擇聚類的類數(shù),其次產(chǎn)生任意類數(shù)個聚類,確定聚類中心,再對每個點(diǎn)確定其聚類中心點(diǎn),計算其聚類新中心,重復(fù)多次,最終確定中心點(diǎn)不再改變。分散性聚類的優(yōu)勢在于解決聚類問題簡單快捷;算法對大數(shù)據(jù)集處理可保持伸縮性和高效率;當(dāng)群集值較密集時效果較好。劣勢在于類數(shù)的平均值可被定義的情況下才能使用,可能不適用于某些應(yīng)用;必須事先給出類數(shù),在運(yùn)算過程中對初值敏感,不同初值可能會導(dǎo)致終值差異;不適合于發(fā)現(xiàn)非凸形狀的類或者大小差別很大的類;對噪聲和孤立數(shù)據(jù)較為敏感。結(jié)合此次淋巴瘤醫(yī)案數(shù)據(jù)挖掘結(jié)果,在醫(yī)案數(shù)量為354診次且目標(biāo)藥物數(shù)量為451種時,藥物數(shù)量相對閾值不大,采用分散性聚類運(yùn)算的效率優(yōu)勢沒有完全顯現(xiàn),且運(yùn)算結(jié)果群集數(shù)偏大,群集值較多,臨床解釋性相對較低。
本次淋巴瘤研究中的結(jié)構(gòu)性聚類采用層次聚類中自下而上的凝聚層次聚類,其主要算法原理是首先將每個對象作為一個類,然后運(yùn)算合并這些子類為越來越大的類,直到滿足終結(jié)條件而停止運(yùn)算。實際聚類分析中,結(jié)構(gòu)性聚類是使用最多的一種聚類方法,其優(yōu)勢在于結(jié)構(gòu)性聚類既可以對樣本聚類,也可以對變量聚類,變量可以是連續(xù)性變量也可以是分類變量;結(jié)構(gòu)性聚類的類間距離計算方法和結(jié)果表示方法非常豐富,可視化效果較好。結(jié)構(gòu)性聚類劣勢在于與其分析過程相關(guān),由于每一步聚類都需要計算類間距離,當(dāng)變量較多或樣本數(shù)據(jù)量較大時,運(yùn)算速度較慢,運(yùn)算效率較低。結(jié)合此次淋巴瘤醫(yī)案數(shù)據(jù)挖掘,采用結(jié)構(gòu)性聚類中的凝聚層次聚類運(yùn)算效率與分散性聚類基本相當(dāng),而運(yùn)算結(jié)果群集數(shù)相對偏小,群集值較合理,臨床解釋性相對較高。
因此,樣本數(shù)量的大小在一定程度上決定了數(shù)據(jù)挖掘中分散性聚類與結(jié)構(gòu)性聚類的選取,樣本數(shù)量較大時分散性聚類運(yùn)算較為高效,樣本數(shù)量較小時結(jié)構(gòu)性聚類適應(yīng)性較好,可視程度更佳,在中醫(yī)藥領(lǐng)域運(yùn)用時更加符合臨床實際,具有較好的臨床解釋性。
分散性聚類中藥物分散性聚類的設(shè)計特點(diǎn)是按照所有樣本醫(yī)案數(shù)據(jù)中藥物出現(xiàn)單次計算藥物距離,所得終值為藥物間絕對距離。分散性聚類中方劑分散性聚類的設(shè)計特點(diǎn)是根據(jù)所有樣本醫(yī)案數(shù)據(jù)中相同藥物組合共現(xiàn)數(shù)計算藥物距離,所得終值為藥物間相對距離。從挖掘終值結(jié)果來看,在目標(biāo)藥物絕對數(shù)量相對較低時,按照臨床實際的方劑組方原則與方劑常規(guī)藥味數(shù)為標(biāo)準(zhǔn),藥物分散性聚類產(chǎn)生的極值偏倚較大,方劑分散性聚類產(chǎn)生的極值偏倚較小,并能明確展示藥物組合實際出現(xiàn)的位點(diǎn)數(shù)與位點(diǎn)值,更加利于臨床分析與數(shù)據(jù)溯源。
在結(jié)構(gòu)性聚類中,根據(jù)藥物頻幅的節(jié)段設(shè)置F10、F20、F30 3個藥物凝聚層次進(jìn)行并行挖掘。F10藥物凝聚層次聚類為藥物頻幅大于10的藥物系統(tǒng)聚類;F20藥物凝聚層次聚類為藥物頻幅大于20的藥物系統(tǒng)聚類;F30藥物凝聚層次聚類為藥物頻幅大于30的藥物系統(tǒng)聚類。從挖掘終值結(jié)果來看,在藥物絕對數(shù)量相對較低時,藥物頻幅越高的凝聚層次聚類群集數(shù)區(qū)間相對更加集中,相對于臨床實際方劑藥味數(shù)均值,產(chǎn)生的極值偏倚也相對較小。
由此可見在樣本藥物絕對數(shù)量相對較低時,結(jié)構(gòu)性聚類的群集數(shù)較分散性聚類的群集數(shù)相對較小,極值偏倚也較小,更加接近臨床實際方劑藥味數(shù)均值,而方劑分散性聚類與高頻幅藥物凝聚層次聚類在終值表達(dá)與可視化展示方面更具優(yōu)勢。
本次淋巴瘤醫(yī)案樣本分散性聚類中,藥物分散性聚類群集數(shù)大于20的有10項,群集數(shù)等于1的有2項,符合臨床處方組方規(guī)律的群集數(shù)僅為14項。從中醫(yī)臨床診療實際出發(fā),群集數(shù)大于20的多為大方,研究偏倚風(fēng)險較大,臨床解釋困難,群集數(shù)為1的多為單藥、單方,不符合聚類分析的運(yùn)用目的。而剩余的14項也可能存在數(shù)據(jù)噪聲與臨床意義不可解釋性的問題。分散性聚類中方劑分散性聚類因為算法及設(shè)計更加符合中醫(yī)臨床方劑的使用特點(diǎn),因此干擾噪點(diǎn)較低,雖然群集類也有22類,但整體群集值較藥物分散性聚類群集值大幅下降。其中群集值大于10的共有10項,而剩余12項均為個位群集值,更加符合中醫(yī)臨床核心藥物組合或經(jīng)典方劑的解釋,功效主治特征更加突出,有較強(qiáng)的臨床解釋性。由此可見,在分散性聚類方法下,方劑分散性聚類較藥物分散性聚類具有更好的臨床擬合度,而群集類的數(shù)量對臨床擬合度影響較小,群集值對臨床擬合度影響較大,群集值在(10±5)范圍內(nèi)為臨床擬合的最佳閾值,具有較高的臨床可解釋性。
本次淋巴瘤醫(yī)案結(jié)構(gòu)性聚類中,從臨床擬合度來看,挖掘結(jié)果序位應(yīng)為F30>F20>F10,低頻幅藥物凝聚層次聚類的群集值較為離散,臨床意義不可解釋性較高,臨床擬合度較低;而高頻幅藥物凝聚層次聚類群集值較為集中,頻幅越高群類別越集中,臨床解釋性越好,臨床擬合度越高。由此可見,在結(jié)構(gòu)性聚類方法下,根據(jù)藥物頻幅優(yōu)先選取高頻藥物進(jìn)行凝聚層次聚類具有更好的臨床擬合度,而聚類分析結(jié)果位點(diǎn)值對臨床擬合度影響較小,群集數(shù)隨著藥物頻幅的上升存在優(yōu)化可能,群集值隨著藥物頻幅的上升反而成下降趨勢,更加符合中醫(yī)臨床特征;從結(jié)構(gòu)性聚類最終群集值10±3閾值范圍來看,結(jié)構(gòu)性聚類臨床擬合的最佳閾值范圍也較分散性聚類群集值更為聚合,臨床可解釋性進(jìn)一步提升。
綜上所述,結(jié)合淋巴瘤醫(yī)案數(shù)據(jù)挖掘結(jié)果進(jìn)行比對研究,在淋巴瘤醫(yī)案數(shù)量為354診次且目標(biāo)藥物數(shù)量為451種時,分散性聚類分析與結(jié)構(gòu)性聚類分析在知識規(guī)則的結(jié)果表達(dá)上各有特點(diǎn),但從算法特點(diǎn)、終值偏倚、臨床擬合三個維度整體評價,結(jié)構(gòu)性聚類在此研究中更具有優(yōu)勢。而此次基于淋巴瘤醫(yī)案的數(shù)據(jù)挖掘方法比較研究中,結(jié)構(gòu)性聚類的亞類中藥物頻幅大于30的F30藥物凝聚層次聚類分析是符合中醫(yī)臨床數(shù)據(jù)挖掘研究范式的最優(yōu)方案。
對于中醫(yī)臨床醫(yī)案單病種數(shù)據(jù)挖掘研究,采用不同的聚類方法研究臨床中藥運(yùn)用的藥物組合或核心處方,方法的選取主要取決于樣本總體數(shù)量與藥物總體頻數(shù)。數(shù)據(jù)量較小時宜選取結(jié)構(gòu)性聚類,藥物結(jié)構(gòu)性聚類挖掘設(shè)計宜采用較高藥物頻幅,挖掘終值偏倚較低,研究結(jié)果臨床擬合度較好;數(shù)據(jù)量較大時宜選取分散性聚類,分散性聚類挖掘設(shè)計宜采用方劑分散性聚類,挖掘終值偏倚較低,研究結(jié)果臨床擬合度較好。但無論中醫(yī)醫(yī)案類數(shù)據(jù)挖掘選取何種聚類方法,在對挖掘終值的分析上均需要研究者有較為深厚的臨床經(jīng)驗,才能更全面地根據(jù)挖掘結(jié)果獲取新的知識。