邰楊芳, 昝 彭, 華國旻
(山西醫(yī)科大學(xué), 山西 太原, 030001)
血友病是一種由凝血因子缺乏引起的遺傳性出血性疾病,其主要特征為反復(fù)的自發(fā)性或外傷性出血[1]。由于血友病的特殊性,患者治療過程中極易發(fā)生其他疾病,且血友病還會(huì)大大增加患者其他疾病的治療難度[2-3]。血友病引起的長期反復(fù)性出血和多種并發(fā)癥已成為嚴(yán)重的醫(yī)療問題和社會(huì)問題,而積極探尋血友病診治方法、研發(fā)血友病特效藥、早期防治血友病并發(fā)癥具有重要的臨床意義。目前,臨床預(yù)測并發(fā)癥大多基于常規(guī)疾病檢查和醫(yī)師臨床經(jīng)驗(yàn),但可能導(dǎo)致時(shí)效延誤,故及時(shí)準(zhǔn)確地預(yù)測疾病的潛在并發(fā)癥尤為重要[4]。疾病并發(fā)癥的挖掘與分析是醫(yī)學(xué)臨床研究的重要方向之一,其中數(shù)據(jù)挖掘方法是當(dāng)前并發(fā)癥研究中的最關(guān)鍵技術(shù)。曹馨瑞等[5]基于文獻(xiàn)熱點(diǎn)分析研究沙庫巴曲纈沙坦在心力衰竭、高血壓及相關(guān)合并癥中的應(yīng)用,并將社會(huì)網(wǎng)絡(luò)分析方法應(yīng)用于并發(fā)癥挖掘中。雷鳴等[6]構(gòu)建社會(huì)網(wǎng)絡(luò)用于分析并發(fā)癥之間的潛在關(guān)聯(lián),并將機(jī)器學(xué)習(xí)算法用于并發(fā)癥挖掘。該類方法可從大量數(shù)據(jù)中學(xué)習(xí)模式和規(guī)律,構(gòu)建預(yù)測模型評(píng)估患者的并發(fā)癥風(fēng)險(xiǎn)。潘建鵬等[7]基于D-S證據(jù)融合算法,實(shí)現(xiàn)了“高血壓并發(fā)癥-抗高血壓藥物”的知識(shí)推薦。本研究借鑒上述方法和思路探討血友病并發(fā)癥的一般性規(guī)律,以期準(zhǔn)確預(yù)測血友病患者的并發(fā)癥,現(xiàn)報(bào)告如下。
1.1.1 數(shù)據(jù)來源: 在PubMed數(shù)據(jù)庫中構(gòu)建主題檢索式("Hemophilia A"[Mesh] OR"Hemophilia B"[Mesh] OR"Factor XI Deficiency"[Mesh]),并將Mesh詞表中的入口詞以邏輯關(guān)系詞“OR”連接,以“[Title/Abstract]”為限制條件,構(gòu)建高級(jí)檢索表達(dá)式。將2個(gè)檢索式以邏輯關(guān)系詞“OR”連接,以確保文獻(xiàn)檢索全面,并去掉其中的綜述類文獻(xiàn),最終共檢索到16 930條文獻(xiàn),通過NE等軟件導(dǎo)出文獻(xiàn)的PMID號(hào)、題目及摘要,以備后續(xù)研究。
1.1.2 疾病與癥狀實(shí)體的抽取: 抽取文獻(xiàn)的標(biāo)題、摘要文本中的疾病與癥狀實(shí)體,是進(jìn)行血友病并發(fā)癥分析與挖掘的基礎(chǔ)。本研究采用在線的自然語義處理系統(tǒng)語義知識(shí)表達(dá)(SKR)的核心組件MetaMap[8]從血友病文獻(xiàn)的標(biāo)題、摘要文本中提取代表疾病和癥狀概念的實(shí)體名稱。MetaMap擁有一體化醫(yī)學(xué)語言系統(tǒng)(UMLS)的超級(jí)敘詞表和專家詞典,不僅可專業(yè)與全面地抽取出疾病和癥狀實(shí)體,而且可自動(dòng)實(shí)現(xiàn)對(duì)實(shí)體的標(biāo)準(zhǔn)化轉(zhuǎn)換。
1.1.3 疾病網(wǎng)絡(luò)構(gòu)建: 利用python程序?qū)ι鲜雒麑?shí)體抽取得到的原始數(shù)據(jù)進(jìn)行整理和結(jié)構(gòu)化存儲(chǔ),1條記錄代表1條文獻(xiàn),由文獻(xiàn)PMID號(hào)和抽取出的疾病實(shí)體構(gòu)成。利用COOC數(shù)據(jù)分析軟件生成共病矩陣,通過VOSviewer軟件形成可視化網(wǎng)絡(luò)圖譜,該可視化網(wǎng)絡(luò)可以反映疾病的并發(fā)癥狀況,具體構(gòu)建流程見圖1。
表1 疾病命名實(shí)體抽取及頻次結(jié)果(頻次前10位)
圖1 并發(fā)癥疾病網(wǎng)絡(luò)構(gòu)建流程
1.2.1 社會(huì)網(wǎng)絡(luò)分析法: 社會(huì)網(wǎng)絡(luò)分析法是對(duì)由多個(gè)實(shí)體間相互聯(lián)系構(gòu)成的社會(huì)關(guān)系結(jié)構(gòu)及其屬性進(jìn)行分析的一套規(guī)范與方法的集合。本研究采用社會(huì)網(wǎng)絡(luò)分析法分析血友病并發(fā)癥構(gòu)成的關(guān)系網(wǎng)絡(luò)整體屬性、個(gè)體屬性,以期明確血友病并發(fā)癥的總體狀況和對(duì)血友病影響突出或關(guān)系密切的其他疾病、癥狀,挖掘出網(wǎng)絡(luò)中深層次的信息并采用可視化技術(shù)直觀展示網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)和節(jié)點(diǎn)間的關(guān)聯(lián)規(guī)律。
1.2.2 關(guān)聯(lián)規(guī)則挖掘: 關(guān)聯(lián)規(guī)則挖掘是指在大規(guī)模數(shù)據(jù)集中尋找頻繁項(xiàng)集并推導(dǎo)出項(xiàng)集之間的關(guān)聯(lián)規(guī)則,該方法能夠挖掘出數(shù)據(jù)集中的隱藏關(guān)系,用于支持決策。本研究采用Apriori算法對(duì)血友病及其并發(fā)癥進(jìn)行關(guān)聯(lián)規(guī)則分析。首先,從數(shù)據(jù)集中挖掘頻繁項(xiàng)集即經(jīng)常同時(shí)出現(xiàn)的疾病組合,根據(jù)頻繁項(xiàng)生成頻繁關(guān)聯(lián)規(guī)則。頻繁項(xiàng)表示某一項(xiàng)的頻次達(dá)到或超過一定水平,該頻次被稱為支持度(Support), 其定義如下:
Support(A=>B)=P(A∩B)
(1)
當(dāng){A, B}的支持度≥最小支持度時(shí),則將{A, B}放入高頻項(xiàng)集。
然后,生成關(guān)聯(lián)規(guī)則,根據(jù)第1步得到的頻繁項(xiàng)集,如果某條規(guī)則滿足最小置信度,則該規(guī)則為關(guān)聯(lián)規(guī)則。置信度(Confidence)定義如下:
Confidence(A=>B)=P(B|A)
(2)
除支持度、置信度以外,提升度也是常用的評(píng)價(jià)關(guān)聯(lián)規(guī)則的指標(biāo),為了尋找疾病之間的潛在關(guān)聯(lián),本研究將提升度作為確定疾病關(guān)聯(lián)的相關(guān)系數(shù)。提升度(Lift)被定義為: 如果P(A∩B)=P(A)·P(B), 則項(xiàng)集A的出現(xiàn)與項(xiàng)集B無關(guān); 反之,項(xiàng)集A和項(xiàng)集B是相互依存、相互關(guān)聯(lián)的。A、B的提升度可由下式計(jì)算:
(3)
如果公式(3)的結(jié)果>1, 那么A與B呈正相關(guān),即如果有1個(gè)存在,那么另1個(gè)很可能也存在。
1.2.3 鏈路預(yù)測: 鏈路預(yù)測擬解決的關(guān)鍵問題是根據(jù)觀測到的鏈路預(yù)測給定網(wǎng)絡(luò)中2個(gè)節(jié)點(diǎn)間存在鏈路的可能性[9]。本研究采用鏈路預(yù)測方法預(yù)測血友病并發(fā)癥網(wǎng)絡(luò)中未來可能出現(xiàn)的關(guān)聯(lián),即預(yù)測血友病潛在的共病關(guān)系。① 鏈路預(yù)測指標(biāo)選取。本研究選取分別基于節(jié)點(diǎn)和路徑的12種指標(biāo)[10], 通過基于相似性的多項(xiàng)指標(biāo)分析含權(quán)和不含權(quán)網(wǎng)絡(luò),并將數(shù)據(jù)分成訓(xùn)練集和測試集,使用訓(xùn)練集計(jì)算精度,選擇最佳指標(biāo)用于計(jì)算未鏈接節(jié)點(diǎn)之間出現(xiàn)鏈接的可能性。② 評(píng)價(jià)指標(biāo)選取。應(yīng)用上述指標(biāo)對(duì)網(wǎng)絡(luò)進(jìn)行測度,可以計(jì)算出兩兩節(jié)點(diǎn)間的相似度,不同指標(biāo)計(jì)算結(jié)果不同,故還需評(píng)估指標(biāo)的測度準(zhǔn)確性。本研究選取常用評(píng)估指標(biāo)曲線下面積(AUC)作為評(píng)價(jià)標(biāo)準(zhǔn),在鏈路預(yù)測方面,AUC是指隨機(jī)選擇的實(shí)際邊緣得分的概率高于隨機(jī)選擇的不存在的邊緣得分的概率[11]。AUC的計(jì)算方法如下所示:
(4)
其中n為獨(dú)立比較的次數(shù),n′表示實(shí)際的邊的分?jǐn)?shù)比不存在的邊的分?jǐn)?shù)高多少倍,n″表示實(shí)際的和不存在的邊的分?jǐn)?shù)相等的次數(shù)。將AUC值最大指標(biāo)的計(jì)算結(jié)果作為疾病間相似度值。
通過MetaMap工具進(jìn)行實(shí)體抽取,在實(shí)體抽取過程中,將實(shí)體語義類型設(shè)置為[dsyn](Disease or Syndrome), 抽取出的疾病及癥狀實(shí)體示例見圖2。圖2中,“Processing "18652280.ti.1′: [Secondary … Case report]”表示這些字段來源于編號(hào)為18652280(PMID)的文獻(xiàn)ti(標(biāo)題)字段的第1句內(nèi)容中?!癕eta Mapping”后顯示抽取結(jié)果,例如在“1000 AMYLOIDOSIS, SECONDARY (Reactive systemic amyloidosis) [Disease or Syndrome]”中, “AMYLOIDOSIS,SECONDARY”是罕見病次級(jí)淀粉樣變性病在文獻(xiàn)中的具體表達(dá),括號(hào)內(nèi)的“Reactive systemic amyloidosis”是該疾病的規(guī)范化表述。
圖2 MetaMap疾病抽取結(jié)果示例(部分)
經(jīng)上述步驟,通過對(duì)結(jié)果編程處理,本研究共抽取得到514種疾病實(shí)體,其中出現(xiàn)頻次排名前10位的疾病實(shí)體見表1。
為避免網(wǎng)絡(luò)中出現(xiàn)的偶然疾病節(jié)點(diǎn)影響分析結(jié)果的可靠性,呈現(xiàn)較為理想的網(wǎng)絡(luò),研究者需多次調(diào)試以確定出現(xiàn)在網(wǎng)絡(luò)中的節(jié)點(diǎn)頻次閾值[12]。本研究發(fā)現(xiàn),當(dāng)節(jié)點(diǎn)出現(xiàn)頻次≥3時(shí),血友病并發(fā)癥實(shí)體構(gòu)建成的并發(fā)癥共現(xiàn)關(guān)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)較為清晰,先用社會(huì)網(wǎng)絡(luò)分析工具UCINET分析網(wǎng)絡(luò)的整體特征和節(jié)點(diǎn)特征,再用VOSviewer軟件[13]對(duì)網(wǎng)絡(luò)中的節(jié)點(diǎn)基于關(guān)聯(lián)強(qiáng)度進(jìn)行聚類分析,揭示血友病并發(fā)癥網(wǎng)絡(luò)的結(jié)構(gòu)特征和語義關(guān)聯(lián)特征。
2.2.1 網(wǎng)絡(luò)整體特征分析: ① 網(wǎng)絡(luò)密度。網(wǎng)絡(luò)密度指網(wǎng)絡(luò)中疾病節(jié)點(diǎn)間聯(lián)系的疏密程度,通過疾病或癥狀間的聯(lián)系程度表示網(wǎng)絡(luò)的連通與分散程度[14]。應(yīng)用UCINET軟件讀取所構(gòu)建的血友病并發(fā)癥網(wǎng)絡(luò),統(tǒng)計(jì)數(shù)據(jù)顯示該網(wǎng)絡(luò)由205個(gè)節(jié)點(diǎn)和21 115條無向邊構(gòu)成。經(jīng)計(jì)算,該網(wǎng)絡(luò)密度值為0.273 8(偏小),但網(wǎng)絡(luò)密度標(biāo)準(zhǔn)差為3.591 8(相對(duì)較高)。由此說明,雖然網(wǎng)絡(luò)中疾病節(jié)點(diǎn)間可能存在局部聚集,但疾病之間的連接分布整體上較為稀疏,這是由不同疾病節(jié)點(diǎn)之間的特定關(guān)系或特殊因素引起的,因此進(jìn)一步研究和分析整個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)和功能非常重要。② 小世界理論分析。小世界網(wǎng)絡(luò)具有小的平均路徑、大的聚類系數(shù)這2個(gè)基本特征[15], UCINET軟件分析結(jié)果顯示,該疾病網(wǎng)絡(luò)的平均路徑為2.027,聚類系數(shù)為18.953,符合復(fù)雜網(wǎng)絡(luò)理論的“小世界現(xiàn)象”特征。上述數(shù)據(jù)表明,此疾病網(wǎng)絡(luò)的傳播速度快且傳播效率高,疾病間關(guān)聯(lián)性較強(qiáng); 網(wǎng)絡(luò)密度偏小,平均聚類系數(shù)偏高,說明此并發(fā)癥網(wǎng)絡(luò)中存在多個(gè)密集連接的疾病子群,但這些疾病子群之間的連接較少。
2.2.2 網(wǎng)絡(luò)節(jié)點(diǎn)特征分析: ① 點(diǎn)度中心度分析。通過UCINET軟件得出疾病網(wǎng)絡(luò)點(diǎn)度中心度排名結(jié)果(前10位),見表2。點(diǎn)度中心度衡量了疾病節(jié)點(diǎn)在網(wǎng)絡(luò)中的重要程度,其中血友病A、凝血功能障礙、丙型肝炎等疾病節(jié)點(diǎn)在網(wǎng)絡(luò)中的重要性較高,對(duì)疾病的傳播和擴(kuò)散具有較大的影響。② 接近中心度分析。疾病網(wǎng)絡(luò)接近中心度排名結(jié)果(前10位)見表3, 其中血友病A是血友病眾多類型中最為常見的一種,且大多伴隨傳染性疾病和遺傳性疾病一同出現(xiàn)。③ 中介中心度分析。該疾病網(wǎng)絡(luò)的中介中心度排名結(jié)果(前10位)見表4, 結(jié)果顯示,血友病A、凝血功能障礙、人類免疫缺陷病毒(HIV)感染等10種疾病的中介中心度較高,其中血友病A、凝血功能障礙等屬于血液系統(tǒng)疾病,另一部分疾病具有傳染性,還有極少部分疾病直接與患者日常生活息息相關(guān)。
表2 點(diǎn)度中心度排名結(jié)果(前10位)
表3 接近中心度排名結(jié)果(前10位)
表4 中介中心度排名結(jié)果(前10位)
2.2.3 網(wǎng)絡(luò)主題聚類分析: 應(yīng)用VOSviewer軟件對(duì)共現(xiàn)矩陣進(jìn)行聚類,分析結(jié)果的可視化圖譜見圖3。結(jié)果顯示,整個(gè)血友病共病網(wǎng)絡(luò)可劃分為4個(gè)類團(tuán)(相同顏色的疾病節(jié)點(diǎn)構(gòu)成1個(gè)類團(tuán)),每個(gè)類團(tuán)代表1個(gè)研究主題。節(jié)點(diǎn)面積越大,說明節(jié)點(diǎn)的度數(shù)越高; 節(jié)點(diǎn)間連線越粗,表示節(jié)點(diǎn)間的聯(lián)系越緊密。① 主題1為遺傳性疾病類群,用紅色表示,主要節(jié)點(diǎn)為血友病A、血友病B、馬爾方氏綜合征等73個(gè)實(shí)體節(jié)點(diǎn)。血友病A作為整個(gè)網(wǎng)絡(luò)中心性排名最高的節(jié)點(diǎn),在子群1中也連接著大多數(shù)其他疾病節(jié)點(diǎn),這些疾病多數(shù)為遺傳性疾病,會(huì)伴隨患者終身,提示血友病A是目前臨床血友病研究的主要方向,且開展血友病A相關(guān)研究時(shí)大多會(huì)與其他遺傳疾病進(jìn)行比較分析。② 主題2為血液系統(tǒng)疾病類群,用綠色表示,包含缺血性貧血、血小板增多癥、凝血功能障礙等62個(gè)實(shí)體節(jié)點(diǎn),其多與血液系統(tǒng)相關(guān),血液系統(tǒng)疾病嚴(yán)重甚至?xí)霈F(xiàn)內(nèi)臟出血,患者會(huì)出現(xiàn)貧血和感染等癥狀,進(jìn)而影響免疫系統(tǒng)功能,影響患者整體健康。③ 主題3為傳染性疾病類群,用藍(lán)色表示,包含HIV感染、乙型肝炎、丙型肝炎等46個(gè)實(shí)體節(jié)點(diǎn)。這些疾病大多具有傳染性,與一般出血性疾病不同,傳播渠道大多為血液傳播。在現(xiàn)有醫(yī)療環(huán)境下,與其他傳染性疾病相比,血友病可能并未被列為醫(yī)療保健重點(diǎn)[16],但血友病對(duì)患者的傷害同樣不容忽視。④ 主題4為慢性疾病類群,用黃色表示,包含糖尿病、高脂血癥、獲得性因子8缺乏癥等24個(gè)實(shí)體節(jié)點(diǎn)。慢性疾病患者的并發(fā)癥發(fā)生率極高,且具有經(jīng)常發(fā)病、治療效果不顯著等特點(diǎn),這與血友病患者的癥狀相似,因此在血友病相關(guān)研究文獻(xiàn)中會(huì)出現(xiàn)多種慢性疾病。
圖3 關(guān)聯(lián)強(qiáng)度聚類結(jié)果
本研究基于關(guān)聯(lián)規(guī)則指標(biāo)分析,設(shè)置最小置信度≥0.8、最小支持度>0.01、最小提升度≥1,計(jì)算后總計(jì)生成133條關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則存在3種關(guān)聯(lián)類型,即基礎(chǔ)關(guān)系、進(jìn)階關(guān)系和同級(jí)關(guān)系[17]。根據(jù)關(guān)聯(lián)計(jì)算結(jié)果得到的關(guān)聯(lián)規(guī)則包括3種情況: ① 若疾病對(duì){A, B}只存在1條關(guān)聯(lián)規(guī)則,即A→B,置信度為x, 說明疾病A影響疾病B的出現(xiàn),因此定義A為B的基礎(chǔ)疾病, B為A的進(jìn)階疾病,即在發(fā)生疾病A的基礎(chǔ)上,更傾向于產(chǎn)生疾病B。② 若疾病對(duì){A, B}存在2條關(guān)聯(lián)規(guī)則,既存在A→B, 置信度為x, 又存在B→A, 置信度為y, 且x>y, 則說明疾病A對(duì)疾病B出現(xiàn)的影響大于疾病B對(duì)疾病A出現(xiàn)的影響,因此舍棄B→A這條規(guī)則,定義A為B的基礎(chǔ)疾病, B為A的進(jìn)階疾病; 反之若x 表5 關(guān)聯(lián)規(guī)則同級(jí)關(guān)系對(duì) 根據(jù)鏈路預(yù)測各項(xiàng)指標(biāo),分別計(jì)算其AUC值,見圖4。綜合各指標(biāo)AUC均值結(jié)果發(fā)現(xiàn),在含權(quán)網(wǎng)絡(luò)中,資源分配(RA)指標(biāo)的效果最佳。因此,本研究選用含權(quán)的RA算法進(jìn)行鏈路預(yù)測,以預(yù)測該網(wǎng)絡(luò)節(jié)點(diǎn)未來產(chǎn)生關(guān)聯(lián)的機(jī)會(huì)與可能性。 Katz指標(biāo)的含權(quán)算法參數(shù)取值0.05,不含權(quán)算法參數(shù)取值0.01。 鏈路預(yù)測得分結(jié)果(前10位)見表6, 疾病對(duì)得分越高,2種疾病產(chǎn)生關(guān)聯(lián)的可能性越大。臨床上,不同類型的血友病大多伴發(fā)其他血液系統(tǒng)疾病及凝血功能障礙等癥狀,例如SILOI I等[23]已證實(shí)關(guān)節(jié)病變和丙型肝炎的并發(fā)性關(guān)系,腹水和肝膽疾病的并發(fā)關(guān)系[24]、缺血性卒中和心肌梗死的并發(fā)關(guān)系[25]也已被驗(yàn)證,但血友病研究領(lǐng)域的相關(guān)研究極少,早發(fā)性骨關(guān)節(jié)炎和前列腺增生這2種疾病在臨床上雖無直接相關(guān)性,但鏈路預(yù)測得分卻很高,查閱相關(guān)資料后發(fā)現(xiàn),2種疾病在病理角度上雖無相關(guān)性,但從遺傳因素角度分析,均多發(fā)于有家族疾病史者,若家族中有人患病,則2種疾病的發(fā)病率均會(huì)顯著提升。預(yù)測所得的大部分結(jié)果在現(xiàn)有文獻(xiàn)數(shù)據(jù)庫中均能找到相應(yīng)研究成果,證明利用鏈路預(yù)測方式預(yù)測臨床患者的并發(fā)癥切實(shí)可行。 表6 鏈路預(yù)測得分結(jié)果(前10位) 臨床并發(fā)癥一般包括2種情形,一種情形是疾病在發(fā)展過程中引發(fā)另一種疾病或癥狀,后者即前者的并發(fā)癥;另一種情形是在診療護(hù)理過程中,患者合并發(fā)生與這種疾病相關(guān)的另一種或幾種疾病。并發(fā)癥對(duì)血友病患者的治療和康復(fù)效果存在非常明顯的影響。一些潛在的并發(fā)癥若未被及時(shí)發(fā)現(xiàn),可影響患者的日?;顒?dòng),如對(duì)患者的關(guān)節(jié)或神經(jīng)系統(tǒng)造成損傷,嚴(yán)重時(shí)甚至?xí)斐煞磸?fù)出血和神經(jīng)系統(tǒng)受損,直接導(dǎo)致關(guān)節(jié)畸形、運(yùn)動(dòng)障礙、癲癇和癱瘓等癥狀[26-27]。臨床治療血友病常需使用價(jià)格昂貴的凝血因子替代治療劑,而血友病易出血的特點(diǎn)使得患者需要更頻繁的醫(yī)療服務(wù),此外血友病患者還需接受一系列物理療法、康復(fù)訓(xùn)練等措施,這些醫(yī)療費(fèi)用超出了大多數(shù)患者的經(jīng)濟(jì)承受能力[28-30]。因此,減輕血友病患者與并發(fā)癥相關(guān)的身心痛苦和沉重經(jīng)濟(jì)負(fù)擔(dān)具有非常重要的臨床意義。 本研究結(jié)合數(shù)據(jù)挖掘與社會(huì)網(wǎng)絡(luò)分析方法,基于聚類分析、關(guān)聯(lián)算法、鏈路預(yù)測等方法分析和挖掘血友病并發(fā)癥的現(xiàn)狀及規(guī)律,并預(yù)測未來可能發(fā)生的血友病并發(fā)癥。本研究首先通過社會(huì)網(wǎng)絡(luò)分析得到血友病研究領(lǐng)域主要的疾病及并發(fā)癥,該網(wǎng)絡(luò)在整體結(jié)構(gòu)上滿足小世界網(wǎng)絡(luò)特征,根據(jù)凝聚子群特征,該疾病網(wǎng)絡(luò)分為4大聚類,再聯(lián)合關(guān)聯(lián)規(guī)則挖掘疾病與并發(fā)癥之間的一般性規(guī)律,并通過鏈路預(yù)測方式發(fā)現(xiàn)了部分在現(xiàn)有血友病相關(guān)研究中未被體現(xiàn)的潛在并發(fā)癥,進(jìn)一步通過發(fā)病機(jī)制及外部因素分析等進(jìn)行驗(yàn)證,證實(shí)了這一方法的可行性,為血友病診療過程中潛在并發(fā)癥的預(yù)防和治療提供了部分參考依據(jù)。 綜上所述,本研究基于疾病網(wǎng)絡(luò)進(jìn)行血友病并發(fā)癥關(guān)聯(lián)分析和鏈路預(yù)測,可實(shí)現(xiàn)對(duì)疾病潛在并發(fā)癥的有效預(yù)測,為血友病的臨床診療提供決策支持。但本研究存在一些不足之處,例如僅通過現(xiàn)有開放資料驗(yàn)證了部分預(yù)測結(jié)果的準(zhǔn)確性,尚未能通過臨床病例信息和醫(yī)學(xué)實(shí)驗(yàn)對(duì)現(xiàn)有預(yù)測結(jié)果進(jìn)行驗(yàn)證,未來有待進(jìn)一步深入研究。2.4 基于疾病網(wǎng)絡(luò)的鏈路預(yù)測
3 討 論