周 琦,萬亞平,2,左建宏,劉 純,馬真真,楊菁華
(1.南華大學 計算機學院,湖南 衡陽 421001;2.湖南省醫(yī)療大數(shù)據(jù)國際科技合作基地,湖南 衡陽 421001;3.南華大學附屬第三醫(yī)院,湖南 衡陽 421001)
據(jù)統(tǒng)計,2018年全世界癌癥新發(fā)病例為1 810萬,其中960萬死于癌癥。肺癌作為全球最常見的癌癥,2018年新發(fā)病例為210萬,占總數(shù)的12%[1]。最近兩年因患有惡性腫瘤而死亡的病人逐年上升,雖然在對癌癥的治療上通過手術、化療、放療、靶向腫瘤等方面取得了巨大的進步,但腫瘤患者的預后治療仍然是治療的難題。周羽等人(2010)應用全自動血細胞計數(shù)儀及ELISA法測定血小板計數(shù)濃度,說明了血小板與惡性腫瘤之間存在相關性[2]。王菊萍等人(2017)通過對觀測數(shù)據(jù)統(tǒng)計分析得出血小板水平變化與婦科惡性腫瘤的發(fā)生發(fā)展密切相關[3]。曾在1872年就有學者首次報道過癌癥患者的血小板計數(shù)增多與惡性腫瘤的侵襲和轉移密切相關。1903年,有研究者首次觀察到人肺癌細胞周圍有血小板聚集[4]。1970年Silvis等人的研究表明,190名肺癌患者中,有60%的患者有血小板增多癥[5]。1974年,Tranum等人報道實體瘤患者也存在血小板增多癥,另外卵巢癌患者血小板增多癥的比例為33%~57%[6]。2015年,Zhang等人在肺癌患者308例病例中,發(fā)現(xiàn)有26.6%的患者伴有血小板增多癥,晚期癌癥與血小板計數(shù)增加有關[7]。2014年,Menter D.G認為血小板可能影響了癌癥的轉移[8]。
雖然癌癥患者中血小板增多的發(fā)生程度似乎取決于特定的惡性腫瘤,但所有研究的共同發(fā)現(xiàn)是癌癥患者中的血小板增多可能是預后差和生存率低的標志。在肺癌患者的觀測數(shù)據(jù)中發(fā)現(xiàn)引入了更多無關或影響力甚微的因素,早期的研究從觀測數(shù)據(jù)中得出的結論忽略了其吸煙、分期或者化療等其他因素的影響結果。可能會給臨床醫(yī)生做出無效干預或者誤導性干預。為了解決上述問題,該文提出結合因果網絡模型分析觀測醫(yī)學數(shù)據(jù)中的因果識別,利用因果推斷模型分析臨床資料數(shù)據(jù)中的因果鏈路。
數(shù)據(jù)科學中許多問題都屬于因果關系,其目的是了解某種暴露(無論是否隨機化)對結果興趣的影響。即使看似非因果的研究,例如那些以預測和患病率估計為目標的研究,也存在因果關系[9]。為此醫(yī)學統(tǒng)計學已經通過相關分析方法對醫(yī)學數(shù)據(jù)進行了一系列的研究,比如獨立樣本t檢驗、方差分析、卡方檢驗和COX回歸比例風險模型分析。但是,這些方法只能理解臨床資料中的關聯(lián)關系,有些關聯(lián)可能有明顯的因果解釋,有些可能沒有,但是無論如何,統(tǒng)計學本身并不能揭示,具體哪一個變量是因,哪一個是果。
有向無環(huán)圖定義了變量的概率分布,將因果關系的概念形式化,這一研究重點強調了理解數(shù)據(jù)生成過程的重要性。而不僅僅表征地觀察到變量的聯(lián)合分布。對數(shù)據(jù)的因果理解對于能夠預測干預的后果至關重要。1763年數(shù)學家Thomas Bayes提出了貝葉斯定理,圖靈獎得主Judea Pearl將貝葉斯定理發(fā)展到了貝葉斯網絡,2013年張月等人表述了貝葉斯網絡在醫(yī)學領域的應用研究[10]。Hyv?rinen等人(2000)提出了獨立成分分析算法(ICA)[11],使成分在統(tǒng)計上獨立,從而獲取數(shù)據(jù)的基本結構。Zhang等人(2009)通過考慮原因的非線性效應,內部噪聲效應和觀測變量中的測量失真效應,在獨立成分分析的基礎上提出了后非線性因果模型(PNL),并證明了該方法在因果方向的可識別性[12]。Shimizu等人(2006)提出了一種線性非高斯非循環(huán)模型(LinGAM),便于從觀測數(shù)據(jù)中識別因果結構[13]。Rosenstr?m等人(2012)使用LinGAM因果發(fā)現(xiàn)算法探索睡眠問題與抑郁癥中流行病學的因果關系[14]。Helaj?rvi等人(2014)在探討觀看電視與中青年熱體重變化是否有因果關系時同樣應用了LinGAM模型[15]。Ma Sisi在2017年的工作中討論了生物醫(yī)學中觀察數(shù)據(jù)可用于因果發(fā)現(xiàn)[16]。
獨立成分分析(ICA)目的是找到非高斯數(shù)據(jù)的線性表現(xiàn)形式,以便成分在統(tǒng)計上獨立或盡可能獨立,這樣表示能夠捕獲許多應用程序中數(shù)據(jù)的基本結構。比如:特征提取和信號分離。假設觀察到n個獨立分量的n個線性混合物x=(x1,x2,…,xn),則有:
xj=aj1s1+aj2s2+…+ajnsn
(1)
在ICA模型中,假設每個混合xj以及每個獨立分量sk都是隨機變量,觀測值xj(t)則是該隨機變量的樣本。在不失一般性的前提下,可以假設混合變量和獨立分量均具有零均值,如果不是零均值,就將觀測變量xi通過減去樣本均值而居中,從而使模型為零均值。在式(1)中用A表示具有元素aij的矩陣,可以說,
A=[ai1,ai2,…,ain]T
式(1)的混合模型可以轉化為:
x=As
(2)
式(2)是一個生成模型,也就是ICA模型,描述了如何通過混合分量si的過程來生成觀測數(shù)據(jù)。獨立分量是潛在變量,這意味著它不能被直接觀察到,混合矩陣也是未知的,觀察的只是隨機變量x,需要通過x來估計A和s。
LiNGAM算法是用于從非實驗數(shù)據(jù)中發(fā)現(xiàn)因果結構的方法,對數(shù)據(jù)生成過程做了各種假設,以便從純粹的觀測數(shù)據(jù)中進行識別因果關系。給定一個m*n的觀測數(shù)據(jù)矩陣X,且m?n,采用ICA算法獲得分解的X=AS,得到連接矩陣Y(Y=WV)的線性變換矩陣W,把W按照嚴格下三角的W矩陣進行排序,得到下三角的W矩陣,通過LiNGAM算法進行因果發(fā)現(xiàn)網絡次序。線性非高斯非循環(huán)模型,在結構方程模型(SEM)的基礎上引入三個假設,即:
(1)觀測變量xi,i∈{1,2,…,m}可以按照因果順序排列,這樣后面的變量無法影響前面的變量。用k(i)表示這樣的因果順序。也就是說生成過程是遞歸的,這意味著它可以用有向無環(huán)圖(DAG)以圖形的方式表示。
(2)分配給每個變量xi值是已經分配給較早變量值的線性函數(shù),加上一個“干擾”項也就是噪聲項ei,以及一個可選常數(shù)ci,即:
(3)
(3)干擾變量ei是所有具有非零方差的非高斯分布的連續(xù)值隨機變量,并且ei彼此獨立,即:
p(e1,e2,…,em)=∏ipi(ei)
(4)
使用Wald統(tǒng)計信息檢驗邊的重要性,用于測試觀測到的變量xi是否具有統(tǒng)計學意義。定義用于整體模型擬合的測試統(tǒng)計量:
模型的階矩結構:由基于模型的協(xié)方差元素組成。
σ2(τ)=νec+{E(xxT)}
(5)
與式(5)矩對應的樣本定義為:
(6)
通過m2估算σ2(τ0)≈m2,其中τ0表示真實參數(shù)向量。
分析腫瘤患者癌癥預后情況時,影響癌癥預后的因素繁多且關系復雜,從觀測數(shù)據(jù)中僅僅只能通過相關分析,發(fā)現(xiàn)具有簡單統(tǒng)計學意義的因素之間的關聯(lián)關系。該文利用LiNGAM算法可判斷觀測變量間的因果關系,指明因果方向及其鏈接強度。在LiNGAM的假設情況下,僅憑基礎觀測資料就能確定因果結構。
一般對于腫瘤患者的基礎臨床統(tǒng)計數(shù)據(jù)包括:年齡,分期,化療、腫瘤大小、血小板計數(shù)、白細胞計數(shù)、生存時間等基礎指標。觀察數(shù)據(jù)矩陣X,每一列包含一個樣本矢量xi,以分期、血小板和生存時間為例:從相關分析的角度可以得出,分期與血小板計數(shù)之間存在相關關系,分期與生存時間之間存在相關關系,血小板與生存時間存在相關關系,其關系網絡如圖1所示。
圖1 假設的三個變量的關聯(lián)圖
從圖1中只能觀察到三者之間存在關聯(lián),卻并不知道其因果方向以及鏈接強度,因此不能判斷血小板計數(shù)是否能夠作為預后評估的可靠標志物?;贚iNGAM腫瘤患者臨床數(shù)據(jù)因果發(fā)現(xiàn)方法,通過對醫(yī)學數(shù)據(jù)生成模型的假設,從觀察變量中學習到數(shù)據(jù)的協(xié)方差矩陣,從協(xié)方差矩陣中計算所有條件相關性,估計完成的因果結構。簡單來說以上3個變量可以表示為:
圖2是假設的數(shù)據(jù)生成模型,e1、e2、e3表示干擾的噪聲項,?表示鏈接強度的權重。如果觀察到足夠數(shù)量的數(shù)據(jù)向量x,就可以識別出包括所有參數(shù)在內的完整因果結構。LiNGAM算法的具體實現(xiàn)為:
圖2 在LiNGAM假設下的數(shù)據(jù)生成圖
算法1:LiNGAM的因果發(fā)現(xiàn)方法。
輸入:數(shù)據(jù)矩陣X;
輸出:估計觀測變量之間的鏈接強度矩陣B,估計的變量之間的因果順序K和因果關系網絡圖。
(1)根據(jù)公式(1)、公式(2),計算數(shù)據(jù)的ICA分解估計獨立分量,計算混合矩陣A和分離矩陣W(W=A-1),其中干擾變量ei對應W的行,觀測變量xi對應W的列。
(6)返回因果順序K以及可視化變量之間的因果網絡。
算法2:基于LiNGAM的肺癌患者臨床數(shù)據(jù)因果發(fā)現(xiàn)方法。
(1)輸入肺癌患者觀測數(shù)據(jù)X1,包括分期、化療、血小板計數(shù)和預后生存時間。
(2)LiNGAM模型分析出四者的因果關系圖。
(3)找到對血小板計數(shù)和生存時間的共同因素是分期和化療。
(4)先對化療進行控制,重新輸入觀測數(shù)據(jù)X2,包括分期、血小板計數(shù)和預后生存時間。
(5)LiNGAM模型分析出三者的因果關系圖。
(6)再對分期進行控制,輸入觀測數(shù)據(jù)X3,僅僅只包括血小板和生存時間。
(7)LiNGAM模型最終得出血小板和生存時間的因果關系。
本實驗選取了2012年01月至2017年12月期間在南華大學附屬南華醫(yī)院和南華大學附屬第一醫(yī)院就診的肺癌患者231例,隨機選取南華大學附屬南華醫(yī)院體檢中心健康志愿者83例納入健康組,觀測到患者的年齡、血小板計數(shù)、分期、吸煙、化療以及患者的預后生存時間。在此之前已經對數(shù)據(jù)進行了篩選,選擇的標準為納入標準:(1)所有的患者病理診斷明確;(2)腫瘤??浦委熐熬邮茴^胸腹部增強CT或MRI、全身骨掃描等檢查以明確臨床分期;(3)臨床資料完整,可提供腫瘤??浦委熐暗难R?guī)檢查結果、腫瘤標志物、影像學資料等;(4)無合并有妊娠或哺乳、血液系統(tǒng)疾病、自身免疫性疾病(如特發(fā)性血小板減少性紫癜)等疾??;(5)所選病例死亡的直接原因與腫瘤有關。
本研究基于LiNGAM算法生成肺癌患者臨床數(shù)據(jù)之間的因果關系圖,利用ICA算法判斷因果關系圖中邊的存在性,設置顯著性大小為0.95。
根據(jù)對觀測數(shù)據(jù)的初步分析,對肺癌患者的血小板計數(shù)和健康志愿者的血小板計數(shù)分別做了相關的統(tǒng)計,如圖3所示。
圖3 患病與健康的血小板曲線圖
從圖3中可以很明顯看出肺癌患者的血小板計數(shù)高于健康人的血小板計數(shù),這符合前人研究的癌癥患者通常伴有血小板增多癥的現(xiàn)象。
從觀測到的肺癌患者臨床資料中采集到的分期、化療、預后生存時間和血小板計數(shù)4個指標,基于LiNGAM算法構建因果網絡模型,得到患者的預后因素因果關系圖,如圖4所示。
圖4 四個變量之間的因果關系圖
在0.95的置信水平下,肺癌患者的預后生存時間受血小板計數(shù)、癌癥分期和化療的影響。并且分期對生存時間的影響較大,血小板計數(shù)對預后生存時間有直接影響,化療和分期是血小板和生存時間的共因,在單獨考慮血小板對生存時間的關系,應該對化療這個因素予以控制。
在95%的置信區(qū)間下,對化療這個因素進行控制,選取接受化療的患者的分期、血小板計數(shù)和預后生存時間。
在0.95的置信水平下,肺癌患者的生存時間受血小板計數(shù)和癌癥分期的影響,其中分期是血小板計數(shù)和生存時間的共因,圖4中分期對血小板計數(shù)的因果強度增大了,血小板計數(shù)對生存時間的因果強度同樣也增大了。同上,在做過化療患者中對分期指標進行控制,分為I、II、III、IV期,顯著性大小同上,得到的結果如圖5所示。
圖5 三個變量的因果關系圖
從圖6中可以直接看出血小板對生存時間的影響關系及影響程度,符合臨床上血小板與惡性腫瘤相關聯(lián)的合理性。血小板可以作為肺癌患者生存預后的一個檢測指標。
圖6 血小板與預后生存時間因果關系圖
該文研究采用SPSS(statistical product and service solution)軟件對肺癌患者中接受化療的患者相關數(shù)據(jù)值進行相關分析。據(jù)相關分析結果顯示(如表1所示),表明分期、血小板計數(shù)與患者的預后生存時間存在一定的關系,與模型結果吻合。
表1 相關分析結果
針對肺癌患者預后治療差患者生存率低,準確判斷腫瘤預后治療的影響因素之間的關系變得尤為重要。該文提出了基于LiNGAM模型肺癌患者的臨床數(shù)據(jù)因果發(fā)現(xiàn)方法。從因果推斷的角度出發(fā),對醫(yī)學觀測數(shù)據(jù)中肺癌患者預后治療的影響因素分析,準確判斷患者預后,為臨床治療提供有效的干預。實驗結果表明該方法能夠識別肺癌患者預后治療影響因素之間內在因果機制,血小板可以作為肺癌患者預后評估的一個檢測指標,同時也為因果推斷的應用領域提供了新的研究方向,為醫(yī)學觀測數(shù)據(jù)的因果識別提供了新的工具。