張姝,張輝,劉珉慧
(中國傳媒大學 數(shù)據(jù)科學與智能媒體學院,北京100024)
如今,不僅是年長的人也不僅是中國人接受并喜愛中醫(yī),這是一個中醫(yī)在全世界都很火熱的時代,中醫(yī)治療講究先歸納證型再以辨證論制定治療原則。世界衛(wèi)生組織于2018年10月1日首次在其具有全球影響力的醫(yī)學綱要中加入了中醫(yī)部分[1],針對中醫(yī)的數(shù)據(jù)進行科學的建模,可以對病情的預測、病因的確定、治療方法的制定提供更多科學性的幫助。在對中醫(yī)證型進行關聯(lián)分析的基礎上構建Logistic模型,可以通過對病人的信息建立數(shù)據(jù)庫,進而從大量的數(shù)據(jù)中找出某些因素之間妙不可言的關聯(lián),尤其對研究對象的影響因素進行更加深入和深刻的分析。
目前,很多醫(yī)學上的危險因素分析和病情預測都利用到了構建Logistic模型。李嘉,徐繼威等人(2018)在研究脾切除術后門脈系統(tǒng)血栓形成的高危因素時,根據(jù)63例脾切除術案例建立了多元Logistic回歸模型,最終發(fā)現(xiàn)影響脾切除術后門脈系統(tǒng)血栓形成的危險因素,尤其發(fā)現(xiàn)了影響術后血栓形成的獨立高危因素,此項研究可以為不同患者的個性化治療提供參考,有助于預防門脈血栓的形成以及幫助患者盡早恢復[2];阮承蘭、張駿飛等人(2014)利用Logistic模型找到了肝衰竭預后的預測模型,篩選出了可能影響肝衰竭預后的因素,在此基礎上建立了二項Logistic回歸模型,并且了繪制ROC曲線,得到了準確率較高的擬合回歸方程,對肝衰竭預后的預測有一定的指導作用[3];侯丕華、陳改玲(2014)基于311例老年高血壓病患者進行中醫(yī)證型研究,得到了老年人高血壓病中醫(yī)證型分布規(guī)律及相關影響因素[4];湯巧玲(2014)利用進行了干支運氣與疾病中醫(yī)證型的關聯(lián)性研究,通過探討內(nèi)科疾病六氣、五臟相關證型的分布與干支運氣推演出的疾病趨勢之間的關聯(lián)性,進而評價了干支運氣對中醫(yī)證型的影響程度,同時在現(xiàn)代氣象學的角度研究了自然界的氣象因子與中醫(yī)的六氣相關證型之間的關聯(lián)性[5];袁香凝(2010)總結了她對219例女性痤瘡患者進行抑郁狀態(tài)及中醫(yī)證型的關聯(lián)分析結果,為之后抑郁狀態(tài)尋常痤瘡的中醫(yī)臨床辨證治療以及預防調(diào)攝提供了指導原則[6]。目前我國在西醫(yī)的相關研究中常見Logistic模型的構建使用,但是在中醫(yī)證型的影響因素及證型預測的研究中,鮮少見到Logistic模型的使用,本文就是利用Logistic模型對收集到的中醫(yī)證型數(shù)據(jù)進行分析,希望為未來解決乳腺癌的預測問題提供幫助。
連續(xù)變量的分析一般會采用經(jīng)典的線性回歸,而在現(xiàn)實的分析中,因變量是離散變量的情況更加常見,為了解決因變量為離散變量的分類問題,Logistic模型就是很好的選擇,它自身就是數(shù)據(jù)分析里很實用且應用廣泛的分析技術。Logistic模型在流行病學中的使用較多,其實它在風險預測、信息傳播、商品銷售預測等方面都有良好且廣泛的應用,系統(tǒng)地說,Logistic模型有以下三個用途:
(1)找尋對研究對象影響較大的因素,例如本論文中便要利用Logistic模型來找到六證型對乳腺癌病程階段的影響性分析;
(2)判別一件事情發(fā)生的概率,例如在醫(yī)學中用來判別某人得了某種疾病的概率是多少,即判別某人有多少的可能性得了某種??;
(3)預測在不同解釋變量的情況下,解釋變量有怎樣的概率發(fā)生,例如某人未來在不同的條件下,將會有多大的概率得某些疾病。
圖1 Logistic分布圖像
在二項Logistic回歸中被解釋變量取值為0或1,Logistic模型為:
其中,x=(x1,x2,…,xn,1)為輸入樣本,w=(w1,w2,…,wn,b)(b為偏置)為權值向量,此模型可以求得二分類被解釋變量的概率,將x分到概率較大的一類。在Logistic模型中使用最大似然法估計參數(shù),訓練集T={(x1,y1),(x2,y2),…,(xn,yn)},設P(Y=0|x)=1-p,P(Y=1|x)=p,似然函數(shù)為:
將其取對數(shù)得到對數(shù)似然函數(shù)為:
可利用梯度下降法對上式求最大值可估計參數(shù)。
二項Logistic模型只用于被解釋變量二分類的情況,但本文要研究的被解釋變量是多元的,對于被解釋變量多類的情況下,可將二項Logistic模型推廣到多項Logistic模型,設Y的取值為{1,2,…,N},Logistic模型為:
本論文數(shù)據(jù)來自《Python數(shù)據(jù)分析與挖掘實戰(zhàn)》中實戰(zhàn)部分第八章《中醫(yī)證型關聯(lián)規(guī)則挖掘》[7]給出的調(diào)查問卷數(shù)據(jù),共有930條有效的乳腺癌病人病理數(shù)據(jù),包括肝氣郁結證型、熱毒蘊結證型、沖任失調(diào)證型、氣血兩虛證型、脾胃虛弱證型和肝腎陰虛證型這六大中醫(yī)證型的得分,還包括病程階段、TNM分期這兩項乳腺癌相關描述,在本文中,除了對這六項中醫(yī)證型與乳腺癌TNM分期進行關聯(lián)分析外,重點是找出六個癥候指標對乳腺癌病程階段的影響規(guī)律。
3.2.1 數(shù)據(jù)預處理
數(shù)據(jù)進行有效性檢查之后開始進行數(shù)據(jù)的屬性構造,由于六項指標的數(shù)據(jù)均為證型的得分,是連續(xù)型的數(shù)值變量,無法使用Apriori算法將其進行關聯(lián)分析,需要將數(shù)據(jù)進行離散化。首先將930條數(shù)據(jù)中六大指標的分數(shù)進行簡單計算,將具體的證型得分用證型系數(shù)代替,證型系數(shù)計算原理是將該證型的得分除以該證型的總分得到該證型系數(shù),繼而在Python中對數(shù)據(jù)進行聚類分析,使用K-Means聚類法將數(shù)據(jù)化分為四組完成數(shù)據(jù)的離散化,其中A、B、C、D、E、F按順序表示六個證型,In表示六證型在系數(shù)范圍內(nèi)的個數(shù),離散表如下。
表 1 數(shù)據(jù)離散表
以A和An行為例:A指標的930個數(shù)據(jù)中屬于第一類(證型系數(shù)大于等于0且小于0.179)的數(shù)據(jù)共有244個,以此類推其他五個指標的聚類結果。目前得到了六個指標的分類界限,接下來再利用Excel對每一條指標的第一個數(shù)據(jù)進行是否的命名操作,使數(shù)據(jù)根據(jù)聚類分析得到的結果得到歸類,例如在A指標下的第一個數(shù)據(jù)中設定:滿足大于等于0且小于0.179的項命名為A1,以此類推A2、A3、A4,之后快速填充該列數(shù)據(jù),就將該指標下的數(shù)值型數(shù)據(jù)全部轉換為了4類,對其余五個指標的數(shù)據(jù)進行相同的操作,最終處理后的樣本類型如下:
表 2 數(shù)據(jù)樣本類型表
3.2.2 數(shù)據(jù)關聯(lián)分析
為了說明哪些情況容易產(chǎn)生疾病以及疾病所處分期,基于Apriori算法的流程[8]在spss modeler中建立模型,創(chuàng)建連接數(shù)據(jù)、依據(jù)支持度和置信度進行剪枝迭代多次直到搜索完成,得到三個以乳腺癌TNM分期為相關結果的關聯(lián)規(guī)則:
(1)A3-F4-H4,其支持度為7.85%、置信度為87.95%;
(2)C3-F4-H4,其支持度為7.52%、置信度為87.5%;
(3)B2-F4-H4,其支持度為6.23%、置信度為79.45%;
這表示,肝氣郁結證型系數(shù)在第三階段、肝腎陰虛證型系數(shù)在第四階段的人是乳腺癌TNM分期的H4期的可能性為87.95%,而該事件發(fā)生的可能性為7.85%,同理有沖任失調(diào)證型系數(shù)在第三階段、肝腎陰虛證型系數(shù)在第四階段的人是乳腺癌TNM分期的H4期的可能性為87.5%,而該事件發(fā)生的可能性為7.52%;熱毒蘊結證型系數(shù)在第二階段、肝腎陰虛證型系數(shù)在第四階段的人是乳腺癌TNM分期的H4期的可能性為79.45%,而該事件發(fā)生的可能性為6.23%。
將處理后的離散化數(shù)據(jù)輸入spss軟件中開始進行多項Logistic回歸分析,建立主效應模型[9]。對因變量是病程階段,自變量為肝氣郁結證型系數(shù)、熱毒蘊結證型系數(shù)、沖任失調(diào)證型系數(shù)、氣血兩虛證型系數(shù)、脾胃虛弱證型系數(shù)和肝腎陰虛證型系數(shù)的模型進行了分析。
個案處理摘要給出了樣本在乳腺癌病程階段與六項指標上的分布情況,其中,病程階段位于S2階段的樣本較多,肝腎陰虛證型分布大致均勻,其余五項指標的樣本分布都表現(xiàn)出了在第二階段達到最多且大于35%、第四階段達到最少且小于等于10%的情況。
表3 偽R方結果
Cox&SnellR2和NagelkerkeR2在0.7到0.8之間,且McFadden統(tǒng)計量位于0.3到0.5之間,體現(xiàn)出該模型的擬合度較為理想。從零模型和當前模型的回歸方程顯著性檢驗結果可以看出似然比卡方值為1248.348,概率P值為0,本文設定顯著性水平α為0.05,說明本次模型選擇正確。
Spss軟件中選取病程第一階段S1和六大證型系數(shù)的第四階段I4作為參照類進行模型參數(shù)估計,則根據(jù)輸出結果可以得到以下廣義Logit方程:
=3.463+0.729A1+1.050A2+0.362A3
+0.609B1-0.512B2+0.218B3
-0.971C1-0.877C2-0.685C3
+0.037D1+0.018D2-0.166D3
-4.167E1-3.246E2+0.23E3
-1.088F1-0.503F2-0.122F3
該式是乳腺癌病程處于S2階段與病程處于S1階段概率比例的自然對數(shù)模型,可見:
(1)當熱毒蘊結、沖任失調(diào)、氣血兩虛、脾胃虛弱和肝腎陰虛這五項證型系數(shù)所處階段相同時,肝氣郁結證型系數(shù)處于第一、二、三階段的比率自然對數(shù)分別比參照類(肝氣郁結證型系數(shù)處于第四階段)平均增加0.729、1.05和0.362個單位,肝氣郁結證型系數(shù)處于第一、二、三階段的概率比率分別是參照類的2.073、2.858和1.436倍。肝氣郁結證型系數(shù)處于前三個階段比第四階段對乳腺癌病程處于S2階段的影響大,但統(tǒng)計上不顯著,即肝氣郁結證型系數(shù)處于前三個階段與第四階段比較而言,對乳腺癌病程處于S2階段的影響并無差異。
(2)當肝氣郁結、熱毒蘊結、沖任失調(diào)、氣血兩虛和肝腎陰虛這五項證型系數(shù)所處階段相同時,脾胃虛弱證型系數(shù)處于第一、二階段的比率自然對數(shù)分別比參照類(脾胃虛弱證型系數(shù)處于第四階段)平均減少4.167和3.246個單位,處于第三階段的比率自然對數(shù)比參照類平均增加0.23個單位,脾胃虛弱證型系數(shù)處于第一、二、三階段的概率比率分別是參照類的0.015、0.039和1.259倍。脾胃虛弱證型系數(shù)處于前兩個階段比第四階段對乳腺癌病程處于S2階段的影響小,且統(tǒng)計上顯著,即脾胃虛弱證型系數(shù)處于前兩個階段與第四階段比較而言,對乳腺癌病程處于S2階段的影響差異顯著;脾胃虛弱證型系數(shù)處于第三階段比第四階段對乳腺癌病程處于S2階段的影響大,但統(tǒng)計上不顯著,即脾胃虛弱證型系數(shù)處于第三階段與第四階段比較而言,對乳腺癌病程處于S2階段的影響并無差異。
剩余證型系數(shù)因素對病程階段的影響可以根據(jù)以上分析結果類推,最后得到:
(1)對乳腺癌病程處于第二階段的影響:脾胃虛弱證型系數(shù)處于前兩階段小于第四階段,肝腎陰虛證型系數(shù)處于第一階段大于第四階段;
(2)對乳腺癌病程處于第三階段的影響:肝氣郁結證型系數(shù)處于第一階段大于第四階段,脾胃虛弱證型系數(shù)處于第一階段小于第四階段,肝腎陰虛證型系數(shù)處于前兩階段小于第四階段;
(3)對乳腺癌病程處于第四階段的影響:肝氣郁結證型系數(shù)處于前三階段大于第四階段,沖任失調(diào)證型系數(shù)處于前三階段小于第四階段,氣血兩虛證型系數(shù)處于第一階段大于第四階段,肝腎陰虛證型系數(shù)處于第一階段小于第四階段。
輸出廣義Logit模型樣本預測結果如表4所示。
實際病程處于第一階段且正確預測為第一階段的樣本量為108,正確率為63.5%;實際病程處于第二階段且正確預測為第二階段的樣本量為288,正確率為84.7%;實際病程處于第三階段且正確預測為第三階段的樣本量為142,正確率為86.1%;實際病程處于第四階段且正確預測為第四階段的樣本量為148,正確率為58%??梢姡撃P蛯Σ〕痰谌A段的預測準確率較高。
表4 模型樣本預測表
本文通過關聯(lián)分析找到了中醫(yī)證型與乳腺癌TNM分期之間的三條關聯(lián)規(guī)則,并且對病程階段和六證型建立了很好的Logistic回歸模型,找出了六大證型對病程各階段的影響程度大小,并且該模型得到了比較好的預測結果,希望以此使中醫(yī)對乳腺癌的治療得到指導、對病患的治療進程起到參考作用、對過程中出現(xiàn)的變化得以預判,并且對腺癌病程階段的預測起到一定的指導作用。中醫(yī)越來越受全人類的歡迎,它凝結著中華民族自古以來的醫(yī)學研究成果,若能夠將更多科學的方法運用到醫(yī)學方面,中醫(yī)將給人類帶來更大的福祉。削減乃至克服惡性腫瘤對人類生命安全的威脅是全人類的共同期望,相信隨著醫(yī)學的發(fā)達和科技的進步,在醫(yī)學和科學的共同努力下,通過對中醫(yī)各方面進行科學的分析,惡性腫瘤的規(guī)律會被人類發(fā)現(xiàn)并且層層擊破。