唐 曉 劉啟貴△ 隋全恒
1.大連醫(yī)科大學衛(wèi)生統(tǒng)計教研室(116044)
2.大連市沙河口區(qū)疾病預防控制中心
△通信作者:劉啟貴
關聯(lián)規(guī)則分析和logistic模型的相關性研究
唐 曉1劉啟貴1△隋全恒2
logistic回歸模型是一個經典的統(tǒng)計學模型[1],利用該模型可以做預測并解釋因變量和自變量之間的關系,其已被廣泛應用于醫(yī)學、生物學、工程、經濟和農業(yè)等領域[2-6]。關聯(lián)規(guī)則分析是一種數(shù)據(jù)挖掘方法[7],它通過人為給出規(guī)則標準的方式解釋數(shù)據(jù)庫中項與項之間的關系。這兩種方法都可以用于提取影響某變量(結局)的因素[8-10]。 目前很多研究利用這兩種方法互相補充來獲得影響因素[11-15],但他們并不解釋兩種方法之間的聯(lián)系以及聯(lián)合使用后所得到結果的意義。本研究將從兩種模型的數(shù)學原理出發(fā),通過理論證明發(fā)現(xiàn)他們之間的聯(lián)系,從而得到結合兩種方法分析數(shù)據(jù)所得結果的異同及其實際的應用價值。
1.兩分類logistic回歸模型
二分類logistic回歸模型應用于當因變量只有兩種可能結果的時候(比如“死亡”和“生存”)。在二分類logistic回歸模型中,常用0和1來標識結果。通常1代表兩種結果中值得關注的一個事件,比如“死亡”。二分類logistic回歸模型如下:
(1)
2.關聯(lián)規(guī)則分析
1993年Agrawal提出一種從大數(shù)據(jù)庫中提取關聯(lián)規(guī)則的算法[16]。其模型是:
D是一個項的集合,在集合D中尋找項X和項Y之間的關聯(lián)規(guī)則。其關聯(lián)規(guī)則的表達是X→Y,表示如果X發(fā)生,則Y有可能發(fā)生。其評價指標有三個:
①支持度sup(X→Y)=P(XY),即X、Y同時發(fā)生的概率。
②置信度conf(X→Y)=P(Y|X),即在X發(fā)生的條件下,Y發(fā)生的條件概率;
強關聯(lián)規(guī)則是指在事務數(shù)據(jù)庫中支持度和置信度都大于最低閥值,并且提升比大于1的項X和項Y之間的關聯(lián)規(guī)則。關聯(lián)規(guī)則分析就是在項集合D中找到所有強關聯(lián)規(guī)則。
在關聯(lián)規(guī)則分析中,不需要區(qū)分自變量與因變量。它處理的是每一個項并想找到項之間的關聯(lián)。例如,在數(shù)據(jù)庫中可以尋找X→Y的關聯(lián),同時也可以得到Y→X的關聯(lián)。但在一些研究中,結果事件是非常明確的。比如說尋找影響某一疾病的因素,我們只關心其他事件對疾病發(fā)生的影響(即單向的關聯(lián))。在這篇文章里,為了和logistic回歸模型進行比較,我們只討論結果明確的關聯(lián)規(guī)則。關聯(lián)規(guī)則處理連續(xù)型變量時需要把它離散化,變成分類變量來處理。在這里,我們只討論因素為兩分類的情況。
1.兩分類logistic模型中OR值與Lift的關系
(2)
2.一元logistic回歸模型中的假設檢驗與關聯(lián)規(guī)則之間的關系
假設Y是因變量,X是自變量。它們是二分類的,發(fā)生的頻率見表1.
在logistic回歸模型中篩選變量的統(tǒng)計量為
=2ln
(3)
(5)
=2n[P(X)P(Y)lift(X→Y)ln{lift(X→Y)}+
(6)
在(6)式中,如果lift(X→Y)增大,則第一項和第四項都增大,當
lift(X→Y)→時,lift(X→)→0,此時第二項
第二項極限為0,同理,當lift(X→Y)→時,第三項的極限也為0.
由此可見,χ2值主要取決于lift(X→Y)的大小,當lift(X→Y)足夠大時,可使χ2值變大,X因素就較容易被選入logistic回歸模型中。
在關聯(lián)規(guī)則模型中,還需要同時考察另外二個指標:sup(X→Y)、conf(X→Y)。只有當sup(X→Y)、conf(X→Y)超過各自的閥值時,才是強的關聯(lián)規(guī)則。故當一個因素在logistic回歸模型中是顯著的,它不一定出現(xiàn)在強關聯(lián)規(guī)則中。
本研究所用的數(shù)據(jù)是來自2011年大連市的一個慢性疾病的調查數(shù)據(jù)。通過調查得到4858位居民的慢性病信息,所調查的慢性疾病包括糖尿病、高血壓、高血脂、肥胖、痛風及骨關節(jié)疾病、脂肪肝和其他肝臟疾病、腎病、內分泌失調、呼吸睡眠綜合癥。我們分別使用一元logistic回歸模型和關聯(lián)規(guī)則來分析患慢性病之間的關系。
首先,以患糖尿病為結果事件,其他疾病作為輸入事件,不設置支持度閥值和置信度閥值,使用關聯(lián)規(guī)則分析,其結果按照從大到小的順序排列前11個規(guī)則,見表2。同時,令糖尿病為因變量,其他慢性疾病為自變量,代入一元logistic回歸模型,顯著的影響因素根據(jù)OR值從大到小的順序排列,結果見表3。結果顯示:表3中的影響因素正好是表2中所得到的前9個關聯(lián)規(guī)則,這證明檢驗統(tǒng)計量依賴于Lifet(X→Y)。
其次,令患糖尿病為后項,其他疾病為輸入前項。設置支持度閥值為1%,置信度閥值為15%,得到強關聯(lián)規(guī)則。按照從大到小順序排列,結果見表4。此時,只有高血脂,眼部疾病,高血壓這三個因素被保留在強關聯(lián)規(guī)則中,這是由于其他六種疾病和糖尿病形成的關聯(lián)沒有達到相應的閥值而被刪除,但這六個因素在一元logistic回歸模型中是顯著的。
關聯(lián)規(guī)則分析和logistic回歸模型都可以研究因素對某一結果的影響,常靜玲等[12]聯(lián)合兩模型對腦梗死中醫(yī)診療指南的應用進行評估,楊麗[13]等利用兩個模型研究腦梗塞發(fā)病因素。但鮮有研究從數(shù)學理論上解釋兩模型聯(lián)合使用的意義。目前國外關于兩模型的研究主要有:Shaharanee[14]把logistic回歸模型作為一個工具去尋找在關聯(lián)規(guī)則分析中顯著的關聯(lián)。Freyberger[15]等在學生學習轉換模型中應用關聯(lián)規(guī)則分析幫助選擇logistic回歸模型中的項。Changpetch[13]利用關聯(lián)規(guī)則分析建立logistic回歸模型最佳的主因素組合以及尋找可能的交互。所以探究關聯(lián)規(guī)則與logistic回歸模型結合使用的意義是非常必要的。
表2 不設置閥值的關聯(lián)規(guī)則分析結果
表3 一元logistic回歸模型結果
表4 設置閥值后的關聯(lián)規(guī)則結果
雖然兩種方法基于不同的數(shù)學理論,logistic回歸模型基于統(tǒng)計分布,而關聯(lián)規(guī)則基于概率,但經過證明這兩種方法有較強的關聯(lián)。首先如果關聯(lián)規(guī)則中的提升比大于1,則logistic回歸模型對應OR值也會大于1,區(qū)別在于OR值可以經過假設檢驗判斷其是否具有統(tǒng)計學意義,從而消除隨機誤差的影響,而提升比則不行。其次,logistic回歸模型中篩選變量的統(tǒng)計量主要由關聯(lián)規(guī)則中的提升比決定。如果提升比足夠大,不管和的值為多少,對應因素都較容易進入到一元logistic回歸方程中。但是,如果某因素被選入logistic回歸方程中,它不一定出現(xiàn)在強關聯(lián)規(guī)則中,因為其對應的支持度和置信度不一定達到閥值。
利用logistic回歸模型可以獲得因變量的影響因素,但是可能此影響因素的現(xiàn)實發(fā)生率較低。而用關聯(lián)規(guī)則去獲得影響因素,即提升比大于1的規(guī)則,但是由于沒有經過假設檢驗,難以說明此因素與因變量的聯(lián)系是本質上的,還是受到了抽樣誤差的影響。因此,結合這兩種方法來獲得的影響因素具有統(tǒng)計學意義的顯著性和達到一定的現(xiàn)實發(fā)生率的雙重特點。建議在宏觀的研究中結合這兩種方法來使用,得出的結論更有實際應用價值。
[1] Freedman DA.Statistical Models:Theory and Practice.Cambridge University Press.2005.
[2] 陳年芳,葉秀珍,劉麗群.妊娠期糖尿病高危因素的多元logistic回歸分析.中國婦幼保健,2016,(13):2598-2600.
[3] 王勝,宋倩,束新華.血清淀粉樣蛋白與宮頸病理特征關系的logistic回歸分析.國際流行病學傳染病學雜志,2016,(2):105-108.
[4] 付仲良,楊元維.利用多元logistic回歸進行道路網(wǎng)匹配.武漢大學學報信息科學版,2016,(2):171-177.
[5] 董梁,胡明雅.基于logistic回歸模型的P2P網(wǎng)貸平臺新近借款人信用風險研究.江蘇科技大學學報(社會科學版),2016,(3):102-108.
[6] 馬翼翔,吳兆福,王兆.基于logistic回歸模型的新市區(qū)耕地數(shù)量變化景觀立地要素驅動力分析.湖北農業(yè)科學,2016,(11):2987-2990.
[7] 高波,張冰.數(shù)據(jù)挖掘關聯(lián)規(guī)則算法研究.信息系統(tǒng)工程,2016,(3):29.
[8] 張奇,李濤,等.基于關聯(lián)規(guī)則挖掘治療多發(fā)性硬化所用中藥對患者T細胞亞群的影響.中國中西醫(yī)結合雜志,2016,(4):424-429.
[9] 何文靜,顧浩.基于關聯(lián)規(guī)則的維吾爾醫(yī)治療黑膽質方劑藥性配伍規(guī)律研究.中華中醫(yī)藥雜志,2016,(5):1809-1811.
[10]Jung SJ,Son CS,Kim MS,et al.Association rules to identify complications of cerebral infarction in patients with atrial fibrillation.Healthcare Information research,2013,(19): 25-32.
[11]楊麗,徐德生,等.前置粗糙分類器的基于關聯(lián)規(guī)則的logistic回歸在腦梗塞發(fā)病因素分析中的應用,2012(5).
[12]常靜玲,柳金英,等.腦梗死中醫(yī)診療指南臨床應用評價研究.中華中醫(yī)藥雜志,2016,(2):549-552.
[13]Changpetch P,Lin DKJ.Model selection for logistic regression via association rules analysis.Journal of Statistical Computation and Simulation,2013,(83):1415-1428.
[14]Shaharanee INM,Hadzic F,Dillon TS.Interestingness of association rules using symmetrical tau and logistic regression.AL:2009 Advanced in Artificial Intelligence,2009:422-431.
[15]Freberger J,Heffernan NT,Ruiz C.Using association rules to guide a search for best fitting transfer models of student learning.Workshop on Analyzing Student-Tutor Interaction Logs to Improve Educational Outcomes at the 7th Annual Intelligent Tutoring ystems Conference,Maceio,Brazil,2004.
[16]Agrawal R,Imielinski T,Swami A.Mining association rules between sets of items in large databases.In:Proceedings of the ACM SIGMOD INTL conference on management of data(ACM SIGMOD 93),Washington,USA,1993:207-216.
(責任編輯:郭海強)