儲傳鑫,王麗珍,周麗華,李旭陽
云南大學(xué)信息學(xué)院,昆明650500
惡性腫瘤是危害人類健康的重要疾病之一,在腫瘤的治愈率上,目前發(fā)達國家已達65%,而我國僅有25%左右。我國居民腫瘤治愈率遠低于發(fā)達國家。面對腫瘤,防治結(jié)合是基本思路,雖然腫瘤并非不治之癥,但面對我國幅員遼闊,人口眾多,醫(yī)療基礎(chǔ)設(shè)施不完善的基本國情,大多數(shù)腫瘤患者往往無法及時得到相應(yīng)的治療,通過在“治”上下功夫以求降低腫瘤致死率的想法尚不現(xiàn)實,而在計算機數(shù)據(jù)處理技術(shù)磅礴發(fā)展的今天,應(yīng)用新興技術(shù),使得從“防”上降低腫瘤發(fā)病率已經(jīng)成為可能。
想從“防”上降低腫瘤發(fā)病率,首先就必須了解人類致癌的因素。人類致癌的因素有很多,包括先天的基因遺傳、物理因素(如多種電離輻射、紫外線等)、化學(xué)因素(來自生活、生產(chǎn)的各種化學(xué)物質(zhì))、病毒感染、細菌感染等。如今,在國家工業(yè)化建設(shè)的大背景下,各種各樣的工廠在人們生活的鄰近區(qū)域內(nèi)建立起來,其在推進經(jīng)濟高速發(fā)展的同時,也排放出了工業(yè)污染,這與我國日益增長腫瘤發(fā)病率有潛在的聯(lián)系。
數(shù)據(jù)挖掘是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的、并有潛在價值的信息的非平凡過程。目前,利用數(shù)據(jù)挖掘技術(shù)挖掘疾病與潛在致病因素的聯(lián)系方面已有一些研究成果,如:文獻[1]利用粗糙處理先天性神經(jīng)缺陷(neural tube defects,NTD)疾病數(shù)據(jù),從海量的潛在致病因素中挖掘出了相關(guān)度較高的因素,但其用“有”“無”來衡量一個村莊的患病情況,不能反映一個村莊的患病的嚴重程度。文獻[2]在粗糙理論的基礎(chǔ)上,使用了模糊化的方法衡量每一個村莊患病的嚴重程度,利用模糊粗糙集技術(shù)處理NTD數(shù)據(jù),取得了長足的進步。文獻[3]則利用子組挖掘和統(tǒng)計檢驗的方法處理乳腺癌病患數(shù)據(jù),挖掘出了一些有價值的信息,但假設(shè)檢驗方法一般計算復(fù)雜度較高。這些已有的研究除了各自固有的不足,還有一個共有的缺陷,就是它們都是針對一種疾病與多種致病因素關(guān)系的研究,針對多種疾病對應(yīng)多種致病因素的情況,目前還沒有發(fā)現(xiàn)相應(yīng)的研究成果,考慮到疾病之間也存在潛在的聯(lián)系,對于“多”對“多”情況下的研究是完全有必要的。
空間數(shù)據(jù)挖掘是從空間數(shù)據(jù)庫中發(fā)現(xiàn)潛藏的、有趣空間模式的過程。一個空間共存(co-location)模式是一組空間特征(對象)的集合,它們的實例在空間中頻繁地相關(guān)聯(lián),顯然,它可以用來挖掘在空間中頻繁相關(guān)聯(lián)的不同疾病的組合。因此本文基于空間共存模式挖掘技術(shù),結(jié)合模糊理論,提出了模糊共存度的概念,在數(shù)據(jù)處理階段引入聚類的方法,最終提出了一種可以同時挖掘出多種疾病與多種潛在致病因素之間模糊關(guān)系的算法,并提出了相應(yīng)的有效性度量方法,通過大量的實驗分析,證明了算法是切實有效的。
1966年,Marinos發(fā)表模糊邏輯的研究報告,1974年,Zadeh發(fā)表模糊推理的研究報告,從此,模糊理論成了一個熱門的課題,將數(shù)據(jù)挖掘與模糊理論相結(jié)合也成為了研究熱點。文獻[4]闡述了模糊關(guān)聯(lián)規(guī)則挖掘的基本定義和一般模型,詳細介紹了一般模型的一些應(yīng)用;文獻[5]提出了一種基于AprioriTid方法的模糊數(shù)據(jù)挖掘算法,該算法首先將數(shù)量型數(shù)據(jù)進行離散化,然后根據(jù)最大隸屬度原則進行過濾,大大減少了挖掘時間;文獻[6]提出了一種基于概率原理的不確定數(shù)據(jù)的表示方法,對于由于數(shù)據(jù)的不確定性所造成的一個模糊項對應(yīng)多個支持度的問題,論文首次提出用支持度的均值來衡量模糊模式是否頻繁,而模糊模式的頻繁程度則用方差來描述;文獻[7]提出了一種新的子組發(fā)現(xiàn)方法,利用動態(tài)規(guī)劃算法發(fā)現(xiàn)模糊子組,該算法證明了動態(tài)規(guī)劃與貪婪方法相結(jié)合的有效性,還展示了如何使用模糊邏輯來處理連續(xù)屬性并生成高質(zhì)量的模糊子組。
在空間模式挖掘與模糊理論相結(jié)合的研究中,也有一些研究成果。文獻[8]研究了針對模糊對象的空間co-location模式挖掘問題,提出了兩種新的挖掘方法SCP(single co-location pattern mining)和RCP(range co-location pattern mining),為了提高SCP方法挖掘的效率,對基本挖掘算法進行了優(yōu)化,加快了co-location模式的生成,為了提高RCP的挖掘性能,提出了有效的剪枝策略來減少搜索空間,并通過大量的實驗驗證了所提算法和優(yōu)化技術(shù)的有效性;文獻[9-10]將模糊理論和聚類算法相結(jié)合,研究了空間co-location模式挖掘中的模糊挖掘技術(shù),在對鄰近度進行度量時引入了模糊的方法,提出了特征間的鄰近度度量函數(shù),利用模糊聚類的方法挖掘co-location模式。
文獻[9-10]利用了模糊的挖掘方法,挖掘到了比傳統(tǒng)方法更加豐富的信息,但得不到模糊的結(jié)果,文獻[8]針對模糊對象進行挖掘,能得到模糊的結(jié)果,但其以“點”作為模糊對象,在衡量實例之間的影響時只考慮了鄰近關(guān)系,這不符合絕大部分的應(yīng)用場景,如,在衡量污染源對腫瘤的影響時,考慮到污染源會隨空氣、水流傳播,污染源對腫瘤的影響絕不是簡單的鄰近關(guān)系。本文以區(qū)域為模糊對象,在衡量腫瘤對腫瘤的影響時使用鄰近關(guān)系,在衡量污染源對腫瘤的影響時則考慮了用區(qū)域劃分影響范圍,采用了決策表提取規(guī)則的方法,挖掘得到的信息比以往的研究都更加豐富。
首先,本文想要挖掘惡性腫瘤與各種工業(yè)污染源之間的潛在聯(lián)系。在這里,將腫瘤疾病的患病情況叫作決策屬性D,工業(yè)污染源信息叫作條件屬性C,條件屬性與決策屬性之間必定是空間相依的。例如,在化學(xué)需氧量(chemical oxygen demand,COD:以化學(xué)方法測量水中需要被氧化還原的物質(zhì)的量)污染源附近出現(xiàn)了甲狀腺腫瘤,但這種簡單的“有”和“無”遠遠不能反映工業(yè)污染對腫瘤疾病的影響程度。為此,擬將條件屬性、決策屬性及它們之間的影響關(guān)系等進行模糊度量,同時,通過對研究區(qū)域的適當分區(qū),分別基于真實數(shù)據(jù)計算各區(qū)域的患病率(用模糊值度量)和污染源的嚴重程度(也用模糊值度量),最后推導(dǎo)出腫瘤疾病患病率與工業(yè)污染之間的模糊關(guān)系。例如,模糊關(guān)系“COD排放量高→甲狀腺腫瘤的患病率高(置信度=0.7)”。
基于上述基本思想,提出的挖掘框架如圖1所示。輸入的數(shù)據(jù)信息包括:(1)病患基本信息(決策屬性),包括所患腫瘤、編號(患腫瘤的具體病例)和住址的經(jīng)緯度信息,如(肺部惡性腫瘤,1(表示第一個病例),100.365,23.569 8);(2)工業(yè)污染源數(shù)據(jù)信息(條件屬性),包括污染源主要排放的污染物以及排放地經(jīng)緯度坐標信息,如(氨氮化合物,102.984 56,24.357 9)。首先,采用基于現(xiàn)有的行政區(qū)劃的Voronoi圖劃分方法,對獲取的數(shù)據(jù)進行區(qū)域劃分,因為談?wù)撃硞€人時是以“是哪里人”,而不是以經(jīng)緯度進行描述,行政區(qū)劃較好地劃分了人們的生活空間。得到劃分的區(qū)域后,就可以將腫瘤病患按區(qū)域進行分組,同時挖掘分區(qū)模糊共存模式,這樣得到了各個區(qū)域的頻繁共存的腫瘤疾病類型及其嚴重程度,結(jié)果形成了目標決策屬性。對于條件屬性(圖1左列),基于工業(yè)污染源數(shù)據(jù)信息的區(qū)域劃分結(jié)果,統(tǒng)計每個分區(qū)的污染源,采用聚類技術(shù)得到區(qū)域受各種類型污染的嚴重程度,形成模糊條件屬性。最后,基于得到的模糊決策屬性和模糊條件屬性,采用決策表方法提取惡性腫瘤與工業(yè)污染源之間的模糊關(guān)系。
Fig.1 Basic framework of algorithm圖1 算法基本框架
空間特征(對象)代表了空間中不同種類的事物。空間特征集代表空間中不同種類事物的集合,記作F={f1,f2,…,fn}。把空間特征在一個具體空間位置上的出現(xiàn)稱為空間實例。將實例的集合稱為實例集,為了區(qū)別不同實例,給每個實例一個唯一的編號,于是一個空間實例信息通常包括<實例所屬特征,實例編號,空間位置>。在本文中,將腫瘤疾病的類型看作特征,具體的一個腫瘤病患看作一個實例,特征集F={白血病,頭頸癌,…,血液肉瘤},總共26種腫瘤疾病,將這26種疾病分別用26個英文大寫字母表示,特征A的實例集{A1,A2,…,As}即為患腫瘤A的所有病患的集合。如圖2是腫瘤疾病A、B、C和D的實例分布示意圖。
Fig.2 Example distribution of tumor diseases A,B,C and D圖2 腫瘤疾病A、B、C和D的實例分布示意圖
空間鄰近關(guān)系描述了空間實例之間的一種空間關(guān)系。空間鄰近關(guān)系可以是空間拓撲關(guān)系(相連、相交等)、距離關(guān)系(如歐幾里德距離)等??臻g鄰近關(guān)系需要滿足自反性和對稱性。
若定義一個空間鄰近關(guān)系R為歐幾里德距離小于等于用戶給定的閾值d,那么兩個實例滿足R時即可表示為:
R(A3,B3)?(distance(A3,B3)≤d)
當兩個空間實例滿足鄰近關(guān)系R時,稱這兩個實例為R鄰近,在實例分布圖中用線段將它們連接起來,如圖2所示。
在本文中,當兩個腫瘤病患實例滿足R鄰近關(guān)系時,稱這兩個病患為R鄰近,其中距離閾值d一般視具體應(yīng)用由用戶設(shè)定(閾值d的討論見第6章)。
若存在空間實例集I={I1,I2,…,Im},如果有{R(Ij,Ik)|1 ≤j≤m,1 ≤k≤m},則稱I是一個團。團在帶鄰近關(guān)系的實例分布中表現(xiàn)為一個完全連通的子圖。如圖2中,{A3,B3,C1,D1}就是一個團。
一個co-location模式是一組空間特征的子集c,即c∈F。
一個co-location模式c的長度稱為此co-location模式的階,即co-location模式里空間特征的個數(shù),記作size(c)=|c|。例如size({A,B,C})=3。
如果一個團I′中包含co-location模式c中的所有特征,并且I′中沒有一個子集可以包含c中的所有特征,那么I′被稱為co-location模式c的一個行實例,co-location模式c所有行實例的集合稱為表實例。如圖2中,團{A2,B4,C2}是co-location模式{A,B,C}的一個行實例,co-location模式{A,B,C}的表實例table_instance({A,B,C})={{A2,B4,C2},{A3,B3,C1}}。
在co-location模式挖掘中使用參與度[11]度量一個co-location模式的頻繁(有趣)程度,在介紹參與度之前,先要引入?yún)⑴c率的概念。
設(shè)fi為某個空間特征,fi在k階co-location模式c={f1,f2,…,fk}中的參與率表示為PR(c,fi),它是fi的實例在空間co-location模式c的表實例中不重復(fù)出現(xiàn)的個數(shù)與fi總實例個數(shù)的比率。如式(1):
其中,π是關(guān)系的投影操作。
例1如圖2,特征A有4個實例,特征B有5個實例,特征C有3個實例,特征D有2個實例,對于colocation模式{A,B,C},其表實例有{A2,B4,C2}和{A3,B3,C1},A的實例只有2個出現(xiàn)在表實例中,因此PR(c,A)=0.5,同理,PR(c,B)=0.4,PR(c,C)=0.667。
Co-location模式c={f1,f2,…,fk}的參與度表示為PI(c),它是co-location模式c的所有空間特征PR值的最小值。如式(2):
例2如圖2,c={A,B,C},PI(c)=min{PR(c,A),PR(c,B),PR(c,C)}=0.4。
通常,由用戶給定一個最小參與度(最小頻繁性)閾值min_prev,當PI(c)≥min_prev時,就稱co-location模式c是頻繁的,c中特征的實例在空間中頻繁相關(guān)聯(lián)。
在本文中,將腫瘤疾病的類型看作特征,單個出現(xiàn)的腫瘤病患看作實例,則可以得到腫瘤疾病的頻繁co-location模式,它表示在空間中頻繁相關(guān)聯(lián)的腫瘤疾病的組合。例如,{A,B,C}是一組疾病的頻繁colocation模式,則表示A、B和C三種腫瘤疾病在空間中頻繁共存。
針對本文的目標,得到頻繁的co-location模式不足以表現(xiàn)腫瘤疾病共存的程度,因此提出模糊共存度的概念。
定義1(模糊共存度)對于一個頻繁co-location模式c,用戶自定義的閾值為p1、p2(min_prev<p1<p2),其模糊共存度μ(c)如式(3)所示:
頻繁co-location模式是通過參與度PI值度量的,一個模式c的參與度PI(c)大于等于最小參與度閾值時,稱模式c為頻繁co-location模式。從參與度的定義可以看出,參與度就是該模式在空間中共存的程度的一種度量,參與度值越大,共存的概率越高;相反,則共存的概率越低。因此,通過參與度值的范圍具體劃分了共存的程度,得到一種模糊co-location模式。
例3如圖2,當頻繁性閾值min_prev為0.3時,規(guī)定co-location模式c的PI值大于等于0.7時,μ(c)為H(高度共存);大于等于0.5但小于0.7時,μ(c)為M(中度共存);其余則為L(低度共存)。在如圖2的例子中,PI({A,B,C})=0.4,因此模式{A,B,C}為一個低度共存的co-location模式,表示為{A,B,C}.L,PI({A,C})=0.75,co-location模式{A,C}是一個高度共存的co-location模式,表示為{A,C}.H。
傳統(tǒng)的co-location模式挖掘得到的頻繁co-location模式,只能反映一個模式是否頻繁出現(xiàn),而對于其頻繁的程度一無所知,這導(dǎo)致頻繁co-location模式無法反映腫瘤疾病的共存程度,而使用模糊共存度就可以做到。將腫瘤疾病的類型看作特征,單個出現(xiàn)的腫瘤病患看作實例時,模糊共存度H、M、L就可以用來表示共存腫瘤疾病的共存程度,若是從某一區(qū)域挖掘到的模糊co-location模式,則這種模糊度量可以反映該區(qū)域同時患這些疾病的廣泛程度,如某一區(qū)域的co-location模式{A,B,C}的模糊共存度為H,則A、B、C三種疾病在該區(qū)域以很高的概率扎堆出現(xiàn)。
空間co-location模式的挖掘算法有很多,可以將其分為基于最小參與率的挖掘算法、基于最大參與率的挖掘算法和復(fù)雜模式挖掘算法三類。其中基于最小參與率的算法由于最小參與率概念的自然和向下閉合等性質(zhì)被廣泛研究,包括:(1)基于全連接的join-based算法[12],join-based算法在特征數(shù)較多和實例分布稠密時連接操作的開銷很大;(2)partial-join算法[13],是一種基于部分連接的挖掘算法,其核心思想是空間實例的劃分,目的是減少連接操作的計算量;(3)join-less算法[14],一種基于星型鄰居擴展的無連接算法,在稠密型數(shù)據(jù)中,效率比join-based高。鑒于本文的腫瘤疾病數(shù)據(jù)在挖掘之前已進行了區(qū)域劃分,腫瘤病患實例分布的稠密度也相當高,因此選擇join-less算法進行相應(yīng)的空間co-location模式挖掘。
經(jīng)過區(qū)域劃分的各個區(qū)域的工業(yè)污染情況作為條件屬性,條件屬性的模糊化,就是要將每個區(qū)域,按其工業(yè)污染的嚴重程度,劃分為不同的類(高、中、低)。一般能得到的數(shù)據(jù)包括污染源的位置和污染類型(重金屬、COD等)。首先需要得到每個區(qū)域初步的污染情況,即統(tǒng)計各個區(qū)域所擁有的不同類型的污染源的數(shù)量。例如,區(qū)域1:COD為2,NOx為2,SO2為1等。在初步得到各個區(qū)域的污染情況后,進行污染情況的模糊化處理,模糊化即分類,聚類分析是很好的選擇。
聚類分析根據(jù)在數(shù)據(jù)中發(fā)現(xiàn)的描述對象及其關(guān)系的信息,將數(shù)據(jù)對象分組。其目標是,組內(nèi)對象相互之間是相似的,而不同組對象之間是不同的。這十分適合本文對于污染源數(shù)據(jù)信息的處理要求。
聚類也分不同的類型。劃分聚類簡單地將數(shù)據(jù)對象劃分為不同的子集,如果允許簇存在子簇,就可以得到一個層次聚類;將每個對象指派到單個簇,則每個簇都是互斥的,一個對象只能屬于一個簇,在某些情況下,一個對象可以屬于多個簇,這種情況則可以使用非互斥聚類方法。
針對已經(jīng)事先知道了聚類的簇數(shù)以及污染數(shù)據(jù)劃分的、互斥的屬性,經(jīng)典的K-means聚類算法是一種很好的方法,但K-means聚類算法的結(jié)果易受隨機選擇的初始聚類中心的影響,這對挖掘的結(jié)果造成了很大的不確定性。在使用多種改進型K-means聚類算法對污染數(shù)據(jù)進行實驗分析后發(fā)現(xiàn),二分K-means算法的聚類效果最好。將二分K-means算法作為污染數(shù)據(jù)的聚類算法,污染源數(shù)據(jù)總共聚成三類,污染源數(shù)量較多的一組為“高污染源”組,污染源較少的一組為“低污染源”組,剩下一組為“中污染源”組。
現(xiàn)在,已經(jīng)得到了每個分區(qū)的決策屬性(即疾病的類型組合及其組合的共存程度)和條件屬性(即污染的嚴重程度),二者生成決策表,如圖3(a)所示。在決策表中,每一行都對應(yīng)一個區(qū)域。其中,對于相似污染情況的區(qū)域,如果所患的疾病類型的組合及其共存程度也很相似的話,提取公共規(guī)則并計算其置信度。具體定義如下:
定義2(置信度)在決策表中,區(qū)域i的決策屬性為ti,條件屬性為si,對于任意t∈D,s∈C,(s→t)的置信度計算如式(4):
定義3(規(guī)則提?。τ谌我鈚∈D,s∈C,如果cp(s→t) 大于等于一個給定的最小置信度閾值min_conf,那么模糊規(guī)則(s→t)稱為強規(guī)則。
基于決策表提取模糊強規(guī)則的算法:
例:具體過程如圖3所示,聚類得到有5個區(qū)域條件屬性同為(COD.H,SO2.M,NOx.H),在這5個區(qū)域中,4個區(qū)域有{A,B,C}.H,2個區(qū)域有{L,M,O}.L,則:
若設(shè)min_conf=0.5,則(COD.H,SO2.M,NOx.H)→{A,B,C}.H,cp=0.8就是一條強規(guī)則。規(guī)則表示當一個區(qū)域的3種污染源分別滿足COD為高污染源,SO2為中污染源和NOx為高污染源時,則3種疾病A、B、C一起出現(xiàn)的概率為高,置信度為0.8。
提取出規(guī)則后,還需要一個參數(shù)衡量規(guī)則是否與客觀事實相符合,是否具有有效性。
規(guī)則反映了腫瘤實例與污染源在地理空間上是否存在高度關(guān)聯(lián),而衡量空間中的關(guān)聯(lián)性,主要有兩個指標,腫瘤實例與污染源的聚集程度及腫瘤實例與污染源的數(shù)量N。聚集程度用平均誤差平方(average of square error,ASE)度量,如式(5):
Fig.3 Rule extraction process圖3 規(guī)則提取過程
其中,Ar為區(qū)域內(nèi)規(guī)則所涉及到的腫瘤實例與污染源集合,distance是標準歐幾里德距離,Cr是Ar內(nèi)所有點(腫瘤實例和污染源)的質(zhì)心,由式(6)定義:
ASE越小,則說明Ar內(nèi)腫瘤實例與污染源的聚集程度越高。除了ASE外,還需要看數(shù)量N,當N很小時,聚集程度也不能反映腫瘤疾病及污染源的關(guān)聯(lián)度。最后,綜合ASE與N,用SDC(severity of disease and contamination)同時衡量腫瘤實例和污染源的聚集程度和數(shù)量,如式(7)所示,SDC越小,則腫瘤和污染的聚集度越高,同時關(guān)聯(lián)度也越高。
反映高關(guān)聯(lián)度的規(guī)則,其SDC值必然相對較小,反之亦然。對于挖掘得到的規(guī)則,若規(guī)則所反映出來的關(guān)聯(lián)度與計算得到的SDC值相符合,則該規(guī)則就具有有效性。
實驗數(shù)據(jù)(包括腫瘤病例數(shù)據(jù)和污染數(shù)據(jù))來自云南省一些醫(yī)院和相關(guān)部門,實驗數(shù)據(jù)參數(shù)說明如表1所示。以云南省縣區(qū)級行政單位的中心點為Voronoi圖原點進行區(qū)域劃分。劃分結(jié)果如圖4所示。
Table 1 Description of experimental data parameters表1 實驗數(shù)據(jù)參數(shù)說明
Fig.4 Region division based on Voronoi diagram圖4 Voronoi圖區(qū)域劃分
(1)決策屬性數(shù)據(jù)
首先將腫瘤病患實例投影到Voronoi圖對應(yīng)的區(qū)域內(nèi),每個區(qū)域所擁有的腫瘤病患個數(shù)示例如表2所示。
按區(qū)域?qū)⒛[瘤病患實例分組后,接下來就可以按分區(qū)挖掘co-location模式了。對于co-location模式挖掘所需的兩個參數(shù)(參與度閾值min_prev和距離閾值d),參與度閾值需要用來度量co-location模式的共存程度,假定參與度大于等于0.6的模式為高共存模式(H),大于等于0.4小于0.6的為中共存模式(M),大于等于0.2小于0.4的為低共存模式(L)。而對于距離閾值d,根據(jù)每個區(qū)域的不同人口密度來設(shè)置不同的距離閾值,眾所周知,人口密度大的區(qū)域,其病患也相對集中,距離閾值設(shè)置應(yīng)相對較小,而人口密度小的區(qū)域,病患比較分散,其距離閾值則應(yīng)相對較大,否則就得不到人口密度小的區(qū)域的co-location模式。各區(qū)域距離閾值的具體計算如式(8)所示:
Table 2 The number of tumor instances in region表2 分區(qū)腫瘤病患實例數(shù)
其中,pi、di分別是區(qū)域i的人口密度和距離閾值,pave是所有區(qū)域平均人口密度,dave是經(jīng)過實驗分析得到的pave情況下的最佳距離閾值。
實驗中各個區(qū)域的人口密度和距離閾值的設(shè)置如表3所示。最后得到的各區(qū)域中共存疾病類型組合及其共存率如表4所示,大寫字母表示腫瘤疾病的類型。
Table 3 Regional population density and distance threshold setting表3 區(qū)域人口密度及距離閾值設(shè)置
Table 4 Combination of co-location diseases and their degrees表4 共存疾病類型組合及其共存度
(2)條件屬性數(shù)據(jù)
本文所用的污染源數(shù)據(jù)來自《2016國家重點監(jiān)控企業(yè)名單》,從中選取了位于云南省的企業(yè),包括6種污染類型(COD、NOx、SO2、氨氮、重金屬、危險廢物)。統(tǒng)計各區(qū)域的污染源類型及數(shù)量,結(jié)果如表5所示。再運用二分K-means聚類算法分別將每種污染源類型按數(shù)量聚成3類(H,M,L),結(jié)果如表6所示。
Table 5 Types and quantities of pollution sources in each region表5 各區(qū)域污染源類型及其數(shù)量
Table 6 Types and degrees of pollution sources in each region表6 各區(qū)域污染源類型及污染程度
對表6中的數(shù)據(jù)再次進行聚類,聚類得到的簇,其內(nèi)部所有區(qū)域的污染類型的嚴重程度都相同,這就表示簇內(nèi)區(qū)域具有相似的工業(yè)污染情況,至于相應(yīng)的患病情況如何,則需要看表4。例如,有4個地區(qū)滿足(COD.L,NOx.L,SO2.L,氨氮.L,重金屬.M,危險廢物.L),其中有3個區(qū)域滿足{白血病,頭頸癌,膽部惡性腫瘤}.M,則cp((COD.L,NOx.L,SO2.L,氨氮.L,重金屬.M,危險廢物.L)→{白血病,頭頸癌,膽癌}.M)=0.75。
根據(jù)所感興趣的內(nèi)容,可以從中提取出不同的規(guī)則,比如,如果想得到那些污染與高患病率之間的模糊關(guān)系,則可以得到以下規(guī)則:“(COD.L,NOx.L,SO2.L,氨氮.L,重金屬.H,危險廢物.L)→{頭頸癌,腸部惡性腫瘤,多系統(tǒng)惡性腫瘤,腹部惡性腫瘤,肝部惡性腫瘤,卵巢癌,皮膚惡性腫瘤,乳腺惡性腫瘤,胸部惡性腫瘤}.H,cp=1”(記為規(guī)則1)。該規(guī)則表示重金屬污染與頭頸癌等多種疾病的關(guān)聯(lián)度為高,對應(yīng)的區(qū)域42的實例分析如圖5所示,其SDC(42)=0.000 083。
Fig.5 Tumor instances and pollution sources distribution in Region 42圖5 區(qū)域42中腫瘤實例和污染源分布圖
再看一條規(guī)則“(COD.L,NOx.M,SO2.L,氨氮.L,重金屬.L,危險廢物.L)→{白血病,膽部惡性腫瘤,骨惡性腫瘤,肢體惡性腫瘤,泌尿系統(tǒng)惡性腫瘤,腦部惡性腫瘤}.M,cp=1”。該規(guī)則表示NOx污染與白血病、膽部惡性腫瘤等多種疾病的關(guān)聯(lián)度為中,對應(yīng)區(qū)域66,如圖6所示,計算得到SDC(66)=0.000 78。SDC(42)小于SDC(66),可知區(qū)域42的腫瘤實例與污染源的關(guān)聯(lián)度要比區(qū)域66高,這與得到的規(guī)則相符合,本文算法挖掘得到的結(jié)果可以反映真實世界的客觀規(guī)律。
(1)實驗分析
實驗采用的計算機配置:Intel?CoreTMi7-8700K CPU@3.70 GHz,16 GB內(nèi)存;操作系統(tǒng)Windows 10;開發(fā)語言Python。
Fig.6 Tumor instances and pollution sources distribution in Region 66圖6 區(qū)域66中腫瘤實例和污染源分布圖
實驗所用的模擬數(shù)據(jù)是隨機產(chǎn)生的,均勻分布在經(jīng)度97至107、緯度20至30的空間中。
接下來將分析不同參數(shù)對算法運行時間的影響。
由于污染源在數(shù)量上與腫瘤病例相去甚遠,算法的時間消耗主要在腫瘤病例的共存模式挖掘中,因此主要探索腫瘤實例個數(shù)對算法運行時間的影響,如圖7所示,隨著腫瘤實例數(shù)的增長,算法的運行時間呈增加趨勢。
Fig.7 Influence of the number of instances on running time圖7 實例個數(shù)對算法運行時間的影響
本文采用分區(qū)挖掘腫瘤的共存模式,不同區(qū)域由于人口密度的不同,距離閾值的設(shè)置也不同,通過在預(yù)先設(shè)置好的距離閾值(如表3所示)的基礎(chǔ)上增加或減小距離閾值來探索距離閾值對算法運行時間的影響,如圖8所示??梢钥闯觯谠O(shè)置的距離閾值的范圍,算法的運行時間變化不大,但當距離閾值增加到一定的值時,算法運行時間開始急劇上升。
Fig.8 Influence of d on running time圖8 距離閾值d 對算法運行時間的影響
參與度閾值對算法運行時間的影響如圖9所示,算法運行時間并沒有隨著參與度閾值的變化而呈現(xiàn)出明顯的變化趨勢,可以得出,算法運行時間與參與度閾值的設(shè)置關(guān)聯(lián)不大。
Fig.9 Influence of min_prev on running time圖9 參與度閾值對算法運行時間的影響
特征個數(shù),即所挖掘腫瘤疾病的種類個數(shù),特征個數(shù)對算法運行時間的影響如圖10所示,特征個數(shù)對算法運行時間的影響也不大。
(2)理論分析
本文算法主要分為三部分:co-location模式挖掘、二分K-means聚類、規(guī)則提取。下面針對這三部分進行時間復(fù)雜度分析。
挖掘co-location模式使用了join-less算法[14],join-less算法又可分為三步:生成星型鄰居集、生成二階頻繁co-location模式及生成k(k>2)階頻繁模式。因此,用join-less算法挖掘頻繁co-location模式總的時間復(fù)雜度Tjl為:
Fig.10 Influence of the number of features on running time圖10 特征個數(shù)對算法運行時間的影響
I為劃分區(qū)域的集合,si為隸屬于i區(qū)域的實例的集合,Tstar_neighborhoods(si)表示產(chǎn)生星型鄰居的耗費,Tjl(2)為產(chǎn)生2階co-location模式的耗費,則是生成k階模式的耗費。
在傳統(tǒng)的co-location模式挖掘中,挖掘的實例數(shù)越大,算法的時間耗費必然越大;當距離閾值增加時,生成的二階頻繁co-location模式的表實例數(shù)量就會增加增加,總的時間耗費也必然增加,這與本文的實驗結(jié)果相符合,如圖7、圖8所示。當參與度閾值減小時,生成的頻繁co-location模式數(shù)會增多,模式長度也會變長,增加,從而造成運行時間增加;而當特征數(shù)增多時,鄰近關(guān)系的計算量增加,Tstar_neighborhoods(si)階段的運行時間增加,生成co-location模式的數(shù)量和階數(shù)也會增加,增加,從而導(dǎo)致整體運行時間變長。但是在本文的實驗結(jié)果中,算法運行時間與參與度閾值和特征個數(shù)的關(guān)系不大,如圖9和圖10所示,造成這個結(jié)果的原因是本文算法在挖掘co-location模式之前進行了區(qū)域劃分,按分區(qū)挖掘頻繁co-location模式,總體的特征數(shù)增加,但在局部區(qū)域內(nèi)的特征個數(shù)變化不大,特征個數(shù)對算法運行時間的影響也變小了;同樣的,在采用分區(qū)挖掘后,每次挖掘的實例數(shù)都不多,無論參與度閾值如何變化,生成的colocation模式數(shù)都較少,其長度也相對較短,對總的運行時間的影響微乎其微。
二分K-means算法的時間復(fù)雜度是適度的,只要簇個數(shù)|V|顯著小于點數(shù)m,則K-means算法的時間與m線性相關(guān),所需時間為O(J×|V|×m×n),其中J是收斂所需的迭代次數(shù),在用聚類的方法對污染源數(shù)據(jù)進行模糊化時,屬性n為1,m為區(qū)域數(shù),聚類生成的簇數(shù)|V|為3,因此所需時間為O(J×m)。
在進行規(guī)則提取時,首先進行聚類,聚類的屬性個數(shù)即為污染類型的個數(shù),所需時間為O(J×|V|×m×n),接下來遍歷聚類得到的每一個簇,統(tǒng)計簇內(nèi)相同的決策屬性,計算置信度。最終,規(guī)則提取總的時間復(fù)雜度Trule為:
其中,V為聚類生成簇的集合,m為區(qū)域數(shù),n為污染源的類型數(shù),Tsc(v)為統(tǒng)計每個簇相同的決策屬性所需的時間。
綜上,整個算法總的時間耗費T為:
其中,針對腫瘤實例挖掘頻繁co-location模式階段是算法中最耗時的部分,后面的二分K-means聚類、規(guī)則提取主要是針對區(qū)域進行操作,區(qū)域數(shù)要比腫瘤實例數(shù)少得多,時間耗費也相對小得多。
傳統(tǒng)的空間模式挖掘用鄰近關(guān)系度量污染源與疾病的關(guān)系,忽略了污染源隨空氣、水源傳播的影響,文獻[15]考慮了空氣、水流的影響,但導(dǎo)致算法太過復(fù)雜。而本文引入了區(qū)域劃分方法,將污染源的影響范圍擴大到整個區(qū)域,同時使用模糊理論度量污染程度、腫瘤共存程度,挖掘出了比傳統(tǒng)的空間模式挖掘更加豐富的知識,更能反映真實世界的客觀規(guī)律。
當然,本文也存在不足,在模糊度量和距離閾值的設(shè)置上依賴專家給出的建議,人為因素影響較大,下一步的工作將致力于實現(xiàn)從數(shù)據(jù)分布中直接得到模糊隸屬度閾值和距離閾值,減少人為的影響。