張師超
(浙江師范大學(xué) 數(shù)理與信息工程學(xué)院,浙江 金華 321004)
在智能數(shù)據(jù)分析領(lǐng)域,兩數(shù)據(jù)集間的差異檢測(cè)是一個(gè)應(yīng)用非常廣泛的研究課題.例如,在醫(yī)學(xué)中,要檢測(cè)一種新藥甲能否大批量生產(chǎn),通常要把其與已有的一些效果很好的舊藥(假如藥品乙)進(jìn)行一些差別比較,從而得到新藥甲的一些特性,為新藥甲的大批量投產(chǎn)或繼續(xù)改進(jìn)提供科學(xué)依據(jù).檢測(cè)差別的方法有均值差異檢測(cè)法和分布函數(shù)差異檢測(cè)法(或分位數(shù)差異檢測(cè)法).在檢測(cè)過(guò)程中,藥物甲和乙通常稱為對(duì)比群(也可以稱為對(duì)比集或?qū)Ρ瓤傮w等)[1].在統(tǒng)計(jì)和數(shù)據(jù)挖掘領(lǐng)域中,均值差異檢測(cè)、分布函數(shù)差異檢測(cè)或分位數(shù)差異檢測(cè)一般統(tǒng)稱為結(jié)構(gòu)差異檢測(cè).結(jié)構(gòu)差異檢測(cè)在統(tǒng)計(jì)和數(shù)據(jù)挖掘方面取得了很大的發(fā)展,例如實(shí)驗(yàn)數(shù)據(jù)分析[2]、變化挖掘[3-4]等.
結(jié)構(gòu)差異檢測(cè)能得到廣泛的應(yīng)用是由于它在數(shù)據(jù)挖掘領(lǐng)域得到了較大的發(fā)展.例如在信息安全方面,檢測(cè)出垃圾郵件和非垃圾郵件的差異對(duì)有效阻止垃圾郵件起著關(guān)鍵的作用[5].組群差異檢測(cè)已被廣泛應(yīng)用于數(shù)據(jù)挖掘的各種領(lǐng)域,如多元數(shù)據(jù)分析[3,5-6]、基于決策樹上的變化挖掘[7-9]等.然而,當(dāng)前組群差異檢測(cè)面臨著以下幾個(gè)問(wèn)題:1)數(shù)據(jù)集經(jīng)常出現(xiàn)缺失現(xiàn)象.很多工業(yè)數(shù)據(jù)集缺失率高達(dá)85%,一些基因數(shù)據(jù)集的缺失率甚至高達(dá)90%以上[10].常見(jiàn)的組群差異檢測(cè)方法都是假設(shè)需處理的數(shù)據(jù)集是完全數(shù)據(jù)集(即沒(méi)有缺失)[11].如果把數(shù)據(jù)集中缺失的事例去掉,只使用沒(méi)有缺失的數(shù)據(jù)集進(jìn)行差異分析,顯然會(huì)浪費(fèi)很多信息,而且使用那些少量沒(méi)有缺失的事例進(jìn)行差異檢測(cè),肯定不能代表整個(gè)數(shù)據(jù)集的真實(shí)情況.2)常見(jiàn)的統(tǒng)計(jì)模型經(jīng)常會(huì)對(duì)所處理的數(shù)據(jù)集有無(wú)先驗(yàn)知識(shí)作出假設(shè).如果對(duì)所處理的數(shù)據(jù)有先驗(yàn)知識(shí),則一般可采用參數(shù)方法對(duì)數(shù)據(jù)進(jìn)行差異檢測(cè)[12];如果對(duì)所處理的數(shù)據(jù)沒(méi)有任何先驗(yàn)知識(shí),則通常采用非參差異檢測(cè)方法[13].事實(shí)上,這2種情形都是極端的,面對(duì)2個(gè)數(shù)據(jù)集,用戶通常會(huì)有些先驗(yàn)知識(shí),此時(shí)采用非參差異檢測(cè)方法是非常合適的[1].3)常見(jiàn)的差異檢測(cè)方法都是面向2個(gè)數(shù)據(jù)集[14-16].但是,在實(shí)際應(yīng)用中有時(shí)需要在一個(gè)數(shù)據(jù)集上進(jìn)行差異檢測(cè),如在一個(gè)文本數(shù)據(jù)集上檢測(cè)垃圾郵件和非垃圾郵件的差異,或者在一個(gè)數(shù)據(jù)集上檢測(cè)良性病癥和惡性病癥的差異,等等.此外,常見(jiàn)的差異檢測(cè)集中在一個(gè)問(wèn)題的2個(gè)對(duì)立面,但在實(shí)際應(yīng)用中通常有多類問(wèn)題,即類標(biāo)簽類別個(gè)數(shù)多于2類.多類問(wèn)題中的組群差異問(wèn)題也能在實(shí)際應(yīng)用中發(fā)現(xiàn),例如如何檢測(cè)一個(gè)氣象數(shù)據(jù)集中類別“晴”與其他類別(如“風(fēng)”、“多云”、“雨”)的差異.然而,一個(gè)數(shù)據(jù)集上的差異檢測(cè),或者多類問(wèn)題中的差異檢測(cè),都還未引起研究者的注意.
本文提出的不完全數(shù)據(jù)集的差異檢測(cè)方法為解決以上3個(gè)方面的問(wèn)題提供了理論和技術(shù)支撐.首先,采用一種新穎的填充方法對(duì)數(shù)據(jù)集進(jìn)行填充;其次,在填充得到的數(shù)據(jù)集上使用經(jīng)驗(yàn)似然方法,在某個(gè)置信水平下推斷出2個(gè)組群之間的置信區(qū)間,對(duì)得到的置信區(qū)間進(jìn)行差異檢測(cè);再次,討論和提出了缺失數(shù)據(jù)填充問(wèn)題及置信區(qū)間的構(gòu)造;最后,通過(guò)實(shí)驗(yàn)檢測(cè),驗(yàn)證了本算法的優(yōu)越性.
由于在實(shí)際應(yīng)用中數(shù)據(jù)缺失的現(xiàn)象非常普遍,因此缺失填充一直是數(shù)據(jù)挖掘、統(tǒng)計(jì)等領(lǐng)域中的一個(gè)研究熱點(diǎn).研究者發(fā)現(xiàn),這些數(shù)據(jù)的缺失會(huì)影響從數(shù)據(jù)集中抽取模式(或規(guī)則)的正確性和準(zhǔn)確性,從而導(dǎo)致建立錯(cuò)誤的數(shù)據(jù)挖掘模型.
通常,對(duì)缺失數(shù)據(jù)的處理方法有刪除、不處理、填充和部分填充四大類.1)刪除方法就是將缺失數(shù)據(jù)所在的事例整個(gè)刪除,差異分析就在剩下的所有無(wú)缺失的事例上進(jìn)行.這種方法簡(jiǎn)單但會(huì)丟掉很多有用信息.2)不處理方法就是在有缺失數(shù)據(jù)的數(shù)據(jù)集中直接學(xué)習(xí).這類方法包括貝葉斯網(wǎng)絡(luò)(Bayesian Network)和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks)等.但此類方法還不十分成熟,算法的復(fù)雜度也很高.3)缺失數(shù)據(jù)填充方法是根據(jù)完全數(shù)據(jù)構(gòu)造一個(gè)模型,然后給缺失數(shù)據(jù)一個(gè)估計(jì)值.然而,經(jīng)常會(huì)由于不正確的估計(jì)而引入噪音.4)部分填充方法是在最近的文獻(xiàn)[17-18]中被提出的,認(rèn)為沒(méi)有必要對(duì)全部缺失數(shù)據(jù)進(jìn)行填充,只需選擇其中一部分進(jìn)行填充,效果會(huì)更好.
在研究缺失數(shù)據(jù)處理問(wèn)題上,決策方法通常會(huì)與數(shù)據(jù)缺失的機(jī)制有關(guān).因此,在對(duì)缺失數(shù)據(jù)進(jìn)行處理前了解數(shù)據(jù)缺失的機(jī)制和形式十分重要.因此,把數(shù)據(jù)缺失機(jī)制分成以下3類[18]:
1)完全隨機(jī)缺失(Missing Completely at Random,MCAR).假如條件屬性表示為X(X為n維向量),決策屬性為Y.MCAR只說(shuō)明Y中有缺失值,且與X和Y都無(wú)關(guān).這種現(xiàn)象在現(xiàn)實(shí)生活中很少見(jiàn)到,一般只會(huì)在統(tǒng)計(jì)理論中論及.
2)隨機(jī)缺失(Missing at Random,MAR).缺失數(shù)據(jù)的可能值僅僅依賴于數(shù)據(jù)集中不含缺失值的其他變量,也就是說(shuō),Y的缺失是與X密切相關(guān)的.這種缺失機(jī)制簡(jiǎn)單易行,在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域中研究得比較多,通常為默認(rèn)的缺失機(jī)制.本文算法的缺失機(jī)制就是這種在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中經(jīng)常涉及的MAR缺失機(jī)制.
3)非隨機(jī)缺失(Not Missing at Random,NMAR).缺失數(shù)據(jù)的可能值不僅依賴于其他變量,還依賴于不完全數(shù)據(jù)本身.也就是說(shuō),對(duì)于Y的缺失,除了與X相關(guān)外,還與Y本身相關(guān).這種情況在現(xiàn)實(shí)生活中很常見(jiàn),但由于限制條件比較復(fù)雜,研究起來(lái)比較麻煩,研究成果也不多.
本文提出的填充算法是基于第2種缺失類型(即MAR)和第4種缺失數(shù)據(jù)處理方法.
1)首先對(duì)數(shù)據(jù)集進(jìn)行規(guī)范化;
2)for 每個(gè)缺失數(shù)據(jù)z=(X′,Y′){//其中X′為數(shù)據(jù)的屬性,Y′為類標(biāo)號(hào)};
3)計(jì)算和每個(gè)完全數(shù)據(jù)(X,Y)∈D之間的距離dist(X′,X);
4)選擇離z最近的k個(gè)完全數(shù)據(jù)的集合Dz?D;
算法1第6步中缺失數(shù)據(jù)z決策屬性的預(yù)測(cè)值由DS中的完全數(shù)據(jù)確定.
用F(x)和Gθ0(y)表示2個(gè)組群(或稱為隨機(jī)變量)X和Y的分布函數(shù).其中:G已知;F和θ0未知.假設(shè)在2個(gè)數(shù)據(jù)集中,其中一個(gè)數(shù)據(jù)集的信息(如G)已知,另外一個(gè)數(shù)據(jù)集的信息未知(如F),則這種模型被稱為半?yún)⒛P?本文的重點(diǎn)在于使用經(jīng)驗(yàn)似然方法構(gòu)造半?yún)⒛P偷木挡町惡头植己瘮?shù)差異置信區(qū)間.在這種前提條件下,參數(shù)和半?yún)⒛P投疾贿m用.有關(guān)經(jīng)驗(yàn)似然的理論及應(yīng)用見(jiàn)文獻(xiàn)[19-20].
記任意2個(gè)組群差異為Δ,則
Eω(x,θ0,Δ)=0.
(1)
式(1)中的ω是一個(gè)已知函數(shù)形式.根據(jù)式(1),2個(gè)組群X和Y的均值差異和分布函數(shù)差異可分別定義為:
1)均值差異:μ1=E(x),μ2=E(y)=μ(θ0),Δ=μ2-μ1,其中ω(x,θ0,Δ)=x-μ(θ0)+Δ;
2)分布函數(shù)差異:對(duì)任意固定的值x0,取p1=F(x0),p2=Gθ0(x0)=p(θ0),Δ=p2-p1,且ω(x,θ0,Δ)=I(x≤x0)-p(θ0)+Δ,其中I(5)是示性函數(shù).
接著,記(x,δx)和y分別為(xi,δxi)和yj,i=1,2,…,m;,j=1,2,…,n.其中
(2)
本文假設(shè)隨機(jī)變量X和Y的缺失機(jī)制為MAR,(x,δx)和y是獨(dú)立的.
表1給出了一個(gè)例子,顯示本節(jié)主要解決的問(wèn)題.表1中的數(shù)據(jù)集來(lái)自于UCI乳腺癌(Breast Cancer)數(shù)據(jù)集[21].
表1 UCI乳腺癌數(shù)據(jù)集
根據(jù)表1可以提出2個(gè)問(wèn)題:1)什么是良性和惡性乳腺癌患者之間的差異;2)已知兩者之間的差異,如何衡量什么樣的差異值是可信的?
顯然,可以通過(guò)考察這2個(gè)隨機(jī)變量的一些特性,根據(jù)一些簡(jiǎn)單的統(tǒng)計(jì)方法或者數(shù)據(jù)挖掘方法解決以上2個(gè)問(wèn)題.例如,采用文獻(xiàn)[21-23]的方法可以解決第1個(gè)問(wèn)題.對(duì)含有缺失數(shù)據(jù)的隨機(jī)變量的差異(即第2個(gè)問(wèn)題),本文采用經(jīng)驗(yàn)似然的方法構(gòu)建2個(gè)隨機(jī)變量的置信區(qū)間(在某顯著性水平α下).
(3)
本節(jié)構(gòu)造的組群差異Δ置信區(qū)間的經(jīng)驗(yàn)似然統(tǒng)計(jì)的漸進(jìn)分布可以被證明是一個(gè)加權(quán)的卡方分布 (詳見(jiàn)定理 1 ).首先,半?yún)⑺迫缓瘮?shù)定義為
(4)
(5)
式(5)中:
R(Δ,θ)=
應(yīng)用拉格朗日乘子法得到
(6)
λ(θ)由下式?jīng)Q定:
(7)
1)θ0∈Ω及Ω均為開區(qū)間;
2)A={y|gθ(y)>0}完全獨(dú)立于θ;
3)?y∈A,gθ(y)關(guān)于θ的三次微分均存在;
定理1假設(shè)條件1)~8)都滿足,則式(6)中的θ存在一個(gè)解,此解使R(Δ,θ)局部最小,且
(8)
式(8)中:
i=1,2,…,n;
β0=E[α(x,θ0,Δ)];
假設(shè)tα滿足P(χ2≤tα)=1-α,根據(jù)定理1, 關(guān)于Δ的基于經(jīng)驗(yàn)似然的置信區(qū)間漸進(jìn)收斂于1-α為
(9)
式(9)可以直接對(duì)Δ進(jìn)行假設(shè)檢驗(yàn).例如,如果H0:Δ=Δ0,H1:Δ≠Δ0,那么,首先根據(jù)式(9)為Δ構(gòu)建置信區(qū)間,然后檢測(cè)初始值Δ0是否在得到的區(qū)間內(nèi).如果Δ0在區(qū)間內(nèi),則接受假設(shè);否則,拒絕假設(shè).
使用經(jīng)驗(yàn)似然方法構(gòu)建置信區(qū)間的算法(算法2)如下:
Input:數(shù)據(jù)集x,y
Output:均值和分布函數(shù)的置信區(qū)間
1)Begin
2)Δ=(E(y)-E(x))-a
3)MeanLeft=FindEndPoint(left,Δ)
4)Δ=(E(y)-E(x))+a
5)MeanRight=FindEndPoint(right,Δ)
6)Δ=(DFG(X0)-DFF(X0))-b
7)DFLeft=FindEndPoint(left,Δ)
8)Δ=(DFG(X0)-DFF(X0))+b
9)DFRight=FindEndPoint(right,Δ)
10)Output CIs:(MeanLeft,MeanRight),(DFLeft,DFRight)
Sub procedure FindEndPoint(direction,Δ)
11)If (directin=left) step=1e-2 else step=-1e-2
12)While (1)
13)(λ,θ)←the roots of eq. (6) and (7)
14)compute (8) based on (λ,θ) and datasetx,y
15)if ((9) is satisfied) returnΔelseΔ=Δ+step
End sub
(note thata,bare random selected constants with respect toΔ)
為了檢測(cè)算法的優(yōu)越性,把本文算法(記為SNIEL)同常見(jiàn)的構(gòu)造置信區(qū)間算法——解鞋帶重抽樣算法[24](Bootstrap re-sampling算法,本文記為BOOT)及使用最近鄰填充缺失數(shù)據(jù)算法2構(gòu)建置信區(qū)間方法(記為NNEL)在UCI真實(shí)數(shù)據(jù)集上進(jìn)行比較,評(píng)價(jià)指標(biāo)為構(gòu)造出的置信區(qū)間的長(zhǎng)度和真實(shí)值在置信區(qū)間中的覆蓋率.置信區(qū)間的長(zhǎng)度越短且覆蓋率越大,說(shuō)明構(gòu)造出的置信區(qū)間效果越好.首先,對(duì)有缺失的數(shù)據(jù)集(2個(gè)組群均含有相同比例的缺失數(shù)據(jù)),算法SNIEL和算法BOOT均使用算法1填充缺失數(shù)據(jù),NNEL算法使用k-近鄰算法填充缺失數(shù)據(jù),2種填充算法都需要設(shè)置參數(shù)k, 在實(shí)驗(yàn)中統(tǒng)一取k=5.在完全的數(shù)據(jù)集中,SNIEL和NNEL使用算法2構(gòu)建均值和分布函數(shù)的置信區(qū)間,BOOT使用解鞋帶重抽樣算法[14]構(gòu)建置信區(qū)間.對(duì)比實(shí)驗(yàn)有3組,分別為單一組群并且無(wú)類標(biāo)簽的對(duì)比實(shí)驗(yàn);2個(gè)組群類標(biāo)簽為兩類的對(duì)比實(shí)驗(yàn);2個(gè)組群類標(biāo)簽為多類的對(duì)比實(shí)驗(yàn).要注意的是:1)實(shí)驗(yàn)過(guò)程中的置信水平統(tǒng)一設(shè)為1-α,其中α=0.05;2)本文實(shí)驗(yàn)數(shù)據(jù)集均為無(wú)缺失數(shù)據(jù)集(為了跟原始數(shù)據(jù)進(jìn)行比較),實(shí)驗(yàn)過(guò)程中統(tǒng)一使用MAR方法,隨機(jī)使20%的事例含有缺失數(shù)據(jù),稱其缺失率為20%.
單一組群實(shí)驗(yàn)是為了檢測(cè)2種方法(經(jīng)驗(yàn)似然法和解鞋帶重抽樣法)構(gòu)建的置信區(qū)間是否為緊(即置信區(qū)間長(zhǎng)度較短).若置信區(qū)間的長(zhǎng)度趨于0,則說(shuō)明在這個(gè)組群里抽樣出來(lái)的2個(gè)樣本服從同一分布.在實(shí)際應(yīng)用或者理論研究中,都可以利用這個(gè)方法檢測(cè)設(shè)計(jì)的抽樣算法是否有效.
實(shí)驗(yàn)數(shù)據(jù)集為abalone 數(shù)據(jù)集,共有4 177 事例,每個(gè)事例有9個(gè)屬性.實(shí)驗(yàn)設(shè)計(jì)中,首先隨機(jī)把a(bǔ)balone 數(shù)據(jù)集分成2個(gè)部分:一個(gè)部分含有2 581個(gè)事例,記為D1;另一部分為 1 596 事例,記為D2.這里只對(duì)第3,5和6個(gè)屬性建立置信區(qū)間.實(shí)驗(yàn)樣本為200,實(shí)驗(yàn)次數(shù)1 000次,記錄每次實(shí)驗(yàn)的原始均值和分布函數(shù),最終結(jié)果為1 000次的平均值.由于實(shí)驗(yàn)在一個(gè)數(shù)據(jù)集中進(jìn)行,因此2個(gè)組群的差異Δ理論上應(yīng)為0.
表2 均值置信區(qū)間平均長(zhǎng)度及覆蓋率比較
表3 分布函數(shù)置信區(qū)間平均長(zhǎng)度及覆蓋率比較
由表2及表3說(shuō)明:3種算法構(gòu)造的均值區(qū)間的長(zhǎng)度都接近于0,且覆蓋率均超過(guò)了95%,說(shuō)明3種方法都是有效的.但對(duì)比兩種使用算法2構(gòu)造置信區(qū)間的方法,算法BOOT無(wú)論在分布函數(shù)還是均值置信區(qū)間上都處于劣勢(shì),說(shuō)明構(gòu)造置信區(qū)間算法優(yōu)于解鞋帶重抽樣法.對(duì)比2種使用經(jīng)驗(yàn)似然構(gòu)造置信區(qū)間的算法發(fā)現(xiàn),算法SNIEL的各評(píng)價(jià)指標(biāo)均優(yōu)于算法NNEL,這是因?yàn)镾NIEL算法使用了殼近鄰填充算法,而NNEL使用的是近鄰填充算法.因此,殼近鄰填充算法在構(gòu)造不完全組群置信區(qū)間方面要優(yōu)于最近鄰算法.
單個(gè)組群差異檢測(cè)可顯示一個(gè)組群中的2個(gè)樣本是否來(lái)自同一個(gè)分布,2類組群差異檢測(cè)則可以顯示2個(gè)組群(即使是具有不同分布,甚至只知道其中1個(gè)組群分布情況)的差異情況.
實(shí)驗(yàn)選取數(shù)據(jù)集Wisconsin breast cancer dataset,共有569個(gè)事例和32個(gè)屬性.類屬性有2個(gè)類,其中良性患者類有357個(gè)事例,惡性患者有212個(gè).只對(duì)第4,15和27個(gè)屬性進(jìn)行實(shí)驗(yàn).結(jié)果如表4和表5所示.在2個(gè)組群的比較實(shí)驗(yàn)中,用經(jīng)驗(yàn)似然方法估計(jì)置信區(qū)間的算法無(wú)論是置信區(qū)間的平均長(zhǎng)度或真實(shí)值在置信區(qū)間的覆蓋率都要比用解鞋帶重抽樣構(gòu)造置信區(qū)間的算法好.
表4 均值置信區(qū)間平均長(zhǎng)度及覆蓋率比較
表5 分布函數(shù)置信區(qū)間平均長(zhǎng)度及覆蓋率比較
現(xiàn)實(shí)數(shù)據(jù)集的類標(biāo)簽經(jīng)常含有多類情況.例如,一個(gè)有關(guān)氣象數(shù)據(jù)集的類標(biāo)簽有“晴”、“多云”、“風(fēng)”和“下雨”.若需估計(jì)一個(gè)數(shù)據(jù)集中含有多類標(biāo)簽間的差異,則可以先對(duì)這些類標(biāo)簽做組合(如“晴”跟“多云”、“晴”跟“風(fēng)”、“晴”跟“下雨”等各做一個(gè)組合),然后再檢測(cè)這些組合的差異性.但是,此方法至少含有2個(gè)問(wèn)題:1)這樣的組合勢(shì)必加大計(jì)算量;2)如果只分析2個(gè)類別之間的差異,而不考慮其他類標(biāo)簽的組合(如只分析“晴”跟“風(fēng)”的差異,不考慮“晴”跟“多云”及“晴”跟“下雨”等的組合),顯然是不合理的.本文把“晴”作為一類,其他作為一類,就可以解決以上2個(gè)問(wèn)題.實(shí)驗(yàn)數(shù)據(jù)集為Wine數(shù)據(jù)集(有3個(gè)類)、Iris數(shù)據(jù)集(3個(gè)類)和Yeast數(shù)據(jù)集(10個(gè)類).結(jié)果如表6和表7所示.實(shí)驗(yàn)結(jié)果與表2~表5的一樣,唯一不同的是,算法BOOT在多類問(wèn)題中不太穩(wěn)定,這可能是由于解鞋帶重抽樣方法的不穩(wěn)定性造成的.
表6 均值置信區(qū)間平均長(zhǎng)度及覆蓋率比較
表7 分布函數(shù)置信區(qū)間平均長(zhǎng)度及覆蓋率比較
由于理論保證,經(jīng)驗(yàn)似然方法在3種實(shí)驗(yàn)比較中都優(yōu)于解鞋帶重抽樣方法.這是因?yàn)?雖然經(jīng)驗(yàn)似然方法的實(shí)驗(yàn)結(jié)果顯示了較短的置信區(qū)間,但卻具有更高的覆蓋率.
參考文獻(xiàn):
[1]Huang Huijing,Qin Yongsong,Zhu Xiaofeng,et al.Difference Detection between Two Contrast Sets[M].Berlin:Springer,2006:481-490.
[2]Bay S D,Pazzani M J.Characterizing Model Errors and Differences[C]// Proceedings of the Seventeenth International Conference on Machine Learning.New York:ACM,2000:49-56.
[3]Bay S D,Pazzani M J.Detecting Change in Categorical Data:Mining Contrast Sets[C]// Proceedings of the Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM,1999:302-306.
[4]Au W H,Chan K C C.Mining changes in association rules:a fuzzy approach[J].Fuzzy Sets and Systems,2005,149(1):87-104.
[5]Bay S D,Pazzani M J.Detecting Group Differences:Mining Contrast Sets[J].Data Mining and Knowledge Discovery,2001,5(3):213-246.
[6]Webb G I,Butler S M,Newlands D A.On detecting differences between groups[C]//Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM,2003:256-265.
[7]Cong Gao,Liu Bing.Speed-up Iterative Frequent Itemset Mining with Constraint Changes[C]//Proceedings of the International Conference on Data Mining.New York:IEEE,2002:107-114.
[8]Liu Bing,Hsu W,Han H S,et al.Mining Changes for Real-Life Applications[M].Berlin:Springer,2000:337-346.
[9]Wang Ke,Zhou Senqiang,Fu C A,et al.Mining Changes of Classification by Correspondence Tracing[C]//SIAMDM ’03,SIAM International Conference on Data Mining.San Francisco:SIAM,2003.
[10]Lakshminarayan K,Harp S A,Samad T.Imputation of missing data in industrial databases[J].Applied Intelligence,1999,11(3):259-275.
[11]Zhang Shichao.Detecting Differences between Contrast Groups[J].IEEE Transactions on Information Technology in Biomedicine,2008,12(6):739-745.
[12]Jing Bingyi.Two-sample empirical likelihood method[J].Statistics and Probability Letters,1995,24(4):315-319.
[13]Qin Yongsong,Zhang Shichao.Empirical Likelihood Confidence Intervals for Differences between Two Datasets with Missing Data[J].Pattern Recognition Letters,2008,29(6):803-812.
[14]Hall P,Martin M.On the bootstrap and two-sample problems[J].Austral J Statist,1988,30A(1):179-192.
[15]Wang Qihua,Rao J N K.Empirical likelihood-based inference in linear models with missing data[J].Scand J Statist,2002,29(3):563-576.
[16]Wang Qihua,Rao J N K.Empirical likelihood-based inference under imputation for missing response data[J].Ann Statist,2002,30(3):896-924.
[17]Zhang Shichao,Member S,IEEE.Parimputation:From imputation and null-imputation to partially imputation[J].IEEE Intelligent Informatics Bulletin,2008,9(1):32-38.
[18]Zhang Shichao.Shell-Neighbor method and its application in missing data imputation[EB/OL].(2010-02-20)[2010-02-28].http://www.springerlink.com/content/666244u672v6171v/.
[19]Owen A.Empirical likelihood[M].New York:Chapman & Hall,2001.
[20]Owen A.Data Squashing by Empirical Likelihood[J].Data Mining and Knowledge Discovery,2003,7(1):101-113.
[21]Blake C,Merz C.UCI Repository of machine learning database[ED/OL].[2009-08-21].http://www.ics.uci.edu/~mlearn/MLResoesitory.html.
[22]Cho Y B,Cho Y H,Kim S H.Mining changes in customer buying behavior for collaborative recommendations[J].Expert Systems with Applications,2005,28(2):359-369.
[23]Ying A T T,Murphy G C,Raymond T N,et al.Predicting Source Code Changes by Mining Change History[J].IEEE Trans Software Eng,2004,30(9):574-586.
[24]Little R,Rubin D.Statistical analysis with missing data[M].2nd ed.New York:John Wiley & Sons,2002.