亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        不完全數(shù)據(jù)集上的半?yún)⒔M群差異檢測(cè)

        2010-05-28 08:08:26張師超
        關(guān)鍵詞:組群置信區(qū)間數(shù)據(jù)挖掘

        張師超

        (浙江師范大學(xué) 數(shù)理與信息工程學(xué)院,浙江 金華 321004)

        0 引 言

        在智能數(shù)據(jù)分析領(lǐng)域,兩數(shù)據(jù)集間的差異檢測(cè)是一個(gè)應(yīng)用非常廣泛的研究課題.例如,在醫(yī)學(xué)中,要檢測(cè)一種新藥甲能否大批量生產(chǎn),通常要把其與已有的一些效果很好的舊藥(假如藥品乙)進(jìn)行一些差別比較,從而得到新藥甲的一些特性,為新藥甲的大批量投產(chǎn)或繼續(xù)改進(jìn)提供科學(xué)依據(jù).檢測(cè)差別的方法有均值差異檢測(cè)法和分布函數(shù)差異檢測(cè)法(或分位數(shù)差異檢測(cè)法).在檢測(cè)過(guò)程中,藥物甲和乙通常稱為對(duì)比群(也可以稱為對(duì)比集或?qū)Ρ瓤傮w等)[1].在統(tǒng)計(jì)和數(shù)據(jù)挖掘領(lǐng)域中,均值差異檢測(cè)、分布函數(shù)差異檢測(cè)或分位數(shù)差異檢測(cè)一般統(tǒng)稱為結(jié)構(gòu)差異檢測(cè).結(jié)構(gòu)差異檢測(cè)在統(tǒng)計(jì)和數(shù)據(jù)挖掘方面取得了很大的發(fā)展,例如實(shí)驗(yàn)數(shù)據(jù)分析[2]、變化挖掘[3-4]等.

        結(jié)構(gòu)差異檢測(cè)能得到廣泛的應(yīng)用是由于它在數(shù)據(jù)挖掘領(lǐng)域得到了較大的發(fā)展.例如在信息安全方面,檢測(cè)出垃圾郵件和非垃圾郵件的差異對(duì)有效阻止垃圾郵件起著關(guān)鍵的作用[5].組群差異檢測(cè)已被廣泛應(yīng)用于數(shù)據(jù)挖掘的各種領(lǐng)域,如多元數(shù)據(jù)分析[3,5-6]、基于決策樹上的變化挖掘[7-9]等.然而,當(dāng)前組群差異檢測(cè)面臨著以下幾個(gè)問(wèn)題:1)數(shù)據(jù)集經(jīng)常出現(xiàn)缺失現(xiàn)象.很多工業(yè)數(shù)據(jù)集缺失率高達(dá)85%,一些基因數(shù)據(jù)集的缺失率甚至高達(dá)90%以上[10].常見(jiàn)的組群差異檢測(cè)方法都是假設(shè)需處理的數(shù)據(jù)集是完全數(shù)據(jù)集(即沒(méi)有缺失)[11].如果把數(shù)據(jù)集中缺失的事例去掉,只使用沒(méi)有缺失的數(shù)據(jù)集進(jìn)行差異分析,顯然會(huì)浪費(fèi)很多信息,而且使用那些少量沒(méi)有缺失的事例進(jìn)行差異檢測(cè),肯定不能代表整個(gè)數(shù)據(jù)集的真實(shí)情況.2)常見(jiàn)的統(tǒng)計(jì)模型經(jīng)常會(huì)對(duì)所處理的數(shù)據(jù)集有無(wú)先驗(yàn)知識(shí)作出假設(shè).如果對(duì)所處理的數(shù)據(jù)有先驗(yàn)知識(shí),則一般可采用參數(shù)方法對(duì)數(shù)據(jù)進(jìn)行差異檢測(cè)[12];如果對(duì)所處理的數(shù)據(jù)沒(méi)有任何先驗(yàn)知識(shí),則通常采用非參差異檢測(cè)方法[13].事實(shí)上,這2種情形都是極端的,面對(duì)2個(gè)數(shù)據(jù)集,用戶通常會(huì)有些先驗(yàn)知識(shí),此時(shí)采用非參差異檢測(cè)方法是非常合適的[1].3)常見(jiàn)的差異檢測(cè)方法都是面向2個(gè)數(shù)據(jù)集[14-16].但是,在實(shí)際應(yīng)用中有時(shí)需要在一個(gè)數(shù)據(jù)集上進(jìn)行差異檢測(cè),如在一個(gè)文本數(shù)據(jù)集上檢測(cè)垃圾郵件和非垃圾郵件的差異,或者在一個(gè)數(shù)據(jù)集上檢測(cè)良性病癥和惡性病癥的差異,等等.此外,常見(jiàn)的差異檢測(cè)集中在一個(gè)問(wèn)題的2個(gè)對(duì)立面,但在實(shí)際應(yīng)用中通常有多類問(wèn)題,即類標(biāo)簽類別個(gè)數(shù)多于2類.多類問(wèn)題中的組群差異問(wèn)題也能在實(shí)際應(yīng)用中發(fā)現(xiàn),例如如何檢測(cè)一個(gè)氣象數(shù)據(jù)集中類別“晴”與其他類別(如“風(fēng)”、“多云”、“雨”)的差異.然而,一個(gè)數(shù)據(jù)集上的差異檢測(cè),或者多類問(wèn)題中的差異檢測(cè),都還未引起研究者的注意.

        本文提出的不完全數(shù)據(jù)集的差異檢測(cè)方法為解決以上3個(gè)方面的問(wèn)題提供了理論和技術(shù)支撐.首先,采用一種新穎的填充方法對(duì)數(shù)據(jù)集進(jìn)行填充;其次,在填充得到的數(shù)據(jù)集上使用經(jīng)驗(yàn)似然方法,在某個(gè)置信水平下推斷出2個(gè)組群之間的置信區(qū)間,對(duì)得到的置信區(qū)間進(jìn)行差異檢測(cè);再次,討論和提出了缺失數(shù)據(jù)填充問(wèn)題及置信區(qū)間的構(gòu)造;最后,通過(guò)實(shí)驗(yàn)檢測(cè),驗(yàn)證了本算法的優(yōu)越性.

        1 殼填充缺失數(shù)據(jù)算法

        1.1 缺失數(shù)據(jù)介紹

        由于在實(shí)際應(yīng)用中數(shù)據(jù)缺失的現(xiàn)象非常普遍,因此缺失填充一直是數(shù)據(jù)挖掘、統(tǒng)計(jì)等領(lǐng)域中的一個(gè)研究熱點(diǎn).研究者發(fā)現(xiàn),這些數(shù)據(jù)的缺失會(huì)影響從數(shù)據(jù)集中抽取模式(或規(guī)則)的正確性和準(zhǔn)確性,從而導(dǎo)致建立錯(cuò)誤的數(shù)據(jù)挖掘模型.

        通常,對(duì)缺失數(shù)據(jù)的處理方法有刪除、不處理、填充和部分填充四大類.1)刪除方法就是將缺失數(shù)據(jù)所在的事例整個(gè)刪除,差異分析就在剩下的所有無(wú)缺失的事例上進(jìn)行.這種方法簡(jiǎn)單但會(huì)丟掉很多有用信息.2)不處理方法就是在有缺失數(shù)據(jù)的數(shù)據(jù)集中直接學(xué)習(xí).這類方法包括貝葉斯網(wǎng)絡(luò)(Bayesian Network)和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks)等.但此類方法還不十分成熟,算法的復(fù)雜度也很高.3)缺失數(shù)據(jù)填充方法是根據(jù)完全數(shù)據(jù)構(gòu)造一個(gè)模型,然后給缺失數(shù)據(jù)一個(gè)估計(jì)值.然而,經(jīng)常會(huì)由于不正確的估計(jì)而引入噪音.4)部分填充方法是在最近的文獻(xiàn)[17-18]中被提出的,認(rèn)為沒(méi)有必要對(duì)全部缺失數(shù)據(jù)進(jìn)行填充,只需選擇其中一部分進(jìn)行填充,效果會(huì)更好.

        在研究缺失數(shù)據(jù)處理問(wèn)題上,決策方法通常會(huì)與數(shù)據(jù)缺失的機(jī)制有關(guān).因此,在對(duì)缺失數(shù)據(jù)進(jìn)行處理前了解數(shù)據(jù)缺失的機(jī)制和形式十分重要.因此,把數(shù)據(jù)缺失機(jī)制分成以下3類[18]:

        1)完全隨機(jī)缺失(Missing Completely at Random,MCAR).假如條件屬性表示為X(X為n維向量),決策屬性為Y.MCAR只說(shuō)明Y中有缺失值,且與X和Y都無(wú)關(guān).這種現(xiàn)象在現(xiàn)實(shí)生活中很少見(jiàn)到,一般只會(huì)在統(tǒng)計(jì)理論中論及.

        2)隨機(jī)缺失(Missing at Random,MAR).缺失數(shù)據(jù)的可能值僅僅依賴于數(shù)據(jù)集中不含缺失值的其他變量,也就是說(shuō),Y的缺失是與X密切相關(guān)的.這種缺失機(jī)制簡(jiǎn)單易行,在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域中研究得比較多,通常為默認(rèn)的缺失機(jī)制.本文算法的缺失機(jī)制就是這種在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中經(jīng)常涉及的MAR缺失機(jī)制.

        3)非隨機(jī)缺失(Not Missing at Random,NMAR).缺失數(shù)據(jù)的可能值不僅依賴于其他變量,還依賴于不完全數(shù)據(jù)本身.也就是說(shuō),對(duì)于Y的缺失,除了與X相關(guān)外,還與Y本身相關(guān).這種情況在現(xiàn)實(shí)生活中很常見(jiàn),但由于限制條件比較復(fù)雜,研究起來(lái)比較麻煩,研究成果也不多.

        本文提出的填充算法是基于第2種缺失類型(即MAR)和第4種缺失數(shù)據(jù)處理方法.

        1.2 殼近鄰填充(SNI)算法

        1)首先對(duì)數(shù)據(jù)集進(jìn)行規(guī)范化;

        2)for 每個(gè)缺失數(shù)據(jù)z=(X′,Y′){//其中X′為數(shù)據(jù)的屬性,Y′為類標(biāo)號(hào)};

        3)計(jì)算和每個(gè)完全數(shù)據(jù)(X,Y)∈D之間的距離dist(X′,X);

        4)選擇離z最近的k個(gè)完全數(shù)據(jù)的集合Dz?D;

        算法1第6步中缺失數(shù)據(jù)z決策屬性的預(yù)測(cè)值由DS中的完全數(shù)據(jù)確定.

        2 經(jīng)驗(yàn)似然法構(gòu)造半?yún)⒔M群差異模型

        用F(x)和Gθ0(y)表示2個(gè)組群(或稱為隨機(jī)變量)X和Y的分布函數(shù).其中:G已知;F和θ0未知.假設(shè)在2個(gè)數(shù)據(jù)集中,其中一個(gè)數(shù)據(jù)集的信息(如G)已知,另外一個(gè)數(shù)據(jù)集的信息未知(如F),則這種模型被稱為半?yún)⒛P?本文的重點(diǎn)在于使用經(jīng)驗(yàn)似然方法構(gòu)造半?yún)⒛P偷木挡町惡头植己瘮?shù)差異置信區(qū)間.在這種前提條件下,參數(shù)和半?yún)⒛P投疾贿m用.有關(guān)經(jīng)驗(yàn)似然的理論及應(yīng)用見(jiàn)文獻(xiàn)[19-20].

        記任意2個(gè)組群差異為Δ,則

        Eω(x,θ0,Δ)=0.

        (1)

        式(1)中的ω是一個(gè)已知函數(shù)形式.根據(jù)式(1),2個(gè)組群X和Y的均值差異和分布函數(shù)差異可分別定義為:

        1)均值差異:μ1=E(x),μ2=E(y)=μ(θ0),Δ=μ2-μ1,其中ω(x,θ0,Δ)=x-μ(θ0)+Δ;

        2)分布函數(shù)差異:對(duì)任意固定的值x0,取p1=F(x0),p2=Gθ0(x0)=p(θ0),Δ=p2-p1,且ω(x,θ0,Δ)=I(x≤x0)-p(θ0)+Δ,其中I(5)是示性函數(shù).

        接著,記(x,δx)和y分別為(xi,δxi)和yj,i=1,2,…,m;,j=1,2,…,n.其中

        (2)

        本文假設(shè)隨機(jī)變量X和Y的缺失機(jī)制為MAR,(x,δx)和y是獨(dú)立的.

        表1給出了一個(gè)例子,顯示本節(jié)主要解決的問(wèn)題.表1中的數(shù)據(jù)集來(lái)自于UCI乳腺癌(Breast Cancer)數(shù)據(jù)集[21].

        表1 UCI乳腺癌數(shù)據(jù)集

        根據(jù)表1可以提出2個(gè)問(wèn)題:1)什么是良性和惡性乳腺癌患者之間的差異;2)已知兩者之間的差異,如何衡量什么樣的差異值是可信的?

        顯然,可以通過(guò)考察這2個(gè)隨機(jī)變量的一些特性,根據(jù)一些簡(jiǎn)單的統(tǒng)計(jì)方法或者數(shù)據(jù)挖掘方法解決以上2個(gè)問(wèn)題.例如,采用文獻(xiàn)[21-23]的方法可以解決第1個(gè)問(wèn)題.對(duì)含有缺失數(shù)據(jù)的隨機(jī)變量的差異(即第2個(gè)問(wèn)題),本文采用經(jīng)驗(yàn)似然的方法構(gòu)建2個(gè)隨機(jī)變量的置信區(qū)間(在某顯著性水平α下).

        (3)

        2.1 對(duì)差異Δ構(gòu)造置信區(qū)間

        本節(jié)構(gòu)造的組群差異Δ置信區(qū)間的經(jīng)驗(yàn)似然統(tǒng)計(jì)的漸進(jìn)分布可以被證明是一個(gè)加權(quán)的卡方分布 (詳見(jiàn)定理 1 ).首先,半?yún)⑺迫缓瘮?shù)定義為

        (4)

        (5)

        式(5)中:

        R(Δ,θ)=

        應(yīng)用拉格朗日乘子法得到

        (6)

        λ(θ)由下式?jīng)Q定:

        (7)

        1)θ0∈Ω及Ω均為開區(qū)間;

        2)A={y|gθ(y)>0}完全獨(dú)立于θ;

        3)?y∈A,gθ(y)關(guān)于θ的三次微分均存在;

        定理1假設(shè)條件1)~8)都滿足,則式(6)中的θ存在一個(gè)解,此解使R(Δ,θ)局部最小,且

        (8)

        式(8)中:

        i=1,2,…,n;

        β0=E[α(x,θ0,Δ)];

        2.2 基于經(jīng)驗(yàn)似然的Δ置信區(qū)間

        假設(shè)tα滿足P(χ2≤tα)=1-α,根據(jù)定理1, 關(guān)于Δ的基于經(jīng)驗(yàn)似然的置信區(qū)間漸進(jìn)收斂于1-α為

        (9)

        式(9)可以直接對(duì)Δ進(jìn)行假設(shè)檢驗(yàn).例如,如果H0:Δ=Δ0,H1:Δ≠Δ0,那么,首先根據(jù)式(9)為Δ構(gòu)建置信區(qū)間,然后檢測(cè)初始值Δ0是否在得到的區(qū)間內(nèi).如果Δ0在區(qū)間內(nèi),則接受假設(shè);否則,拒絕假設(shè).

        使用經(jīng)驗(yàn)似然方法構(gòu)建置信區(qū)間的算法(算法2)如下:

        Input:數(shù)據(jù)集x,y

        Output:均值和分布函數(shù)的置信區(qū)間

        1)Begin

        2)Δ=(E(y)-E(x))-a

        3)MeanLeft=FindEndPoint(left,Δ)

        4)Δ=(E(y)-E(x))+a

        5)MeanRight=FindEndPoint(right,Δ)

        6)Δ=(DFG(X0)-DFF(X0))-b

        7)DFLeft=FindEndPoint(left,Δ)

        8)Δ=(DFG(X0)-DFF(X0))+b

        9)DFRight=FindEndPoint(right,Δ)

        10)Output CIs:(MeanLeft,MeanRight),(DFLeft,DFRight)

        Sub procedure FindEndPoint(direction,Δ)

        11)If (directin=left) step=1e-2 else step=-1e-2

        12)While (1)

        13)(λ,θ)←the roots of eq. (6) and (7)

        14)compute (8) based on (λ,θ) and datasetx,y

        15)if ((9) is satisfied) returnΔelseΔ=Δ+step

        End sub

        (note thata,bare random selected constants with respect toΔ)

        3 實(shí)驗(yàn)分析

        為了檢測(cè)算法的優(yōu)越性,把本文算法(記為SNIEL)同常見(jiàn)的構(gòu)造置信區(qū)間算法——解鞋帶重抽樣算法[24](Bootstrap re-sampling算法,本文記為BOOT)及使用最近鄰填充缺失數(shù)據(jù)算法2構(gòu)建置信區(qū)間方法(記為NNEL)在UCI真實(shí)數(shù)據(jù)集上進(jìn)行比較,評(píng)價(jià)指標(biāo)為構(gòu)造出的置信區(qū)間的長(zhǎng)度和真實(shí)值在置信區(qū)間中的覆蓋率.置信區(qū)間的長(zhǎng)度越短且覆蓋率越大,說(shuō)明構(gòu)造出的置信區(qū)間效果越好.首先,對(duì)有缺失的數(shù)據(jù)集(2個(gè)組群均含有相同比例的缺失數(shù)據(jù)),算法SNIEL和算法BOOT均使用算法1填充缺失數(shù)據(jù),NNEL算法使用k-近鄰算法填充缺失數(shù)據(jù),2種填充算法都需要設(shè)置參數(shù)k, 在實(shí)驗(yàn)中統(tǒng)一取k=5.在完全的數(shù)據(jù)集中,SNIEL和NNEL使用算法2構(gòu)建均值和分布函數(shù)的置信區(qū)間,BOOT使用解鞋帶重抽樣算法[14]構(gòu)建置信區(qū)間.對(duì)比實(shí)驗(yàn)有3組,分別為單一組群并且無(wú)類標(biāo)簽的對(duì)比實(shí)驗(yàn);2個(gè)組群類標(biāo)簽為兩類的對(duì)比實(shí)驗(yàn);2個(gè)組群類標(biāo)簽為多類的對(duì)比實(shí)驗(yàn).要注意的是:1)實(shí)驗(yàn)過(guò)程中的置信水平統(tǒng)一設(shè)為1-α,其中α=0.05;2)本文實(shí)驗(yàn)數(shù)據(jù)集均為無(wú)缺失數(shù)據(jù)集(為了跟原始數(shù)據(jù)進(jìn)行比較),實(shí)驗(yàn)過(guò)程中統(tǒng)一使用MAR方法,隨機(jī)使20%的事例含有缺失數(shù)據(jù),稱其缺失率為20%.

        3.1 單一組群對(duì)比實(shí)驗(yàn)

        單一組群實(shí)驗(yàn)是為了檢測(cè)2種方法(經(jīng)驗(yàn)似然法和解鞋帶重抽樣法)構(gòu)建的置信區(qū)間是否為緊(即置信區(qū)間長(zhǎng)度較短).若置信區(qū)間的長(zhǎng)度趨于0,則說(shuō)明在這個(gè)組群里抽樣出來(lái)的2個(gè)樣本服從同一分布.在實(shí)際應(yīng)用或者理論研究中,都可以利用這個(gè)方法檢測(cè)設(shè)計(jì)的抽樣算法是否有效.

        實(shí)驗(yàn)數(shù)據(jù)集為abalone 數(shù)據(jù)集,共有4 177 事例,每個(gè)事例有9個(gè)屬性.實(shí)驗(yàn)設(shè)計(jì)中,首先隨機(jī)把a(bǔ)balone 數(shù)據(jù)集分成2個(gè)部分:一個(gè)部分含有2 581個(gè)事例,記為D1;另一部分為 1 596 事例,記為D2.這里只對(duì)第3,5和6個(gè)屬性建立置信區(qū)間.實(shí)驗(yàn)樣本為200,實(shí)驗(yàn)次數(shù)1 000次,記錄每次實(shí)驗(yàn)的原始均值和分布函數(shù),最終結(jié)果為1 000次的平均值.由于實(shí)驗(yàn)在一個(gè)數(shù)據(jù)集中進(jìn)行,因此2個(gè)組群的差異Δ理論上應(yīng)為0.

        表2 均值置信區(qū)間平均長(zhǎng)度及覆蓋率比較

        表3 分布函數(shù)置信區(qū)間平均長(zhǎng)度及覆蓋率比較

        由表2及表3說(shuō)明:3種算法構(gòu)造的均值區(qū)間的長(zhǎng)度都接近于0,且覆蓋率均超過(guò)了95%,說(shuō)明3種方法都是有效的.但對(duì)比兩種使用算法2構(gòu)造置信區(qū)間的方法,算法BOOT無(wú)論在分布函數(shù)還是均值置信區(qū)間上都處于劣勢(shì),說(shuō)明構(gòu)造置信區(qū)間算法優(yōu)于解鞋帶重抽樣法.對(duì)比2種使用經(jīng)驗(yàn)似然構(gòu)造置信區(qū)間的算法發(fā)現(xiàn),算法SNIEL的各評(píng)價(jià)指標(biāo)均優(yōu)于算法NNEL,這是因?yàn)镾NIEL算法使用了殼近鄰填充算法,而NNEL使用的是近鄰填充算法.因此,殼近鄰填充算法在構(gòu)造不完全組群置信區(qū)間方面要優(yōu)于最近鄰算法.

        3.2 兩類實(shí)驗(yàn)

        單個(gè)組群差異檢測(cè)可顯示一個(gè)組群中的2個(gè)樣本是否來(lái)自同一個(gè)分布,2類組群差異檢測(cè)則可以顯示2個(gè)組群(即使是具有不同分布,甚至只知道其中1個(gè)組群分布情況)的差異情況.

        實(shí)驗(yàn)選取數(shù)據(jù)集Wisconsin breast cancer dataset,共有569個(gè)事例和32個(gè)屬性.類屬性有2個(gè)類,其中良性患者類有357個(gè)事例,惡性患者有212個(gè).只對(duì)第4,15和27個(gè)屬性進(jìn)行實(shí)驗(yàn).結(jié)果如表4和表5所示.在2個(gè)組群的比較實(shí)驗(yàn)中,用經(jīng)驗(yàn)似然方法估計(jì)置信區(qū)間的算法無(wú)論是置信區(qū)間的平均長(zhǎng)度或真實(shí)值在置信區(qū)間的覆蓋率都要比用解鞋帶重抽樣構(gòu)造置信區(qū)間的算法好.

        表4 均值置信區(qū)間平均長(zhǎng)度及覆蓋率比較

        表5 分布函數(shù)置信區(qū)間平均長(zhǎng)度及覆蓋率比較

        3.3 多類實(shí)驗(yàn)

        現(xiàn)實(shí)數(shù)據(jù)集的類標(biāo)簽經(jīng)常含有多類情況.例如,一個(gè)有關(guān)氣象數(shù)據(jù)集的類標(biāo)簽有“晴”、“多云”、“風(fēng)”和“下雨”.若需估計(jì)一個(gè)數(shù)據(jù)集中含有多類標(biāo)簽間的差異,則可以先對(duì)這些類標(biāo)簽做組合(如“晴”跟“多云”、“晴”跟“風(fēng)”、“晴”跟“下雨”等各做一個(gè)組合),然后再檢測(cè)這些組合的差異性.但是,此方法至少含有2個(gè)問(wèn)題:1)這樣的組合勢(shì)必加大計(jì)算量;2)如果只分析2個(gè)類別之間的差異,而不考慮其他類標(biāo)簽的組合(如只分析“晴”跟“風(fēng)”的差異,不考慮“晴”跟“多云”及“晴”跟“下雨”等的組合),顯然是不合理的.本文把“晴”作為一類,其他作為一類,就可以解決以上2個(gè)問(wèn)題.實(shí)驗(yàn)數(shù)據(jù)集為Wine數(shù)據(jù)集(有3個(gè)類)、Iris數(shù)據(jù)集(3個(gè)類)和Yeast數(shù)據(jù)集(10個(gè)類).結(jié)果如表6和表7所示.實(shí)驗(yàn)結(jié)果與表2~表5的一樣,唯一不同的是,算法BOOT在多類問(wèn)題中不太穩(wěn)定,這可能是由于解鞋帶重抽樣方法的不穩(wěn)定性造成的.

        表6 均值置信區(qū)間平均長(zhǎng)度及覆蓋率比較

        表7 分布函數(shù)置信區(qū)間平均長(zhǎng)度及覆蓋率比較

        4 結(jié) 論

        由于理論保證,經(jīng)驗(yàn)似然方法在3種實(shí)驗(yàn)比較中都優(yōu)于解鞋帶重抽樣方法.這是因?yàn)?雖然經(jīng)驗(yàn)似然方法的實(shí)驗(yàn)結(jié)果顯示了較短的置信區(qū)間,但卻具有更高的覆蓋率.

        參考文獻(xiàn):

        [1]Huang Huijing,Qin Yongsong,Zhu Xiaofeng,et al.Difference Detection between Two Contrast Sets[M].Berlin:Springer,2006:481-490.

        [2]Bay S D,Pazzani M J.Characterizing Model Errors and Differences[C]// Proceedings of the Seventeenth International Conference on Machine Learning.New York:ACM,2000:49-56.

        [3]Bay S D,Pazzani M J.Detecting Change in Categorical Data:Mining Contrast Sets[C]// Proceedings of the Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM,1999:302-306.

        [4]Au W H,Chan K C C.Mining changes in association rules:a fuzzy approach[J].Fuzzy Sets and Systems,2005,149(1):87-104.

        [5]Bay S D,Pazzani M J.Detecting Group Differences:Mining Contrast Sets[J].Data Mining and Knowledge Discovery,2001,5(3):213-246.

        [6]Webb G I,Butler S M,Newlands D A.On detecting differences between groups[C]//Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM,2003:256-265.

        [7]Cong Gao,Liu Bing.Speed-up Iterative Frequent Itemset Mining with Constraint Changes[C]//Proceedings of the International Conference on Data Mining.New York:IEEE,2002:107-114.

        [8]Liu Bing,Hsu W,Han H S,et al.Mining Changes for Real-Life Applications[M].Berlin:Springer,2000:337-346.

        [9]Wang Ke,Zhou Senqiang,Fu C A,et al.Mining Changes of Classification by Correspondence Tracing[C]//SIAMDM ’03,SIAM International Conference on Data Mining.San Francisco:SIAM,2003.

        [10]Lakshminarayan K,Harp S A,Samad T.Imputation of missing data in industrial databases[J].Applied Intelligence,1999,11(3):259-275.

        [11]Zhang Shichao.Detecting Differences between Contrast Groups[J].IEEE Transactions on Information Technology in Biomedicine,2008,12(6):739-745.

        [12]Jing Bingyi.Two-sample empirical likelihood method[J].Statistics and Probability Letters,1995,24(4):315-319.

        [13]Qin Yongsong,Zhang Shichao.Empirical Likelihood Confidence Intervals for Differences between Two Datasets with Missing Data[J].Pattern Recognition Letters,2008,29(6):803-812.

        [14]Hall P,Martin M.On the bootstrap and two-sample problems[J].Austral J Statist,1988,30A(1):179-192.

        [15]Wang Qihua,Rao J N K.Empirical likelihood-based inference in linear models with missing data[J].Scand J Statist,2002,29(3):563-576.

        [16]Wang Qihua,Rao J N K.Empirical likelihood-based inference under imputation for missing response data[J].Ann Statist,2002,30(3):896-924.

        [17]Zhang Shichao,Member S,IEEE.Parimputation:From imputation and null-imputation to partially imputation[J].IEEE Intelligent Informatics Bulletin,2008,9(1):32-38.

        [18]Zhang Shichao.Shell-Neighbor method and its application in missing data imputation[EB/OL].(2010-02-20)[2010-02-28].http://www.springerlink.com/content/666244u672v6171v/.

        [19]Owen A.Empirical likelihood[M].New York:Chapman & Hall,2001.

        [20]Owen A.Data Squashing by Empirical Likelihood[J].Data Mining and Knowledge Discovery,2003,7(1):101-113.

        [21]Blake C,Merz C.UCI Repository of machine learning database[ED/OL].[2009-08-21].http://www.ics.uci.edu/~mlearn/MLResoesitory.html.

        [22]Cho Y B,Cho Y H,Kim S H.Mining changes in customer buying behavior for collaborative recommendations[J].Expert Systems with Applications,2005,28(2):359-369.

        [23]Ying A T T,Murphy G C,Raymond T N,et al.Predicting Source Code Changes by Mining Change History[J].IEEE Trans Software Eng,2004,30(9):574-586.

        [24]Little R,Rubin D.Statistical analysis with missing data[M].2nd ed.New York:John Wiley & Sons,2002.

        猜你喜歡
        組群置信區(qū)間數(shù)據(jù)挖掘
        定數(shù)截尾場(chǎng)合三參數(shù)pareto分布參數(shù)的最優(yōu)置信區(qū)間
        73個(gè)傳統(tǒng)建筑組群組團(tuán)出道!帶你活進(jìn)從前的慢時(shí)光
        p-范分布中參數(shù)的置信區(qū)間
        多個(gè)偏正態(tài)總體共同位置參數(shù)的Bootstrap置信區(qū)間
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        “組群”“妙比”“知人”:小學(xué)語(yǔ)文古詩(shī)群文閱讀的三個(gè)途徑
        列車定位中置信區(qū)間的確定方法
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        磁盤組群組及iSCSI Target設(shè)置
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        精品亚洲aⅴ在线观看| 精品亚洲国产成人av色哟哟| 男女性爽大片视频| 人人爽人人爽人人爽| 丁香婷婷色| 青青草绿色华人播放在线视频| 国产一区二区三区av天堂| 日韩精品久久久肉伦网站| 久久99国产亚洲高清观看韩国| 久久久精品国产视频在线| 亚洲一区二区三区视频免费看| 国产亚洲成av人片在线观黄桃| 丰满女人又爽又紧又丰满| 精品国产午夜久久久久九九| 日韩av一区二区不卡在线| 免费无码不卡视频在线观看| 曰本极品少妇videossexhd| 国产精品无码久久久久下载| 精品女厕偷拍视频一区二区区| 韩国三级在线观看久| 亚洲色偷拍区另类无码专区| 99热在线播放精品6| 少妇激情高潮视频网站| 蜜臀性色av免费| 在线中文字幕有码中文| 日本亚洲成人中文字幕| 日韩三级一区二区不卡| 国产特级毛片aaaaaa| 国产一区二区牛影视| 日韩产的人妻av在线网| 国产极品粉嫩福利姬萌白酱 | 丁香六月久久| 久久亚洲网站中文字幕| 亚洲精品www久久久久久| 在线精品免费观看| 国产伦精品一区二区三区在线| 日日碰日日摸日日澡视频播放 | 国产在线av一区二区| 亚洲精品夜夜夜妓女网| 热久久亚洲| 国产麻豆极品高清另类|