亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        不完備數(shù)據(jù)集的鄰域容差互信息選擇集成分類算法

        2024-03-24 03:10:40李麗紅董紅瑤劉文杰李寶霖
        南京大學學報(自然科學版) 2024年1期
        關(guān)鍵詞:分類信息

        李麗紅 ,董紅瑤 ,劉文杰 ,李寶霖 ,代 琪

        (1.華北理工大學理學院,唐山,063210;2.河北省數(shù)據(jù)科學與應(yīng)用重點實驗室,華北理工大學,唐山,063210;3.唐山市工程計算重點實驗室,華北理工大學,唐山,063210;4.華北理工大學人工智能學院,唐山,063210;5.中國石油大學(北京)自動化系,北京,102249;6.首鋼礦業(yè)公司職工子弟學校,唐山,064404)

        在大數(shù)據(jù)時代,數(shù)據(jù)具有不確定性、動態(tài)更新、不完備性等特點.其中,數(shù)據(jù)挖掘領(lǐng)域常用的UCI 數(shù)據(jù)庫中有40%左右的數(shù)據(jù)集是不完備的.針對不完備數(shù)據(jù)集的分類問題,可以通過簡單刪除法或者填充法將不完備數(shù)據(jù)集進行處理,再用完備的數(shù)據(jù)集做進一步的分類,但這種方法不能保證數(shù)據(jù)是否為隨機缺失,從而對分類精度產(chǎn)生影響[1].盡管近年來對不完備數(shù)據(jù)集的研究逐漸增多,但目前不完備數(shù)據(jù)集中的大部分分類算法是針對只含有離散屬性值的數(shù)據(jù)集設(shè)計的[2].然而,有一種常見的情況是數(shù)據(jù)集為既含有離散型屬性又含有連續(xù)型屬性的混合形式,如從商業(yè)、醫(yī)療、銀行、人口普查和生物科學中收集的數(shù)據(jù),都是混合型的.對于醫(yī)學數(shù)據(jù),除了血壓和血糖等連續(xù)型屬性外,還包括性別和是否對某種藥物過敏等離散型屬性,人口普查收入數(shù)據(jù)包括職業(yè)、教育水平和婚姻狀況等離散型屬性,以及年齡、工資和每周工作時間等連續(xù)型屬性.針對連續(xù)型屬性值通常采用離散化的計算方式將連續(xù)型數(shù)值直接轉(zhuǎn)化為離散型數(shù)值,這樣會帶來信息損失,從而影響分類準確率[3].所以學者提出了直接處理不完備混合型數(shù)據(jù)集的方式,如利用相容關(guān)系[4]、限制鄰域關(guān)系[5]和鄰域容差關(guān)系[6]等,不同的數(shù)據(jù)結(jié)構(gòu)采用不同的逼近機制和?;绞綐?gòu)建??臻g再進行下一步數(shù)據(jù)操作[7].對于不完備混合型信息系統(tǒng)的分類問題,為進一步提升其分類性能,將集成分類方法引入研究.

        目前針對不完備混合型信息系統(tǒng)的集成分類算法研究較少.Krause and Polikar[8]首次提出Learn+MF 集成算法處理不完備數(shù)據(jù)集的分類問題,子分類器在隨機特征子集上進行訓練,這種方法相對復雜,效率較低.因為集成分類算法針對不完備數(shù)據(jù)集的分類問題具有較好的冗余性而且適用性廣,它不會因為對數(shù)據(jù)集假設(shè)不當使最終構(gòu)建的模型產(chǎn)生偏差,而且可以充分利用數(shù)據(jù)集的信息,所以,用集成算法處理不完備數(shù)據(jù)集的問題相繼被提出[9].Chen et al[10]與呂靖和舒禮蓮[11]提出一種基于不完備數(shù)據(jù)集的不完備特征組合的集成框架,該方法不需要任何關(guān)于缺失數(shù)據(jù)的假設(shè),但沒有考慮不同特征子集重要程度的差異.在一般集成框架的基礎(chǔ)上,通過考慮特征重要度,提出了多粒度集成方法(Multi-Granularity Integration Method,MGNE)[12],然而,對于含有大量不完整樣本的數(shù)據(jù)集,該方法性能有待提高,同時,隨著缺失值數(shù)量的增加,這些算法非常耗時.為克服傳統(tǒng)集成學習技術(shù)的高計算成本的不足,集成剪枝是一種常見提升性能的方法[13-15].Yan et al[16]針對不完備數(shù)據(jù)集提出一種選擇性神經(jīng)網(wǎng)絡(luò)集成分類算法,與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)集成算法在保證精度的前提下相比,提高了算法效率.并且針對不完備混合數(shù)據(jù)集的分類問題,傳統(tǒng)的集成分類算法在賦予各個子分類器權(quán)重時,僅考慮數(shù)據(jù)集中所含樣本的多少和屬性的維數(shù),并沒有考慮不同屬性或?qū)傩越M合對最終分類結(jié)果的貢獻度.因此,如何有效地衡量不完備混合系統(tǒng)中屬性對分類結(jié)果的貢獻度,從而更加合理地計算基分類的權(quán)重提高分類的準確率有待進一步完善和解決.

        針對上述問題,根據(jù)當前利用集成分類算法和粗糙粒化思想處理不完備混合數(shù)據(jù)的不足及優(yōu)勢,本文提出基于鄰域容差互信息的選擇集成分類算法(Neighborhood Tolerance Mutual Information Selection Ensemble Classification Algorithm,NTMISECA).首先定義鄰域容差互信息,并詳細描述基于鄰域容差互信息選擇集成分類算法的思想和步驟,然后介紹驗證該算法采用的實驗數(shù)據(jù)的詳細信息與仿真環(huán)境,最后對實驗結(jié)果進行討論和總結(jié)以及闡述未來研究的工作重點.

        1 基本原理

        1.1 不完備混合型信息系統(tǒng)

        定義1[17]設(shè)一個混合型信息系統(tǒng)為S=(U,A).其中,U為信息系統(tǒng)的論域,A=C∪D稱為信息系統(tǒng)的屬性集合,C=Cd∪Cc稱為信息系統(tǒng)的條件屬性集合,D稱為信息系統(tǒng)的決策屬性集合.這里的Cd為條件屬性值是離散型數(shù)值,Cc為條件屬性值是連續(xù)型數(shù)值.

        若?x∈U,x在屬性a(a∈A)上的取值未知,通常用“*”表示,即a(x)=*,那么此時S稱為不完備混合型信息系統(tǒng).

        1.2 粒計算粒計算主要目的在于通過對問題的粒化分解,使復雜問題得以簡單處理,體現(xiàn)問題處理的多維度、多視角、多層次的思想[18].通過研究粒的產(chǎn)生、粒的性質(zhì)以及粒化方式,提出數(shù)據(jù)處理的數(shù)學方法,支撐模型的建立,實現(xiàn)計算機程序化處理.

        一個本質(zhì)性問題是基于粒計算理論對信息進行粒化,不同的粒化方法可以獲得不同的粒層信息,??臻g的結(jié)構(gòu)直接決定目標的求解效率.常用的?;椒ㄒ罁?jù)二元關(guān)系,如等價關(guān)系、相似關(guān)系、領(lǐng)域關(guān)系、優(yōu)勢關(guān)系等,同一類樣本分配到同一個信息粒中[19-23].一般地,存在兩類造粒過程,如功能造粒和關(guān)系造粒.如果該構(gòu)造過程完全基于樣本屬性,稱為功能?;?;如果?;^程基于樣本之間的關(guān)系,稱為關(guān)系?;?在粒化過程中,若給定多個不同的?;?guī)則,從多角度、多層次可以得到各不相同的粒層.本文針對不完備混合數(shù)據(jù)集,利用鄰域容差關(guān)系對數(shù)據(jù)集?;幚?

        定義2[24](鄰域容差關(guān)系)設(shè)S=(U,A)為不完備混合型信息系統(tǒng),A=C∪D,設(shè)B?C為屬性子集,且B=Bd∪Bc.其中,Bd表示屬性子集中屬性值為離散值,Bc表示屬性子集中屬性值為連續(xù)值.設(shè)鄰域為δ,則在不完備混合信息系統(tǒng)S下,根據(jù)屬性子集B確定的鄰域容差關(guān)系為:

        其中,Δa(x,y)和Δb(x,y)分別表示對于離散屬性和連續(xù)屬性對象x與對象y之間的距離度量.那么對于?x∈U,關(guān)于的鄰域類定義如下.

        1.3 信息論Shannon[25]首次在通信領(lǐng)域提出信息熵的概念,來衡量一個給定的隨機事件所包含信息量的大小.信息熵常被用來作為一個系統(tǒng)信息量的量化指標和屬性的分辨力,也是信息系統(tǒng)中相關(guān)性度量的一種常見手段.

        互信息是信息論中一種有用的信息度量,可以用來直接衡量兩個變量之間擁有多少相同的信息量.它可以看成一個隨機變量包含另一個隨機變量的信息量,也可以看成一個隨機變量確定的情況下另一個隨機變量減少的不確定性.

        定義3(互信息)若有隨機變量X和隨機變量Y,隨機變量X和隨機變量Y之間的互信息I(X,Y)表示如下:

        其中,H(X),H(Y),H(X,Y)分別表示變量X的信息熵、變量Y的信息熵、變量X和Y的聯(lián)合信息熵.

        若兩個隨機變量之間的互信息越大,則說明擁有的共同信息越多.反之,這兩個隨機變量之間擁有的共同信息越少.如果有多個隨機變量X1,X2,…,Xn和隨機變量Y,那么這組隨機變量集合與隨機變量Y之間的互信息定義為:

        其中,H(X1,X2,…,Xn),H(Y),H(X1,X2,…,Xn,Y)分別為變量X1,X2,…,Xn的聯(lián)合熵,變量Y的信息熵,變量X1,X2,…,Xn,Y的聯(lián)合熵.

        定義4[24](鄰域容差信息熵)給定不完備混合型信息系統(tǒng)S=(U,A),B?A,鄰域半徑為δ,且定義B的鄰域容差信息熵為:

        定義5[24](鄰域容差聯(lián)合熵)給定S=(U,A)為不完備混合型信息系統(tǒng),A=C∪D,B1,B2?C,設(shè)鄰域半徑為δ,并 且則B1和B2的鄰域容差聯(lián)合熵記為:

        如果設(shè)U/NTD={NTD(x1),NTD(x2),…,NTD(x|U|)},對于任意B?C,D和B的鄰域容差聯(lián)合熵記為:

        1.4 集成學習目前,一般認為集成學習的研究始于1990 年,Hansen 和Salamon 首次提出用神經(jīng)網(wǎng)絡(luò)作為基分類器進行集成,使用該方法可以簡單地通過訓練多個神經(jīng)網(wǎng)絡(luò)將其結(jié)果進行結(jié)合,從而對比單個神經(jīng)網(wǎng)絡(luò)算法能顯著提高學習系統(tǒng)的泛化能力[23].在Hansen 和Salamon 之后集成學習得到了廣泛的研究.

        與采用單個學習器的機器學習方法不同,集成學習方法通過訓練多個基學習器,并將訓練結(jié)果結(jié)合考慮來解決一個問題.通常集成學習也稱為多分類器系統(tǒng)或基于委員會的學習.一個集成系統(tǒng)由多個基學習器構(gòu)成,而基學習器由基學習算法在訓練數(shù)據(jù)上訓練獲得,如神經(jīng)網(wǎng)絡(luò)、決策樹、樸素貝葉斯或其他學習算法.雖然傳統(tǒng)基分類器的種類繁多,但其分類精度有待提高且容易出現(xiàn)過擬合等.故集成學習方法很受關(guān)注.通常,集成學習具有比基學習器更高的預(yù)測準確率及更強的泛化能力[6].圖1 表示一個通用的集成學習框架.

        圖1 一個通用的集成學習框架Fig.1 A general purpose integrated learning framework

        2 基于鄰域容差互信息的選擇集成分類算法

        2.1 問題提出互信息可以衡量兩個離散變量之間擁有相同信息量的差異程度,同樣可以度量離散屬性集X與離散屬性集Y之間的相關(guān)程度.與條件熵不同的是,屬性集X與屬性集Y的互信息越大表明其相關(guān)性越大,反之,屬性集X與屬性集Y的互信息越小表明其相關(guān)性越小.對于既含有離散型屬性又含有連續(xù)型屬性的不完備混合型信息系統(tǒng),引入鄰域容差關(guān)系,將鄰域容差關(guān)系和互信息結(jié)合,定義鄰域容差互信息的概念來衡量不同屬性或?qū)傩越M合與類別屬性之間擁有共同信息量的多少,為使最終的加權(quán)投票結(jié)果更加合理,改進基分類器的預(yù)測權(quán)重,提出基于鄰域容差互信息的選擇集成分類算法.

        2.2 算法思想類比鄰域容差條件熵的相關(guān)理論,給出鄰域容差互信息的相關(guān)定義.

        證明根據(jù)定義4 得:

        定義7(鄰域容差互信息)設(shè)U/NTD={NTD(x1),NTD(x2),…,NTD(x|U|)},對于任意B?C,D和B的鄰域容差互信息記為:

        證明若B1?B2,則NTB2(xi)?NTB1(xi).那么,

        對于不完備混合型信息系統(tǒng),鄰域容差互信息可以用來衡量兩個變量X和Y之間共同擁有信息量的多少.若變量X和變量Y之間鄰域容差互信息越小,那么變量X和變量Y所包含的共同信息越少.極端情況下,當變量X和變量Y之間的鄰域容差互信息為0 時,則說明這兩個變量是獨立的,彼此之間沒有任何共同信息.若變量X和變量Y之間的鄰域容差互信息越大,那么變量X和變量Y所包含的共同信息越多,此時變量X和變量Y關(guān)系密切,其中一個變量變化會對另一個變量產(chǎn)生較大影響.

        同樣,如果類別屬性對于條件屬性的鄰域容差互信息越大,那么它們的相關(guān)程度越大,則它們之間一一映射的程度越高.反之,類別屬性和條件屬性的鄰域容差互信息越小,就有理由認為它們之間近似一一映射的程度很低,則說明條件屬性和類別屬性之間的相關(guān)程度較小.特別地,如果條件屬性和類別屬性之間的鄰域容差互信息為0,表明條件屬性即便存在,也無法對最終類別的預(yù)測提供任何有效信息.

        所以針對不完備混合型信息系統(tǒng)的分類問題,對于既含有缺失的離散型屬性又含有缺失的連續(xù)型屬性的樣本可以通過引入鄰域容差關(guān)系進行處理,結(jié)合互信息理論,定義鄰域容差互信息來衡量條件屬性對于類別屬性的重要度,再利用?;枷牒图煞诸愃惴ㄌ岢龌卩徲蛉莶罨バ畔⒌倪x擇集成分類算法.

        利用鄰域容差互信息衡量缺失屬性對決策分類結(jié)果的貢獻度,在一個完整的數(shù)據(jù)集上計算缺失屬性與類別屬性的鄰域容差互信息,屬性對類別的貢獻程度越大,其作為條件的鄰域容差互信息越大;對決策分類結(jié)果的貢獻度越小,作為條件的鄰域容差互信息越小.使用鄰域容差互信息、信息粒大小和基分類器的預(yù)測準確率來衡量由此信息粒構(gòu)建的分類器的權(quán)重,比僅使用屬性維數(shù)來衡量基分類器預(yù)測的權(quán)重更加科學,定義的權(quán)重公式如下:

        其中,wi為第i個基分類器的預(yù)測賦予的權(quán)值,acci表示第i個基分類器的準確率,|Grai|表示第i個信息粒的大小,NTIi表示第i個信息粒的缺失屬性集合對應(yīng)類別屬性的鄰域容差互信息.

        2.3 算法流程基于鄰域容差互信息的選擇集成分類訓練流程圖如圖2 所示.基于鄰域容差互信息的選擇集成分類算法具體步驟如下.

        圖2 基于鄰域容差互信息的選擇集成分類訓練流程圖Fig.2 Selective integrated classification training flow chart based on neighborhood tolerance mutual information

        步驟1.根據(jù)不完備混合型數(shù)據(jù)集中的缺失屬性對樣本進行?;幚恚窗褦?shù)據(jù)集中缺失屬性值相同的樣本劃分到同一信息粒,最終得到若干信息粒.

        步驟2.為了提高預(yù)測準確率,充分利用含有缺失屬性的數(shù)據(jù)信息,進行最大化信息粒.首先再次遍歷原始數(shù)據(jù)集,將那些信息粒不含有缺失屬性集以及含有缺失屬性集的信息粒的屬性集合包含在某個信息粒的屬性集合中時,把此類信息粒中包含的樣本的缺失屬性集設(shè)置為該信息粒的缺失屬性集,形成最大化信息粒.

        步驟3.首先根據(jù)定義劃分鄰域容差類,根據(jù)式(5)計算鄰域容差信息熵,根據(jù)式(7)計算鄰域容差聯(lián)合熵,最后以缺失屬性包括連續(xù)屬性和離散屬性作為已知條件,在完整的信息粒上根據(jù)式(10)計算基于類別屬性的鄰域容差互信息.

        步驟4.在各個最大化信息粒上,以非缺失屬性作為輸入,以BP 算法為基分類器的集成分類算法進行集成學習,得到若干個分類預(yù)測模型.

        步驟5.使用各個信息粒缺失屬性相應(yīng)的鄰域容差互信息、信息粒的大小和子分類器的精度,根據(jù)式(10)計算各個子分類器的權(quán)值.

        步驟6.進行預(yù)測.假設(shè)預(yù)測數(shù)據(jù)集中樣本的缺失屬性集是某個信息粒的缺失屬性集的子集,則可將該樣本與這些信息粒相對應(yīng)的屬性集作為對應(yīng)的子分類器的輸入,經(jīng)過訓練后得出該樣本在這些子分類器上的預(yù)測類別,然后再根據(jù)這些基分類器的分析結(jié)果,按照步驟5 的權(quán)值公式進行加權(quán)集成,得到最終預(yù)測結(jié)果.

        例給出不完備混合型數(shù)據(jù)集,如表1 所示,設(shè)置閾值δ為0.5(閾值過大或過小都會影響粒度的劃分.若閾值過大,劃分的粒會很粗;若閾值過小,會導致劃分的粒度較細,失去劃分粒層的意義,加大計算難度.合理閾值設(shè)置為0.4~0.6,所以選擇0.5 作為閾值).計算條件屬性集與類別屬性的鄰域容差互信息.

        表1 不完備混合型數(shù)據(jù)集Table 1 Incomplete mixed data set

        根據(jù)表中不完備混合數(shù)據(jù)集的定義以及缺失模式的定義,樣本x1,x4,x5無缺失值,樣本x2的缺失屬性為{a4},x3的缺失屬性為{a2,a3},x6的缺失屬性為{a3,a4}.

        按照缺失屬性進行劃分,則Granule={{x1,x4,x5},{x2},{x3},{x6}}.不含缺 失屬性,則X1={x1,x4,x5}.缺失屬性{a4},把不含缺失屬性的樣本去掉屬性a4,則X2={x1,x2,x4,x5}.缺失屬性{a2,a3},把不含缺失屬性的樣本去掉屬性a2,a3,則X3={x1,x3,x4,x5}.若缺失屬性{a3,a4},把不含缺失屬性的 樣本去掉屬 性a3,a4,把缺失屬性{a4}的樣本去掉屬性a3,則X4={x1,x2,x4,x5,x6}.

        首先根據(jù)決策屬性D劃分鄰域容差類:

        根據(jù)所有條件屬性C={a1,a2,a3,a4}劃分鄰域容差類:

        根據(jù)條件屬性a1劃分鄰域容差類:

        根據(jù)條件屬性a2劃分鄰域容差類:

        根據(jù)條件屬性a3劃分鄰域容差類:

        根據(jù)條件屬性a4劃分鄰域容差類:

        根據(jù)條件屬性a1和條件屬性a2劃分鄰域容差類:

        根據(jù)條件屬性a1和條件屬性a3劃分鄰域容差類:

        根據(jù)條件屬性a1和條件屬性a4劃分鄰域容差類:

        根據(jù)式(9)計算單個屬性的鄰域容差互信息:

        根據(jù)式(9)計算屬性集合的鄰域容差互信息:

        3 仿真實驗與性能分析

        基于Python 實現(xiàn)算法仿真,驗證所提算法的可行性和有效性.實驗設(shè)備的基本信息如下.系統(tǒng)環(huán)境:CPU Intel i7-10750H;RAM:18 GB;操作系統(tǒng):Windows 10 專業(yè)版;解釋器:Python 3.7.10.在3.1 中簡要介紹實驗使用的數(shù)據(jù)集和對比方法的基本信息.實驗結(jié)果在3.2 中給出并詳細分析實驗結(jié)果.3.3 給出非參數(shù)統(tǒng)計檢驗的實驗結(jié)果,驗證與對比算法之間的統(tǒng)計學差異.

        3.1 實驗設(shè)置從UCI 數(shù)據(jù)庫和愛數(shù)科公共數(shù)據(jù)庫中選取七個公開獲取的數(shù)據(jù)集進行實驗驗證,表2 為實驗數(shù)據(jù)集的詳細信息,其中有一個數(shù)據(jù)集只包含離散屬性,一個數(shù)據(jù)集只包含連續(xù)型數(shù)據(jù),三個數(shù)據(jù)集具有混合型屬性.此外,對于數(shù)據(jù) 集E-commerce transportation 和Shill Bidding,真實獲取的數(shù)據(jù)集為完備數(shù)據(jù)集,但為了驗證算法的可行性,通過從原始數(shù)據(jù)集中隨機選擇5%和10%的已知樣本特征值轉(zhuǎn)變?yōu)槿笔е担纬伤膫€人工不完備數(shù)據(jù)集.

        表2 數(shù)據(jù)集的詳細信息Table 2 Details of the data set

        為了降低由于數(shù)據(jù)劃分帶來的隨機性,采用十折交叉驗證的均值作為模型的最終得分.在所提方法中,采用BP 神經(jīng)網(wǎng)絡(luò)作為集成分類算法的基分類器,學習率為0.1,隱藏層神經(jīng)元個數(shù)為15,迭代訓練次數(shù)為15.本實驗使用的對比算法包括:極限梯度提升機(XGBoost)、隨機森林(RF)、梯度提升樹(GBDT)、自適應(yīng)Boosting(AdaBoost)和Stacking.需要注意的是,實驗使用的分類器均采用Scikit-learn 學習庫的默認參數(shù)進行實驗.

        3.2 實驗結(jié)果與分析

        表3 至表6 給出部分數(shù)據(jù)集通過實驗得到的以各個信息粒缺失屬性作為條件關(guān)于類別屬性的鄰域容差互信息,其中信息粒缺失屬性按照缺失屬性從少到多表示.當所有屬性都為離散型屬性時,鄰域容差關(guān)系即為容差關(guān)系,例如Mushroom數(shù)據(jù)集,不含有連續(xù)型屬性,此時閾值設(shè)為0,其缺失屬性為一個.

        表3 Housing loan 數(shù)據(jù)集缺失屬性的鄰域容差互信息Table 3 Neighborhood tolerance mutual information for missing attributes of Housing loan data set

        表4 Adult 數(shù)據(jù)集缺失屬性的鄰域容差互信息Table 4 Neighborhood tolerance mutual information for missing attributes of Adult data set

        表5 Credit 數(shù)據(jù)集缺失屬性的鄰域容差互信息Table 5 Neighborhood tolerance mutual information for missing attributes of Credit data set

        表6 Water quality 數(shù)據(jù)集缺失屬性的鄰域容差互信息Table 6 Neighborhood tolerance mutual information for missing attributes of Water quality data set

        由表3 至表6 可以看出,對于同一數(shù)據(jù)集信息粒中不同的缺失屬性集合作為條件的類別屬性的鄰域容差互信息是不同的,數(shù)據(jù)集中缺失屬性集合包含元素的數(shù)量與計算類別屬性的鄰域容差互信息是無關(guān)的.對于沒有缺失屬性的數(shù)據(jù)集,認為其丟失了一個與類屬性無關(guān)的條件屬性,則鄰域容差互信息為0.若以信息粒缺失屬性集合為條件的類別屬性的鄰域容差互信息較大,說明此缺失屬性集合對決策類別的貢獻率較大以及攜帶的信息量較大,對最終的決策類別較為重要.對于表3 的Housing loan 數(shù)據(jù)集,第二個屬性比第七個屬性鄰域容差互信息大,則認為第七個屬性對類屬性的影響更大,那么對于缺失第二個屬性的預(yù)測結(jié)果不如缺失第七個屬性的預(yù)測結(jié)果可信度高.根據(jù)實驗過程分析對于基分類器的預(yù)測準確率與信息粒包含樣本的多少是高度相關(guān)的,所以預(yù)測準確率出現(xiàn)很高或很低的情況.因此,在定義基分類器的權(quán)重時,充分考慮其鄰域容差條件熵,基分類器準確率以及信息粒的大小會更加合情合理,最終加權(quán)集成的分類器預(yù)測更加準確,構(gòu)建的集成分類算法也更具有普適性.

        對于處理不完備混合型數(shù)據(jù)的集成分類算法,最為典型的是XGBoost 算法,可以直接處理不完備數(shù)據(jù)集.由表7 的實驗結(jié)果可以看出,對于不完備混合型數(shù)據(jù)集的分類問題使用鄰域容差互信息選擇集成分類算法得到的分類結(jié)果的準確率普遍要高于傳統(tǒng)的XGBoost 算法的準確率,其中對于Housing loan數(shù)據(jù)集,用定義的權(quán)重公式(10)預(yù)測準確率比XGBoost 算法高6.1666%,但對于Adult 數(shù)據(jù)集,本節(jié)提出的算法預(yù)測準確率要高于XGBoost 算法,由于Adult 數(shù)據(jù)集缺失屬性較少,用插補法處理后使用隨機森林、GBDT、Ada-Boost、Stacking 算法預(yù)測準確率要高一些.對于其他數(shù)據(jù)集,本節(jié)提出的算法比傳統(tǒng)集成分類算法預(yù)測準確率也高,例如,對于Housing loan 數(shù)據(jù)集,準確率比GBDT 高9.9232%,對于Credit 數(shù)據(jù)集,準確率比AdaBoost 高6.0379%等.所以本節(jié)提出的基于鄰域容差互信息的選擇集成分類算法對于解決不完備混合型數(shù)據(jù)集的分類問題提供了新的思路,在公開的不完備混合數(shù)據(jù)集上的實驗結(jié)果證實了本節(jié)所提算法的有效性和可行性.

        表7 不同分類器預(yù)測不同數(shù)據(jù)集準確率的對比Table 7 The accuracy comparison of different classifiers prediciting different datasets

        3.3 非參數(shù)統(tǒng)計檢驗為了進一步驗證提出的NTMISECA 方法與其他對比方法之間的性能差異,使用Friedman 排名和Holm′s 事后檢驗方法,在所有實驗數(shù)據(jù)集上,驗證模型之間的統(tǒng)計學差異,結(jié)果如表8 所示.

        表8 所有分類器的Friedman 排名和事后檢驗結(jié)果Table 8 Friedman rankings and postmortem results for all classifiers

        根據(jù)表8 的非參數(shù)統(tǒng)計結(jié)果,可以發(fā)現(xiàn)提出的方法的Friedman 排名明顯優(yōu)于其他分類方法.但是,根據(jù)常用的顯著性差異度量標準(p<0.05),提出的方法與使用的對比方法不存在顯著的統(tǒng)計學差異,即提出的方法在所有數(shù)據(jù)集上的性能與對比方法是相近的,差異并不明顯.

        在實驗使用的對比集成學習方法中,均使用決策樹作為模型的基分類器,而在提出的NTMISECA 方法中,使用神經(jīng)網(wǎng)絡(luò)作為基分類器.神經(jīng)網(wǎng)絡(luò)是一種適用性很強的分類方法,適用于大部分數(shù)據(jù)集,但是,神經(jīng)網(wǎng)絡(luò)對模型的參數(shù)很敏感,可以使用經(jīng)典的參數(shù)優(yōu)化方法或搜索方法選擇最優(yōu)的參數(shù).此外,在基分類器的參數(shù)調(diào)整方面與使用決策樹的模型仍然存在差距.然而,提出的NTMISECA 是一種基于粒計算的集成學習框架,其基分類器可以根據(jù)實際需要調(diào)整.因此,也可以使用單一弱分類器或弱集成學習方法,從而有效地提高提出的方法的分類性能和泛化能力.

        4 結(jié)論

        本章根據(jù)粒計算的基本思想,利用集成學習的優(yōu)勢,將鄰域容差理論和互信息理論結(jié)合,提出一種解決不完備混合型信息系統(tǒng)的分類問題的集成算法,即基于鄰域容差互信息的選擇集成分類算法.利用傳統(tǒng)集成算法對不完備數(shù)據(jù)集進行分類在權(quán)衡各個基分類器的權(quán)重時僅考慮數(shù)據(jù)的維度和屬性的多少是不夠科學的,不同的屬性對類別的貢獻程度也是不一樣的,所以提出鄰域容差互信息的概念來衡量.然后根據(jù)粒計算的思想按照缺失屬性將數(shù)據(jù)集劃分為不同的信息粒,為充分利用數(shù)據(jù)信息,將信息粒最大化,并用集成算法訓練出基分類器,利用信息粒的大小、鄰域容差互信息和基分類器預(yù)測準確率來定義基分類器的權(quán)重,再次實現(xiàn)加權(quán)集成投票.實驗表明該算法普遍比傳統(tǒng)的集成分類算法預(yù)測準確率高.

        本文所選用數(shù)據(jù)集全部為靜態(tài)數(shù)據(jù)集,對于動態(tài)不完備混合型數(shù)據(jù)集如何設(shè)計集成分類算法,并且對于集成學習算法訓練時間會比較長,如何進一步減少預(yù)測時間,提升預(yù)測效率也是一個值得研究的問題.

        猜你喜歡
        分類信息
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        給塑料分分類吧
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        高清在线有码日韩中文字幕| 国产一级免费黄片无码AV| 色窝综合网| 深夜福利国产精品中文字幕| 无码人妻精品一区二区三区夜夜嗨| 波多野结衣乳巨码无在线| 国产精品区一区二区三在线播放| 中文字幕这里都是精品| 中国久久久一级特黄久久久| 蜜桃无码一区二区三区| 国产日产精品久久久久久| 国产少妇一区二区三区| 亚洲一区在线观看中文字幕| 无码人妻av一区二区三区蜜臀| 乱中年女人伦av三区| 国产午夜精品综合久久久| 优优人体大尺大尺无毒不卡| 国产人妻精品一区二区三区不卡 | 久久无码人妻丰满熟妇区毛片| 色伦专区97中文字幕| 2020久久精品亚洲热综合一本| 亚洲国产精品日韩av专区| 男人和女人做爽爽免费视频| 日韩精品无码久久一区二区三| 国产主播一区二区在线观看| 亚洲国产女性内射第一区二区| 久久精品欧美日韩精品| 国产精品主播视频| 亚洲国产av精品一区二| 又黄又爽又色视频| 丰满女人又爽又紧又丰满| 亚洲国产AⅤ精品一区二区久| 中文av字幕一区二区三区| 日韩人妻一区二区三区蜜桃视频 | 成熟妇女毛茸茸性视频| 午夜精品久久久久久毛片| 国产午夜精品理论片| 亚洲人妻精品一区二区三区| 久久精品国产99国产精偷| 天天做天天爱天天综合网| 日韩精品夜色二区91久久久 |