亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于粗糙集的分布式集值數(shù)據(jù)屬性約簡

        2019-11-12 08:29:38黃思妤
        關鍵詞:集值決策表約簡

        胡 軍,黃思妤,邵 瑞

        (重慶郵電大學 計算智能重慶市重點實驗室,重慶 400065)

        0 引 言

        實際獲取的數(shù)據(jù)中,往往存在大量的冗余數(shù)據(jù)。因此,為了提高知識獲取的效率,需要對這些原始數(shù)據(jù)進行約簡。粗糙集是屬性約簡的重要方法。經(jīng)典的粗糙集一般用來處理完備的數(shù)據(jù),但在實際問題中,由于獲取手段的限制以及實際問題的需要,獲取到的數(shù)據(jù)很可能是不完備數(shù)據(jù),區(qū)間值數(shù)據(jù)或是集值數(shù)據(jù)。目前針對集值數(shù)據(jù)已有許多研究成果。文獻[1-3]從不完備信息系統(tǒng)的角度討論了集值信息系統(tǒng)的處理。文獻[4-5]定義了一種容差關系和最大容差類來劃分論域,并給出了獲取決策規(guī)則的方法。文獻[6]針對集值信息系統(tǒng)提出了一種優(yōu)勢關系和相應的屬性約簡算法。文獻[7]定義了一個模糊關系,可以用來衡量2個集值對象之間的相似程度。文獻[8]提出了一個δ優(yōu)勢關系和相應的粗糙集定義,并基于分辨矩陣給出了屬性約簡算法。文獻[9]提出了2種類型的模糊粗糙近似,并針對所提出的2種近似分別給出了相應的約簡方法。

        分布存儲是目前數(shù)據(jù)存儲的一種普遍形式,即數(shù)據(jù)存儲在網(wǎng)絡中的多個數(shù)據(jù)站點上。針對分布式數(shù)據(jù)的屬性約簡問題已有一些研究。文獻[10-11]針對垂直分布的數(shù)據(jù)給出了一種利用不一致對象來求解全局屬性核的算法,并通過并行計算條件信息熵來獲得近似約簡。文獻[12]運用基于優(yōu)勢關系的鄰域粗糙集理論提出了MapReduce下基于分辨矩陣的屬性約簡算法,該方法可以有效地約簡混合型大數(shù)據(jù)集里的冗余屬性。文獻[13]針對符號型數(shù)據(jù),定義了分布式?jīng)Q策信息系統(tǒng)下的粗糙集模型,并提出了一種基于正域的屬性約簡算法,文獻[14-15]在這一基礎之上,分別將該方法拓展到了連續(xù)值數(shù)據(jù)和不完備數(shù)據(jù)。但是,目前還沒有針對分布式集值數(shù)據(jù)的相關研究。

        本文主要研究分布式環(huán)境下集值決策信息系統(tǒng)的屬性約簡問題,給出了分布式集值決策信息系統(tǒng)的粗糙集模型,并提出了分布式集值決策信息系統(tǒng)下的屬性約簡算法,最后用實驗證明了提出方法的有效性。

        1 基本概念

        集值信息系統(tǒng)是指在一個信息系統(tǒng)中,屬性的值不唯一并且以集合的形式存在。對于集值的理解一般有2種語義:一種是合取語義,另一種是析取語義。本文主要研究在析取語義背景下的情況。

        定義1S=(U,C∪D,V,F)是一個集值決策信息系統(tǒng),對于?b∈C,x,y∈U,x和y之間的相似度定義為

        (1)

        從概率的角度出發(fā),μb(x,y)描述了x和y取相同值的概率。對于B?C,x和y在屬性B下的相似關系RB定義為

        (2)

        可以證明,RB具有自反性和對稱性。

        定義2S=(U,C∪D,V,F)是一個集值決策信息系統(tǒng),對于B?C,x∈U,x相對于B的δ-相似類定義為

        δB(x)={y∈U|μRB(x,y)≥δ}(0≤δ≤1)

        (3)

        (3)式中,δ是一個閾值。可以通過δ來調節(jié)通過屬性子集B所得到的信息粒度。具體地,δ越大,信息粒度越小;δ越小,信息粒度越大。

        (4)

        設U/D={d1,d2,…,dm}是論域上的劃分,那么D相對于B的正域為

        (5)

        根據(jù)此定義,正域是在給定的條件屬性下,論域里所有可以被確定分類的對象集合,它代表了系統(tǒng)的確定分類能力。

        2 分布式集值決策信息系統(tǒng)下的粗糙集模型

        設Δ={S1,S2,…,Sn}是一個分布式集值決策信息系統(tǒng),其中,Si=(Ui,Ci∪D,V,F)表示1個子決策表,并且U1=U2=…=Un,Ci≠Cj(i≠j)。

        (6)

        D相對于B的正域為

        POSB(D)={x∈U|?Si∈Δ∧dj∈U/D(δBi(x)?dj)}

        3 分布式集值決策信息系統(tǒng)的屬性約簡

        下面將基于前面提出的分布式集值決策信息系統(tǒng)下的粗糙集模型來研究分布式集值決策信息系統(tǒng)的屬性約簡。

        定理2設Δ={S1,S2,…,Sn}是一個分布式集值決策信息系統(tǒng),Φ和Ψ是Δ的2個子集。如果Φ?Ψ,則有POSΦ(D)?POSΨ(D)。

        證明:可由定理1證得成立,故在此省略證明過程。

        根據(jù)定理2可知,如果在一個分布式集值決策信息系統(tǒng)Δ中添加一個新的子決策信息表,那么Δ的正域將會增大或者維持不變。相應地,如果在Δ中刪掉一個子決策信息表,這個時候正域則會減小或者維持不變。

        定義5設Δ={S1,S2,…,Sn}是一個分布式集值決策信息系統(tǒng),如果POSΔ-{Si}(D)=POSΔ(D)成立,那么在該分布式集值決策信息系統(tǒng)Δ中,子決策表Si相對于D是可約簡的。否則,子決策表Si是不可約簡的。

        定理3設Δ={S1,S2,…,Sn}是一個分布式集值決策信息系統(tǒng),如果POSCi(D)?POSΔ-{Si}(D)成立,那么子決策表Si是可約簡的。

        證明:根據(jù)上述定理1可以很容易得出POSΔ(D)=POSCi(D)∪POSΔ-{Si}(D),那么如果有POSCi(D)?POSΔ-{Si}(D)成立,則不難得出結論POSΔ(D)=POSΔ-{Si}(D),因此由定義5可知,子決策表Si是可約的。證得定理3成立。

        定理4設Δ={S1,S2,…,Sn}是一個分布式集值決策信息系統(tǒng),當且僅當?x∈U(x∈POSCi(D)∧x?POSΔ-{Si}(D))成立,子決策表Si相對于Δ不可約簡。

        定理5設Δ={S1,S2,…,Sn}是一個分布式集值決策信息系統(tǒng),a是子決策表Si的一個屬性。如果在子決策表中a相對于D是可約的,那么在該分布式集值決策信息系統(tǒng)Δ中,屬性a相對于D也是可約的。如果在子決策表中屬性a相對于D是不可約的,在Δ中,屬性a不一定是不可約的。

        證明:如果在子決策表Si中a相對于D是可約簡的,那么從子決策表Si中刪掉屬性a后其正域保持不變。根據(jù)定理1,Δ的正域也保持不變。即證得,在該分布式集值決策信息系統(tǒng)Δ中,屬性a相對于D是可約簡的。

        定義7設Δ={S1,S2,…,Sn}是一個分布式集值決策信息系統(tǒng),Θ={T1,T2,…,Tn}是Δ的一個子系統(tǒng),其中?Ti∈Θ(?Si∈Δ(Ti?Si))。當Θ是Δ相對于D的一個約簡時,需滿足的2個條件為

        ①POSΘ(D)=POSΔ(D)

        根據(jù)上述定義6和定義7可知,一個分布式集值決策信息系統(tǒng)Δ與其約簡子系統(tǒng)Θ具有相同的全局正域。刪掉約簡子系統(tǒng)中的任意條件屬性都會導致Θ的正域減小。下面給出分布式集值決策信息系統(tǒng)的屬性約簡算法。

        分布式集值決策信息系統(tǒng)屬性約簡算法

        輸入:Δ={S1,S2,…,Sn}

        輸出:約簡子系統(tǒng)Θ

        1:Θ=Δ

        2:for每一個子決策信息表Si∈Δdo

        3: for每一個條件屬性a∈Sido

        5: 從Θ刪掉屬性a

        6: end if

        7: end for

        8:end for

        對于一個給定的分布式集值決策信息系統(tǒng),屬性約簡算法首先選取其中的一個子決策信息表,并對該子決策信息表中的每一個屬性根據(jù)定義6進行可約性判定,如果可約則去掉該屬性,否則保留該屬性直至子決策信息中的所有屬性都判定完畢。然后,算法繼續(xù)選取其他子決策信息表進行同樣的操作,直至所有子決策信息表都操作完畢。最后,可以得到一個約簡的子系統(tǒng)。接下來通過一個實例來說明算法的執(zhí)行過程。

        例如表1,一個分布式集值決策信息系統(tǒng)Δ,該系統(tǒng)有2個子決策信息表,S1和S2。其中,S1有3個條件屬性,即C1={a1,a2,a3},S2有2個條件屬性,即C2={a4,a5}。則使用上述屬性約簡算法得到Δ的約簡子系統(tǒng)的過程為

        令δ=2/5:

        對于S1,有

        δC1(x1)={x1},δC1(x2)={x2,x3,x8},

        δC1(x3)={x2,x3,x4,x6,x8},

        δC1(x4)={x3,x4,x6},δC1(x5)={x5,x6},

        δC1(x6)={x3,x4,x5,x6},

        δC1(x7)={x7},δC1(x8)={x2,x3,x8},

        U/D={(x1,x7),(x3,x4),(x2,x5,x6,x8)},

        POSC1(D)={x1,x5,x6,x7}。

        對于S2,有

        δC2(x1)={x1,x2,x4,x7},

        δC2(x2)={x1,x2,x3,x4,x8},

        δC2(x3)={x2,x3,x4,x8},

        δC2(x4)={x1,x2,x3,x4,x7},

        δC2(x5)={x5,x6},

        δC2(x6)={x5,x6,x8},

        δC2(x7)={x1,x4,x7},

        δC2(x8)={x2,x3,x6,x8},

        POSC2(D)={x5,x6,x8}。

        表1 分布式集值決策信息系統(tǒng)

        由定理1可得

        POSC(D)=POSC1(D)∪POSC2(D)=

        {x1,x5,x6,x7,x8}。

        刪除屬性a1,對于S1,有

        δC1-{a1}(x1)={x1,x5,x6},

        δC1-{a1}(x2)={x2,x3,x8},

        δC1-{a1}(x3)={x2,x3,x4,x5,x6,x8},

        δC1-{a1}(x4)={x3,x4,x5,x6},

        δC1-{a1}(x5)={x1,x3,x4,x5,x6},

        δC1-{a1}(x6)={x1,x3,x4,x5,x6},

        δC1-{a1}(x7)={x7},

        δC1-{a1}(x8)={x2,x3,x8},

        POSC1-{a1}(D)={x7},POSC2(D)={x5,x6,x8},

        POSC-{a1}(D)=POSC1-{a1}(D)∪POSC2-{a1}(D)=

        {x5,x6,x7,x8}。

        由定理1可得

        POSC-{a1}(D)=POSC1-{a1}(D)∪POSC2-{a1}(D)=

        {x1,x2,x3,x5,x6,x7,x8}

        由此發(fā)現(xiàn),刪除屬性a1后全局正域發(fā)生了改變,因此可以推斷,屬性a1是不可約簡的。同理,依次對屬性a2,a3,a4和a5進行相應的判斷,最終可以得出a2和a5是不可約的,a3和a4是可約的。因此,最終可以得到一個約簡,約簡結果為{a1,a2,a5}。

        4 實驗結果與分析

        為了驗證本文所提出方法的有效性,實驗中首先運用分布式集值決策信息系統(tǒng)屬性約簡算法對系統(tǒng)進行屬性約簡,接著利用約簡后的系統(tǒng)來訓練分類器,最后通過集成來獲得分類的結果。所用的分類器是SVM(support vector machine), GBDT(gradient boosting decison tree), RF(random forest), NB(na?ve bayes)和LR(logistics regression),分類集成的方法是將不同分類器上樣本的同類別概率加權求和,確定概率最大的類別為該樣本的最終類別。

        實驗所用的5組數(shù)據(jù)集來自于UCI,數(shù)據(jù)集的具體信息如表2。為了模擬分布式集值決策信息系統(tǒng)且避免不同的屬性順序對結果的影響,實驗將每份數(shù)據(jù)集的條件屬性順序隨機打亂10次,并分別分割成2,3,4份來模擬具有2,3,4個數(shù)據(jù)站點的分布式集值決策信息系統(tǒng),即每份數(shù)據(jù)集進行10次實驗,最后將分類結果取平均值。

        表2 數(shù)據(jù)集

        圖1 約簡前后平均分類準確率(2個站點)Fig.1 Average classification accuracy before and after reduction (two sites)

        實驗中,數(shù)據(jù)集zoo, autism_adult_data, autistic_adolescent_data, cylinder_bands和extention_of_z_alizadeh_sani,對應2,3,4個站點所選取的閾值分別為0.24/0.24/0.24, 0.26/0.24/0.24, 0.26/0.24/0.24,0.26/0.26/0.26,0.24/0.24/0.24。

        1)2個站點。

        約簡后每個數(shù)據(jù)集最終剩余的平均屬性個數(shù)(四舍五入取整)如表3,屬性約簡前后集成的平均分類準確率如圖1。

        2)3個站點。

        約簡后每個數(shù)據(jù)集最終剩余的平均屬性個數(shù)(四舍五入取整)如表4,屬性約簡前后集成的平均分類準確率如圖2。

        表3 約簡后剩余平均屬性個數(shù)(2個站點)

        3)4個站點。

        約簡后每個數(shù)據(jù)集最終剩余的平均屬性個數(shù)(四舍五入取整)如表5,屬性約簡前后集成的平均分類準確率如圖3。

        表4 約簡后剩余平均屬性個數(shù)(3個站點)

        表5 約簡后剩余平均屬性個數(shù)(4個站點)

        從表3~表5可以看出,本文所提出的屬性約簡算法使得所有數(shù)據(jù)集都得到了一定程度的簡化。其中,對于分割成2個站點的數(shù)據(jù)集來說,extention_of_z_alizadeh_sani數(shù)據(jù)集約掉的屬性最多,相應的簡化程度最高;分割成3個站點的數(shù)據(jù)集中,cylinder_bands數(shù)據(jù)集約掉的屬性最多,得到的簡化程度最高;分割成4個站點的數(shù)據(jù)集中,extention_of_z_alizadeh_sani數(shù)據(jù)集約掉的屬性最多,得到的簡化程度最高。由圖1—圖3可以看出,所有數(shù)據(jù)集在約簡后的分類準確率相對于原始數(shù)據(jù)來說,其分類準確率基本保持不變,有的約簡后的數(shù)據(jù)集的分類準確率甚至更高。其中,數(shù)據(jù)集extention_of_z_alizadeh_sani的表現(xiàn)效果最好,該數(shù)據(jù)集在被分割成不同的站點時均能得到很高程度的簡化,且在所有分類器上幾乎都能得到比原始數(shù)據(jù)集更高的分類準確率,說明約簡去掉了原始數(shù)據(jù)集中冗余的甚至是具有干擾作用的屬性,從而提高了分類的準確率??傊疚奶岢龅尼槍Ψ植际郊禌Q策信息系統(tǒng)的屬性約簡算法,可以對系統(tǒng)進行一定程度的簡化,并且保持系統(tǒng)的分類能力基本不變。

        5 結 論

        為了簡化分布式集值決策信息系統(tǒng),同時保持它的分類能力不改變,本文給出了分布式集值決策信息系統(tǒng)下的粗糙集模型,并基于該模型提出了相應的屬性約簡算法。實驗結果表明,該方法可以有效地去除系統(tǒng)中的冗余屬性并且保持系統(tǒng)的分類能力基本不變,有效地解決了分布式集值數(shù)據(jù)的屬性約簡問題。該方法閾值的選取會對分類的準確率產生一定的影響,如何選取合適的閾值將是本文未來的研究工作。

        猜你喜歡
        集值決策表約簡
        基于決策表相容度和屬性重要度的連續(xù)屬性離散化算法*
        具有初邊值條件的集值脈沖微分方程的平均法
        基于二進制鏈表的粗糙集屬性約簡
        實值多變量維數(shù)約簡:綜述
        自動化學報(2018年2期)2018-04-12 05:46:01
        基于模糊貼近度的屬性約簡
        上半連續(xù)集值函數(shù)的區(qū)間迭代
        圖像面積有限的集值映射
        正反轉電機缺相保護功能的實現(xiàn)及決策表分析測試
        一種改進的分布約簡與最大分布約簡求法
        河南科技(2014年7期)2014-02-27 14:11:29
        不相容決策表求核方法
        久久久精品国产三级精品| 熟妇的荡欲色综合亚洲| 久久人妻公开中文字幕| 熟妇人妻av中文字幕老熟妇| 欧美在线不卡视频| 日本一区二区三深夜不卡| 亚洲国产精品中文字幕久久| 精品无码av一区二区三区| 亚洲色欲久久久综合网| 亚洲gv白嫩小受在线观看| AV熟妇导航网| 久久久精品国产三级精品| 欧美黑人又粗又大xxxx| 五月天激情婷婷婷久久| 免费观看久久精品日本视频| 日韩一区二区av伦理| 无码国内精品人妻少妇蜜桃视频| 久久久久久伊人高潮影院| 一区二区三区日本大片| 国产av精品一区二区三区不卡 | 日韩久久无码免费毛片软件| 亚洲日韩中文字幕一区| 国产老妇伦国产熟女老妇高清| 成人影院羞羞的视频免费观看| 国产成人综合日韩精品无码| 18无码粉嫩小泬无套在线观看| 久久久久亚洲AV片无码乐播| 全国一区二区三区女厕偷拍| 欧美丰满熟妇性xxxx| 亚洲一区二区三区偷拍女厕| 久久国产高潮流白浆免费观看| 99麻豆久久精品一区二区| 麻豆国产精品va在线观看不卡| 国产成人无码免费网站| 少妇熟女淫荡丰满| 日本一区二区在线免费看| 国产99久久久国产精品免费看| 欧美成人久久久免费播放| 伊人狼人影院在线视频| 成人久久久精品乱码一区二区三区| 日韩放荡少妇无码视频|