亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于容差計算的非完備信息系統(tǒng)屬性約簡算法

        2017-04-24 10:40:36
        計算機應用與軟件 2017年4期
        關鍵詞:決策表信息量約簡

        梁 寶 華

        (巢湖學院信息工程學院 安徽 合肥 238000)

        基于容差計算的非完備信息系統(tǒng)屬性約簡算法

        梁 寶 華

        (巢湖學院信息工程學院 安徽 合肥 238000)

        對于有缺損值的非完備信息系統(tǒng)約簡,多數(shù)算法利用容差關系求信息量,但此類算法需消耗大量時間計算容差,導致屬性約簡質(zhì)量、消耗的時間及空間復雜度均不理想。為了有效提高求容差類計算效率,引入一個與相容類信息量等價的計算公式。以此為基礎,提出一種屬性約簡算法,使時間復雜度降為O(|C|2|U|),空間降為O(|C||U|)。最后,通過實例和實驗分析并驗證了算法的有效性和可行性。

        粗糙集 屬性約簡 非完備信息系統(tǒng) 相容類

        0 引 言

        粗糙集理論[1-2]是由波蘭數(shù)學家Pawlak教授于1982年提出的,是一種處理不完全、不精確和模糊性數(shù)據(jù)的數(shù)學工具。屬性約簡是粗糙集理論研究的重要內(nèi)容之一,指在不影響原知識表達能力的情況下,通過消除冗余屬性的方法,從而獲得較簡潔的知識表達。經(jīng)典的粗糙集理論在完備信息系統(tǒng)中已有大量的研究,提出了基于正區(qū)域、基于差別矩陣、基于信息熵及啟發(fā)式屬性約簡算法[3-5,14-19]。然而在現(xiàn)實生活中,由于對數(shù)據(jù)的理解、獲取方法的限制等不可控因素,使得實際處理的數(shù)據(jù)是一個不完備信息系統(tǒng),即部分對象屬性值是未知的。這種數(shù)據(jù)缺失會影響粗糙集理論向?qū)嵱没较蛲茝V。

        為了解決不完備信息系統(tǒng)對粗糙集理論應用化的影響,研究者們利用相容關系[6]、相似關系等,給出一系列有效的屬性約簡算法,如文獻[7]給出了差別矩陣的二進制形式,文獻[8-10]提出相容關系相似矩陣并給出一種不完備決策表的屬性約簡算法。不完備決策表的屬性約簡算法多數(shù)以“信息量”[10]為啟發(fā)式信息,張等在文獻[11]中提出一些改進方法,經(jīng)研究發(fā)現(xiàn),文獻[11]存在大量重復掃描數(shù)據(jù)對象的不足。為了減少掃描數(shù)據(jù)的次數(shù),無需大量空間存儲相容類信息,本文根據(jù)相容類元素間的對稱性、自反性特征,提出一種快速計算相容信息量的方法,有效提高屬性約簡效率。最后通過實例及實驗驗證算法的有效性和正確性。

        1 相關概念

        設信息系統(tǒng)S=(U,A,V,f),其中U為論域,A=C∪D,P?C,C為條件屬性,D為決策屬性;V是屬性集A的值域;f是從屬性到值域的映射。

        定義1[5]若a∈C,且有f(x,a)=*(*為缺損值),則稱此信息系統(tǒng)是不完備的,否則稱為完備信息系統(tǒng)。

        定義2[6]由P決定的相容關系T為:

        T(P) ={(x,y)∈U×U|?a∈P,f(x,a)

        =f(y,a)∨f(x,a)=*∨f(y,a)=*}

        (1)

        由T(P)定義可得相容類定義為:

        TP(x)={y|y∈U∧TP(x,y)}

        (2)

        顯然,相容類TP(x)滿足自反性、對稱性。

        定義3[11]屬性集P?C的信息量定義為:

        (3)

        其中U={x1,x2,…,xn},|X|為集合X的基數(shù)。

        定義4[11]屬性集B關于決策屬性D的條件信息量定義為:

        I(B|D)=I(B∪D)-I(B)

        定義5[11]在不完備信息S中,屬性a∈P?C的重要度定義為:

        SigP(a)=I(P|D)-I((P∪{a})|D)

        (4)

        定義6[11]在非完備信息系統(tǒng)S中,屬性P是C關于D的一個約簡,則要同時滿足下述兩個條件:

        (1)I(P|D)=I(C|D)

        (2) ?a∈P?I((P-{a})|D)≠I(C|D)

        2 改進屬性約簡算法

        2.1 相容類計算分析

        在不完備信息系統(tǒng)的屬性約簡中,多數(shù)算法需計算信息量。由于計算方法的不當,消耗大量的時間和空間資源。如文獻[9]計算信息量的思想是將每一對象與其他|U|-1個對象進行比較,這樣若對屬性集P求信息量,有大量重復的計算,文獻[10]對其進行改進,時間大約只需文獻[9]同等條件下的一半。

        現(xiàn)通過實例說明如下,設有一不完備決策表,如表1所示。

        表1 不完備決策

        Ta1(1)={1,2,4,7}Ta1(2)={1,2,4,7}

        Ta1(3)={3,4,5,7}Ta1(4)={1,2,3,4,5,6,7,8}

        Ta1(5)={3,4,5,7}Ta1(6)={4, 6,7,8}

        Ta1(7)={1,2,3,4,5,6,7,8}Ta1(8)={4, 6,7,8}

        T{a1,a2}(1)={1,2,4,7}=T{a1,a2}(2)

        T{a1,a2}(3)={3,4,5,7}=T{a1,a2}(5)

        T{a1,a2}(4)={1,2,3,4,5,6,7,8}=T{a1,a2}(7)

        T{a1,a2}(6)={4, 6,7,8}=T{a1,a2}(8)

        T{a1,a2,a3}(1)={1,2}T{a1,a2,a3}(2)={1,2}

        T{a1,a2,a3}(3)={3,4,5,7} T{a1,a2,a3}(4)={3,4,5,7}

        T{a1,a2,a3}(5)={3,4,5,7}T{a1,a2,a3}(6)={6}

        T{a1,a2,a3}(7)={3,4,5,7}T{a1,a2,a3}(8)={8}

        根據(jù)以上計算相容類過程,發(fā)現(xiàn)計算相容類T(P)時,出現(xiàn)大量的重復比較, 可總結(jié)為以下幾點性質(zhì):

        性質(zhì)1TP(x)中所有對象在屬性集上取值均屬于不可區(qū)分對象。

        證明:TP(x)中所有元素均為與x樣本在屬性P的取值相等,即x與TP(x)中所有其他元素在屬性P上不可區(qū)分,證畢。

        性質(zhì)2TP(x)?TP∪ai(x),ai∈C-P

        證明:對于?y∈TP∪ai(x),根據(jù)相容類定義可知,y與TP∪ai(x)中的所有元素無不可區(qū)分,由于P?(P∪ai),所以,y與TP(x)上所有元素也均不可區(qū)分,即y∈TP(x),因為y具有任意性,TP(x)?TP∪ai(x),證畢。

        性質(zhì)3 若|U/ai|=1或|U/ai|=2且對象在屬性ai上取值有*的,則TP(x)=TP∪ai(x)。

        證明:因為|U/ai|=1,即所有樣本在屬性ai上取值相同,即Tai(x)=U。對于?y∈TP(x),有y與TP(x)中所有元素在屬性P均不可區(qū)分。所以必有y在屬性P∪ai都不可區(qū)分,即,y∈TP∪ai(x)。因為y具有任意性,所以得到若|U/ai|=1且?y∈TP(x)時,y∈TP∪ai(x),即TP(x)?TP∪ai(x)。又由性質(zhì)2可得TP(x)?TP∪ai(x),所以得TP(x)=TP∪ai(x)。|U/ai|=2且在屬性ai上取值有缺損值,由于缺損值與其他所有樣本在ai上均不可區(qū)分,所以等價于|U/ai|=1的情況,證畢。

        2.2 改進相容類計算方法

        由于相容類具有自反性、對稱性,所以信息量計算時,存在大量的重復性計算,為了避免這一現(xiàn)象的發(fā)生,現(xiàn)定義信息量Inf(P)如下:

        信息量計算分析如下:

        (5)

        性質(zhì)4Inf(P)與定義3I(P)信息是等價的。

        (6)

        算法1 改進相容類計算:Inf(P∪ai)且ai∈C-P

        輸入:不完備信息表S=(U,A,V,f),Inf(P),ai

        //在相容類計算過程中,U不斷剪枝成U′

        輸出:Inf(P∪ai)

        intInfP( )

        {

        sum= 0;

        將所有樣本按屬性P進行劃分;

        {

        else

        deleteU/PifromU

        }

        ifexistssubsetof*then

        returnsum;

        }

        2.3 新的屬性約簡算法

        定義7 在不完備信息系統(tǒng)S中,屬性P關于決策屬性D的條件信息量為:

        Inf(P|D)=Inf(P)-Inf(P∪D)

        (7)

        定義8 在不完備信息系統(tǒng)S中,屬性b關于屬性組B的重要程度為:

        (8)

        性質(zhì)5Inf(P)的值越大,區(qū)分能力越弱,當Inf(P)=0時,此時的P即為所求的屬性約簡集。

        算法2 新的屬性約簡算法

        輸入:U,C,D

        輸出:Core//屬性約簡集

        Step1 U=U′,Core=?,C′=C;

        Subset=?;SubsetD=?

        //Subset存儲U在條件屬性下的子劃分

        //SubsetD存儲U在決策屬性下的劃分;

        Step2 計算C′中每個條件屬性在決策屬性D下的條件信息量Inf(Ci∪Core|D),并選出最小的信息量對應的條件屬性Ck;

        Core=Core∪Ck

        Subset=U/Ck;SubsetD=U/Core∪D;

        C′=C-Ck;

        Step3 if (C′≠?∧Inf(Core|D)≠0)

        轉(zhuǎn)Step2;

        Step4 return Core

        3 實例與實驗分析

        3.1 屬性約簡實例

        以表1的數(shù)據(jù)為例,求U在各條件屬性上的劃分為:

        U/a4={{1,3,6,7,8},{2,4,5}}

        其中帶下劃線的一組為缺損值,所以各條件屬性的信息量分別為:

        同理,相對各條件屬性在決策屬性D下加細劃分分別為:

        U/(a4∪D)={{1,7},{2,4,5},{3,8},{6}}

        其對應的信息量為:

        Inf(a1∪D)=8,Inf(a2∪D)=11

        Inf(a3∪D)=7,Inf(a4∪D)=5

        則:

        由于a1與a4的值最小,所以區(qū)分能力最強,設選擇屬性a1加入Core中得Core={a1},舍棄基數(shù)為1的子劃分,所以Subset={{1,2},{3,5},{6,8},{4,7}},SubsetD={{1,2},{5},{4,7}}。繼續(xù)加入其他屬性并進行加細得:

        U/(Core∪{a3}∪D)={{1,2},{5,4,7}}

        U/(Core∪{a4}∪D)={{1,7},{2,4},{4,5}}

        3.2 實驗分析

        為了比較同類算法與本文算法的約簡效果,實驗使用的硬件配置為:Intel?CoreTMi7-4712MQ,CPU主頻2.30GHz,4GB內(nèi)存,軟件為Win7系統(tǒng)及VS2012平臺。實驗采用UCI數(shù)據(jù)庫中的9個數(shù)據(jù)集進行驗證,數(shù)據(jù)集分別為Post,Zoo,Hepatilis,AutoMPG,Dermatologh,Car,Chess,Mushroom,Nursery(為方便描述表格中分別用D1~D9表示),具體數(shù)據(jù)描述如表2所示,表2中的Data為各類數(shù)據(jù)集名稱,|U|為樣本數(shù),|C|為條件屬性數(shù),NO為分類數(shù),DataType為數(shù)據(jù)類型,Comp為是否完備性。

        表2 UCI數(shù)據(jù)集

        表3 三種算法約簡效果表

        續(xù)表3

        Data算法b算法cTimeSpaceRLbTimeSpaceRLcD10.01930.000980.01610.00098D20.02060.008350.01840.00835D30.18990.014560.18220.01456D40.29010.016250.20140.01625D50.21460.012170.17030.01217D60.40810.011560.38900.01156D71.88340.1227291.07520.122729D81.64280.180440.93150.18044D91.78530.102881.03230.10288

        (1) 從表3的實驗數(shù)據(jù)可以看出,以上三種算法在約簡質(zhì)量上,與常見約簡算法的結(jié)果相當,說明這種約簡算法是有效可行的。算法a對于數(shù)據(jù)集Zoo,Dermatologh,Chess約簡結(jié)果稍微有點偏差,很明顯算法b和算法c的約簡結(jié)果更具有準確性。

        (3)Post是非完備的,Zoo具有完備性,雖然Zoo的樣本多且屬性也多,由于Post是非完備數(shù)據(jù)集,對于那些缺損值增加了挖掘的干擾,對于算法a增加了信息量的計算,但對算法b、算法c的屬性重要性計算影響不大。所以,在進行約簡時數(shù)據(jù)集Post雖然比Zoo樣本數(shù)及屬性個數(shù)少,但約簡時卻與Zoo的相仿佛。

        (4) 從時間性能上看,算法b和算法c明顯優(yōu)于算法a,通過表3的運行時間長短可看出。算法b與算法c整體差不多,但算法c要略優(yōu)于算法b,因為算法b需計算正區(qū)域,所以要浪費一定的時間,當然,隨著數(shù)據(jù)集樣本數(shù)及屬性數(shù)的增多,這段時間占整個約簡的比例會越來越小。

        4 結(jié) 語

        [1]PawlakZ.Roughsettheoryanditsapplicationstodataanalysis[J].CyberneticsandSystems,1998,29(7):661-668.

        [2]PawlakZ,Grzymala-BusseJ,SlowinskiR,etal.Roughsets[J].CommunicationsoftheACM,1995,38(11):88-95.

        [3] 徐章艷,劉作鵬,楊炳儒,等.一個復雜度為max(O(|C||U|),O(|C|2|U/C|))的快速屬性約簡算法[J].計算機學報,2006,29(3):391-399.

        [4] 張文修,米據(jù)生,吳偉志.不協(xié)調(diào)目標信息系統(tǒng)的知識約簡[J].計算機學報,2003,26(1):12-18.

        [5] 王國胤,于洪,楊大春.基于條件信息熵的決策表約簡[J].計算機學報,2002,25(7):759-766.

        [6] 王國胤.不完備信息系統(tǒng)的粗糙集擴展[J].計算機研究與發(fā)展,2002,39(8):1238-1243.

        [7]McBrienP.Temporalconstraintsinnon-temporaldatamodellinglanguages[C]//27thInternationalConferenceonConceptualModeling,Barcelona,Spain,2008:412-425.

        [8]ZhouJ,XuE,LiY,etal.Anewattributereductionalgorithmdealingwiththeincompleteinformationsystem[C]//2009InternationalConferenceonCyber-EnabledDistributedComputingandKnowledgeDiscovery,2009:12-19.

        [9] 黃兵,周獻中,張蓉蓉.基于信息量的不完備信息系統(tǒng)屬性約簡[J].系統(tǒng)工程理論與實踐,2005,25(4):55-60.

        [10] 李艷紅,鄂旭,周津,等.信息量的不完備信息系統(tǒng)屬性約簡方法[J].小型微型計算機系統(tǒng),2012,33(3):641-645.

        [11] 張清國,鄭雪峰,張明德,等.信息量不完備決策表屬性約簡的一種新算法[J].計算機工程與應用,2010,46(2):19-21,33.

        [12] 謝娟英,李楠,喬子芮.基于領域粗糙集的不完整決策系統(tǒng)特征選擇算法[J].南京大學學報(自然科學),2011,47(4):383-390.

        [13] 紀霞,李龍澍,齊平.基于屬性分辨度的不完備決策表屬性約簡算法[J].華南理工大學學報(自然科學版),2013,41(1):83-88.

        [14] 冀素琴,石洪波,呂亞麗.基于粒計算與區(qū)分能力的屬性約簡算法[J].模式識別與人工智能,2015,28(4):327-334.

        [15] 葛浩,李龍澍,楊傳健.基于相對分辨能力的屬性約簡算法[J].系統(tǒng)工程理論與實踐,2015,35(6):1595-1603.

        [16] 陳宸,趙軍.一種新的基于二進制分辨矩陣的屬性約簡方法[J].計算機應用與軟件,2013,30(9):123-127.

        [17] 馬垣.形式概念中的內(nèi)涵虧值及屬性約簡[J].模式識別與人工智能,2013,26(12):1096-1105.

        [18] 楊春林.基于信息熵的屬性約簡在多屬性決策中的應用[J].數(shù)學的實踐與認識,2013,43(3):97-102.

        [19] 王世強,張登福,畢篤彥,等.基于模糊粗糙集和蜂群算法的屬性約簡[J].中南大學學報(自然科學版),2013,44(1):172-178.

        ATTRIBUTE REDUCTION ALGORITHM FOR INCOMPLETE INFORMATION SYSTEM BASED ON TOLERANCE COMPUTATION

        Liang Baohua

        (InformationEngineeringInstitute,ChaohuUniversity,Hefei238000,Anhui,China)

        For incomplete information system reduction with defective values, most algorithms use the tolerance relation to compute the amount of information, but this kind of algorithm consumes a large amount of time computing tolerance, which leads to the quality of attribute reduction and the time and space complexity are not ideal. In order to improve the computation efficiency of the tolerance class effectively, a formula for calculating the equivalent information of the compatible class is introduced. Based on it, an attribute reduction algorithm is proposed, which reduces the time complexity to O(|C|2|U|)andreducesthespacetoO(|C||U|).Finally,theexamplesandexperimentalanalysisshowthattheproposedalgorithmisefficientandfeasible.

        Rough set Attribute reduction Incomplete information system Compatible class

        2016-03-30。安徽省省級質(zhì)量工程項目(2013tszy31);安徽省高等學校省級自然科學研究項目(KJ2013Z231)。梁寶華,副教授,主研領域:粗糙集,數(shù)據(jù)挖掘。

        TP

        ADOI:10.3969/j.issn.1000-386x.2017.04.051

        猜你喜歡
        決策表信息量約簡
        基于決策表相容度和屬性重要度的連續(xù)屬性離散化算法*
        基于二進制鏈表的粗糙集屬性約簡
        基于信息理論的交通信息量度量
        實值多變量維數(shù)約簡:綜述
        自動化學報(2018年2期)2018-04-12 05:46:01
        基于模糊貼近度的屬性約簡
        如何增加地方電視臺時政新聞的信息量
        新聞傳播(2016年11期)2016-07-10 12:04:01
        基于多尺度互信息量的數(shù)字視頻幀篡改檢測
        計算機工程(2015年4期)2015-07-05 08:29:20
        正反轉(zhuǎn)電機缺相保護功能的實現(xiàn)及決策表分析測試
        基于聯(lián)合熵和交互信息量的視頻篡改檢測
        一種改進的分布約簡與最大分布約簡求法
        河南科技(2014年7期)2014-02-27 14:11:29
        国产免费视频一区二区| 中文字幕乱码熟妇五十中出| 久久久久无码精品国产app| 女人夜夜春高潮爽a∨片| 国产成人丝袜网站在线看| 亚洲色图少妇熟女偷拍自拍| 中文一区二区三区无码视频| 美女视频永久黄网站免费观看国产 | 国产香港明星裸体xxxx视频| 久久99精品九九九久久婷婷 | 亚洲 精品 综合 精品 自拍| 欧美成人www免费全部网站| 亚洲av五月天天堂网| 蜜桃av中文字幕在线观看| 亚洲精品成人无限看| 久久天天躁狠狠躁夜夜躁2014| 激情内射亚州一区二区三区爱妻| 少妇人妻偷人精品无码视频| 久热香蕉av在线爽青青| 免费在线观看视频专区| 国内自拍偷国视频系列 | 另类专区欧美在线亚洲免费| av网站影片在线观看| 中文字幕一区二区三区日日骚| 无码人妻一区二区三区免费看| 亚洲精品乱码久久久久久蜜桃图片 | 校园春色综合久久精品中文字幕 | 无码一区久久久久久久绯色AV| 一区二区三区精品偷拍| 成人av在线久色播放| 国产人妻丰满熟妇嗷嗷叫| 激情五月天伊人久久| 一区二区三区国产亚洲网站| 91精品国产在热久久| 亚洲国产av精品一区二区蜜芽 | 亚洲国产av自拍一区| 久久久久人妻一区精品色欧美| 亚洲AⅤ永久无码精品AA| 女同久久精品国产99国产精| 视频一区视频二区自拍偷拍| 人妻av中文字幕久久|