亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于沖突域的測試成本獨(dú)立決策系統(tǒng)屬性約簡

        2015-12-14 08:43:46向恒月楊思春王小林
        關(guān)鍵詞:約簡沖突權(quán)重

        向恒月,楊思春,王小林,王 雷

        (安徽工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽馬鞍山243032)

        基于沖突域的測試成本獨(dú)立決策系統(tǒng)屬性約簡

        向恒月,楊思春,王小林,王 雷

        (安徽工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽馬鞍山243032)

        針對決策系統(tǒng)存在沖突對象的情況,提出一個(gè)基于沖突域的λ-權(quán)重約簡的啟發(fā)式算法來降低屬性約簡的測試成本。首先對決策系統(tǒng)進(jìn)行簡化,將不一致對象的決策屬性值異類化,進(jìn)而刪除重復(fù)對象,然后對簡化后的決策系統(tǒng)根據(jù)沖突強(qiáng)弱計(jì)算出核屬性和屬性重要性,在此基礎(chǔ)上,利用啟發(fā)式函數(shù)來求解測試成本較低的屬性約簡,其中啟發(fā)式函數(shù)由屬性重要性和權(quán)重共同組成,權(quán)重由測試成本和非正參數(shù)λ決定。實(shí)驗(yàn)結(jié)果表明該方法在保證降低測試成本的同時(shí)加快處理效率。

        決策系統(tǒng);測試成本獨(dú)立;沖突域;屬性約簡

        在模式識別、數(shù)據(jù)挖掘中,屬性約簡是粗糙集領(lǐng)域特殊類型的特征選擇問題[1]。屬性約簡的目的是保留必要屬性,刪除冗余屬性,將隱含在數(shù)據(jù)中的知識用最簡決策規(guī)則表示出來,其核心步驟是分類。分類通常有兩個(gè)目標(biāo):降低測試成本;提高分類的準(zhǔn)確性。在很多應(yīng)用中,數(shù)據(jù)庫中的數(shù)據(jù)免費(fèi)可用,故目前有很多文獻(xiàn)研究分類準(zhǔn)確性這個(gè)問題,較有效的方法有:人工神經(jīng)網(wǎng)絡(luò)[2],貝葉斯網(wǎng)絡(luò)[3],決策樹[4-5],支持向量機(jī)[6]。另外一些應(yīng)用中的數(shù)據(jù)不免費(fèi)提供,每個(gè)數(shù)據(jù)項(xiàng)均有測試成本,因此需要用較低的測試成本獲得正確分類。然而現(xiàn)有對降低成本的研究較少,文獻(xiàn)[7]提出了一種以信息增益為基礎(chǔ)的λ-權(quán)重約簡算法,由測試成本和非正參數(shù)λ決定權(quán)重,研究結(jié)果表明利用競爭方法選擇一個(gè)合適的λ參數(shù)能顯著提高結(jié)果的質(zhì)量,但該研究沒有找到對任何數(shù)據(jù)庫均有效最優(yōu)的λ值。

        在數(shù)據(jù)收集過程中,數(shù)據(jù)不一致(沖突)是常見現(xiàn)象。文獻(xiàn)[8]針對決策表中對象沖突的情況,設(shè)計(jì)基于沖突域的高效屬性約簡算法。文獻(xiàn)[9]針對非完全不一致決策表將原決策表中不一致對象的決策屬性值異類化,再消除重復(fù)對象得到簡化決策表,再利用沖突域求解屬性約簡以提高屬性約簡算法的效率。文獻(xiàn)[7]設(shè)計(jì)了基于信息增益的λ-權(quán)重約簡算法,求出測試成本獨(dú)立決策系統(tǒng)的一個(gè)相對測試成本較低的屬性約簡,算法的時(shí)間復(fù)雜度為O(|U|2|C|3),空間復(fù)雜度為O(|U||C|)[7]。為進(jìn)一步提高測試成本獨(dú)立決策系統(tǒng)求屬性約簡的效率,本文對基于信息增益的λ-權(quán)重約簡方法進(jìn)行改進(jìn),提出了基于沖突域的λ-權(quán)重約簡方法。

        1 測試成本獨(dú)立決策系統(tǒng)

        1.1 基本概念

        定義1[10]一個(gè)決策系統(tǒng)S是一個(gè)5元組

        其中,U為論域,是對象的集合,U={x1,x2,…,xn};C為條件屬性集,D為決策屬性集;Va是屬性α∈C?D的值域;Ia為信息函數(shù) Ia∶U→Va,?α∈C?D,x∈U有Ia(x)∈Va不失一般性,也為了便于操作,假設(shè)D僅有一個(gè)決策屬性值。決策系統(tǒng)S中,若?xi,xj∈U(i≠j),有IC(xi)=IC(xj)∧ID(xi)≠ID(xj),則稱S為不一致決策系統(tǒng),xi與xj稱為不一致對象(或稱沖突對象),否則稱S為一致決策系統(tǒng)。

        定義2[10]一個(gè)測試成本獨(dú)立決策系統(tǒng)是一個(gè)6元組

        其中c∶C→R+?{0}是屬性的成本函數(shù)。

        通常測試成本是非負(fù)的(R+?{0}),條件屬性集的所有屬性的測試成本可以用一個(gè)向量表示c=[c(a1),c(a2),……,c(a|C|)]。由于λ-權(quán)重函數(shù)要求測試成本是非負(fù)值,不能取零,故文中規(guī)定:若有個(gè)別屬性的獲得不需要測試成本,仍然以一個(gè)很小的正值表示其測試成本。

        性質(zhì)1[10]設(shè)c*表示屬性子集的成本函數(shù),一個(gè)測試成本獨(dú)立決策系統(tǒng)有如下性質(zhì):(1)c*(?)=0;(2)c*({a})=c(a)?a∈C;(3)

        定義3在一個(gè)測試成本獨(dú)立決策系統(tǒng) S=(U,C,D,{Va|α∈C?D},{Ia|α∈C?D},c)中,新的決策系統(tǒng)S'=(U,C,D,{V'a|α∈C?D},{I'a|α∈C?D},c),滿足:

        其中Vξ表示不同于S中任何決策屬性的值。

        由定義3可知,決策系統(tǒng)S’是將原決策系統(tǒng)S中不一致對象的決策屬性值均異類化為Vξ。

        定義4在測試成本獨(dú)立決策系統(tǒng) S’=(U,C,D,{V’a|α∈C?D},{I'a|α∈C?D},c)中,設(shè)U/C={[x1]C,[x2]C,…,[xn]C},令U’={x1,x2,…,xn};則稱S*=(U’,C,D,{V’a|α∈C?D},{I’a|α∈C?D},c)為簡化決策系統(tǒng)。

        由定義4可知,S*是將S’中重復(fù)對象刪除后得到的決策系統(tǒng)。

        1.2 測試成本的設(shè)定

        帕雷托分布(Pareto distribution)產(chǎn)生的一組隨機(jī)數(shù)中包含許多小數(shù)值和少量大數(shù)值[11],所以用帕雷托分布來隨機(jī)產(chǎn)生測試成本更符合實(shí)際要求。

        為了使實(shí)驗(yàn)結(jié)果與文獻(xiàn)[7]具有可比性,本文將變量的取值設(shè)定與文獻(xiàn)[7]相同,變量?取2,p(M,N,x)的取值區(qū)間是(M,N+1),cp(N,N,x)的取值區(qū)間是[M,N],并設(shè)M=1,N=100。

        1.3 評估標(biāo)準(zhǔn)

        處理較低測試成本的屬性約簡問題有很多不同的算法,因此需要一個(gè)評估標(biāo)準(zhǔn)來比較不同算法的表現(xiàn),本文用找到最優(yōu)約簡的概率來作為評估標(biāo)準(zhǔn)。設(shè)總實(shí)驗(yàn)次數(shù)記為K,找到最優(yōu)約簡的次數(shù)記為k,找到最優(yōu)約簡的概率記為f=k/K。

        在實(shí)驗(yàn)部分,對同一個(gè)決策系統(tǒng)會(huì)產(chǎn)生不同的測試成本,也并非每次得到的約簡都是最優(yōu)約簡,因此用找到最優(yōu)約簡的概率既能定性又能定量的衡量一個(gè)算法的性能。

        2 基于沖突域的λ-權(quán)重約簡

        文獻(xiàn)[7]中是基于信息熵來獲得信息增益,在此基礎(chǔ)上給測試成本一個(gè)權(quán)重,共同構(gòu)成λ-權(quán)重函數(shù),在文獻(xiàn)[7]中的時(shí)間復(fù)雜度為O(|U|2|C|3),空間復(fù)雜度為O(|U||C|),顯然這個(gè)時(shí)間復(fù)雜度比較高,且基于信息熵設(shè)計(jì)屬性約簡算法通常只要求H(D|R)=H(D|C),并不要求?r∈R均有H(D|R-{r})≠H(D|C),只有要求這一點(diǎn)而設(shè)計(jì)的屬性約簡算法才通常稱為完備的屬性約簡[12]。為了保證算法的完備性,文獻(xiàn)[7]中的算法在最后加上了消除冗余屬性的檢查,這樣無疑增加了算法的執(zhí)行時(shí)間。

        2.1 啟發(fā)式函數(shù)的設(shè)計(jì)

        文獻(xiàn)[7]當(dāng)中核屬性的計(jì)算采用正區(qū)域方法,對象之間頻繁的比較運(yùn)算難以避免,但是利用沖突域的方法求核屬性,既可以避免這個(gè)問題,同時(shí)也避免了采用可分辨矩陣所需的大量空間和時(shí)間開銷。

        屬性集R關(guān)于決策屬性D的沖突域ConSet(R)的定義見文獻(xiàn)[8-9],這里不再詳細(xì)介紹。

        定義6|ConSet(R)|表示ConSet(R)中沖突對象的數(shù)目,如果|ConSet(R)|>|ConSet(P)|,則稱R相對D的沖突強(qiáng)度大于P相對D的沖突強(qiáng)度。

        定義7[8]屬性a的重要性sig(a,R,D)=|ConSet(R)|-|ConSet(R∪{a})|。

        為了求出測試成本獨(dú)立決策系統(tǒng)的一個(gè)較低測試成本的屬性約簡,給測試成本一個(gè)權(quán)重,啟發(fā)式函數(shù)離不開屬性重要性和測試成本這兩方面,因此本文的啟發(fā)式函數(shù)定義如下:

        定義8基于沖突域的λ-權(quán)重約簡的啟發(fā)式函數(shù)f(R,ai,ci)=(|ConSet(R)|-|ConSet(R∪{ai})|)ciλ。

        2.2 約簡過程

        求測試成本獨(dú)立決策系統(tǒng)的屬性約簡,其思路是先根據(jù)定義3和定義4將原決策系統(tǒng)進(jìn)行簡化,然后求出核屬性,再根據(jù)啟發(fā)式函數(shù)依次加入函數(shù)值大的屬性,直到得到較低測試成本的屬性約簡為止,最后對非核屬性進(jìn)行反向消除,以確保約簡的完備性。圖1是針對測試成本獨(dú)立決策系統(tǒng)求解測試成本較低的屬性約簡的流程圖。

        3 實(shí)驗(yàn)比較

        采用本文算法和UCI數(shù)據(jù)庫中4個(gè)數(shù)據(jù)集為實(shí)驗(yàn)數(shù)據(jù),對文獻(xiàn)[7]中的約簡算法和本文的約簡算法進(jìn)行測試(實(shí)驗(yàn)環(huán)境為T6600 2.2 GHz,內(nèi)存2 GB,eclipse3.6.1),通過f(R,ai,ci)=(|ConSet(R)|-|ConSet(R∪{ai})|)ciλ可知,當(dāng)λ=0時(shí),本文算法就是基于沖突域漸減的屬性約簡算法,沒有考慮測試成本。Patient數(shù)據(jù)集有8個(gè)條件屬性,表1是帕雷托分布(Pareto distribution)產(chǎn)生的10組測試成本,其他數(shù)據(jù)集測試成本就不一一例舉。測試均是每個(gè)數(shù)據(jù)集設(shè)定100個(gè)不同的測試成本,也就是每個(gè)數(shù)據(jù)集都是試驗(yàn)900次。文獻(xiàn)[7]中的約簡算法和本文的約簡算法的比較結(jié)果見表2。

        表1 Pareto分布產(chǎn)生的測試成本Tab.1 Test cost settings of Pareto distribution

        表2 兩個(gè)約簡算法的比較Tab.2 Comparison between the two reduction algorithms

        由表2可知,本文算法的執(zhí)行時(shí)間要低于文獻(xiàn)[7]中的算法,雖然兩種算法采用的啟發(fā)式算法都是先求解核屬性,但是文獻(xiàn)[7]在計(jì)算核屬性的時(shí)候用的是正區(qū)域的方法,對象之間頻繁的比較運(yùn)算會(huì)增加算法執(zhí)行的時(shí)間。

        本文設(shè)計(jì)的啟發(fā)式函數(shù),其中λ是唯一可由用戶設(shè)定的參數(shù),為了提高算法的性能,希望設(shè)置一個(gè)λ值,可以使得找到最優(yōu)約簡的概率最大。圖2是根據(jù)不同λ和找到最優(yōu)約簡的概率所畫出的折線圖。λ取0就是沒有權(quán)重函數(shù),沒有考慮測試成本,因?yàn)镻atient數(shù)據(jù)集僅有一個(gè)屬性約簡,所以不管λ取多少,這個(gè)僅有的約簡就是最優(yōu)約簡,所以找到最優(yōu)約簡的概率都是1.0,其他3個(gè)數(shù)據(jù)集會(huì)隨著λ的減小,找到最優(yōu)約簡的概率先上升后趨于平穩(wěn)。從圖2中可以看出當(dāng)λ取-1.25時(shí),這四個(gè)數(shù)據(jù)集的找到最優(yōu)約簡的概率最大。

        4 結(jié) 語

        降低測試成本是屬性約簡的一個(gè)新的研究趨勢,也有其潛在的應(yīng)用領(lǐng)域。已有的求測試成本較低的屬性約簡問題因?yàn)槭褂谜齾^(qū)域方法計(jì)算核屬性,使得算法的時(shí)間復(fù)雜度較高。為了降低時(shí)間復(fù)雜度,提高效率,本文對測試成本獨(dú)立決策系統(tǒng)的屬性約簡問題進(jìn)行了研究,針對決策系統(tǒng)存在沖突對象這一情況,先對決策表進(jìn)行簡化,然后提出一個(gè)基于沖突域的λ-權(quán)重約簡算法,根據(jù)沖突強(qiáng)弱計(jì)算核屬性和屬性重要性,避免正區(qū)域方法求核屬性時(shí)的頻繁比較運(yùn)算。最后,通過實(shí)驗(yàn)驗(yàn)證本文算法相對應(yīng)同類算法,有一定的優(yōu)越性。

        [1]Min F,Hu Q,Zhu W.Feature selection with test cost constraint[J].International Journal of Approximate Reasoning,2014,55(1): 167-179.

        [2]Hornik K,Stinchcombe M,White H.Multilayer feedforward networks are universal approximators[J].Neural Networks,1989, 2(5):359-366.

        [3]Domingos P,Pazzani M.On the optimality of the simple Bayesian classifier under zero-one loss[J].Machine Learning,1997, 29(2):103-130.

        [4]Quinlan J R.C4.5 Programs for Machine Learning[M].San Mateo,California:Morgan Kaufmann Publisher,1993:235-240.

        [5]Yi W,Lu M,Liu Z.Multi-valued attribute and multi-labeled data decision tree algorithm[J].International Journal of Machine Learning and Cybernetics,2011,2(2):67-74.

        [6]Vapnik V,Chervonenkis A.On the uniform convergence of relative frequencies of events to their probabilities[J].Theory of Probability and ItsApplication,1971,16(2):264-280.

        [7]Min F,He H,Qian Y,et al.Test-cost-sensitive attribute reduction[J].Information Sciences,2011,181(2):4928-4942.

        [8]葛浩,李龍澍,楊傳健.基于沖突域的高效屬性約簡算法[J].計(jì)算機(jī)學(xué)報(bào),2012,35(2):342-350.

        [9]葛浩,李龍澍,楊傳健.基于沖突域漸減的屬性約簡算法[J].系統(tǒng)工程理論與實(shí)踐,2013,33(9):2371-2380.

        10]Yao Y.Apartition model of granular computing[M]//Transactions on Rough Sets I.Springer Berlin Heidelberg,2004:232-253.

        [11]帕累托分布[Z/OL].(2013-03-09)[2014-09-20].http://site.douban.com/182577/widget/notes/10567181/note/265696846/.

        [12]徐章艷,侯偉,宋威,等.一個(gè)有效的基于信息熵的啟發(fā)式屬性約簡算法[J].小型微型計(jì)算機(jī)系統(tǒng),2009,30(9):1805-1810.

        責(zé)任編輯:丁吉海

        Attribute Reduction in Test-cost-independent Decision System Based on Conflict Region

        XIANG Hengyue,YANG Sichun,WANG Xiaolin,WANG Lei
        (School of Computer Science and Technology,Anhui University of Technology,Ma'anshan 243032,China)

        With pertinence to the conflict object existing in decision system,a heuristic algorithm based on conflict region λ-weighted reduction was proposed for the purpose of decreasing attribute reduction’s test cost.Firstly,decision system was simplified,decision attribute value of inconsistent object was paganized,and the duplicate objects were deleted.Then core attribute and attribution importance were calculated according to the conflict intensity on the simplified decision system,and based on these,using the heuristic function a lower test cost attribute reduction was solved,where the heuristic function was composed of attribution importance and weights,and weights were decided by test cost and a non-positive exponentλ.The experimental result shows that the method can reduce test cost and speed up processing efficiency.

        decision system;test-cost-independent;conflict region;attribute reduction

        TP391

        A

        10.3969/j.issn.1671-7872.2015.04.015

        2015-02-28

        安徽省高校自然科學(xué)研究重點(diǎn)項(xiàng)目(KJ2011A048);安徽工業(yè)大學(xué)研究生創(chuàng)新研究基金項(xiàng)目(2013080)

        向恒月(1990-),女,安徽合肥人,碩士生,主要研究方向?yàn)榇植诩?/p>

        楊思春(1970-),男,安徽六安人,博士,教授,主要研究方向?yàn)樽匀徽Z言處理、粗糙集、信息檢索和概念格。

        1671-7872(2015)-04-0378-05

        猜你喜歡
        約簡沖突權(quán)重
        耶路撒冷爆發(fā)大規(guī)模沖突
        “三宜”“三不宜”化解師生沖突
        井岡教育(2020年6期)2020-12-14 03:04:32
        權(quán)重常思“浮名輕”
        基于二進(jìn)制鏈表的粗糙集屬性約簡
        為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
        實(shí)值多變量維數(shù)約簡:綜述
        基于模糊貼近度的屬性約簡
        基于公約式權(quán)重的截短線性分組碼盲識別方法
        “鄰避沖突”的破解路徑
        浙江人大(2014年6期)2014-03-20 16:20:40
        層次分析法權(quán)重的計(jì)算:基于Lingo的數(shù)學(xué)模型
        河南科技(2014年15期)2014-02-27 14:12:51
        久久国产热精品波多野结衣av| 国产v片在线播放免费无码| 国产精品毛片一区二区| 亚洲成人福利在线观看| 国产人成在线成免费视频| 在线观看国产视频午夜| 午夜福利理论片在线观看| 亚洲深深色噜噜狠狠爱网站 | 日本一二三区免费在线| 久久精品亚洲一区二区三区浴池| 人妻去按摩店被黑人按中出| 亚洲AV无码日韩一区二区乱| 人妻有码av中文幕久久| 国产福利永久在线视频无毒不卡 | 欧美另类视频在线| 日本中文字幕一区二区在线观看| 午夜福利影院成人影院| 伊人久久大香线蕉亚洲五月天| 免费在线视频一区| 一区二区三区观看在线视频| 女人无遮挡裸交性做爰| 在线观看午夜亚洲一区| 亚洲国产剧情在线精品视| 在线观看的a站免费完整版| 午夜性色一区二区三区不卡视频| 国产人妖视频一区二区| 啪啪视频免费看一区二区| 视频在线国产一区二区| 四虎国产精品免费久久| 成人无码区免费AⅤ片WWW| 亚洲av男人的天堂在线| 亚洲精品第一国产综合精品| 久久久久国色av∨免费看| 日韩极品视频在线观看| 人妻少妇进入猛烈时中文字幕| 情侣黄网站免费看| 欧美综合图区亚洲综合图区| 国产一区二区三区成人| 337p日本欧洲亚洲大胆精品| 91网站在线看| 国产在线观看黄片视频免费|