亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于SQL的用戶自定義精度的粗糙集屬性約簡算法

        2015-05-30 10:48:04馬凌喻幸
        科技創(chuàng)新與應用 2015年16期
        關鍵詞:粗糙集

        馬凌 喻幸

        摘 要:將數(shù)據(jù)庫的關系運算運用于粗糙集的屬性約簡,引入用戶自定義精度,改進基于SQL的屬性約簡算法。仿真實驗結果表明,該方法與經(jīng)典粗糙集相關方法相比,有更高的執(zhí)行效率和抗噪性,為粗糙集理論更廣泛地應用于海量數(shù)據(jù)的數(shù)據(jù)挖掘提供了一種方法。

        關鍵詞:粗糙集;SQL語言;屬性約簡

        數(shù)據(jù)庫系統(tǒng)具有存儲空間利用率高、存取效率高等優(yōu)點,如果將粗糙集理論中的決策表以關系數(shù)據(jù)庫二維表的形式表示,通過將粗糙集理論中的相關算法嵌入到數(shù)據(jù)庫管理系統(tǒng)中,實現(xiàn)對屬性約簡算法的改進。在標準SQL語言中,GROUP BY子句可將數(shù)據(jù)庫中二維表的數(shù)據(jù)按某一列或多列的取值進行分組,值相等的為一組,該操作可對應粗糙集理論中劃分等價類。而聚集函數(shù)COUNT(*)可統(tǒng)計每組所包含的記錄個數(shù),即為粗糙集理論中等價類所包含的對象數(shù)目?;赟QL的屬性約簡算法已有部分學者進行了研究。馮林和李天瑞[1]提出了用SQL語句求數(shù)據(jù)庫中相對核屬性、屬性約簡和值核的算法。田迪和劉建平[2]提出了基于SQL語言的條件信息熵屬性約簡算法。劉井蓮[3]給出了一種基于SQL的屬性約簡算法,該算法是從條件屬性集做遞減,不需要存儲中間結果,具有空間復雜度低的優(yōu)點,同時易于改造成并行算法,能求出所有約簡。但該算法缺乏對噪音數(shù)據(jù)的適應能力,不適應高速公路管理系統(tǒng)中海量數(shù)據(jù)的數(shù)據(jù)分析。下面將在討論這種算法的基礎上,提出一種由用戶自定義精確度的基于SQL的屬性約簡算法。

        1 理論基礎

        定義1:一個信息表的知識表達系統(tǒng)可以表示為四元組S=,其中,U是對象的有限集合,也稱為論域;R=C∪D為屬性的有限集合,C為條件屬性的子集,D為決策屬性的子集;是屬性值的集合,Vr為屬性r的值域;f:U×R→V為一個信息函數(shù),U的任一元素取屬性r在V中有唯一確定值。

        如果U為一個論域,P為U上的一個屬性集合,r∈P,且ind(P-r)=ind(P),則稱屬性r在P中是不必要的;否則,稱r在P中是必要的。去掉不必要的屬性不會改變屬性集合的分類能力;反之,若去掉一個必要的屬性,則一定會改變屬性集合的分類能力。

        定義2:設U為一個論域,P、Q為U上的兩個屬性集合,且Q為P的子集,若ind(Q)=ind(P)且Q中沒有不必要的屬性;則稱Q是P的一個約簡。如果Q是P的約簡,則U中通過P可區(qū)分的對象,同樣可以用Q來區(qū)分。通常P的簡化不止一個,P的所有簡化族記為RED(P)。

        2 屬性約簡算法

        算法1:判斷ai是否為符合用戶自定義精確度的不必要屬性算法

        輸入:信息系統(tǒng)S=(U,A), accurate,ai。其中,accurate為用戶輸入的精確度,ai為需要判斷的屬性。

        輸出:1(表示該屬性為不必要屬性)或者0(表示該屬性為必要屬性)

        Step 1:統(tǒng)計S中根據(jù)A-{ai}分組后,每組包含的記錄個數(shù),生成新表temp。方法如下:

        SELECT COUNT( DISTINCT ai) AS NUM

        into temp

        FROM S

        GROUP BY A-{ai}

        Step 2:統(tǒng)計表temp中數(shù)值為1的記錄個數(shù)占記錄總數(shù)的比例Confidence。方法如下:

        DECLARE @Confidence decimal(3,2),@ConCount int,@TotalCount int

        SELECT @TotalCount=COUNT(*)

        FROM temp

        SELECT @ConCount=COUNT(*)

        FROM temp

        WHERE NUM=1

        SELECT @ConCount

        SET @Confidence=cast(@ConCount as decimal(3,2))/@TotalCount

        SELECT @Confidence

        Step 3:若Confidence>accurate,輸出1,否則,輸出0。

        由算法1可判斷出ai是否為符合用戶自定義精確度的不必要屬性。如果ai為不必要屬性,則繼續(xù)從A-{ai}中尋找不必要屬性,最終得到約簡屬性集。

        算法2 基于SQL的用戶自定義精確度的屬性約簡算法

        輸入:信息系統(tǒng)S=(U,A), accurate。其中,A=a1,a2,…,an為屬性集,accurate為用戶輸入的精確度。

        輸出:A所有的屬性約簡。

        Step 1:設初始約簡的集合為red=?覬,flag=0;

        Step 2:如果i<=n,則根據(jù)算法4.3判斷ai是否為符合用戶自定義精確度的不必要屬性。若算法4.3輸出1,則flag=1,轉到Step 4,若i>n,轉Step 5;

        Step 3:i=i+1,轉到Step 2;

        Step 4:A=A-{ai},n=n-1,轉Step 2;

        Step 5:若flag的值為0,則屬性集A為屬性約簡,將其加入集合red,結束。

        3 算法對比

        下面通過一個例子來說明文獻[4]給出算法的局限性,以及文章提出的用戶自定義精確度基于SQL的屬性約簡算法的有效性。設S=(U,A),其中U={U1,U2,U3,U4,U5,U6,U7,U8},屬性集A={a1,a2,a3,a4}。信息系統(tǒng)見表l。

        表1 一個信息系統(tǒng)S

        根據(jù)文獻[4]給出的算法,分別計算IsUnnecessary(a2,a3,a4,a1)、IsUnnecessary(a1,a3,a4,a2)、IsUnnecessary(a1,a2,a4,a3)、IsUnnecessary(a1,a2,a3,a4)均得到的結果為false,即所有屬性均為必要屬性無法實現(xiàn)屬性約簡。而采用算法2,設用戶輸入的精度為0.85。運算過程如下:

        (1)先根據(jù)算法1,計算屬性a1的Confidence。

        Confidence=0.86>0.85

        則屬性a1為不必要屬性。

        (2)根據(jù)算法4.3,計算屬性a2在屬性集A={a2,a3,a4}中的Confidence。

        Confidence=0.5<0.85

        則屬性a2為必要屬性。

        (3)根據(jù)算法4.3,計算屬性a3在屬性集A={a2,a3,a4}中的Confidence。

        Confidence=0.6<0.85

        則屬性a3為必要屬性。

        (4)根據(jù)算法4.3,計算屬性a4在屬性集A={a2,a3,a4}中的Confidence。

        Confidence=0.25<0.85

        則屬性a3為必要屬性。

        (5)通過以上計算,可得到{a2,a3,a4}為該信息系統(tǒng)的一個約簡,同理,可得到{a1,a3,a4}也為信息系統(tǒng)的一個約簡。

        為了驗證算法2的有效性,文章從UCI數(shù)據(jù)集中挑選了4組數(shù)據(jù),并和文獻[4]給出的算法以及經(jīng)典的可分辨矩陣約簡算法進行了比較,實驗環(huán)境使用的是Windows 7家庭普通版,CPU雙核 1.33GHz,RAM 2.00GB,Java編程,SQL Server 2005為后臺數(shù)據(jù)庫。用戶自定義精度為0.85,實驗結果見表2。

        由以上實驗結果數(shù)據(jù)可以看出,算法2比文獻[4]中的算法能夠更好的進行屬性約簡,約簡后屬性的個數(shù)更少,適用于海量數(shù)據(jù)的屬性約簡。由于算法2需要計算精度,所以相比之下執(zhí)行時間要長一點。算法2與可分辨矩陣約簡算法相比在效率方面具有明顯的優(yōu)勢。

        4 結束語

        文章研究了基于SQL的屬性約簡算法,發(fā)現(xiàn)了算法中存在的問題,提出一種由用戶自定義精度的基于SQL的屬性約簡算法,并通過實驗證明該算法的有效性,為海量數(shù)據(jù)的數(shù)據(jù)挖掘提供了新的途徑。

        參考文獻

        [1]吳學輝.基于粗糙集的決策樹算法在高校評教中的應用[D].太原:太原理工大學,2011.

        [2]馮林,李天瑞.基于SQL的屬性核與約簡高效計算方法[J].計算機科學,2010,37(1):236-238.

        [3]田迪,劉建平.基于SQL的屬性約簡算法的改進[J].工業(yè)控制計算機,2011,24(6):93-94.

        [4]劉井蓮.一種基于SQL的屬性約簡算法[J].科學技術與工程,2010,10(25):6291-6292.

        作者簡介:馬凌(1981-),女,碩士,講師,主要研究領域為數(shù)據(jù)挖掘。

        喻幸(1981-),男,碩士,主要研究領域為計算機應用技術。

        猜你喜歡
        粗糙集
        粗糙集與包絡分析下艦船運行數(shù)據(jù)聚類算法
        局部多粒度覆蓋粗糙集
        基于Pawlak粗糙集模型的集合運算關系
        基于二進制鏈表的粗糙集屬性約簡
        基于粗糙集的不完備信息系統(tǒng)增量式屬性約簡
        測控技術(2018年11期)2018-12-07 05:49:14
        優(yōu)勢直覺模糊粗糙集決策方法及其應用
        基于鍵樹的粗糙集屬性約簡算法
        悲觀的多覆蓋模糊粗糙集
        多粒化粗糙集性質的幾個充分條件
        雙論域粗糙集在故障診斷中的應用
        亚洲AV成人无码久久精品四虎| 又色又爽又高潮免费视频国产| 亚洲aⅴ在线无码播放毛片一线天 中国国语毛片免费观看视频 | 国产激情一区二区三区在线| 色播亚洲视频在线观看| 色爱区综合激情五月综合小说| 国产喷白浆精品一区二区| 日韩av免费一区二区| 国产强被迫伦姧在线观看无码| 国产又黄又猛又粗又爽的a片动漫| 免费va国产高清不卡大片| 中文字幕日本av网站| 蜜臀av色欲a片无码精品一区| 亚洲综合精品中文字幕| 欧美黑吊大战白妞| 国产麻豆一精品一AV一免费软件| 国产一区二区三区特黄| 人人妻人人添人人爽欧美一区 | 久久综合精品国产丝袜长腿| 国产一区二区三区免费精品| 日本免费看片一区二区三区| 美女脱了内裤张开腿让男人桶网站| 狠狠色狠狠色综合久久第一次 | 色视频综合无码一区二区三区| 精品高潮呻吟99av无码视频| 国产精品一区二区三区色| 国产视频一区二区三区在线免费| 亚洲综合欧美在线一区在线播放| 调教在线播放黄| 精品一区二区三区国产av| 18禁裸男晨勃露j毛网站| 日韩无码无播放器视频| 亚洲成人黄色av在线观看| 亚洲av无码国产精品色午夜软件| 日产精品久久久久久久性色| 国产欧美激情一区二区三区| 日本成年少妇人妻中文字幕| 久久国产劲爆∧v内射| 亚洲av日韩av永久无码色欲| 亚洲午夜久久久精品国产| 亚洲国产成人久久综合碰碰|