亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于粗糙集的數(shù)據(jù)挖掘方法分析

        2011-01-13 02:13:16
        關(guān)鍵詞:約簡粗糙集數(shù)據(jù)挖掘

        符 鈺

        (泰州職業(yè)技術(shù)學(xué)院電子信息與工程系,江蘇 泰州 225300)

        基于粗糙集的數(shù)據(jù)挖掘方法分析

        符 鈺

        (泰州職業(yè)技術(shù)學(xué)院電子信息與工程系,江蘇 泰州 225300)

        文章從數(shù)據(jù)挖掘和粗糙集的基本概念出發(fā),研究粗糙集理論在數(shù)據(jù)挖掘中的典型運用,為大型數(shù)據(jù)挖掘提供了一種新的方法?;诖植诩臄?shù)據(jù)挖掘,首先通過粗糙集理論對數(shù)據(jù)進行預(yù)處理,然后對屬性約簡,最后進行決策規(guī)則提取,尋找最優(yōu)解。

        粗糙集;數(shù)據(jù)挖掘;數(shù)據(jù)處理

        1 數(shù)據(jù)挖掘的基本概念

        隨著數(shù)據(jù)庫技術(shù)的不斷發(fā)展及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,數(shù)據(jù)庫中存儲的數(shù)據(jù)量急劇增大,在大量數(shù)據(jù)背后隱藏著許多重要的信息,如果能把這些信息從數(shù)據(jù)庫中抽取出來,將為公司創(chuàng)造很多潛在的利潤。這種從海量數(shù)據(jù)庫中挖掘信息的技術(shù),就稱之為數(shù)據(jù)挖掘技術(shù)。美國S A S軟件研究所將數(shù)據(jù)挖掘定義為:“按照既定的業(yè)務(wù)目標(biāo),對大量的企業(yè)數(shù)據(jù)進行探索、揭示隱藏其中的規(guī)律性并進一步模型化的先進、有效的方法[1]?!睌?shù)據(jù)挖掘能夠?qū)淼内厔莺托袨檫M行預(yù)測,從而很好地支持人們的決策。比如,通過對公司整個數(shù)據(jù)庫系統(tǒng)的分析,數(shù)據(jù)挖掘可以回答諸如“哪些客戶最有可能購買我們公司的什么產(chǎn)品,為什么?”等類似問題。數(shù)據(jù)挖掘還能夠解決一些很消耗人工時間的傳統(tǒng)問題,因為它們能夠快速地瀏覽整個數(shù)據(jù)庫,找出一些專家們不易察覺的極有用的信息。數(shù)據(jù)挖掘的一般步驟如下:問題理解和提出→數(shù)據(jù)準(zhǔn)備→數(shù)據(jù)整理→建立模型→評價和解釋。

        (1)問題理解和提出:在開始數(shù)據(jù)挖掘之前最基礎(chǔ)的就是理解數(shù)據(jù)和實際的業(yè)務(wù)問題,在這個基礎(chǔ)之上提出問題,對目標(biāo)有明確的定義。(2)數(shù)據(jù)準(zhǔn)備:獲取原始的數(shù)據(jù),并從中抽取一定數(shù)量的子集,建立數(shù)據(jù)挖掘庫,其中一個問題是,如果企業(yè)原來的數(shù)據(jù)倉庫滿足數(shù)據(jù)挖掘的要求,就可以將數(shù)據(jù)倉庫作為數(shù)據(jù)挖掘庫。(3)數(shù)據(jù)整理:由于數(shù)據(jù)可能是不完全的、有噪聲的、隨機的,有復(fù)雜的數(shù)據(jù)結(jié)構(gòu),就要對數(shù)據(jù)進行初步的整理,清洗不完全的數(shù)據(jù),做初步的描述分析,選擇與數(shù)據(jù)挖掘有關(guān)的變量,或者轉(zhuǎn)變變量。(4) 建立模型:根據(jù)數(shù)據(jù)挖掘的目標(biāo)和數(shù)據(jù)的特征,選擇合適的模型。(5) 評價和解釋:對數(shù)據(jù)挖掘的結(jié)果進行評價,選擇最優(yōu)的模型,作出評價,運用于實際問題,并且要和專業(yè)知識結(jié)合對結(jié)果進行解釋。

        以上的步驟不是一次完成的,可能其中某些或者全部要反復(fù)進行。

        2 粗糙集的基本概念

        1982 年,波蘭學(xué)者Z.Pawlak提出了粗糙集理論,它是一種刻劃不完整性和不確定性的數(shù)學(xué)工具,能有效地分析不精確、不一致(inconsistent)、不完整(in CO Mplete)等各種不完備的信息,還可以對數(shù)據(jù)進行分析和推理,從中發(fā)現(xiàn)隱含的知識,揭示潛在的規(guī)律[2]。粗糙集理論是建立在分類機制基礎(chǔ)上的,它將分類理解為在特定空間上的等價關(guān)系,而等價關(guān)系構(gòu)成了對該空間的劃分。粗糙集理論將知識理解為對數(shù)據(jù)的劃分,每一被劃分的集合稱為概念。粗糙集理論的主要思想是利用已知的知識庫,將不精確或不確定的知識用已知知識庫中的知識來(近似)刻畫。該理論與其他處理不確定和不精確問題理論的最顯著的區(qū)別是它無需提供問題所需處理的數(shù)據(jù)集合之外的任何先驗信息,所以對問題的不確定性的描述或處理可以說是比較客觀的。

        定義1信息系統(tǒng)S可表示為S=(U,A,V,f),其中U是對象的非空有限集合,稱為論域;A是屬性的非空有限集合;V=∪a∈A V a,V a是屬性A的值域,f:U×A→V是一個信息函數(shù),它為每個對象的每個屬性賦予一個信息值。如果屬性集A可以分為條件屬性集C和決策屬性集D,即C∪D=A,C∩D=Ф,則該信息系統(tǒng)稱為決策系統(tǒng)或決策表,其中D一般只含有一個屬性。

        定義2在知識表達系統(tǒng)S中,對于一屬性集P∈A,對象x,y∈U,二元等價關(guān)系I N D(P)={(x,y)∈U×U|所有的a∈P,f(x,a)=f(y,a)}稱為S的不可分辨關(guān)系。不可分辨關(guān)系是一個等價關(guān)系,通過一個不可分辨關(guān)系,可以得到一個決策系統(tǒng)的劃分。

        定義3給定信息系統(tǒng)S=(U,A),B∈A,對B中的屬性a,如果I N D(B)≠I N D(B-{a}),則稱屬性a是必要的(Indispensable),否則稱a是不必要的(Dispensable)。

        3 粗糙集在數(shù)據(jù)挖掘中的應(yīng)用

        近年來,粗糙集理論在數(shù)據(jù)挖掘中的應(yīng)用取得了較大的進展,基于粗糙集理論的方法逐漸成為數(shù)據(jù)挖掘主流方法之一。基于粗糙集理論的數(shù)據(jù)挖掘系統(tǒng)一般都由數(shù)據(jù)預(yù)處理、基于粗糙集理論或其擴展理論的數(shù)據(jù)約簡、決策算法等組成。其大概思想是:首先通過粗糙集對信息表中的數(shù)據(jù)缺損進行處理;然后根據(jù)已定義的可辯識距陣,通過屬性簡約算法對信息表中的數(shù)據(jù)進行屬性簡約和知識發(fā)現(xiàn);最后根據(jù)值約簡等減少屬性和個體數(shù)目,最終提取規(guī)則并將之應(yīng)用于新對象的分類。

        (1) 數(shù)據(jù)預(yù)處理 在現(xiàn)實世界的很多情況下,我們拿到的第一手數(shù)據(jù)都會存在噪音數(shù)據(jù)、空缺數(shù)據(jù)和不一致性數(shù)據(jù)等我們不希望出現(xiàn)的數(shù)據(jù),甚至因為數(shù)據(jù)庫過于強大,這樣的數(shù)據(jù)多達數(shù)千兆字節(jié)。因此,不得不去想一個問題:“怎樣處理數(shù)據(jù)才能提高數(shù)據(jù)的質(zhì)量,從而提高數(shù)據(jù)挖掘結(jié)果的質(zhì)量呢?”現(xiàn)今已經(jīng)存在的數(shù)據(jù)預(yù)處理技術(shù)有很多,常用的有數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約等。其中數(shù)據(jù)清理可以去掉數(shù)據(jù)中的噪音,糾正不一致。數(shù)據(jù)集成可以將數(shù)據(jù)由多個源合并成一致的數(shù)據(jù)存儲。數(shù)據(jù)歸約可以通過聚集、刪除冗余特性或者聚類等方法來壓縮數(shù)據(jù)[3]。這些數(shù)據(jù)處理技術(shù)在數(shù)據(jù)挖掘之前使用,可以大大提高數(shù)據(jù)挖掘的模型,降低實際挖掘所需要的時間。

        (2)屬性約簡和屬性值約簡 在一個決策系統(tǒng)中,各個條件屬性之間往往存在著某些程度上的依賴或關(guān)聯(lián),約簡可以理解為在不丟失信息的前提下,最簡單地表示決策系統(tǒng)的結(jié)論屬性對條件屬性集合的依賴和關(guān)聯(lián)。屬性簡約算法如下:

        步驟1:計算屬性表的可辯識矩陣。

        步驟2:對可辨識矩陣中的所有取值為非空集合的元素Cij建立相應(yīng)的析取邏輯表達式。

        步驟3:將所有析取邏輯表達式進行合取運算,得到一個合取范式。

        步驟4:將合取范式轉(zhuǎn)換為析取范式形式。

        步驟5:輸出屬性約簡結(jié)果,其中析取范式中的每個合取項對應(yīng)一個屬性約簡的結(jié)果,每個合取項中所包含的屬性組成約簡后的條件屬性集合。

        值約簡的目的是為了提取決策規(guī)則,將缺失的屬性值約簡掉。和屬性約簡不同,值約簡是針對每一個對象而言的。雖然對整個決策表來說沒有冗余的屬性,但對于每一個對象來說,仍然存在著屬性冗余,去掉這些屬性對決策規(guī)則的提取、規(guī)則的簡化有重要的作用。根據(jù)定義一般值約簡算法基本描述如下:對于規(guī)則集合中的每條規(guī)則,對于該規(guī)則中的任意條件屬性,如果去掉該屬性,該規(guī)則不和集合中的其他規(guī)則沖突,則可以從該規(guī)則中去掉該條件屬性。

        (3)決策規(guī)則提取 對進行屬性約簡和值約簡后的信息表,就可以進行規(guī)則的獲取,使用一個約簡集R E D從決策系統(tǒng)S=(U,A)中產(chǎn)生規(guī)則的過程相當(dāng)直接。直觀地,將每個約簡用在決策表的每個對象上,只要簡單地從表中讀出適當(dāng)?shù)膶傩灾祦硇纬蓻Q策規(guī)則。用類似邏輯語言中α→β的形式表示決策規(guī)則,α和β分別稱為決策規(guī)則的前件和后件,α代表條件屬性值的組合。

        4 數(shù)據(jù)挖掘應(yīng)用實例

        現(xiàn)在商場對銷售數(shù)據(jù)和客戶信息的處理一般還停留在簡單的數(shù)據(jù)備份和查詢階段,而把基于粗糙集的數(shù)據(jù)挖掘方法引入到對銷售數(shù)據(jù)的分析中,可以找到影響銷售額的真實原因,有利于有針對性地提高商場的銷售業(yè)績。經(jīng)過數(shù)據(jù)收集和數(shù)據(jù)確認,從商場銷售數(shù)據(jù)庫以及消費積分卡客戶信息數(shù)據(jù)庫中,選擇(性別、年齡、職務(wù)、收入、積分、總消費額、羽絨服檔次)作為預(yù)處理前的信息集合(見表1)。

        表1 預(yù)處理前信息系統(tǒng)

        從表1可以看出,條件屬性中,年齡、積分、總消費均為連續(xù)屬性,需要進行離散化;同時多條記錄里存在若干屬性值的缺失,需要進行數(shù)據(jù)完備化處理。

        (1) 數(shù)據(jù)預(yù)處理 對a 2,a 5,a 6進行離散化。設(shè)用戶控制閾值t=2,最多不超過4個斷點,計算得 P 2={27.5,38},P 5={919.5},P 6={1299.5},P為已選的斷點集合。計算缺失屬性最相似值:x 2=1;x 4=1;x 6=0;x 8=2;x 10=1(見表 2)。

        表2 經(jīng)過數(shù)據(jù)預(yù)處理后的完備信息系統(tǒng)表

        表 2中 () 代表缺失值。其中,a 1:0(男)、1(女);a 2:0(27.5歲以下)、1(27.5歲至38歲之間)、2(38歲以上);a 3:0(一般員工)、1(高級職員)、2(高級管理人員);a 4:0(1-2千元)、1(2-4千元)、2(4千元以上);a 5:0(919.5以下)、1(919.5以上);a 6:0(1299.5元以下)、1(1299.5元以上)。

        5 結(jié)語

        粗糙集理論是一種處理不確定和不精確問題的新型數(shù)學(xué)工具,為數(shù)據(jù)挖掘提供了一條嶄新的途徑。粗糙集理論在數(shù)據(jù)挖掘中的應(yīng)用研究目前正成為信息科學(xué)中的一個研究熱點,其發(fā)展空間廣闊。

        [1]朱明.數(shù)據(jù)挖掘[M].合肥:中國科學(xué)技術(shù)出版社,2003.

        [2]李紅梅,周桂紅,王克儉.基于粗糙集和遺傳算法的知識發(fā)現(xiàn)方法[J].計算機應(yīng)用,2007,8(1):76-78.

        [3]Jia Weihan.D Atamining Concepts and Techniques[M].北京:機械工業(yè)出版社,2001,8(1):70-93.

        Data Extraction Based on Rough Set

        FU Yu
        (Taizhou Polytechnic College,Taizhou Jiangsu 225300,China)

        Based on the theory of data extraction and rough set,this article tries to study typical application of rough set in data extraction and introduce a new approach for data mining.First of all,we retreats our data with rough set,and then reduce attributes,finally we extract the best rule of decision.

        rough set;data extraction;data processing

        TP391

        A

        1671-0142(2011)02-0067-03

        符鈺(1981-),女,江蘇泰州人,講師.

        (責(zé)任編輯李冠楠)

        猜你喜歡
        約簡粗糙集數(shù)據(jù)挖掘
        基于Pawlak粗糙集模型的集合運算關(guān)系
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于二進制鏈表的粗糙集屬性約簡
        實值多變量維數(shù)約簡:綜述
        基于模糊貼近度的屬性約簡
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        多?;植诩再|(zhì)的幾個充分條件
        雙論域粗糙集在故障診斷中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        兩個域上的覆蓋變精度粗糙集模型
        国产免费一区二区av| 国产精品嫩草影院av| 国产精品第一二三区久久蜜芽| 无码AV无码免费一区二区| 91精品国产自拍视频| 中文字幕日本韩国精品免费观看| 日韩免费精品在线观看| 人人摸人人搞人人透| 国产suv精品一区二区69| 中文毛片无遮挡高潮| 国产精品视频免费一区二区三区| 偷拍色图一区二区三区| 国产精品爽爽v在线观看无码| 怡红院a∨人人爰人人爽| YW亚洲AV无码乱码在线观看| 亚洲一区二区三区新视频| 国产精品人成在线观看免费| 香港aa三级久久三级| 小12箩利洗澡无码视频网站| 亚洲成AV人在线观看网址| 国产亚洲一本二本三道| 免费观看18禁无遮挡真人网站| 国产一起色一起爱| 日本精品极品视频在线| 亚洲av一区二区三区色多多| 成l人在线观看线路1| 亚洲AⅤ无码日韩AV中文AV伦| av免费在线观看网站大全| 久久久久99人妻一区二区三区| 偷偷色噜狠狠狠狠的777米奇| 激情婷婷六月| 久久蜜臀av一区三区| 婷婷精品国产亚洲av麻豆不片| 亚洲日韩欧洲无码av夜夜摸| 国产自在自线午夜精品视频在| 综合图区亚洲偷自拍熟女| 日本护士xxxxhd少妇| 中国丰满大乳乳液| 国产精品亚洲片夜色在线| 国产精品自拍视频免费观看| 亚洲成av人在线观看网址|