亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于粗集的數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用

        2008-12-31 00:00:00周玉敏
        商場現(xiàn)代化 2008年18期

        [摘要] 電子商務(wù)是現(xiàn)代商業(yè)的主流趨勢,基于數(shù)據(jù)挖掘技術(shù)可以充分利用企業(yè)的信息數(shù)據(jù),從海量數(shù)據(jù)中挖掘出對企業(yè)有用的信息。文中主要介紹了基于粗糙集的數(shù)據(jù)挖掘過程:數(shù)據(jù)預(yù)處理、約簡和規(guī)則提取。

        [關(guān)鍵詞] 電子商務(wù) 粗集 數(shù)據(jù)挖掘 決策規(guī)則

        一、引言

        在當(dāng)前信息化時代,世界電子商務(wù)發(fā)展速度非???,傳統(tǒng)行業(yè)的電子商務(wù)也得到了廣泛的應(yīng)用。在日益激烈的電子商務(wù)買方市場競爭中,任何與消費(fèi)者行為有關(guān)的信息對商家來說都是非常寶貴的。雖然電子商務(wù)網(wǎng)站的后臺數(shù)據(jù)庫能夠記錄下來豐富的交易信息和顧客相關(guān)的數(shù)據(jù),但是這些數(shù)據(jù)資源中所蘊(yùn)涵的大量有益信息至今卻未能得到充分地挖掘和利用。粗糙集作為一種新的數(shù)據(jù)挖掘的手段,在這一領(lǐng)域的應(yīng)用有不錯的前景。在數(shù)據(jù)挖掘的過程中,存在大量冗余數(shù)據(jù)影響我們的決策,粗糙集理論在得到的決策規(guī)則和推理過程方面是最有利的工具,它不但可以在不影響數(shù)據(jù)所表達(dá)的信息下使原來的數(shù)據(jù)量大為減少,而且可以產(chǎn)生決策規(guī)則,從而可以挖掘數(shù)據(jù)中的有效的模式。

        二、基于粗集的數(shù)據(jù)挖掘方法

        1.粗集的基本概念

        粗糙集(Rough Set,簡稱RS)理論由波蘭邏輯學(xué)家Pawlak教授于1982年提出,由于它能有效處理不精確、不一致及不完整等不完備信息,并從中發(fā)現(xiàn)隱含的知識,揭示潛在的規(guī)律,近年來越來越多的研究人員開始對它進(jìn)行研究,從理論上建立了Rough集理論的數(shù)據(jù)模型,還提出了很多算法,在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、人工神經(jīng)網(wǎng)絡(luò)等方面得到了廣泛應(yīng)用。粗糙集理論和數(shù)據(jù)挖掘關(guān)系密切,它為數(shù)據(jù)挖掘提供了一種新的方法和工具。

        在粗集理論中,“知識”被認(rèn)為是一種將現(xiàn)實(shí)或抽象的對象進(jìn)行分類的能力。關(guān)于U的一個知識庫可以理解為一個關(guān)系系統(tǒng),其中U為論域,R是U上的一簇等價關(guān)系。決策表信息系統(tǒng)又叫決策表,他是一類特殊而重要的知識表達(dá)系統(tǒng),也是一種特殊的信息表,它表示當(dāng)滿足某些條件時決策(行為、操作、控制)應(yīng)當(dāng)如何進(jìn)行。它是一張二維表格,每一行描述一個對象,每一列描述對象的一種屬性。屬性分為條件屬性和決策屬性,論域中的對象根據(jù)條件屬性的不同,被劃分到具有不同決策屬性的決策類。

        2.基于粗集的數(shù)據(jù)挖掘過程

        數(shù)據(jù)挖掘研究的實(shí)施對象多為關(guān)系型數(shù)據(jù)庫,關(guān)系表可被看作為粗糙集理論中的決策表,這給粗糙集方法的應(yīng)用帶來極大的方便,現(xiàn)實(shí)世界中的規(guī)則有確定性,也有不確定性的,從數(shù)據(jù)庫中發(fā)現(xiàn)不確定性的知識,為粗糙集方法提供了用武之地。數(shù)據(jù)挖掘中采用的其它技術(shù),如神經(jīng)網(wǎng)絡(luò)的方法,不能自動地選擇合適的屬性集,而利用粗糙集方法進(jìn)行預(yù)處理,去掉多余屬性,可提高發(fā)現(xiàn)效率,降低錯誤率?;诖植诩臄?shù)據(jù)挖掘過程主要有數(shù)據(jù)預(yù)處理、約簡(包括屬性約簡和屬性值約簡)及規(guī)則提取。

        (1)數(shù)據(jù)預(yù)處理

        在利用粗糙集進(jìn)行自動規(guī)則獲取時,第一步要進(jìn)行的工作是數(shù)據(jù)的預(yù)處理。 數(shù)據(jù)預(yù)處理主要包括兩個方面:數(shù)據(jù)的補(bǔ)齊和數(shù)據(jù)的離散化。運(yùn)用粗糙集理論處理決策表時,要求決策表中各值用離散值表達(dá)。如果決策表中某些條件屬性或決策屬性的值域?yàn)檫B續(xù)取值(浮點(diǎn)數(shù)表達(dá)),則在處理前必須經(jīng)過離散化。離散化在整個規(guī)則獲取過程中起著至關(guān)重要的作用,好的離散化算法不僅丟失信息很少,而且得到的規(guī)則的適應(yīng)性較強(qiáng)。

        (2)屬性約簡

        基于粗糙集的數(shù)據(jù)挖掘方法的一個顯著的特點(diǎn)就是它具有顯式的知識表達(dá)形式。根據(jù)粗糙集理論中信息系統(tǒng)的定義,把屬性A分為了條件屬性C和決策屬性D,那么我們很容易根據(jù)信息表得到If C Then D的產(chǎn)生式規(guī)則。理論上我們針對信息系統(tǒng)中的每一條記錄,都可以得到這樣一條規(guī)則。但是直接由信息表得到的規(guī)則,條件項(xiàng)較多,規(guī)則的泛化能力弱,適用范圍窄。

        一般情況下,信息系統(tǒng)中的條件屬性并不是同等重要的,有些條件屬性是多余的,刪除這些屬性并不影響原來的系統(tǒng)。屬性約簡就是在不影響原來的系統(tǒng)的情況下,刪除不相關(guān)或不重要的條件屬性,使原有的系統(tǒng)得到簡化。通過應(yīng)用粗糙集理論對決策表約簡,就是約簡決策表中的條件屬性及屬性值,約簡后的決策表具有約簡前決策表相同功能,但條件屬性達(dá)到最小化從而使我們用最少的信息量即可做到一個正確的判斷,決策表的約簡很有意義。

        (3)屬性值約簡

        值約簡的目的是為了提取決策規(guī)則,那么這些缺失的屬性值是肯定要被約簡掉的,和屬性約簡不同,值約簡是針對每一個對象而言的。雖然對整個決策表來說沒有冗余的屬性,但對于每一個對象來說,仍然存在著屬性冗余,去掉這些屬性對今后決策規(guī)則的提取、規(guī)則的簡化有重要的作用。根據(jù)定義一般值約簡算法基本描述如下:對于規(guī)則集合中的每條規(guī)則,對于該規(guī)則中的任意條件屬性,如果去掉該屬性,該規(guī)則不和集合中的其他規(guī)則沖突,則可以從該規(guī)則中去掉該條件屬性。

        (4)規(guī)則提取

        對進(jìn)行屬性約簡和值約簡后的信息表,就可以進(jìn)行規(guī)則的獲取,使用一個約簡集RED從決策系統(tǒng)S=(U,A)中產(chǎn)生規(guī)則的過程相當(dāng)直接。直觀地,將每個約簡用在決策表的每個對象上,只要簡單地從表中讀出適當(dāng)?shù)膶傩灾祦硇纬蓻Q策規(guī)則。用類似邏輯語言中α→β的形式表示決策規(guī)則,α和β分別稱為決策規(guī)則的前件和后件,α代表?xiàng)l件屬性值的組合。

        三、應(yīng)用實(shí)例

        1.數(shù)據(jù)收集與預(yù)處理

        在數(shù)據(jù)挖掘中有一個很重要的步驟就是要為挖掘算法找到合適的數(shù)據(jù)。在客戶通過電子商務(wù)網(wǎng)站進(jìn)行交易的過程中,企業(yè)獲取相關(guān)數(shù)據(jù)的來源主要有兩個方面:(1)服務(wù)器數(shù)據(jù);(2)客戶登記信息。在本應(yīng)用實(shí)例中,將收集某企業(yè)的客戶登記信息進(jìn)行基于粗集的數(shù)據(jù)挖掘, 對某企業(yè)的部分客戶資料信息經(jīng)過初步處理,得到對決策屬性有潛在因果關(guān)系的條件屬性和決策屬性的字段列表,并對其進(jìn)行編號。由于運(yùn)用Rough set理論處理決策表時,要求決策表中各值用離散值,經(jīng)過離散處理后得到如表1所示的決策表。S =< U,R,V, f>,設(shè)論域?yàn)槌槿颖?,其中R=C∪D,設(shè)U={1,2,...},條件屬性C={年齡,性別,婚否,學(xué)歷,收入},決策屬性D={是否購買}。在用相應(yīng)的算法進(jìn)行屬性約簡前,所有的數(shù)據(jù)都必須是整型數(shù)據(jù)或浮點(diǎn)型數(shù)據(jù),將表1中的數(shù)據(jù)轉(zhuǎn)換為整型數(shù)據(jù),結(jié)果如表2。

        2.約簡

        屬性約簡的算法有很多,在本例中采用歸納屬性約簡,約簡后的決策表如表3。在該決策表中,約掉了性別、婚否兩個屬性,說明客戶中性別、婚否不是是否購買公司產(chǎn)品的決定性因素,年齡、學(xué)歷和收入才是決定性因素。

        經(jīng)過屬性約簡后的決策表中的每一個記錄可以作為一條規(guī)則,但其中包含著大量的冗余信息,即在約簡后的信息系統(tǒng),并不是每一條記錄的每一個屬性值都對信息系統(tǒng)最后決策規(guī)則的提取產(chǎn)生作用,必須對屬性約簡后的結(jié)果繼續(xù)簡化。剔除經(jīng)過屬性約簡后的決策表中的冗余信息即為屬性值約簡。其實(shí),屬性值的約簡是更進(jìn)一步的約簡,是真正實(shí)現(xiàn)了決策表的最簡化,就實(shí)際意義而言,屬性值簡化了的決策表更突出了關(guān)鍵屬性及其關(guān)鍵屬性值對決策屬性的影響。采用啟發(fā)式屬性值約簡對表3進(jìn)行屬性值約簡,得到表4。

        3.決策規(guī)則提取

        根據(jù)值約簡后的決策表,可得如下的規(guī)則:

        規(guī)則1:IF (a4=3) THEN d=1

        規(guī)則2:IF (a5=3) THEN d=1

        規(guī)則3:IF (a1=3) AND (a4=4) AND (a5=4) THEN d=1

        規(guī)則4:IF (a5=4) THEN d=1

        規(guī)則5:IF (a1=1) AND (a4=1) THEN d=0

        從規(guī)則1至規(guī)則4可以分析得到年齡在30歲~40歲之間,學(xué)歷為碩士以上且收入在4000元以上的客戶購買了公司的商品,規(guī)則5則說明了年齡在30以下,學(xué)歷為大專及以下的客戶沒有購買。由挖掘得到的規(guī)則,可以為公司在促銷和鎖定目標(biāo)客戶的決策上起到重要作用。

        四、結(jié)束語

        電子商務(wù)是現(xiàn)代信息技術(shù)發(fā)展的必然結(jié)果,也是未來商業(yè)運(yùn)作模式的必然選擇。利用基于粗集的數(shù)據(jù)挖掘技術(shù),可以充分利用電子商務(wù)企業(yè)現(xiàn)有的信息數(shù)據(jù),從中發(fā)現(xiàn)有利的規(guī)則,為企業(yè)管理提供決策支持,使企業(yè)在在電子商務(wù)的潮流中立于不敗之地。隨著數(shù)據(jù)挖掘算法的不斷發(fā)展和成熟,數(shù)據(jù)挖掘一定會有更加廣闊的應(yīng)用前景。

        參考文獻(xiàn):

        [1]Pawlak Z. Rough set. International Journal of Computer and Information Sciences,1982,11(5):341~356

        [2]王國胤:Rough集理論與知識獲取[M].西安:西安交通大學(xué)出版社,2001.1~167

        [3]呂曉玲吳喜之:電子商務(wù)客戶網(wǎng)絡(luò)購物行為挖掘[J].統(tǒng)計與信息論壇,2007.5:29~32

        [4]胡愛華等:電子商務(wù)中數(shù)據(jù)挖掘方法的應(yīng)用[J].商場現(xiàn)代化,2007.4

        亚洲五月七月丁香缴情| 久久99精品国产麻豆不卡| 中文字幕熟妇人妻在线视频| 亚洲人成人一区二区三区| 亚洲精品一区二区三区日韩| 日韩亚洲精品国产第二页| 日本中文字幕一区二区高清在线 | 亚洲人精品午夜射精日韩| 亚洲精品无码成人片久久不卡 | 精品国产乱码久久久软件下载| 婷婷色婷婷开心五月四房播播| 亚洲gv白嫩小受在线观看| 天堂Av无码Av一区二区三区| 特级国产一区二区三区| 疯狂做受xxxx高潮视频免费| 青青青国产精品一区二区| 永久免费毛片在线播放| 91九色视频在线国产| 波多野42部无码喷潮在线| 亚洲精品免费专区| 国产精品99久久不卡二区| 久久伊人最新网址视频| 日韩高清在线观看永久| 亚洲中文字幕巨乳人妻| 亚洲国产成人va在线观看天堂| 久久综合狠狠综合久久综合88| 粗了大了 整进去好爽视频| 亚洲一区丝袜美腿在线观看| 中文字字幕在线中文乱码解| 中文字幕无线码| 亚洲AV无码精品一区二区三区l| 色偷偷亚洲精品一区二区| 欧美成人国产精品高潮| 极品美女扒开粉嫩小泬| 久久国产高潮流白浆免费观看 | 亚洲的天堂av无码| 亚洲一区日本一区二区| 97成人精品国语自产拍| 久久av高潮av无码av喷吹| 日韩免费高清视频网站| 国产自拍在线视频91|