亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于模糊關(guān)聯(lián)規(guī)則在電子商務(wù)數(shù)據(jù)挖掘中的研究

        2009-03-14 06:59:50劉永紅李惠君
        物流科技 2009年1期
        關(guān)鍵詞:數(shù)據(jù)源數(shù)據(jù)挖掘電子商務(wù)

        劉永紅 李惠君

        摘要:數(shù)據(jù)挖掘是一種新興的信息處理技術(shù),它通過對商業(yè)數(shù)據(jù)的分析處理,可以發(fā)現(xiàn)蘊藏在數(shù)據(jù)中的商業(yè)知識,挖掘數(shù)據(jù)內(nèi)在的聯(lián)系、規(guī)則和模式,輔助商業(yè)決策。在電子商務(wù)環(huán)境下的數(shù)據(jù)挖掘的研究,主要是進行客戶訪問信息的挖掘,文章在考慮了數(shù)據(jù)來源之后,簡要介紹數(shù)據(jù)預(yù)處理過程,最后給出了模糊集與傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘結(jié)合的算法。

        關(guān)鍵詞:電子商務(wù);數(shù)據(jù)源;數(shù)據(jù)挖掘;算法;模糊關(guān)聯(lián)規(guī)則

        中圖分類號:TP311文獻標識碼:A

        文章編號:1002-3100(2009)01-0040-03

        Abstract: Data mining is a new method to process information, it can discover the business knowledges, dig internal relationships、rules and modes,and assist business decision by analysing and processing business data. The disscusion about data sources and data preprocessing method for EC's data mining was presented, then the algorithm of mining fuzzy associate rules was introduced.

        Key words:EC; data resource; datamining; algorithm; fuzzy correlation rules

        電子商務(wù)是采用數(shù)字化電子方式,在Internet上進行的商務(wù)數(shù)據(jù)交換和開展的商務(wù)業(yè)務(wù)活動。隨著數(shù)據(jù)庫技術(shù)的迅猛發(fā)展以及Internet的廣泛應(yīng)用,電子商務(wù)正顯示越來越強大的生命力,電子商務(wù)網(wǎng)站每天都可能有上百萬次的在線交易,服務(wù)器上積累了越來越多的業(yè)務(wù)數(shù)據(jù),目前的數(shù)據(jù)庫系統(tǒng)可以高效實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據(jù)庫中存在的關(guān)系的規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢,利用數(shù)據(jù)挖掘技術(shù)可以有效地發(fā)現(xiàn)大量數(shù)據(jù)背后的規(guī)律性,提供數(shù)據(jù)里面隱藏的知識和手段,消除數(shù)據(jù)“爆炸但知識貧乏”的現(xiàn)象。

        1電子商務(wù)中數(shù)據(jù)挖掘的數(shù)據(jù)源

        數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或“挖掘”知識,那么進行數(shù)據(jù)挖掘首先要考慮從什么樣的數(shù)據(jù)中挖掘知識,也就是說進行數(shù)據(jù)挖掘的數(shù)據(jù)源??傮w上說,電子商務(wù)中數(shù)據(jù)挖掘技術(shù)的數(shù)據(jù)來源包括以下幾種。

        1.1用戶的背景信息

        此類信息主要來自于用戶的注冊信息。注冊信息是指用戶在瀏覽器頁面上填寫的、需要提交給遠端服務(wù)器的有關(guān)資料,比如用戶的個人資料,用戶要訂購的商品資料,用戶提出的一些問題和要求等。但許多用戶不愿意透露自己真實的個人信息,因此將不會如實地填寫注冊表,這將造成數(shù)據(jù)挖掘的原始數(shù)據(jù)質(zhì)量低下。在這種情況下,就不得不從瀏覽者的瀏覽信息中來推測用戶的背景信息,進而再加以利用。

        1.2瀏覽信息

        瀏覽信息主要來自于瀏覽者的單擊流(Click-stream),這部分數(shù)據(jù)主要用于考察用戶的行為表現(xiàn)。Web上有海量的數(shù)據(jù)信息,人們在瀏覽網(wǎng)站時,包含了大量的潛在的信息,如個人姓名和住址,單擊了哪一個連接,在哪里瀏覽時間最多等。通常來說,這些信息可以分為兩類:瀏覽者自身信息和瀏覽內(nèi)容信息。

        在Internet電子商務(wù)中,客戶訪問服務(wù)器時就會在服務(wù)器上產(chǎn)生相應(yīng)的服務(wù)器數(shù)據(jù),這樣可以通過網(wǎng)絡(luò)包分析器和服務(wù)器的log文件來收集用戶對網(wǎng)站的訪問。

        服務(wù)器的log文件:用戶每訪問一個頁面,Web服務(wù)器的日志中就會增加一條記錄,可通過記錄Cookies和CGI的查詢參數(shù)來描述各個不同用戶的行為。例如,通過對購買某產(chǎn)品客戶的域名分析,知道來自哪個國家或地區(qū)購買者的人數(shù)較多,相應(yīng)的根據(jù)此信息調(diào)整電子商務(wù)中的在線市場策略,增加在哪些地區(qū)或國家的商務(wù)活動。不過考慮到Web環(huán)境中的各種Cach的影響和用POST方法傳送的參數(shù)沒有記錄下來,此記錄可能不準確。但Log文件是最簡單和最方便的數(shù)據(jù)來源,很多時候只用log文件就能得到分析所用的足夠數(shù)據(jù)。

        最準確和靈活的Web流量收集方法是網(wǎng)絡(luò)包分析器。包分析器在網(wǎng)絡(luò)層監(jiān)聽網(wǎng)絡(luò)上傳輸?shù)乃袛?shù)據(jù)包,分析其中所包含的內(nèi)容,把用戶對網(wǎng)站的所有請求(HTTP命令)和Web服務(wù)器對用戶的應(yīng)答都記錄下來。包分析器能夠記錄比Web服務(wù)器的log更詳細的內(nèi)容,比如記錄用戶在下載網(wǎng)頁的過程中是否單擊了“停止”按鈕和一張網(wǎng)頁的下載時間。通過分析這些數(shù)據(jù),企業(yè)能更好地了解用戶的感受。

        1.3Internet自身信息

        這類信息來自于Web自身,包括web內(nèi)容、Web結(jié)構(gòu)等。

        Web結(jié)構(gòu)包括www上的組織結(jié)構(gòu)和鏈接關(guān)系中知識的推導(dǎo)。由于超文本文檔間的關(guān)聯(lián)關(guān)系使得www不僅僅可以揭示文檔中所包含的信息,同時也可以揭示文檔間的關(guān)聯(lián)關(guān)系所代表的信息。利用這些信息可以對頁面進行排序、發(fā)現(xiàn)重要的頁面。

        Web內(nèi)容主要包括文檔內(nèi)容和多媒體兩類,其中文檔內(nèi)容為主,包括直接文檔內(nèi)容、從文檔中抽取的關(guān)鍵信息及用簡潔的形式對文檔內(nèi)容進行的摘要或解釋。

        電子商務(wù)中的數(shù)據(jù)挖掘,是將用戶注冊信息、服務(wù)器日志和其自身信息三種來源有效地結(jié)合起來進行分析,可以提高挖掘的精度和深度,得出更理想的結(jié)果。

        2電子商務(wù)中數(shù)據(jù)挖掘預(yù)處理

        從電子商務(wù)數(shù)據(jù)源中得到的原始記錄,不僅數(shù)據(jù)量巨大,而且可能存在大量的噪聲數(shù)據(jù)、冗余數(shù)據(jù)、稀疏數(shù)據(jù)或不完全數(shù)據(jù)等,直接在其上進行挖掘非常困難。而事實上數(shù)據(jù)挖掘最后成功與否,是否有經(jīng)濟效益,數(shù)據(jù)準備起到了至關(guān)重要作用,數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清理、集成、選擇和變換。

        2.1數(shù)據(jù)清理

        主要是針對電子商務(wù)多個數(shù)據(jù)源中數(shù)據(jù)的不規(guī)范性、二義性、重復(fù)和不完整等問題進行相應(yīng)的清洗操作,過濾、剔除一些無關(guān)數(shù)據(jù),平滑噪聲數(shù)據(jù),識別、刪除孤立點,并添加數(shù)據(jù)中缺失的數(shù)據(jù)域。

        2.2數(shù)據(jù)集成

        數(shù)據(jù)挖掘需要對數(shù)據(jù)進行集成,也就是將多個數(shù)據(jù)源中的數(shù)據(jù)進行合并處理,解決語義模糊性并存放在統(tǒng)一的數(shù)據(jù)存儲(如數(shù)據(jù)倉庫、數(shù)據(jù)庫等)中,電子商務(wù)的數(shù)據(jù)源包括頁面、圖像、圖形、多媒體、URL路徑及有關(guān)的日志文件等,涉及三個方面問題:實體識別的模式集成、刪除數(shù)據(jù)冗余和檢測與處理數(shù)據(jù)值的沖突。

        2.3數(shù)據(jù)選擇

        數(shù)據(jù)選擇是在對發(fā)現(xiàn)任務(wù)和數(shù)據(jù)本身內(nèi)容理解的基礎(chǔ)上,尋找依賴于發(fā)現(xiàn)目標的表達數(shù)據(jù)的有用特征,以縮減數(shù)據(jù)規(guī)模,從而在盡可能保持數(shù)據(jù)原貌的前提下最大限度地精簡數(shù)據(jù)量,通過數(shù)據(jù)選擇可以使數(shù)據(jù)的規(guī)律性和潛在特性更加明顯。在縮減數(shù)據(jù)規(guī)模的同時,數(shù)據(jù)選擇應(yīng)完整,需要覆蓋業(yè)務(wù)目標所涉及的相關(guān)數(shù)據(jù)。搜索所有與業(yè)務(wù)對象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。

        2.4數(shù)據(jù)變換

        將數(shù)據(jù)轉(zhuǎn)換成一個分析模型,這個分析模型是針對挖掘算法建立的,建立一個真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵。主要包括:數(shù)據(jù)離散化、新建變量、轉(zhuǎn)換變量、拆分數(shù)據(jù)及格式變換。

        在數(shù)據(jù)實際挖掘過程中,數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇和數(shù)據(jù)變換不一定都用到。此外,它們的使用沒有先后順序,某一種預(yù)處理可能先后要多次進行。

        3模糊關(guān)聯(lián)規(guī)則挖掘在電子商務(wù)中的算法

        關(guān)聯(lián)規(guī)則的目的就是為了挖掘出隱藏在數(shù)據(jù)間的相互關(guān)系,從而找到客戶對網(wǎng)站上各種文件之間關(guān)聯(lián)規(guī)則。實現(xiàn)關(guān)聯(lián)分析的技術(shù)主要是統(tǒng)計學(xué)中的置信度和支持度分析。一般來說,只有置信度和支持度均較高的關(guān)聯(lián)規(guī)則才可能是用戶感興趣的、有用的連接規(guī)則。

        模糊集是表示和處理不確定性數(shù)據(jù)的重要方法,以隸屬函數(shù)概念代表模糊集合,它不僅可以處理不完全數(shù)據(jù)、噪聲或不精確數(shù)據(jù),還可以用于開發(fā)數(shù)據(jù)的不確定性模型,能夠提供比傳統(tǒng)方法更靈巧、更平滑的性能。

        把傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘與模糊集結(jié)合起來的一個關(guān)鍵方法是,首先將各屬性模糊集中的元素作為數(shù)據(jù)庫的屬性對待,然后在關(guān)聯(lián)規(guī)則挖掘的剪枝步驟中將具有相同屬性的項集刪除。

        假設(shè)D是一個典型事務(wù)的集合,即數(shù)據(jù)庫,記為D=t,t,t,…,t,其中t1≤i≤n為D中的第i個事務(wù),數(shù)據(jù)庫所包含的屬性為集合R=r,r,r,…,r,其中r1≤j≤m即數(shù)據(jù)庫中所有字段,d為數(shù)據(jù)項。

        引入模糊集概念,將R=r,r,r,…,r中的屬性r根據(jù)領(lǐng)域?qū)<抑R劃分為若干模糊集,r=r,r,r,…,rh>0,相應(yīng)的隸屬度函數(shù)為fr={fr, fr,…, fr},事務(wù)數(shù)據(jù)庫D轉(zhuǎn)化為具有更細屬性劃分的數(shù)據(jù)庫D。

        在傳統(tǒng)的布爾關(guān)聯(lián)規(guī)則及量化關(guān)聯(lián)規(guī)則的挖掘中,事務(wù)對屬性的支持計數(shù)(vote)是以該事務(wù)在所有事務(wù)中出現(xiàn)的次數(shù)來計算的。

        規(guī)則XY在事務(wù)數(shù)據(jù)庫D中的支持度(support)S是事務(wù)集中包含X和Y的事務(wù)數(shù)與事務(wù)總數(shù)之比,記為S(XY),即

        S(XY)=|{T:X∪YT,T∈D}|/|D|

        規(guī)則XY在交易集中的可信度(confidence)C是指包含X和Y的事務(wù)數(shù)與包含X的事務(wù)數(shù)之比,記為C (XY),即C(XY)=|{T:X∪YT,T∈D}|/|{T:XT,T∈D}|。

        在進行挖掘之前,和傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘一樣,必須定義最小支持度S和最小置信度C。

        而在模糊關(guān)聯(lián)規(guī)則的挖掘中,支持計數(shù)是通過具有模糊屬性數(shù)據(jù)庫D的數(shù)據(jù)項對各屬性的隸屬度來計算的,是一個介于0和1之間的實數(shù)。數(shù)據(jù)庫D中數(shù)據(jù)項d對于其模糊屬性r的隸屬度為:

        d= fd

        屬性r,其中j表示第j個模糊屬性集,即第j列,p表示該屬性集中的第p個屬性。

        對于任一屬性,將全部事務(wù)對該屬性的支持計數(shù)相加后除以總的事務(wù)數(shù)n,即得到全部事務(wù)對該列所對應(yīng)屬性的支持度:

        vote. R=dn

        如vote.r=(d+d+d+…+d)/n即為所有事務(wù)對屬性r的支持度。在得到所有屬性的支持度后,將支持度小于S的屬性刪除,就得到了頻繁1-項集L。

        下面的步驟和傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘相似。對頻繁j-項集Lj(j≥1)進行連接運算,得到候選(j+1)-項集C,計算C中的每個項集的支持度S:

        假設(shè)<X,A>代表一個“項集-模糊集”對,X是屬性x的集合x∈X,A是模糊集a的集合a∈A。每個事務(wù)的支持計數(shù)是由x的隸屬度函數(shù)來計算的,用tx來表示第i個事務(wù)中x的值,Atx是t的隸屬度,一個事務(wù)的支持計數(shù)大于0,即其滿足<X,A>。在得到一個事務(wù)中所有x的隸屬度之后,就可以得到該記錄t對<X,A>的總支持計數(shù):

        Z=∏atx

        將所有記錄的支持計數(shù)相加,除以總的事務(wù)TotalD,就得到了支持度S。

        S=

        在得到所有項集的支持度后,對C剪枝。剪枝包括三個部分的內(nèi)容:①刪除C中支持度小于S的項集;②刪除C中的含有非頻繁集的項集;③刪除C中含有屬于同一模糊集屬性的項集,這樣的項集對于最后產(chǎn)生的關(guān)聯(lián)規(guī)則沒有實際意義,既可簡化算法,同時也降低了計算量。重復(fù)以上步驟,直到L=Φ,得到包含最多屬性的頻繁j-項集L(滿足j為最大值,且各項集的支持度大于S),由L產(chǎn)生頻繁項集L,最后由L產(chǎn)生關(guān)聯(lián)規(guī)則。

        4結(jié)束語

        數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用是一個將信息轉(zhuǎn)化為商業(yè)知識的過程。首先,明確數(shù)據(jù)挖掘的對象,確定商業(yè)應(yīng)用主題;其次,圍繞商業(yè)主體收集數(shù)據(jù)源,并對數(shù)據(jù)進行清理、轉(zhuǎn)換、集成等技術(shù)處理,并選取合適的數(shù)據(jù)挖掘算法,構(gòu)建數(shù)據(jù)挖掘模型,從目標數(shù)據(jù)中提取有價值的商業(yè)知識,對結(jié)果進行分析和驗證,調(diào)整數(shù)據(jù)挖掘模型,從而保證結(jié)果的可靠性和實用性。最后,將商業(yè)知識集成到電子商務(wù)中心,融合專家知識與領(lǐng)域規(guī)則,為商業(yè)活動提供決策支持。

        隨著電子商務(wù)發(fā)展的勢頭越來越強勁,面向電子商務(wù)的數(shù)據(jù)挖掘?qū)⑹且粋€非常有前景的領(lǐng)域。

        參考文獻:

        [1] 張云濤,龔玲. 數(shù)據(jù)挖掘原理與技術(shù)[M]. 北京:電子工業(yè)出版社,2004.

        [2] 朱水林. 電子商務(wù)概念[M]. 北京:清華大學(xué)出版社,2004.

        [3] David Hand, Heikki Mannila, Padhraic Smyth. 數(shù)據(jù)挖掘原理[M]. 張銀奎,廖麗,宋俊,譯. 北京:機械工業(yè)出版社,2003.

        [4] 熊平,朱天清,黃天戍. 模糊關(guān)聯(lián)規(guī)則挖掘算法及其在異常檢測中的應(yīng)用[J]. 武漢大學(xué)學(xué)報,2005,30(9):841-844.

        [5] 黃解軍,萬幼川. 基于數(shù)據(jù)挖掘的電子商務(wù)策略[J]. 計算機應(yīng)用與軟件,2004,21(7):12-13.

        注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。

        猜你喜歡
        數(shù)據(jù)源數(shù)據(jù)挖掘電子商務(wù)
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        《電子商務(wù)法》如何助力直銷
        Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
        電子商務(wù)
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價研究
        關(guān)于加快制定電子商務(wù)法的議案
        跨境電子商務(wù)中的跨文化思考
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
        青青草视频网站免费观看| 欧美日韩精品久久久久| 亚洲av无码国产精品色午夜洪| 免费观看国产精品| 日韩精品免费在线视频| 极品一区二区在线视频| 娇妻在交换中哭喊着高潮| 18级成人毛片免费观看| 3亚洲日韩在线精品区| 午夜蜜桃视频在线观看| 国产又黄又硬又粗| 亚洲精品欧美二区三区中文字幕| 久久中文字幕日韩无码视频| 精品久久免费国产乱色也| 手机在线看片| 国外亚洲成av人片在线观看| 成人国产永久福利看片| 91久久大香伊蕉在人线国产| 成人丝袜激情一区二区| 在线永久免费观看黄网站| 九一成人AV无码一区二区三区| 亚洲综合精品一区二区| 日本边添边摸边做边爱喷水| 精品国产av最大网站| 天天插天天干天天操| 国产蜜桃传媒在线观看| 欧美丰满熟妇性xxxx| 久久久久无码国产精品不卡 | 国产精品久久久久9999吃药| 人妻无码中文专区久久五月婷| 久久91精品国产91久久麻豆| 国产成人国产三级国产精品| 人妻无码一区二区不卡无码av| www.狠狠艹| 日韩女同一区在线观看| 一本色综合网久久| 久久久噜噜噜www成人网| 国产视频嗯啊啊啊| 婷婷丁香开心五月综合| 免费网站看v片在线18禁无码| 在线观看视频一区|