劉星星
【摘要】電子商務(wù)與數(shù)據(jù)挖掘技術(shù)都是新興事物,在電商領(lǐng)域應(yīng)用數(shù)字挖掘技術(shù)可以幫助電子商務(wù)網(wǎng)站對海量數(shù)據(jù)進(jìn)行分析和處理,挖掘出潛在有價值的信息,從而發(fā)現(xiàn)業(yè)務(wù)發(fā)展的趨勢,幫助企業(yè)做出正確的引導(dǎo),使企業(yè)在發(fā)展中更具優(yōu)勢。
【關(guān)鍵詞】電子商務(wù);數(shù)據(jù)挖掘
隨著網(wǎng)絡(luò)科技的飛速發(fā)展,電子商務(wù)也隨之迅猛發(fā)展,充分發(fā)揮它的優(yōu)勢,獲得更多的效益。Web已經(jīng)成為企業(yè)開展電子商務(wù)的基礎(chǔ),數(shù)據(jù)挖掘是近年來隨著數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的發(fā)展而出現(xiàn)的一種全新的信息技術(shù),它融合了數(shù)據(jù)庫、人工智能以及統(tǒng)計學(xué)等多種學(xué)科的知識,從數(shù)據(jù)庫中提取有用的資料。在電商領(lǐng)域,運(yùn)用數(shù)據(jù)挖掘技術(shù),在海量的數(shù)據(jù)中提取真正有價值的資料,輔助企業(yè)更好的發(fā)展,Web數(shù)據(jù)挖掘就是在這樣的背景下與電子商務(wù)結(jié)合在一起的。
一、數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(Data Mining)是從大量的實(shí)際應(yīng)用數(shù)據(jù)中,提取人們有用的數(shù)據(jù)的過程。對所得到的經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘,除了完善選擇合適的挖掘算法外,其余一切工作都能自動地完成。整個挖掘過程應(yīng)該是交互的,數(shù)據(jù)挖掘算法是整個數(shù)據(jù)挖掘系統(tǒng)的核心部分。
二、Web數(shù)據(jù)挖掘
1、Web數(shù)據(jù)挖掘概述
Web的搜索引擎能解決部分資源問題,Web挖掘可在多方面發(fā)揮作用,如搜索引擎結(jié)構(gòu)的挖掘,搜索引擎的開發(fā),改進(jìn)和提高搜索引擎的質(zhì)量和效率。通過Web挖掘,不僅可以從大量多種信息的Web頁面中提取出我們需要的有用的知識,還可以得到關(guān)于群體用戶訪問行為和方式的普遍知識,用以改進(jìn)Web服務(wù)設(shè)計。更重要的是,通過對用戶特征的理解和分析。
2、Web數(shù)據(jù)挖掘分類
Web數(shù)據(jù)有四種類型:
(1)內(nèi)容數(shù)據(jù),即Web頁面,如HTML文檔、動畫、圖片;
(2)用戶訪問數(shù)據(jù),即描述用戶使用網(wǎng)絡(luò)資源的數(shù)據(jù),通常以日志文件的形式存在,如Server logs和Cookie logs;
(3)結(jié)構(gòu)數(shù)據(jù),如網(wǎng)頁的內(nèi)部鏈接和網(wǎng)頁間的超鏈接;
(4)在線市場數(shù)據(jù),即傳統(tǒng)的關(guān)系數(shù)據(jù)庫結(jié)構(gòu)數(shù)據(jù)。
三、電子商務(wù)推薦系統(tǒng)以及Web日志挖掘
1、電子商務(wù)及其面臨的問題
電子商務(wù)是商業(yè)領(lǐng)域的一種新興商務(wù)模式,它是以網(wǎng)絡(luò)為平臺,以現(xiàn)代信息技術(shù)為手段,以經(jīng)濟(jì)效益為中心的現(xiàn)代化商業(yè)運(yùn)轉(zhuǎn)模式,其最終目標(biāo)是實(shí)現(xiàn)商務(wù)活動的網(wǎng)絡(luò)化,自動化與智能化。隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展和社會信息水平的提高,電子商務(wù)顯示出巨大的市場價值和發(fā)展?jié)摿?。電子商?wù)可以拉近企業(yè)和客戶的距離,縮短生產(chǎn)時間,降低流通成本,提高商品產(chǎn)量,為生產(chǎn)者和消費(fèi)者提供更多的信息,擴(kuò)大客戶的選擇,提高企業(yè)的競爭力,是推動未來經(jīng)濟(jì)增長的關(guān)鍵動力。但是,當(dāng)用戶和電子商務(wù)的商家充分享受電子商務(wù)的快捷和方便時,他們同事面臨著某些新的問題,開展在線零售業(yè)務(wù)的電子商務(wù)系統(tǒng)的一個重要問題是:一方面,用戶面對網(wǎng)站上提供的琳瑯滿目的眾多商品,他們只對其中的一部分商品感興趣。用戶要實(shí)現(xiàn)一次的購買,就必須瀏覽許多不相干的網(wǎng)頁,在眾多的商品分類中找到自己所需要的商品;另一方面,商家面對眾多的用戶,不知道他們對商品的興趣和要求是什么。因此,電子商務(wù)的商家無法及時調(diào)整網(wǎng)站的頁面結(jié)構(gòu),提供給所有用戶是千篇一律的界面,缺乏個性化服務(wù)已經(jīng)成為制約電子商務(wù)發(fā)展的關(guān)鍵問題。
2、電子商務(wù)推薦系統(tǒng)
個性化服務(wù)是電子商務(wù)的發(fā)展方向,利用Web挖掘技術(shù)建立的電子商務(wù)推薦系統(tǒng)就可以有效的解決這些問題。隨著互聯(lián)網(wǎng)的普及和電子商務(wù)的發(fā)展,推薦系統(tǒng)逐漸成為電子商務(wù)IT技術(shù)的一個重要研究內(nèi)容,得到越來越多研究者的關(guān)注。目前,幾乎所有的大型電子商務(wù)系統(tǒng)都不同程度的使用了各種形式的電子商務(wù)推薦系統(tǒng)。成功的電子商務(wù)推薦系統(tǒng)都不同程度的使用了各種形式的電子商務(wù)推薦系統(tǒng)。成功的電子商務(wù)推薦系統(tǒng)將會產(chǎn)生巨大的經(jīng)濟(jì)社會效益,在電子商務(wù)系統(tǒng)中具有良好的發(fā)展和應(yīng)用前景。
(1)推薦系統(tǒng)
推薦系統(tǒng)(Recommendation System)就是根據(jù)用戶個人的喜好、習(xí)慣來向其推薦信息、商品的程序。電子商務(wù)推薦系統(tǒng)能夠直接與用戶交互,模擬商店銷售人員向用戶提供商品推薦,幫助用戶找到所需商品,從而順利完成交易。從用戶角度來看,電子商務(wù)推薦系統(tǒng)通過對收集到的用戶的訪問行為、訪問頻度、訪問內(nèi)容等瀏覽信息進(jìn)行挖掘,提供用戶的特征,獲取用戶訪問的模式,動態(tài)的調(diào)整頁面結(jié)構(gòu),為用戶實(shí)現(xiàn)主動推薦,提供個性化服務(wù)。
一般來說,推薦系統(tǒng)在電子商務(wù)活動中的作用可以歸納為以下幾點(diǎn):1、把瀏覽者轉(zhuǎn)變成購買者;2、增加交叉銷售量;3、提供個性化的服務(wù);4、提高客戶忠誠度。
(2)電子商務(wù)推薦技術(shù)使用的主要技術(shù)
目前,電子商務(wù)推薦系統(tǒng)使用的技術(shù)主要有:聚類(Clustering)、關(guān)聯(lián)規(guī)則(Association Rules)和協(xié)同過濾技術(shù)(Collaborative Filtering)。
①協(xié)同過濾推薦技術(shù)
推薦系統(tǒng)中被廣泛研究和來用的是協(xié)同過濾技術(shù)。
協(xié)同過濾技術(shù)可能的出發(fā)點(diǎn)是:興趣相近的用戶可能會對同樣的東西感興趣,所以只要維護(hù)關(guān)于用戶喜好的數(shù)據(jù),從中分析得出具有相似品味的用戶,然后就可以根據(jù)相似客戶的意見來向其推薦。另一種可能的出發(fā)點(diǎn)是:用戶可能較偏愛與其已購買的東西相類似的商品。可以根據(jù)用戶對各種東西的評價來判斷商品之間的相似程度,然后推薦與用戶興趣最接近的那些商品。
②聚類技術(shù)
聚類技術(shù)基于一組用戶進(jìn)行預(yù)測。聚類技術(shù)通過觀察與分析,可以將數(shù)據(jù)集劃分為多個類,使得同一類對象具有較高的相似度,而不同種類的對象差別較大。
③關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則挖掘是指從一個大型的數(shù)據(jù)集中發(fā)現(xiàn)有趣的關(guān)聯(lián)或相關(guān)關(guān)系,即從數(shù)據(jù)中識別出頻繁出現(xiàn)的屬性值集合,也稱為頻繁項集,然后再利用這些頻繁項集創(chuàng)建描述關(guān)聯(lián)關(guān)系的規(guī)則的過程。
人們通常只對滿足一定的支持度和置信度的關(guān)聯(lián)規(guī)則感興趣。為了發(fā)現(xiàn)有意義的關(guān)聯(lián)規(guī)則,需要給定兩個閾值:一個是最小支持度(minimum support),表示發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則必須滿足的最小支持度,簡稱為minsupport;另一個是最小置信度(minimum confidence),表示發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則必須滿足的最小置信度約束條件的所有規(guī)則。
關(guān)聯(lián)規(guī)則的挖掘問題可以分解成以下兩個子問題:
A、找出事務(wù)數(shù)據(jù)庫D中所有大于或等于用戶指定最小支持度的項目集。具有最小支持度的項目集稱為最大項目集。這里項目集的支持度是指在事務(wù)數(shù)據(jù)庫D中包含該項目集的事務(wù)的項目。
B、利用最大項目集生成所需要的關(guān)聯(lián)規(guī)則。對每一最大項目集A,找到A的所有非空子集a。
第一步頻繁項集的發(fā)現(xiàn)最耗時,是算法的瓶頸,但可以離線進(jìn)行。
3、電子商務(wù)中Web數(shù)據(jù)源的挖掘
隨著研究的深入,電子商務(wù)推薦算法應(yīng)該利用盡可能多的信息,收集多種類型的數(shù)據(jù)并有效集成,從而提供更加精確有效的推薦。Web訪問信息挖掘可以獲取用戶對網(wǎng)站使用情況的第一手資料,Web上可以用來作為數(shù)據(jù)挖掘分析的數(shù)據(jù)量比較大,其中Web服務(wù)器日志記錄著用戶訪問該站點(diǎn)時每個頁面的請求信息。Web日志記錄了用戶信息及瀏覽網(wǎng)頁情況等信息,可以說是Web挖掘的重點(diǎn)。
Web日志挖掘主要分為三個步驟:
①數(shù)據(jù)預(yù)處理。根據(jù)挖掘的目的,對原始日志文件中的數(shù)據(jù)進(jìn)行選擇、過濾、分解和合并,最后轉(zhuǎn)化為適合進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)格式,并保存到關(guān)系型數(shù)據(jù)庫表中,等待進(jìn)一步處理;
②模式識別。運(yùn)用各種算法對處理后的數(shù)據(jù)進(jìn)行挖掘,生成模式;
③模式分析。對已產(chǎn)生的模式進(jìn)行分析、綜合,過濾掉無意義的模式,將有價值的模式取出來的過程。
由于Web數(shù)據(jù)具有數(shù)據(jù)量龐大,頁面復(fù)雜,缺乏統(tǒng)一的結(jié)構(gòu)等特點(diǎn),數(shù)據(jù)預(yù)處理技術(shù)也就成為Web訪問信息挖掘中的一個關(guān)鍵問題。只有保證了數(shù)據(jù)的準(zhǔn)確性,才能正確的反映用戶的意圖,從而使以后的分析沿著正確的方向進(jìn)行。
四、總結(jié)
深入學(xué)習(xí)數(shù)據(jù)挖掘的基礎(chǔ)理論和Web數(shù)據(jù)挖掘技術(shù),分析Web挖掘在電子商務(wù)中的應(yīng)用現(xiàn)狀,詳細(xì)研究當(dāng)前電子商務(wù)中廣泛應(yīng)用的推薦系統(tǒng)。