【摘要】在信息爆炸的電子商務(wù)時(shí)代,利用Web數(shù)據(jù)挖掘可以迅速?gòu)暮A繑?shù)據(jù)中獲取有利于商業(yè)運(yùn)作和提高競(jìng)爭(zhēng)力的信息。文章在介紹Web數(shù)據(jù)挖掘概念和常用技術(shù)的基礎(chǔ)上,闡述了其在零售業(yè)電子商務(wù)領(lǐng)域的應(yīng)用。
【關(guān)鍵詞】電子商務(wù) Web數(shù)據(jù)挖掘 零售業(yè) 關(guān)聯(lián) 聚類(lèi) 分類(lèi)
Web數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)在Web上的應(yīng)用,它利用數(shù)據(jù)挖掘技術(shù)從與WWW相關(guān)的資源和行為中抽取感興趣的、有用的模式和隱含信息,涉及Web技術(shù)、數(shù)據(jù)挖掘、計(jì)算機(jī)語(yǔ)言學(xué)等多個(gè)領(lǐng)域,是一項(xiàng)綜合技術(shù)。對(duì)于零售企業(yè),通過(guò)Web數(shù)據(jù)挖掘,不僅為企業(yè)做出正確的商業(yè)決策提供強(qiáng)有力的工具,也為商家更加深入地了解客戶(hù)需求信息和購(gòu)物行為特征提供了可能性,從而開(kāi)展有針對(duì)性的電子商務(wù)。
一、Web數(shù)據(jù)挖掘
Web數(shù)據(jù)挖掘是針對(duì)包括Web頁(yè)面內(nèi)容、站點(diǎn)拓?fù)浣Y(jié)構(gòu)、用戶(hù)訪問(wèn)信息、用戶(hù)注冊(cè)信息及電子商務(wù)交易信息等在內(nèi)的各種Web數(shù)據(jù),在一定基礎(chǔ)上應(yīng)用數(shù)據(jù)挖掘方法以發(fā)現(xiàn)有用的隱含知識(shí)的過(guò)程。Web挖掘可分為三類(lèi):Web內(nèi)容挖掘(Web Content Mining)、Web使用挖掘(Web Usage Mining)和Web結(jié)構(gòu)挖掘(Web Structure Mining)。
Web內(nèi)容挖掘。Web內(nèi)容挖掘是指從Web頁(yè)面內(nèi)容及其描述信息中獲取有價(jià)值的知識(shí)或模式的過(guò)程,它又可分為Web文本挖掘和Web多媒體挖掘兩種數(shù)據(jù)挖掘方式。Web文本挖掘的數(shù)據(jù)對(duì)象既可以是結(jié)構(gòu)化的,也可以是非結(jié)構(gòu)化的、半結(jié)構(gòu)化的。Web內(nèi)容挖掘可以完成概括某些特定文本內(nèi)容、對(duì)文本集合進(jìn)行分類(lèi)或聚類(lèi),以及進(jìn)行Web文檔趨勢(shì)預(yù)測(cè)等工作。多媒體信息挖掘的挖掘?qū)ο髣t是Web上的音頻、視頻數(shù)據(jù)和圖像等。
Web使用挖掘。Web使用挖掘目的是從用戶(hù)訪問(wèn)Web時(shí)在服務(wù)器上留下的訪問(wèn)記錄中抽取感興趣的知識(shí)。挖掘?qū)ο笾饕欠?wù)器上的日志信息,包括服務(wù)器日志、代理服務(wù)器日志和客戶(hù)端的Cookie等。通過(guò)分析關(guān)于用戶(hù)訪問(wèn)和交互的信息,發(fā)現(xiàn)用戶(hù)感興趣的模式,更好地理解用戶(hù)的行為,從而改進(jìn)站點(diǎn)的結(jié)構(gòu),為用戶(hù)提供個(gè)性化的服務(wù)。
Web結(jié)構(gòu)挖掘。Web結(jié)構(gòu)挖掘是從Web的組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識(shí),Web結(jié)構(gòu)包括不同網(wǎng)頁(yè)之間的超鏈接結(jié)構(gòu)和一個(gè)網(wǎng)頁(yè)內(nèi)部的樹(shù)形結(jié)構(gòu),以及文檔URL中的目錄路徑結(jié)構(gòu)等。通過(guò)文檔之間的超鏈接,可以挖掘出文檔間關(guān)聯(lián)關(guān)系所代表的信息,從而幫助發(fā)現(xiàn)用戶(hù)相關(guān)主題的權(quán)威頁(yè)面和進(jìn)行頁(yè)面等級(jí)劃分;通過(guò)分析Web網(wǎng)頁(yè)內(nèi)部樹(shù)形結(jié)構(gòu),可以發(fā)現(xiàn)與給定頁(yè)面集合相關(guān)的其它頁(yè)面。
二、使用的Web數(shù)據(jù)挖掘技術(shù)
首先,關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則主要關(guān)注事務(wù)內(nèi)在關(guān)系。關(guān)聯(lián)規(guī)則挖掘就是挖掘出用戶(hù)在一個(gè)訪問(wèn)期間(session)從服務(wù)器上訪問(wèn)的頁(yè)面/文件之間的關(guān)系,找出在某次服務(wù)器會(huì)話中最經(jīng)常一起出現(xiàn)的相關(guān)頁(yè)面。挖掘發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則往往是指支持度超過(guò)預(yù)設(shè)閥值的一組訪問(wèn)網(wǎng)頁(yè),這些網(wǎng)頁(yè)之間可能并不存在直接的引用(Reference)關(guān)系。
關(guān)聯(lián)分析是尋找在同一個(gè)事件中出現(xiàn)的不同項(xiàng)的相關(guān)性,比如在一次購(gòu)買(mǎi)活動(dòng)中所買(mǎi)不同商品的相關(guān)性。序列模式與此類(lèi)似,它尋找的是事件之間時(shí)間上的相關(guān)性,如對(duì)股票漲跌的分析。以市場(chǎng)貨籃這個(gè)典型例子分析關(guān)聯(lián)規(guī)則?!霸谫?gòu)買(mǎi)面包和黃油的顧客中,有90%的人同時(shí)也買(mǎi)了牛奶“(面包+黃油+牛奶)。用于規(guī)則發(fā)現(xiàn)的對(duì)象主要是事務(wù)型數(shù)據(jù)庫(kù),分析的是售貨數(shù)據(jù),也稱(chēng)貨籃數(shù)據(jù)。以下給出的數(shù)學(xué)模型用來(lái)描述關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)問(wèn)題:增長(zhǎng)、STEM、AIS、DHP等算法分類(lèi)發(fā)現(xiàn)-Y在事務(wù)集D上的支持度support(X∪Y)=s??尚哦葹閏,如果c=support(X∪Y)*100/support(X),則說(shuō)明D中包含X的事務(wù)中有c%的事務(wù)同時(shí)也包含了Y??尚哦日f(shuō)明了蘊(yùn)涵的強(qiáng)度,而支持度說(shuō)明了規(guī)則中所出現(xiàn)模式的頻率。具有高可信度和強(qiáng)支持度的規(guī)則稱(chēng)為“強(qiáng)規(guī)則”(strong rules)。關(guān)聯(lián)規(guī)則發(fā)現(xiàn)任務(wù)的本質(zhì)是要在數(shù)據(jù)庫(kù)中發(fā)現(xiàn)強(qiáng)關(guān)聯(lián)規(guī)則。利用這些關(guān)聯(lián)規(guī)則可以了解客戶(hù)的行為,這對(duì)于改進(jìn)零售業(yè)等商業(yè)活動(dòng)的決策很有幫助。
其次,序列模式。序列模式分析描述的問(wèn)題是:在給定交易序列數(shù)據(jù)庫(kù)中,每個(gè)序列是按照交易時(shí)間排列的一組交易集,挖掘序列函數(shù)作用在這個(gè)交易序列數(shù)據(jù)庫(kù)上,返回該數(shù)據(jù)庫(kù)中出現(xiàn)的高頻序列。在進(jìn)行序列模式分析時(shí),同樣也需要有用戶(hù)輸入最小值信度c和最小支持度s。序列模式主要關(guān)注事務(wù)之間的關(guān)系。序列模式數(shù)據(jù)挖掘就是挖掘出交易集之間有時(shí)間序列關(guān)系的模式,在訪問(wèn)日志中發(fā)現(xiàn)所有滿(mǎn)足用戶(hù)規(guī)定的最小支持度s的大序列模式,尋找用戶(hù)普遍訪問(wèn)的規(guī)律(例如通過(guò)序列模式分析,能發(fā)現(xiàn)數(shù)據(jù)庫(kù)中形如“在某一段時(shí)間內(nèi),顧客購(gòu)買(mǎi)商品A,接著購(gòu)買(mǎi)商品B,而后購(gòu)買(mǎi)商品C,即序列A),預(yù)測(cè)用戶(hù)的訪問(wèn)趨向,用來(lái)直接指導(dǎo)經(jīng)營(yíng)活動(dòng),給客戶(hù)提供最直接、最周到的服務(wù)。例如當(dāng)訪問(wèn)者瀏覽到某頁(yè)面時(shí),檢查他的瀏覽所符合的序列模式,井在顯眼的位置提示“訪問(wèn)該頁(yè)面的人通常接著訪問(wèn)”的若干頁(yè)面。
再次,分類(lèi)聚類(lèi)。分類(lèi)技術(shù)是把數(shù)據(jù)項(xiàng)映射到預(yù)先定義好的類(lèi)中,即對(duì)新添加到數(shù)據(jù)庫(kù)里的數(shù)據(jù)進(jìn)行分類(lèi)。分類(lèi)分析的輸入集是一組記錄集合和幾種標(biāo)記,按標(biāo)記分類(lèi)記錄,然后檢查這些標(biāo)定的記錄,描述出這些記錄的特征。分類(lèi)規(guī)則可以挖掘用戶(hù)群的訪問(wèn)特征(某些共同的特性)。分類(lèi)要解決的問(wèn)題是為一個(gè)事件或?qū)ο髿w類(lèi)。設(shè)有一個(gè)數(shù)據(jù)庫(kù)和一組具有不同特征的類(lèi)別(標(biāo)記),該數(shù)據(jù)庫(kù)中的每一個(gè)記錄都賦予一個(gè)類(lèi)別的標(biāo)記,這樣的數(shù)據(jù)庫(kù)稱(chēng)為示例數(shù)據(jù)庫(kù)或訓(xùn)練集。分類(lèi)分析就是通過(guò)分析示例數(shù)據(jù)庫(kù)中的數(shù)據(jù),為每個(gè)類(lèi)別做出準(zhǔn)確的描述或建立分析模型或挖掘出分類(lèi)規(guī)則,然后用這個(gè)分類(lèi)規(guī)則對(duì)其它數(shù)據(jù)庫(kù)中的記錄進(jìn)行分類(lèi)。在電子商務(wù)中分類(lèi)分析可以預(yù)測(cè)客戶(hù)響應(yīng),如哪些客戶(hù)最傾向于對(duì)直接郵件推銷(xiāo)做出回應(yīng),又有哪些客戶(hù)可能會(huì)換他的手機(jī)服務(wù)提供商,或進(jìn)行商店定位,如按成功的商店、一般商店和失敗商店排列得出這3類(lèi)商店各自具有的屬性。然后選擇包含位置屬性的地理數(shù)據(jù)庫(kù),分析每一預(yù)期的商店位置屬性,以確定預(yù)期的商店定位屬于哪一類(lèi)。只有那些符合成功一類(lèi)要求的商店位置才作為商店定位的候選。用于分類(lèi)分析的技術(shù)有很多,典型方法有統(tǒng)計(jì)方法的貝葉斯分類(lèi)、機(jī)器學(xué)習(xí)的判定樹(shù)歸納分類(lèi)、神經(jīng)網(wǎng)絡(luò)的后向傳播分類(lèi)等。最近數(shù)據(jù)挖掘技術(shù)也將關(guān)聯(lián)規(guī)則用于分類(lèi)問(wèn)題。另外還有一些其它分類(lèi)方法,包括k-最臨近分類(lèi)、MBR、遺傳算法、粗糙集和模糊集方法。目前,尚未發(fā)現(xiàn)有一種方法對(duì)所有數(shù)據(jù)都優(yōu)于其它方法。實(shí)驗(yàn)研究表明,許多算法的準(zhǔn)確性非常相似,其差別是統(tǒng)計(jì)不明顯,而訓(xùn)練時(shí)間可能顯著不同。一般地,大部分神經(jīng)網(wǎng)絡(luò)和涉及樣條的統(tǒng)計(jì)分類(lèi)與大部分判定樹(shù)方法相比,趨向于計(jì)算量大。
聚類(lèi)技術(shù)不同于分類(lèi),它的輸入集是未標(biāo)記的記錄。聚類(lèi)主要是把所有用戶(hù)劃分為若干組,具有相似特性(或?yàn)g覽模式)的用戶(hù)分在一組,以便制定特殊市場(chǎng)戰(zhàn)略,如自動(dòng)給一個(gè)特定的顧客聚類(lèi)發(fā)送銷(xiāo)售郵件,為一個(gè)顧客聚類(lèi)動(dòng)態(tài)地改變一個(gè)特殊的站點(diǎn)等。聚類(lèi)在電子商務(wù)上的典型應(yīng)用是幫助市場(chǎng)分析人員從客戶(hù)基本庫(kù)中發(fā)現(xiàn)不同的客戶(hù)群,并且用購(gòu)買(mǎi)模式來(lái)刻畫(huà)不同客戶(hù)群的特征。此外聚類(lèi)分析可以作為其它算法(如分類(lèi))的預(yù)處理步驟,這些算法再在生成的簇上進(jìn)行處理。聚類(lèi)技術(shù)主要有兩類(lèi):統(tǒng)計(jì)方法和神經(jīng)網(wǎng)絡(luò)方法。自組織神經(jīng)網(wǎng)絡(luò)方法和K-均值是比較常用的聚集算法。
最后,路徑分析。使用路徑分析技術(shù)進(jìn)行Web數(shù)據(jù)挖掘,主要是從由網(wǎng)站結(jié)構(gòu)構(gòu)成的圖中確定最頻繁的路徑訪問(wèn)模式,從而改進(jìn)頁(yè)面及相應(yīng)調(diào)整站點(diǎn)的結(jié)構(gòu)。另外,還可以從相似訪問(wèn)子圖的客戶(hù)中進(jìn)行分析和聚類(lèi)。
三、Web數(shù)據(jù)在電子商務(wù)中的實(shí)踐
在零售業(yè)電子商務(wù)中,Web數(shù)據(jù)挖掘主要用于商品的市場(chǎng)定位和消費(fèi)分析,以輔助制定市場(chǎng)策略,還可以用來(lái)分析購(gòu)物模式,預(yù)測(cè)銷(xiāo)售行情等。通常表現(xiàn)在以下幾點(diǎn)應(yīng)用:
首先,聚類(lèi)客戶(hù),隨著“以客戶(hù)為中心”的經(jīng)營(yíng)理念不斷深入人心,分析客戶(hù)、了解客戶(hù)并引導(dǎo)客戶(hù)的需求已成為企業(yè)經(jīng)營(yíng)的重要課題,在電子商務(wù)中客戶(hù)聚類(lèi)足一個(gè)重要的方面。通過(guò)對(duì)電子商務(wù)系統(tǒng)收集的交易數(shù)據(jù)進(jìn)行聚類(lèi)分析,對(duì)具有相似瀏覽行為或客戶(hù)指標(biāo)(如自然屬性、收入貢獻(xiàn)、交易額、價(jià)值度等)的客戶(hù)進(jìn)行分組,找出分組中客戶(hù)的共同特征,從而確定不同類(lèi)型客戶(hù)的行為模式,以便根據(jù)市場(chǎng)細(xì)分采取相應(yīng)的營(yíng)銷(xiāo)措施,促使企業(yè)利潤(rùn)的最大化。例如有一些客戶(hù)經(jīng)常瀏覽有關(guān)“家具”、“家用電器”的頁(yè)面,經(jīng)過(guò)分析這些客戶(hù)被聚類(lèi)分為一組,他們可能是將要結(jié)婚的客戶(hù),商家可以針對(duì)該群體的需求,為他們發(fā)送相應(yīng)產(chǎn)品目錄和廣告、
其次,提供個(gè)性化服務(wù)。針對(duì)不同的客戶(hù),讓其感到整個(gè)網(wǎng)站完全為他自己定制的個(gè)性化網(wǎng)站,是Web網(wǎng)站成功的秘訣。通過(guò)Web數(shù)據(jù)挖掘,分析出客戶(hù)頻繁訪問(wèn)路徑和興趣頁(yè)面集合,掌握其瀏覽興趣和基本特征,及時(shí)調(diào)整商品銷(xiāo)售信息,迎合客戶(hù)的需要,從而向客戶(hù)提供個(gè)性化服務(wù),提高客戶(hù)的滿(mǎn)意度。個(gè)性化服務(wù)的主要表現(xiàn)形式有:推薦的超鏈接列表,推薦的商品列表,推薦的廣告列表,經(jīng)裁剪的文本或圖像列表等。
再次,挖掘潛在的客戶(hù)。對(duì)一個(gè)現(xiàn)代商家來(lái)說(shuō),如何快速發(fā)現(xiàn)更多潛在的客戶(hù),提高對(duì)市場(chǎng)活動(dòng)的響應(yīng)力,從而提高市場(chǎng)占有率是至關(guān)重要的。通過(guò)web數(shù)據(jù)挖掘可以對(duì)潛在客戶(hù)信息進(jìn)行分類(lèi)和聚類(lèi)分析,再由模式分析預(yù)測(cè)哪些可能成為新客戶(hù),以幫助市場(chǎng)銷(xiāo)售人員找到正確的營(yíng)銷(xiāo)對(duì)象,Web數(shù)據(jù)挖掘還可以揭示客戶(hù)的行為習(xí)慣,發(fā)現(xiàn)在不同情況下有相似行為的新客戶(hù),幫助商家識(shí)別出潛在的客戶(hù)群,并提高對(duì)市場(chǎng)活動(dòng)的響應(yīng)力,采用積極的營(yíng)銷(xiāo)策略,不斷挖掘新客戶(hù),從而提高市場(chǎng)占有率。
最后,改進(jìn)站點(diǎn)的設(shè)計(jì)。利用Web數(shù)據(jù)挖掘,可以使網(wǎng)站管理人員更清楚地了解和掌握站點(diǎn)的運(yùn)行狀況,更合理地設(shè)計(jì)站點(diǎn)的拓?fù)浣Y(jié)構(gòu)和網(wǎng)頁(yè)的鏈接,有利于訪問(wèn)者快速找到自己所需要的信息和商品,讓客戶(hù)能夠容易地訪問(wèn)到想訪問(wèn)的頁(yè)面,節(jié)約客戶(hù)的訪問(wèn)時(shí)間,給客戶(hù)留下好的印象,增加下次訪問(wèn)的機(jī)率。
Web數(shù)據(jù)挖掘是在傳統(tǒng)的數(shù)據(jù)挖掘的基礎(chǔ)上發(fā)展起來(lái)的一門(mén)綜合技術(shù),它主要致力于在網(wǎng)絡(luò)海量的異構(gòu)的信息資源中尋找蘊(yùn)涵的有價(jià)值的知識(shí)。而近年來(lái),隨著電子商務(wù)的迅速發(fā)展,Web數(shù)據(jù)挖掘有了更大的用武之地。它能夠幫助零售業(yè)商家獲得和保留客戶(hù),延長(zhǎng)客戶(hù)駐留時(shí)間,調(diào)整市場(chǎng)策略,進(jìn)行正確的決策,促進(jìn)電子商務(wù)的發(fā)展。隨著基于Web的數(shù)據(jù)挖掘算法的不斷發(fā)展和成熟,Web數(shù)據(jù)挖掘一定會(huì)有更加廣闊的應(yīng)用前景。
參考文獻(xiàn):
[1]《數(shù)據(jù)挖掘概念與技術(shù)》.(加)Jiawei Han,Micheline Kamber,著.范明,孟小峰等,譯.機(jī)械工業(yè)出版社,2005.8.
[2]《構(gòu)件面向CRM的數(shù)據(jù)挖掘應(yīng)用》.(美)貝爾森,(美)史密斯,(美)西瑞林,著.賀奇等,譯.人民郵電出版社,2001.8.
[3]《數(shù)據(jù)挖掘原理》.David Hand,Heikki Mannila,Padhraic Smyth,著.張銀奎,廖麗,宋俊等,譯.機(jī)械工業(yè)出版社,2003.4.
[4]《Web數(shù)據(jù)挖掘:將客戶(hù)數(shù)據(jù)轉(zhuǎn)化為客戶(hù)價(jià)值》.(美)Gordon S.Linoff,Michael J.A.Berry,著.沈鈞毅,宋擒豹,燕彩蓉等,譯.電子工業(yè)出版社,2004.3.
(作者單位:吉林大學(xué))