徐文生
[摘 要] 本文對(duì)數(shù)據(jù)挖掘的基本特點(diǎn)與流程和電子商務(wù)中Web數(shù)據(jù)挖掘與數(shù)據(jù)源進(jìn)行了分析,并對(duì)數(shù)據(jù)挖掘技術(shù)在電子商務(wù)領(lǐng)域的應(yīng)用進(jìn)行了研究探討
[關(guān)鍵詞] 數(shù)據(jù)挖掘 電子商務(wù) 數(shù)據(jù)源 應(yīng)用
一、數(shù)據(jù)挖掘的基本特點(diǎn)與流程分析
數(shù)據(jù)挖掘定義為是從存放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中的大量數(shù)據(jù)中挖掘有趣知識(shí)的過(guò)程。
數(shù)據(jù)挖掘系統(tǒng)具有以下幾個(gè)主要部分:
1.數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù):這是一個(gè)或一組數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、電子表格或其他類型的信息庫(kù),可以在數(shù)據(jù)上進(jìn)行數(shù)據(jù)清理和集成。
2.數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器:以用戶為主導(dǎo)的交互式數(shù)據(jù)挖掘過(guò)程一般是通過(guò)系統(tǒng)的用戶界面模塊,將用戶的搜索指令轉(zhuǎn)化為一組標(biāo)準(zhǔn)的SQL語(yǔ)句,交由服務(wù)器去執(zhí)行。
3.數(shù)據(jù)挖掘引擎:這是數(shù)據(jù)挖掘系統(tǒng)的基本部分,是由一組以系統(tǒng)為主導(dǎo)的數(shù)據(jù)挖掘功能模塊組成的。
4.模式評(píng)估模塊:此模塊一般使用興趣度指標(biāo)并與數(shù)據(jù)挖掘模塊交互作用,指導(dǎo)數(shù)據(jù)挖掘引擎將搜索集中在感興趣的模式上。
5.知識(shí)庫(kù):知識(shí)庫(kù)包含著領(lǐng)域知識(shí),用于指導(dǎo)搜索過(guò)程,并計(jì)算評(píng)估結(jié)果模式的興趣度指標(biāo)。
6.圖形用戶界面:本模塊在用戶和數(shù)據(jù)挖掘系統(tǒng)之間通訊,允許用戶與系統(tǒng)交互,指定數(shù)據(jù)挖掘查詢或任務(wù),提供信息,幫助確定搜索目標(biāo),根據(jù)數(shù)據(jù)挖掘的中間結(jié)果進(jìn)行探索式的數(shù)據(jù)挖掘。
二、電子商務(wù)中的Web數(shù)據(jù)挖掘與數(shù)據(jù)源
根據(jù)對(duì)Web數(shù)據(jù)的感興趣程度不同,Web數(shù)據(jù)挖掘一般可以分為三類:Web內(nèi)容挖掘(Web Contentmining)、Web結(jié)構(gòu)挖掘(Web structure mining)、Web用法挖掘(Web usage Mining)。
1.Web內(nèi)容挖掘。Web內(nèi)容挖掘指從Web內(nèi)容中發(fā)現(xiàn)有用信息。Web上的信息由各種類型的數(shù)據(jù)源組成,包括WWW、FTP、Telnet等,比如政府信息服務(wù)、數(shù)字圖書(shū)館、電子商務(wù)數(shù)據(jù),以及其他通過(guò)Web可以訪問(wèn)的數(shù)據(jù)庫(kù)。
2.Web結(jié)構(gòu)挖掘。從廣義上講,Web的結(jié)構(gòu)包含以下三個(gè)內(nèi)容;不同網(wǎng)頁(yè)間的超鏈接;網(wǎng)頁(yè)內(nèi)部的URL字符串中的目錄路徑結(jié)構(gòu)信息;網(wǎng)頁(yè)內(nèi)部?jī)?nèi)容的可以用HTML、XML表示成的樹(shù)形結(jié)構(gòu)信息。
3.Web用法挖掘(Web usage Mining)。即Web使用紀(jì)錄挖掘,在新興的電子商務(wù)領(lǐng)域有重要意義,它通過(guò)挖掘相關(guān)的Web日志紀(jì)錄,來(lái)發(fā)現(xiàn)用戶訪問(wèn)Web頁(yè)面的模式,通過(guò)分析日志紀(jì)錄中的規(guī)律,可以識(shí)別用戶的忠實(shí)度、喜好、滿意度,因而可以發(fā)現(xiàn)潛在用戶,增強(qiáng)站點(diǎn)的服務(wù)競(jìng)爭(zhēng)力。
在數(shù)據(jù)挖掘中一個(gè)很重要的步驟就是采集數(shù)據(jù)。在Web上可以用來(lái)作為數(shù)據(jù)挖掘分析的數(shù)據(jù)量比較大,而且類型眾多。電子商務(wù)的數(shù)據(jù)挖掘技術(shù)中,數(shù)據(jù)的來(lái)源主要有以下幾個(gè)方面:
一是服務(wù)器數(shù)據(jù)??蛻粼L問(wèn)站點(diǎn)時(shí)會(huì)在Web服務(wù)器上留下相應(yīng)的日志數(shù)據(jù),這些日志數(shù)據(jù)通常以文本文件的形式存儲(chǔ)在服務(wù)器上。一般包括sever logs、error logs、cookie logs等。
二是查詢數(shù)據(jù)。它是電子商務(wù)站點(diǎn)在服務(wù)器上產(chǎn)生的一種典型數(shù)據(jù)。
三是在線市場(chǎng)數(shù)據(jù)。這類數(shù)據(jù)主要是傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)里存儲(chǔ)的有關(guān)電子商務(wù)站點(diǎn)信息、用戶購(gòu)買信息、商品信息等數(shù)據(jù)。
四是Web頁(yè)面。主要是指HTML和XML頁(yè)面的內(nèi)容,包括本文、圖片、語(yǔ)音、圖像等。
五是Web頁(yè)面超級(jí)鏈接關(guān)系。主要是指頁(yè)面之間存在的超級(jí)鏈接關(guān)系,這也是一種重要的資源。
六是客戶登記信息??蛻舻怯浶畔⑹侵缚蛻敉ㄟ^(guò)Web網(wǎng)頁(yè)輸入的、要提交給服務(wù)器的相關(guān)用戶信息,這些信息通常是關(guān)于用戶的人口特征信息。
三、Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用
1.發(fā)現(xiàn)潛在客戶。通過(guò)Web數(shù)據(jù)挖掘,對(duì)新訪問(wèn)者的網(wǎng)頁(yè)瀏覽紀(jì)錄進(jìn)行分析,就可以判斷出該訪問(wèn)者是屬于哪一類客戶,是有利可圖的潛在客戶還是毫無(wú)價(jià)值的過(guò)客,從而挖掘潛在客戶。
2.個(gè)性化定制,提高客戶忠誠(chéng)度。通過(guò)對(duì)客戶訪問(wèn)信息的挖掘,就能知道客戶的瀏覽行為,從而識(shí)別用戶的忠實(shí)度、喜好、滿意度,了解客戶的興趣及需求,動(dòng)態(tài)地調(diào)整Web頁(yè)面以滿足客戶的需要。
3.改進(jìn)站點(diǎn)設(shè)計(jì)。站點(diǎn)的結(jié)構(gòu)和內(nèi)容是吸引用戶的關(guān)鍵。Web挖掘技術(shù)通過(guò)挖掘用戶的行為紀(jì)錄和反饋情況為站點(diǎn)設(shè)計(jì)者提供改進(jìn)的依據(jù),比如頁(yè)面連接情況應(yīng)如何組織、那些頁(yè)面應(yīng)能夠直接訪問(wèn)等。
4.聚類客戶。在電子商務(wù)中客戶聚類是一個(gè)重要的方面。通過(guò)分組具有相似瀏覽行為的客戶并分析組中客戶的共同特征,可以幫助電子商務(wù)的組織者更好地了解自己的客戶,及時(shí)調(diào)整頁(yè)面及頁(yè)面內(nèi)容使商務(wù)活動(dòng)能夠在更大程度上滿足客戶的要求,向客戶提供更適合、更面向客戶的服務(wù),使商務(wù)活動(dòng)對(duì)客戶和銷售商來(lái)說(shuō)更具意義。
5.廣告效益評(píng)價(jià)。利用Web挖掘?qū)Υ罅肯M(fèi)行為模式進(jìn)行分析,可精確地評(píng)價(jià)各種廣告手段的效益,并組合設(shè)計(jì)出最佳的商品宣傳組合方案,根據(jù)關(guān)心某產(chǎn)品的訪問(wèn)者的瀏覽模式來(lái)決定廣告的位置,增加廣告針對(duì)性,提高廣告的投資回報(bào)率。
無(wú)論Web挖掘技術(shù)還是基于它的電子商務(wù),都是綜合性很強(qiáng)的新技術(shù),需要進(jìn)一步的完善和發(fā)展。作為實(shí)現(xiàn)電子商務(wù)的關(guān)鍵技術(shù)之一,Web挖掘技術(shù)具有良好的發(fā)展和應(yīng)用前景,已受到并將越來(lái)越得到更加廣泛的關(guān)注。
參考文獻(xiàn):
[1]呂延杰:《電子商務(wù)教程》.電子工業(yè)出版社,2000年版
[2]王永慶:《人工智能原理與方法》.西安交通大學(xué)出版社,1998年版
[3]林杰斌 劉明德 陳 湘:《數(shù)據(jù)挖掘與OLAP理論與務(wù)實(shí)》,清華大學(xué)出版社,2003年版
[4]袁 柱:《電子商務(wù)中Web數(shù)據(jù)挖掘的應(yīng)用研究》.《商場(chǎng)現(xiàn)代化》,2007年第8S期
[5]姚國(guó)章:《中國(guó)企業(yè)電子商務(wù)發(fā)展戰(zhàn)略》.北京大學(xué)出版社,2001年版