俞海瑩
(連云港職業(yè)技術(shù)學(xué)院 信息工程學(xué)院,江蘇 連云港222006)
計(jì)算機(jī)Web數(shù)據(jù)挖掘技術(shù)在現(xiàn)代商業(yè)中的應(yīng)用探討
俞?,?/p>
(連云港職業(yè)技術(shù)學(xué)院 信息工程學(xué)院,江蘇 連云港222006)
伴隨現(xiàn)代商業(yè)規(guī)模不斷的擴(kuò)展以及信息化技術(shù)不斷的發(fā)展,在對(duì)大量商業(yè)信息進(jìn)行處理之時(shí),數(shù)據(jù)挖掘技術(shù)所起到的作用是巨大的.伴隨互聯(lián)網(wǎng)的不斷普及,使得數(shù)據(jù)挖掘技術(shù)也成為現(xiàn)代商業(yè)獲取市場(chǎng)信息極為重要的一個(gè)載體.文中就Web數(shù)據(jù)挖掘技術(shù)的挖掘過程以及特點(diǎn)進(jìn)行了簡(jiǎn)要介紹,并對(duì)Web數(shù)據(jù)挖掘技術(shù)在現(xiàn)代商業(yè)里的運(yùn)用進(jìn)行了重點(diǎn)研究,以期為我國Web數(shù)據(jù)挖掘技術(shù)的應(yīng)用提供可供參考的意見和建議.
Web數(shù)據(jù)挖掘技術(shù);現(xiàn)代商業(yè);應(yīng)用
1.1 含義
從Web資源上面將知識(shí)或信息進(jìn)行抽取的過程便是Web挖掘,它把傳統(tǒng)數(shù)據(jù)的挖掘方式和思想在Web中應(yīng)用,從Web活動(dòng)或文檔中將感興趣、有用的、隱藏的、潛在的信息抽取出來.在許多方面Web技術(shù)都能發(fā)揮其作用,例如開發(fā)搜索引擎、挖掘引擎機(jī)構(gòu)、提高和改進(jìn)搜索引擎的效率和質(zhì)量,以及確定權(quán)威頁面等.此項(xiàng)技術(shù)所覆蓋的范圍非常廣,包括統(tǒng)計(jì)學(xué)、信息獲取技術(shù)、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫技術(shù)等.尤其是在電子商務(wù)的領(lǐng)域中,它通過對(duì)用戶特征進(jìn)行分析和理解,例如對(duì)用戶訪問內(nèi)容、頻率以及行為等進(jìn)行分析,將用戶特征提取出來,進(jìn)而為用戶指定較為個(gè)性的界面,從而幫助電子商務(wù)企業(yè)展開有目的性的活動(dòng).
1.2 Web數(shù)據(jù)挖掘的類別
Web數(shù)據(jù)挖掘技術(shù)最主要包括三大類:第一類是Web使用記錄的挖掘,也就是通過網(wǎng)絡(luò)將Web日志記錄挖掘出來,將潛在客戶和用戶訪問模式等信息查找出來,從而使此站點(diǎn)服務(wù)競(jìng)爭(zhēng)力得以提升.第二類便是Web內(nèi)容的挖掘,也就是指從Web文檔里面將知識(shí)抽取出來的過程.第三類則是Web的結(jié)構(gòu)挖掘,它是指通過關(guān)聯(lián)分析、聚類、小結(jié)等形式對(duì)Web上面的文檔集合內(nèi)容進(jìn)行處理,并從Web文檔的鏈接關(guān)系和組織結(jié)構(gòu)中將相關(guān)知識(shí)和信息預(yù)測(cè)出來.
2.1 Web數(shù)據(jù)挖掘技術(shù)流程
在電子商務(wù)里Web數(shù)據(jù)的挖掘過程最主要包括如下幾個(gè)階段:
2.1.1 發(fā)現(xiàn)資源
從目標(biāo)Web文檔里,任務(wù)可將相應(yīng)數(shù)據(jù)得出,這里需要關(guān)注的一點(diǎn)是信息資源有時(shí)不僅局限在在線的Web文檔里面,同時(shí)還包括新聞組、電子文檔、電子郵件、網(wǎng)站日志數(shù)據(jù)以及交易數(shù)據(jù)庫中數(shù)據(jù)等.
2.1.2 選擇和預(yù)處理信息
從獲得的Web資源中,任務(wù)會(huì)將無用信息剔除,并對(duì)有用信息進(jìn)行整理.比如,在Web文檔里將廣告鏈接、自動(dòng)識(shí)別字段或段落、多余格式標(biāo)記等予以剔除,并把數(shù)據(jù)進(jìn)行組合,使之成為具有內(nèi)在邏輯性的關(guān)系表.
2.1.3 發(fā)現(xiàn)模式
自動(dòng)的進(jìn)行模式的發(fā)現(xiàn),可在多個(gè)站點(diǎn)或同一站點(diǎn)之內(nèi)進(jìn)行.數(shù)據(jù)的發(fā)現(xiàn)主要是經(jīng)由模式識(shí)別里的數(shù)據(jù)挖掘算法來加工和分析用戶日志文件,從而將用戶訪問站點(diǎn)的習(xí)慣和流量模式予以掌握,進(jìn)而方便企業(yè)進(jìn)行決策的改進(jìn)和市場(chǎng)目標(biāo)的制定.在數(shù)據(jù)的發(fā)現(xiàn)階段所需進(jìn)行的操作主要包括:先要決定怎樣產(chǎn)生假設(shè);然后對(duì)合適工具加以選擇;接著,要發(fā)掘知識(shí)的操作;最后,對(duì)發(fā)掘知識(shí)加以證實(shí).
2.1.4 分析模式
此階段不僅需表述出結(jié)果,同時(shí)還需分析與選擇處理所提取信息,區(qū)分出最具價(jià)值的信息,并經(jīng)由決策支持工具將之上交給決策人,如果決策人不滿意,那么還需對(duì)上述操作過程加以重復(fù).最后,經(jīng)由可視化技術(shù)用圖形界面形式把挖掘成果顯示出來.
2.2 Web數(shù)據(jù)挖掘技術(shù)特點(diǎn)
此項(xiàng)技術(shù)的優(yōu)點(diǎn)非常多,例如,無需用戶將主觀評(píng)價(jià)意見提供出來;可對(duì)大規(guī)模數(shù)據(jù)量加以處理;可動(dòng)態(tài)獲取用戶的訪問模式,永不過時(shí);應(yīng)用起來非常方便等.但通常同數(shù)據(jù)倉庫相比,此技術(shù)是一個(gè)全球性、分布廣泛、巨大的信息服務(wù)點(diǎn),它會(huì)涉及到電子商務(wù)、銷售、娛樂、廣告、新聞、文化、金融等許多信息,并且其內(nèi)容異常豐富,它最大的特點(diǎn)便在于數(shù)據(jù)的半結(jié)構(gòu)化;但傳統(tǒng)數(shù)據(jù)結(jié)構(gòu)性非常強(qiáng),也就是說它里面的數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù).很明顯,Web數(shù)據(jù)挖掘相較于單個(gè)數(shù)據(jù)庫來說其數(shù)據(jù)挖掘更為復(fù)雜,并且在這過程中還會(huì)面臨許多問題,主要包括如下幾方面:
2.2.1 數(shù)據(jù)半結(jié)構(gòu)化
由于Web頁面以半結(jié)構(gòu)化的數(shù)據(jù)形式呈現(xiàn)在人們面前,它的數(shù)據(jù)結(jié)構(gòu)是不完整或不規(guī)則的,它的復(fù)雜程度相較于普通文檔要高出許多,并且它的數(shù)據(jù)結(jié)構(gòu)模式信息量非常大,而且模式變化的速度也非???絕大多數(shù)文檔都沒有排列次序,也沒有分類索引.
2.2.2 信息源動(dòng)態(tài)分布
由于Web及其數(shù)據(jù)增長(zhǎng)和更新的速度非???,并且模式不規(guī)定,所以在Web上面的信息全都是潛在、未知和隱藏的.由Web上便能將這些有用模式和未知信息發(fā)掘出來,而采用傳統(tǒng)檢索方式是很難使之得以實(shí)現(xiàn)的,目前的搜索引擎還不具有此種功能.
2.2.3 用戶群廣泛
在進(jìn)行Web網(wǎng)頁的訪問之時(shí),不同用戶具有不同的愛好興趣以及使用目的,面對(duì)如此龐雜的用戶群,是否能按照用戶的愛好興趣來對(duì)網(wǎng)頁進(jìn)行制定,又或者是否能通過所發(fā)現(xiàn)用戶,對(duì)用戶使用網(wǎng)頁進(jìn)行智能化定制,從而為用戶提供個(gè)性化的查詢服務(wù)以及信息檢索服務(wù).
現(xiàn)如今,電子商務(wù)已經(jīng)變成經(jīng)濟(jì)發(fā)展潮流的引導(dǎo)者,在電子商務(wù)中采用新戰(zhàn)略部署和技術(shù)對(duì)策對(duì)于推動(dòng)經(jīng)濟(jì)發(fā)展起到了一定的促進(jìn)作用.在電子商務(wù)里應(yīng)用Web數(shù)據(jù)挖掘技術(shù)將使企業(yè)獲取信息的能力得到極大的提升,我們可由眾多存儲(chǔ)大量信息的Web鏈接及其頁面和用戶交易數(shù)據(jù)里將相關(guān)潛在用戶群和有價(jià)值的用戶訪問模式挖掘出來,并對(duì)用戶的信息數(shù)據(jù)加以分析、轉(zhuǎn)換、抽取和處理,從而將對(duì)商業(yè)決策具有關(guān)鍵性作用的數(shù)據(jù)提取出來,進(jìn)而幫助站點(diǎn)改進(jìn)設(shè)計(jì),以便更好地為電子商務(wù)服務(wù).
3.1 對(duì)潛在客戶進(jìn)行查找和分析
通過對(duì)Web日志記錄里的規(guī)律加以探究和分析,可先對(duì)已存訪問者加以分類,并將分類關(guān)鍵屬性及其相互間的關(guān)系加以明確.對(duì)新訪問者而言,可通過在進(jìn)行Web分類之時(shí)發(fā)現(xiàn),進(jìn)而將此客戶和已分類客戶公共描述識(shí)別出來,從而對(duì)此新客戶予以正確分類.接著根據(jù)它的分類來判斷是否將此新客戶當(dāng)做潛在客戶對(duì)待.假如是潛在客戶,便可向此客戶展示一些個(gè)性化、特殊化的頁面內(nèi)容,從而使用戶服務(wù)質(zhì)量得到提升.
3.2 保留客戶
在電子商務(wù)里,銷售商和傳統(tǒng)客戶之間已經(jīng)不存在空間距,通過網(wǎng)絡(luò),使得客戶眼中的銷售商都是一樣的.為使客戶延長(zhǎng)其在網(wǎng)站上面的停留時(shí)間就需要對(duì)客戶瀏覽行為予以了解,進(jìn)而指導(dǎo)客戶的需求及興趣點(diǎn),并按照需求向客戶動(dòng)態(tài)地進(jìn)行頁面推薦,對(duì)Web頁面加以調(diào)整,提供一些特有的廣告和商品信息,讓客戶滿意,從而使客戶停留在這一網(wǎng)站上的時(shí)間得以延長(zhǎng).
3.3 客戶的聚類
在現(xiàn)代電子商務(wù)中有一個(gè)方面的內(nèi)容非常重要,那便是客戶聚類.通過將瀏覽行為非常相似的用戶加以分組處理,同時(shí)對(duì)組中客戶共同的特征進(jìn)行分析,可讓商務(wù)組織人員對(duì)客戶有更進(jìn)一步的了解,從而為客戶提供更全面、更合適的服務(wù).比如,某些客戶花費(fèi)時(shí)間在某個(gè)頁面的瀏覽上,通過分析把這些客戶分在一組.按照分析得出的聚類信息,銷售商便可得知這是一組潛在客戶,在對(duì)他們的業(yè)務(wù)活動(dòng)進(jìn)行聚類之時(shí)便要與其他客戶有所區(qū)分.對(duì)頁面內(nèi)容和頁面進(jìn)行及時(shí)調(diào)整,讓商務(wù)活動(dòng)可以在某種程度上符合客戶要求,這對(duì)銷售商和客戶來說都具有非常重要的意義.
3.4 個(gè)性服務(wù)和交叉銷售
此種銷售形式是通過CRM了解顧客的不同需求,同時(shí)經(jīng)由滿足其需求來銷售與之相關(guān)的產(chǎn)品或服務(wù)的一種新型的營(yíng)銷形式.簡(jiǎn)而言之,就是將本公司的B產(chǎn)品推銷給已經(jīng)擁有本公司A產(chǎn)品的顧客.例如,某顧客在你這里買了一款游戲機(jī),那么你就可以將電池或充電器銷售給他.交叉銷售策略之所以取得成功最為關(guān)鍵的要素便在于用戶對(duì)交叉產(chǎn)品感興趣.將數(shù)據(jù)挖掘應(yīng)用在交叉銷售中最主要是通過此種數(shù)據(jù)分析技術(shù)將商品銷售最合理的匹配找出.關(guān)聯(lián)規(guī)則、聚類分析、神經(jīng)網(wǎng)絡(luò)挖掘等數(shù)據(jù)挖掘方式都能將此問題予以很好的解決.例如,神經(jīng)網(wǎng)絡(luò)可用于細(xì)分客戶,而聚類分析則可對(duì)具備相似特征客戶加以劃分等.關(guān)聯(lián)分析技術(shù)則最適合分析購物籃,它能將經(jīng)常被用戶同時(shí)放于購物籃里面的商品信息挖掘出來,并向其他已經(jīng)購買其中某產(chǎn)品的客戶推薦其余產(chǎn)品,進(jìn)而使交叉營(yíng)銷得以實(shí)現(xiàn),從而使商品的銷售數(shù)量得以增加.除此之外,關(guān)聯(lián)規(guī)則還可通過分析對(duì)Web日志查找經(jīng)常被同時(shí)訪問的網(wǎng)頁,在情況必要時(shí)增加超鏈接,假如這些網(wǎng)頁做展示的商品信息不通,那么超鏈接便可在使商品交叉銷售中起到促進(jìn)作用.
伴隨高速發(fā)展的計(jì)算機(jī)技術(shù)以及飛速增長(zhǎng)的互聯(lián)網(wǎng)資源,尤其是電子商務(wù)不斷的崛起,Web數(shù)據(jù)挖掘技術(shù)已經(jīng)成為現(xiàn)如今人們研究的熱門領(lǐng)域之一,它的研究具有非常大的現(xiàn)實(shí)意義和極為廣闊的使用前景.經(jīng)由Web數(shù)據(jù)挖掘技術(shù),能讓企業(yè)從眾多繁雜的信息數(shù)據(jù)里面將具備潛在價(jià)值的信心挖掘出來,從而讓企業(yè)能對(duì)資源進(jìn)行合理的利用和配置,進(jìn)而為企業(yè)在進(jìn)行商務(wù)決策之時(shí)提供可靠的支撐和保障,最終讓企業(yè)能在商業(yè)競(jìng)爭(zhēng)中逐步提升自身的地位.現(xiàn)如今,國內(nèi)Web數(shù)據(jù)挖掘技術(shù)正處在學(xué)習(xí)、探索和跟蹤的階段,許多關(guān)于Web數(shù)據(jù)挖掘技術(shù)方面的知識(shí)還需要進(jìn)行進(jìn)一步的深化和研究.
〔1〕陳琳.基于Web數(shù)據(jù)挖掘的電子商務(wù)系統(tǒng)研究[D].武漢理工大學(xué),2008.
〔2〕靳明霞.數(shù)據(jù)挖掘在電子商務(wù)個(gè)性化服務(wù)中的應(yīng)用研究[D].華中科技大學(xué),2006.
〔3〕周朕.面向電子商務(wù)的WEB數(shù)據(jù)挖掘研究[D].中南大學(xué), 2011.
〔4〕辛海濤.Web數(shù)據(jù)挖掘技術(shù)及其在旅游電子商務(wù)的應(yīng)用[J].哈爾濱商業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,26(4):483-485,497.
〔5〕王改芬.Web挖掘技術(shù)在E-learning中的應(yīng)用研究[J].計(jì)算機(jī)教育,2008(12):154-158.
〔6〕劉麗珍,宋瀚濤,陸玉昌,等.Web使用挖掘的應(yīng)用研究[J].計(jì)算機(jī)科學(xué),2003,30(9):46-48.
〔7〕王飛.面向電子商務(wù)的web數(shù)據(jù)挖掘的研究與設(shè)計(jì)[D].四川大學(xué),2006.
〔8〕李娟.面向校園網(wǎng)日志分析的web數(shù)據(jù)控制技術(shù)研究[D].西安電子科技大學(xué),2010.
TP311
A
1673-260X(2013)10-0027-02