◆李常福
(鄭州市中心醫(yī)院 河南 450000)
基于Web數(shù)據(jù)挖掘技術(shù)的個(gè)性化推薦系統(tǒng)研究
◆李常福
(鄭州市中心醫(yī)院 河南 450000)
考慮目前電子商務(wù)網(wǎng)站快速發(fā)展及應(yīng)用趨勢(shì),結(jié)合水果網(wǎng)絡(luò)購(gòu)買(mǎi)平臺(tái)實(shí)例。基于Web數(shù)據(jù)挖掘技術(shù)構(gòu)建個(gè)性化推薦系統(tǒng),整個(gè)個(gè)性化推薦系統(tǒng)的實(shí)現(xiàn)及設(shè)計(jì)過(guò)程可為Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用提供參考。
Web數(shù)據(jù)挖掘;個(gè)性化;推薦系統(tǒng)
基于Web的數(shù)據(jù)挖掘技術(shù)就是數(shù)據(jù)挖掘技術(shù)的一個(gè)分支,離不開(kāi)數(shù)據(jù)挖掘的基本理念、原理及方法。只是將數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域縮小到了Web數(shù)據(jù)這一范疇之內(nèi),通過(guò)對(duì)Web相關(guān)數(shù)據(jù)的統(tǒng)計(jì),發(fā)現(xiàn)其核心信息,目前已在電子商務(wù)得到了深入的應(yīng)用。在購(gòu)物網(wǎng)站中,有效運(yùn)用Web數(shù)據(jù)挖掘,提取Web日志中的有用信息,找出用戶感興趣的商品及所需的服務(wù),構(gòu)建個(gè)性化推薦系統(tǒng),進(jìn)而為用戶提供個(gè)性化的商品推薦服務(wù),這種基于Web數(shù)據(jù)挖掘技術(shù)的個(gè)性化推薦系統(tǒng)不僅在一定程度上提高購(gòu)物網(wǎng)站的銷售業(yè)績(jī),同時(shí)也促進(jìn)了Web數(shù)據(jù)挖掘技術(shù)的應(yīng)用。因此,以Web數(shù)據(jù)挖掘技術(shù)為背景,研究個(gè)性化推薦系統(tǒng),具有重要的意義。為了充分說(shuō)明Web數(shù)據(jù)挖掘個(gè)性化推薦系統(tǒng)的構(gòu)建、實(shí)現(xiàn)與應(yīng)用過(guò)程,文章主要以某水果網(wǎng)絡(luò)購(gòu)買(mǎi)平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)為例進(jìn)行分析。
在網(wǎng)絡(luò)購(gòu)物平臺(tái)的應(yīng)用過(guò)程中,Web數(shù)據(jù)挖掘的主要研究對(duì)象是用戶與網(wǎng)站交互時(shí)服務(wù)器段所產(chǎn)生的日志記錄文件。它主要包括Web服務(wù)器用戶訪問(wèn)日志、代理服務(wù)器日志、客戶端日志等。文章主要針對(duì)服務(wù)器段產(chǎn)生的用戶訪問(wèn)日志進(jìn)行數(shù)據(jù)挖掘處理?;赪eb數(shù)據(jù)挖掘的水果網(wǎng)絡(luò)購(gòu)買(mǎi)平臺(tái)充分考慮了數(shù)據(jù)挖掘與分析的需要,系統(tǒng)架構(gòu)設(shè)計(jì)采用MVC架構(gòu),綜合利用SpringMVC、Spring、Hibernate等開(kāi)源框架。采取Model View Controller分層思想進(jìn)行系統(tǒng)架構(gòu)的構(gòu)建,并通過(guò)搭建MySQL數(shù)據(jù)集群完成系統(tǒng)內(nèi)數(shù)據(jù)的存儲(chǔ)。
水果網(wǎng)絡(luò)購(gòu)買(mǎi)平臺(tái)是一個(gè)具備各項(xiàng)功能的電子商務(wù)系統(tǒng),不僅需要為相關(guān)用戶提供登陸服務(wù)、水果選擇服務(wù),還需要為系統(tǒng)的管理者提供客戶訂單處理、相關(guān)公告發(fā)布以及網(wǎng)站正常運(yùn)行等服務(wù)。為了實(shí)現(xiàn)這些服務(wù)功能,該系統(tǒng)的總體設(shè)計(jì)如下。
2.1 推薦系統(tǒng)總體設(shè)計(jì)
基于水果網(wǎng)絡(luò)購(gòu)買(mǎi)平臺(tái)的實(shí)際需求結(jié)合Web數(shù)據(jù)挖掘技術(shù)本身的特點(diǎn),采用Web日志挖掘技術(shù)對(duì)系統(tǒng)中用戶訪問(wèn)日志記錄文件進(jìn)行Web數(shù)據(jù)挖掘,借助Hadoop平臺(tái)對(duì)系統(tǒng)中的用戶訪問(wèn)日志記錄文件進(jìn)行統(tǒng)計(jì)分析,找到瀏覽用戶的行為模式,挖掘用戶可能感興趣的商品,并作出合理的推薦,對(duì)統(tǒng)計(jì)分析結(jié)果匯總,為系統(tǒng)決策者決策提供理論依據(jù)。為了完成上述過(guò)程,水果網(wǎng)絡(luò)購(gòu)買(mǎi)平臺(tái)Web日志挖掘推薦系統(tǒng)功能模塊主要包括Web日志數(shù)據(jù)預(yù)處理、數(shù)據(jù)匯總展示、個(gè)性化商品推薦三個(gè)組成部分,詳細(xì)設(shè)計(jì)內(nèi)容以下進(jìn)一步闡述。
2.2 推薦系統(tǒng)詳細(xì)設(shè)計(jì)
2.2.1 數(shù)據(jù)預(yù)處理模塊設(shè)計(jì)
數(shù)據(jù)預(yù)處理是進(jìn)行數(shù)據(jù)挖掘的基礎(chǔ),特別是基于Web的數(shù)據(jù)挖掘,數(shù)據(jù)預(yù)處理則是重中之重。Web日志文件廣泛的存在于各類Web應(yīng)用中,只要用戶與Web應(yīng)用產(chǎn)生交互,在服務(wù)器后臺(tái)就會(huì)生成日志文件。然而在這些海量的日志記錄中存在著很多無(wú)用記錄和錯(cuò)誤記錄。在數(shù)據(jù)預(yù)處理的數(shù)據(jù)清洗階段就要將這些無(wú)用、錯(cuò)誤記錄刪除,提供低緯度、低冗余的數(shù)據(jù)源供其它階段使用,如圖3所示。通過(guò)初步的數(shù)據(jù)清洗,得到的日志記錄數(shù)據(jù)維度已大量減少,可應(yīng)用到下階段的工作中去。已清洗日志記錄包括請(qǐng)求用戶IP、請(qǐng)求時(shí)間戳、請(qǐng)求方法、請(qǐng)求文檔URL、被請(qǐng)求文檔URL、HTTP版本信息、請(qǐng)求返回碼和代理服務(wù)器信息,已清洗的日志記錄將會(huì)保存在系統(tǒng)數(shù)據(jù)庫(kù)visit_log表中,這個(gè)過(guò)程就是圖1的屬性提取過(guò)程,是針對(duì)本系統(tǒng)的特殊設(shè)計(jì)。
圖1 數(shù)據(jù)預(yù)處理流程
2.2.2 數(shù)據(jù)匯總展示模塊設(shè)計(jì)
數(shù)據(jù)統(tǒng)計(jì)匯總模塊主要是將數(shù)據(jù)庫(kù)中visit_log統(tǒng)計(jì)分析匯總,然后展現(xiàn)給系統(tǒng)管理人員,以供決策需要,流程如圖2所示。首先從MySql數(shù)據(jù)庫(kù)集群中讀取visit_log中的日志記錄,然后通過(guò)調(diào)用相應(yīng)的MapReduce任務(wù)處理日志記錄。通過(guò)對(duì)visit_log中的日志記錄進(jìn)行統(tǒng)計(jì)便可得到PV頁(yè)面訪問(wèn)量,IP統(tǒng)計(jì)是針對(duì)訪問(wèn)過(guò)該系統(tǒng)所有IP地址進(jìn)行的統(tǒng)計(jì)匯總。
圖2 數(shù)據(jù)匯總流程
2.2.3 個(gè)性化商品推薦模塊設(shè)計(jì)
個(gè)性化商品推薦模塊負(fù)責(zé)根據(jù)用戶的瀏覽記錄推薦該用戶可能感興趣的商品。當(dāng)用戶向網(wǎng)站系統(tǒng)發(fā)起請(qǐng)求時(shí),服務(wù)器接收用戶請(qǐng)求得到用戶IP地址,然后根據(jù)IP地址去數(shù)據(jù)庫(kù)集群中進(jìn)行匹配,如果匹配到某條記錄,通過(guò)獲取該記錄中的請(qǐng)求URL值,根據(jù)請(qǐng)求URL值可以判斷出該用戶瀏覽過(guò)哪件商品。如果匹配到多條記錄說(shuō)明數(shù)據(jù)庫(kù)中保存了多次用戶瀏覽記錄,根據(jù)請(qǐng)求URL可以判斷出該用戶瀏覽過(guò)哪些商品,根據(jù)這些商品信息可以構(gòu)建出該用戶的商品偏好矩陣,同理可以通過(guò)MapReduce任務(wù)得到當(dāng)前系統(tǒng)所有瀏覽用戶的商品偏好矩陣。得到這兩個(gè)矩陣以后便可以將這兩個(gè)矩陣作為協(xié)同過(guò)濾Mapreduce任務(wù)的出入,作業(yè)執(zhí)行完畢時(shí)即可輸出該用戶的推薦信息列表,選取排名靠前的商品推薦給用戶即可,進(jìn)而完成整個(gè)個(gè)性化推薦過(guò)程,該模塊的詳細(xì)流程設(shè)計(jì)如圖3所示。
圖3 個(gè)性化推薦模塊流程
從上述分析可以看出,基于Web數(shù)據(jù)挖掘技術(shù)的個(gè)性化推薦系統(tǒng)整體實(shí)現(xiàn)思路和過(guò)程并不是很復(fù)雜,但有些關(guān)鍵技術(shù)需要進(jìn)行深入研究和不斷深化;一是Web日志文件用戶識(shí)別方法,主要是為了杜絕誤識(shí)別現(xiàn)象的發(fā)生;二是協(xié)同過(guò)濾推薦算法,通過(guò)對(duì)推薦算法的優(yōu)化可提高推薦效果;三是Web服務(wù)器的性能,可通過(guò)構(gòu)建可擴(kuò)展的Web服務(wù)器集群來(lái)解決單機(jī)性能的限制,這些將是個(gè)性化推薦系統(tǒng)構(gòu)建和應(yīng)用過(guò)程中需要進(jìn)一步細(xì)化、深入研究的關(guān)鍵問(wèn)題。
[1]李彬,劉莉莉.基于MapReduce的Web日志挖掘[J].計(jì)算機(jī)工程與應(yīng)用,2012.