張欣悅
(深圳技師學院 信息技術系,廣東 深圳 518000)
電子商務推薦系統(tǒng)定義為:利用電子商務網(wǎng)站向用戶提供商品信息和建議,幫助客戶決定應該購買什么產(chǎn)品,模擬銷售人員幫助客戶完成購買過程。它是一個基于客戶網(wǎng)上購物的以商品為推薦對象的個性化推薦系統(tǒng),為客戶推薦符合其興趣愛好的商品。分析客戶的消費偏向,向每個客戶具有針對性地推薦的產(chǎn)品,幫助客戶從龐大的商品目錄中挑選真正適合自己需要的商品。電子商務推薦系統(tǒng)在幫助了客戶,提高了客戶對商務活動的滿意度。同時,還能將電子商務網(wǎng)站的瀏覽者轉變?yōu)橘徺I者,提高電子商務網(wǎng)站的交叉銷售能力,提高客戶對電子商務網(wǎng)站的忠誠度,從而換來對電子商務站點的進一步支持。
電子商務推薦系統(tǒng)主要由三大部分構成:輸入模塊、推薦方法模塊和輸出模塊。輸入模塊用來接受用戶的輸入信息,用戶的輸入信息中最重要的是用戶對項目的評價(rating)數(shù)據(jù);推薦方法模塊用來根據(jù)一定的算法和用戶數(shù)據(jù),得出對目標用戶的推薦,該模塊是整個推薦系統(tǒng)的核心部分,個性化推薦方面的研究的很大一部分,都集中在找到好的推薦方法。輸出模塊主要是指得到的推薦以何種形式反饋給用戶。
電子商務推薦系統(tǒng)使用的技術主要有:內(nèi)容推薦技術、關聯(lián)規(guī)則,聚類,Horting圖,協(xié)同過濾技術等。
關聯(lián)規(guī)則可以尋找在同一個事件中出現(xiàn)的不同項的相關性,比如在客戶所購買不同商品之間的相關性。利用這些關聯(lián),就可以得到客戶的購買特性,并根據(jù)發(fā)現(xiàn)的這些規(guī)律采取有效的行動。這對店鋪的市場定位、商品的采購等決策問題都有重大的指導意義。同時,也能為商品推薦提供幫助。
關聯(lián)規(guī)則的目標是在數(shù)據(jù)項目中找出所有的并發(fā)關系,這種關系也稱為關聯(lián)。關聯(lián)規(guī)則有三個度量。支持度反映在交易數(shù)據(jù)中發(fā)現(xiàn)該規(guī)則的頻繁程度,置信度說明當“如果”部分為真時“那么”部分也為真的頻繁程度[2]。比如手機一外殼規(guī)則,其支持度為15%表明15%的客戶同時購買了手機和外殼,置信度為85%表明在所有購買手機的客戶中,有85%的人也購買了外殼。而提升度反映在預測結果方面,規(guī)則比只是首先假設該結果會好多少,它是關于該規(guī)則工作情況的很好度量。這了挖掘出有意義的關聯(lián)規(guī)則,一般都需要提供最小支持度和最小置信度。
i)找出事務數(shù)據(jù)庫中所有大于等于用戶指定的最小支持度的頻繁項集;
ii)利用頻繁項集生成所有的關聯(lián)規(guī)則,根據(jù)用戶設定的最小置信度進行取舍,最后得到強關聯(lián)規(guī)則。
(1)關聯(lián)規(guī)則的定義:關聯(lián)規(guī)則就是在一個交易數(shù)據(jù)庫中統(tǒng)計購買了商品集X的交易中有多大比例的交易同時購買了商品集Y,得到的關聯(lián)規(guī)則表示為:X=>Y[s%,c%]
s表示關聯(lián)規(guī)則的支持度,c表示關聯(lián)規(guī)則的置信度。
關聯(lián)規(guī)則的發(fā)現(xiàn)算法很多,如Apriori,AprioriTid,DHP,F(xiàn)P-tree等。
(2)關聯(lián)規(guī)則的算法過程
i)使用關聯(lián)規(guī)則發(fā)現(xiàn)算法找出所有滿足最小支持度和最小置信度的關聯(lián)規(guī)則R;
為破解高校科技成果轉化中的關鍵問題和難點,推動高校科技成果轉化,浙江省開展了建設高??萍冀?jīng)紀人制度試點工作,高??萍冀?jīng)紀人主要負責對技術轉移項目進行正確的評估和論證,為企業(yè)和學校提供、傳遞技術轉移供需信息,組織并參與技術成果的商業(yè)化應用和產(chǎn)業(yè)化活動,對技術轉移活動進行全過程管理[5]。
ii)找出R中所有被客戶支持的關聯(lián)規(guī)則R1,即關聯(lián)規(guī)則左邊的所有商品都被客戶購買;
iii)找出被關聯(lián)規(guī)則R1所預測并且沒有被客戶所購買的所有商品P。
根據(jù)P中商品在關聯(lián)規(guī)則R1中的置信度排序,如果某商品被多個規(guī)則預測,則取置信度最大者作為排序依據(jù),挑選前N個商品作為算法輸出。
通過比較用戶之間喜好的相似性,使用統(tǒng)計技術尋找與目標客戶有相同喜好的鄰居;然后根據(jù)目標客戶多個鄰居的觀點產(chǎn)生向目標客戶的推薦。
基于最近鄰居的協(xié)同過濾算法主要分為三個階段:
(1)對用戶已經(jīng)購買的商品進行建模
用m*n階客戶-商品矩陣表示,Ri,j=1,如果第i個客戶購買了第j件商品;Ri,j=0,如果第i個客戶沒有購買第j件商品。
通過奇異值分解將m*n階客戶-商品矩陣變換為m*k階矩陣,這種表示稱為降維表示,可以部分解決原始表示存在的稀疏性、縮放性和同義詞問題。
(2)尋找目標客戶所對應的鄰居
鄰居形成階段:關鍵在于計算客戶之間的相似性。
目標客戶:對于每個客戶u,找到它的l個鄰居N={N1,N2,…,Nl},使得 sim(u,N1)最大,sim(u,N2)次之,……。
(3)從目標客戶的鄰居中產(chǎn)生N項產(chǎn)品推薦
由目標客戶的鄰居產(chǎn)生N件商品推薦,可以采用如下兩種不同方法產(chǎn)生推薦:
i)最頻繁項目推薦:掃描目標客戶每一個鄰居的購買數(shù)據(jù),對其購買的商品進行計數(shù),選擇出現(xiàn)頻率最高且目標客戶沒有購買的前N件商品最為推薦結果;
ii)基于關聯(lián)的推薦:類似于前面介紹的基于關聯(lián)規(guī)則的推薦算法,只是將目標客戶的鄰居作為算法的輸入。
基于內(nèi)容的推薦起源于信息檢索領域,它利用資源和用戶興趣的相似性來過濾信息。首先分析項目的內(nèi)容,根據(jù)用戶評價過的項目建立用戶的興趣模型,即用戶描述文件。根據(jù)用戶描述文件的不同又可以分為基于向量空間模型的推薦、基于關鍵詞分類的推薦、基于領域分類的推薦和基于潛在語義索引的推薦。
為了更好地區(qū)別用戶興趣之間的差異,曾春等提出了一種基于概率模型的文本推薦方法,把用戶興趣文件表示為用戶對不同領域感興趣的概率,先建立一個領域分類模型,然后計算所有文檔和用戶在這個分類模型上的概率分布,用該概率分布來表達文檔和用戶興趣[2]?;趦?nèi)容的推薦利用資源和用戶興趣的相似性來過濾信息。首先分析項目的內(nèi)容,根據(jù)用戶評價過的項目建立用戶的興趣模型,即用戶描述文件。根據(jù)用戶描述文件的不同又可以分為基于向量空間模型的推薦、基于關鍵詞分類的推薦、基于領域分類的推薦和基于潛在語義索引的推薦。這種方式直接、簡單,推薦結果易于解釋??梢泽w現(xiàn)用戶興趣的多樣性,而且由于用戶感興趣領域的個數(shù)遠小于關鍵詞的個數(shù),算法的運算速度也得到了提高。
傳統(tǒng)的協(xié)同過濾推薦技術根據(jù)用戶顯式評分產(chǎn)生推薦結果,不僅用戶使用不方便,而且不能有效地解決數(shù)據(jù)稀疏問題及最初評價問題等經(jīng)典問題。隨著www的發(fā)展,Web本身就是一種新數(shù)據(jù)源,在Web日志中積累了大量的有用的信息,因此可以通過Web挖掘技術來獲取用戶的隱式評分,所以未來的電子商務推薦系統(tǒng)應該利用盡可能多的信息,收集多種類型的數(shù)據(jù),有效集成多種推薦技術,提供多種推薦功能,從而提供更加有效的個性化推薦服務。
目前的電子商務推薦系統(tǒng)主要面向用戶,未來電子商務系統(tǒng)除了為用戶作出個性化推薦服務外,還應集成企業(yè)資源計劃系統(tǒng)(ERP)、客戶關系管理系統(tǒng)(CRM)和供應鏈管理系統(tǒng)(SCM)等企業(yè)信息系統(tǒng),以便將企業(yè)商務活動中產(chǎn)生的大量業(yè)務數(shù)據(jù)和顧客信息轉化為知識,增強其市場分析能力,共同為企業(yè)的產(chǎn)品定價、銷售、管理等提供決策支持,增強企業(yè)的市場競爭能力。
[1]劉建國,周濤,汪秉宏.個性化推薦系統(tǒng)的研究進展[J].自然科學進展,2009(01).
[2]曾春,邢春曉,周立柱.基于內(nèi)容過濾的個性化搜索算法[J].軟件學報,2003,14(05):999-1004.