中南林業(yè)科技大學(xué)計算機信息與工程學(xué)院 劉永康 劉軍萬
個性化推薦技術(shù)的發(fā)展
中南林業(yè)科技大學(xué)計算機信息與工程學(xué)院 劉永康 劉軍萬
隨著移動互聯(lián)網(wǎng)的發(fā)展,用戶擁有了更多商品服務(wù)的選擇,與此同時用戶也會迷失在豐富的商品空間中,無法有效的找到自己喜歡的物品。推薦系統(tǒng)是幫助用戶解決這一問題的強有力手段,推薦系統(tǒng)的核心任務(wù)就是關(guān)聯(lián)用戶和信息,保留用戶、防止用戶流失,達(dá)到用戶和電商雙贏的目的。本文著重介紹并分析了幾種常用的個性化推薦技術(shù),推薦系統(tǒng)的模塊結(jié)構(gòu),并對推薦技術(shù)的發(fā)展方向進(jìn)行了展望。
移動互聯(lián)網(wǎng);推薦系統(tǒng);個性化推薦技術(shù)
隨著互聯(lián)網(wǎng)的發(fā)展,電子商務(wù)已成為人們重要的生活模式和用來推動社會、生活、經(jīng)濟(jì)和文化進(jìn)步的重要工具。人們已經(jīng)從信息匱乏的階段跨入到了信息過載的年代,客戶面對海量的信息,眾多的選擇,要從中挑選出對自己真正有價值有意義信息,無異于大海撈針。個性化推薦系統(tǒng)是解決這類問題的重要手段之一[1]。
從系統(tǒng)的結(jié)構(gòu)層次上看,可以把個性化推薦系統(tǒng)分為三個模塊:輸入功能模塊,推薦算法模塊和輸出模塊。其體系結(jié)構(gòu)如圖1所示。
圖1 個性化推薦系統(tǒng)模型圖
(1)數(shù)據(jù)收集
個性化推薦系統(tǒng)是建立在用戶信息基礎(chǔ)上的,因此,數(shù)據(jù)收集是建立個性化推薦系統(tǒng)模型的前提和必要條件。收集數(shù)據(jù)信息是通過獲取用戶信息、偏好、特征與興趣等數(shù)據(jù)的過程。數(shù)據(jù)收集過程主要有三種方式:顯式獲取,隱式獲取和啟發(fā)式獲取。
1)顯式獲取主要是通過用戶主動告知的方法獲得,需要用戶主動提供所需的各種信息,一般包括用戶對商品的評價和明確的商品描述等[7]。顯式獲取方式是獲取用戶信息,成本最低、最簡單直接的的方法,能夠客觀準(zhǔn)確地表現(xiàn)用戶的需求,得到的信息也相對準(zhǔn)確、具體、全面,結(jié)果也往往比較可靠。然而,顯式獲取方式的缺點也是顯而易見的。對于一些用戶不愿花費時間或不愿向系統(tǒng)提供自己的信息。同時,這種方法的靈活性較差,答案也存在差異性,而且實時性和可操作性也難以得到保證。此外,負(fù)面數(shù)據(jù)還會對信息產(chǎn)生侵襲性。解決侵襲性問題也是個性化推薦系統(tǒng)所面臨的一個重要挑戰(zhàn)。
2)隱式獲取是不需要用戶主動參與的,僅需由系統(tǒng)在用戶不知情的情況下通過跟蹤用戶行為,收集用戶數(shù)據(jù),推理獲取用戶偏好、興趣等信息。隱式獲取方式減少了對用戶不必要的負(fù)擔(dān),不會打擾用戶的正?;顒?。然而,這種方式所獲取的數(shù)據(jù)可能包含較多的冗余數(shù)據(jù)和無關(guān)信息,并不能真實地反映用戶真實的興趣愛好,這也就大大增加了算法學(xué)習(xí)過程中的成本和復(fù)雜度。顯示獲取方式和隱式獲取方式,對此類用戶需要采用啟發(fā)式方式來獲取用戶信息。
3)啟發(fā)式獲取方式需要為用戶提供啟發(fā)式信息,如行業(yè)學(xué)者意見、行業(yè)術(shù)語抽取等,從而實現(xiàn)領(lǐng)域知識的復(fù)用,加強用戶興趣的獲取。
(2)用戶建模
為能夠準(zhǔn)確地反映用戶各個方面、動態(tài)發(fā)展的興趣愛好,需要為用戶建立用戶模型。用戶模型的表示提供一種結(jié)構(gòu)化的進(jìn)行個性化推薦。用戶建模的過程如圖2所示。
圖2 推薦系統(tǒng)用戶建模過程圖
(3)推薦算法
推薦算法從根本上決定了個性化推薦系統(tǒng)的類型、性能以及優(yōu)劣。推薦算法是根據(jù)收集的用戶個人信息和對應(yīng)的用戶模型,通過設(shè)定算法目標(biāo)進(jìn)行學(xué)習(xí),并對特定用戶計算出推薦結(jié)果。目前,流行的推薦算法有很多種,比較常見的主要有以下幾種:基于內(nèi)容的推薦算法、協(xié)同過濾推薦算法、混合推薦算法等。
(4)推薦輸出
推薦輸出是根據(jù)推薦算法得到推薦結(jié)果,將結(jié)果展示通過預(yù)測值、結(jié)果推薦或是其他方式呈現(xiàn)給用戶。
個性化推薦算法是電子商務(wù)推薦系統(tǒng)中最核心、最重要、最關(guān)鍵的技術(shù),很大程度上決定了推薦結(jié)果的準(zhǔn)確率以及推薦系統(tǒng)性能的優(yōu)劣。目前在推薦系統(tǒng)中得到廣泛應(yīng)用的有協(xié)同過濾推薦,關(guān)聯(lián)規(guī)則推薦,混合推薦等。
2.1 協(xié)同過濾推薦算法
協(xié)同過濾推薦算法是推薦系統(tǒng)中應(yīng)用最廣泛、最成功的算法。協(xié)同過濾推薦算法的主要思想借鑒了日常生活中,身邊朋友所做的選擇產(chǎn)生的影響,其思想基于以下事實:如果自己身邊的很多志同道合的朋友都選擇購買了某種商品,那么在面臨類似購買需求時,自己也會有優(yōu)先考慮購買這種商品;如果用戶對某類商品非常鐘情,在其他某類商品與這類商品具有很高相似性情況下,那么用戶也會選擇同類商品的概率就會很大。根據(jù)以上思想,協(xié)同過濾算法首先可以分為三步:收集數(shù)據(jù),找到相似用戶和物品,進(jìn)行推薦。
(1)收集數(shù)據(jù),數(shù)據(jù)一般指的都是用戶的在系統(tǒng)中的歷史行為數(shù)據(jù),例如用戶的商品購買歷史,點贊,關(guān)注,收藏,下載行為,或者對某些物品給予了評論,給某個物品進(jìn)行評分等等,這些數(shù)據(jù)都可以被推薦算法使用,服務(wù)于推薦算法。當(dāng)然,不同的數(shù)據(jù)其準(zhǔn)確性不同,粒度也不同,那么在使用時推薦算法需要考慮到噪音所帶來的影響。
(2)尋找用戶和物品的K鄰居,計算用戶人群之間以及物品類別屬性之間的相似度。常用的相似度計算方法有:余弦相似度,皮爾遜相關(guān)系數(shù),歐幾里德距離。
(3)進(jìn)行推薦,根據(jù)目標(biāo)用戶的信息,進(jìn)行相似性的計算,找到其相似用戶群,然后根據(jù)該相似用戶群的相應(yīng)興趣、愛好等評價,對目標(biāo)用戶生成預(yù)測評價,再根據(jù)所得到的預(yù)測值將推薦結(jié)果反饋給目標(biāo)用戶。
協(xié)同過濾算法中,主要分為兩大類,基于用戶的協(xié)同過濾推薦算法和基于項目的協(xié)同過濾推薦算法。
2.1.1 基于用戶的協(xié)同過濾推薦算法
基于用戶的協(xié)同過濾推薦算法主要包含兩個步驟,首先是根據(jù)用戶信息,用戶之間相似度的計算,比較相似度值,找到目標(biāo)用戶的K鄰居,然后根據(jù)K鄰居的行為記錄,產(chǎn)生推薦結(jié)果。其中關(guān)鍵是如何找到目標(biāo)用戶的K鄰居,K鄰居的計算是根據(jù)目標(biāo)用戶和其他用戶之間的相似度而做出決定的,相似度越高,則兩個用戶的興趣屬性越相近[3]。核心思想是:根據(jù)用戶對商品或者信息的行為歷史記錄,找到與目標(biāo)用戶興趣偏好相似,行為相似的“鄰居”用戶人群K鄰居,然后,基于這個K鄰居用戶的歷史行為偏好信息,生成推薦列表,為當(dāng)前用戶進(jìn)行推薦。
2.1.2 基于項目的協(xié)同過濾推薦算法
基于用戶的協(xié)同過濾算法在互聯(lián)網(wǎng)上得到大量應(yīng)用,但是該算法有些不足之處。首先,隨著用戶的數(shù)量擴張式增長,計算用戶相似度的難度越來越大。其次對推薦的理由很難做出相應(yīng)的解釋。因此亞馬遜公司提出了另一個算法:基于項目的協(xié)同過濾推薦算法。
該算法主要是根據(jù)用戶的行為歷史記錄進(jìn)行分析,計算物品之間的相似性。該算法認(rèn)為,物品A和物品B擁有比較高的相似度,主要原因是喜歡物品A的用戶大都也喜歡物品B?;陧椖康膮f(xié)同過濾算法主要分兩個步驟,首先根據(jù)項目的信息對項目之間的相似性進(jìn)行計算,然后根據(jù)用戶的歷史行為和物品之間的相似度生成推薦列表,從而推薦給其他用戶。
協(xié)同過濾推薦算法本身具有很多優(yōu)點,因此也是推薦算法中應(yīng)用最廣的算法。首先,協(xié)同過濾推薦算法能夠應(yīng)用于復(fù)雜的非結(jié)構(gòu)化對象上,并且善于發(fā)現(xiàn)用戶新的知識興趣點。協(xié)同過濾推薦算法能夠辨析出內(nèi)容上完全不相似的對象,而用戶對于推薦內(nèi)容也是事先無法預(yù)料的。協(xié)同過濾推薦算法以用戶為中心進(jìn)行自動推薦,而推薦過程中也不需要專業(yè)知識,隨著用戶規(guī)模的不斷增大,算法的推薦性能也會隨之上升[5]。
協(xié)同過濾推薦算法同時也存在著一些不足。當(dāng)有新用戶進(jìn)入時,由于沒有該用戶的興趣、愛好等信息,因此將無法為用戶準(zhǔn)確地進(jìn)行推薦;對于新加入的項目,也因沒有用戶對該項目的評分而無法將該項目推薦給其他用戶[3]。此外,由于用戶數(shù)量和推薦對象的數(shù)量均較大,可能導(dǎo)致大量的推薦對象無法得到用戶的評分,因此這些推薦對象也就不能得到推薦。
2.2 關(guān)聯(lián)規(guī)則推薦算法
基于關(guān)聯(lián)規(guī)則的推薦算法常常被應(yīng)用于電子商務(wù)系統(tǒng)中,利用用戶點擊率或者購買訂單等歷史記錄來查找存在于商品之間的關(guān)聯(lián)性,并找出正確的促銷商品組合,根據(jù)這些組合為用戶生成推薦[2-3]。例如數(shù)據(jù)挖掘史上最經(jīng)典的案例“啤酒尿布”的問題,大部分的媽媽會告訴爸爸下班后去便利店為孩子買尿布,而爸爸在購買尿布的同時也會為自己買些啤酒,因此啤酒和尿布造就了一種關(guān)聯(lián)規(guī)則,便利店為了增加啤酒的業(yè)務(wù)額,會將啤酒放在嬰兒尿布附近,這種營銷手段即方便了顧客又有效地增加了啤酒的銷售額,同時還贏來了口碑。
根據(jù)已知發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則以及用戶的購買行為記錄進(jìn)行分析,從而向客戶作出推薦。從大量的數(shù)據(jù)中分析出數(shù)據(jù)項之間相互聯(lián)系的有關(guān)知識的關(guān)聯(lián)規(guī)則挖掘算法常采用Apriori算法或其改進(jìn)算法,該算法通常用于產(chǎn)生Top-N推薦列表,但是關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)非常耗時,計算成本以及時間復(fù)雜度比較高,因此離線進(jìn)行關(guān)聯(lián)規(guī)則的挖掘比較合適。
2.3 混合推薦算法
眾多的推薦算法都有各自的優(yōu)勢和不足,因此,為了滿足業(yè)務(wù)的需求,融合各個算法的優(yōu)點,解決數(shù)據(jù)稀疏性,增加推薦結(jié)果的準(zhǔn)確率和覆蓋率,在實際的推薦系統(tǒng)中會結(jié)合不同的推薦算法,進(jìn)行推薦,這就是混合推薦算法。其做法是在商品和用戶的相互性上,根據(jù)不同的維度,選擇不同的推薦技術(shù),先產(chǎn)生一個推薦預(yù)測結(jié)果集,再通過加權(quán)平均進(jìn)行結(jié)果的組合后反饋給用戶?;旌贤扑]的優(yōu)點能夠有效解決數(shù)據(jù)稀疏性性,增加覆蓋率,提高推薦準(zhǔn)確率,從而提高業(yè)務(wù)銷售額,缺點是計算的時間和空間復(fù)雜度增加,并增加了推薦系統(tǒng)的維護(hù)成本[7]。
個性化推薦系統(tǒng)是一個熱門的研究和應(yīng)用領(lǐng)域,理論研究正在逐漸完善,因此必然會有很多的問題出現(xiàn)在實際應(yīng)用中。雖然近年來國內(nèi)外眾多學(xué)者和企業(yè)在推薦系統(tǒng)的研究上取得了重大的突破,但是個性化推薦技術(shù)仍然有很多領(lǐng)域值得研究和探討的,歸納起來有以下幾個方面:
(1)實時性問題。大部分推薦系統(tǒng)為了保證實時性的響應(yīng),會采取降低推薦質(zhì)量這一舉措來降低計算的復(fù)雜性,從而提升推薦系統(tǒng)的實時響應(yīng)速率。因此,在滿足實時性推薦服務(wù)的同時,如何保證推薦結(jié)果的精確度,是有待進(jìn)一步深入探究的問題。
(2)數(shù)據(jù)獲取方面,目前互聯(lián)網(wǎng)上大部分個性化推薦系統(tǒng)的評分機制,都是依賴用戶對商品的主動評分,這種方式會造成數(shù)據(jù)的缺失。因此在如何獲取用戶的隱式評分機制方面有待提高。
(3)用戶數(shù)據(jù)保護(hù)和安全問題。用戶在系統(tǒng)中主動給某個物品評分的同時也將自己的購買記錄,瀏覽歷史記錄等信息一起公布于眾,所以很多用戶為了確保個人的行為記錄不外泄,就會向網(wǎng)站提供一些虛假的個人信息或者行為信息。因此,個性化推薦系統(tǒng)的發(fā)展,前提條件是必須擁有一個能夠有效地保護(hù)用戶信息隱私的機制,只有擁有了這種保護(hù)機制,才能順利實現(xiàn)個性化的推薦服務(wù)[8]。
[1]邢星.社交網(wǎng)絡(luò)個性化推薦方法研究[D].大連海事大學(xué),2013.
[2]王梟雄.基于關(guān)聯(lián)規(guī)則的軟件開發(fā)推薦技術(shù)研究[D].西安電子科技大學(xué),2013.
[3]熊宇.協(xié)同過濾的電子商務(wù)個性化服務(wù)推薦系統(tǒng)的研究[D].電子科技大學(xué),2013.
[4]李曉麗.電子商務(wù)個性化推薦系統(tǒng)的設(shè)計與實現(xiàn)[D].河南大學(xué),2013.
[5]宋瑞平.混合推薦算法的研究[D].蘭州大學(xué),2014.
[6]岳可誠.個性化推薦技術(shù)的多樣性研究[D].安徽大學(xué),2013.
[7]張秀偉,何克清,王健,劉建曉.Web服務(wù)個性化推薦研究綜述[J].計算機工程與科學(xué),2013,09:132-140.
[8]安維,劉啟華,張李義.個性化推薦系統(tǒng)的多樣性研究進(jìn)展[J].圖書情報工作,2013,20:127-135.