中國電子科技集團公司電子科學(xué)研究院 李博文
近些年,互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)技術(shù)快速發(fā)展,網(wǎng)絡(luò)速度不斷提高,使用成本逐步降低,網(wǎng)絡(luò)應(yīng)用不斷增加,促進(jìn)互聯(lián)網(wǎng)在全球范圍內(nèi)得到廣泛普及。固定上網(wǎng)和移動上網(wǎng)人數(shù)劇增,據(jù)統(tǒng)計,2017年12月我國網(wǎng)民數(shù)量達(dá)到7.72億人,網(wǎng)絡(luò)普及率達(dá)到55.8%[1]。互聯(lián)網(wǎng)在生活中的各個方面給越來越多的人們帶來了巨大的便利。通過網(wǎng)絡(luò),可以瀏覽世界各地的新聞動態(tài)、下載文件資料、購買商品及服務(wù)、發(fā)布信息等等。網(wǎng)絡(luò)在這個時代發(fā)揮著巨大的作用,現(xiàn)代人的生活已經(jīng)難以離開網(wǎng)絡(luò)。然而,網(wǎng)絡(luò)中的信息量快速增長,帶來了信息過載的問題。與巨大的網(wǎng)絡(luò)信息資源相比,網(wǎng)絡(luò)用戶個體所關(guān)注的信息是極其渺小的。用戶從網(wǎng)絡(luò)中查找到其感興趣信息的過程往往會耗費大量的時間且查找效果不夠理想。
針對這個問題,研究人員提出了基于用戶行為分析的個性化推薦技術(shù)。個性化推薦技術(shù)通過對用戶歷史行為數(shù)據(jù)的分析,挖掘出用戶的興趣偏好,并將用戶感興趣的信息過濾出來并推薦給用戶,提升用戶與其關(guān)注信息的對接效率。目前許多電商、媒體網(wǎng)站,已經(jīng)應(yīng)用個性化推薦技術(shù),推薦給用戶其感興趣的商品或資訊。京東在首頁通過“今日推薦”和“猜你喜歡”等欄目向不同用戶推薦不同商品,個性化推薦技術(shù)為京東貢獻(xiàn)了10%的訂單。Google News通過應(yīng)用個性化推薦系統(tǒng),點擊率提升了38%。顯然,個性化推薦系統(tǒng)在網(wǎng)絡(luò)中發(fā)揮著重要作用,提升了用戶體驗以及運營者收益。
本文將對基于用戶行為分析的個性化推薦技術(shù)的流程以及相關(guān)的關(guān)鍵技術(shù)進(jìn)行介紹和分析,最后對技術(shù)的發(fā)展進(jìn)行了展望。
完整的個性化推薦流程涉及到用戶行為采集、用戶建模和推薦算法等3個步驟,如圖1所示。
圖1 個性化推薦技術(shù)流程
用戶行為采集指采集用戶的網(wǎng)絡(luò)行為數(shù)據(jù),包括用戶在網(wǎng)站上的各種操作行為以及發(fā)布的內(nèi)容數(shù)據(jù)。用戶建模是利用用戶行為數(shù)據(jù)來建模分析用戶的興趣偏好和關(guān)注點。推薦算法在用戶建模的基礎(chǔ)上,研究如何給用戶推薦其可能感興趣的信息,以提升信息對接效率。
用戶行為采集方式分為兩種:顯式采集(Explicit Collecting)和隱式采集(Implicit Collecting)[2]。
(1)顯式采集
顯式采集是通過在網(wǎng)站中的明顯位置設(shè)計問題表單,需要用戶在其中直接填寫提交人口統(tǒng)計類信息和興趣偏好信息等。這種方式采集的數(shù)據(jù)經(jīng)過簡單的處理,可以較快速地獲取到用戶的興趣偏好數(shù)據(jù)。其缺點是交互性差,需要用戶主動參與并且主觀性較強,填寫的數(shù)據(jù)未必能準(zhǔn)確表示用戶的興趣偏好;同時用戶的興趣偏好是會隨著時間變化,通過一次數(shù)據(jù)采集不能跟蹤到用戶興趣偏好的發(fā)展變化。
(2)隱式采集
隱式采集是對用戶行為數(shù)據(jù)的無感采集,其不需要用戶的主動配合,用戶感覺不到數(shù)據(jù)采集的過程。隱式采集的技術(shù)手段一般包括以下2種。1)埋點采集:通過在網(wǎng)站中相應(yīng)位置通過“埋點”嵌入js代碼來采集行為數(shù)據(jù);2)日志解析:通過解析網(wǎng)站服務(wù)器日志文件來獲取行為數(shù)據(jù)。隱式采集方法能夠采集到更多的數(shù)據(jù)類型(例如用戶打開的頁面鏈接、在頁面上停留的時間、交易記錄、搜索的關(guān)鍵詞、收藏、拖動、打印以及發(fā)布的內(nèi)容等)。相比顯示采集的數(shù)據(jù),這些數(shù)據(jù)不能直接表示興趣偏好,然而是用戶當(dāng)前興趣偏好的客觀反映,其對實時在線推薦有重要意義[3]。
綜上所述,可知顯式采集和隱式采集的優(yōu)缺點如表1所示。
表1 顯式采集和隱式采集的優(yōu)缺點
采集到用戶行為數(shù)據(jù)后,需要再對數(shù)據(jù)進(jìn)行處理分析得到能夠表征用戶興趣偏好的模型,這一處理分析的過程就是用戶建模[4]。處理分析中會用到統(tǒng)計、自然語言理解、機器學(xué)習(xí)、預(yù)測等算法模型來提取用戶的興趣偏好特征并計算偏好程度。用戶模型與推薦算法是相互關(guān)聯(lián)的,用戶模型的形式一般取決于所用的推薦算法[5]。目前使用較多的用戶模型一般包括以下幾種。
(1)用戶-項目評分矩陣模型
用戶-項目評分矩陣模型使用一個矩陣來記錄評分?jǐn)?shù)據(jù)。假設(shè)網(wǎng)站共有m個用戶和n個項目,則可以生成一個維的評分矩陣,如圖2所示。Rij為用戶Ui對項目Tj的偏好程度。一般情況下,Rij取值區(qū)間為(1,5),數(shù)值越大表示偏好程度越高[6]。用戶-項目評分矩陣適用于協(xié)同過濾推薦算法。
圖2 用戶-項目評分矩陣
(2)向量空間模型
向量空間模型(VSM: Vector Space Model)最早應(yīng)用于文本檢索系統(tǒng),其將對文本內(nèi)容的處理簡化為向量空間中的向量運算,形式直觀易懂。在用戶建模中,向量空間模型將用戶對各類內(nèi)容特征的偏好程度表示為向量形式。對于具有n個內(nèi)容特征關(guān)鍵詞的特征空間用戶模型可表示為為用戶對特征tk的偏好程度。向量空間模型適用于基于內(nèi)容的推薦算法,缺乏對用戶潛在興趣偏好的發(fā)掘能力。
推薦算法是推薦系統(tǒng)的核心,其研究如何快速準(zhǔn)確地從龐大的項目庫中挑選出用戶感興趣的項目,提升用戶與項目的對接效率,增強用戶體驗。常見的推薦算法可分為3大類:基于內(nèi)容過濾推薦算法、協(xié)同過濾推薦算法和混合推薦算法。
(1)基于內(nèi)容過濾推薦
基于內(nèi)容過濾推薦(Content-based Filtering)是信息過濾技術(shù)在個性化推薦領(lǐng)域的應(yīng)用和發(fā)展?;趦?nèi)容過濾推薦算法認(rèn)為:用戶未來對與其以往感興趣的項目相似的項目仍然感興趣?;诖耍趦?nèi)容過濾推薦算法從內(nèi)容角度挖掘用戶需求與項目的關(guān)聯(lián)性,計算用戶模型與項目模型的相似度來預(yù)測用戶對項目的興趣度,再通過設(shè)置閾值或TopN策略篩選相應(yīng)的項目推薦給用戶,其流程如圖3所示。
圖3 基于內(nèi)容過濾推薦流程
通常采用TF-IDF方法對內(nèi)容特征關(guān)鍵詞進(jìn)行分析處理,建立用戶和項目的向量空間模型。一般采用夾角余弦來衡量用戶與項目之間的相關(guān)性。設(shè)建立的用戶模型和項目模型分別為和則相似度)計算方法如下所示。
基于內(nèi)容過濾推薦算法優(yōu)點在于能夠處理項目冷啟動問題,給用戶推薦的項目具有可解釋性;其缺點在于推薦的結(jié)果過度特殊化,不能發(fā)現(xiàn)用戶的潛在興趣,存在用戶冷啟動問題,僅適用于文本等能夠進(jìn)行內(nèi)容分析的項目形式。
(2)協(xié)同過濾推薦
協(xié)同過濾推薦(Collaborative Filtering)也稱為社會過濾,最早由Goldberg等人于1992年提出,是當(dāng)前最為流行的推薦算法之一[7]。協(xié)同過濾推薦算法認(rèn)為:網(wǎng)絡(luò)行為相似的用戶具有相似的興趣偏好。因而可以向用戶推薦與其相似用戶喜歡的項目。協(xié)同過濾算法首先進(jìn)行用戶建模,用戶模型一般采用用戶-項目評分矩陣形式;然后需找近鄰,基于用戶模型計算用戶之間的相似度,再對待推薦用戶u,選取若干相似度高的用戶組成u的近鄰集合;最后產(chǎn)生推薦,計算用戶u對其未評分項目的估分,并對估分進(jìn)行高低排列,將估分高的項目推薦給用戶。協(xié)同過濾推薦流程如圖4所示。
圖4 協(xié)同過濾推薦流程
用戶u對其未評分項目i的評估分?jǐn)?shù)Pu,i的計算公式如下:
內(nèi)容過濾推薦算法優(yōu)點在于其推薦具有新穎性,能夠發(fā)現(xiàn)用戶的潛在興趣,能夠適應(yīng)于難以進(jìn)行內(nèi)容分析的項目(如視頻、音樂);其缺點在于當(dāng)數(shù)據(jù)稀疏時,難以尋找到近鄰,并且存在項目冷啟動問題。
(3)混合推薦
各種推薦方法都有其優(yōu)點和缺點,難以在所有場景中發(fā)揮出最佳效果。通過前兩節(jié)的分析,可以發(fā)現(xiàn)各種推薦算法的優(yōu)缺點往往是互補的。通過在推薦的不同階段實現(xiàn)推薦策略的混合,可以取長補短,發(fā)揮優(yōu)勢,避免缺陷[8]。
混合推薦一般包含以下幾種方法。加權(quán):將多種算法產(chǎn)生的推薦結(jié)果進(jìn)行加權(quán)綜合;切換:根據(jù)實際情況切換使用不同的算法;混合:混合采用多種算法產(chǎn)生的推薦結(jié)果;特征組合:一種算法使用不同算法產(chǎn)生的數(shù)據(jù)特征組合;級聯(lián):先用一種算法產(chǎn)生初步的推薦結(jié)果,再用另一種算法在初步推薦結(jié)果上進(jìn)行精煉篩選;特征擴展:一種算法產(chǎn)生的特征信息嵌入到另一種算法的特征輸入中;元級別組合:一種算法產(chǎn)生的數(shù)據(jù)模型集成到另一種算法中使用。
混合推薦能夠充分發(fā)揮各種算法的特性,適應(yīng)于更多的場景,達(dá)到更高的推薦準(zhǔn)確性。混合推薦相比于單種算法具有優(yōu)越性,但其也有自己的缺點。由于同時使用了多種算法,所以其計算量較大,耗費計算資源,推薦速度更慢。
經(jīng)過二十余年的發(fā)展,個性化推薦逐步引入了大數(shù)據(jù)、人工智能等先進(jìn)技術(shù),應(yīng)用越來越成熟,目前已經(jīng)能較好的適應(yīng)于數(shù)據(jù)稀疏、冷啟動等情況。在信息過載問題日益突出的今天,個性化推薦系統(tǒng)發(fā)揮著重要的作用。
當(dāng)前,推薦系統(tǒng)較多地專注于提升推薦的準(zhǔn)確性,而忽視了系統(tǒng)的安全性。由于推薦系統(tǒng)可以引導(dǎo)用戶的購買行為,帶來巨大的經(jīng)濟效益,因而有部分不法商家會在利益的驅(qū)使下,通過蓄意構(gòu)造的惡意行為,對推薦系統(tǒng)進(jìn)行攻擊,以達(dá)到打壓競爭對手,提高自己產(chǎn)品推薦概率的目的。而在這類行為的干擾下,推薦的準(zhǔn)確率會降低,甚至無法產(chǎn)生有效推薦,嚴(yán)重影響用戶體驗。因而,分析識別出惡意行為并消除其對項目推薦的不良影響將是未來推薦技術(shù)的重要發(fā)展方向。
[1]中國互聯(lián)網(wǎng)絡(luò)信息中心,第41次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》,2018.1.31.
[2]余俠,朱林.根據(jù)用戶反饋建立和更新數(shù)字圖書館用戶興趣模型[J].情報雜志,2004(11).
[3]郁雪.基于協(xié)同過濾技術(shù)的推薦方法研究[D].天津大學(xué)管理學(xué)院,2009.
[4]任磊.推薦系統(tǒng)關(guān)鍵技術(shù)研究[D].華東師范大學(xué)信息科學(xué)技術(shù)學(xué)院,2012.
[5]B.obasher.“Data Mining for Web Personaization”in THE ADAPTIVE WEB.vol.4321,P.Brusilovsky,et al,Eds,ed Heidelberg:Springer Berlin,2007,pp.90-135.
[6]郭韋昱.基于用戶行為分析的個性化推薦系統(tǒng)[D].南京大學(xué),2012.
[7]D.Goldberg,D.Nichols,B.M.Oki,D.Terry.Using collaborative filtering to weave an information tapestry,Commun.ACM,vol.35,iss. 12,pp.61-70,1992.
[8]Balabanovic M,Shoham Y.Fab:Content-Based,collaborative recommendation.Communications of the ACM,1997,40(3):66-72.