崔剛
【摘要】 本文借鑒互聯(lián)網(wǎng)協(xié)同過濾算法,根據(jù)電信運(yùn)營商實(shí)際狀況,合理選取輸入指標(biāo),探索“基于用戶”和“基于物品”算法和用途的差異,將算法應(yīng)用到手機(jī)應(yīng)用個性化推薦中,應(yīng)用效果提升明顯,較好地符合互聯(lián)網(wǎng)時代客戶需求特征。
【關(guān)鍵詞】 大數(shù)據(jù) 協(xié)同過濾算法 智能推薦 互聯(lián)網(wǎng)應(yīng)用
一、引言
4G時代,用戶流量規(guī)模及價值提升至關(guān)重要,河南移動公司一直致力于以客戶需求為中心,以運(yùn)營為導(dǎo)向的流量經(jīng)營研究。積極踐行傳統(tǒng)電信服務(wù)轉(zhuǎn)型中“數(shù)字內(nèi)容和應(yīng)用”的發(fā)展模式理念,通過應(yīng)用個性化應(yīng)用推薦的探索,逐步完善“數(shù)字內(nèi)容及應(yīng)用精益運(yùn)營體系”的建設(shè)目標(biāo)。
傳統(tǒng)的手機(jī)應(yīng)用推薦沒有深入識別真正有需求的客戶,盲目下發(fā)營銷推薦短信,客戶轉(zhuǎn)化率不足1%,造成資源的浪費(fèi)且降低了客戶滿意度。本課題將重點(diǎn)解決根據(jù)用戶消費(fèi)行為快速、準(zhǔn)確找到手機(jī)應(yīng)用潛在目標(biāo)用戶的問題,通過引入互聯(lián)網(wǎng)協(xié)同過濾算法,預(yù)先計(jì)算相似度, 從而迅速對推薦要求做出響應(yīng),滿足真正有需求的客戶,避免客戶騷擾,提升客戶轉(zhuǎn)化率,驅(qū)動流量增長。
二、 實(shí)施思路
2.1 實(shí)施方法
手機(jī)應(yīng)用個性化推薦的核心技術(shù)是根據(jù)用戶的興趣特點(diǎn)和購買行為,向用戶推薦用戶感興趣的物品或信息?;趨f(xié)同過濾的推薦機(jī)制是利用集體智慧的典型方法,根據(jù)所有用戶對物品或者信息的偏好,發(fā)現(xiàn)用戶的相關(guān)性,或是發(fā)現(xiàn)物品或者信息本身的相關(guān)性,然后再基于這些關(guān)聯(lián)性進(jìn)行推薦。
2.2 模型選型
協(xié)同過濾( Collaborative Filtering, 簡稱 CF),一般是在海量的用戶對物品或者信息偏好中,發(fā)掘出小部分和目標(biāo)用戶品味比較相似的用戶成為鄰居用戶群,基于鄰居歷史偏好信息組織成一個排序的目錄,為指定用戶進(jìn)行推薦。
核心問題是:如何找到與目標(biāo)用戶相似品味的用戶集合?如何找到具有相似屬性的物品或信息?
為了解決第一個問題“找到相似品味的用戶”,采用基于用戶的協(xié)同過濾推薦機(jī)制,在用戶的歷史偏好的數(shù)據(jù)上計(jì)算用戶的相似度,基于相似用戶的歷史偏好信息,為當(dāng)前用戶進(jìn)行推薦。
針對第二個問題“找到具有相似屬性的物品或信息”,采用基于物品的協(xié)同過濾推薦機(jī)制,使用所有用戶對物品或者信息的偏好,發(fā)現(xiàn)物品和物品之間的相似度,然后根據(jù)用戶的歷史偏好信息,將類似的物品推薦給用戶。
三、實(shí)施方案
協(xié)同過濾的核心步驟,主要包括如下三個步:1)收集用戶偏好信息;2)找到相似的用戶或物品;3)計(jì)算推薦。
算法實(shí)現(xiàn)流程如圖1。
3.1 收集用戶偏好
用戶偏好度定義:根據(jù)不同行為反映用戶喜好的程度將它們進(jìn)行加權(quán),得到用戶對于物品的總體喜好,按照系統(tǒng)現(xiàn)有數(shù)據(jù),選取“日均使用頻次”作為偏好評估指標(biāo)。
應(yīng)用個性化推薦中,用戶對某種應(yīng)用的偏好度評價指標(biāo)取“日均使用頻次”。日均使用1次得1分,2次得2分,3次得3分,4次得4分,5次及以上得5分,生成評價結(jié)果清單。
3.2找到相似的用戶或物品
1)相似度計(jì)算方法:
計(jì)算基礎(chǔ):向量(Vector)
計(jì)算結(jié)果:主要是計(jì)算兩個向量的距離,距離越近相似度越大。
應(yīng)用思路:基于用戶-物品偏好的二維矩陣。
將一個用戶對所有物品的偏好作為一個向量來計(jì)算用戶之間的相似度;將所有用戶對某個物品的偏好作為一個向量來計(jì)算物品之間的相似度。
2)如何根據(jù)相似度找到“用戶 ”或“ 物品”的鄰居:
(1)固定數(shù)量的鄰居:不論鄰居的“遠(yuǎn)近”,只取最近的 K 個,作為其鄰居。
(2)基于相似度門檻的鄰居:以當(dāng)前點(diǎn)為中心,距離為 K 的區(qū)域中的所有點(diǎn)都作為當(dāng)前點(diǎn)的鄰居,此方法得到的鄰居個數(shù)不確定,但相似度不會出現(xiàn)較大的誤差。
3.3 計(jì)算推薦
1)基于用戶的協(xié)同過濾(User CF)
計(jì)算思路:
(1)建立向量:按照每個用戶對所有物品的偏好得到一個向量;(2)計(jì)算用戶相似度:通過向量間的計(jì)算得到用戶之間的相似度;(3)找到相似鄰居:通過計(jì)算方法,找到當(dāng)前用戶X的 K 鄰居群體;(4)推薦清單:根據(jù)鄰居的相似度權(quán)重及對物品的偏好,預(yù)測當(dāng)前用戶X無偏好記錄或未購買的物品,計(jì)算得到一個排序的物品列表向當(dāng)前用戶X推薦。
具體示例:對于用戶 A,根據(jù)用戶的歷史偏好,這里只計(jì)算得到一個鄰居 - 用戶 C,然后將用戶 C 喜歡的物品 D 推薦給用戶 A。
2)基于物品的協(xié)同過濾(Item CF)
計(jì)算思路:
(1)建立向量:將所有用戶對某個物品的偏好作為元素建立該物品的向量(2)得到物品相似度:通過向量間的計(jì)算得到物品之間的相似度(3)找到相似物品:通過計(jì)算方法,找到某個物品的相似物品(4)推薦清單:根據(jù)每個用戶歷史的偏好,預(yù)測當(dāng)前用戶尚未表示偏好的物品,計(jì)算得到一個排序的物品列表作為向當(dāng)前用戶推薦的清單。
具體示例:對于物品 A,根據(jù)所有用戶的歷史偏好,喜歡物品 A 的用戶都喜歡物品 C,得出物品 A 和物品 C 比較相似,而用戶 C 喜歡物品 A,那么可以推斷出用戶 C 可能也喜歡物品 C。
3)協(xié)同過濾推薦實(shí)例
假設(shè)要向U1推sohu,選擇兩個最近鄰居
基于用戶的協(xié)同過濾推薦得分:
U1:(U2 :0.85,U3:0.70, U4:0,U5:-0.79)
兩個相鄰的鄰居為U2和U3,Sohu計(jì)算推薦的得分為:(0.85*3+0.70*5)/(0.85+0.7)=3.9
基于物品的協(xié)同過濾推薦得分:
Sohu: (QQ: 0.99, WeChat: 0.92, MSN:0.72,LeTV:0.93) 兩個相鄰的鄰居為QQ和LeTV,Sohu計(jì)算推薦的得分為: (0.99*5+0.93*4)/(0.99+0.93)=4.5
3.4用戶/物品的協(xié)同過濾(UserCF/ItemCF)適用場景
UserCF適合用于內(nèi)容推薦,因?yàn)樽鰹橐环N物品,內(nèi)容的更新非???,每時每刻都有新的內(nèi)容出現(xiàn),而ItemCF需要維護(hù)一張物品相關(guān)度的表,如果物品更新很快,那么這張表也需要很快的更新,在技術(shù)上很難實(shí)現(xiàn)。絕大多數(shù)相關(guān)度表都只能做到一天一次更新,這在內(nèi)容推薦的時候是不可接受的。
而UserCF只需用戶相似度表,雖然UserCF也需要對新增用戶更新相似度表,但在內(nèi)容推薦中,內(nèi)容的更新速度遠(yuǎn)高于新入網(wǎng)用戶的加入速度,完全可以給用戶相似度高的用戶推薦熱門內(nèi)容,因?yàn)橄啾菼temCF,UserCF顯然利大于弊。
同時從技術(shù)上考慮UserCF需要維護(hù)一張用戶相似度的矩陣,ItemCF也需要維護(hù)一張物品相似度的矩陣。ItemCF適用于物品數(shù)據(jù)量遠(yuǎn)小于用戶量,物品更新速度較慢。而UserCF適用于物品數(shù)據(jù)量遠(yuǎn)大于用戶量,且物品更新速度快,推薦要求時效性高。
四、應(yīng)用情況及效益分析
在實(shí)際的流量運(yùn)營中,開展針對單用戶多應(yīng)用的組合營銷,實(shí)現(xiàn)數(shù)據(jù)驅(qū)動的“輕資源、智能化”的實(shí)時營銷?;趹?yīng)用活性將淘寶、支付寶、微信三個應(yīng)用組合為網(wǎng)絡(luò)達(dá)人系列應(yīng)用,將QQ、QQ空間、QQ音樂、微信四個應(yīng)用組合為企鵝愛好者,對比運(yùn)營。基于物品的協(xié)同過濾算法(ItemCF)得到網(wǎng)絡(luò)達(dá)人和企鵝愛好者兩個系列組合應(yīng)用的潛在目標(biāo)用戶,經(jīng)過個性化推薦運(yùn)營后,網(wǎng)絡(luò)達(dá)人系列應(yīng)用高于企鵝愛好者系列應(yīng)用的新裝用戶轉(zhuǎn)化率。淘寶應(yīng)用的新裝用戶轉(zhuǎn)化率最高為11.45%,QQ音樂新裝用戶轉(zhuǎn)化率最低為4.45%。運(yùn)營效果數(shù)據(jù)如表3。
五、結(jié)束語
通過學(xué)習(xí)互聯(lián)網(wǎng)較成熟的協(xié)同過濾算法,合理選取輸入指標(biāo),探索“基于用戶”和“基于物品”算法和用途的差異,將協(xié)同過濾算法固化到大數(shù)據(jù)分析平臺中,通過對全部目標(biāo)用戶相似度的計(jì)算,可以支持對推薦要求做出迅速響應(yīng),從而達(dá)到拉升客戶轉(zhuǎn)化率的目的,有效緩解移動公司促銷成本壓力,較好地符合互聯(lián)網(wǎng)時代客戶需求特征。
參 考 文 獻(xiàn)
[1]周軍鋒,湯顯,郭景峰;一種優(yōu)化的協(xié)同過濾推薦算法[J];計(jì)算機(jī)研究與發(fā)展;2004年10期
[2]張鋒;常會友;使用BP神經(jīng)網(wǎng)絡(luò)緩解協(xié)同過濾推薦算法的稀疏性問題[J];計(jì)算機(jī)研究與發(fā)展;2006年04期.
[3]張光衛(wèi);李德毅;李鵬;康建初;陳桂生;;基于云模型的協(xié)同過濾推薦算法[J];軟件學(xué)報;2007年10期
[4]張亮;推薦系統(tǒng)中協(xié)同過濾算法若干問題的研究[D];北京郵電大學(xué);2009年
[5]施鳳仙;陳恩紅;;結(jié)合項(xiàng)目區(qū)分用戶興趣度的協(xié)同過濾算法[J];小型微型計(jì)算機(jī)系統(tǒng);2012年07期