張湛梅,張曉川/Zhang Zhanmei,Zhang Xiaochuan
(中國移動通信集團廣東有限公司 廣州510630)
2012年,手機用戶總數(shù)達10.52億,手機網(wǎng)民規(guī)模達3.88億人,手機首次超越臺式電腦成為第一大上網(wǎng)終端[1]。易觀國際分析曾預(yù)測,2013年中國移動互聯(lián)網(wǎng)市場規(guī)模將突破3 000億元人民幣,這一切意味著移動互聯(lián)時代已經(jīng)全面來臨。
移動互聯(lián)網(wǎng)產(chǎn)業(yè)鏈不斷裂變和細化,使大部分增量利潤涌向了創(chuàng)新型技術(shù)公司,電信運營企業(yè)管道化的趨勢日漸明顯。與此同時,傳統(tǒng)話音業(yè)務(wù)飽和,呈現(xiàn)不斷減少的趨勢,運營商也面臨著不小的挑戰(zhàn)[2]。在此發(fā)展形勢下,運營商需要更好地發(fā)掘滿足客戶方方面面需求的互聯(lián)網(wǎng)內(nèi)容,爭取將內(nèi)容型數(shù)據(jù)業(yè)務(wù)作為公司新的利潤增長點。
傳統(tǒng)的技術(shù)需要利用爬蟲技術(shù)抓取一定量的文本內(nèi)容,然后利用關(guān)鍵字匹配技術(shù)對文本進行分類。這種方法需要設(shè)置爬蟲服務(wù)器集群、分析服務(wù)器集群、搜索服務(wù)器集群,以定位內(nèi)容的分類和客戶的瀏覽行為[3]。這種技術(shù)能夠精準(zhǔn)識別客戶的具體偏好,但是成本較高,文本識別技術(shù)復(fù)雜,且其只重點關(guān)注客戶某一內(nèi)容業(yè)務(wù)的偏好(主要是網(wǎng)頁)。但客戶對于不同內(nèi)容業(yè)務(wù),如手機上網(wǎng)或手機閱讀,存在著一定的關(guān)聯(lián)強度,強關(guān)聯(lián)的偏好可用來實現(xiàn)不同客戶不同內(nèi)容業(yè)務(wù)的滲透推薦,解決新業(yè)務(wù)的用戶拓展難題。
為解決上述問題,本方案首先綜合所有不同性質(zhì)、不同粒度的互聯(lián)網(wǎng)內(nèi)容業(yè)務(wù)(如夢網(wǎng)業(yè)務(wù)、手機報紙、手機閱讀、手機上網(wǎng)等傳統(tǒng)的內(nèi)容業(yè)務(wù)以及手機視頻、手機游戲、全曲音樂等廣義的內(nèi)容業(yè)務(wù)),然后根據(jù)用戶對這些業(yè)務(wù)分類內(nèi)容的瀏覽行為信息,構(gòu)建一個可拓展應(yīng)用的分析系統(tǒng),最后通過設(shè)計偏好關(guān)聯(lián)網(wǎng)絡(luò)來全維度識別和剖析用戶的互聯(lián)網(wǎng)內(nèi)容偏好?;陉P(guān)聯(lián)網(wǎng)絡(luò)的移動互聯(lián)網(wǎng)內(nèi)容偏好分析系統(tǒng)如圖1所示。
管理不同數(shù)據(jù)源的數(shù)據(jù),但只關(guān)注用戶對業(yè)務(wù)內(nèi)容的閱讀行為信息。例如,對于WAP日志,涉及時間、URL、流量、會話、協(xié)議、網(wǎng)關(guān)、狀態(tài)等信息,但本技術(shù)方案只收集與用戶閱讀相關(guān)的行為數(shù)據(jù)。
根據(jù)新增內(nèi)容業(yè)務(wù)的性質(zhì),確定內(nèi)容的范圍和粒度,用行為數(shù)據(jù)進行建模,為后續(xù)內(nèi)容分類和偏好評分做好數(shù)據(jù)準(zhǔn)備工作。
對于已有分類的內(nèi)容業(yè)務(wù),直接采用其具體的內(nèi)容分類信息,并將粒度控制在閱讀行為能到達的最小層面(如中國移動的手機閱讀基地數(shù)據(jù),粒度可以到達用戶閱讀每一本圖書的具體信息,類似地,全曲音樂具體到某一首歌,手機游戲具體到某一游戲);對于沒有分類的內(nèi)容業(yè)務(wù),則建立標(biāo)準(zhǔn)的分類規(guī)則,并將粒度控制在三級以內(nèi),原則是用盡可能少的規(guī)則,覆蓋80%的用戶 (如WAP手機閱讀,只需定位起點網(wǎng)、騰訊書城等幾個主流網(wǎng)站,就可以覆蓋絕大部分手機閱讀用戶)。例如,對于手機上網(wǎng),可以利用簡單的URL匹配來定位內(nèi)容分類,匹配規(guī)則樣例見表1。
將用戶在不同性質(zhì)內(nèi)容業(yè)務(wù)的閱讀行為數(shù)據(jù)都進行標(biāo)準(zhǔn)化,再綜合這3個維度,對用戶的內(nèi)容偏好程度進行量化評分。對于不同性質(zhì)的內(nèi)容業(yè)務(wù),如手機報紙、手機閱讀、手機上網(wǎng)等,一方面是業(yè)務(wù)性質(zhì)層面,如內(nèi)容形式、收費標(biāo)準(zhǔn)不同;另一方面是用戶的閱讀行為特征也會有較大差異,如閱讀的次數(shù)、時間、周期等。因此,需要在業(yè)務(wù)層面對數(shù)據(jù)進行標(biāo)準(zhǔn)化,才能使不同性質(zhì)、不同粒度的內(nèi)容在最終的綜合評分上具有公平的比較性。例如,對于不同性質(zhì)的業(yè)務(wù)(如手機閱讀與手機上網(wǎng))進行內(nèi)容偏好程度評分或者評級的步驟如圖2所示。
圖1 基于關(guān)聯(lián)網(wǎng)絡(luò)的移動互聯(lián)網(wǎng)內(nèi)容偏好分析系統(tǒng)
其中,維度權(quán)重和變量權(quán)重通過最小粒度到最大粒度依次求解,而評分過程則分階層從低到高依次加權(quán)求和,計算樣例如圖3所示。
以頻度為例,通過熵值法可直接求解得到閱讀天數(shù)、閱讀次數(shù)和平均每天閱讀次數(shù)這3個三級變量的權(quán)重系數(shù)[4],從而得到頻度的綜合評分表達式為:頻度=0.25×閱讀次數(shù)+0.65×閱讀天數(shù)+0.10×平均每天閱讀次數(shù)。類似地,可以求解得到粘度、額度的權(quán)重系數(shù)。然后將這3個評分再次輸入熵值法模型,求解得到這3個維度的權(quán)重系數(shù)。最終得到WAP內(nèi)容偏好程度評分表達式為:內(nèi)容偏好評分S=0.63×頻度+0.21×粘度+0.16×額度。 這里用 Sui表示用戶u對于內(nèi)容分類i的偏好評分。
構(gòu)建和維護內(nèi)容偏好的關(guān)聯(lián)網(wǎng)絡(luò),包括網(wǎng)絡(luò)中關(guān)聯(lián)所對應(yīng)的邊權(quán)計算以及邊的增加、刪除、更新。本系統(tǒng)的偏好關(guān)聯(lián)強度用來量化兩種業(yè)務(wù)內(nèi)容之間的關(guān)系緊密程度,具體是指偏好某一內(nèi)容的用戶同時偏好另一種內(nèi)容的可能性大小[5]??紤]到當(dāng)前需要拓展一個內(nèi)容業(yè)務(wù)到系統(tǒng)中,因此,對已有用戶的業(yè)務(wù)和新增無用戶的業(yè)務(wù)分情況討論。
3.5.1 已經(jīng)具備一定用戶的內(nèi)容業(yè)務(wù)A
如上例中的WAP手機上網(wǎng)業(yè)務(wù),則可以按照上述3.1~3.4節(jié)處理,得到用戶對于業(yè)務(wù)A的每個分類的內(nèi)容偏好 (例如手機閱讀,則A1=玄幻,A2=言情…的分類偏好)。其中,n為業(yè)務(wù)A的內(nèi)容分類個數(shù)。對于業(yè)務(wù)A,構(gòu)建關(guān)聯(lián)網(wǎng)絡(luò)的步驟如下。
(1)對于每一個業(yè)務(wù),構(gòu)建業(yè)務(wù)內(nèi)部所有內(nèi)容偏好的關(guān)聯(lián)子網(wǎng)絡(luò)
圖2 內(nèi)容偏好評分
圖3 內(nèi)容偏好評分變量權(quán)重
用點代表內(nèi)容分類,點的連邊代表內(nèi)容之間的偏好關(guān)聯(lián),而邊的權(quán)重則代表內(nèi)容之間的偏好關(guān)聯(lián)強度。例如,某業(yè)務(wù)A內(nèi)部關(guān)聯(lián)網(wǎng)絡(luò)的形狀如圖4所示。其中,對于業(yè)務(wù)A的任意兩個內(nèi)容Ai與Aj,對應(yīng)的偏好關(guān)聯(lián)連邊為AEij,而對應(yīng)的關(guān)聯(lián)強度則為連邊的權(quán)重Wij。
圖4 某業(yè)務(wù)內(nèi)容偏好關(guān)聯(lián)網(wǎng)絡(luò)
(2)計算關(guān)聯(lián)網(wǎng)絡(luò)每一條邊的權(quán)重即計算每一對內(nèi)容的偏好關(guān)聯(lián)強度。計算表達式為
(3)檢驗關(guān)聯(lián)網(wǎng)絡(luò)每一條邊的可信任度
即評估兩個內(nèi)容之間的偏好關(guān)聯(lián)是否可靠穩(wěn)定[6]。
現(xiàn)有技術(shù)根據(jù)用戶閱讀信息(如網(wǎng)頁)來分析偏好,但由于這些信息存在噪音 (如頁面捆綁、跳轉(zhuǎn)、彈出等),包含的不是用戶真實偏好的分類內(nèi)容,分析結(jié)果存在誤差,不利于應(yīng)用。本方案提供一種檢驗偏好可信任度的方法:對于任意一對內(nèi)容偏好i與j,如果存在另一個內(nèi)容偏好k,使得則確定內(nèi)容偏好與的關(guān)聯(lián)是可以信任的。其中為內(nèi)容偏好與的關(guān)聯(lián)強度,而與為內(nèi)容偏好k與的關(guān)聯(lián)強度。這一步將剔除不符合上述不等式的所有偏好關(guān)聯(lián)。例如,對于圖4中A業(yè)務(wù)的內(nèi)容偏好與假設(shè)其關(guān)聯(lián)強度為發(fā)現(xiàn)與和有關(guān)聯(lián)的是且假設(shè)關(guān)聯(lián)強度分別為代入上述不等式進行檢驗,由于不等式0.45×0.45≤0.50×0.46成立,因此,內(nèi)容偏好A2與A4的關(guān)聯(lián)是可信任的,如圖5所示。
圖5 某業(yè)務(wù)可信任內(nèi)容偏好關(guān)聯(lián)網(wǎng)絡(luò)
(4)計算不同業(yè)務(wù)之間的關(guān)聯(lián)強度,并檢驗其可信任程度
根據(jù)前面3個步驟的計算,已經(jīng)得到每個業(yè)務(wù)內(nèi)部不同內(nèi)容偏好之間的關(guān)聯(lián)強度,這一步需要計算不同業(yè)務(wù)的內(nèi)容偏好之間的關(guān)聯(lián)強度,且關(guān)聯(lián)強度的計算方法與(2)一致。如圖6所示,對于業(yè)務(wù)A3與C3,對應(yīng)的連邊為
圖6 多業(yè)務(wù)內(nèi)容偏好關(guān)聯(lián)網(wǎng)絡(luò)
3.5.2 完全沒有用戶或者用戶數(shù)量極少的新增內(nèi)容業(yè)務(wù)B
本方案提出一種虛關(guān)聯(lián)方法,充分利用前面已經(jīng)構(gòu)建好的偏好關(guān)聯(lián)網(wǎng)絡(luò)來拓展新內(nèi)容業(yè)務(wù)的潛在用戶。
①對于當(dāng)前新增的內(nèi)容分類,依然可以按照3.1~3.3節(jié)處理,對這個內(nèi)容業(yè)務(wù)進行數(shù)據(jù)建模,得到業(yè)務(wù) B 的內(nèi)容分類其中,m 為業(yè)務(wù)B的內(nèi)容分類個數(shù)。
②由于新增的業(yè)務(wù)(或內(nèi)容)用戶數(shù)較少,因此與其他業(yè)務(wù)內(nèi)容偏好的關(guān)聯(lián)數(shù)量很少甚至為0。為了解決這個問題,對于任意一個新增的內(nèi)容分類Bi,定位一個與其內(nèi)容性質(zhì)最相似的其他業(yè)務(wù)內(nèi)容偏好Xj(建議用專家經(jīng)驗方法),建立一個虛關(guān)聯(lián),并初始化關(guān)聯(lián)強度為對于任意一個其他業(yè)務(wù)的內(nèi)容偏好Yk,其與Xj的關(guān)聯(lián)強度可以通過上述步驟計算得到。則Bi與Yk的關(guān)聯(lián)強度表達式為:
利用偏好之間的關(guān)聯(lián)強度,預(yù)測出每個用戶最合適的推薦內(nèi)容。對于推薦的方法,本技術(shù)方案建議采用最熱門推薦和協(xié)同過濾推薦。
(1)對用戶已經(jīng)閱讀的同分類內(nèi)容進行最熱門推薦
方法是選擇用戶評分排名最靠前的Top 3內(nèi)容偏好,推薦對應(yīng)內(nèi)容分類在當(dāng)前閱讀用戶數(shù)量最多的內(nèi)容。
(2)對用戶從未閱讀過的分類內(nèi)容進行協(xié)同過濾推薦[7,8]
本技術(shù)方案采用了經(jīng)典的Item-Base算法,但做了一定的改進。用關(guān)聯(lián)強度代表相似度,則對于用戶未閱讀過的任一內(nèi)容其推薦預(yù)測評分公式為
結(jié)合各種服務(wù)營銷平臺,利用反饋結(jié)果對關(guān)聯(lián)網(wǎng)絡(luò)進行反饋優(yōu)化,更新步驟如下。
①對于每個進行了推薦的用戶u,對其反饋結(jié)果為成功的推薦內(nèi)容偏好進行加分,并將其偏好評分更新為而對于反饋結(jié)果為失敗的內(nèi)容偏好進行減分,并將其偏好評分更新為最后對用戶u的所有內(nèi)容偏好進行重新排名。
②對于每個進行了推薦的內(nèi)容Xx,利用更新的偏好評分,按照3.5.1節(jié)的所有步驟,重新計算并更新與Xx有關(guān)聯(lián)的所有內(nèi)容Yy的偏好關(guān)聯(lián)強度。
圖7 新增業(yè)務(wù)內(nèi)容偏好關(guān)聯(lián)網(wǎng)絡(luò)
根據(jù)以上介紹的方法和舉例,建立手機閱讀拉新模型。各層權(quán)重見表2。
根據(jù)權(quán)重,輸出陽江、韶關(guān)、惠州2014年6月的手機閱讀拉新模型名單。從3個方面評估此模型,包括歷史數(shù)據(jù)評估模型、實驗設(shè)計評估模型以及營銷效果評估模型。評估方法如圖8所示,其中,行動組為模型打分排名靠前(前10%)的營銷客戶;對照組為非模型打分隨機抽取一定數(shù)量的客戶(1 000名);不行動組為行動組中隨機抽取一定數(shù)量的客戶(1 000名)。歷史數(shù)據(jù)指手機閱讀基地2013年6~12月PUSH成功的最高值,包括閱讀和付費閱讀??傮w看來,在同等營銷條件下,手機閱讀拉新模型的提升效果顯著:閱讀成功率提升了2.6倍,付費閱讀成功率提升了3倍。
(1)模型效果評估(歷史標(biāo)桿對比)
以惠州為例,與2013年的6~12月PUSH成功的最高值進行對比。2014年6月利用模型名單,短信營銷了125 290個行動組用戶,成功轉(zhuǎn)化為閱讀用戶的有13.6%,提升了4.2倍;成功轉(zhuǎn)化為付費閱讀的用戶有1.5%,提升了42.6倍。
(2)模型效果評估(實驗設(shè)計對比)
以韶關(guān)為例,2014年6月營銷行動組用戶有40504個,與對照組對比,轉(zhuǎn)化為閱讀用戶的有14.8%,提升了2倍;轉(zhuǎn)化為付費閱讀用戶的有1.7%,提升了1.3倍。
(3)營銷效果評估(實驗設(shè)計對比)
以陽江為例,2014年6月營銷行動組用戶有40 062個,與不行動組對比,轉(zhuǎn)化為閱讀用戶的有15%,提升了1.2倍;轉(zhuǎn)化為付費閱讀用戶的有1.4%,提升了1.3倍。
本文建立了一個可拓展的內(nèi)容偏好分析體系。該體系能將不同內(nèi)容性質(zhì)的移動互聯(lián)網(wǎng)業(yè)務(wù)內(nèi)容納入一個統(tǒng)一的體系,實現(xiàn)客戶的內(nèi)容偏好分析。同時,該體系具有可拓展性,當(dāng)新的業(yè)務(wù)內(nèi)容需要進行推廣時,只需將該業(yè)務(wù)納入體系,系統(tǒng)即可充分利用客戶其他不同業(yè)務(wù)的內(nèi)容偏好,進行協(xié)同過濾,做出最合適的推薦,從而實現(xiàn)新業(yè)務(wù)、新客戶的拓展。
表2 手機閱讀內(nèi)容偏好綜合得分
圖8 評估方法
[1]漆晨曦.電信客戶社交網(wǎng)絡(luò)分析方法與營銷應(yīng)用探討[J].電信科學(xué),2012,(7):5-9.
[2] 陳慶.網(wǎng)絡(luò)營銷與傳統(tǒng)營銷的比較研究[J].商業(yè)文化 (下半月),2011,(2):154.
[3] 金濤.網(wǎng)絡(luò)爬蟲在網(wǎng)頁信息提取中的應(yīng)用研究[J].現(xiàn)代計算機,2012,(1):16-18.
[4]陸添超,康凱.熵值法和層次分析法在權(quán)重確定中的應(yīng)用[J].電腦編程技巧與維護,2009,(22):19-20.
[5]馬衛(wèi)東,李幼平,馬建國等.面向Web網(wǎng)頁的區(qū)域用戶行為實證研究[J].計算機學(xué)報,2008,31(6):960-967.
[6]馬衛(wèi)東,李幼平,馬建國等.狀態(tài)行為關(guān)聯(lián)的可信網(wǎng)絡(luò)動態(tài)信任計算研究[J].通信學(xué)報,2010,31(12):12-19.
[7]方娟,梁文燦.一種基于協(xié)同過濾的網(wǎng)格門戶推薦模型[J].電子與信息學(xué)報,2010,32(7):1585-1590.
[8]傅國強.基于關(guān)聯(lián)規(guī)則的協(xié)同垃圾郵件過濾系統(tǒng)研究[J].深圳職業(yè)技術(shù)學(xué)院學(xué)報,2005,4(3):15-18.