薛 云,李國(guó)和,吳衛(wèi)江,洪云峰,周曉明
(1.中國(guó)石油大學(xué)(北京) 石油數(shù)據(jù)挖掘北京市重點(diǎn)實(shí)驗(yàn)室, 北京 102249;2.中國(guó)石油大學(xué)(北京) 地球物理與信息工程學(xué)院, 北京 102249; 3.北京聯(lián)合大學(xué) 商務(wù)學(xué)院,北京 100025;4.石大兆信數(shù)字身份管理與物聯(lián)網(wǎng)技術(shù)研究院, 北京 100029)
基于忠誠(chéng)度的社交網(wǎng)絡(luò)用戶(hù)發(fā)現(xiàn)方法
薛 云1,2,3*,李國(guó)和1,2,4,吳衛(wèi)江1,2,4,洪云峰4,周曉明4
(1.中國(guó)石油大學(xué)(北京) 石油數(shù)據(jù)挖掘北京市重點(diǎn)實(shí)驗(yàn)室, 北京 102249;2.中國(guó)石油大學(xué)(北京) 地球物理與信息工程學(xué)院, 北京 102249; 3.北京聯(lián)合大學(xué) 商務(wù)學(xué)院,北京 100025;4.石大兆信數(shù)字身份管理與物聯(lián)網(wǎng)技術(shù)研究院, 北京 100029)
針對(duì)社交網(wǎng)絡(luò)中提高用戶(hù)的高黏性問(wèn)題,提出了一種基于用戶(hù)忠誠(chéng)度的用戶(hù)發(fā)現(xiàn)的算法。該算法利用雙重RFM模型對(duì)用戶(hù)忠誠(chéng)度進(jìn)行計(jì)算,挖掘出忠誠(chéng)度不同分類(lèi)的用戶(hù)。首先,通過(guò)雙重RFM模型動(dòng)態(tài)計(jì)算出用戶(hù)在某一時(shí)間段的消費(fèi)價(jià)值與行為價(jià)值,得到用戶(hù)某一時(shí)間段的忠誠(chéng)度;其次,根據(jù)用戶(hù)的忠誠(chéng)度,確定標(biāo)度曲線(xiàn),利用相似度計(jì)算找到典型的忠誠(chéng)用戶(hù)與不忠誠(chéng)用戶(hù);最后,采用基于模塊度的社區(qū)發(fā)現(xiàn)與獨(dú)立級(jí)聯(lián)傳播模型,發(fā)現(xiàn)潛在的忠誠(chéng)用戶(hù)與不忠誠(chéng)用戶(hù)。在某社交網(wǎng)絡(luò)的微博數(shù)據(jù)集上,實(shí)現(xiàn)了社會(huì)性網(wǎng)絡(luò)服務(wù)(SNS)下用戶(hù)忠誠(chéng)度的量化表示,獲得了基于用戶(hù)忠誠(chéng)度的用戶(hù)發(fā)現(xiàn)結(jié)果。實(shí)驗(yàn)結(jié)果表明,所提算法能夠有效挖掘出基于忠誠(chéng)度的用戶(hù)分類(lèi),可以為社交網(wǎng)站針對(duì)用戶(hù)的個(gè)性化推薦及營(yíng)銷(xiāo)等,提供理論支持和實(shí)用方法。
社交網(wǎng)絡(luò);用戶(hù)發(fā)現(xiàn);忠誠(chéng)度;RFM;社區(qū)劃分
社會(huì)性網(wǎng)絡(luò)服務(wù)(Social Network Service, SNS)關(guān)注個(gè)體成員之間的互動(dòng)和聯(lián)系。隨著 SNS興起,不同形式的社交方式不斷涌現(xiàn),其應(yīng)用已成為網(wǎng)民日常生活不可或缺的部分。個(gè)體的高黏性促進(jìn)虛擬社區(qū)的形成及發(fā)展,體現(xiàn)為用戶(hù)對(duì)社區(qū)的忠誠(chéng)[1],因此,提高用戶(hù)忠誠(chéng)度,成為SNS商家搶占、保有市場(chǎng)的重要途徑之一。
用戶(hù)忠誠(chéng)度(即用戶(hù)黏度)是指用戶(hù)對(duì)某一特定產(chǎn)品或服務(wù)產(chǎn)生好感而形成“依附性”偏好,進(jìn)而重復(fù)購(gòu)買(mǎi)的一種趨向[2]。傳統(tǒng)用戶(hù)忠誠(chéng)度分析中,用戶(hù)為孤立的個(gè)體,未考慮用戶(hù)之間的互動(dòng)關(guān)系及信息傳遞[3]。然而SNS的用戶(hù)處在一個(gè)群體中,其行為影響到周?chē)后w,或群體用戶(hù)更加忠誠(chéng),或群體用戶(hù)逐漸流失[4]。已有文獻(xiàn)中對(duì)于用戶(hù)忠誠(chéng)度的研究主要在定性的層面,趙建[5]認(rèn)為虛擬社區(qū)消費(fèi)價(jià)值包括財(cái)務(wù)價(jià)值、社交價(jià)值、信息價(jià)值、娛樂(lè)價(jià)值、形象價(jià)值等,消費(fèi)價(jià)值有利于其社區(qū)忠誠(chéng)度的提高。丁怡瓊等[6]構(gòu)建二維的SNS 用戶(hù)忠誠(chéng)度分析框架:忠誠(chéng)度層次和理論視角。寧連舉等[1]基于社會(huì)資本理論分析影響虛擬社區(qū)感的因素,以驗(yàn)證虛擬社區(qū)感對(duì)用戶(hù)忠誠(chéng)度的影響。國(guó)內(nèi)外研究對(duì)忠誠(chéng)度的表達(dá)方式可以分為三大類(lèi):構(gòu)建測(cè)量指標(biāo)體系[7-9]、制定用戶(hù)忠誠(chéng)計(jì)劃[10]、對(duì)用戶(hù)忠誠(chéng)度建模[11-19]。本文基于對(duì)社交網(wǎng)絡(luò)下用戶(hù)忠誠(chéng)度量化的應(yīng)用背景考慮,從技術(shù)的角度以用戶(hù)消費(fèi)價(jià)值、行為價(jià)值為基礎(chǔ),結(jié)合社交網(wǎng)絡(luò)中用戶(hù)的關(guān)系來(lái)衡量用戶(hù)對(duì)SNS的忠誠(chéng)度,根據(jù)忠誠(chéng)度的計(jì)算模型以及SNS中傳播影響,發(fā)現(xiàn)用戶(hù)價(jià)值,設(shè)計(jì)實(shí)現(xiàn)基于用戶(hù)忠誠(chéng)度的用戶(hù)發(fā)現(xiàn)算法。
本文所討論的用戶(hù)忠誠(chéng)度是根據(jù)用戶(hù)在社交網(wǎng)站的消費(fèi)價(jià)值和行為價(jià)值,應(yīng)用雙重RFM(Recency-Frequency-Monetary)計(jì)算得到的一個(gè)數(shù)值,該值可以作為社交網(wǎng)站推薦的一個(gè)重要參考因素。
社會(huì)網(wǎng)絡(luò)及忠誠(chéng)關(guān)系抽象為忠誠(chéng)度圖,形式化描述如下:
定義1 忠誠(chéng)是基于時(shí)間的函數(shù)UL=f(L,t),其中L為某一時(shí)刻的用戶(hù)價(jià)值,t為時(shí)間,且UL∈[m,n],其中n、m為忠誠(chéng)的上、下界。
當(dāng)用戶(hù)忠誠(chéng)變化趨勢(shì)平緩,且平均值大于n時(shí),稱(chēng)該用戶(hù)為典型忠誠(chéng);當(dāng)用戶(hù)忠誠(chéng)變化趨勢(shì)不均衡或者平均值接近于m時(shí),稱(chēng)該用戶(hù)為典型不忠誠(chéng)。
計(jì)算模型中忠誠(chéng)度分為全局忠誠(chéng)度和局部忠誠(chéng)度:前者為在社交網(wǎng)絡(luò)中每個(gè)用戶(hù)擁有從全局計(jì)算的忠誠(chéng)度值;而后者為兩個(gè)用戶(hù)之間計(jì)算的忠誠(chéng)度值,而且對(duì)于不同其他用戶(hù),用戶(hù)局部忠誠(chéng)度值可以不同。某個(gè)用戶(hù)忠誠(chéng)度或不忠誠(chéng)度會(huì)影響到與其相關(guān)的群體,使得其他用戶(hù)更加忠誠(chéng)或不忠誠(chéng)。全局忠誠(chéng)度和局部忠誠(chéng)度的計(jì)算情況如表1所示。
表1 全局忠誠(chéng)度與局部忠誠(chéng)度對(duì)比Tab. 1 Comparison of global loyalty with local loyalty
本文在忠誠(chéng)度模型中采取典型忠誠(chéng)與典型不忠誠(chéng)計(jì)算時(shí),采用全局忠誠(chéng)的計(jì)算模式,潛在用戶(hù)發(fā)現(xiàn)時(shí)采用局部忠誠(chéng)度。
RFM模型廣泛應(yīng)用于各行業(yè)的客戶(hù)價(jià)值分析[20],常用于數(shù)據(jù)挖掘客戶(hù)細(xì)分,其中,R(Rencency)為最近購(gòu)買(mǎi)時(shí)段,F(xiàn)(Frequency)為最近時(shí)段消費(fèi)頻率,M(Monetary)為最近時(shí)段消費(fèi)金額。
影響忠誠(chéng)度還有情感因素[21],包括態(tài)度取向(情感依戀) 和行為取向(購(gòu)買(mǎi)重復(fù))。對(duì)于用戶(hù)i在社交網(wǎng)絡(luò)中的忠誠(chéng)度包括價(jià)值貢獻(xiàn)、行為貢獻(xiàn)和情感貢獻(xiàn)。
UL(i,t)=ε1RFMBehave+(1-ε1)RFMBusiness
(1)
其中:RFMBehave為用戶(hù)行為價(jià)值,RFMBusiness為用戶(hù)消費(fèi)價(jià)值,ε1為權(quán)重向量。ε1可由專(zhuān)家經(jīng)驗(yàn),或樣本數(shù)據(jù)計(jì)算獲得。
2.1.1 用戶(hù)行為價(jià)值
社交網(wǎng)絡(luò)的用戶(hù)行為價(jià)值表現(xiàn)在重復(fù)使用意愿。
定義2 用戶(hù)行為價(jià)值。
RFMBehave=α1R+β1F+γ1M
(2)
其中:R為最近一次訪(fǎng)問(wèn)網(wǎng)站的時(shí)段,F(xiàn)為最近時(shí)段內(nèi)查看項(xiàng)目的次數(shù),M為最近時(shí)段內(nèi)收藏/標(biāo)注/評(píng)論的次數(shù),α1、β1、γ1為權(quán)值。
2.1.2 用戶(hù)消費(fèi)價(jià)值
用戶(hù)消費(fèi)價(jià)值體現(xiàn)在重復(fù)消費(fèi)(免費(fèi)或有償)程度。
定義3 用戶(hù)消費(fèi)價(jià)值。
RFMBusiness=α2R+β2F+γ2M
(3)
其中:R為最近一次閱讀/購(gòu)買(mǎi)/…頻率的時(shí)段,F(xiàn)為最近時(shí)段內(nèi)閱讀/購(gòu)買(mǎi)/…頻率,M為最近時(shí)段內(nèi)閱讀/購(gòu)買(mǎi)/…的數(shù)量,α2、β2、γ2為權(quán)值。
典型用戶(hù)發(fā)現(xiàn)包括指典型忠誠(chéng)與典型不忠誠(chéng)用戶(hù)的發(fā)現(xiàn)。根據(jù)式(1)~(3)可以計(jì)算出給定用戶(hù)忠誠(chéng)度值,并在時(shí)間軸上變化趨勢(shì)。根據(jù)忠誠(chéng)度變化趨勢(shì),可計(jì)算用戶(hù)一段時(shí)間內(nèi)忠誠(chéng)度的均值與標(biāo)準(zhǔn)差;訪(fǎng)問(wèn)次數(shù)聚類(lèi)分析,可發(fā)現(xiàn)持續(xù)訪(fǎng)問(wèn)網(wǎng)站且忠誠(chéng)度高,不能持續(xù)訪(fǎng)問(wèn)網(wǎng)站且忠誠(chéng)度低的用戶(hù)。對(duì)此類(lèi)用戶(hù)再進(jìn)行相似度度量,發(fā)現(xiàn)更多的典型忠誠(chéng)與典型不忠誠(chéng)用戶(hù)。
2.2.1 標(biāo)度忠誠(chéng)度曲線(xiàn)選擇
標(biāo)度曲線(xiàn)選擇,曲線(xiàn)分布特征(如均值、標(biāo)準(zhǔn)差、偏度和峰度)為標(biāo)度曲線(xiàn)指標(biāo)選定標(biāo)度曲線(xiàn)。
用戶(hù)i的時(shí)段內(nèi)忠誠(chéng)度均值:
(4)
其中:t∈[1,N],N表示時(shí)間軸上的第N個(gè)時(shí)間段。
用戶(hù)忠誠(chéng)度曲線(xiàn)的標(biāo)準(zhǔn)差為相對(duì)平均值的偏離程度,表示用戶(hù)穩(wěn)定程度,即用戶(hù)忠誠(chéng)平穩(wěn)度。
用戶(hù)i的時(shí)段內(nèi)忠誠(chéng)度的平穩(wěn)度為:
(5)
2.2.2 相似忠誠(chéng)度曲線(xiàn)查找
忠誠(chéng)度曲線(xiàn)相似性是不同用戶(hù)的忠誠(chéng)度的時(shí)間序列之間相關(guān)性。根據(jù)用戶(hù)忠誠(chéng)度曲線(xiàn)相似性,典型忠誠(chéng)用戶(hù)度曲線(xiàn)和典型不忠誠(chéng)度曲線(xiàn),可發(fā)現(xiàn)用戶(hù)為典型忠誠(chéng)用戶(hù)或典型不忠誠(chéng)用戶(hù)。
設(shè)UL(i,t)={UL(i,t1),UL(i,t2),…,UL(i,tN)} 是用戶(hù)的忠誠(chéng)度時(shí)間序列,T={t1,t2,…,tN}為時(shí)間軸上的取值,ULDB={i∈U,t∈T|UL(i,t)}為用戶(hù)的忠誠(chéng)度曲線(xiàn)庫(kù),集合U表示所有的用戶(hù)。相似忠誠(chéng)度曲線(xiàn)查找表示:
S={x∈ULDB|Find(sim(D,x),ULDB}
(6)
其中:D為標(biāo)度忠誠(chéng)度序列集,sim()為忠誠(chéng)度曲線(xiàn)相似性函數(shù),F(xiàn)ind()為相似性查找策略,S為標(biāo)度序列集D相似的相似用戶(hù)忠誠(chéng)度曲線(xiàn)集合,sim()函數(shù)可以是Euclidean距離[22],L為時(shí)間序列長(zhǎng)度。
(7)
潛在用戶(hù)發(fā)現(xiàn)包括非典型忠誠(chéng)用戶(hù)與非典型不忠誠(chéng)用戶(hù)的發(fā)現(xiàn)。一般典型用戶(hù)忠誠(chéng)度高或低的用戶(hù)在社交網(wǎng)絡(luò)中影響周?chē)挠脩?hù)行為。
2.3.1 用戶(hù)社區(qū)劃分
通過(guò)用戶(hù)社區(qū)劃分,找到與典型忠誠(chéng)用戶(hù)和典型不忠誠(chéng)用戶(hù)聯(lián)系緊密的用戶(hù)。社交網(wǎng)絡(luò)可用網(wǎng)絡(luò)圖G(V,E,W)表示。其中:V是圖中節(jié)點(diǎn)集合,即社會(huì)網(wǎng)絡(luò)中用戶(hù)集合;E是邊的集合;W是節(jié)點(diǎn)間的權(quán)重,表示兩個(gè)節(jié)點(diǎn)的行為。社區(qū)劃分采用基于模塊優(yōu)化方法[23-25],可分為劃分和折疊兩個(gè)階段,并不斷重復(fù)迭代。假設(shè)社交網(wǎng)絡(luò)有N個(gè)節(jié)點(diǎn),社區(qū)劃分過(guò)程如下:
1)使用Modularity Optimization進(jìn)行劃分。
首先,對(duì)每一個(gè)節(jié)點(diǎn)都分配一個(gè)社區(qū)標(biāo)號(hào),此時(shí)網(wǎng)絡(luò)有N個(gè)社區(qū)。
對(duì)每個(gè)節(jié)點(diǎn)i及其鄰接節(jié)點(diǎn)j,假設(shè)讓i的社區(qū)變成j的,計(jì)算變動(dòng)對(duì)模塊度的變化:
(8)
其中:Σin表示該社區(qū)內(nèi)部的連接權(quán)重總和,Σtot所有與該社區(qū)相連的邊之權(quán)重和,ki與節(jié)點(diǎn)i相連的所有邊的權(quán)重之和,ki,in表示社區(qū)內(nèi)所有從i到其他節(jié)點(diǎn)的權(quán)重和,M整個(gè)網(wǎng)絡(luò)的連接權(quán)重總和。
如果這個(gè)變動(dòng)帶來(lái)的模塊度變化是正的,那么就認(rèn)可變動(dòng);否則就保持原狀。當(dāng)整個(gè)過(guò)程做到無(wú)法再提升時(shí)便停止。
2)對(duì)同一個(gè)社區(qū)進(jìn)行折疊。
對(duì)于屬于同一個(gè)社區(qū)不同社區(qū)劃分進(jìn)行折疊,從而形成一個(gè)新的網(wǎng)絡(luò)。社區(qū)間的連接權(quán)重為連接兩個(gè)社區(qū)的節(jié)點(diǎn)之權(quán)重和。社區(qū)內(nèi)部的連接形成一個(gè)自環(huán),其權(quán)重為該社區(qū)內(nèi)部連接的和。
2.3.2 潛在影響用戶(hù)發(fā)現(xiàn)
潛在影響用戶(hù)是指受典型忠誠(chéng)和典型不忠誠(chéng)用戶(hù)影響的用戶(hù)。將時(shí)間因子與獨(dú)立級(jí)聯(lián)模型[26-27]的傳播概率聯(lián)系,構(gòu)成帶權(quán)獨(dú)立級(jí)聯(lián)模型算法,實(shí)現(xiàn)具有動(dòng)態(tài)特性的潛在影響用戶(hù)發(fā)現(xiàn)。
假設(shè)典型忠誠(chéng)用戶(hù)與典型不忠誠(chéng)用戶(hù)為影響力最大的節(jié)點(diǎn),作為初始用戶(hù)集合,用帶權(quán)獨(dú)立級(jí)聯(lián)模型計(jì)算每個(gè)典型忠誠(chéng)用戶(hù)節(jié)點(diǎn)和典型不忠誠(chéng)用戶(hù)節(jié)點(diǎn)可以激活的鄰居節(jié)點(diǎn)。節(jié)點(diǎn)所具有的影響其他節(jié)點(diǎn)的能力稱(chēng)為節(jié)點(diǎn)影響力。具備影響力的節(jié)點(diǎn)能夠激活其他節(jié)點(diǎn),不具備影響力的節(jié)點(diǎn)不能激活其他節(jié)點(diǎn)。
時(shí)間因子tij表示vi到節(jié)點(diǎn)vj在T時(shí)間段內(nèi)累計(jì)交互的次數(shù):
(9)
影響力傳播概率λi, j表示vi到節(jié)點(diǎn)vj的傳播概率:
(10)
其中:ε初始值為1,下一次為上一級(jí)節(jié)點(diǎn)運(yùn)算的結(jié)果值,wi, j表示vi到節(jié)點(diǎn)vj的權(quán)值,wimax表示從節(jié)點(diǎn)i出發(fā)的節(jié)點(diǎn)中的最大權(quán)值,wimin示從節(jié)點(diǎn)出發(fā)的節(jié)點(diǎn)中的最小權(quán)值。
在帶權(quán)獨(dú)立級(jí)聯(lián)模型傳播過(guò)程中,在t時(shí)刻無(wú)論節(jié)點(diǎn)v是否能成功激活鄰居節(jié)點(diǎn),在以后時(shí)刻中,v雖然仍保持活躍狀態(tài),但它經(jīng)不再具備影響力;即在t時(shí)刻被激活的節(jié)點(diǎn),己經(jīng)嘗試激活它自身的鄰居節(jié)點(diǎn)后,在t+1時(shí)刻仍然處于活躍狀態(tài),但它本身已經(jīng)不能去激活其他任何節(jié)點(diǎn),即為無(wú)影響力的活躍節(jié)點(diǎn)。當(dāng)網(wǎng)絡(luò)中不存在有影響力的活躍節(jié)點(diǎn)時(shí),傳播過(guò)程結(jié)束[27]。
基于用戶(hù)忠誠(chéng)度的用戶(hù)發(fā)現(xiàn)算法,如圖1所示。算法主要分為兩個(gè)部分:第一部分是典型用戶(hù)的發(fā)現(xiàn)計(jì)算,算法設(shè)計(jì)的核心思想在2.2節(jié)中闡釋?zhuān)坏诙糠质菨撛谟脩?hù)的發(fā)現(xiàn)計(jì)算,算法設(shè)計(jì)的核心思想在2.3節(jié)中闡釋。
圖1 基于忠誠(chéng)度的用戶(hù)發(fā)現(xiàn)算法框架Fig. 1 Framework of user discovery algorithm based on user loyalty
算法1 典型用戶(hù)的發(fā)現(xiàn)計(jì)算。
輸入 時(shí)間段、目標(biāo)用戶(hù)節(jié)點(diǎn)、忠誠(chéng)度閾值Lthresh、標(biāo)準(zhǔn)差閾值Sthresh。
輸出 目標(biāo)用戶(hù)節(jié)點(diǎn)對(duì)中典型用戶(hù)的集合A1,A2,B1,B2。
1)初始化:
Timemin=m,Timemax=n,nodes,Lthreshmin,Lthreshmax,Sthreshmin,Sthreshmax
2)計(jì)算全局忠誠(chéng)度和目標(biāo)典型用戶(hù)群生成:
Whennodeinnodes
/*計(jì)算用戶(hù)在[m,n]時(shí)間內(nèi)的忠誠(chéng)度*/
WhennodeinTime[m,n]
UL[node][t]
/*式(1)(2)(3)*/
Time++
End when
Node++
Avg(UL[node][t])
/*[m,n]時(shí)間段內(nèi)的忠誠(chéng)度均值*/
Stdev(UL[node][t])
/*[m,n]時(shí)間段內(nèi)的忠誠(chéng)度標(biāo)準(zhǔn)差*/
Count(UL[node][t])
/*[m,n]時(shí)間段內(nèi)的忠誠(chéng)度的次數(shù)*/
End When
K-means(Avg(UL[node][t]),Stdev(UL[node][t]),Count(UL[node][t]))
/*聚類(lèi)分析*/
ClassA, ClassB, ClassC
/*結(jié)果分類(lèi)*/
Whennodein ClassA
/*A類(lèi)中的高忠誠(chéng)度用戶(hù)*/
If Avg(UL[node][t]) >threshmax
/*式(4)(5)*/
and Stdev(UL[node][t]) Put into arrayA1 End if End when Whennodein ClassB /*B類(lèi)中的低忠誠(chéng)度用戶(hù)*/ If Avg(UL[node][t]) and Stdev(UL[node][t])>Sthreshmaxthen Put into arrayB1 End if End when 3)利用相似度計(jì)算找到所有典型用戶(hù)。 For eachnodein ClassA IfUL(node,t) like arrayA1 /*式(6)、(7)*/ Put into arrayA2 End if Node++ End for For eachnodein ClassB IfUL(node,t) like arrayB1 /*式(6)、(7)*/ Put into arrayB2 End if Node++ End for 4)算法結(jié)束。 根據(jù)第一部分的算法本文可以根據(jù)輸出的目標(biāo)用戶(hù)集合:典型忠誠(chéng)用戶(hù)集合A1、A2,典型不忠誠(chéng)用戶(hù)集合B1、B2。 算法2 潛在典型用戶(hù)的發(fā)現(xiàn)計(jì)算。 輸入Time[m,n]、A1,A2,B1,B2。 輸出 潛在典型用戶(hù)的集合A3,B3。 1)初始化。 Timemin=m,Timemax=n 2)構(gòu)建忠誠(chéng)度圖: WhennodeinTime[m,n] Eij=∑CommonVij /* 節(jié)點(diǎn)之間共同消費(fèi)和參與的累計(jì)*/ G(V,E,W)) /*V表示節(jié)點(diǎn),E表示節(jié)點(diǎn)間的邊,W節(jié)點(diǎn)的權(quán)重*/ End While 3)用戶(hù)社區(qū)劃分: Fast unfolding of communities(G) /*式(8)*/ 4)發(fā)現(xiàn)潛在用戶(hù): FindA3,B3 /*式(9)、(10)*/ 5)算法結(jié)束。 根據(jù)算法2本文可以根據(jù)輸出的目標(biāo)用戶(hù)集合:潛在典型忠誠(chéng)用戶(hù)集合A3,潛在典型不忠誠(chéng)用戶(hù)集合B3。 基于用戶(hù)忠誠(chéng)度的用戶(hù)發(fā)現(xiàn)算法用Java語(yǔ)言實(shí)現(xiàn),在Windows 7 平臺(tái)64位系統(tǒng)上運(yùn)行,實(shí)驗(yàn)處理器為雙核2.93 GHz。本文中根據(jù)專(zhuān)家建議與行業(yè)背景作參考,式(1)采用行為價(jià)值與消費(fèi)價(jià)值的系數(shù)均為0.5,式(2)、(3)中α1、β1、γ1;α2、β2、γ2比例均為0.2、0.5、0.3。 數(shù)據(jù)集來(lái)自某社交網(wǎng)絡(luò)平臺(tái) 2010年7月— 2011年7月共12個(gè)月的數(shù)據(jù),其中包含約23 314個(gè)用戶(hù),2 050 627條微博信息,184 400回復(fù)信息,根據(jù)用戶(hù)之間發(fā)帖與回復(fù)構(gòu)建忠誠(chéng)度網(wǎng)絡(luò)。 3.3.1 典型用戶(hù)的發(fā)現(xiàn) 以1年為時(shí)間段長(zhǎng)度,共計(jì)12個(gè)月為時(shí)間點(diǎn),并采用動(dòng)態(tài)用戶(hù)忠誠(chéng)度模型計(jì)算每段內(nèi)的用戶(hù)價(jià)值。去除無(wú)效數(shù)據(jù),對(duì)4 723個(gè)用戶(hù)進(jìn)行分析。應(yīng)用式(1)~(5)得到的標(biāo)度典型忠誠(chéng)用戶(hù)(如圖2所示)、最終得到典型忠誠(chéng)用戶(hù)94個(gè);典型不忠誠(chéng)用戶(hù)根據(jù)設(shè)定的條件進(jìn)行運(yùn)算和篩選得到,部分典型不忠誠(chéng)用戶(hù)如圖3所示,最終得到典型不忠誠(chéng)用戶(hù)85個(gè)。 圖2 某SNS網(wǎng)站的標(biāo)度典型忠誠(chéng)用戶(hù)Fig. 2 Scale loyal users of an SNS 圖3 某SNS網(wǎng)站的典型不忠誠(chéng)用戶(hù)Fig. 3 Typical disloyal users of an SNS 3.3.2 潛在典型用戶(hù)發(fā)現(xiàn) 該社交網(wǎng)絡(luò)由5 667個(gè)用戶(hù)節(jié)點(diǎn),33 818條邊組成有向網(wǎng)絡(luò)圖。經(jīng)過(guò)計(jì)算得到平均度為5.968,平均路徑長(zhǎng)度為4.11。隨后利用社區(qū)劃分算法,劃分為41個(gè)社區(qū)(如圖4所示)。找到典型潛在用戶(hù)的所屬社區(qū),并在社區(qū)劃分結(jié)果中使用獨(dú)立級(jí)聯(lián)模型,挖掘潛在用戶(hù)。如表2所示,UserID=3330的節(jié)點(diǎn)傳播的部分結(jié)果,在一級(jí)傳播中選擇潛在用戶(hù)9368,在二級(jí)傳播中選擇潛在用戶(hù)1327,6111。 圖4 某SNS網(wǎng)站的社區(qū)劃分結(jié)果Fig. 4 Community division result of an SNS 通過(guò)實(shí)驗(yàn)證明,基于標(biāo)度曲線(xiàn),并不能較全覆蓋典型的忠誠(chéng)用戶(hù)與典型的不忠誠(chéng)用戶(hù),然后,根據(jù)社交網(wǎng)絡(luò)中,用戶(hù)之間的關(guān)系,挖掘潛在的用戶(hù)(如圖5所示),用戶(hù)3330在社交網(wǎng)絡(luò)中發(fā)現(xiàn)潛在忠誠(chéng)用戶(hù)。通過(guò)本文的方法可以有效對(duì)用戶(hù)進(jìn)行發(fā)現(xiàn)和分類(lèi)。 表2 UserID=3330的節(jié)點(diǎn)傳播結(jié)果Tab. 2 Node transmission result of userID=3330 圖5 用戶(hù)3330的潛在用戶(hù)Fig. 5 Potential users of UserID=3330 本文通過(guò)雙重RFM模型隨時(shí)間變化動(dòng)態(tài)量化用戶(hù)的忠誠(chéng)度、聚類(lèi)分析以及社交網(wǎng)絡(luò)中的影響力傳播模型,對(duì)用戶(hù)進(jìn)行分類(lèi)。首先通過(guò)雙重RFM 模型將用戶(hù)的消費(fèi)價(jià)值、行為價(jià)值在一定時(shí)間段內(nèi),根據(jù)用戶(hù)的忠誠(chéng)度,進(jìn)行聚類(lèi)分析及方差分析描繪出忠誠(chéng)度曲線(xiàn),然后找到標(biāo)準(zhǔn)的參照用戶(hù),利用曲線(xiàn)相似度找到與此相關(guān)的更多典型用戶(hù);進(jìn)一步以已經(jīng)找到的典型忠誠(chéng)與典型不忠誠(chéng)用戶(hù)為初始集合,利用社交網(wǎng)絡(luò)的影響力傳播模型,計(jì)算出潛在的用戶(hù)?;谥艺\(chéng)度的用戶(hù)發(fā)現(xiàn)方法,使用戶(hù)的忠誠(chéng)度得以量化,為社交網(wǎng)站針對(duì)用戶(hù)的個(gè)性化推薦及營(yíng)銷(xiāo)等,提供理論支持和實(shí)用方法。筆者在“社交網(wǎng)絡(luò)中基于用戶(hù)動(dòng)態(tài)信任關(guān)系的潛在好友推薦方法”一文中,應(yīng)用量化的用戶(hù)忠誠(chéng)度用于個(gè)性化推薦,得到了較好的效果。在今后的研究中,將繼續(xù)深入SNS中用戶(hù)忠誠(chéng)度的量化研究及應(yīng)用研究。 References) [1] 寧連舉,張玉紅. 虛擬社區(qū)感對(duì)用戶(hù)忠誠(chéng)度影響的實(shí)證研究[J]. 技術(shù)經(jīng)濟(jì), 2014, 33(11):7-15.(NING L J, ZHANG Y H. Empirical study on effect of sense of virtual community on user’s loyalty [J]. Technology Economy, 2014, 33(11):7-15.) [2] 客戶(hù)忠誠(chéng)度[EB/OL].[2016- 11- 12].http://baike.baidu.com/view/341649.htm.(Customer Loyalty[EB/OL].[2016- 11- 12].http://baike.baidu.com/view/341649.htm.) [3] 黃婉秋. 一種基于社會(huì)網(wǎng)絡(luò)的潛在流失客戶(hù)發(fā)現(xiàn)方法[J]. 北京交通大學(xué)學(xué)報(bào),2014,38(3):123-127.(HUANG W Q. An effective method for finding potential churning customers based on social network[J]. Journal of Beijing Jiaotong University, 2014,38(3):123-127.) [4] 張亮,張頔. 基于主題的Web2.0社交網(wǎng)絡(luò)影響力用戶(hù)發(fā)現(xiàn)[J]. 情報(bào)雜志,2015, 34(6):158-162.(ZHANG L, ZHANG D. Influential users identification in subject-based Web2.0 social networks[J]. Journal of Intelligence, 2015, 34(6):158-162.) [5] 趙建. 談虛擬社區(qū)消費(fèi)價(jià)值對(duì)品牌形象及社區(qū)忠誠(chéng)度的影響[J]. 商業(yè)時(shí)代,2014(32):60-62.(ZHAO J. Influence of consumption value of virtual communities on brand image and community loyalty [J]. Commercial Times, 2014(32):60-62.) [6] 丁怡瓊,張嵩. 社會(huì)化網(wǎng)絡(luò)服務(wù)(SNS)用戶(hù)忠誠(chéng)度研究綜述[J]. 情報(bào)雜志,2013, 32(3):106-112.(DING Y Q, ZHANG S. Review of users’ loyalty research in social network service[J]. Journal of Intelligence, 2013, 32(3):106-112.) [7] 鄧愛(ài)民,陶寶,馬瑩瑩. 網(wǎng)絡(luò)購(gòu)物顧客忠誠(chéng)度影響因素的實(shí)證研究[J]. 中國(guó)管理科學(xué),2014,22(6):94-102.(DENG A M, TAO B, MA Y Y. Empirical study of influential elements of e-loyalty[J]. Chinese Journal of Management Science, 2014, 22(6):94-102.) [8] 閆會(huì)娟,張醒洲,劉子瑞,等. 基于交易行為的個(gè)人客戶(hù)忠誠(chéng)度評(píng)價(jià)模型[J]. 管理現(xiàn)代化,2015,35(6):70-72.(YAN H J, ZHANG X Z, LIU Z R, et al. Personal user loyalty evaluation model based on transaction behavior [J]. Modernization of Management, 2015,35(6):70-72.) [9] 周云,朱明俠. 品牌忠誠(chéng)度的測(cè)算方法研究[J]. 經(jīng)濟(jì)問(wèn)題, 2015(10):92-98. (ZHOU Y, ZHU M X. Measurement of brand loyalty and effects on brand timeliness[J]. On Economic Problems, 2015(10):92-98.) [10] 朱至文,張黎. 客戶(hù)推薦計(jì)劃對(duì)現(xiàn)有客戶(hù)忠誠(chéng)度的影響[J]. 商業(yè)經(jīng)濟(jì)與管理,2016(1):53-61.(ZHU Z W, ZHANG L. The effect of customer referral programs on existing customers’ loyalty[J]. Journal of Business Economics, 2016(1):53-61.) [11] 倪靜,嚴(yán)廣樂(lè),葉林,等. 基于復(fù)雜網(wǎng)絡(luò)的電子商務(wù)群聚消費(fèi)傳播模型研究[J]. 計(jì)算機(jī)應(yīng)用研究,2011,28(3):1003-1006.(NI J, YAN G L, YE L, et al. Spreading model of electronic commerce cluster consumption based on complex network[J]. Application Research of Computers, 2011, 28(3): 1003-1006.) [12] 任劍鋒,張新祥. 電子商務(wù)客戶(hù)流失的建模與預(yù)測(cè)研究[J]. 計(jì)算機(jī)仿真,2012,29(5):363-366.(REN J F, ZHANG X X. Research on e-business customer churning modeling and prediction[J]. Computer Simulation, 2012,29(5): 363-366.) [13] 徐翔斌,王佳強(qiáng),涂歡,等. 基于改進(jìn)RFM模型的電子商務(wù)客戶(hù)細(xì)分[J]. 計(jì)算機(jī)應(yīng)用,2012,32(5):1439-1442.)(XU X B, WANG J Q, TU H, et al. Customer classification of e-commerce based on improved RFM model[J]. Journal of Computer Applications, 2012,32(5):1439-1442.) [14] 郭崇. 基于大數(shù)據(jù)分析的網(wǎng)購(gòu)客戶(hù)忠誠(chéng)度建模仿真[J]. 計(jì)算機(jī)仿真, 2015, 32(10):239-242.(GUO C. Modeling and simulation of online customer loyalty based on analysis of big data[J]. Computer Simulation, 2015, 32(10):239-242.) [15] 谷斌,徐菁. 基于知識(shí)共享的專(zhuān)業(yè)虛擬社區(qū)用戶(hù)忠誠(chéng)度挖掘[J]. 情報(bào)科學(xué),2015, 33(1):105-110.(GU B, XU J. Mining of professional virtual community user’ loyalty based on knowledge sharing[J]. Information Science, 2015, 33(1):105-110.) [16] 唐胡鑫. 電子商務(wù)客戶(hù)忠誠(chéng)度模型仿真研究[J]. 計(jì)算機(jī)仿真, 2016, 33(1):413-415.(TANG H X. Simulation research on loyalty model on e-commerce customer[J]. Computer Simulation, 2016, 33(1):413-415.) [17] KREUZER S, HOEBEL N. Fuzzy clustering of Web user profiles for analyzing their behavior and interests[J]. Fuzzy Methods for Customer Relationship Management and Marketing: Applications and Classifications, 2012, 49: 307-313. [18] SANCHEZ-FRANCO M J, RONDAN-CATALUNA F J. Virtual travel communities and customer loyalty: customer purchase involvement and Web site design[J]. Electronic Commerce Research and Applications, 2009, 9(2): 16-22. [19] GUO Y, NIU D. An analysis model of power customer satisfaction based on the decision tree[J]. International Journal of Business and Management, 2009, 2(3): 30-35. [20] MIGLAUTSCH J R. Thoughts on RFM scoring[J]. Journal of Database Marketing & Customer Strategy Management, 2000, 8(1): 67-72. [21] GRIFFIN J. Customer Loyalty: How to Earn and How to Keep it[M]. New York: Jossey-Bass Inc.,1995: 32-38. [22] GOLDIN D G, KANELLAKIS P C. On similarity queries for time-series data: constraint specification and implementation[C]// Proceedings of the 1st International Conference on Principles and Practice of Constraint Programming. London: Springer-Verlag, 1995: 137-153. [23] BLONDEL V D, GUILLAUME J L, LAMBIOTTE R, et al. Fast unfolding of communities in large networks[J]. Journal of Statistical Mechanics Theory and Experiment, 2008, 10:155-168. [24] AL-GARADI M, VARATHAN K D, RAVANA S D. Identification of influential spreaders in online social networks using interaction weighted K-core decomposition method[J]. Physica A: Statistical Mechanics and Its Applications, 2016, 468: 80-89. [25] LI Q, ZHOU T, LYU L, et al. Identifying influential spreaders by weighted LeaderRank[J]. Physica A: Statistical Mechanics and its Applications, 2014,404(24): 50-55. [26] 馬寅. 社會(huì)網(wǎng)絡(luò)影響力最大化算法及傳播模型的研究[D]. 蘭州: 蘭州大學(xué),2012:20-23.(MA Y. Research on the maximum algorithm and propagation model of social network influence[D]. Lanzhou: Lanzhou University, 2012: 20-23.) [27] 黎雷. 社會(huì)網(wǎng)絡(luò)影響力模型及其算法研究[D]. 北京: 北京交通大學(xué),2010: 30-35.(LI L. Research on social network influence model and its algorithm[D]. Beijing: Beijing Jiaotong University, 2010: 30-35.) This work is partially supported by the National High Technology Research and Development Program (863 Program) of China (2009AA062802), the National Natural Science Foundation of China (60473125,71572015), the CNPC Innovation Foundation (05E7013), the National Science and Technology Major Project (G5800- 08- ZS-WX), the Science Foundation of China University of Petroleum-Beijing at Karamay (RCYJ2016B- 03- 001). XUEYun, born in 1977, Ph.D. candidate, associate professor. Her research interests include data mining, knowledge discovery. LIGuohe, born in 1965, Ph.D., professor. His research interests include artificial intelligence, machine learning, knowledge discovery. WUWeijiang, born in 1971, Ph.D. candidate, associate professor. His research interests include artificial intelligence, knowledge discovery. HONGYunfeng, born in 1965. His research interests include enterprise resource planning, data management. ZHOUxiaoming, born in 1965, senior engineer. His research interests include information management system, decision support. Userdiscoverybasedonloyaltyinsocialnetworks XUE Yun1,2,3*, LI Guohe1,2,4, WU Weijiang1,2,4,HONG Yunfeng4,ZHOU Xiaoming4 (1.BeijingKeyLabofDataMiningforPetroleumData,ChinaUniversityofPetroleum,Beijing102249,China;2.CollegeofGeophysicsandInformationEngineering,ChinaUniversityofPetroleum,Beijing102249,China;3.BusinessCollege,BeijingUnionUniversity,Beijing100025,China;4.PanPassInstituteofDigitalIdentificationManagementandInternetofThings,Beijing100029,China) Aiming at improving the users’ high viscosity in social networks, an algorithm based on user loyalty in social network system was proposed. In the proposed algorithm, double Recency Frequency Monetary (RFM) model was used for mining the different loyalty kinds of users. Firstly, according to the double RFM model, the users’ consumption value and behavior value were calculated dynamically and the loyalty in a certain time was got. Secondly, the typical loyal users and disloyal users were found out by using the founded standard curve and similarity calculation. Lastly, the potential loyal and disloyal users were found out by using modularity-based community discovery and independent cascade propagation model. On some microblog datasets of a social network, the quantitative representation of user loyalty was confirmed in Social Network Service (SNS), thus the users could be distinguished based on users’ loyalty. The experimental results show that the proposed algorithm can be used to effectively dig out different loyalty kinds of users, and can be applied to personalized recommendation, marketing, etc. in the social network system. social network; user discovery; loyalty; Recency Frequency Monetary (RFM); community division 2017- 05- 16; 2017- 06- 07。 國(guó)家863計(jì)劃項(xiàng)目(2009AA062802);國(guó)家自然科學(xué)基金資助項(xiàng)目(60473125,71572015);中國(guó)石油(CNPC)石油科技中青年創(chuàng)新基金資助項(xiàng)目(05E7013);國(guó)家油氣重大專(zhuān)項(xiàng)子課題(G5800- 08- ZS-WX);中國(guó)石油大學(xué)(北京)克拉瑪依校區(qū)科研啟動(dòng)基金資助項(xiàng)目(RCYJ2016B- 03- 001)。 薛云(1977—),女,山西平遙人,副教授,博士研究生,主要研究方向:數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn); 李國(guó)和(1965—),男,福建漳州人,教授,博士,博士生導(dǎo)師,主要研究方向:人工智能、機(jī)器學(xué)習(xí)、知識(shí)發(fā)現(xiàn); 吳衛(wèi)江(1971—),男,河北唐山人,副教授,博士研究生,主要研究方向:人工智能、知識(shí)發(fā)現(xiàn); 洪云峰(1966—),男,福建龍巖人,主要研究方向:企業(yè)資源計(jì)劃、數(shù)據(jù)管理; 周曉明(1963—),男,湖北武漢人,高級(jí)工程師,主要研究方向:信息管理系統(tǒng)、決策支持。 1001- 9081(2017)11- 3095- 06 10.11772/j.issn.1001- 9081.2017.11.3095 (*通信作者電子郵箱yun.xue@buu.edu.cn) TP393 A3.2 實(shí)驗(yàn)環(huán)境和測(cè)試數(shù)據(jù)
3.3 實(shí)驗(yàn)結(jié)果與分析
4 結(jié)語(yǔ)