魏思怡 陳鵬 胡正凱
摘? ?要:隨著網(wǎng)絡(luò)的飛速發(fā)展,交友網(wǎng)站大量涌現(xiàn),為快節(jié)奏的單身男女提供了廣闊的交友平臺(tái)。本文在考慮現(xiàn)實(shí)交友的審美觀、門當(dāng)戶對(duì)觀的基礎(chǔ)上,采用融合算法, 融合了基于內(nèi)容的Bayes推薦與基于用戶的KNN協(xié)同過(guò)濾兩種方法,構(gòu)造了有效的評(píng)分排序模型,能夠?yàn)橛脩敉扑]適合的交友對(duì)象。通過(guò)使用美國(guó)某大型交友網(wǎng)站的用戶數(shù)據(jù),驗(yàn)證了該模型的精度。經(jīng)計(jì)算得出上述融合模型NDCG@20值高于單一方法精度,能有效地避免過(guò)擬合問(wèn)題,提高了推薦精度。
關(guān)鍵詞:融合算法;Bayes;KNN;協(xié)同過(guò)濾;交友推薦
1? 引言
隨著網(wǎng)絡(luò)時(shí)代的飛速發(fā)展,各種交友網(wǎng)站層出不窮。研究國(guó)內(nèi)多數(shù)交友網(wǎng)站發(fā)現(xiàn),很多網(wǎng)站為吸引客源,追求快速匹配,基于用戶的少量特征簡(jiǎn)單分類,無(wú)法有效處理大批質(zhì)量參差不齊的用戶信息,導(dǎo)致用戶間成功配對(duì)率很低,無(wú)法有效的配對(duì)交友。因此,本文設(shè)計(jì)了一套合理有效的算法,在學(xué)歷、經(jīng)濟(jì)水平、地域范圍推薦的基礎(chǔ)上,根據(jù)用戶的興趣偏好推薦其適合的交友對(duì)象,以期提高用戶的交友成功率。
2? 模型建立
2.1? 評(píng)價(jià)指標(biāo)
交友網(wǎng)站主要關(guān)注用戶的交友成功率及準(zhǔn)確性兩方面[1]。針對(duì)實(shí)際情況采用Normalized Discounted Cumulative Gain(NDCC)作為評(píng)價(jià)標(biāo)準(zhǔn),定義如下:
其中DCG是根據(jù)已給評(píng)分排序后計(jì)算推薦精度的指標(biāo),如果所給評(píng)分較理想,能準(zhǔn)確預(yù)測(cè)用戶A對(duì)于所推薦用戶的偏好排序,則此時(shí)DCG為IdealDCG。
2.2? 基于內(nèi)容的交友對(duì)象推薦
基于內(nèi)容的推薦[2]主要通過(guò)選取候選用戶的一些特征指標(biāo),計(jì)算用戶對(duì)其興趣得分。考慮到實(shí)際生活中的交友情況并結(jié)合美國(guó)大型交友網(wǎng)站eHarmony上的用戶信息初步劃分以下影響用戶產(chǎn)生關(guān)注及通信的因素有:候選用戶的受歡迎程度:用戶的頭像和昵稱;用戶和候選用戶之間的匹配度,如年齡、學(xué)歷、收入等;網(wǎng)站推薦功能。
將用戶與候選用戶之間的關(guān)注或通信作為事件的發(fā)生,變量[XA]表示用戶A是否產(chǎn)生關(guān)注或通信,變量[YB]表示候選用戶B是否被關(guān)注或有通信。計(jì)算用戶A對(duì)候選用戶B產(chǎn)生關(guān)注或通信的概率,據(jù)此對(duì)候選用戶B進(jìn)行排序:
Step1:計(jì)算P([YB]=1),即候選用戶B被關(guān)注或產(chǎn)生通信的概率,主要依賴于候選用戶B的個(gè)人魅力或流行度,統(tǒng)計(jì)候選用戶B的個(gè)人流行度并定義下列函數(shù)計(jì)算此概率:
式中,分子為候選用戶B被關(guān)注或產(chǎn)生通信的次數(shù),分母為推薦用戶A的候選用戶B人數(shù),[ω1],[ω2]為平滑參數(shù)。
Step2:計(jì)算P([XA]=1|[YB]=1),通過(guò)計(jì)算用戶的收入差距及候選用戶B的流行度計(jì)算候選用戶B被關(guān)注或通信對(duì)象為用戶A的概率。
由數(shù)據(jù)分析得:所有用戶對(duì)收入的要求符合正態(tài)分布,呈現(xiàn)中間高兩邊低的規(guī)律。同時(shí)男女用戶的偏好也呈現(xiàn)不同趨勢(shì),男性用戶普遍偏左,而女性用戶普遍偏右,因此設(shè)置男女收入差距系數(shù)[ω3],[ω4]。同時(shí),因?yàn)楸煌扑]次數(shù)多的候選用戶被關(guān)注和通信次數(shù)遠(yuǎn)多于被推薦次數(shù)少的候選用戶,設(shè)置被推薦次數(shù)系數(shù)[ω5]。
2.3? 基于用戶的協(xié)同過(guò)濾
基于用戶的協(xié)同過(guò)濾思想主要是通過(guò)計(jì)算用戶之間的相似度,找到與用戶興趣偏好相似的用戶群,根據(jù)用戶群對(duì)候選用戶的評(píng)價(jià)進(jìn)一步確定用戶的吸引度得分,根據(jù)得分排序候選用戶。根據(jù)交友網(wǎng)站分別給用戶[A1]、[A2]推薦的候選用戶集合的相似程度定義用戶之間的相似性:
2.4? 融合算法
融合以上兩種方法可從多個(gè)角度為用戶推薦最適合的交友人選,有效避免了單一方法的局限性可有效避免過(guò)擬合現(xiàn)象。采用加權(quán)投票算法將兩種算法分別所得NDCG@20值作為排序權(quán)值,得到加權(quán)排序序列,再次計(jì)算排序序列NDCG@20值。
3? 結(jié)果驗(yàn)證與檢驗(yàn)
通過(guò)調(diào)節(jié)相應(yīng)參數(shù)和權(quán)重,分別計(jì)算:采用Bayes算法計(jì)算得基于內(nèi)容交友推薦的NDCG@20值為0.24844,采用KNN算法計(jì)算得基于用戶協(xié)同過(guò)濾的NDCG@20值為0.21356,融合算法計(jì)算得出NDCG@20值為0.25168,充分說(shuō)明利用融合算法計(jì)算的合理性。
4? 結(jié)論
本文基于現(xiàn)實(shí)交友狀況與某大型交友網(wǎng)站的真實(shí)數(shù)據(jù),提出了融合基于內(nèi)容和基于用戶兩種推薦模型的融合算法,可有效地減少由于交友信息的龐大復(fù)雜造成的誤差,幫助用戶找到適合的交友對(duì)象,具有較高精度。模型結(jié)合審美觀、門當(dāng)戶對(duì)觀念等社會(huì)婚戀觀,多重考慮IDF思想和推薦次數(shù),實(shí)現(xiàn)網(wǎng)站的智能推薦。同時(shí)發(fā)現(xiàn)基于內(nèi)容的推薦結(jié)果優(yōu)于基于用戶的協(xié)同過(guò)濾結(jié)果,說(shuō)明在交友網(wǎng)站上用戶的個(gè)人魅力所占權(quán)重更大。
參考文獻(xiàn):
[1] Burke R. Hybrid recommender systems: Survey and experiments[J].User modeling and user-adapted interaction,2002(4):331~370.
[2] 許海玲,吳瀟,李曉東,閻保平.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學(xué)報(bào),2009(2):350~362.