范洪博 楊笑鋒 張 晶
(昆明理工大學(xué)信息工程與自動化學(xué)院 云南 昆明 650500)
基于用戶喜好程度的高質(zhì)量話題推薦是目前互聯(lián)網(wǎng)產(chǎn)品的核心競爭力。傳統(tǒng)話題推薦模型主要包括基于聚類的模型[1]、基于關(guān)聯(lián)的模型[2]、基于協(xié)同過濾的模型[3]等,這些推薦模型將各話題對應(yīng)文本根據(jù)關(guān)鍵詞相似率等指標(biāo)進(jìn)行關(guān)聯(lián),一旦用戶關(guān)注了某一話題,則根據(jù)文本關(guān)聯(lián)度由高到低對用戶推薦與該話題相關(guān)的其他話題。
但這些推薦方法存在下述缺點(diǎn):1) 難以深入挖掘用戶潛在需求;2) 推薦文本間信息重疊嚴(yán)重,話題單一,降低受眾閱讀信息量;3) 難以推薦新話題。這嚴(yán)重影響了用戶的閱讀體驗(yàn),急需從新的視角研究用戶話題推薦方法。
在網(wǎng)絡(luò)用戶中,物以類聚人以群分的現(xiàn)象非常嚴(yán)重。通常,具有相同或相近的人格屬性特點(diǎn)的用戶,思維方式比較接近,所關(guān)注的話題具有較強(qiáng)的相關(guān)性。由弗洛伊德的人格動力理論和奧爾波特的人格特質(zhì)理論總結(jié)得出:人格是決定用戶對特定話題是否無意識的喜好/厭惡,并形成閱讀行為的重要因素。
而專業(yè)知識、從事職業(yè)、語言上下文環(huán)境,對特定話題的喜好/厭惡有較大的影響。用戶背景相近的用戶,因他們之間具備接近的專業(yè)知識等,對同一話題更容易產(chǎn)生接近的喜好/厭惡,即用戶背景相似度也可能成為一種重要的話題推薦參考指標(biāo)。
基于上述分析,本文提出一種融合用戶背景和用戶人格的話題推薦方法(CBG-CF)。計算用戶之間人格特質(zhì)和用戶背景信息的相似度,通過協(xié)調(diào)過濾算法對于目標(biāo)用戶進(jìn)行文本推薦。實(shí)驗(yàn)表明,相對用戶間背景相似的文本推薦算法(BG-CF)和人格特質(zhì)相似的文本推薦算法(CS-CF),本文提出的算法在用戶文本推薦上有較好效果,推薦的質(zhì)量得到一定的提升。實(shí)驗(yàn)表明,相對用戶間背景相似的文本推薦算法(BG-CF)和人格特質(zhì)相似的文本推薦算法(CS-CF),本文提出的算法在用戶文本推薦上有較好效果,推薦的質(zhì)量得到較大的提升。如當(dāng)文本推薦的數(shù)等于9時,在MAE指標(biāo)上,CBG-CF相對BG-CF約提升19.74%,相對CS-CF約提升8.92%。
人的行為是其人格特質(zhì)的有效表現(xiàn),建立人格特質(zhì)識別模型對于用戶人格特質(zhì)分析尤為必要。
近年,對于人格特質(zhì)研究呈現(xiàn)較熱趨勢。Caci等[7]根據(jù)網(wǎng)絡(luò)用戶人格特質(zhì)預(yù)測對于Facebook的接收程度。Mairesse等[10]利用SVM算法預(yù)測用戶的人格特質(zhì),準(zhǔn)確率達(dá)到60%。張磊等[9]綜述人格特質(zhì)預(yù)測面臨挑戰(zhàn),提出相對的解決方法。Selfhout等[6]根據(jù)用戶的人格與商品的購買關(guān)系進(jìn)行商品的推薦。Rentfrow等[5]根據(jù)不同人格的用戶對不同音樂的偏好,進(jìn)行個性化音樂的推薦。上述基于人格的預(yù)測模型均獲得了良好的預(yù)測效果。
人格特質(zhì)決定用戶對事件的態(tài)度,不同人格特質(zhì)用戶在文本中體現(xiàn)出的情感詞匯、表情、圖片各不相同,如外傾特質(zhì)用戶對待事件往往表現(xiàn)較為樂觀、積極向上。可見,情感特征是預(yù)測用戶人格特質(zhì)重要因素。
在本文中,我們通過文本、圖片、表情等因素,綜合考量用戶情感,設(shè)用戶i發(fā)布文本中正面情感詞比例P(i),負(fù)面情感詞比例N(i),則:
(1)
(2)
式中:Totali表示用戶i發(fā)布文本中情感詞匯總個數(shù),npi表示文本中正面情感詞出現(xiàn)個數(shù),nni表示文本中負(fù)面情感詞出現(xiàn)個數(shù)。pp(i)表示圖片正面情感,pn(i)表示圖片負(fù)面情感,其中0≤pp(i)≤1,0≤pn(i)≤1。TEi表示用戶發(fā)布文本中出現(xiàn)表情總個數(shù),epi表示出現(xiàn)正面情感表情個數(shù),eni表示出現(xiàn)正面情感表情個數(shù)。
不同的特征對于用戶人格特質(zhì)的預(yù)測有不同的影響,特征權(quán)值分配合理對人格特質(zhì)準(zhǔn)確預(yù)測起決定作用。由皮爾森相關(guān)系數(shù)存在特征數(shù)據(jù)需滿足正態(tài)分布的問題,本文采用肯德爾檢驗(yàn)計算五大人格特質(zhì)與特征之間相關(guān)性,得到各個特征權(quán)值。其中,隨機(jī)變量M和N的肯德爾相關(guān)系數(shù)計算為:
(3)
式中:A表示隨機(jī)變量M和N中一致元素的對數(shù),B表示隨機(jī)變量M和N中非一致元素的對數(shù)。X1表示M之中重復(fù)元素的對數(shù),其計算為:
(4)
式中:s表示重復(fù)元素對數(shù),U表示第i個元素?fù)碛械南嗤貍€數(shù)。X2表示N之中重復(fù)的元素對數(shù),計算同式(4)。X3表示合并的總個數(shù),計算如下式:
(5)
式中:X表示隨機(jī)變量的維數(shù)。隨機(jī)變量M和N的肯德爾相關(guān)系數(shù)φ(M,N)∈[-1,1],其中φ(M,N)=0表示隨機(jī)變量M和N相互獨(dú)立,反之φ(M,N)值越大表明相關(guān)性越強(qiáng)。因此,擬通過計算屬性與用戶人格特質(zhì)之間的肯德爾相關(guān)系數(shù)來量化特征的重要性。則第i個特征gi的重要性量化計算為:
(6)
式中:φ(gi,pj)表示gi與第j維用戶人格特質(zhì)pj之間的肯德爾相關(guān)系數(shù)。p表示五大人格特質(zhì)的集合。根據(jù)gi重要性計算對應(yīng)權(quán)重W(gi)的值:
(7)
式中:G表示用戶人格特質(zhì)預(yù)測的屬性集合。
用戶背景信息對分析用戶性格和挖掘用戶興趣提供很大幫助。其中,蔣勝等[10]結(jié)合用戶背景信息和用戶行為解決推薦系統(tǒng)冷處理問題。吳一帆等[11]根據(jù)用戶背景相似解決推薦系統(tǒng)數(shù)據(jù)缺失問題,提升推薦系統(tǒng)的精準(zhǔn)度。仲兆滿等[13]將文本語義與用戶背景相結(jié)合用于微博信息的推薦。僅依賴用戶文本信息來分析用戶人格特質(zhì),準(zhǔn)確率不高,因而影響推薦系統(tǒng)的精準(zhǔn)度。本文提出融入用戶背景信息與用戶文本分析用戶人格特質(zhì),提高用戶人格特質(zhì)預(yù)測準(zhǔn)確度。
用戶背景信息由不同的特征屬性描述,包含連續(xù)特征屬性和二元特征屬性。連續(xù)特征屬性包括年齡,二元特征屬性如性別、教育背景等。通過對屬性特征加權(quán)計算用戶之間背景相似,用戶i與用戶j背景相似度計算如下:
(8)
1) 若ak為數(shù)值型屬性,則:
(9)
2) 若ak為二元型屬性,則:
(10)
3) 若ak為分組型屬性,則:
(11)
式中:s為同一屬性之間的最大差值,Δx為aik和ajk之間分組差。
基于用戶人格特質(zhì)計算用戶之間相似存度在一定偏差,本文融入用戶背景信息,結(jié)合用戶人格特質(zhì)計算用戶間相似度。用戶i與用戶j相似度計算如下:
tsim(i,j)=α×sim(i,j)+β×gsim(i,j)+γ
(12)
式中:tsim(i,j)為用戶i與用戶j的相似度,sim(i,j)為用戶i與用戶j的背景信息相似度,gsim(i,j)為用戶i與用戶j的人格特質(zhì)相似度。α、β、γ分別為用戶背景信息相似度加權(quán)值、用戶人格特質(zhì)相似度加權(quán)值、修正參數(shù)。由式(7)可得特征屬性與人格特質(zhì)之間的關(guān)聯(lián),根據(jù)用戶發(fā)布文本信息對該用戶人格特質(zhì)量化。用戶i與用戶j的人格特質(zhì)相似度計算如下:
(13)
式中:mit表示用戶i的五大人格特質(zhì)量化值,mjt表示用戶j的五大人格特質(zhì)量化值。推薦算法如下:
輸入:用戶—背景信息矩陣Um×n、用戶—文本信息矩陣Rm×l和目標(biāo)用戶矩陣Ue×n。
輸出:Top-N推薦結(jié)果。
1) FOR用戶—背景信息矩陣Um×n每一列DO。
2) 根據(jù)式(8)計算用戶i與目標(biāo)用戶矩陣Ue×n的背景信息相似度,結(jié)果保存在用戶—背景信息相似矩陣SUm×e。
3) END FOR。
4) FOR用戶—文本信息矩陣Rm×l每一列DO。
5) 對于文本信息進(jìn)行處理,使用式(7)對用戶五大人格特質(zhì)量化計算。計算結(jié)果存入用戶—人格特質(zhì)矩陣Cm×5中。
6) 對目標(biāo)用戶矩陣Ue×n五大人格特質(zhì)量化計算,計算結(jié)果存入目標(biāo)用戶—人格特質(zhì)矩陣Ce×5。
7) END FOR。
8) FOR矩陣SUm×e、矩陣Cm×5和矩陣Ce×5DO。
9) 根據(jù)式(12)計算用戶間相識度,結(jié)果存入用戶—目標(biāo)用戶相似度矩陣Rm×e中。
10) END FOR。
11) 對于矩陣Rm×e中的值進(jìn)排序。
12) WHILEtsim(i,j)>ε,其中tsim(i,j)表示用戶i與目標(biāo)用戶j的相似度(i∈Um×n,j∈Ue×n),ε表示相似度閾值。
13) 對目標(biāo)用戶j進(jìn)行Top-N推薦。
14) END。
根據(jù)上述的描述算法,設(shè)m是用戶、e是目標(biāo)用戶、用戶背景特征維度b,關(guān)于用戶集合與目標(biāo)用戶背景相似度的計算,時間復(fù)雜O(m×e×b)。而算法的步驟1-步驟3在離線的情形下可以完成計算,固該部分時間復(fù)雜度不影響算法的整體運(yùn)算性能。步驟4-步驟7主要計算五大人格特質(zhì)與文本的關(guān)系,設(shè)n為數(shù)據(jù)的集合,d為特征數(shù)量,即該部分的時間復(fù)雜度O(n×n×d)。步驟8-步驟10主要用戶與目標(biāo)用戶之間的相似度,時間復(fù)雜度O(m×e)。步驟11-步驟14主要對于相似度數(shù)據(jù)進(jìn)行排序,我們采用堆排序的方式,時間復(fù)雜度O(m)。本文算法與CS-CF算法相比,時間復(fù)雜度相同,不會影響推薦系統(tǒng)的性能,但推薦的質(zhì)量有所提升。
本文基于新浪微博(http://weibo.com)的數(shù)據(jù)對上述算法的推薦質(zhì)量進(jìn)行驗(yàn)證,并與BG-CF算法和SC-CF算法進(jìn)行比較。新浪微博是國內(nèi)社交通信的主流平臺,每日在線人數(shù)達(dá)到2.2億。本文通過爬蟲技術(shù)抓取16 059位用戶和3 248 907條微博信息,主要包括用戶的注冊信息、用戶發(fā)布文本信息、用戶點(diǎn)贊信息。
用戶的背景信息主要包括年齡、性別、教育等特征屬性,本文根據(jù)用戶注冊的特征屬性通過式(8)計算用戶間背景相似度。用戶發(fā)布的文本信息主要包括表情、文字內(nèi)容等,本文通過式(7)計算五大人格特質(zhì)與用戶發(fā)布文本的關(guān)聯(lián),進(jìn)一步量化用戶人格特質(zhì)。數(shù)據(jù)集分成5份,其中任意4份做測試數(shù)據(jù)集,剩余1份做訓(xùn)練數(shù)據(jù),通過交叉驗(yàn)證法檢驗(yàn)該算法精準(zhǔn)度。本文采用平均絕對偏差[13](MAE)評價推薦結(jié)果的精準(zhǔn)度,MAE的值越小表示推薦的精準(zhǔn)度越高,算法的效果越好。
(14)
式中:sum表示測試的集合,Pi表示對于目標(biāo)用戶i推薦微博文本的情感,Ui表示目標(biāo)用戶i點(diǎn)贊微博文本的情感。當(dāng)推薦的微博文本情感與目標(biāo)用戶點(diǎn)贊文本情感誤差較小時,可以認(rèn)為該推薦有效。
本實(shí)驗(yàn)通過分析α和β的值,其中α+β=1,設(shè)定γ=0.015。通過MAE的變化選取最優(yōu)α和β的值。實(shí)驗(yàn)如圖1所示。
圖1 不同權(quán)值的推薦
根據(jù)圖1可知,隨α的值遞增,MAE也呈現(xiàn)增加趨勢,當(dāng)α=0.2時文本推薦的質(zhì)量相對較好。推薦文本數(shù)量的增多,推薦文本精度得到提升。推薦文本數(shù)目小于10時,文本推薦的精度隨推薦文本數(shù)目成正比;當(dāng)推薦文本數(shù)目大于10時,推薦的精度趨于平穩(wěn),該現(xiàn)象符合用戶閱讀現(xiàn)象。
通過實(shí)驗(yàn),我們得到基于用戶間背景相似的文本推薦算法(BG-CF)、基于人格特質(zhì)相似的文本推薦算法(CS-CF)和本文提出的算法在文本推薦的MAE值,如圖2所示。
圖2 不同算法的推薦
根據(jù)圖2,我們可以得到本文提出的算法相對另外兩種算法MAE值較低,推薦精度相對較高。隨著文本推薦數(shù)目的增多,MAE值趨于降低。當(dāng)文本推薦數(shù)目大于10時,MAE值趨于平穩(wěn)。當(dāng)文本推薦的數(shù)等于9時,新算法相對基于用戶間背景相似的文本推薦算法(BG-CF)約提升19.74%,相對人格特質(zhì)相似的文本推薦算法(CS-CF)算法約提升8.92%,可見本文算法對提升文本推薦精準(zhǔn)度有效可行。
結(jié)合用戶背景信息的文本推薦精準(zhǔn)度較低,文本情感分析推薦無法準(zhǔn)確挖掘出用戶潛在興趣的問題,本文提出融合用戶背景信息和用戶人格特質(zhì)的文本推薦方法。該方法根據(jù)用戶發(fā)布文本量化用戶人格特質(zhì),結(jié)合用戶背景信息深度挖掘用戶隱藏的愛好,針對不同的人格特質(zhì)結(jié)合用戶背景信息進(jìn)行文本推薦。與僅有人格特質(zhì)的用戶文本推薦相比,本算法在推薦精準(zhǔn)度上有一定提升。在本算法的基礎(chǔ)上,如何將多維特征如用戶地理位置、文本視頻信息等融入用戶文本推薦中,進(jìn)一步提高推薦的精準(zhǔn)度。而這些問題是我們下一步的研究內(nèi)容。