亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合用戶背景和用戶人格的話題推薦方法

2018-07-25 11:35:32范洪博楊笑鋒

計算機(jī)應(yīng)用與軟件 2018年7期

范洪博楊笑鋒張晶

(昆明理工大學(xué)信息工程與自動化學(xué)院云南昆明 650500)

0 引言

基于用戶喜好程度的高質(zhì)量話題推薦是目前互聯(lián)網(wǎng)產(chǎn)品的核心競爭力。傳統(tǒng)話題推薦模型主要包括基于聚類的模型[1]、基于關(guān)聯(lián)的模型[2]、基于協(xié)同過濾的模型[3]等，這些推薦模型將各話題對應(yīng)文本根據(jù)關(guān)鍵詞相似率等指標(biāo)進(jìn)行關(guān)聯(lián)，一旦用戶關(guān)注了某一話題，則根據(jù)文本關(guān)聯(lián)度由高到低對用戶推薦與該話題相關(guān)的其他話題。

但這些推薦方法存在下述缺點(diǎn)：1) 難以深入挖掘用戶潛在需求；2) 推薦文本間信息重疊嚴(yán)重，話題單一，降低受眾閱讀信息量；3) 難以推薦新話題。這嚴(yán)重影響了用戶的閱讀體驗(yàn)，急需從新的視角研究用戶話題推薦方法。

在網(wǎng)絡(luò)用戶中，物以類聚人以群分的現(xiàn)象非常嚴(yán)重。通常，具有相同或相近的人格屬性特點(diǎn)的用戶，思維方式比較接近，所關(guān)注的話題具有較強(qiáng)的相關(guān)性。由弗洛伊德的人格動力理論和奧爾波特的人格特質(zhì)理論總結(jié)得出:人格是決定用戶對特定話題是否無意識的喜好/厭惡，并形成閱讀行為的重要因素。

而專業(yè)知識、從事職業(yè)、語言上下文環(huán)境，對特定話題的喜好/厭惡有較大的影響。用戶背景相近的用戶，因他們之間具備接近的專業(yè)知識等，對同一話題更容易產(chǎn)生接近的喜好/厭惡，即用戶背景相似度也可能成為一種重要的話題推薦參考指標(biāo)。

基于上述分析，本文提出一種融合用戶背景和用戶人格的話題推薦方法(CBG-CF)。計算用戶之間人格特質(zhì)和用戶背景信息的相似度，通過協(xié)調(diào)過濾算法對于目標(biāo)用戶進(jìn)行文本推薦。實(shí)驗(yàn)表明，相對用戶間背景相似的文本推薦算法(BG-CF)和人格特質(zhì)相似的文本推薦算法(CS-CF)，本文提出的算法在用戶文本推薦上有較好效果，推薦的質(zhì)量得到一定的提升。實(shí)驗(yàn)表明，相對用戶間背景相似的文本推薦算法(BG-CF)和人格特質(zhì)相似的文本推薦算法(CS-CF),本文提出的算法在用戶文本推薦上有較好效果，推薦的質(zhì)量得到較大的提升。如當(dāng)文本推薦的數(shù)等于9時，在MAE指標(biāo)上，CBG-CF相對BG-CF約提升19.74%,相對CS-CF約提升8.92%。

1 用戶人格分析

人的行為是其人格特質(zhì)的有效表現(xiàn)，建立人格特質(zhì)識別模型對于用戶人格特質(zhì)分析尤為必要。

近年，對于人格特質(zhì)研究呈現(xiàn)較熱趨勢。Caci等[7]根據(jù)網(wǎng)絡(luò)用戶人格特質(zhì)預(yù)測對于Facebook的接收程度。Mairesse等[10]利用SVM算法預(yù)測用戶的人格特質(zhì)，準(zhǔn)確率達(dá)到60%。張磊等[9]綜述人格特質(zhì)預(yù)測面臨挑戰(zhàn)，提出相對的解決方法。Selfhout等[6]根據(jù)用戶的人格與商品的購買關(guān)系進(jìn)行商品的推薦。Rentfrow等[5]根據(jù)不同人格的用戶對不同音樂的偏好，進(jìn)行個性化音樂的推薦。上述基于人格的預(yù)測模型均獲得了良好的預(yù)測效果。

1.1 情感統(tǒng)計特征

人格特質(zhì)決定用戶對事件的態(tài)度，不同人格特質(zhì)用戶在文本中體現(xiàn)出的情感詞匯、表情、圖片各不相同，如外傾特質(zhì)用戶對待事件往往表現(xiàn)較為樂觀、積極向上。可見，情感特征是預(yù)測用戶人格特質(zhì)重要因素。

在本文中，我們通過文本、圖片、表情等因素，綜合考量用戶情感，設(shè)用戶i發(fā)布文本中正面情感詞比例P(i)，負(fù)面情感詞比例N(i)，則：

(1)

(2)

式中：Totali表示用戶i發(fā)布文本中情感詞匯總個數(shù)，npi表示文本中正面情感詞出現(xiàn)個數(shù)，nni表示文本中負(fù)面情感詞出現(xiàn)個數(shù)。pp(i)表示圖片正面情感，pn(i)表示圖片負(fù)面情感，其中0≤pp(i)≤1，0≤pn(i)≤1。TEi表示用戶發(fā)布文本中出現(xiàn)表情總個數(shù)，epi表示出現(xiàn)正面情感表情個數(shù)，eni表示出現(xiàn)正面情感表情個數(shù)。

1.2 特征權(quán)重計算

不同的特征對于用戶人格特質(zhì)的預(yù)測有不同的影響，特征權(quán)值分配合理對人格特質(zhì)準(zhǔn)確預(yù)測起決定作用。由皮爾森相關(guān)系數(shù)存在特征數(shù)據(jù)需滿足正態(tài)分布的問題,本文采用肯德爾檢驗(yàn)計算五大人格特質(zhì)與特征之間相關(guān)性，得到各個特征權(quán)值。其中，隨機(jī)變量M和N的肯德爾相關(guān)系數(shù)計算為：

(3)

式中：A表示隨機(jī)變量M和N中一致元素的對數(shù)，B表示隨機(jī)變量M和N中非一致元素的對數(shù)。X1表示M之中重復(fù)元素的對數(shù)，其計算為：

(4)

式中：s表示重復(fù)元素對數(shù)，U表示第i個元素?fù)碛械南嗤貍€數(shù)。X2表示N之中重復(fù)的元素對數(shù)，計算同式(4)。X3表示合并的總個數(shù)，計算如下式：

(5)

式中:X表示隨機(jī)變量的維數(shù)。隨機(jī)變量M和N的肯德爾相關(guān)系數(shù)φ(M,N)∈[-1,1]，其中φ(M,N)=0表示隨機(jī)變量M和N相互獨(dú)立，反之φ(M,N)值越大表明相關(guān)性越強(qiáng)。因此，擬通過計算屬性與用戶人格特質(zhì)之間的肯德爾相關(guān)系數(shù)來量化特征的重要性。則第i個特征gi的重要性量化計算為：

(6)

式中：φ(gi,pj)表示gi與第j維用戶人格特質(zhì)pj之間的肯德爾相關(guān)系數(shù)。p表示五大人格特質(zhì)的集合。根據(jù)gi重要性計算對應(yīng)權(quán)重W(gi)的值：

(7)

式中：G表示用戶人格特質(zhì)預(yù)測的屬性集合。

2 融合用戶背景和用戶人格推薦算法

2.1 用戶背景信息相似度計算

用戶背景信息對分析用戶性格和挖掘用戶興趣提供很大幫助。其中，蔣勝等[10]結(jié)合用戶背景信息和用戶行為解決推薦系統(tǒng)冷處理問題。吳一帆等[11]根據(jù)用戶背景相似解決推薦系統(tǒng)數(shù)據(jù)缺失問題，提升推薦系統(tǒng)的精準(zhǔn)度。仲兆滿等[13]將文本語義與用戶背景相結(jié)合用于微博信息的推薦。僅依賴用戶文本信息來分析用戶人格特質(zhì)，準(zhǔn)確率不高，因而影響推薦系統(tǒng)的精準(zhǔn)度。本文提出融入用戶背景信息與用戶文本分析用戶人格特質(zhì)，提高用戶人格特質(zhì)預(yù)測準(zhǔn)確度。

用戶背景信息由不同的特征屬性描述，包含連續(xù)特征屬性和二元特征屬性。連續(xù)特征屬性包括年齡，二元特征屬性如性別、教育背景等。通過對屬性特征加權(quán)計算用戶之間背景相似，用戶i與用戶j背景相似度計算如下：

(8)

1) 若ak為數(shù)值型屬性，則：

(9)

2) 若ak為二元型屬性，則：

(10)

3) 若ak為分組型屬性，則：

(11)

式中：s為同一屬性之間的最大差值，Δx為aik和ajk之間分組差。

2.2 融入用戶背景和人格特質(zhì)相似度計算

基于用戶人格特質(zhì)計算用戶之間相似存度在一定偏差，本文融入用戶背景信息，結(jié)合用戶人格特質(zhì)計算用戶間相似度。用戶i與用戶j相似度計算如下：

tsim(i,j)=α×sim(i,j)+β×gsim(i,j)+γ

(12)

式中:tsim(i,j)為用戶i與用戶j的相似度，sim(i,j)為用戶i與用戶j的背景信息相似度，gsim(i,j)為用戶i與用戶j的人格特質(zhì)相似度。α、β、γ分別為用戶背景信息相似度加權(quán)值、用戶人格特質(zhì)相似度加權(quán)值、修正參數(shù)。由式(7)可得特征屬性與人格特質(zhì)之間的關(guān)聯(lián)，根據(jù)用戶發(fā)布文本信息對該用戶人格特質(zhì)量化。用戶i與用戶j的人格特質(zhì)相似度計算如下：

(13)

式中：mit表示用戶i的五大人格特質(zhì)量化值，mjt表示用戶j的五大人格特質(zhì)量化值。推薦算法如下：

輸入：用戶—背景信息矩陣Um×n、用戶—文本信息矩陣Rm×l和目標(biāo)用戶矩陣Ue×n。

輸出：Top-N推薦結(jié)果。

1) FOR用戶—背景信息矩陣Um×n每一列DO。

2) 根據(jù)式(8)計算用戶i與目標(biāo)用戶矩陣Ue×n的背景信息相似度，結(jié)果保存在用戶—背景信息相似矩陣SUm×e。

3) END FOR。

4) FOR用戶—文本信息矩陣Rm×l每一列DO。

5) 對于文本信息進(jìn)行處理，使用式(7)對用戶五大人格特質(zhì)量化計算。計算結(jié)果存入用戶—人格特質(zhì)矩陣Cm×5中。

6) 對目標(biāo)用戶矩陣Ue×n五大人格特質(zhì)量化計算，計算結(jié)果存入目標(biāo)用戶—人格特質(zhì)矩陣Ce×5。

7) END FOR。

8) FOR矩陣SUm×e、矩陣Cm×5和矩陣Ce×5DO。

9) 根據(jù)式(12)計算用戶間相識度，結(jié)果存入用戶—目標(biāo)用戶相似度矩陣Rm×e中。

10) END FOR。

11) 對于矩陣Rm×e中的值進(jìn)排序。

12) WHILEtsim(i,j)>ε，其中tsim(i,j)表示用戶i與目標(biāo)用戶j的相似度(i∈Um×n,j∈Ue×n)，ε表示相似度閾值。

13) 對目標(biāo)用戶j進(jìn)行Top-N推薦。

14) END。

2.3 時間復(fù)雜度分析

根據(jù)上述的描述算法，設(shè)m是用戶、e是目標(biāo)用戶、用戶背景特征維度b，關(guān)于用戶集合與目標(biāo)用戶背景相似度的計算，時間復(fù)雜O(m×e×b)。而算法的步驟1-步驟3在離線的情形下可以完成計算，固該部分時間復(fù)雜度不影響算法的整體運(yùn)算性能。步驟4-步驟7主要計算五大人格特質(zhì)與文本的關(guān)系，設(shè)n為數(shù)據(jù)的集合，d為特征數(shù)量，即該部分的時間復(fù)雜度O(n×n×d)。步驟8-步驟10主要用戶與目標(biāo)用戶之間的相似度，時間復(fù)雜度O(m×e)。步驟11-步驟14主要對于相似度數(shù)據(jù)進(jìn)行排序，我們采用堆排序的方式，時間復(fù)雜度O(m)。本文算法與CS-CF算法相比，時間復(fù)雜度相同，不會影響推薦系統(tǒng)的性能，但推薦的質(zhì)量有所提升。

3 實(shí)驗(yàn)分析與結(jié)果

本文基于新浪微博(http://weibo.com)的數(shù)據(jù)對上述算法的推薦質(zhì)量進(jìn)行驗(yàn)證，并與BG-CF算法和SC-CF算法進(jìn)行比較。新浪微博是國內(nèi)社交通信的主流平臺，每日在線人數(shù)達(dá)到2.2億。本文通過爬蟲技術(shù)抓取16 059位用戶和3 248 907條微博信息，主要包括用戶的注冊信息、用戶發(fā)布文本信息、用戶點(diǎn)贊信息。

用戶的背景信息主要包括年齡、性別、教育等特征屬性，本文根據(jù)用戶注冊的特征屬性通過式(8)計算用戶間背景相似度。用戶發(fā)布的文本信息主要包括表情、文字內(nèi)容等，本文通過式(7)計算五大人格特質(zhì)與用戶發(fā)布文本的關(guān)聯(lián)，進(jìn)一步量化用戶人格特質(zhì)。數(shù)據(jù)集分成5份，其中任意4份做測試數(shù)據(jù)集，剩余1份做訓(xùn)練數(shù)據(jù)，通過交叉驗(yàn)證法檢驗(yàn)該算法精準(zhǔn)度。本文采用平均絕對偏差[13](MAE)評價推薦結(jié)果的精準(zhǔn)度,MAE的值越小表示推薦的精準(zhǔn)度越高，算法的效果越好。

(14)

式中：sum表示測試的集合，Pi表示對于目標(biāo)用戶i推薦微博文本的情感，Ui表示目標(biāo)用戶i點(diǎn)贊微博文本的情感。當(dāng)推薦的微博文本情感與目標(biāo)用戶點(diǎn)贊文本情感誤差較小時，可以認(rèn)為該推薦有效。

本實(shí)驗(yàn)通過分析α和β的值，其中α+β=1，設(shè)定γ=0.015。通過MAE的變化選取最優(yōu)α和β的值。實(shí)驗(yàn)如圖1所示。

圖1 不同權(quán)值的推薦

根據(jù)圖1可知，隨α的值遞增，MAE也呈現(xiàn)增加趨勢，當(dāng)α=0.2時文本推薦的質(zhì)量相對較好。推薦文本數(shù)量的增多，推薦文本精度得到提升。推薦文本數(shù)目小于10時，文本推薦的精度隨推薦文本數(shù)目成正比；當(dāng)推薦文本數(shù)目大于10時，推薦的精度趨于平穩(wěn)，該現(xiàn)象符合用戶閱讀現(xiàn)象。

通過實(shí)驗(yàn)，我們得到基于用戶間背景相似的文本推薦算法(BG-CF)、基于人格特質(zhì)相似的文本推薦算法(CS-CF)和本文提出的算法在文本推薦的MAE值，如圖2所示。

圖2 不同算法的推薦

根據(jù)圖2，我們可以得到本文提出的算法相對另外兩種算法MAE值較低，推薦精度相對較高。隨著文本推薦數(shù)目的增多，MAE值趨于降低。當(dāng)文本推薦數(shù)目大于10時，MAE值趨于平穩(wěn)。當(dāng)文本推薦的數(shù)等于9時，新算法相對基于用戶間背景相似的文本推薦算法(BG-CF)約提升19.74%,相對人格特質(zhì)相似的文本推薦算法(CS-CF)算法約提升8.92%，可見本文算法對提升文本推薦精準(zhǔn)度有效可行。

4 結(jié) 語

結(jié)合用戶背景信息的文本推薦精準(zhǔn)度較低，文本情感分析推薦無法準(zhǔn)確挖掘出用戶潛在興趣的問題，本文提出融合用戶背景信息和用戶人格特質(zhì)的文本推薦方法。該方法根據(jù)用戶發(fā)布文本量化用戶人格特質(zhì)，結(jié)合用戶背景信息深度挖掘用戶隱藏的愛好，針對不同的人格特質(zhì)結(jié)合用戶背景信息進(jìn)行文本推薦。與僅有人格特質(zhì)的用戶文本推薦相比，本算法在推薦精準(zhǔn)度上有一定提升。在本算法的基礎(chǔ)上，如何將多維特征如用戶地理位置、文本視頻信息等融入用戶文本推薦中，進(jìn)一步提高推薦的精準(zhǔn)度。而這些問題是我們下一步的研究內(nèi)容。