馬漢達(dá),景 迪
(江蘇大學(xué)計(jì)算機(jī)科學(xué)與通信工程學(xué)院,江蘇 鎮(zhèn)江 212013)
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,越來(lái)越多的用戶愿意在社交平臺(tái)上進(jìn)行交友聊天[1]。數(shù)以萬(wàn)計(jì)的在線用戶每天都會(huì)產(chǎn)生海量的數(shù)據(jù),而對(duì)用戶產(chǎn)生的數(shù)據(jù)信息進(jìn)行爬取、分析,也是各社交平臺(tái)常見(jiàn)的商業(yè)行為。但是,用戶產(chǎn)生的數(shù)據(jù)信息量大且復(fù)雜多變,因此,如何利用好用戶的有效信息進(jìn)行分析處理,優(yōu)化平臺(tái)的好友推薦策略是本文研究的主要問(wèn)題。
目前,通過(guò)對(duì)微博用戶群進(jìn)行研究發(fā)現(xiàn),對(duì)微博用戶而言,能較大程度上決定用戶興趣走向的是用戶自身發(fā)表的微博信息,以及用戶相關(guān)的行為信息,因此基于微博內(nèi)容的好友推薦是微博好友推薦的主要研究方向。其中,在表現(xiàn)用戶的興趣特點(diǎn)上,圖像有時(shí)比書面語(yǔ)更占優(yōu)勢(shì),并且用戶的興趣愛(ài)好會(huì)受到時(shí)間等其他因素影響或發(fā)生改變,因此,在依據(jù)用戶興趣愛(ài)好進(jìn)行好友推薦時(shí),難免需要對(duì)時(shí)間因素進(jìn)行考量。
本文在考慮到用戶個(gè)人信息的同時(shí),將用戶發(fā)表的圖像信息作為主要處理對(duì)象。通過(guò)對(duì)圖像識(shí)別分類,形成用戶興趣信息,并利用興趣濃度隨時(shí)間消逝而逐漸下降的特點(diǎn),對(duì)用戶興趣愛(ài)好進(jìn)一步處理,提出了基于用戶信息并結(jié)合多目標(biāo)檢測(cè)SSD(Single Shot MultiBox Detector)和時(shí)序模型的推薦BSBT-FR(Based SSD and Based Timing model Friends Recommendation)算法以計(jì)算用戶間的相似度,最后在保證一定精準(zhǔn)度的前提下,達(dá)到較好的好友推薦效果。
目前,社交平臺(tái)上有很多相關(guān)的個(gè)性化推薦方法,主要分為2種推薦模式:一是從社交關(guān)系角度出發(fā),尋找好友;二是從微博用戶相關(guān)內(nèi)容入手,間接尋找好友。
基于社交關(guān)系[2 - 4]推薦好友主要根據(jù)相似的社交偏好進(jìn)行用戶推薦,結(jié)合用戶間的聯(lián)系得到社交拓?fù)鋱D[5],通過(guò)分析用戶間的來(lái)往關(guān)系,從而獲得推薦結(jié)果,這極大提高了用戶的接受率。如利用帕累托最優(yōu)遺傳(Pareto-optimal)算法[6]來(lái)分析預(yù)測(cè)好友,進(jìn)而提高推薦效果。文獻(xiàn)[7]利用二級(jí)好友的思想,即將目標(biāo)用戶的好友的好友作為推薦結(jié)果進(jìn)行推薦。文獻(xiàn)[8]發(fā)現(xiàn)用戶之間存在隱性關(guān)系,通過(guò)利用關(guān)聯(lián)規(guī)則算法查找用戶與其他用戶間的隱性共同點(diǎn),提出一種基于用戶社交網(wǎng)絡(luò)的好友推薦算法。
在微博社交平臺(tái)上,用戶擁有龐大的社交關(guān)系,還會(huì)發(fā)表很多的博文信息?;谖⒉﹥?nèi)容[9]可以通過(guò)對(duì)大量的文本信息進(jìn)行深入分析,發(fā)現(xiàn)用戶潛在的興趣愛(ài)好走勢(shì),對(duì)相應(yīng)的用戶輸送較為合適的好友列表,從而提高用戶滿意度。例如使用詞頻-反文檔頻率TF-IDF(Term Frequency-Inverse Document Frequency)算法[10,11]提取權(quán)重較高的關(guān)鍵字表示用戶的特征向量,并將其作為各個(gè)用戶的興趣標(biāo)簽,以此計(jì)算用戶間的相似度,實(shí)現(xiàn)好友推薦。文獻(xiàn)[12]則是利用簽到時(shí)產(chǎn)生的位置信息,以地理位置信息為依據(jù),向目標(biāo)用戶推薦好友。文獻(xiàn)[13]則是通過(guò)分析用戶之間的聊天內(nèi)容、提問(wèn)內(nèi)容等,進(jìn)而發(fā)現(xiàn)用戶間的內(nèi)在聯(lián)系,以此發(fā)掘潛在好友關(guān)系,并應(yīng)用于Facebook社交網(wǎng)絡(luò)中。文獻(xiàn)[14]在現(xiàn)有好友推薦算法的基礎(chǔ)上,從六度分隔理論著手,對(duì)好友進(jìn)行分級(jí),將評(píng)級(jí)相似的用戶合并為一個(gè)群組,進(jìn)而提高推薦的精準(zhǔn)度。文獻(xiàn)[15]根據(jù)博文的轉(zhuǎn)發(fā)關(guān)系網(wǎng)絡(luò)對(duì)用戶進(jìn)行聚類,發(fā)現(xiàn)同一社區(qū)的用戶有相似的興趣,表明在社交網(wǎng)絡(luò)中,用戶的交際圈更多的是建立在共同興趣上。
微博好友推薦算法對(duì)好友推薦的關(guān)鍵在于是否擁有共同的興趣愛(ài)好,對(duì)用戶在微博平臺(tái)中產(chǎn)生的文本信息進(jìn)行處理的手段不斷豐富,技術(shù)不斷成熟,但很容易忽略用戶博文中的圖像數(shù)據(jù),而圖像往往也富含用戶興趣信息。因此,本文試圖通過(guò)對(duì)微博中的圖像信息進(jìn)行處理,得出用戶興趣愛(ài)好,進(jìn)而計(jì)算用戶間相似度,實(shí)現(xiàn)好友推薦。
目前在社交平臺(tái)中的很多好友推薦算法都是依賴于用戶之間已存在的好友關(guān)系和用戶產(chǎn)生的行為信息以及微博信息提出的。隨著活躍用戶群的不斷更新與增多,用戶發(fā)表的微博內(nèi)容不斷豐富,越來(lái)越多的圖像信息無(wú)法得到合理的利用,以至于造成了圖像數(shù)據(jù)的冗余和資源浪費(fèi)的現(xiàn)象。圖像中往往有很多信息,其中就包括用戶的興趣愛(ài)好信息。多目標(biāo)檢測(cè)SSD算法[16,17]可以對(duì)圖像中的多個(gè)目標(biāo)物體進(jìn)行有效的識(shí)別和分類,進(jìn)而通過(guò)識(shí)別出來(lái)的結(jié)果進(jìn)行興趣歸類,達(dá)到識(shí)別出用戶興趣愛(ài)好的效果。同時(shí),考慮到用戶的興趣愛(ài)好本就是一個(gè)時(shí)間序列型數(shù)據(jù)[18],容易因時(shí)間的不同而發(fā)生變化。例如,一些用戶在一個(gè)月前喜歡健身運(yùn)動(dòng),但一個(gè)月后,由于難以抗拒美食的誘惑,放棄了健身項(xiàng)目。因此,對(duì)于用戶相隔較久遠(yuǎn)的興趣愛(ài)好,其影響因子參數(shù)應(yīng)該較低,而近期的興趣愛(ài)好的影響因子參數(shù)應(yīng)該較高,以此體現(xiàn)出時(shí)間因素的影響。
本文不僅對(duì)用戶個(gè)人信息進(jìn)行了研究,而且通過(guò)對(duì)多目標(biāo)檢測(cè)算法SSD進(jìn)行對(duì)應(yīng)的模型訓(xùn)練,以此獲得由圖像間接反映出的用戶之間的相似度。最后再將基于用戶個(gè)人信息的相似度和基于圖像信息的相似度進(jìn)行融合,進(jìn)而得出最終的好友推薦列表。
本文算法的主要步驟包括:首先根據(jù)用戶的資料信息構(gòu)建特征向量,計(jì)算基于用戶個(gè)人信息的相似度;其次通過(guò)已訓(xùn)練好的模型對(duì)用戶圖像進(jìn)行識(shí)別和分類,得出用戶的興趣愛(ài)好信息,再結(jié)合時(shí)序模型構(gòu)建用戶興趣評(píng)分矩陣,計(jì)算得出基于用戶圖像信息的相似度;最后基于并行式混合推薦模型,將兩者加權(quán)結(jié)合,得到最終的好友推薦結(jié)果集。
基于用戶個(gè)人信息的好友推薦模塊是從用戶自身的基本信息這一角度進(jìn)行推薦,其中包括用戶的性別、地區(qū)和婚姻狀態(tài)等。通過(guò)用戶個(gè)人信息構(gòu)建能夠表達(dá)用戶個(gè)人屬性的特征向量,使用歐氏距離來(lái)計(jì)算用戶間的相似性。
如圖1所示,示例采用了用戶的性別、地區(qū)和婚姻狀態(tài)這3個(gè)屬性來(lái)構(gòu)建用戶特征向量,并且用戶A與用戶C的3個(gè)屬性完全一致,而用戶B的信息與用戶C沒(méi)有絲毫聯(lián)系,經(jīng)過(guò)相似度計(jì)算后,A和C之間的相似度值必定遠(yuǎn)高于B和C之間的相似度值。因此,在該好友推薦策略中,顯然用戶A比用戶B更適合于用戶C。本文中則使用的是用戶的認(rèn)證信息、性別、婚姻狀況、地區(qū)、生日(年齡)和標(biāo)簽等屬性,以此構(gòu)建用戶的特征向量來(lái)計(jì)算用戶間的相似度值。其中相似度計(jì)算使用常用的歐氏距離,如式(1)所示:
(1)
其中,A和B代表用戶特征向量,Ai代表該用戶特征向量A第i維的特征值,Bi代表該用戶特征向量B第i維的特征值,sim(A,B)則是這2個(gè)用戶的相似度值。
Figure 1 Example of friend recommendation based on user’s personal information圖1 基于用戶個(gè)人信息的好友推薦示例
基于用戶圖像信息的好友推薦模塊主要依賴于用戶發(fā)表的一些圖像信息,對(duì)圖像中所展示的信息元素進(jìn)行分析處理,轉(zhuǎn)化為用戶的興趣愛(ài)好;而用戶的興趣愛(ài)好并不是靜態(tài)信息,它是一種“實(shí)時(shí)數(shù)據(jù)”,可以理解為一種時(shí)間序列數(shù)據(jù),時(shí)序數(shù)據(jù)的數(shù)值會(huì)因?yàn)闀r(shí)間不同而有所差異,所以本文算法利用時(shí)序模型改善用戶的特征分析,增強(qiáng)其有效性和準(zhǔn)確性。
基于用戶圖像信息的推薦模塊主要分以下幾個(gè)步驟:
步驟1搭建多目標(biāo)檢測(cè)SSD算法模型并訓(xùn)練。
步驟2使用已訓(xùn)練好的SSD模型進(jìn)行分類檢測(cè)。
步驟3將得到的分類結(jié)果作為用戶對(duì)相關(guān)興趣愛(ài)好的評(píng)分依據(jù),并結(jié)合時(shí)序模型,對(duì)各時(shí)間段的興趣向量進(jìn)行時(shí)序計(jì)算。
步驟4使用散度計(jì)算公式,計(jì)算用戶之間的相似度。
3.2.1 模型訓(xùn)練
訓(xùn)練SSD模型的最終目的是使多目標(biāo)檢測(cè)SSD算法在進(jìn)行圖像識(shí)別之后得到的分類結(jié)果更加精確。在整個(gè)訓(xùn)練過(guò)程中,最重要的是先驗(yàn)框匹配和損失函數(shù)的計(jì)算。模型訓(xùn)練的具體步驟如下所示:
步驟1訓(xùn)練數(shù)據(jù)集的預(yù)處理,如把圖像處理成300×300像素的圖像。
步驟2搭建SSD算法模型,其中包含6個(gè)卷積層及其對(duì)應(yīng)的6個(gè)特征圖(Feature Map)。獲取到這些不同大小的特征圖后,進(jìn)行物體位置檢測(cè)和分類工作,通過(guò)非極大值抑制NMS(Non Maximum Suppression)對(duì)結(jié)果實(shí)現(xiàn)分揀,最終得到所需數(shù)據(jù)。以此實(shí)現(xiàn)不同尺度檢測(cè)的效果,提高對(duì)寬高比不一致的真實(shí)目標(biāo)框的識(shí)別精準(zhǔn)度。
步驟3設(shè)置先驗(yàn)框尺度和長(zhǎng)寬比,以計(jì)算出各先驗(yàn)框的寬wk和高h(yuǎn)k,如式(2)所示:
(2)
其中,winput和hinput分別為輸入圖像的寬和高;Sk為第k個(gè)先驗(yàn)框的尺度,先驗(yàn)框的長(zhǎng)寬比αr∈{1,2,3,1/2,1/3,1′},雖然1′也代表長(zhǎng)寬比為1,但先驗(yàn)框尺度不同,其計(jì)算公式需要用第k個(gè)先驗(yàn)框的尺度與第k+1個(gè)先驗(yàn)框的尺度相乘并開(kāi)根號(hào)。
步驟4計(jì)算并交比IOU值,如式(3)所示:
(3)
其中,Sp∩Sg代表先驗(yàn)框與真實(shí)目標(biāo)框的交集,Sp∪Sg代表先驗(yàn)框與真實(shí)目標(biāo)框的并集。
步驟5匹配先驗(yàn)框。先驗(yàn)框匹配方法如下所示:對(duì)于目標(biāo)對(duì)象中的每個(gè)真實(shí)目標(biāo)框,將其IOU值最大的先驗(yàn)框作為匹配成功的對(duì)象,對(duì)于未匹配成功的先驗(yàn)框,將其IOU值與閾值比較,若并交比的數(shù)值大于閾值,則設(shè)置為匹配成功。
步驟6計(jì)算SSD檢測(cè)值,包括預(yù)測(cè)位置和分類信息。其中分類信息計(jì)算方法是若某先驗(yàn)框與真實(shí)目標(biāo)框匹配成功,則認(rèn)為該真實(shí)目標(biāo)框與該先驗(yàn)框類別信息一致;而預(yù)測(cè)位置記為l=(lcx,lcy,lw,lh),計(jì)算方法如式(4)所示:
(4)
lcy=(bcy-dcy)/dh
(5)
lw=log(bw/dw)
(6)
lh=log(bh/dh)
(7)
其中,d=(dcx,dcy,dw,dh)代表先驗(yàn)框位置,b=(bcx,bcy,bw,bh)代表對(duì)應(yīng)的真實(shí)目標(biāo)框位置。
步驟7計(jì)算置信度誤差Lconf(x,c)和位置誤差Lloc(x,l,g)。其中,c是分類結(jié)果的預(yù)測(cè)值;l是對(duì)應(yīng)的邊界框位置的坐標(biāo)值,而g是真實(shí)目標(biāo)框的位置參數(shù)。
為了確定檢測(cè)算法對(duì)目標(biāo)物體評(píng)分情況和目標(biāo)框定位的準(zhǔn)確性,通過(guò)計(jì)算這2個(gè)誤差進(jìn)行反向傳播并調(diào)整模型的參數(shù),以實(shí)現(xiàn)優(yōu)化算法的目的,提升其識(shí)別的精準(zhǔn)度。其中置信度誤差是預(yù)測(cè)分類的誤差,位置誤差是預(yù)測(cè)位置與真實(shí)位置之間的誤差。
位置誤差Lloc(x,l,g)計(jì)算方法如式(8)所示:
Lloc(x,l,g)=
(8)
(9)
(10)
(11)
(12)
(13)
置信度誤差Lconf(x,c)是計(jì)算當(dāng)前所求先驗(yàn)框的分類結(jié)果x與預(yù)測(cè)分類結(jié)果c的誤差,計(jì)算方法如式(14)所示:
(14)
步驟8計(jì)算損失函數(shù)L(x,c,l,g):
(15)
其中,N為先驗(yàn)框的正樣本數(shù)量,α為權(quán)重。
3.2.2 構(gòu)建用戶興趣向量
主要通過(guò)使用目標(biāo)檢測(cè)SSD算法進(jìn)行圖像檢測(cè),得出圖像中所涉及的物體類別的分類信息,為用戶設(shè)置相對(duì)應(yīng)的興趣標(biāo)簽。構(gòu)建用戶興趣標(biāo)簽向量主要可以分為獲取用戶的圖像信息、圖像檢測(cè)、記錄檢測(cè)結(jié)果信息等內(nèi)容。
圖像在一定程度上能反映出用戶的興趣愛(ài)好。比如,2個(gè)用戶分別發(fā)送了貓和狗的照片,雖然他們喜愛(ài)的動(dòng)物對(duì)象并不一樣,但他們有一個(gè)共同點(diǎn)就是喜歡寵物,那么便可以認(rèn)為他們的興趣愛(ài)好是萌寵,因此他們都將被貼上萌寵這一興趣愛(ài)好標(biāo)簽。所以,可以通過(guò)對(duì)用戶圖像進(jìn)行識(shí)別的方式間接得到用戶的興趣愛(ài)好標(biāo)簽。
本文主要使用的數(shù)據(jù)集是ImageNet,該數(shù)據(jù)集包含了幾百個(gè)物種,1 000個(gè)分類的圖像,信息標(biāo)注清晰。因此,對(duì)爬取的微博用戶圖像進(jìn)行檢索,根據(jù)大部分圖像中常見(jiàn)的元素,從訓(xùn)練數(shù)據(jù)集中選取與之相似的類別進(jìn)行訓(xùn)練,并考慮到它們與用戶興趣之間的關(guān)系,共定義了10種興趣標(biāo)簽,包括旅游、美食、果蔬、電子設(shè)備、運(yùn)動(dòng)、音樂(lè)、車、萌寵、人物和家具。上述定義的關(guān)系詳細(xì)說(shuō)明如表1所示。
Table 1 Corresponding relationship between interest label and image classification
根據(jù)表1所示的分類,可構(gòu)建興趣標(biāo)簽向量Cate={cate1,cate2,…,cate10},其中catei表示第i個(gè)興趣標(biāo)簽出現(xiàn)的次數(shù)。例如,若是出現(xiàn)小提琴與鋼琴,那么便將它們認(rèn)為是屬于“音樂(lè)”這一興趣標(biāo)簽,歸為一類。因此,用戶興趣向量可表示為hobby(u)={hy1,hy2, …,hy10},其中hyi表示第i個(gè)類型的興趣標(biāo)簽出現(xiàn)的次數(shù)占所有類型的興趣標(biāo)簽出現(xiàn)的總次數(shù)的比例,計(jì)算方法如式(16)所示:
(16)
3.2.3 時(shí)序處理
以時(shí)間間隔T作為一個(gè)時(shí)間節(jié)點(diǎn),對(duì)用戶進(jìn)行時(shí)序處理,因此,在進(jìn)行圖像分類的同時(shí),要考慮到時(shí)間因素,對(duì)每個(gè)時(shí)間節(jié)點(diǎn)作一次分類統(tǒng)計(jì),以得到各時(shí)間節(jié)點(diǎn)上的分類總數(shù)Cate(u)Ti={Sum(cate1)Ti,Sum(cate2)Ti,…,Sum(cate10)Ti},其中Sum(catej)Ti代表的是在時(shí)間間隔Ti中第j個(gè)興趣標(biāo)簽出現(xiàn)的總次數(shù)。因此,在時(shí)間間隔Ti內(nèi),用戶興趣向量hobby(u)Ti={hy1Ti,hy2Ti,…,hy10Ti}的計(jì)算方法如式(17)所示:
(17)
(18)
其中,Ti代表第i個(gè)以時(shí)間間隔T劃分的時(shí)間點(diǎn),f(t)為時(shí)序衰減函數(shù)公式;以時(shí)間間隔T內(nèi)的時(shí)間作為一個(gè)時(shí)間點(diǎn),n代表時(shí)間點(diǎn)總數(shù),t代表第t個(gè)時(shí)間點(diǎn),γ是一個(gè)非負(fù)核心參數(shù)。
經(jīng)過(guò)上述計(jì)算可以獲得n個(gè)用戶各自的興趣向量,將這n個(gè)向量對(duì)應(yīng)位置進(jìn)行相加,即得到經(jīng)過(guò)時(shí)序處理后的用戶興趣向量hobby(u)={hy1,hy2,…,hy10}。
3.2.4 構(gòu)建用戶-興趣評(píng)分矩陣
在計(jì)算獲得目標(biāo)用戶與備選推薦用戶的興趣向量后,構(gòu)建用戶-興趣評(píng)分矩陣U∈Rm×10,其中m代表涉及的用戶總數(shù),矩陣的每一行代表用戶的興趣向量。因此,用戶P、Q對(duì)應(yīng)的用戶興趣向量分別可表示為p={p1,p2,…,p10}和q={q1,q2,…,q10}。通過(guò)JS(Jensen-Shannon)散度公式即可計(jì)算對(duì)應(yīng)的相似度值,如式(19)所示:
(19)
其中,p和q代表2個(gè)用戶的興趣向量。
最后,將上述2個(gè)推薦模塊進(jìn)行加權(quán)式融合,得出最終的綜合好友相似度,再根據(jù)相似度向目標(biāo)用戶進(jìn)行Top-K潛在好友推薦。
為了驗(yàn)證本文提出的推薦算法的有效性,使用網(wǎng)絡(luò)爬蟲技術(shù)從新浪微博中獲取1 896名用戶近2個(gè)月的微博數(shù)據(jù),其中包括用戶的個(gè)人信息、社交好友關(guān)系信息、微博圖像信息、圖像發(fā)表時(shí)間信息等,共計(jì)79 172條博文,217 409幅圖像數(shù)據(jù)。這些數(shù)據(jù)皆經(jīng)過(guò)以測(cè)試算法為主要目的的預(yù)處理。實(shí)驗(yàn)使用的開(kāi)發(fā)語(yǔ)言是Python,運(yùn)行環(huán)境如下:處理器為Intel(R)CoreTMi5-1035G1 CPU @ 1.00 GHz,內(nèi)存16 GB,操作系統(tǒng)為Windows 10。
通過(guò)對(duì)大量推薦系統(tǒng)論文的分析研究,決定采用Top-K推薦算法中常用的3個(gè)指標(biāo)作為實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn),分別為準(zhǔn)確率(Precision)、召回率(Recall)和F值(F-measure)。3個(gè)評(píng)價(jià)指標(biāo)的定義如式(20)~式(22)所示:
(20)
(21)
(22)
其中,M表示系統(tǒng)生成的推薦結(jié)果的數(shù)量,|f|是推薦結(jié)果與目標(biāo)用戶好友列表的交集大小,|freal|是目標(biāo)用戶的好友數(shù)。
準(zhǔn)確率和召回率指標(biāo)的結(jié)果越高表明推薦結(jié)果越好,但由于部分情況中會(huì)出現(xiàn)兩者自相矛盾,因此需要F值進(jìn)行衡量,F(xiàn)值越高,則說(shuō)明此方法越有效。
4.3.1 實(shí)驗(yàn)設(shè)計(jì)
本文選擇了3種算法進(jìn)行對(duì)比實(shí)驗(yàn),分別為:(1)基于用戶信息的推薦算法BI-FR(Based Information Friends Recommendation)[19],該算法根據(jù)用戶的個(gè)人身份信息進(jìn)行相似好友推薦,參考因素只有用戶個(gè)人信息;(2)基于用戶信息和圖像信息的推薦算法BIBP-FR(Based Information and Based Picture Friends Recommendation)[20],該算法在基于用戶信息推薦算法的基礎(chǔ)上,提取用戶圖像信息興趣特征作為用戶間相似度計(jì)算的因素之一,參考因素為用戶個(gè)人信息和圖像信息;(3)基于用戶信息并結(jié)合SSD和時(shí)序模型的推薦算法BSBT-FR,此算法在綜合考慮用戶個(gè)人信息和圖像信息的基礎(chǔ)上,對(duì)圖像信息做進(jìn)一步的時(shí)間處理,以此預(yù)測(cè)用戶的好友,參考因素為用戶個(gè)人信息和經(jīng)處理過(guò)后的圖像信息。
4.3.2 權(quán)重對(duì)推薦結(jié)果的影響
為了說(shuō)明本文算法中用戶個(gè)人信息和圖像信息的不同權(quán)重對(duì)推薦結(jié)果的影響,首先進(jìn)行權(quán)重實(shí)驗(yàn)。根據(jù)有關(guān)文獻(xiàn)可知,在多因子的情況下,用戶信息權(quán)重一般選取在0.2~0.5。實(shí)驗(yàn)將分析在Top-10的前提下,用戶個(gè)人信息的權(quán)重取0.2,0.3,0.4,0.5,實(shí)驗(yàn)結(jié)果如表2和圖2所示。圖2中的橫坐標(biāo)為用戶個(gè)人信息的權(quán)重參數(shù),可看出,在準(zhǔn)確率和召回率上,權(quán)重取0.3時(shí)的實(shí)驗(yàn)結(jié)果略比取0.4時(shí)優(yōu)良,而從F-measure上來(lái)看,權(quán)重取0.3時(shí)的實(shí)驗(yàn)結(jié)果表現(xiàn)得最好。由此可得出,多參數(shù)情況下,參數(shù)的權(quán)重對(duì)推薦結(jié)果存在一定程度的影響。
Table 2 Three experimental index values under each weight parameter
Figure 2 Trend chart of each experimental index圖2 各實(shí)驗(yàn)指標(biāo)走勢(shì)圖
4.3.3 各算法的準(zhǔn)確率、召回率和F值比較
經(jīng)過(guò)權(quán)重實(shí)驗(yàn)后,本節(jié)在參考因素中用戶個(gè)人信息權(quán)重為0.3的情況下,進(jìn)行推薦結(jié)果列表的用戶總數(shù)分別為2,5,10,20,30幾種情況的準(zhǔn)確率、召回率和F值實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表3~表5、圖3~圖5所示。
Table 3 Precision of three algorithms
Table 4 Recall of three algorithms
Table 5 F-measure of three algorithms
Figure 3 Precision of three algorithms圖3 3種算法的準(zhǔn)確率
Figure 4 Recall of three algorithms圖4 3種算法的召回率
Figure 5 F-measure of three algorithms圖5 3種算法的F值
對(duì)以上實(shí)驗(yàn)結(jié)果數(shù)據(jù)進(jìn)行分析:BI-FR和BIBP-FR對(duì)比發(fā)現(xiàn),對(duì)用戶發(fā)表的圖像信息進(jìn)行分析處理是有價(jià)值的;而B(niǎo)IBP-FR和BSBT-FR對(duì)比發(fā)現(xiàn),在圖像處理的基礎(chǔ)上增加時(shí)間因素對(duì)整體算法推薦的精準(zhǔn)度具有顯著提升效果。從整體上看,隨著推薦列表中的好友數(shù)量的提升,雖然準(zhǔn)確率有所下降,但是召回率呈上升趨勢(shì),F(xiàn)值也呈上升趨勢(shì),這與實(shí)際情況是完全吻合的。與對(duì)比算法相比,本文提出的基于SSD和時(shí)序模型的好友推薦算法由于同時(shí)考慮了用戶的個(gè)人屬性和圖像信息,并對(duì)用戶興趣進(jìn)行了時(shí)序考慮,融合了時(shí)間因素,其算法的準(zhǔn)確率、召回率和F值更高,具有較好的推薦效果,并且隨著推薦好友數(shù)量的增加,本文算法比其他算法相比,其優(yōu)勢(shì)比較明顯。
在算法的時(shí)間效率上,由于本文算法在用戶信息的基礎(chǔ)上又對(duì)用戶圖像數(shù)據(jù)進(jìn)行處理,因此,BI-FR算法的時(shí)間效率要優(yōu)于本文算法,而B(niǎo)IBP-FR與BSBT-FR算法的時(shí)間效率是一樣的,兩者都是以犧牲時(shí)間來(lái)獲取更高的準(zhǔn)確率,也是值得的。
本文提出了基于SSD和時(shí)序模型的微博好友推薦算法,構(gòu)建了基于用戶個(gè)人信息和圖像信息的好友推薦方法,并在圖像信息處理上加入時(shí)間維度因素,使得通過(guò)圖像提取的興趣更具說(shuō)服力,以此計(jì)算得出用戶間的相似度進(jìn)行好友推薦。實(shí)驗(yàn)表明此推薦算法能提高推薦效果,基于SSD和時(shí)序模型的好友推薦算法比傳統(tǒng)推薦算法更加準(zhǔn)確,在一定程度上豐富了社交平臺(tái)上的推薦策略。但是,本文只從用戶發(fā)表動(dòng)態(tài)中的圖像信息進(jìn)行考慮,并未同時(shí)對(duì)文本信息加以分析,而在社交平臺(tái)中,用戶發(fā)表的文字信息也是同等重要的因素,故在之后的研究中,可以將用戶發(fā)表的所有信息進(jìn)行綜合考慮。