高 迎,畢小然,侯小培
(首都經濟貿易大學,北京 100071)
“互聯(lián)網+”模式是指由互聯(lián)網聯(lián)合不同的產業(yè)進行融合和發(fā)展,創(chuàng)作一種新業(yè)態(tài)?!盎ヂ?lián)網+公共信息服務”是指將開放、平等、互動等網絡特性在傳統(tǒng)公共信息服務中的運用,通過大數(shù)據的分析與整合,把得到的結果反饋到應用中,改造傳統(tǒng)公共信息服務的運作方式、結構等內容,從而優(yōu)化信息傳播,提升效益,促進社會信息有序發(fā)展。眾所周知,網絡上的信息量是極大的,如何從中獲得自己需要的信息是值得關注的問題。所以,在互聯(lián)網+背景下,要做到的便是引發(fā)公共信息服務方式的變革,即從用戶查找信息到信息主動服務用戶的轉變。產生個性化信息服務,這是一種能夠主動分析用戶且滿足用戶的信息需求的信息服務。因此,個性化信息推薦系統(tǒng)應勢而起,它根據用戶的行為和偏好對不同用戶的需求進行個性化推薦,從而使合適的信息展示給需要的用戶。
本文研究的是針對微博平臺的公共信息個性化推薦。在2018-1-17,極光數(shù)據發(fā)布了“2017年移動互聯(lián)網行業(yè)盤點APP榜單”,微博滲透率和日活躍用戶數(shù)量在社交APP中排名第三位,且是前三名中唯一保持滲透率和日活躍用戶數(shù)量雙增長的APP,滲透率同比增長11.5%,日活躍用戶數(shù)量同比漲幅高達37.6%,平均日活躍用戶數(shù)量達到1.65億,這意味著微博有著廣大的用戶群體,也意味著微博每天都有著龐大的信息流動。所以,對于一個想要一直處于領先狀態(tài)下的網絡平臺而言,為用戶提供一個優(yōu)質的公共信息服務是必要的。在微博首頁,可以看見2個信息分類,即關注人的消息和熱門消息。熱門消息就是微博針對不同用戶的歷史記錄和喜好關注點而進行的不同的熱點消息推薦,并且刷新頁面就會出現(xiàn)更新的消息,達到增加用戶興趣,滿足用戶需求的目的。本文要探討的便是運用何種推薦算法,從而對用戶進行精準的公共消息推薦。
個性化推薦系統(tǒng)的處理流程分為3個階段:“輸入—處理—輸出”。每個用戶的屬性和產生的活動行為都會產生一個相應的數(shù)據,個性化推薦系統(tǒng)首先接收這些數(shù)據,再按照使用的算法對這些數(shù)據進行分析處理和篩選,最終將相應的結果通過設定的模式推薦給用戶,逐漸增加用戶喜歡的信息或者信息類型的推送,減少其他領域的信息推送,使得被推送的信息更加滿足用戶的需求。而個性化推薦系統(tǒng)的核心就在中間的處理模塊,在這個模塊中運用什么算法進行個性化推薦會達到更好的效果呢?
目前,出現(xiàn)的推薦算法很多,而協(xié)同過濾推薦是現(xiàn)有推薦算法中最成功且應用最廣泛的,這是依據其他用戶對項目
的評分來預測目標用戶興趣的一種推薦算法。其主要思路為:對于具有相同或相似的興趣愛好、價值觀的用戶,則他們對信息的需求也具有一定的相似性。協(xié)同過濾算法的過程可劃分為三個階段,主要包括相似度表示、最近鄰搜索、產生推薦數(shù)據集。
這一階段主要是基于用戶對項目的評分數(shù)據來構建用戶興趣模型,利用m×n維用戶—項目評分矩陣來描述。假設有用戶m個,項目n項,Rij表示用戶Useri對項目Itemj的評分,然后通過評分矩陣考察用戶之間的相似程度。用戶-項目評分矩陣如表1所示。
表1 用戶-項目評分矩陣
此階段是協(xié)同過濾推薦過程中最關鍵的一個步驟,先要根據相關的度量方法計算得出用戶之間的相似度值,再按照數(shù)值從高到低排序,找出k個最近鄰居,建立一個最近鄰集合。常用的度量方法有余弦相似度、皮爾遜相關度、歐幾里德距離相似度、對數(shù)似然相似度。
在最近鄰集合的基礎之上,根據相似度值以及鄰居用戶對項目評分數(shù)據,通過計算預測目標用戶對項目的評分,然后產生目標用戶的推薦數(shù)據集。最后從推薦數(shù)據集中將預測評分最高的前n個項目推薦給用戶。
協(xié)同過濾算法基本分為3類,即基于用戶的協(xié)同過濾推薦、基于項目的協(xié)同過濾推薦和基于模型的協(xié)同過濾推薦?;谟脩舻膮f(xié)同推薦的核心是鄰居查詢,找到用戶之間的相似性,相似性越高,用戶就越相近,然后進行信息推薦;基于項目的協(xié)同推薦與用戶的協(xié)同推薦類似,只不過是把用戶作為考察對象變?yōu)橐皂椖孔鳛榭疾鞂ο?;基于模型的協(xié)同推薦是根據機器學習和對已有數(shù)據應用統(tǒng)計方法得到模型進行測試,有很高的運算效率。
協(xié)同過濾算法的優(yōu)勢明顯,可用于復雜的非結構化的對象,可以幫助用戶發(fā)現(xiàn)新的興趣點,實現(xiàn)興趣的跳躍式推薦,隨著用戶數(shù)量的增多,其性能會不斷提升;其缺點在于當用戶數(shù)量驟增,且彼此間的愛好有不同時,會產生用戶間評分有差異,無法對新用戶進行信息推薦。除此之外,歷史數(shù)據集對系統(tǒng)推薦質量也具有重要影響。
在微博的公共信息個性化推薦中,可以將基于用戶的協(xié)同過濾推薦算法運用到微博的熱門消息推薦模塊中,而且對于一些含有視頻、圖片、動畫等內容的消息推薦,這個算法最適合。
計算目標用戶與其他用戶的相似度。何為和目標用戶相似呢?他們的愛好可能與目標用戶的愛好相差不大,通過他們來推薦消息給目標用戶。比如,目標用戶關注動漫、娛樂、攝影、跳舞相關類型的話題,A關注股票、財經、社會、國際相關類型的話題,B關注美妝、動漫、韓劇、旅游相關類型的話題,C關注美食、動漫、娛樂、攝影、旅游相關類型的話題。由此可見,C與目標用戶更加相似,B部分相似,而A與目標用戶根本不相似。
根據相似度的高低找出K個最近鄰居。在找與目標用戶興趣愛好相似的用戶時,會定義一個K,找到與目標用戶最相似的K個用戶。如何找出這K個最近鄰居呢?最直接的辦法就是把數(shù)據庫中的所有用戶與目標用戶都進行一一比較,找出最相似的K個用戶。
但當數(shù)據量特別龐大時,計算K個鄰居的時間將會非常長,所以,只需要計算與目標用戶有交集的用戶。根據上述例子,如果將K設定為2,則得出目標用戶的最近鄰居是C和B,最近鄰集合就是{B,C}。
在K個最近鄰居所喜歡的消息類型中,根據他們與目標用戶的遠近程度,計算每一種消息類型的推薦度,根據推薦度的高低來判定給目標用戶推薦的消息。微博會自動進行一些處理,如果計算出B與目標用戶的相似度是25%,C與目標用戶的相似度是75%,則例子中的話題類型的推薦度可以這樣計算:美妝為1×0.25=0.25;韓劇為1×0.25=0.25;旅游為 1×0.75=0.75;美食為 1×0.25+1×0.75=1.微博會首先把美食話題推薦給目標用戶,這個可能是目標用戶最喜歡的,其次是旅游,最后是美妝和韓劇。
綜上所述,基于用戶的協(xié)同過濾算法會在微博用戶的關注、轉發(fā)、點贊等記錄中收集用戶的偏好數(shù)據,然后挖掘出一部分與目標用戶愛好類似的用戶,通過協(xié)同與過濾,這些用戶成為目標用戶的鄰居,然后根據他們的愛好組織成一個排序的目錄推薦給目標用戶。
隨著互聯(lián)網+和大數(shù)據的的深入發(fā)展,為用戶提供更加精準、高效、便捷的個性信息化服務將成為每個流量網站的必要趨勢。個性化推薦技術在獲取用戶的偏好與歷史記錄等信息的基礎上,幫助用戶找到所需要的信息,是解決用戶對信息過濾問題最好最有效的方法,也是提高公共信息服務質量的良好途徑。所以,完善優(yōu)化個性化推薦技術是值得深入研究的。
參考文獻:
[1]武翔宇.基于網絡的信息個性化服務研究[D].太原:山西財經大學,2010.
[2]吳煒.基于Web2.0的個性化信息服務模式研究[J].信息技術與信息化,2015(12):104-106.
[3]袁源.電子商務中個性化推薦系統(tǒng)的實現(xiàn)技術研究[J].山西電子技術,2016(02):89-90.
[4]呂藝,劉華東.新聞客戶端“個性化服務”的發(fā)展與困惑[J].西部學刊,2015(01):10-13.
[5]劉青文.基于協(xié)同過濾的推薦算法研究[D].合肥:中國科學技術大學,2013.
[6]夏培勇.個性化推薦技術中的協(xié)同過濾算法研究[D].青島:中國海洋大學,2011.