亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

新聞推薦系統(tǒng)研究綜述

2021-02-04 06:54:04

軟件導刊 2021年1期

（西安石油大學計算機學院，陜西西安 710065）

0 引言

隨著全球化和網(wǎng)絡技術(shù)的發(fā)展，越來越多的人通過網(wǎng)絡渠道在線閱讀來自全球各地的新聞。然而，新聞域稀疏的用戶配置、快速增長的項目數(shù)量、加速衰減的項目價值，以及用戶偏好的動態(tài)轉(zhuǎn)移，使得各類新聞平臺的用戶越來越難選擇自己感興趣的新聞［1］。因此，如何在瞬時變化的新聞領(lǐng)域，利用一些模型和技術(shù)幫助用戶找到感興趣的新聞變得尤為重要。由此，新聞推薦系統(tǒng)應運而生，它不是根據(jù)用戶顯式的查詢搜索對信息進行過濾，而是根據(jù)用戶興趣主動呈現(xiàn)相關(guān)新聞。經(jīng)過20 多年的發(fā)展，新聞推薦系統(tǒng)已經(jīng)成為一種幫助用戶在信息過載情況下找到自己感興趣新聞的重要工具。

新聞推薦系統(tǒng)主要通過分析用戶的閱讀興趣偏好，幫助用戶高效獲取自己所需的新聞，被視為解決新聞領(lǐng)域信息爆炸問題的重要手段。與電影推薦等其他領(lǐng)域的推薦系統(tǒng)相比，新聞推薦面臨的問題具有獨特性，如：新聞制作頻率很高、新聞項目相關(guān)性變化較快、新聞實時性要求很高等。

1 新聞推薦系統(tǒng)關(guān)鍵技術(shù)

1.1 新聞推薦算法

1.1.1 基于內(nèi)容的推薦算法

基于內(nèi)容的推薦算法（Content-Based Filtering，CB），主要用于推薦基于文本類的項目，通常采用淺層模型分析用戶的歷史閱讀記錄，從而發(fā)現(xiàn)用戶的閱讀興趣，進而將與用戶閱讀興趣類似且用戶評價很高的新聞作為推薦結(jié)果。該算法運用過程的核心問題是如何進行項目相似性度量。先構(gòu)建用戶特征并計算項目間的相似度，再將最符合用戶興趣的新聞項目進行推薦。如Goossen 等［2］結(jié)合TF-IDF與領(lǐng)域本體的語義進行推薦；Samarinas 等［3］通過引入一種使用單詞嵌入來構(gòu)建用戶興趣模型的方法，實現(xiàn)新聞個性化推薦，一定程度上對傳統(tǒng)計算相似度算法進行了優(yōu)化。然而，對人工特征提取的依賴制約了基于內(nèi)容的推薦算法發(fā)展，很難獲取更深層次的新聞特征和用戶行為，深度學習在基于內(nèi)容的推薦算法中的發(fā)展彌補了淺層算法的不足，已經(jīng)成為當前研究熱點。

1.1.2 協(xié)同過濾推薦算法

協(xié)同過濾推薦算法（Collaborative Filtering，CF），是新聞推薦系統(tǒng)中應用最廣泛的算法［4］。從本質(zhì)上講，協(xié)同過濾是一種基于用戶與項目之間的交互行為數(shù)據(jù)進行信息過濾的方法，分為基于用戶和基于項目的協(xié)同過濾兩種算法［5］?；谟脩舻膮f(xié)同過濾是指采用均方差、皮爾遜相關(guān)系數(shù)、斯皮爾曼相關(guān)性等算法計算用戶相似度，進而通過基于閾值的方法和Top-N 推薦，得到k 個最相似的用戶組成目標用戶的最近鄰集合K，并將集合K 中用戶感興趣的且沒有接觸過的項目推薦給目標用戶?；陧椖康膮f(xié)同過濾是指通過計算不同用戶對不同項目的評分獲得項目之間的關(guān)系。一般采用余弦向量計算項目相似度。利用帶去噪的堆疊自動編碼器的CF 方法、考慮用戶行為時間排序協(xié)同過濾推薦算法等基于CF 的改進算法在一定程度上提高了推薦系統(tǒng)的性能［5-6］。

1.1.3 基于知識的推薦算法

基于知識的推薦（Knowledge-based Technoques，KB），可看作是一種不依賴于大量項目或用戶統(tǒng)計數(shù)據(jù)，而是直接將用戶偏好映射到被推薦新聞項目上的推理技術(shù)。基于知識的推薦具有很強的交互性，用戶只需要對某個新聞項目有簡單的反饋，系統(tǒng)將通過有效的搜索策略進行推薦。

1.1.4 混合新聞推薦算法

相比于上述3 種推薦算法，將基于內(nèi)容和協(xié)同過濾的算法采取加權(quán)、切換、混雜、層疊、級聯(lián)、特征組合和特征補充混合策略而得到的混合推薦算法具有更大的推薦優(yōu)勢?；旌纤惴軌蚱胶忸A測精度和其他質(zhì)量因素，如新穎性或多樣性，進而提高系統(tǒng)推薦效率。如：Jonnalagedda 等［7］根據(jù)新聞的受歡迎程度與用戶配置文件的相關(guān)性向用戶進行新聞推薦；Hao 等［8］通過混合算法為用戶提供了一種能夠減少網(wǎng)絡瀏覽中重復單調(diào)內(nèi)容的工具。

1.2 新聞推薦算法比較

4 種關(guān)鍵新聞推薦算法的優(yōu)缺點如表1 所示。

Table 1 Comparison of advantuges and disadvantages of news recommendation algorithms表1 新聞推薦算法優(yōu)缺點對比

2 新聞推薦系統(tǒng)效用評價

新聞推薦系統(tǒng)的性能評價是為以后更好地完善技術(shù)手段，以便得到更有效的推薦系統(tǒng)。而數(shù)據(jù)集和評價指標是進行新聞推薦系統(tǒng)性能測試的兩個關(guān)鍵因素。

2.1 常用數(shù)據(jù)集

目前，新聞推薦系統(tǒng)進行效用評價依賴的常用數(shù)據(jù)集，主要有加州大學歐文分校推出的UCI 數(shù)據(jù)集、由Come?ToMyHead 搜集的AG 數(shù)據(jù)庫、雅虎推出的“雅虎新聞推薦”數(shù)據(jù)集以及新聞推薦領(lǐng)域最好的Adressa 數(shù)據(jù)集等。如Del corso 等［10］從comeToMyHead 中提取新聞數(shù)據(jù)；Gulla等［11］對Adressa 精簡新聞數(shù)據(jù)集進行了介紹，該數(shù)據(jù)集支持各種類型的新聞推薦。

2.2 評價指標

推薦系統(tǒng)通常通過以下3 種方法之一進行評估：①基于歷史數(shù)據(jù)的離線實驗和模擬，Maksai 等［12］進行實驗時將數(shù)據(jù)集分為訓練集、驗證集和測試集；②實驗室研究，李增等［13］通過實驗室研究驗證推薦結(jié)果；③真實網(wǎng)站上的A/B測試，Wang 等［14］在在線新聞平臺上進行大量實驗。本文從準確度和非準確度指標兩方面對新聞推薦系統(tǒng)評價指標進行論述。

2.2.1 準確度指標

（1）預測準確度指標。預測準確度指推薦系統(tǒng)的預測評級與真實用戶評級的接近程度。其中，最典型的評估指標有平均絕對誤差（MAE）、均方誤差（MSE）、均方根誤差（RMSE）以及歸一化平均絕對誤差（NMAE）。預測準確度評估指標數(shù)值越低，則預測準確度越高。

（2）分類準確度指標。分類準確度指推薦系統(tǒng)對一個項目作出正確或錯誤決定的頻率。評估指標包括準確率、召回率、F1 指標。準確率越高，即推薦系統(tǒng)預測項目中目標項目所占比例越高，但此時召回率越低。因此，在不同情況下需要判斷是準確率高還是召回率高才能滿足自己的需求。F1 指標即為準確率和召回率的調(diào)和平均值，是一個可以反映整體情況的指標。

（3）排序準確度指標。排序準確度是為了評估用戶對推薦系統(tǒng)生成的推薦列表排序的滿意程度，更適用于評估需向用戶呈現(xiàn)排名列表的推薦系統(tǒng)。

2.2.2 非準確度指標

（1）覆蓋率。覆蓋率（Coverage）指推薦系統(tǒng)能夠推薦出來的項目占總項目集合的比例，旨在評估推薦系統(tǒng)挖掘長尾項目的能力。但該定義過于粗略，為了更好地描述覆蓋率，故引入信息論中信息熵和經(jīng)濟學中的基尼系數(shù)，計算推薦列表中各項目出現(xiàn)次數(shù)的分布情況。若分布較平，則覆蓋率較高。

（2）新穎性。根據(jù)用戶歷史興趣進行新聞推薦，其結(jié)果往往會缺乏“驚喜感”。21 世紀初，Herlocker 等［15］最先提出新穎性推薦的概念，即向用戶推薦不太流行的產(chǎn)品。新穎性可通過新聞項目的流行度或推薦項目與用戶的距離進行度量，新穎性越高，準確性指標就會受到一定的挑戰(zhàn)，因此現(xiàn)有研究通常對新穎性和準確性指標進行加權(quán)測試，以便得到更高的效用評價效果。目前，關(guān)于新穎性的研究較少，可作為未來研究重點。

（3）多樣性。由于用戶的興趣偏好是廣泛的，為了提高用戶對推薦結(jié)果的滿意度，新聞推薦系統(tǒng)應生成多樣化的推薦列表，因此多樣性也成為預測新聞推薦系統(tǒng)性能的指標之一［16］。同新穎性類似，多樣性和準確性之間也需要進行平衡，并且，多樣性的程度也應考慮不同用戶的偏好廣泛程度。

（4）魯棒性。新聞推薦系統(tǒng)的魯棒性是衡量系統(tǒng)抗擊作弊能力的指標，主要通過比較添加噪聲（如對抗訓練）后產(chǎn)生的推薦列表和原推薦列表相似度驗證系統(tǒng)的魯棒性。如：將知識圖表示方法融入新聞推薦的深度知識感知網(wǎng)絡，在實際應用中具有魯棒性和穩(wěn)定性［14］。

3 新聞推薦領(lǐng)域面臨的挑戰(zhàn)

本文對新聞推薦領(lǐng)域面臨的一些主要挑戰(zhàn)進行了分析，這些挑戰(zhàn)可作為未來重點研究方向。

3.1 數(shù)據(jù)稀疏性

由于大型新聞推薦系統(tǒng)項目數(shù)量巨大，用戶之間數(shù)據(jù)重疊率極低，故存在數(shù)據(jù)稀疏性問題。盡管通過用戶聚類和項目聚類技術(shù)推薦［17］、基于排序的地理因子分解［18］、利用RapidMiner 工具實現(xiàn)的協(xié)同過濾推薦［19］等方法可緩解新聞推薦系統(tǒng)的數(shù)據(jù)稀疏性。但推薦系統(tǒng)數(shù)據(jù)庫中急劇增加的用戶數(shù)量新聞特征使得推薦質(zhì)量越來越差，稀疏性問題更加凸顯。由此可見，數(shù)據(jù)稀疏性問題亟待解決。

3.2 冷啟動問題

冷啟動是指當一個用戶與新的推薦系統(tǒng)交互時，該系統(tǒng)沒有任何可利用的用戶興趣偏好以生成推薦項目，往往產(chǎn)生于協(xié)同過濾算法。常見處理方式是在推薦過程中加入關(guān)于用戶的上下文信息，如用戶位置信息、訪問時間等。Pereira 等［20］將人口統(tǒng)計信息與協(xié)同過濾推薦相結(jié)合，有助于緩解用戶冷啟動問題。Lei 等［21］通過超圖學習進行新聞推薦，該算法能夠緩解新聞推薦中的冷啟動問題，但系統(tǒng)可伸縮性較差。故冷啟動問題仍然需要不斷探索，以便提高用戶對新推薦系統(tǒng)的感知價值。

3.3 用戶興趣漂移

用戶興趣漂移即指用戶的興趣偏好隨時間推移而發(fā)生變化的現(xiàn)象。人們對音樂、電影或書籍的喜好在短時間內(nèi)通常會有輕微差異，但在新聞領(lǐng)域，人們的閱讀偏好會受到外界環(huán)境、年齡、文化水平甚至情緒的影響［22］。袁仁進等［23］為緩解新聞推薦系統(tǒng)的用戶興趣漂移，提出了一種面向新聞推薦用戶的興趣模型與更新方法，但還難以解釋F 值呈現(xiàn)先高后低的現(xiàn)象。因此，持續(xù)研究用戶興趣偏好實時更新模型、平衡長期偏好和短期偏好對新聞推薦系統(tǒng)的發(fā)展也是一項真正的挑戰(zhàn)。

3.4 可伸縮性問題

可伸縮性能衡量新聞推薦系統(tǒng)擴展過程中系統(tǒng)的計算處理能力。大型新聞網(wǎng)站每天需要處理海量數(shù)據(jù)，一般通過應用不同類型的集群技術(shù)進行聚類以提高系統(tǒng)可伸縮性?，F(xiàn)有研究［24］針對新聞推薦系統(tǒng)的可伸縮性問題提出了多種聚類技術(shù)；Kucha? 等［25］提出基于關(guān)聯(lián)規(guī)則作為分類器的方法可提高系統(tǒng)可伸縮性，但評估結(jié)果并不好；Ver?bitskiy 等［26］使用Akka 框架實現(xiàn)了基于時間窗口的新聞推薦算法，具有良好的可伸縮性，但該推薦算法點擊通過率過低。聚類可以加快計算速率，但它也可能降低系統(tǒng)準確性。因此，如何平衡系統(tǒng)準確性和可伸縮性也是目前一大難點。

4 結(jié)語

隨著網(wǎng)絡新聞資源的日益普及，在高度動態(tài)的新聞領(lǐng)域中，新聞推薦系統(tǒng)必將是眾多學者的研究熱點。本文對現(xiàn)有新聞推薦系統(tǒng)相關(guān)研究進行了回顧，從新聞推薦系統(tǒng)關(guān)鍵技術(shù)、主要評價指標和面臨的挑戰(zhàn)等方面進行了多角度論述。如何優(yōu)化算法以提高推薦系統(tǒng)性能？如何應對數(shù)據(jù)稀疏、冷啟動、用戶興趣漂移和可伸縮性等新聞推薦中的挑戰(zhàn)？此類問題均將是今后的重點研究方向。