亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于高效用項集挖掘和詞義歸納的新聞推薦系統(tǒng)

2021-07-16 08:12:56朱亞進

計算機應用與軟件 2021年7期

朱亞進

(常州交通技師學院江蘇常州 213147)

0 引言

隨著移動互聯(lián)網(wǎng)的蓬勃發(fā)展，人們每天花費大量的時間觀看互聯(lián)網(wǎng)的各種信息，其中新聞是一種影響巨大的信息內(nèi)容[1]。每天產(chǎn)生大量各種類型的新聞，并且新聞存在新穎、不可預估等特點，用戶通過搜索來查找新聞內(nèi)容需要花費大量的時間和精力[2]。為了提高用戶觀看新聞的效率，許多新聞應用程序集成了新聞推薦系統(tǒng)。當前的主流推薦系統(tǒng)大多針對購物網(wǎng)站和音樂電影等商品而設計，通過建立“用戶-項目評分”矩陣，采用相關性指標度量用戶之間的相似性，通過協(xié)同過濾技術為用戶提供推薦列表[3-4]。新聞內(nèi)容中包含了大量的文字信息[5]，利用這些信息能夠有效地緩解冷啟動問題和稀疏性問題，但是這些文字信息為相似性分析帶來了難度。

許多新聞應用將用戶點擊量作為偏好的評估指標，根據(jù)用戶的閱讀耗時對用戶偏好值做調(diào)節(jié)[6]，此類系統(tǒng)能夠實時更新用戶興趣模型，達到推新、推準的效果，但存在嚴重的稀疏性問題和冷啟動問題。文獻[7]將改進的層次聚類算法用于新聞事件發(fā)現(xiàn)問題，引入事件的多重特征計算用戶的興趣模型，該算法利用Spark框架實現(xiàn)了快速的響應，但對用戶的興趣評估不夠準確。文獻[8]通過已有用戶對于新聞的點擊瀏覽記錄，提取其在不同環(huán)境中的上下文信息，利用興趣分類記錄構建決策樹分類模型，該方案能夠有效緩解新聞推薦系統(tǒng)中用戶冷啟動問題。文獻[9]通過引入矩陣分解、標題分析和知識圖譜對新聞的標題進行了深入的分析，提出了一種細粒度的新聞推薦系統(tǒng)。該系統(tǒng)的實驗結果表現(xiàn)出更為準確的推薦結果，并且有效地緩解了稀疏性問題和冷啟動問題，但由于利用深度神經(jīng)網(wǎng)絡提取新聞的特征，此過程需要大量的計算成本，并且不具備可擴展性。

新聞推薦系統(tǒng)有兩個特殊之處：① 目標權衡。新聞提供商需要權衡廣告收益和新聞內(nèi)容，所以系統(tǒng)應當能夠支持不同的商業(yè)目標。② 冷啟動問題。新聞提供商連續(xù)產(chǎn)生大量的新聞，由此導致用戶冷啟動問題和新聞冷啟動的問題。根據(jù)文獻[9]獲得的成果，通過標題詞義的分析和新聞內(nèi)容等信息能夠顯著提高推薦的準確率，可通過分布式計算解決詞義分析所帶來的計算成本。新聞推薦領域中包含了大量的詞匯和上下文信息，詞義歸納機制能夠對新聞標題和內(nèi)容的詞匯做歸納處理，提高后續(xù)新聞推薦的準確率。本文從語料庫和用戶交互兩個方面分析新聞系統(tǒng)，將用戶點擊量和其他輔助屬性作為指標建立新聞的效用模型，通過效用模型能夠支持對系統(tǒng)目標的權衡，并且緩解冷啟動問題。另外，給出了基于MapReduce的分布式推薦系統(tǒng)實現(xiàn)方案，從而為用戶實時提供推薦列表。

1 新聞推薦系統(tǒng)的模型

設nw為新聞的正文內(nèi)容，Si為會話i，D為點擊量數(shù)據(jù)集，ψ(nw)為基于nw屬性計算的新聞端度量，γ(nw,Sr)為會話Sr中nw的用戶端度量，φ(nw,Sr)為會話Sr中nw的效用，σ(nw,P)為新聞閱讀模式P中nw的內(nèi)部效用，φ(P,D)為D中新聞閱讀模式P的效用。設N={nw1,nw2, …,nwn}為新聞內(nèi)容的集合，點擊量數(shù)據(jù)集由若干會話組成，會話S定義為一個排列的新聞列表，每個新聞表示為相關屬性集，屬性包括：新聞標題、新聞受歡迎度和發(fā)布日期。根據(jù)用戶閱讀新聞的交互軌跡初始化屬性集，屬性稱為用戶-新聞交互屬性。本文先給出新聞的效用模型，然后提出一種從點擊量數(shù)據(jù)集到新聞效用模型的映射方案。

定義1新聞端度量。對于新聞內(nèi)容nw，新聞端的度量定義為：

ψ(nw)=Fψ(f1,f2,…,fk)

(1)

式中：{f1,f2,…,fk}為新聞的屬性集;Fψ為聚合函數(shù)。

定義2用戶端度量。給定一個會話Sr和一個用戶-新聞交互屬性f′1,f′2,…,f′k，用戶端度量定義為：

γ(nw,Sr)=Fγ(f′1,f′2,…,f′k)

(2)

式中：Fγ為一個聚合函數(shù)。

定義3新聞效用模型。給定一個新聞nw和一個會話Sr，新聞效用模型定義為：

φ(nw,Sr)=Fφ(ψ(nw),γ(nw,Sr))

(3)

式中：Fφ為一個聚合函數(shù)。

上述定義并未限制聚合函數(shù)Fψ、Fγ和Fφ的形式。在不同的應用場景下，根據(jù)商業(yè)目標調(diào)整聚合函數(shù)。表1所示是包含5個會話{S1,S2,S3,S4,S5}的點擊量數(shù)據(jù)集，假設應用的目標是利用推薦的新聞增加用戶的參與度，此時新聞的日期、受歡迎度、社交媒體的活躍度則是用戶參與度的重要指標。表2是γ聚合的結果，表3是新聞的點擊量數(shù)據(jù)集，表4是ψ聚合的結果。最終定義了Fφ將γ和ψ的結果相乘，獲得最終的效用：φ(nw,Sr)=ψ(nw)×γ(nw,Sr)。

表1 會話的點擊量數(shù)據(jù)集

表2 γ聚合的結果

表3 新聞的點擊量數(shù)據(jù)集

表4 ψ聚合的結果

上述例子是新聞效用模型的一種可能實例，實際應用中存在許多的屬性。圖1所示是總結的新聞效用模型融合實例。

圖1 總結的新聞效用模型融合實例

定義4新聞閱讀模式。新聞閱讀模式P定義為用戶閱讀的新聞集{nw1,nw2,…,nwL}，L為模式長度。

2 基于效用的新聞推薦系統(tǒng)

設計了基于效用的新聞推薦系統(tǒng)，簡稱為(News Recommendation System, nwrecsys)，nwrecsys基于Apache Spark框架和MapReduce框架實現(xiàn)，首先基于點擊量數(shù)據(jù)集學習推薦規(guī)則集，然后根據(jù)規(guī)則集為當前的用戶會話推薦新聞列表。圖2所示是本系統(tǒng)的總體框架，其中發(fā)現(xiàn)規(guī)則的部分主要分為兩個階段：① 發(fā)現(xiàn)內(nèi)容級別的推薦規(guī)則;② 發(fā)現(xiàn)標題級別的推薦規(guī)則。

圖2 新聞推薦系統(tǒng)的總體框架

2.1 內(nèi)容級別的推薦規(guī)則

大多數(shù)基于規(guī)則的推薦系統(tǒng)基于數(shù)據(jù)生成關聯(lián)規(guī)則，首先發(fā)現(xiàn)頻率不小于最小支持度閾值的新聞閱讀模式，給定一個頻繁新聞閱讀模式P，選出置信度不小于閾值的所有規(guī)則集，記為R：A→B。置信度定義為包含模式B的會話占包含模式A會話的百分比?；诒疚牡男侣勑в媚Ｐ蛯ふ宜袃?nèi)容級別的規(guī)則R：A→B。如果達到以下兩個條件，則認為推薦的結果較好：(1) 一個會話包括閱讀的新聞內(nèi)容和推薦的新聞列表;(2) 推薦的新聞應當能夠提高外部效用值。定義一個內(nèi)容級別的新聞推薦規(guī)則來滿足這兩個條件。給定兩個新聞閱讀模式X和Y，如果滿足以下3個條件，則認為R：X→Y為一個內(nèi)容級別的新聞推薦規(guī)則：①X≠?,Y≠?,X∩Y≠?;②Y和X∪Y均為高效用新聞閱讀模式。③ 規(guī)則的效用置信度不小于用戶預設的最小閾值。規(guī)則的效用置信度定義為：

(4)

規(guī)則R：X→Y的效用置信度描述了Y對于新聞閱讀模式X∪Y的效用貢獻，假設規(guī)則推薦Y，而Y與X關聯(lián)，那么X∪Y構成高效用的新聞閱讀模式，置信度越高表示推薦的總效用值越高。發(fā)現(xiàn)規(guī)則由兩個部分組成：滿足條件(1)的高效用新聞閱讀模式；滿足條件(2)的內(nèi)容級別的新聞推薦規(guī)則。從點擊量數(shù)據(jù)集挖掘高效用新聞閱讀模式需要消耗巨大的計算資源和存儲資源，且此情況的新聞效用模型未必單調(diào)，所以不滿足向下閉合屬性，此情況下剪枝搜索空間的難度遠遠大于傳統(tǒng)的頻繁項集挖掘算法。因此本文通過分布式計算提高系統(tǒng)的計算效率。

圖3為發(fā)現(xiàn)內(nèi)容級別推薦規(guī)則的分布式計算框架。第一個Map-Reduce中應用定義1和定義2建立效用數(shù)據(jù)集。然后使用一個Mapper和Map-Reduce處理效用數(shù)據(jù)集，發(fā)現(xiàn)高效用新聞閱讀模式。最后使用一個Map-Reduce發(fā)現(xiàn)內(nèi)容級別的推薦規(guī)則。

圖3 發(fā)現(xiàn)內(nèi)容級別推薦規(guī)則的分布式計算框架(基于Apache Spark 2.3.0)

算法1發(fā)現(xiàn)高效用新聞閱讀模式

輸入：效用數(shù)據(jù)集D，新聞效用模型Fφ，最小效用閾值δ。

1.將D分布于計算機集群的m個節(jié)點上{D1,D2,…,Dm}；

2.foreach?Si∈Djdo

3.foreach?nw∈Sido

4.φ(nw,Si)←Fφ(ψ(nw),γ(nw,Si));

6.endfor

8.endfor

9.χi= 在節(jié)點i中尋找高效用新聞閱讀模式；

//采用文獻[10]的挖掘算法

給定一個高效用新聞閱讀模式的集合，本文的目標是發(fā)現(xiàn)內(nèi)容級別的新聞推薦規(guī)則。

給定一個新聞閱讀模式P={nw1,nw2,…,nwn}，其中σ(nw1,P)<σ(nw2,P)<σ(nwn,P)，X={nw1,nw2,…,nwk}?P，k≤n，P中新聞nwi滿足以下的關系：

uconf(〈{X-nwk}→nwi〉)>uconf(〈{X-nwk-1}→nwi〉)

(5)

式中：X-nwk表示集合X中刪除新聞nwk后的集合。

根據(jù)上述思路，提出一種發(fā)現(xiàn)內(nèi)容級別推薦規(guī)則的算法，如算法2所示。算法的輸入為高效用新聞閱讀模式和最小支持度min_uconf，輸出為內(nèi)容級別的新聞推薦規(guī)則。第2行將模式P的新聞按會話中的內(nèi)部效用值升序排列，給定新聞nw，算法2產(chǎn)生所有的內(nèi)容級別推薦規(guī)則。

算法2內(nèi)容級別的規(guī)則發(fā)現(xiàn)算法

輸入：高效用新聞閱讀模式集Pset，最小效用置信度min_uconf。

2.Pset′←新聞內(nèi)容按σ(nw,P)升序排列；

3.foreachP={nw1,nw2,…,nwn}∈PSet′do

4.foreachi= {1,2,…,n}do

5.ifnwi∈Pset′then

6.X←{nw1,nw2,…,nwi-1}；

7.Y←nwi；

9.else

10.returnNULL;

11.endif

12.endfor

13.endfor

14.return；

算法2的第8行調(diào)用算法3(algorithm3)檢查每個規(guī)則的有效性。算法3運用理論1評估內(nèi)容級別的規(guī)則，遞歸地尋找所有的規(guī)則，時間復雜度為O(k)，復雜度小于窮舉搜索的復雜度O(2k)，k為輸入高效用新聞閱讀模式的長度。

算法3規(guī)則檢查算法

輸入：X,Y,,min_uconf,Pset。

1.uconf=σ(Y,X∪Y)/σ(X∪Y,X∪Y)；

2.ifuconf≥min_uconfthen

3.R←{X→Y,uconf,σ(Y,X∪Y)}

6.R加入；

7.endif

8.fornw∈Xdo

9.X’=X-nw；

10.algorithm3(X,Y,,min_uconf,Pset);

10.endfor

2.2 新聞效用模型

設nw為新聞內(nèi)容，設usr為用戶，因為nw的參與度是動態(tài)變化的，nw的內(nèi)容端度量計算如下：

(6)

式中：acc_date為usr點擊nw的時間；rel_date為nw的發(fā)布時間。

nw的usr用戶端度量計算為：①DwellTime：usr在nw上花費的時間；② 社交媒體活躍度(socialact)：用戶是否在社交媒體分享該內(nèi)容。γ函數(shù)定義為：

γ(nw,Sr)=DwellTime(usr,nw)×socialact(usr,nw)

(7)

最終的效用模型定義如下：

socialact(usr,nw)

(8)

2.3 標題級別的推薦規(guī)則

內(nèi)容級別的新聞推薦規(guī)則給出了新聞內(nèi)容之間基于效用的連接，但無法推薦新發(fā)布的內(nèi)容。如果直接應用基于內(nèi)容的方法推薦新發(fā)布的內(nèi)容，那么存在兩點不足：① 推薦質(zhì)量低。推薦的內(nèi)容僅考慮內(nèi)容的相似性，不考慮新聞閱讀模式，用戶可能對內(nèi)容無興趣。② 多樣性不足。

本文開發(fā)了基于詞匯歸納和概率模型的標題級別推薦規(guī)則，包括四個階段：

第1階段：上下文建模和上下文嵌入。

第2階段：上下文嵌入建模為復雜網(wǎng)絡。

第3階段：詞義歸納。

第4階段：標題級別的推薦規(guī)則。該算法無需先驗知識，利用模塊度獲得最佳的分簇結果。

2.3.1上下文建模和上下文嵌入

采用Word2vec[11]表示標題的詞匯，設計了快速的詞匯嵌入訓練方法，其次設計了詞匯預測模型和詞匯的上下文預測模型。Word2vec生成的詞匯嵌入能夠保存語法屬性和語義屬性，組合上下文所有的詞匯嵌入總結出歧義詞匯。

圖4所示是產(chǎn)生歧義詞匯嵌入的流程。第1步獲得目標詞匯的近鄰詞匯向量，采用Word2vec獲得嵌入的結果。將Google新聞作為訓練集，語料庫共包含1 000億個詞匯。獲得每個上下文的嵌入表示之后，將結果組合成一個向量，該向量表示了目標詞匯上下文的詞義特征。

圖4 產(chǎn)生歧義詞匯嵌入的流程

設wi為標題中位置i的歧義詞匯，假設上下文為ci，wi附近共有ω個詞匯，即ci=[wi-ω/2,…,wi-1,wi,wi+1,…,wi+ω/2]T，對wi的上下文嵌入結果為ci：

(9)

式中：wi為第j個詞匯在ci的嵌入，一個詞匯的上下文設為近鄰詞匯的語義特征組合。

2.3.2上下文嵌入建模為復雜網(wǎng)絡

上下文之間的相似性建模為復雜網(wǎng)絡，相似詞匯間建立連接，如果兩個上下文嵌入相似，那么對應的上下文向量間建立連接。采用k-NN算法將上下文嵌入建模為復雜網(wǎng)絡，選擇較小的k值能夠降低網(wǎng)絡的復雜度。然后，使用余弦相似性度量兩個節(jié)點間的距離。

2.3.3詞義歸納

Louvain算法的計算成本低，直接對網(wǎng)絡的模塊度函數(shù)做優(yōu)化處理，無需附加的參數(shù)信息。所以運用Louvain社區(qū)檢測將復雜網(wǎng)絡分簇，每個簇為一個歸納的詞義。圖5所示是詞義歸納的一個實例，圖中“BEAR”是一個多義詞，具有兩個詞義：① 表示忍耐的動詞；② 表示熊的名詞。首先考慮上下文詞匯的嵌入，第1個句子的上下文詞匯為“PAIN”，第2個句子的上下文詞匯為“IN”和“FOREST”。通過上下文詞匯的嵌入描述多義詞，然后，建立相似性詞匯嵌入的網(wǎng)絡，再使用社區(qū)檢測算法將詞義分簇。

圖5 識別多義詞的實例

2.3.4標題級別的推薦規(guī)則

設計一個標題概率模型從語料庫推理出潛在的標題。設新聞標題語料庫為N，其詞匯為V，標題t是關于詞匯wi∈V的多項式分布，記為p(wi|t)。假設每個內(nèi)容的標題唯一，如果p(ti|tj)較高，則認為標題級別的規(guī)則tj→ti為優(yōu)質(zhì)規(guī)則。新聞的概率p(ti|tj)為：

(10)

采用新聞效用模型估計p(nw)：

(11)

式中：D為點擊量數(shù)據(jù)集，Sr為D內(nèi)的一個會話。式(10)從標題概率模型獲得概率p(ti|nw)，標題級別規(guī)則R:{tj→ti}的標題效用置信度表示為p(ti|tj)。給定一個標題級別效用的置信度及一個下限值min_tconf。算法4為發(fā)現(xiàn)標題級別推薦規(guī)則的算法，首先獲得兩個標題ti和tj，然后計算條件概率p(tj|ti)和p(ti|tj)，如果p(tj|ti)或p(ti|tj)不小于閾值，則發(fā)現(xiàn)了一個新的標題規(guī)則R:{ti|→tj}或R:{tj|→ti}。

算法4發(fā)現(xiàn)標題級別推薦規(guī)則的算法

輸入：點擊量D，標題分布T，標題置信度下限值min_tconf。

1.foreachti,tj∈Tdo

2. 計算p(ti|tj)和p(tj,ti)；

3.ifp(ti|tj)≥min_tconfthen

4. 規(guī)則R:添加到T；

5.endif

6.ifp(tj|ti)≥min_tconfthen

7. 規(guī)則R:添加到T；

8.endif

9.endfor

10.returnT；

3 生成推薦的新聞列表

本文的新聞推薦系統(tǒng)共計算新聞的3種評分。

(1) 內(nèi)容級別的新聞推薦評分。給定一個用戶會話Sr和閱讀模式P，內(nèi)容nw的推薦評分計算為：AL(nw)=φ(P,Sr)×uconf(P→nw)，φ(P,Sr)為閱讀模式P在會話Sr的效用值。從P的所有子集中選擇最高的推薦評分作為最終的nw推薦評分。假設一個閱讀模式P包含k個內(nèi)容，使用2k個P的子集產(chǎn)生候選推薦，選出評分最高的候選推薦作為最終的推薦。

(3) 新聞推薦總評分。綜合上述兩個評分作為新聞推薦的依據(jù)，融合方法為：com(nw)=AL(nw)×TW(nw)。

4 實驗和結果分析

4.1 實驗環(huán)境和實驗方法

實驗環(huán)境由一個master節(jié)點和6個worker節(jié)點組成，每個節(jié)點裝備了Intel Xeon 2.6 GHz處理器和128 GB的內(nèi)存。分布計算平臺為Spark Release 2.3.0。

4.2 性能評價指標

為了保證實驗結果的置信度，采用5折交叉驗證的實驗方案，將數(shù)據(jù)集隨機分為5個子集，輪流選擇4個子集作為訓練集，剩余的子集作為測試集，最終將5次實驗結果的平均值作為最終的統(tǒng)計結果。根據(jù)訓練集獲得算法的最優(yōu)參數(shù)集。

性能評價指標包括平均精度均值MAP@K和多樣性。MAP定義為相關內(nèi)容數(shù)量除以數(shù)據(jù)集的內(nèi)容總數(shù)量，多樣性定義為推薦列表中每對新聞的不相似性平均值，假設新聞數(shù)量為N，平均不相似性計算為：

diver(N)=

(12)

式中：p為新聞的數(shù)量；sim()為余弦相似性。

4.3 實驗數(shù)據(jù)和參數(shù)設置

實驗中采用Semeval-2013語料庫[12]，Semeval-2013共有50個詞匯，每個詞匯的樣本數(shù)量范圍為22～100。數(shù)據(jù)集包括OANC[13]的4 664個樣本，每個樣本是字典的一個短語。

采用Google新聞數(shù)據(jù)集預訓練詞匯嵌入模型，該數(shù)據(jù)集包含約1 000億個詞匯。模型共有300萬個不同的詞匯和短語，采用Word2vec方法訓練詞匯嵌入模型，詞匯嵌入的維度為300。算法的效用閾值min_util設為1萬，min_uconf設為0.6，min_tconf設為0.45。

選擇NTrecsys、LAPnwrec、PBnwrec、HARTnwrec作為對比方案。NTrecsys[14]是一種考慮新聞標題的相似性推薦系統(tǒng)，該系統(tǒng)評估標題中關鍵詞的相似性，然后簡單采用協(xié)同過濾推薦算法為用戶提供標題相似的新聞內(nèi)容。LAPnwrec[15]是一種實時的網(wǎng)絡新聞推薦算法，該算法將用戶的位置作為相似性度量的一部分，以期緩解多樣性問題。PBnwrec[16]則提出了新聞內(nèi)容的隱秘性度量指標，通過檢測新聞的隱含信息，緩解推薦系統(tǒng)的稀疏性問題。HARTnwrec[17]是一種基于Apache Spark框架的分布式推薦系統(tǒng)，與本文的實現(xiàn)框架相似。

4.4 推薦準確率和多樣性實驗

圖6為推薦系統(tǒng)的推薦MAP結果。圖中nwrecsys在不同K值下的MAP結果均優(yōu)于其他的推薦算法，這是因為本文算法同時考慮了新聞內(nèi)容級別的推薦規(guī)則和新聞標題級別的推薦規(guī)則，基于效用模型將兩者關聯(lián)，對新聞系統(tǒng)的推薦準確率實現(xiàn)了明顯的提高。

圖6 推薦系統(tǒng)的推薦MAP結果

圖7為推薦算法的平均多樣性結果，可以看出，推薦內(nèi)容的數(shù)量越多則多樣性越低。原因在于選擇的新聞越多，推薦的新聞越契合用戶的興趣，推薦的新聞相似性則越高。nwrecsys的多樣性明顯高于其他幾個推薦算法。

圖7 推薦系統(tǒng)的平均多樣性結果

4.5 冷啟動和敏感性實驗

為了仿真新聞系統(tǒng)的冷啟動問題，參考文獻[18]的實驗方法：將70%的新聞內(nèi)容分為訓練子集，30%的新聞內(nèi)容分為測試子集。訓練集包含評分信息、點擊量、閱讀時長的反饋信息，測試集不包含任何的顯式反饋信息和隱式反饋信息，測試推薦系統(tǒng)在不同K值條件下的性能。新聞冷啟動問題中，因為新發(fā)布的新聞沒有被閱讀的歷史記錄，所以大多數(shù)推薦算法無法工作。圖8為推薦算法對于新聞冷啟動場景的平均MAP結果，圖中顯示，本文算法的MAP結果優(yōu)于其他的推薦算法，原因在于本文算法設計了標題的概率模型，有助于向用戶推薦新發(fā)布的新聞。

圖8 推薦算法對于新聞冷啟動場景的平均MAP結果

最終評測了不同閾值參數(shù)對推薦系統(tǒng)性能的影響。圖9顯示了推薦系統(tǒng)對于閾值的敏感性，可以看出min_uconf和min_tconf的值越低，推薦規(guī)則越多，而這些多余的規(guī)則導致置信度降低?？傮w而言，閾值越低，推薦系統(tǒng)的精度越低。

(a) 參數(shù)min_uconf的敏感性結果

(b) 參數(shù)min_tconf的敏感性結果圖9 推薦系統(tǒng)對于閾值的敏感性

4.6 推薦系統(tǒng)的時間效率

作為線上應用程序的一部分，計算效率是決定實用性的關鍵因素。評估了推薦算法的響應時間，結果如圖10所示。NTrecsys算法、LAPnwrec算法、PBnwrec算法并未對時間效率做優(yōu)化處理，對于大數(shù)據(jù)集的響應時間較長；HARTnwrec是一種基于Apache Spark框架的分布式推薦系統(tǒng)，平均執(zhí)行時間約為0.4 s；本文算法的平均執(zhí)行時間約為0.5 s。因此HARTnwrec與本文算法都具有較好的速度。

圖10 推薦算法的平均執(zhí)行時間

5 結語

主流的新聞推薦方法將用戶點擊量作為隱式反饋信息來理解用戶的行為，但點擊量無法反映用戶的真實興趣。本文提出了基于高效用項集挖掘和詞義歸納的新聞推薦系統(tǒng)，從語料庫和用戶交互兩個方面分析新聞系統(tǒng)，將用戶點擊量和其他輔助屬性作為指標建立新聞的效用模型，通過效用模型能夠支持對系統(tǒng)目標的權衡，并且緩解冷啟動問題。

本文初步研究了新聞推薦系統(tǒng)，因為英文語料庫的數(shù)據(jù)量較小，并且英文新聞的資源易于獲取，因此將英文新聞的資源作為研究對象。未來將收集中文語料庫，選擇合適的中文新聞數(shù)據(jù)集作為實驗數(shù)據(jù)集，針對中文新聞的推薦問題做深入研究。