一種融合語義分析特征提取的推薦算法

2020-03-21 01:10:12陳嘉穎楊興耀

計算機研究與發(fā)展 2020年3期

陳嘉穎于炯楊興耀

1(新疆大學信息科學與工程學院烏魯木齊 830046) 2(新疆大學軟件學院烏魯木齊 830008)(chenjy@stu.xju.edu.cn)

近年來，互聯(lián)網(wǎng)的蓬勃發(fā)展致使網(wǎng)絡信息量呈指數(shù)級增長，網(wǎng)絡大數(shù)據(jù)給人們帶來嚴重的“信息過載”問題，導致終端用戶很難準確獲取與其需求相符合的信息.推薦系統(tǒng)能夠根據(jù)用戶歷史行為數(shù)據(jù),分析其潛在偏好，為用戶提供個性化推薦，成為緩解“信息過載”問題的有效手段.目前，推薦系統(tǒng)已應用在電子商務(Amazon、阿里巴巴等)、社交網(wǎng)絡(Face-book,Twitter等)、電影推薦(Netflix等)、音樂推薦(Last.fm等)、新聞推薦(GoogleNews等)等領域.

現(xiàn)有推薦系統(tǒng)主要以用戶評分矩陣作為主要的用戶偏好信息［1]，用戶評分具有客觀性，不同用戶打分標準不同.多數(shù)推薦平臺為用戶提供了交互接口，如點贊、評論等，在線評論是用戶對項目感受的具體反饋，這些反饋信息通常以非結構文本形式存在，合理分析用戶評論信息能夠?qū)椖刻卣骷坝脩羝眠M行精細刻畫.基于用戶評論［2]、基于用戶隱士反饋信息的推薦算法在解決冷啟動、推薦準確性以及可解釋性等方面具有重要潛力，然而，受到文本信息挖掘技術等方面的限制，基于評論信息分析的推薦算法進展并不明顯.

知識圖譜以結構化的形式將互聯(lián)網(wǎng)信息表示為人類易于理解的語義網(wǎng)絡，使人們更容易組織、管理以及利用互聯(lián)網(wǎng)信息.知識圖譜的興起，為個性化推薦系統(tǒng)的改進提供了新的思路.針對現(xiàn)有推薦系統(tǒng)對項目特征分析不夠充分的問題，提出一種融合語義分析特征提取的推薦算法.該算法從推薦平臺中非結構化文本信息入手，結合知識圖譜，對項目的描述信息及真實評論數(shù)據(jù)進行相關實體提取和語義分析，提取項目細粒度特征；設計協(xié)同學習框架監(jiān)督學習用戶、項目的低維向量表征，并以此為目標用戶推薦符合其偏好的項目.在真實數(shù)據(jù)集上的實驗結果表明，本文提出新算法的推薦效果優(yōu)于選取的代表性對比算法.本文主要貢獻有3個方面：

1) 利用知識圖譜對多源異構數(shù)據(jù)的整合性，在對項目特征提取過程中融入語義分析，提出融合語義分析的特征分析方法.

2) 定義相關實體概念對提取的特征實體進行擴展，在特征分析過程中保持項目特征多樣性.

3) 設計知識感知的協(xié)同學習框架，將基于知識圖譜的向量表征整合到協(xié)同過濾推薦過程中，根據(jù)學習結果進行Top-N推薦.

1 相關工作

1.1 個性化推薦

個性化推薦算法主要包括基于內(nèi)容的推薦算法(content-based recommendation, CBR)、基于協(xié)同過濾的推薦算法(collaborative filtering-based reco-mmendation, CFR)和混合推薦算法(hybrid methods)3類［3].基于內(nèi)容的推薦算法通過抽取各個項目的屬性特征、分析用戶歷史行為構建用戶對項目的偏好向量，然后計算用戶偏好向量與候選項目特征向量的相似性，向用戶推薦相似度高的項目.該方法特征抽取困難，局限于文本資源推薦，很難挖掘用戶潛在興趣［1,4].

協(xié)同過濾推薦算法的目標是將用戶和項目間的二元關系轉(zhuǎn)化為評分預測問題，依據(jù)用戶對項目的歷史評分進行協(xié)同過濾或排序，進而產(chǎn)生推薦列表［1,5].與基于內(nèi)容的方法相比，協(xié)同過濾推薦算法不需要項目屬性信息，可以根據(jù)用戶與物品間點擊、瀏覽、評分等交互信息進行推薦［6]，因此被研究者廣泛推崇.

基于協(xié)同過濾的推薦算法通常分為基于內(nèi)存的協(xié)同過濾算法(memory-based collaborative filtering)和基于模型的協(xié)同過濾算法(model-based collabora-tive filtering).基于內(nèi)存的協(xié)同過濾算法通過計算用戶或項目間的相似度，評估目標用戶對未打分項目的評分而進行推薦［5].此類方法主要依賴用戶對項目的評分資源，適應性廣，同時也面臨高稀疏性、冷啟動、無法有效處理大規(guī)模數(shù)據(jù)等問題［4,7].

基于模型的協(xié)同過濾推薦算法使用統(tǒng)計和機器學習技術，根據(jù)用戶-項目打分矩陣學習包含用戶隱藏特征的行為預測模型，并利用此模型進推薦.學者們將多種模型用于基于模型的協(xié)同過濾方法，如貝葉斯模型［8-9]、矩陣分解模型［10]、潛在語義分析模型［11]、深度學習模型［12]等.基于矩陣分解的方法，如SVD［13](singular value decomposition),NMF［14](non-negative matrix factorization)等，根據(jù)高維用戶-項目評分矩陣學習用戶、項目的低維向量表示，并將其用于推薦任務.此類方法在處理大規(guī)模數(shù)據(jù)時有杰出表現(xiàn).為了緩解協(xié)同過濾算法數(shù)據(jù)稀疏性和冷啟動問題，研究人員將語義知識融入推薦過程.文獻［15]利用鏈接開放數(shù)據(jù)庫中豐富的語義，提取電影相關RDF數(shù)據(jù)，計算電影資源向量空間的相似性，并進行Top-N推薦.隨著深度學習算法在自然語言處理、圖像識別、計算機視覺等多個領域取得了巨大的突破，研究者們將深度學習模型引入推薦領域用于隱藏特征的學習.文獻［12]將2層受限玻爾茲曼機(restricted Boltzmann machines, RBM)用于協(xié)同過濾算法.該方法以用戶對項目的打分矩陣為輸入學習隱含層并用隱含層的數(shù)值來表示用戶特征，首次提出基于深度學習的協(xié)同過濾模型.文獻［16]利用用戶信息、歷史行為等多源異構數(shù)據(jù)，將深度神經(jīng)網(wǎng)絡用于YouTube視頻推薦系統(tǒng)的候選集生成模塊和精排模塊，推薦效果顯著提升.Google提出Wide&Deep學習模型［17]用于手機APP推薦，該模型聯(lián)合訓練一般的線性模型(wild)和多層感知機模型(deep)，使其同時具有記憶能力和泛華能力，得到了廣泛的應用.

1.2 知識圖譜及其表示學習模型

2012年5月Google為增強互聯(lián)網(wǎng)搜索引擎能力、優(yōu)化搜索引擎結果而發(fā)布知識圖譜產(chǎn)品.知識圖譜(knowledge graph， KG)以一種接近人類認知的結構化表達形式，存儲客觀世界存在的復雜結構化、非結構化信息，其本質(zhì)是語義網(wǎng)絡［18].近年來，隨著互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模的不斷增大，多種開放知識圖譜被推出，如DBpedia,YAGO,Wikidata,BabelNet,Microsoft Concept Graph、中文知識圖譜百度百科、OpenKG等.合理使用知識庫中的語義信息，能夠解決現(xiàn)實生活中通過單一領域知識難以解決的問題，目前，知識圖譜已在互聯(lián)網(wǎng)語義搜索、智能問答、大數(shù)據(jù)語義分析以及智能知識服務等方面得到廣泛應用.

知識圖譜以結構化的形式描述概念、實體及其間的關系，多以RDF(resource describe framework)三元組的形式進行存儲管理，即G=(E,R,E)，其中，E={e1,e2,…,e|E|}表示知識庫中|E|個實體的集合；R={r1,r2,…,r|R|}表示知識庫中|R|種不同關系的集合；S?E×R×E表示知識庫中三元組集合.每個三元組(h，r，t)包含2個實體(頭實體h,尾實體t)及2個實體間的關系r.

基于三元組的知識表示方法由于其表現(xiàn)能力強、具有可解釋性等優(yōu)點被學者廣泛認可，但也面臨著數(shù)據(jù)稀疏、推理能力低、魯棒性差等問題.隨著自然語言處理領域詞向量嵌入技術的發(fā)展，面向知識圖譜的表示學習研究也取得了新進展.基于向量的知識表示方法將知識圖譜中的實體和關系用低維稠密的向量表示，并使相近實體在向量空間有相近的表示，語義相關聯(lián)的實體在向量空間有所關聯(lián)，進而在低維向量空間中計算實體間語義相似性.基于向量的知識圖譜表示可以有效地將知識圖譜用與其他學習任務相結合，如知識庫補全、關系抽提、實體分類等.

知識圖譜的表示學習方法主要有基于張量分解的方法，如NTN［19],RESCAL［20-21]；基于翻譯的方法，如TransE［22]，TransD［23]，TransH［24]，TransR［25]等.基于翻譯的模型認為，對于每個三元組(h，r，t)，其中關系r是頭實體h到尾實體t之間的翻譯［26].由于此類方法在大規(guī)模知識圖譜中具有簡單、高效等優(yōu)點，自Bordes等人［22]提出TransE模型后，基于翻譯的方法受到研究者的廣泛關注.本文選用TransR模型在算法中進行表示學習.

(1)

相應的得分函數(shù)被定義為

(2)

Fig.1 TransR model圖1 TransR模型

1.3 基于語義分析的推薦算法

基于歷史數(shù)據(jù)集的推薦算法面臨數(shù)據(jù)稀疏、冷啟動等問題,近年來許多研究者將語義知識融入?yún)f(xié)同過濾算法解決上述問題.文獻［27]通過對描述物品的文本進行分詞、提取標簽等處理后，計算描述信息的詞語間的相似度，進而分析物品間的相似性，預測目標用戶對項目的打分;文獻［28]提出一個3層知識表述方法用于新聞推薦，通過在用戶層與項目層中間引入語義豐富、表達明確的知識空間，分析上下文語義信息，改進推薦系統(tǒng)性能;文獻［29]提出一種基于標簽語義相似度分析的推薦算法.該算法通過分析項目標簽與項目之間的相關性，處理單詞間、句子間的相似性來提升對用戶興趣分析的準確度.

由于知識圖譜的語義網(wǎng)絡特性，學者們試圖將知識圖譜用于推薦過程來提升效果.知識圖譜在3個方面對推薦算法有促進作用：1)實體間語義相關性有助于提取異質(zhì)信息網(wǎng)絡中用戶及項目的潛在特征；2)知識圖譜包含大量實體及豐富的關系，復雜的鏈接關系能夠合理擴展用戶偏好，為用戶做出多樣性推薦；3)通過知識圖譜將用戶的歷史行為記錄連接起來，能夠提升推薦系統(tǒng)帶可解釋性［30].文獻［31]較早提出將DBpedia用于音樂推薦，作者首先將音樂數(shù)據(jù)集映射到知識庫獲取音樂潛在屬性信息，然后計算各個藝術家在知識庫中的語義距離并以此完成推薦；文獻［32]分別構建了基于聲音和基于音樂的知識圖譜，從項目的標簽、文本描述信息等歷史數(shù)據(jù)中提取實體，并使用實體鏈接、同義詞消歧技術將提取的實體映射到知識圖譜中，以此豐富聲音、音樂特征，使推薦的覆蓋面更廣；文獻［33]將知識庫中的結構知識、文本知識和圖片知識分別向量化后，通過聯(lián)合訓練與協(xié)同過濾進行融合，實現(xiàn)了基于異構數(shù)據(jù)的排序推薦.其中結構知識通過知識圖譜中頭尾實體與實體之間的關系組成，首次將知識圖譜用于推薦算法項目特征提取;文獻［34]將知識圖譜引入新聞推薦系統(tǒng)，提出一種基于內(nèi)容的深度學習點擊率預測算法(deep knowledge-aware network, DKN).DKN算法設計了知識感知的卷積神經(jīng)網(wǎng)絡模塊和單詞-實體對齊模塊，關聯(lián)新聞標題中的詞語與知識庫中的實體，將新聞語義層面表示與知識層面表示相融合，并使用注意力模塊動態(tài)聚合用戶歷史記錄;文獻［30]提出RippleNet算法，RippleNet模擬水面漣漪傳播的過程，在知識庫中根據(jù)實體間關系自動迭代擴展用戶的潛在興趣.根據(jù)用戶行為歷史，可刺激用戶偏好在多組實體上傳播，形成用戶偏好分布，預測用戶對候選項目的點擊概率;文獻［35]提出基于知識圖譜的推薦算法的通用向量化模型.在知識圖譜上使用神經(jīng)語言模型學習用戶、項目的特征向量，針對特定屬性創(chuàng)建用戶-項目關聯(lián)關系，然后利用機器學習函數(shù)生產(chǎn)Top-N推薦序列;文獻［36]提出知識增強的序列推薦算法，該算法將知識圖譜整合到一個RNN網(wǎng)絡與Key-Value存儲網(wǎng)絡相結合的模型，來增強其語義表達，知識增強的KV-MNs能夠捕獲屬性級別的用戶偏好序列，并具有高可解釋性;文獻［37]將知識圖譜視為一個異質(zhì)信息網(wǎng)絡，構造用戶和項目的基于meta-path或者meta-graph的向量表示，挖掘項目之間屬性關系，靈活使用知識圖譜網(wǎng)絡結構信息提升推薦效果.

2 問題定義及模型框架

本文提出一種融合語義分析特征提取的推薦算法，擬根據(jù)用戶在網(wǎng)絡中的歷史行為及項目的評論信息，結合知識圖譜對項目和用戶進行細粒度特征分析，向用戶推薦更符合其偏好的項目.

融合語義分析特征提取的推薦算法整體框架如圖2所示，該模型主要包括基于知識圖譜的項目表示、協(xié)同學習、推薦列表生成3個部分.基于知識圖譜的項目表示模塊以項目的評論信息及知識圖譜為輸入，提取項目相關實體組建知識子圖，學習知識子圖中實體低維向量表示并以此對項目進行低維表征；協(xié)同學習模塊以項目的向量表示結果及用戶的歷史行為為輸入，通過知識感知的協(xié)同學習框架，結合知識圖譜向量表示及用戶的偏好函數(shù)協(xié)同學習項目、用戶的低維表征；推薦列表生成模塊根據(jù)學習得到的用戶、項目低維向量表示，對目標用戶進行Top-N推薦.

Fig.2 Framework of the feature extraction based recommender algorithm fusing semantic analysis圖2 融合語義分析特征提取推薦算法框架

3 基于語義分析的特征提取及推薦

3.1 相關實體提取

目前，多數(shù)視頻網(wǎng)站為用戶提供了評論通道以促進用戶間交流，這些以文本形式存在的評論信息中包含了大量與視頻特征相關的信息，也包含用戶對該視頻的態(tài)度及個人偏好.對于評論文本，實體是其承載特征信息的基本語言單位，識別評論信息中的實體及其間的相互關系，是理解評論信息的基礎，也為分析視頻特征及用戶偏好提供新的途徑.

命名實體識別(named entity recognition, NER)技術可以將非結構化文本轉(zhuǎn)化為以命名實體為中心的結構化語義表示，實體鏈接(entity linking， EL)技術可以將識別的實體與知識庫中相應的實體相連接.融合語義分析特征提取的推薦算法使用NER和EL技術，結合知識圖譜在項目評論信息中提取項目相關實體及實體間的鏈接信息.對于一段非結構化評論文本T，T中包含多個命名實體，命名實體集合為A={a1,a2,…,an}，對于A中任意實體a，在知識圖譜命名實體庫E中遍歷實體名稱，得到a的候選實體集合ε(a)={ea,1,ea,2,…,ea,k}，通過實體消歧技術將a鏈接到知識庫中相應的實體ea上［38].由于Wikipedia中包含大量表示特征的實體，因此本文在處理英文文本信息時選用Wikipedia作為基礎知識庫，選擇百度百科作為分析中文文本信息的知識庫.

圖3為豆瓣網(wǎng)站上某用戶對電影《阿凡達》的評論信息.該評論信息中包含：與電影相關的實體，如卡梅隆、佩戴等；與電影拍攝技術相關的實體，如3D、虛擬攝像、表情抓取、聯(lián)合數(shù)字立體攝影機等；與電影細粒度特征相關的實體，如探險、挑戰(zhàn)、愛情、好萊塢個人英雄主義、傳奇劇式等；與電影相關聯(lián)的其他實體，如泰坦尼克、塞爾達傳說、游戲等.

(3)

(4)

其中,fk為特征函數(shù)，wk為特征函數(shù)的權重，Z(x)為歸一化因子.

3.2 特征實體表示學習

εk={t|(h,r,t)∈Gandh∈εk-1},

(5)

其中，k=1,2,…,H，H為最大階數(shù).

在提取實體的過程中，實際提取實體數(shù)目受評論數(shù)量制約，Ru中實體數(shù)目變動較大，本文采用擴展相關實體的方式緩解因提取相關實體少而引起的數(shù)據(jù)稀疏、特征單一的問題.為了豐富用戶u的特征實體集合，本文將通過上述方法得到的實體集合Ru視為知識圖譜中種子實體，通過鏈接關系將其擴展為n階相關實體集合.根據(jù)擴展后的實體集合，構建項目特征相關子知識庫，并采用知識圖譜表示學習模型TransR學習上述項目特征相關知識子圖的低維向量表示.圖4是對圖3中影評信息的實體提取、建立子圖及子圖表征的過程.

對于項目i，其相關實體集合ri中的實體以不同程度體現(xiàn)項目i的特征.就圖3影片評論信息而言，實體3D、卡梅隆、虛擬技術較好萊塢、泰坦尼克更能代表影片《阿凡達》的特征.因此，在知識圖譜向量表征的基礎上，本文為不同實體賦予不同的權重，通過權重函數(shù)表示項目與其相關實體間的關系，由此得到項目、用戶基于權重函數(shù)的低維向量表征.項目i基于權重函數(shù)可表示為vi.

Fig.4 The process of relevant entities linking, sub-graph construction and embedding of a review圖4 影評信息實體提取、子圖建立及表征過程

(6)

因此，用戶u的某個瀏覽歷史項目i可表示為

(7)

(8)

3.3 協(xié)同學習及排序預測

為了將知識圖譜的表示學習過程整合到協(xié)同過濾推薦過程中，本文設計了一種知識感知的協(xié)同學習(knowledge-aware collaborative learning, KACL)框架，該框架通過定義用戶偏好函數(shù)，構造知識圖譜實體-關系四元組，協(xié)同學習實體、項目及用戶的低維向量表征.并以此為目標用戶推薦符合其偏好的項目.

推薦平臺中，隱式反饋信息(如瀏覽、收藏、購買等)通常是對每個用戶的操作數(shù)據(jù)進行收集，能夠緩解顯示反饋的數(shù)據(jù)稀疏性問題.本文在推薦學習過程中，借鑒BPR(Bayesian personalizes ranking)模型［40]中用戶喜好商品偏序?qū)Φ乃枷?，定義用戶-項目對偏好函數(shù)并用于學習過程.對于m個用戶及n個項目，用戶-項目隱式反饋矩陣為Rm×n，當Ru,i=1時，表示用戶u與項目i之間存在可觀察到的交互，如點擊、瀏覽、收藏等.當Ru,i=0時，表示用戶u與項目i之間不存在可觀察到的交互，據(jù)此定義用戶-項目對偏好函數(shù).

定義2.用戶-項目對偏好函數(shù).設用戶集合為U，u∈U；項目集合I，i∈I,i′∈I，用戶u對項目i的偏好為Ru,i，Ru,i=1表示用戶u對項目i有過交互，否則Ru,i=0.對于用戶-項目三元組(u,i,i′)∈D，集合D表示用戶-項目三元組集合，如果Ru,i=1，且Ru,i′=0，表示用戶u對項目i的偏好程度大于該用戶對項目i′的偏好［40].定義用戶-項目對偏好函數(shù)p(u,i,i′)(p(u,i,i′)>0)表示用戶對項目對(i,i′)的偏好：

(9)

其中，uu和vi分別代表用戶u和項目i的向量表征，δ代表sigmoid函數(shù).KACL中協(xié)同推薦學習過程認為用戶對隱式反饋商品的偏好大于沒有反饋的商品.

KACL框架中知識圖譜表示學習過程，通過構造與知識圖譜中三元組相關的實體-關系四元組，以優(yōu)化知識圖譜實體、關系表征為目標，采用sigmoid函數(shù)計算知識圖譜中三元組對的得分，訓練知識圖譜表征學習模型.具體過程為：

對于知識圖譜G中任意三元組(h,r,t),構建相關實體-關系四元組集合St,t′=(h,r,t,t′)；四元組中實體h,t,t′及關系r滿足(h,r,t)∈G∩(h,r,t′)?G，即(h,r,t)是知識圖譜中真實存在的實體，(h,r,t′)不是知識圖譜中存在的實體.集合S表示實體-關系四元組集合，St,t′∈S.在知識圖譜表示學習過程中，認為真實存在三元組得分大于不存在三元組的得分.因此，協(xié)同學習過程中知識圖譜表征過程的監(jiān)督函數(shù)可定義為

yh,r,t,t′=lnδ(fr(h,t)-fr(h,t′)).

(10)

為了得到各參數(shù)的最優(yōu)解，本文采用Adam優(yōu)化器迭代優(yōu)化損失函數(shù)，KACL模型損失函數(shù)：

(11)

為避免學習過程中出現(xiàn)過度擬合現(xiàn)象，在損失函數(shù)式(11)中加入正則化項z，其中λ為正則化參數(shù).

(12)

知識感知的協(xié)同學習過程如算法1所示：

算法 1.KACL算法.

輸入：用戶集合U={u1,u2,…,un}、項目集合I={i1,i2,…,im}、用戶-項目隱式反饋矩陣Rm×n、知識圖譜G;

輸出：用戶、項目向量表示矩陣P,Q.

① 隨機初始化W,P,Q；

② 構建用戶-項目對三元組集合D；

③ for (uu,vi,vi′)∈Ddo

④ 構建實體關系四元組Si,i′；

⑤ for (h,r,t,t′)∈Si,i′do

⑥ 根據(jù)式(6)～(8)對項目、用戶進行向量化表示：vi，vi′，ui；

⑦ 根據(jù)式(11)計算損失函數(shù)

⑧ Maximizeχu,i,i′+yh,r,t,t′+z；

⑨ end for

⑩ end for

算法1中，通過步驟②④構建用戶-項目三元組集合D，實體關系四元組Si,i′，由此對項目、用戶進行表征，并根據(jù)表征結果最大化損失函數(shù)值，最終輸出用戶、項目的低維表征矩陣.算法2根據(jù)表征結果對目標用戶和項目進行相似度預測，并將相似度結果進行排序，將Top-N的項目作為推薦結果輸出.

算法2.Top-N推薦.

輸入：用戶、項目向量表示矩陣P,Q,推薦個數(shù)N；

輸出：Top-N推薦列表.

對于任意用戶u及項目i

① forum∈Udo

② forvi∈Ido

③Smi=pumqvi；

④RankList=Sorthigh→low(Smi)；

⑤ end for

⑥ 輸出Top-N推薦列表；

⑦ end for

4 實驗與結果分析

為了證明融合語義分析特征提取的推薦算法的有效性，本文在真實數(shù)據(jù)集上進行驗證實驗，并將其結果與其他流行算法進行對比分析.

4.1 實驗數(shù)據(jù)集及評價指標

1) 數(shù)據(jù)集

本文選用2個真實數(shù)據(jù)集：豆瓣網(wǎng)(Douban)爬取數(shù)據(jù)集和亞馬遜提供的Movie Review數(shù)據(jù)集來驗證實驗性能.豆瓣數(shù)據(jù)集包含124 153個用戶對電影的409 841個打分、410 254條評論信息.Amazon Movie Review數(shù)據(jù)集包含12 512個用戶對210 756個項目481 457個打分.為了更好地對算法性能進行評估，實驗前對數(shù)據(jù)集中評論數(shù)少于20的項目進行篩減，然后在篩選后的數(shù)據(jù)集上進行實驗.實驗中，我們將數(shù)據(jù)集隨機劃分為訓練集、驗證集、測試集3部分，3個集合的數(shù)據(jù)比例為7∶1.5∶1.5.

2) 評價指標

本文在實驗中驗證了新模型在Top-N推薦中的效果，選用Precision@k,Recall@k評估Top-N推薦結果，并使用AUC(area under the ROC)對算法進行綜合評估.準確率反映了系統(tǒng)推薦的項目中用戶感興趣項目的比重，召回率反映出被推薦項目是用戶真正感興趣項目的比重.

(13)

(14)

其中，U為用戶集合，top_k(u)表示通過算法獲取的前k個項目列表；T(u)表示測試集中用戶u歷史選擇項目集合；top_k(u)∩T(u)表示k個推薦項目列表與測試集列表的交集，即正確推薦項目集合.為了綜合評價改進算法的性能，我們在實驗過程中將用戶對項目的打分轉(zhuǎn)換為用戶對項目的反饋數(shù)據(jù)，從二分類問題角度出發(fā)，以AUC為評價指標綜合評價改進算法的推薦結果.以上3評價指標的值越大，推薦效果越優(yōu)［41].

4.2 實驗設置

為了證明本文提出算法的優(yōu)越性，我們將新算法與3個經(jīng)典推薦算法進行對比.

1) Wide&Deep［17].Wide&Deep是Google 提出的用于手機APP推薦的學習模型，該模型聯(lián)合訓練一般的線性模型(wild)和多層感知機模型(deep)，使新模型同時具有記憶能力和泛化能力，是基于深度學習的協(xié)同算法的代表.

2) CKE［33](collaborative knowledge base emb-edding).CKE模型在推薦算法中融合結構知識、文本知識、圖片知識提取項目語義特征用于排序推薦，其中結構知識通過知識圖譜中三元組獲取.CKE是基于知識圖譜的推薦算法的代表，為了保持算法的公平，對比實驗中我們僅在CKE中融合結構知識.

3) NFM［42](neural factorization machine).NFM算法將矩陣分解(factorization machines, FM)模型與神經(jīng)網(wǎng)絡相結合，用于提取項目二階線性特征及高階非線性特征.

本文為實驗搭建Wikipedia、百度百科知識圖譜，采用Python為開發(fā)語言，所有實驗在Python 3.7.2，tensorflow1.13.0環(huán)境下完成.對于數(shù)據(jù)集中的每個項目，我們分別在知識圖譜中提取其屬性實體，并將實體集合擴展到3階相關實體集合.學習過程中，隨機將數(shù)據(jù)集以7∶1.5∶1.5的比例劃分為訓練集、驗證集、數(shù)據(jù)集3部分，進行5次實驗取其平均值作為實驗結果.KACL模型在訓練過程中選用adam優(yōu)化器進行參數(shù)優(yōu)化，其初始學習率設置為0.001，迭代次數(shù)設置為10，數(shù)據(jù)集用戶、項目的向量表示維度為100，并選用BatchNorm實現(xiàn)深度神經(jīng)網(wǎng)絡更快更穩(wěn)定的訓練.對比算法中向量也設置了相同的維度.

4.3 實驗結果及分析

1) KACL穩(wěn)定性測試

在KACL算法中，推薦個數(shù)k的設置直接影響推薦結果.為了證明模型的穩(wěn)定性，我們設置k分別取值為5,10,15,20,25,30,35,40，在不同推薦個數(shù)條件下比較推薦準確性.實驗結果如圖5所示，從圖5可以看出，在2數(shù)據(jù)集上，隨著k值的增大，算法推薦結果Precision@k的值先降低，隨后趨于穩(wěn)定.KACL模型在不同k值條件下，推薦結果均優(yōu)于對比算法，這說明KACL推薦效果不受推薦個數(shù)的影響，具有穩(wěn)定性.

Fig.5 The comparison of accuracy with different k圖5 不同k值時推薦結果準確率比較

2) 不同推薦算法比較

在同樣的實驗環(huán)境下，我們將本文提出的融合語義分析特征提取的推薦算法與選取的基于深度學習的推薦算法(Wide&Deep)、基于知識圖譜的推薦算法(CKE)及基于矩陣分解的推薦算法(NFM)進行實驗比較.各算法在Douban數(shù)據(jù)集上推薦結果Precision@k,Recall@k的值如表1所示.圖6顯示了精確率和召回率隨著推薦個數(shù)k的變化情況.

從圖6可以看出，KACL在不同k值條件下，其推薦準確率、召回率均高于對比算法.基于融合語義分析特征提取的推薦算法的Precision@k值隨著推薦個數(shù)值的增加逐漸降低，當k=20時趨于穩(wěn)定.當k<20時，KACL算法推薦結果的準確率較對比算法有明顯優(yōu)勢.算法推薦結果的Recall@k值隨著推薦個數(shù)的增加而增加，這是由于當推薦個數(shù)增大時，算法推薦結果會覆蓋更多用戶的偏好項目.當k≥30時，KACL算法推薦結果召回率較對比算法有明顯的提升.當k=20時，整體推薦效果最佳，KACL較基于知識圖譜的CKE算法準確率提升了32.62%，召回率提升了6.0%，由此說明KACL算法較傳統(tǒng)基于知識圖譜的方法能夠更好的利用異構資源分析項目語義特征，向目標用戶推薦更符合其興趣愛好的項目.此外，KACL算法較基于深度學習的Wide&Deep算法準確率提升了27.78%，召回率提升了6.27%，較基于矩陣分解的算法準確率提升了11.20%，召回率提升了6.10%.

Table 1 The Evaluation Results of Different Methods with Different k on Douban表1 各算法不同k值時在Douban數(shù)據(jù)集上的推薦性能

Fig.6 The comparison results of different methods on Douban圖6 在Douban數(shù)據(jù)集上不同算法性能比較

各算法在Amazon Movie Review數(shù)據(jù)集上的預測結果如表2、圖7所示.從圖7可以看出，在不同推薦個數(shù)下，KACL推薦結果的Precision@k,Recall@k值均高于對比算法.與豆瓣數(shù)據(jù)集相比，Amazon Movie Review數(shù)據(jù)量較少，項目評論信息偏少.盡管如此，KACL算法的推薦效果較其他推薦算法仍然具有優(yōu)勢.以上對各算法推薦性能的分析可以說明，本文提出的融合語義分析特征提取的推薦算法能夠為用戶推薦更符合其偏好的項目.

為了綜合評價KACL算法與對比算法，我們將用戶對項目的打分信息轉(zhuǎn)化為用戶對項目的反饋信息進行二分類測試，得到各算法推薦結果的AUC值.表3列出了各算法推薦結果AUC值以及KACL算法較對比算法AUC值提升程度.從表3可以看出，KACL算法的AUC結果高于所以對比算法.與基于知識圖譜的CKE算法的AUC結果相比，KACL在2個數(shù)據(jù)集上的推薦結果分別提升了10.11%和8.56%.說明了本文提出的KACL算法在項目的細粒度特征提取方面更具敏感性，能夠更準確的分析項目特征、用戶偏好，從而做出更準確的推薦.

Table 2 The Evaluation Result of Different Methods with Different k on Amazon Movie Review表2 各算法不同k值時在Amazon Movie Review數(shù)據(jù)集上的推薦性能

Fig.7 The comparison results of different methods on Amazon Movie Review圖7 在Amazon Movie Review數(shù)據(jù)集上不同算法推薦性能比較

Table 3 The AUC Results of Different Methods and the Comparison Between them on 2 Datasets
表3 2個數(shù)據(jù)集上不同算法推薦結果的AUC值及其比較

DatasetsWide&DeepCKENFMKACLImprovement Rate of KACL∕%Wide&DeepCKENFMDouban0.75210.72390.78590.80537.0711.242.47Amazon Movie Review0.66790.63560.68230.65104.079.361.88

3) 算法時間復雜度比較

綜合以上實驗結果，本文提出的基于知識圖譜的推薦算法在推薦效果及算法效率方面均優(yōu)于具有代表性的對比算法，能夠在不丟失大量理想項目的情況下將符合用戶需求的項目推薦給用戶.

5 結論

基于標簽等語言分析推薦算法在分析用戶、項目細粒度特征等方面存在一定的局限性.推薦平臺上項目描述信息、評論信息中包含大量項目特征信息以及用戶偏好信息，對評論信息進行有效分析是項目細粒度特征提取、提升推薦效果的有效途徑.

為了更準確地分析用戶、項目特征，本文在項目評論等文本信息的基礎上，結合知識圖譜，對文本信息進行語義分析，提出一種基于語義分析特征提取的推薦算法.新算法通過知識圖譜實體識別鏈接技術，根據(jù)文本信息內(nèi)容在知識庫中提取項目屬性特征實體及與其相關聯(lián)的實體，以此分析用戶、項目的細粒度特征，并根據(jù)用戶、項目基于特征的向量表示，完成對目標用戶的推薦.在2個數(shù)據(jù)集上的實驗證明了本文提出算法的有效性.在今后的工作中，我們將在語義分析的基礎上，結合評分矩陣進一步對細粒度特征分析，并考慮融合社交網(wǎng)絡等外部信息解決推薦算法中冷啟動等問題.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放