安麗達(dá) 王娟
摘要:隨著互聯(lián)網(wǎng)的發(fā)展,人們獲取信息的方式發(fā)生了巨大變化,但也伴隨著信息量過載的問題。推薦系統(tǒng)幫助用戶在海量信息中獲取自身所需的數(shù)據(jù),而新聞?lì)I(lǐng)域的獨(dú)特性成為推薦系統(tǒng)發(fā)展的一個(gè)重要方向。本文重點(diǎn)介紹了傳統(tǒng)的推薦算法包括基于內(nèi)容的推薦、基于協(xié)同推薦和混合推薦的主要內(nèi)容和在新聞?lì)I(lǐng)域中的研究現(xiàn)狀,然后對比不同推薦算法在新聞?lì)I(lǐng)域應(yīng)用的優(yōu)缺點(diǎn),并簡要介紹基于人工智能的推薦系統(tǒng)。
關(guān)鍵字:新聞推薦;基于內(nèi)容推薦;基于協(xié)同推薦;混合推薦
引言
隨著互聯(lián)網(wǎng)技術(shù)的迭代更新,傳統(tǒng)的紙媒、電視獲取新聞逐步變成了通過網(wǎng)站在線閱讀新聞,同時(shí)也伴隨著另一個(gè)問題的出現(xiàn)——信息過載,解決該問題的一種方法就是推薦系統(tǒng)。一個(gè)好的新聞推薦系統(tǒng)除了能為用戶推薦喜歡的新聞,與用戶建立密切的關(guān)系,讓用戶對系統(tǒng)推薦產(chǎn)生依賴性,還能為新聞網(wǎng)站帶來更多的流量和可觀的經(jīng)濟(jì)效益。與電影推薦等其他領(lǐng)域的推薦系統(tǒng)相比,新聞推薦具有時(shí)效性高、項(xiàng)目相關(guān)性變化快等獨(dú)特性。本文分別介紹基于內(nèi)容推薦、基于協(xié)同推薦和混合推薦的主要研究內(nèi)容和方法,以及三者在新聞?lì)I(lǐng)域中的研究現(xiàn)狀,分析和對比三者之間的差異。
1. 傳統(tǒng)的推薦算法
1.1 基于內(nèi)容的推薦算法
基于內(nèi)容的推薦算法是以用戶產(chǎn)生過閱讀行為的項(xiàng)目為中心,通過提取項(xiàng)目的特征值來搜尋其他相似的項(xiàng)目,然后生成一個(gè)推薦列表并推送給用戶。對于新聞文章不受限制的自由文本數(shù)據(jù)而言,最基礎(chǔ)的提取項(xiàng)目特征的做法是將文章看作詞的集合,將用戶看作瀏覽歷史的文本所包含詞的結(jié)合,根據(jù)兩者的相關(guān)性進(jìn)行匹配再推薦,在獲取新聞的特征向量時(shí)可以采用將推薦內(nèi)容轉(zhuǎn)換成若干關(guān)鍵詞的形式[1]。
YourNews個(gè)性化新聞訪問系統(tǒng),為不同主題分別維護(hù)單獨(dú)的興趣記錄,用戶對這些主題的興趣信息可以從用戶的新聞瀏覽歷史記錄中抽取的加權(quán)詞向量表示,系統(tǒng)在收集用戶過去瀏覽的N篇文章中,抽取權(quán)重最高的100個(gè)詞來生成用戶最終的原型向量[2]。許多個(gè)性化推薦系統(tǒng)使用文本數(shù)據(jù)中單詞的詞根形式將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),而其對應(yīng)的值使用TF-IDF權(quán)重值(詞頻-逆文件頻率),詞的TF-IDF權(quán)重值越大代表詞在文章中的重要性越高,值較大的幾個(gè)詞,就是文章的關(guān)鍵詞。文獻(xiàn)[3]使用TF-IDF方法為新聞標(biāo)題中的每個(gè)單詞賦予權(quán)重,并使用余弦相似性計(jì)算文章之間的相似性來推薦新聞,并驗(yàn)證其推薦結(jié)果與在線新聞門戶網(wǎng)站Microsoft News上的讀者新聞歷史使用命中率為80.77%。
1.2 協(xié)同過濾推薦算法
協(xié)同過濾推薦算法的基本思想是根據(jù)用戶歷史行為和興趣偏好,發(fā)現(xiàn)和分析用戶之間的相似性,進(jìn)而推薦給用戶與他們興趣相似的項(xiàng)目。該算法分為基于用戶、基于項(xiàng)目的協(xié)同過濾算法。
1.2.1 基于用戶的協(xié)同過濾
基于用戶的協(xié)同過濾是依據(jù)用戶的行為信息,利用用戶的興趣愛好構(gòu)建用戶之間的共同特征,再利用特征,把類似用戶的偏好推薦給用戶。不同于基于內(nèi)容的推薦算法,基于協(xié)同過濾算法與領(lǐng)域無關(guān),除了用戶對項(xiàng)目的評分信息外,協(xié)同過濾不需要任何的項(xiàng)目描述信息。
GroupLens[4]是一個(gè)使用協(xié)作過濾推薦網(wǎng)絡(luò)新聞的系統(tǒng),旨在幫助人們在大量可用文章中找到他們喜歡的文章,系統(tǒng)使用評級服務(wù)器(better bit bureaus)收集和傳播對個(gè)人用戶和文章的評級和預(yù)測的結(jié)果。使用線性模型將MinHash聚類算法、潛在概率索引算法(PLSI)和協(xié)同訪問計(jì)數(shù)結(jié)合起來形成推薦結(jié)果,該方法與內(nèi)容無關(guān),因此易于適應(yīng)其他應(yīng)用和語言[5]。
1.2.2 基于項(xiàng)目的協(xié)同過濾
該方法是根據(jù)用戶有過訪問行為的項(xiàng)目,尋找與其具有相似度的其他項(xiàng)目,然后計(jì)算項(xiàng)目之間的相似度,通過這些相似項(xiàng)目產(chǎn)生推薦給用戶的項(xiàng)目集。如果越來越多的用戶同時(shí)喜歡這兩個(gè)項(xiàng)目,就表示兩個(gè)項(xiàng)目之間的相似度高。對于新用戶或新聞,由于新聞數(shù)量大,用戶對大部分新聞沒有訪問,缺乏歷史訪問記錄,難以進(jìn)行個(gè)性化推薦,會造成冷啟動問題;隨著用戶和項(xiàng)目不斷地增長,基于項(xiàng)目的協(xié)同推薦算法存在數(shù)據(jù)稀疏問題,以及無法捕捉用戶興趣變化問題[6]。由于新聞種類多、數(shù)量大并且更新速度快,如果使用基于項(xiàng)目的協(xié)同推薦算法,則建立的新聞評分矩陣和新聞相關(guān)度表需要實(shí)時(shí)更新,實(shí)時(shí)刷新的相似度表會成為災(zāi)難。因此,在新聞?lì)I(lǐng)域中,需要結(jié)合其他推薦算法和技術(shù)成為混合推薦算法,以克服基于項(xiàng)目的協(xié)同過濾推薦算法的局限性[7]。
1.3 混合推薦
混合推薦就是將多種不同的推薦算法進(jìn)行組合,結(jié)合它們的優(yōu)點(diǎn)來推薦,從而使推薦效果更準(zhǔn)確。總結(jié)了七種組合方法:加權(quán)混合(weighted)、切換混合(switching)、合并混合(mixed)、特征組合混合(feature combination)、層疊組合混合(cascade)、特征增強(qiáng)混合(feature augmentation)、元級混合(meta-level)[8]。本文簡單列舉其中較流行的組合。
(1)加權(quán)混合(weighted):把多種推薦技術(shù)的結(jié)果以分?jǐn)?shù)或者投票的形式按照加權(quán)混合產(chǎn)生推薦結(jié)果,其中最簡單的是線性混合方法。加權(quán)混合的好處在于系統(tǒng)的性能與推薦過程相關(guān),這樣很容易進(jìn)行事后貢獻(xiàn)度分配并相應(yīng)地調(diào)整混合模型。
(2)切換混合(switching):允許根據(jù)不同的問題背景和實(shí)際情況,切換不同的推薦算法,選擇最適合的進(jìn)行計(jì)算。因?yàn)樾枰O(shè)置轉(zhuǎn)換標(biāo)準(zhǔn),所以該方法會增加算法的復(fù)雜度和參數(shù)化。切換混合的好處是對各種推薦技術(shù)的優(yōu)點(diǎn)和弱點(diǎn)比較敏感。
(3)特征擴(kuò)充混合(feature augmentation):使用一種方法對項(xiàng)目進(jìn)行評分或分類,然后將該信息嵌入另一個(gè)推薦技術(shù)的特征輸入。特征擴(kuò)充與特征組合都是用于提升系統(tǒng)的性能,特征組合是將來自不同來源的原始數(shù)據(jù)進(jìn)行合并,而擴(kuò)充技術(shù)是通過中介使用其他技術(shù)來增強(qiáng)數(shù)據(jù)本身,從而添加附加功能。文獻(xiàn)[9]將基于內(nèi)容過濾算法的覆蓋率和速度與協(xié)同過濾的深度相結(jié)合,應(yīng)用于在線報(bào)紙,通過計(jì)算基于內(nèi)容的過濾和協(xié)同過濾的加權(quán)平均來進(jìn)行混合,從而實(shí)現(xiàn)預(yù)測的個(gè)性化和準(zhǔn)確性。文獻(xiàn)[10]設(shè)計(jì)的Daily Learner采用基于內(nèi)容和基于協(xié)作的切換混合模型,優(yōu)先采用基于內(nèi)容的推薦算法,如果基于內(nèi)容的推薦算法不能充分地進(jìn)行推薦,則嘗試基于協(xié)同推薦算法。文獻(xiàn)[11]研究表明GroupLens研究團(tuán)隊(duì)與Usenet新聞過濾合作,使用特征擴(kuò)充混合模型實(shí)現(xiàn)了基于知識的“過濾機(jī)器人”,使用“拼寫錯(cuò)誤的數(shù)量”和“包含的消息大小”等特定的標(biāo)準(zhǔn),向評級數(shù)據(jù)庫提供評級來協(xié)作部分的系統(tǒng),用來改善電子郵件過濾的性能。
結(jié)語
基于內(nèi)容的推薦算法根據(jù)用戶過去行為記錄推薦相似的新聞,因此推薦結(jié)果往往缺乏多樣性,新聞覆蓋率不高。在新聞?lì)I(lǐng)域中,協(xié)同推薦算法使用的是系統(tǒng)記錄的用戶行為,存在冷啟動、數(shù)據(jù)稀疏和難以捕捉用戶興趣變化的問題,融入時(shí)間因素、信任因子和知識圖譜等基于協(xié)同過濾的改進(jìn)算法往往能取得較滿意的推薦效果。混合推薦是結(jié)合兩者優(yōu)點(diǎn)。隨著人工智能技術(shù)的發(fā)展,將人工智能技術(shù)融入推薦系統(tǒng)可以大幅提升系統(tǒng)的性能。深度學(xué)習(xí)可以表征與用戶和項(xiàng)目相關(guān)的海量數(shù)據(jù),從豐富的多源異構(gòu)的數(shù)據(jù)中獲得數(shù)據(jù)深層次的特征表示;知識圖譜可以快速挖掘用戶和項(xiàng)目相關(guān)的實(shí)體、關(guān)系,為推薦系統(tǒng)提供更豐富、更有效的信息,緩解傳統(tǒng)推薦的不足,提高推薦系統(tǒng)的精準(zhǔn)性和推薦結(jié)果的可解釋性;強(qiáng)化學(xué)習(xí)技術(shù)可以通過模型與用戶的交互,實(shí)時(shí)優(yōu)化推薦策略,提升推薦系統(tǒng)的準(zhǔn)確性和用戶的滿意程度。融入各種人工智能技術(shù)的新聞推薦系統(tǒng)將是研究的重要方向。本文重點(diǎn)介紹和分析了傳統(tǒng)推薦方法:基于內(nèi)容推薦、協(xié)同推薦和混合推薦,整理總結(jié)了不同推薦模型在新聞?lì)I(lǐng)域中應(yīng)用的優(yōu)缺點(diǎn),對未來新聞推薦系統(tǒng)發(fā)展進(jìn)行了展望。
參考文獻(xiàn):
[1]劉維超,楊有,余平.基于內(nèi)容的新聞推薦系統(tǒng)研究綜述[J].福建電腦,2019, 35(9):71-74.
[2]何穎,劉英華,鄒妍.基于內(nèi)容推薦的新聞推薦策略優(yōu)化和實(shí)現(xiàn)研究[J].現(xiàn)代計(jì)算機(jī),2021,(4):117-120.
[3]蒲彬.基于社交信號的個(gè)性化新聞推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京:中國科學(xué)院大學(xué),2015.
[4]白莉婷.用戶畫像構(gòu)建與社群推薦技術(shù)研究[D].西安:西安電子科技大學(xué),2021.
[5]劉金亮.基于主題模型的個(gè)性化新聞推薦系統(tǒng)的研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2013.
[6]蔣宗禮,汪瑜彬.一種個(gè)性化協(xié)同過濾混合推薦算法[J].軟件導(dǎo)刊,2016,15(3):52-56.
[7]吳彥文,齊旻,楊銳.一種基于改進(jìn)型協(xié)同過濾算法的新聞推薦系統(tǒng)[J].計(jì)算機(jī)工程與科學(xué),2017,39(6):1179-1185.
[8]Burke R.Hybrid Recommender Systems:Survey and Experiments.User Modeling and User-Adapted Interaction[J].The Journal of Personalization Research,2002,12(4):331-370.
[9]陳銘權(quán).基于主題模型的用戶興趣建模及在新聞推薦中的應(yīng)用[D].廣州:華南理工大學(xué),2015.
[10]張?zhí)m蘭.基于協(xié)同過濾的個(gè)性化新聞推薦系統(tǒng)的研究與實(shí)現(xiàn)[D].重慶:重慶大學(xué),2016.
[11]紀(jì)幼純.基于主題建模和分層隱變量模型的新聞推薦系統(tǒng)研究[D].廈門:廈門大學(xué),2017.
作者簡介:安麗達(dá),碩士,助教,研究方向:人工智能、數(shù)據(jù)分析;王娟,碩士,講師,研究方向:人工智能。