徐兵
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)
隨著互聯(lián)網(wǎng)信息爆炸式增長(zhǎng),信息總量呈現(xiàn)指數(shù)級(jí)的增長(zhǎng),人們難以從海量的信息中獲取到有用信息,造成了人們面臨信息抉擇時(shí)困難的情況,稱為信息過載。為了有效地為用戶過濾信息,提出了推薦系統(tǒng),推薦系統(tǒng)經(jīng)過20 年的發(fā)展,如今正稱為研究的熱點(diǎn)。其目標(biāo)是根據(jù)用戶的歷史行為數(shù)據(jù)來預(yù)測(cè)用戶對(duì)項(xiàng)目的偏好,從而為用戶推薦合適的物品。與搜索引擎不同的是,推薦系統(tǒng)為用戶呈現(xiàn)的信息是具有用戶個(gè)性化的信息,可達(dá)到千人千面的效果,而搜索引擎呈現(xiàn)的信息是根據(jù)關(guān)鍵字匹配,是一種大眾化的信息。目前推薦系統(tǒng)在購(gòu)物、影音、圖書、旅游、社交關(guān)系等方面為用戶帶來了極大方便,減少了用戶決策時(shí)間,提升了用戶個(gè)性化需求的滿意度。其學(xué)術(shù)價(jià)值和工業(yè)價(jià)值受到了廣泛的關(guān)注,例如亞馬遜(Amazon)購(gòu)物網(wǎng)站35%的銷售額來自其推薦系統(tǒng);視頻網(wǎng)站網(wǎng)飛(Netflix),75%的內(nèi)容來源于推薦系統(tǒng)的推薦。
然而,對(duì)于傳統(tǒng)推薦系統(tǒng),數(shù)據(jù)稀疏性一直是制約推薦系統(tǒng)性能進(jìn)一步提升的瓶頸。數(shù)據(jù)稀疏性是指用戶數(shù)量和物品數(shù)量都是海量的,據(jù)淘寶網(wǎng)數(shù)據(jù)顯示,淘寶網(wǎng)擁有近5 億的注冊(cè)用戶,每年有超過6000 萬(wàn)的固定訪客,每天的在線商品數(shù)超過8 億件。對(duì)于協(xié)同過濾算法,因產(chǎn)生購(gòu)買記錄的用戶和物品數(shù)量?jī)H僅占總量的一小部分,其用戶-項(xiàng)目矩陣將及其稀疏,在計(jì)算用戶與物品間的相似度時(shí),將使推薦結(jié)果不準(zhǔn)確。為了解決稀疏性問題,研究界一是通過聚類,對(duì)原始數(shù)據(jù)進(jìn)行將維;二是引入文本評(píng)論信息,上下文信息等輔助信息,增加數(shù)據(jù)源的多樣性,提升推薦效果;三是引入深度學(xué)習(xí)來加強(qiáng)提取用戶-項(xiàng)目交互的隱含特征,從而緩解數(shù)據(jù)稀疏。但是因?yàn)樯疃葘W(xué)習(xí)通常被視為一個(gè)“黑盒子”,對(duì)于推薦結(jié)果缺乏可解釋性,如何讓用戶信任推薦系統(tǒng)缺少說服力,為此,如何在緩解數(shù)據(jù)稀疏性的同時(shí),為推薦結(jié)果提供一定的可解釋性的問題被提出。
近年來,知識(shí)圖譜在搜索引擎和自然語(yǔ)言處理的研究引起了學(xué)者們的關(guān)注。知識(shí)圖譜是一個(gè)蘊(yùn)含豐富語(yǔ)音信息的異構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)圖。其含有的多源信息為推薦系統(tǒng)提供了特有的輔助信息,從而緩解數(shù)據(jù)稀疏性,其語(yǔ)義路徑為推薦結(jié)果提供邏輯推理支持。本文對(duì)近期關(guān)于知識(shí)圖譜應(yīng)用于推薦系統(tǒng)的文獻(xiàn)進(jìn)行分類和綜述。
推薦系統(tǒng)的算法可以分為基于內(nèi)容的推薦算法、基于協(xié)同過濾的推薦算法和混合推薦算法[17]。圖1 描述了這些方法的分類?;趦?nèi)容的推薦,根據(jù)項(xiàng)目或內(nèi)容的元數(shù)據(jù),發(fā)現(xiàn)項(xiàng)目或內(nèi)容的相關(guān)性,然后基于用戶的歷史行為(如基于顯示反饋的評(píng)分、點(diǎn)贊等和基于隱式反饋的搜索、點(diǎn)擊、購(gòu)買等),獲得用戶的興趣偏好,從而推薦給用戶與其以前購(gòu)買項(xiàng)目相似的項(xiàng)目。協(xié)同過濾算法,已廣泛被各類研究機(jī)構(gòu)和行業(yè)研究,并在實(shí)踐中得到了應(yīng)用。許多網(wǎng)絡(luò)購(gòu)物平臺(tái)(淘寶,京東等)的推薦系統(tǒng)都是基于協(xié)同過濾算法進(jìn)行構(gòu)建。其算法原理是根據(jù)用戶-項(xiàng)目的交互歷史矩陣,來預(yù)測(cè)用戶對(duì)候選項(xiàng)目的偏好?;旌贤扑]算法,指結(jié)合基于內(nèi)容的推薦算法和協(xié)同過濾算法的推薦算法,用以避免任何一種方法的局限性。
知識(shí)圖譜(Knowledge Graph)是2012 年由谷歌公司為提升搜索引擎性能而提出,其通常由多個(gè)三元組(頭實(shí)體、關(guān)系、尾實(shí)體)構(gòu)成的異構(gòu)圖,圖的節(jié)點(diǎn)表示實(shí)體,節(jié)點(diǎn)之間的邊表示關(guān)系。圖譜中的實(shí)體間對(duì)應(yīng)于多個(gè)關(guān)系,一個(gè)關(guān)系可認(rèn)為客觀世界的一個(gè)事實(shí)。將知識(shí)圖譜引入推薦系統(tǒng),一是通過將推薦系統(tǒng)的對(duì)象(用戶或物品)與知識(shí)圖譜中的實(shí)體相互映射,可增強(qiáng)項(xiàng)目與項(xiàng)目之間的聯(lián)系,更加準(zhǔn)確的捕獲用戶與物品之間的關(guān)系,從而緩解數(shù)據(jù)稀疏性。二是根據(jù)知識(shí)圖譜的邏輯推理,將用戶的歷史記錄與推薦的結(jié)果連接起來,為推薦結(jié)果提供可解釋性。如圖1 所示,一個(gè)知識(shí)圖譜的子集包括與三個(gè)人、四部電影及其相對(duì)應(yīng)的關(guān)系實(shí)體。實(shí)體之間的聯(lián)系代表了他們之間的關(guān)系,實(shí)體關(guān)系異質(zhì)性提供了從不同角度測(cè)量實(shí)體相似性的可能。例如《瘋狂的外星人》的主演是黃渤,通過圖譜可觀察到黃渤也是《無人區(qū)》和《被光抓走的人》的主演,如此,一個(gè)用戶是黃渤的粉絲,則這用戶會(huì)喜歡《無人區(qū)》或《被光抓走的人》。并且根據(jù)關(guān)系權(quán)重加權(quán)會(huì)發(fā)現(xiàn),此用戶可能會(huì)更喜歡《無人區(qū)》。
三是通過實(shí)體之間的多種關(guān)系,有助于合理擴(kuò)展用戶興趣,并為用戶呈現(xiàn)多樣性的推薦。
本次綜述將根據(jù)知識(shí)圖譜作為推薦系統(tǒng)的輔助信息來解決推薦系統(tǒng)兩個(gè)方面問題:數(shù)據(jù)稀疏性和可解釋性。
準(zhǔn)確性作為推薦系統(tǒng)首要問題,關(guān)系到用戶對(duì)系統(tǒng)的粘度,對(duì)提升整體經(jīng)濟(jì)價(jià)值至關(guān)重要。據(jù)研究,目前推薦系統(tǒng)的準(zhǔn)確性在72%左右,推薦系統(tǒng)的準(zhǔn)確度還有進(jìn)一步提升空間,除了根據(jù)用戶畫像、物品屬性,和上下文信息外等輔助信息融入推薦系統(tǒng)外,知識(shí)圖譜作為更具語(yǔ)義信息的輔助信息,將其融入推薦系統(tǒng)能更好地緩解數(shù)據(jù)稀疏性,提升準(zhǔn)確度。
圖1 知識(shí)圖譜示例
文獻(xiàn)[1]提出的CKE 模型,利用TransR 方法對(duì)知識(shí)圖譜的結(jié)構(gòu)信息進(jìn)行處理,得到實(shí)體的結(jié)構(gòu)化信息向量,結(jié)合獲得的文本信息向量和視圖信息向量,形成項(xiàng)目的潛在表示。文獻(xiàn)[2]提出的DKN 模型,利用TransD 方法學(xué)習(xí)知識(shí)圖譜中的實(shí)體向量,并學(xué)習(xí)實(shí)體一跳范圍的上下文實(shí)體向量,將不同空間的向量使用多通道進(jìn)行拼接,解決了新聞推薦的三大難題。文獻(xiàn)[3]提出的MKR 模型,采用多任務(wù)學(xué)習(xí)框架,將推薦系統(tǒng)與知識(shí)圖譜特征學(xué)習(xí)任務(wù)交替優(yōu)化訓(xùn)練,利用知識(shí)圖譜嵌入?yún)f(xié)助推薦任務(wù),使推薦更具靈活性和適應(yīng)性,文獻(xiàn)[4]提出的RKGE 模型,使用循環(huán)網(wǎng)絡(luò)對(duì)實(shí)體間的所有路徑的語(yǔ)義進(jìn)行自動(dòng)建模,同時(shí)通過池化學(xué)習(xí)個(gè)實(shí)體間路徑的重要性,并將其融合到推薦中,從而發(fā)現(xiàn)用戶對(duì)物品的偏好;文獻(xiàn)[5]提出的KGAT 的模型,通過考慮用戶與物品之間的不同關(guān)系,對(duì)用戶與物品的多跳關(guān)系建模,從而處理用戶的偏好問題。文獻(xiàn)[6]提出的KGCN 模型,是一種端到端的卷積網(wǎng)絡(luò),將物品作為知識(shí)圖譜領(lǐng)域的中心,從而融合領(lǐng)域信息,減輕數(shù)據(jù)稀疏性的影響。
因目前推薦系統(tǒng)普遍具有“黑盒化”,即不知道推薦系統(tǒng)如何捕捉用戶的興趣,用戶也不明白系統(tǒng)推薦的物品的意義,為了使推薦能具有個(gè)性化外的人性化,可解釋推薦逐漸成為研究熱點(diǎn)。可解釋推薦不僅能提升用戶信任度和接受度,還能給用戶提供一個(gè)優(yōu)先選擇物品的機(jī)會(huì)來提升用戶滿意度。因?yàn)閳D譜的語(yǔ)義路徑具有邏輯推理,研究學(xué)者,通過將知識(shí)圖譜融入推薦,將用戶與候選物品的路徑,作為給用戶推薦的物品的解釋,來增強(qiáng)推薦系統(tǒng)的滿意度和信任度。
文獻(xiàn)[7]提出的KPRN 模型,通過對(duì)實(shí)體的順序依賴性和連接用戶-項(xiàng)對(duì)的路徑的復(fù)雜關(guān)系建模,并能通過路徑推理用戶偏好,為推薦提供解釋性。文獻(xiàn)[8]提出的KTUP 模型,根據(jù)用戶偏好某項(xiàng)目的原因建模,通過將推薦任務(wù)與知識(shí)補(bǔ)全相結(jié)合,來提升推薦結(jié)果的準(zhǔn)確性和可解釋性。文獻(xiàn)[9]提出的RippleNet 模型,將知識(shí)圖譜嵌入通過偏好傳播的方式融入推薦中,并自動(dòng)發(fā)現(xiàn)用戶交互歷史與候選物品間的連接路徑,通過路徑為結(jié)果提供解釋。文獻(xiàn)[10]提出的EIUM 算法,稱為可解釋性交互驅(qū)動(dòng)用戶算法,其根據(jù)用戶的歷史行為序列來預(yù)測(cè)用戶可能偏愛的物品,從而提供一種順序推薦的可解釋性。文獻(xiàn)[11]提出的一種基于規(guī)則推薦的聯(lián)合學(xué)習(xí)框架,將規(guī)則學(xué)習(xí)的權(quán)重作為推薦結(jié)果的解釋。
本文根據(jù)基于知識(shí)圖譜在解決推薦系統(tǒng)的兩個(gè)方面進(jìn)行了綜述,即數(shù)據(jù)稀疏性和可解釋性方面。緩解數(shù)據(jù)稀疏性能進(jìn)一步提高推薦系統(tǒng)的準(zhǔn)確度,使用戶更加信任系統(tǒng)捕捉興趣的能力,為推薦結(jié)果提供一種解釋,能增強(qiáng)推薦系統(tǒng)的透明度,提升用戶的信任度。
隨著學(xué)者對(duì)知識(shí)圖譜的知識(shí)表示,知識(shí)推理的研究深入,知識(shí)圖譜在推薦系統(tǒng)的準(zhǔn)確性和解釋性上會(huì)得到進(jìn)一步提升,將知識(shí)圖譜和推薦系統(tǒng)結(jié)合也會(huì)更加受到關(guān)注。