吳彥文,杜嘉薇,何華卿,冉茂良
(1.華中師范大學國家數(shù)字化學習工程技術研究中心;2.華中師范大學 物理科學與技術學院,湖北 武漢 430079)
目前的推薦系統(tǒng)可以針對用戶自身特點進行智能化感知以滿足用戶個性化需求,使用戶獲取的推薦越來越精細化[1]。例如圖書推薦系統(tǒng)融合用戶的微觀行為,為用戶推薦書籍。這種精細化的推薦很好地契合了用戶歷史偏好,但有可能造成算法偏見導致信息蠶繭,如在谷歌搜索“黑人”時會出現(xiàn)暴力新聞[2]。信息蠶繭指用戶將獲取的信息固著在像蠶繭一般的“繭房”中的現(xiàn)象。由于歷史信息原因,推薦系統(tǒng)會為用戶反復推薦已瀏覽過的相似資源。以某視頻推薦軟件為例,用戶某時觀看了大量的消極視頻,之后首頁就經常出現(xiàn)類似的消極資源,這不利于用戶心理健康。對于只想獲得即時愉悅的用戶人群,這種模式或可接受,但對需求廣泛的用戶來說,這種推薦模式無疑扼殺了用戶求知的渴望。當前推薦系統(tǒng)總是傾向于向用戶推薦最精細而非最合適的媒體資源,不能滿足用戶信息需求[3]。為保證不同用戶的信息需求,推薦技術亟需采用有效預防偏見和信息蠶繭的算法。
如何捕捉用戶的真正需求,預防信息偏見并提供恰當?shù)耐扑],借鑒相關文獻研究成果,筆者考慮引入用戶信息需求層次和情境信息來捕捉用戶的信息行為偏好。通過犧牲一定的精準度為用戶推薦更適合的資源,以打破其陷入信息蠶繭的困境,同時在一定程度上提高推薦的廣度及深度。
為用戶提供量身定制的個性化推薦資源是推薦方法的主要目標,包括挖掘目標資源以外的有效信息,如吳政偉等[4]通過新聞焦點、時間和評論情感的能力建模進行新聞輿情表示;李楓林等[5]通過情境感知方式提高推薦的敏感性;黎雪微等[6]將項目的信息量融入到傳統(tǒng)的語義關聯(lián)中,解決用戶偏好的漂移性;冉從敬等[7]通過構建個性化推薦模型擴寬資源推薦領域。但是,隨著推薦的深度和精度加強,用戶逐漸陷入信息蠶繭困境中。
為了細致地捕捉用戶需求,一些學者提出了基于情境的推薦方法。如焦念萊[8]提出一種基于情境感知和社交網絡的推薦方法預測資源的評分;Huang 等[9]提出情境和內容相結合的推薦方法,利用歷史情境推薦資源;李浩君等[10]利用情境本體與規(guī)則推理解決上下文語義信息問題。由此可見,用戶情境對其信息行為偏好有一定影響。目前推薦技術對于情境的應用比較單一,未將情境感知應用到提高資源推薦的廣度上,信息蠶繭也沒有得到有效緩解。
當前數(shù)字資源推薦算法雖然考慮了用戶的情境信息,但并沒有將情境感知應用到預防用戶信息蠶繭中[11]。實際上,情境與需求不同,用戶的行為偏好也不同。因此,本文通過構建用戶行為偏好的精準化模型,將防偏見因子與資源特征的正負相關匹配,生成topN 的資源推薦列表。
為應對當前用戶所面臨的信息蠶繭問題,本文提出融合用戶信息行為偏好的防偏見推薦方法(A-UIBR)。該方法在傳統(tǒng)方法基礎上改進了用戶—情境屬性,以此獲取防偏見因子,并結合用戶—信息需求層次屬性構建用戶信息行為偏好的精準化模型,最后將其與數(shù)字資源的特征表示通過三重態(tài)網絡匹配得到具有防偏見屬性的數(shù)字資源列表,并基于用戶信息需求層次表示所占權重進行topN 算法的排序修正,得到最終的推薦列表。本文的防偏見推薦方法總體思路如圖1 所示,主要由用戶信息行為精準化模型構建與基于用戶信息行為偏好的防偏見推薦算法兩部分構成。
Fig.1 Algorithm research idea圖1 算法研究思路
傳統(tǒng)用戶信息行為偏好模型采用分析用戶信息搜索、信息選擇、信息交互的方式來刻畫用戶信息行為偏好,如用戶的點擊、評論等行為[12]。為精準獲取其信息行為偏好,本文主要增強了用戶—情境屬性、用戶—信息需求層次偏好屬性,以改善用戶因不同情境下對資源的信息需求不同而造成的信息蠶繭問題。
2.1.1 用戶—情境屬性
用戶的情境與用戶對資源的偏好與推薦至關重要。為了在一定程度上解決信息蠶繭問題,本文將用戶的情境與用戶的偏好相結合,充分挖掘用戶、情境、資源偏好之間的關系。通過獲取的信息構建用戶—情境模型,得到防偏見因子,利用實時情境進行因子更新。本文采用推理獲取與更新的方式,在識別獲取時空場景的基礎上,結合情境定義的規(guī)則、用戶常用場景進行關聯(lián)獲取和推理,得到用戶的綜合情境,如圖2 所示。
Fig.2 Acquisition of situational information圖2 情境信息獲取
識別后的情境可以進行關聯(lián)獲取。從定義情境庫中獲取用戶一般情境信息,如年齡、職業(yè)、特長等,并通過與用戶常用情境和情境定義的關系與約束的結合進行推理得到推理情境[13]。當前情境和歷史情境通過反饋更新形成綜合的情境信息,以更好地反映用戶的真實情境。
2.1.2 用戶—信息需求層次偏好屬性
為了捕捉到用戶的不同需求,本文根據(jù)馬斯洛需求層次理論提出一個三層的用戶—信息需求層次,作為用戶行為偏好的屬性。最底層是一般性信息需求,指只對當前偏好感興趣的用戶需求;第二層是迷航性信息需求,指對滿足當前偏好及想要擴寬視野的用戶需求;第三層是探索性信息需求,指用戶希望改善個人能力及素質的信息需求。本文通過用戶歷史偏好之間的相似性來判斷用戶的信息需求層次,對于給定的i個用戶歷史偏好評分矩陣R,計算其歷史偏好之間的余弦距離相似度,如式(1)所示,值越大越相似。最后將該值作為用戶信息需求偏好的權重引入到后續(xù)推薦中。
2.2.1 融合用戶—情境屬性的防偏見數(shù)字資源列表生成算法
數(shù)字資源模態(tài)多樣,需要經過一系列的特征提取與處理。本文將用戶—情境屬性引入數(shù)字資源推薦中,將其作為防偏見因子。經配對后融入到數(shù)字資源表示中,得到資源的偏見屬性和逆偏見屬性。其中逆偏見屬性是為了防止信息沉溺,兩者統(tǒng)稱為防偏見屬性。
在對已有的數(shù)字資源進行特征提取后,采用三重態(tài)網絡將防偏見因子嵌入到數(shù)字資源的特征表示中,如圖3 所示。用戶情境信息與數(shù)字特征作為三重神經網絡輸入,分別采樣一個鏈接的正對和負對,得到含有防偏見因子的數(shù)字資源特征對[14],如式(2)所示。
Fig.3 List of anti-bias resources圖3 防偏見資源列表
按公式同理可得負樣本之間的距離。本文采用小批量的SGD 優(yōu)化方法來訓練提出的模型。對于每個正特征對隨機進行負特征對匹配,獲得K個三重態(tài)網絡樣本,對其三重態(tài)的梯度分別計算,然后利用反向傳播更新參數(shù)[15],最后輸出的防偏見資源列表為(i=1-n)。
2.2.2 融合用戶—信息需求層次的topN 推薦算法
在已知用戶情境信息和信息需求基礎上,本文提出融合用戶—信息需求層次的topN 推薦算法(A-UIBR)。采用興趣偏向系數(shù)I 來模擬用戶對資源項的興趣度[16]。根據(jù)每個資源項的K近鄰結果[17],將用戶感興趣的資源項根據(jù)多模態(tài)統(tǒng)一表示為大小為n 的k個區(qū)域,每個區(qū)域代表一個興趣偏向,用Di(i=1-k)表示。對每個區(qū)域行為計算得到用戶興趣偏向系數(shù)I,如式(5)所示。
將cos(r1,r2)進行均值計算得到i個用戶的需求權重αi,然后計算用戶u對資源項m的興趣度如下:
其中,s(u,k)表示與用戶u興趣最相似的用戶,N(m)表示對同一資源m產生行為的用戶合集,wuj表示用戶u和j的相似性。最后根據(jù)得到的興趣度s(u,m)進行列表排序。
采用爬蟲技術爬取豆瓣網站一段時間內的各種數(shù)字媒體資源數(shù)據(jù)作為數(shù)據(jù)集。由于豆瓣網包含了各種復雜的數(shù)字資源類型,如視頻、圖片、文本、社交網絡等,所以比較適合本次實驗。一共爬取到34 542 條貼文,其中包括29 597 個用戶ID,然后對原始數(shù)據(jù)集合進行預處理,刪除重復和僵尸用戶,去掉未發(fā)過帖文的用戶。最后獲得的數(shù)據(jù)集共有26 590 名用戶,30 018 篇帖文和9 564 個用戶對,以及29 541 條情境信息。最后按照1∶3 的比例對實驗數(shù)據(jù)集進行隨機切分,其中25%作為測試集,75%為訓練集。對比實驗采用5 折交叉法,取5 次實驗的指標均值作為比較結果。
本文選擇平均精度(MAP)、新穎性(ILS)作為評價指標[18],這3 種指標從一定程度上可以體現(xiàn)A-UIBR 模型在推薦中的優(yōu)勢。其中平均精度體現(xiàn)推薦的深度,新穎性體現(xiàn)推薦的廣度。
將基于混合粒度推薦方法(MGR)[19]、基于用戶評分差異的推薦方法(CAR)[20]以及本文提出的A-UIBR 方法在經過處理的數(shù)據(jù)集上進行對比試驗,其中指標MAP 提高了11.4%,ILS 提高了20.8%,仿真結果對比如圖4、圖5 所示。由此可知,本文提出的A-UIBR 方法可以在一定程度上提高推薦的深度和廣度。
Fig.4 MAP comparison results圖4 MAP 對比結果
Fig.5 ILS comparison results圖5 ILS 對比結果
個性化的媒體資源推薦系統(tǒng)對于緩解當前信息超載的壓力和提高資源的使用效率至關重要,但推薦技術的趨精細化導致一些用戶逐漸沉溺于狹窄的信息蠶繭中,不利于個人長遠發(fā)展。本文通過構建用戶信息行為偏好的精準化模型,獲取用戶—情境信息作為防偏因子,并將其與數(shù)字資源的特征表示通過三重態(tài)網絡匹配,得到偏見與逆偏見資源屬性,進行topN 算法的權重排序修正,得到最終的推薦列表。數(shù)據(jù)仿真結果表明,本文方法的MAP 提高了11.4%,ILS 提高了20.8%。后續(xù)將對更多類型的數(shù)字資源(如VR、AR 等)進行研究,探索不同類型的資源防偏見推薦算法。