劉總真, 張瀟丹*, 郭 濤, 葛敬國, 周 熙, 王宇航,陳家玓 , 呂紅蕾, 林俊宇
1 中國科學(xué)院大學(xué)網(wǎng)絡(luò)空間安全學(xué)院 北京 中國100049
2 中國科學(xué)院信息工程研究所 北京 中國100093
信息過載的概念于1964 年首次被提出[1], 但直至21 世紀(jì)進(jìn)入大數(shù)據(jù)時(shí)代后, 隨著AI、5G、AR/VR等新技術(shù)快速發(fā)展, 電子商務(wù)、社交網(wǎng)絡(luò)、短視頻等新應(yīng)用層出不窮, 互聯(lián)網(wǎng)中每天產(chǎn)生海量的新聞、商品、視頻、音樂等信息, 信息過載問題日益嚴(yán)重。據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的《第47 次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[2]統(tǒng)計(jì), 截至2020年12 月, 我國網(wǎng)民規(guī)模達(dá)9.89 億, 其中網(wǎng)絡(luò)新聞用戶規(guī)模達(dá)7.43 億, 網(wǎng)絡(luò)購物用戶規(guī)模達(dá)7.82 億, 網(wǎng)絡(luò)視頻用戶規(guī)模達(dá)9.27 億。數(shù)據(jù)規(guī)模呈現(xiàn)爆發(fā)式增長, 根據(jù)國際數(shù)據(jù)集團(tuán)(IDC)2018 年在文獻(xiàn)[3]中預(yù)測,2025 年全球數(shù)據(jù)總量預(yù)計(jì)增至175ZB, 將是2018 年的5 倍左右。如何從海量信息中獲取價(jià)值內(nèi)容是互聯(lián)網(wǎng)信息服務(wù)平臺和用戶關(guān)心, 且迫切需要解決的問題。因此, 作為信息過濾的有效工具, 推薦算法應(yīng)運(yùn)而生。推薦算法旨在從過載的信息中, 通過信息過濾篩選技術(shù), 為用戶推薦其感興趣的高質(zhì)量內(nèi)容。在大數(shù)據(jù)、應(yīng)用場景和計(jì)算力的推動下, 作為人工智能分支之一, 推薦算法在電子商務(wù)、新聞等領(lǐng)域得到了廣泛的應(yīng)用, 不僅提高了信息分發(fā)效率, 還一定程度上緩解了信息過載問題; 通過解讀用戶個(gè)體興趣,進(jìn)行個(gè)性化智能推薦的同時(shí), 給互聯(lián)網(wǎng)信息服務(wù)提供商帶來極大的商業(yè)價(jià)值。
互聯(lián)網(wǎng)推薦算法和推薦系統(tǒng)的發(fā)展歷程, 可分為萌芽期、發(fā)展期和管制期3 個(gè)階段。萌芽期起始于1990 年, 哥倫比亞大學(xué)Jussi Karlgren 首次提出推薦系統(tǒng)[4]的概念, 此后, 明尼蘇達(dá)大學(xué)的GroupLens研究組于1994 年推出名為GroupLen[5]的新聞推薦系統(tǒng), 提出協(xié)同過濾的思想, 1997 年的基于內(nèi)容協(xié)同過濾算法[6], 2003 年的基于物品協(xié)同過濾算法[7]也相繼問世。2006 年北美在線視頻服務(wù)提供商N(yùn)etflix 舉辦的推薦算法競賽, 極大地推動了推薦系統(tǒng)的發(fā)展。此次比賽標(biāo)志著推薦系統(tǒng)進(jìn)入發(fā)展期。此后, 面向不同應(yīng)用場景的推薦算法猶如雨后春筍涌現(xiàn), 效果不斷得到提升, 諸如提出矩陣分解方法實(shí)現(xiàn)推薦任務(wù)的FunkSVD[8], 首次將深度學(xué)習(xí)技術(shù)與推薦技術(shù)結(jié)合的RBCF 算法[9], 首次從概率角度構(gòu)造MF 模型的PMF[10], 結(jié)合社交信息[11-12]、基于信任方法[13]、引入注意力機(jī)制[14]等以提高推薦算法效果和性能。2016年深度學(xué)習(xí)技術(shù)被全面應(yīng)用于推薦系統(tǒng)領(lǐng)域。YouTube 將深度神經(jīng)網(wǎng)絡(luò)方法應(yīng)用于推薦系統(tǒng)中,打造的工業(yè)級推薦系統(tǒng)[15], 實(shí)現(xiàn)了大規(guī)模內(nèi)容的高質(zhì)量推薦,為后續(xù)工業(yè)級推薦系統(tǒng)的優(yōu)化開拓了思路。近年來, 隨著推薦算法應(yīng)用領(lǐng)域的日益廣泛, 為用戶提供基于行為習(xí)慣和興趣偏好的個(gè)性化推薦,極大地提高了用戶體驗(yàn)的同時(shí), 逐漸引起的算法偏見、用戶隱私問題、信任問題、可解釋性、公平性越來越受到用戶、相關(guān)監(jiān)管部門等各方的關(guān)注, 《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》[16]的實(shí)施標(biāo)志著我國進(jìn)入推薦算法管制期。
互聯(lián)網(wǎng)新聞是推薦算法應(yīng)用最為廣泛的領(lǐng)域之一, 用戶規(guī)模大、垂直平臺類型繁多, 已成為幫助網(wǎng)民獲取信息的主流方式。新聞平臺通過推薦算法改變了新聞內(nèi)容分發(fā)方式, 在給網(wǎng)民帶來信息篩選便利的同時(shí), 也帶來了價(jià)值觀缺失、信息繭房、算法偏見等問題。為了防止互聯(lián)網(wǎng)新聞信息運(yùn)營和服務(wù)平臺成為傳播不良內(nèi)容傳播的幫兇, 警惕算法決定內(nèi)容、算法偏見, 迫切需要研究新聞推薦算法的公平性、可解釋性等, 提高新聞推薦算法的透明性和可信程度。
算法模型機(jī)理透明, 推薦內(nèi)容健康、公平、可解釋, 對安全問題抗抵賴是構(gòu)建可信新聞推薦算法的必備條件??尚判侣勍扑]算法是建立安全新聞推薦系統(tǒng)及優(yōu)化推薦結(jié)果的核心技術(shù)。本文研究具備可解釋性、公平性、抗抵賴性的可信新聞推薦算法, 對加速安全推薦系統(tǒng)的建立和推廣, 建立可信推薦算法生態(tài), 極具理論意義和應(yīng)用價(jià)值。
本文組織結(jié)構(gòu)如下: 第2 章扼要介紹了新聞推薦算法的關(guān)鍵要素及分類; 第3 章梳理分析新聞推薦算法的風(fēng)險(xiǎn)情況及國內(nèi)外應(yīng)對現(xiàn)狀; 第4 章提出新聞推薦算法可信評價(jià)指標(biāo)體系; 第5 章對全文進(jìn)行了總結(jié), 并提出下一步研究計(jì)劃。
作為推薦系統(tǒng)的核心, 新聞推薦算法的關(guān)鍵要素, 按照根據(jù)推薦系統(tǒng)運(yùn)行過程, 分為稿件、用戶和推薦策略, 具體細(xì)分為稿件畫像、用戶畫像、推薦推送、反饋干預(yù)和人工復(fù)審。
新聞稿件的內(nèi)容形式包括文本、圖片、視頻。稿件畫像是利用文本和多媒體分析技術(shù)對稿件的內(nèi)容進(jìn)行挖掘和分析, 生成結(jié)構(gòu)化和分級分類的稿件模型。稿件畫像通常分為兩個(gè)維度, 主題標(biāo)簽和質(zhì)量標(biāo)簽, 主題標(biāo)簽包括歷史、時(shí)尚、教育、娛樂等多級標(biāo)簽, 質(zhì)量標(biāo)簽包括正能量、違法不良、低俗、獵奇/易反感、標(biāo)題夸張、評論指向等類別。對稿件的內(nèi)容分析可借助分類器模型、主題模型、實(shí)體識別模型、嵌入模型進(jìn)行內(nèi)容分類、主題挖掘、角色識別、嵌入語義分析。通常, 推薦算法利用人工標(biāo)注稿件和用戶反饋信息作為訓(xùn)練樣本, 訓(xùn)練稿件畫像模型。
用戶畫像, 是將用戶信息特征的向量化表示,用于個(gè)性化推薦和精準(zhǔn)營銷的有效工具。在新聞推薦領(lǐng)域, 用戶畫像特征體系主要包括人口屬性、興趣屬性、行為屬性、社交屬性和風(fēng)險(xiǎn)控制。其中人口屬性主要包含性別、職業(yè)、年齡、婚姻狀況等, 人口屬性相關(guān)的標(biāo)簽相對比較穩(wěn)定, 在較長時(shí)間內(nèi)不需要更新。興趣屬性旨在描述用戶興趣愛好, 具有較強(qiáng)的時(shí)效性, 包括長期和短期興趣。行為屬性是另一種刻畫用戶的常見維度, 可以用以挖掘用戶偏好和特征。社交屬性被用于了解用戶的家庭成員、社交關(guān)系、社交偏好、社交活躍程度等。風(fēng)險(xiǎn)控制旨在通過統(tǒng)計(jì)賬號風(fēng)險(xiǎn)、失信風(fēng)險(xiǎn)、潛在問題用戶、無效渠道等信息, 從根源上防止不良內(nèi)容的產(chǎn)生和傳播。
按變化頻率, 用戶特征分為靜態(tài)特征和動態(tài)特征, 靜態(tài)特征一般指通常很少發(fā)生變化的用戶基本屬性信息, 如性別、年齡、職業(yè)等; 而動態(tài)特征通常指與用戶興趣偏好相關(guān), 在時(shí)間和空間上是動態(tài)變化的特征。按照數(shù)據(jù)提取和處理維度, 用戶特征分為事實(shí)特征、模型特征和預(yù)測特征。事實(shí)特征是指從原始數(shù)據(jù)中直接提取的用戶基本信息, 不需要使用算法模型, 實(shí)現(xiàn)簡單。模型特征指通過定義規(guī)則, 建立模型計(jì)算得到的特征實(shí)例。預(yù)測特征是基于用戶的基本信息屬性、行為屬性、社交屬性, 利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)預(yù)測的特征。
用戶畫像構(gòu)建方法包括兩類, 基于統(tǒng)計(jì)和基于模型的用戶建模[17]?;诮y(tǒng)計(jì)的用戶建模方法, 主要是利用統(tǒng)計(jì)方法, 對用戶人口屬性、歷史行為等數(shù)據(jù),將統(tǒng)計(jì)結(jié)果進(jìn)行量化和分析。基于統(tǒng)計(jì)的構(gòu)建方法,簡單易實(shí)現(xiàn), 主要應(yīng)用于結(jié)構(gòu)化信息, 不適用于文本、圖片、音視頻等非結(jié)構(gòu)化數(shù)據(jù)。基于模型的構(gòu)建方法是利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等方法, 針對結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù), 學(xué)習(xí)和構(gòu)建高維稠密向量, 在當(dāng)前推薦系統(tǒng)中得到廣泛應(yīng)用。
推薦推送技術(shù)架構(gòu)包括召回、排序、重排三個(gè)階段。稿件召回階段, 考慮用戶興趣偏好、熱門內(nèi)容等多種因素, 通過多路召回進(jìn)行稿件初篩, 主流召回方法包括基于內(nèi)容(Content-based)[18]、協(xié)同過濾(Collaborative Filtering)[19]、基于知識(Knowledgebased)[20]、混合推薦[6]等傳統(tǒng)方法, 基于FM 模型(Factorization Machines, FM)[21]、基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNN)[22]等深度學(xué)習(xí)方法。訓(xùn)練模型包括離線模型和實(shí)時(shí)模型, 分別利用時(shí)效性是否敏感的標(biāo)簽進(jìn)行訓(xùn)練, 以更新推薦模型; 第二階段是排序, 排序是推薦系統(tǒng)關(guān)鍵環(huán)節(jié), 常用模型包括邏輯回歸(Logistic Regression, LR)、梯度提升決策樹(Gradient Boosting Decision Tree, GBDT)、FM、深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNN)、Pointwise 等。排序完成后, 進(jìn)入重排階段, 根據(jù)業(yè)務(wù)需要和安全策略, 一般需要進(jìn)行強(qiáng)插過濾、打散, 保證推薦結(jié)果的多樣性, 常見的重排模型有循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)、Transformer。
反饋干預(yù)主要通過實(shí)時(shí)收集統(tǒng)計(jì)用戶閱讀、評論、轉(zhuǎn)發(fā)、分享等正面反饋, 不喜歡、舉報(bào)、負(fù)評等負(fù)面反饋, 更新至推薦模型中實(shí)時(shí)調(diào)整推薦效果。
在工業(yè)界, 人工復(fù)審環(huán)節(jié)是重中之重, 對重排結(jié)果進(jìn)行人工二次審核, 審核策略一般按稿件類型和安全等級進(jìn)行全審和盲審。針對高危、敏感等級稿件進(jìn)行全審, 其他類型進(jìn)行盲審。稿件通過人工復(fù)審后, 才會形成進(jìn)入最終推薦稿件列表。
推薦算法是推薦系統(tǒng)中的核心, 在很大程度上決定了推薦系統(tǒng)效果和性能。目前, 對推薦算法的分類并沒有統(tǒng)一的標(biāo)準(zhǔn), 很多學(xué)者從不同角度對推薦算法進(jìn)行分類, 本文從推薦模型角度, 將產(chǎn)業(yè)界新聞推薦領(lǐng)域應(yīng)用較為廣泛的推薦算法分成以下幾種:協(xié)同過濾方法、矩陣分解方法(Matrix Factorization),聚類、深度學(xué)習(xí)方法。
協(xié)同過濾是利用集體智慧的一個(gè)典型方法, 協(xié)同過濾及其擴(kuò)展方案是最常用的推薦算法之一。當(dāng)向用戶推薦某些新聞內(nèi)容時(shí), 最合乎邏輯的是找到興趣相似的人, 分析其行為, 并向用戶推薦相同的內(nèi)容; 或者查看與用戶之前的喜好相類似的內(nèi)容,并進(jìn)行推薦。協(xié)同過濾兩種基本方法: 基于用戶的協(xié)同過濾(user-based) 和基于內(nèi)容的協(xié)同過濾(item-based)。在這兩種情況下, 一般推薦的步驟如下:(1)收集用戶偏好及行為數(shù)據(jù), 如閱讀、點(diǎn)贊、評論轉(zhuǎn)發(fā)等; (2)對數(shù)據(jù)進(jìn)行降噪以及歸一化操作得到一個(gè)用戶偏好的二維矩陣; (3)計(jì)算用戶間或者內(nèi)容間相似度, 常見的計(jì)算方法有: 歐幾里德距離、皮爾遜相關(guān)系數(shù)、余弦相似度、Tanimoto 系數(shù)等。計(jì)算得到的兩個(gè)相似度將作為基于用戶、內(nèi)容的兩項(xiàng)協(xié)同過濾的推薦依據(jù)。
矩陣分解算法的核心思想是利用用戶-內(nèi)容的評分矩陣, 分解出潛在特征, 然后預(yù)測用戶對關(guān)注或閱讀過的內(nèi)容的評分, 將得分高的內(nèi)容作為推薦項(xiàng)。在獲得用戶評分矩陣后, 利用矩陣分解的方法將用戶評分矩陣分解為兩個(gè)低秩矩陣(用戶特征矩陣和內(nèi)容特征矩陣)的乘積, 將用戶和內(nèi)容嵌入到同一個(gè)k維的向量空間。用戶向量和內(nèi)容向量的內(nèi)積代表了用戶對內(nèi)容的偏好度。因?yàn)閗 維向量空間的每一個(gè)維度不具備與現(xiàn)實(shí)場景對應(yīng)的可解釋含義, 所以矩陣分解算法的可解釋性較差。
協(xié)同過濾以及矩陣分解都是有監(jiān)督的機(jī)器學(xué)習(xí)方法, 在推薦系統(tǒng)中也可以利用無監(jiān)督的方法-聚類。在推薦中可利用K-Means、密度聚類(Densitybased spatial clustering of applications with noise,DBSCAN)、高斯混合模型(Gaussian Mixed Model,GMM)等聚類算法對用戶或者內(nèi)容的分組, 隨后從分組內(nèi)挑選內(nèi)容推薦給用戶。在實(shí)際推薦系統(tǒng)構(gòu)建中, 聚類方法一般適用于系統(tǒng)初期用戶數(shù)據(jù)量不足的場景, 或者作為協(xié)同過濾的補(bǔ)充, 降低計(jì)算復(fù)雜度。
在過去十年中, 神經(jīng)網(wǎng)絡(luò)取得了長足的發(fā)展。如今已被廣泛應(yīng)用, 在某些領(lǐng)域正在逐步取代傳統(tǒng)的機(jī)器學(xué)習(xí)方法。深度學(xué)習(xí)模型應(yīng)用于推薦算法既可以有效獲取非線性和重要的用戶-內(nèi)容關(guān)系, 還可以在高層中獲得更實(shí)用的抽象特征, 從大量冗余信息數(shù)據(jù)中獲取復(fù)雜的關(guān)系, 如上下文、文本、圖片等信息。深度學(xué)習(xí)在推薦系統(tǒng)中既可以作為獨(dú)立模型使用, 如Neural Collaborative Filtering (NCF)[23], Crossdomain Content-boosted Collaborative Filtering(CCCFNet)[24], Deep Factorization Machine(DeepFM)[21]等; 也可以結(jié)合傳統(tǒng)的推薦方法使用,如利用MLP 進(jìn)行用戶內(nèi)容間非線性擬合[25]、利用CNN 提取局部和全局信息、利用RNN 提取序列信息[26]、利用DSSM 進(jìn)行語義匹配[27-28]等。
新聞推薦算法在使用過程中, 存在危害國家和社會安全、用戶安全和新聞推薦平臺安全等三方面風(fēng)險(xiǎn)。國家和社會方面, 第一主要是推薦算法易被不法人員用于操縱輿論導(dǎo)向, 進(jìn)行網(wǎng)絡(luò)意識形態(tài)壟斷,窄化人們思想, 威脅國家意識形態(tài)安全; 第二是內(nèi)容質(zhì)量問題, 如果互聯(lián)網(wǎng)中充斥著大量的劣質(zhì)內(nèi)容,不利于國家精神文明建設(shè)和網(wǎng)民積極向上的價(jià)值觀的形成。用戶方面, 主要是用戶數(shù)據(jù)隱私風(fēng)險(xiǎn)和算法偏見問題、信息繭房問題。新聞推薦平臺方面, 主要是用戶對新聞推薦平臺和推薦結(jié)果的信任問題及新聞推薦平臺和用戶行為的抵賴問題。
內(nèi)容質(zhì)量問題。個(gè)性化推薦在新聞推薦系統(tǒng)中廣泛應(yīng)用和自媒體的興起, 低俗內(nèi)容泛濫, 內(nèi)容質(zhì)量無法得到保障, 失去價(jià)值引領(lǐng)的屬性。內(nèi)容質(zhì)量問題由新聞推薦平臺管理和推薦算法兩方面引起, 新聞推薦平臺側(cè)對內(nèi)容源及質(zhì)量的分級分類管理體系不夠完善, 存在漏檢隱患。推薦算法依賴用戶畫像、行為特征、興趣特征等推薦主題、關(guān)鍵詞相關(guān)性較高的內(nèi)容, 并不對內(nèi)容來源、質(zhì)量進(jìn)行核驗(yàn)。
信息繭房。在個(gè)性化推薦領(lǐng)域, 推薦算法向用戶推薦的大多是其感興趣的信息。隨著時(shí)間的推移, 這將導(dǎo)致推薦內(nèi)容逐漸同質(zhì)化、信息閾逐漸收窄, 甚至加重用戶群體階層極化現(xiàn)象。
算法偏見問題。新聞推薦平臺為了提高推薦算法推薦的精準(zhǔn)性, 訓(xùn)練數(shù)據(jù)中會引入諸如性別、年齡、職業(yè), 甚至種族等敏感特征, 這一做法違背了算法中立性的原則, 間接造成算法偏見問題。隨著用戶不斷循環(huán)反饋, 推薦算法模型迭代調(diào)整, 偏見問題將被逐漸加強(qiáng)。
用戶數(shù)據(jù)隱私問題。推薦算法效果的優(yōu)劣, 關(guān)鍵因素在于用戶特征的質(zhì)量, 而用戶特征質(zhì)量主要由用戶數(shù)據(jù)資源決定。新聞推薦平臺在對用戶數(shù)據(jù)采集、分析和挖掘過程中, 存在用戶不知情情況下, 過度采集和濫用, 造成用戶隱私數(shù)據(jù)泄露的風(fēng)險(xiǎn)。當(dāng)前,用戶數(shù)據(jù)的采集范圍、跨平臺使用方式、用戶對隱私數(shù)據(jù)的可控程度, 是相關(guān)監(jiān)管部門、用戶迫切關(guān)心的問題。
信任問題包括用戶對個(gè)人數(shù)據(jù)采集和使用的信任、對推薦結(jié)果信任。通常用戶無法得知推薦平臺采集了哪些數(shù)據(jù)及如何使用, 因此存在對新聞推薦平臺關(guān)于個(gè)人數(shù)據(jù)信任問題。用戶在新聞平臺上所見的內(nèi)容, 主要依賴機(jī)器和推薦算法完成。推薦算法是大多使用黑盒化模型, 透明度低, 甚至研發(fā)人員都很難解釋推薦算法底層機(jī)理和推薦結(jié)果, 用戶更是被動接受推薦結(jié)果。如何讓用戶更大程度上信任新聞推薦平臺、推薦算法的決策結(jié)果, 引起了學(xué)術(shù)界、產(chǎn)業(yè)界的廣泛關(guān)注和研究。
抗抵賴問題。新聞推薦平臺上常存在一些惡意用戶在發(fā)布低質(zhì)內(nèi)容或者產(chǎn)生一些惡意的行為, 這些內(nèi)容或者行為會對平臺、對其他用戶產(chǎn)生一些不利的影響, 事后這些惡意用戶可能會盡力去刪除或者損毀這些行為證據(jù)以逃避、抵賴社會追責(zé)。因新聞推薦平臺的封閉性, 新聞平臺側(cè)在對用戶數(shù)據(jù)的采集和使用、推薦結(jié)果的展示等做出不當(dāng)行為時(shí),可能存在刪除或損毀操作, 以抵賴相關(guān)監(jiān)管部門的查證。
以上問題可統(tǒng)一歸為公平性、可解釋性和抗抵賴性三類問題。隨著新聞推薦算法應(yīng)用的廣泛性, 相關(guān)監(jiān)管部門和研究學(xué)者大多從公平性和可解釋性研究內(nèi)容質(zhì)量、信息繭房、算法偏見、用戶數(shù)據(jù)隱私等問題, 本文在公平性和可解釋性基礎(chǔ)上, 首次將抗抵賴性引入作為新聞推薦算法安全問題之一。
在推薦算法早期發(fā)展和應(yīng)用的進(jìn)程中, 產(chǎn)業(yè)和學(xué)術(shù)界通常傾向于追求算法模型的性能指標(biāo), 如準(zhǔn)確度、精確度和召回率等。近幾年, 隨著推薦算法應(yīng)用, 人們逐漸意識到算法安全、公平問題的重要性。因推薦算法屬于智能算法的一種, 本文從智能算法安全角度, 梳理國內(nèi)外政府、學(xué)者從政策、標(biāo)準(zhǔn)規(guī)范[29]和學(xué)術(shù)方面對算法安全問題進(jìn)行的前瞻性研究和探索進(jìn)展。
(1) 政策方面, 從總體政策舉措看, 美國注重在公共數(shù)據(jù)資源和人工智能安全設(shè)計(jì)方面要求。2016年, 美國國防部先進(jìn)研究項(xiàng)目局(DARPA)資助并啟動可解釋性人工智能項(xiàng)目XAI(Explainable AI), 旨在研究實(shí)現(xiàn)包含可解釋性技術(shù)和模型的通用新型機(jī)器學(xué)習(xí)技術(shù), 一方面使得用戶理解、信任算法決策結(jié)果,一方面便于算法平臺和監(jiān)管部門有效管理人工智能系統(tǒng)。2017 年發(fā)布的《算法透明和可責(zé)性聲明》[30]中提出了可解釋、數(shù)據(jù)來源保護(hù)、可審查性、驗(yàn)證和測試等準(zhǔn)則。2019 年在《國家人工智能研究與發(fā)展戰(zhàn)略計(jì)劃》中將人工智能系統(tǒng)安全、開發(fā)可共享的公共數(shù)據(jù)集和環(huán)境作為戰(zhàn)略重點(diǎn)之一。此外, 美國立法者要求Twitter、 YouTube 和 Facebook 等互聯(lián)網(wǎng)企業(yè)提高算法透明度, 并評估算法是否存在不公平性。2021 年2 月美國布魯金斯學(xué)會呼吁重啟美國會技術(shù)評估辦公室, 針對人工智能發(fā)展可能帶來的算法嵌入、算法公平性、算法透明度等問題, 提出緩解建議。
歐盟在隱私數(shù)據(jù)保護(hù)方面較為重視, 已經(jīng)出臺的《通用數(shù)據(jù)保護(hù)條例》(GDPR)中明確賦予個(gè)人決定隱私數(shù)據(jù)使用范圍的權(quán)利。英國在《人工智能在英國: 準(zhǔn)備、志向與能力?》報(bào)告中, 提出人工智能應(yīng)有可理解性和公平性原則, 以及保護(hù)個(gè)人數(shù)據(jù)權(quán)利或隱私原則, 鼓勵(lì)在重要領(lǐng)域研制可解釋性的人工智能系統(tǒng), 研究訓(xùn)練數(shù)據(jù)和算法的審查和測試機(jī)制, 探索數(shù)據(jù)訪問和共享的有效措施。2019 年歐盟委員會發(fā)布的《可信賴人工智能倫理指南》(Ethics Guidelines for Trustworthy AI)[31]中的公平準(zhǔn)則要求人工智能系統(tǒng)的開發(fā)、部署和應(yīng)用要堅(jiān)持實(shí)質(zhì)公平和程序公平, 確保利益和成本的平等分配、個(gè)人及群體免受歧視和偏見。
日本人工智能學(xué)會(JSAI)發(fā)布的《日本人工智能學(xué)會倫理準(zhǔn)則》中要求遵循和實(shí)踐尊重隱私、公正和安全原則。加拿大發(fā)布的《可靠的人工智能草案蒙特利爾宣言》中提出隱私是人工智能發(fā)展過程中應(yīng)當(dāng)遵守的道德原則之一。
我國也已經(jīng)開展智能算法在相關(guān)領(lǐng)域中的規(guī)制方法。國務(wù)院在2017 年的《新一代人工智能發(fā)展規(guī)劃》[32]中提出了實(shí)現(xiàn)具備高可解釋性、強(qiáng)泛化能力的人工智能的目標(biāo)。此外, 我國已經(jīng)將算法納入監(jiān)管,2019 年出臺的《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》[16], 針對算法推薦引發(fā)的負(fù)面影響, 明確了推薦算法的分發(fā)方式, 要求企業(yè)持續(xù)優(yōu)化算法模型, 在利用算法決策時(shí), 確保算法的準(zhǔn)確性、公平性等。
(2) 標(biāo)準(zhǔn)規(guī)范方面, 2017 年國際標(biāo)準(zhǔn)化組織(ISO/IEC JTC1)成立人工智能的分委員會, 開展的標(biāo)準(zhǔn)研制工作中涉及人工智能可信度、魯棒性評估、算法偏見等主題。ITU-T 于2017—2018 年組織的“AI for Good Global”峰會中, 重點(diǎn)關(guān)注了人工智能技術(shù)可信的戰(zhàn)略問題。電氣與電子工程師協(xié)會(IEEE)正在研制IEEE P7000 系列標(biāo)準(zhǔn)IEEE P7002《數(shù)據(jù)隱私處理》、IEEE P7003《算法偏差注意事項(xiàng)》、IEEE P7011《新聞信源識別和評級過程標(biāo)準(zhǔn)》等。
我國對算法安全標(biāo)準(zhǔn)方面的工作, 集中在算法模型、數(shù)據(jù)、基礎(chǔ)設(shè)施、產(chǎn)品和應(yīng)用相關(guān)的安全標(biāo)準(zhǔn)。2018 年我國首個(gè)人工智能深度學(xué)習(xí)算法標(biāo)準(zhǔn)《人工智能深度學(xué)習(xí)算法評估規(guī)范》(T/CESA 1026-2018)發(fā)布, 目標(biāo)旨在發(fā)現(xiàn)深度學(xué)習(xí)算法中影響算法可靠性的因素及如何提高算法可靠性。規(guī)范中提出了深度學(xué)習(xí)算法的評估指標(biāo)體系、評估流程等內(nèi)容, 指導(dǎo)深度學(xué)習(xí)算法相關(guān)方對深度學(xué)習(xí)算法的可靠性開展評估工作。在數(shù)據(jù)安全領(lǐng)域, 國家標(biāo)準(zhǔn)《信息安全技術(shù) 個(gè)人信息安全規(guī)范》(GB/T 35273-2020)和《信息安全技術(shù) 個(gè)人信息去標(biāo)識化指南》(GB/T 37964-2019)等已經(jīng)發(fā)布。國家標(biāo)準(zhǔn)化管理委員會等五部門聯(lián)合印發(fā)《國家新一代人工智能標(biāo)準(zhǔn)體系建設(shè)指南》[33]中, 提出人工智能數(shù)據(jù)、算法和模型安全標(biāo)準(zhǔn), 包括數(shù)據(jù)安全、隱私保護(hù)、算法模型可信賴等。
(3) 學(xué)術(shù)研究方面, 算法可解釋性和公平性是當(dāng)前的突出問題和研究重點(diǎn)。
Miller[34]從非數(shù)學(xué)層面定義可解釋性是人們能夠理解決策原因的程度。如果一個(gè)推薦算法的決策比另一個(gè)推薦算法的決策能讓人更容易理解, 則認(rèn)為前者具有更高的可解釋性。算法可解釋性的概念起源于2014 年[35], 近年來算法可解釋性問題受到了政府、產(chǎn)業(yè)界和學(xué)術(shù)界的廣泛關(guān)注和深入研究[36]。
推薦算法的解釋目標(biāo)是以用戶為導(dǎo)向的推薦結(jié)果解釋和以模型為導(dǎo)向的模型機(jī)制的解釋, 建立用戶與推薦平臺間的信任關(guān)系的同時(shí), 指導(dǎo)算法工程師進(jìn)行特征工程和調(diào)試算法模型。
當(dāng)前, 算法可解釋性方法包含按建模周期流程劃分及按解釋范圍劃分。按照建模周期流程劃分, 即分為建模前、建模中、建模后三個(gè)階段, (1)建模前的可解釋性重點(diǎn)關(guān)注數(shù)據(jù)的可解釋性, 針對大規(guī)?;蚋呔S數(shù)據(jù), 通過統(tǒng)計(jì)分析及交互式可視化等方法,多層次角度理解數(shù)據(jù)的特征分布, 進(jìn)而支持人類決策; (2)建模中的可解釋性是模型有關(guān)可解釋性, 即深度可解釋, 實(shí)現(xiàn)對算法模型的機(jī)理及執(zhí)行過程的可解釋, 如簡化成回歸模型、樹模型、圖模型等進(jìn)行解釋; (3)建模后的可解釋性是模型無關(guān)可解釋, 是當(dāng)前研究嘗試最多的方向。主要通過不同的手段來解釋算法模型的決策依據(jù), 測試決策依據(jù)對推薦結(jié)果的影響程度, 經(jīng)典方法包括敏感性分析(Sensitivity Analysis)[37]、 基 于 梯 度 的 方 法(Gradient-based Methods)[38]、全局或局部代理模型(Surrogate Models)[39]、知識蒸餾(Knowledge Distillation)[40]、隱藏層可視化等。按照解釋對象角度, 近年來, 面向用戶的推薦可解釋性方式, 主要包括異構(gòu)信息建模[41-42]、知識增強(qiáng)[43-44]和反事實(shí)解釋[45]等, 在解釋推薦結(jié)果的同時(shí)不斷優(yōu)化推薦質(zhì)量。按照解釋范圍分為全局可解釋和局部可解釋, 全局可解釋是從數(shù)據(jù)及特征、輸入?yún)?shù)、模型結(jié)構(gòu)等方面對整個(gè)算法模型的決策進(jìn)行解釋, 比如影響決策的關(guān)鍵特征的分布、特征之間如何相互作用等。局部可解釋是指在不考慮算法模型內(nèi)在結(jié)構(gòu)的前提下, 對特定一條樣本或一組樣本的預(yù)測結(jié)果進(jìn)行解釋。局部可解釋的預(yù)測結(jié)果可能只依賴于某些線性或單調(diào)性的特征, 相對全局可解釋, 具有更高的準(zhǔn)確性。
算法模型可解釋性的工程實(shí)現(xiàn)方面, 包含演進(jìn)式可解釋算法模型和全新式可解釋算法模型兩種思路。演進(jìn)式可解釋算法模型是在不改變現(xiàn)有算法模型的前提下, 將解釋模塊集成至推薦系統(tǒng)中, 實(shí)現(xiàn)算法模型的可解釋性; 全新式可解釋算法模型是重新設(shè)計(jì)和實(shí)現(xiàn)算法模型, 在設(shè)計(jì)理念中, 融入可解釋性功能。
算法的公平性旨在研究實(shí)現(xiàn)推薦算法的決策結(jié)果對受眾和內(nèi)容生產(chǎn)者的個(gè)人或群體不存在因其固有或后天屬性所引起的算法偏見。造成算法不公平性的主要原因包括4 種: (1)多樣性不足, 新聞推薦平臺可能為追求利益最大化, 將流量大、熱門或存在利益相關(guān)的內(nèi)容排名靠前, 導(dǎo)致曝光內(nèi)容多樣性不足,進(jìn)而造成對受眾和內(nèi)容生產(chǎn)者兩方的不公平性; (2)算法偏見, 個(gè)性化推薦是“千人千面”的差異化推薦,新聞推薦平臺將敏感屬性作為訓(xùn)練特征, 優(yōu)化對不同人群的推薦內(nèi)容及內(nèi)容結(jié)構(gòu)。此類算法偏見嚴(yán)重破壞了受眾的公平性; (3)信息繭房問題, 在降低用戶公平性的同時(shí), 將加劇社會價(jià)值分層; (4)優(yōu)質(zhì)但冷門的內(nèi)容得不到曝光機(jī)會, 也是對內(nèi)容生產(chǎn)者的不公平。
針對以上推薦算法中的公平性問題, 近幾年,國內(nèi)外相關(guān)監(jiān)管部門和研究學(xué)者開始重點(diǎn)關(guān)注, 但公平性相關(guān)解決方案仍處于初期探索階段。
國外互聯(lián)網(wǎng)企業(yè)如Facebook、YouTube 等開始嘗試探索推薦算法公平性問題, 以便給予用戶更大的控制和選擇權(quán)限。例如, Twitter 曾表達(dá)了研究用戶對算法選擇, 實(shí)現(xiàn)用戶控制自己使用算法的愿景,同時(shí)宣布啟動研究算法公平性的計(jì)劃, 評估其使用的算法是否存在潛在危害。Facebook 在2020 年已經(jīng)成立算法偏見相關(guān)問題研究團(tuán)隊(duì)。微軟在2018 年表示開發(fā)了一套新工具, 用來判斷人工智能算法是否存在偏見, 幫助互聯(lián)網(wǎng)安全使用人工智能算法, 并及時(shí)捕獲安全風(fēng)險(xiǎn)。YouTube 對其推薦算法模型作出一系列調(diào)整, 如拒絕某類內(nèi)容推送, 以便用戶可以更容易地探索主題和內(nèi)容。
中國信息通信研究院發(fā)布的《人工智能安全框架(2020)》[46]中提出算法公平性保障是算法安全技術(shù)之一, 可從算法公平性約束和偏見后處理兩方面保障算法公平性。推薦算法公平性的研究主要從數(shù)據(jù)公平性、內(nèi)容公平性、用戶公平性、算法模型公平性等角度進(jìn)行研究。推薦算法的公平性是涵蓋受眾、內(nèi)容生產(chǎn)者、推薦平臺三方的多目標(biāo)公平性[47-49], 一般采用多目標(biāo)優(yōu)化方法, 既保障對受眾的公平性,也保障內(nèi)容的多樣性。當(dāng)前研究方向主要集中在數(shù)據(jù)角度、受眾角度、內(nèi)容角度、多目標(biāo)角度等。
數(shù)據(jù)角度, 如果算法模型輸入數(shù)據(jù)未使用諸如性別、年齡、受教育程度、種族等敏感屬性, 則視為是公平的。一般通過機(jī)器或人工干預(yù)機(jī)制對推薦結(jié)果核查來解決數(shù)據(jù)公平性問題。
用戶角度, Hongyu Lu 等人[50]從受眾滿意度角度,研究受眾在閱讀前、閱讀后、后任務(wù)三階段的動態(tài)偏好, 提升受眾偏好的捕獲準(zhǔn)確度, 并同步提高推薦質(zhì)量。組推薦旨在向興趣相同、社會關(guān)系粘性強(qiáng)的群組推薦內(nèi)容, 例如谷歌Beutel Alex 等人[51]通過提出成對公平性、組內(nèi)成對公平性和組間成對公平性指標(biāo), 實(shí)現(xiàn)對推薦系統(tǒng)排名公平性的無偏度量。文章[52]認(rèn)為同一群組內(nèi)的受眾, 感興趣的內(nèi)容有相似之處, 因此將組分為長期型組, 如一家人、長期好友;另一種是短期型組, 如興趣愛好暫時(shí)趨于相同的一群人。文章[53]以排名敏感的方式平衡被推薦內(nèi)容在組成員間的相關(guān)性, 并利用貪心算法GFAR 尋找top-N。文章[54]設(shè)計(jì)了一種重新排序的方法, 通過在評估指標(biāo)上添加約束來緩解優(yōu)勢組和劣勢組的推薦質(zhì)量的不公平性問題。
內(nèi)容角度, 研究人員主要從流行度偏差[55]、位置偏差[56]、曝光偏差[57]等方面研究如何提高內(nèi)容在推薦選擇、排名等方面的公平性[58]。流行度偏差主要問題是熱度低或不流行的內(nèi)容得不到有效推薦, 一般解決方法是對內(nèi)容賦予熱度權(quán)重, 通過升權(quán)和降權(quán), 調(diào)整內(nèi)容展示的機(jī)會、位置等。位置偏差中排名靠前的內(nèi)容更容易被用戶注意且產(chǎn)生互動, 但這不足以代表用戶的真實(shí)偏好。算法模型在獲取用戶偏好時(shí)出現(xiàn)偏差, 一般緩解方法是將位置特征作為輸入?yún)?shù), 或者構(gòu)建用戶行為模型并應(yīng)用于推薦模型。曝光偏差是對沒有機(jī)會展示的內(nèi)容的不公平, 進(jìn)而產(chǎn)生馬太效應(yīng)問題, 簡單解決辦法是通過探索機(jī)制,對于新內(nèi)容和歷史曝光機(jī)會比較少的內(nèi)容, 給予一定的探索機(jī)會, 提升用戶對內(nèi)容的可見度, 如使用湯普森采樣的方法將排序較后的內(nèi)容, 設(shè)置一定的概率呈現(xiàn)在較前的位置、設(shè)置用戶行為無關(guān)的內(nèi)容特征、利用貪心方法進(jìn)行推薦結(jié)果校準(zhǔn)等。
理論上, 在保障多目標(biāo)公平性時(shí), 提升一方的公正性, 另一方的公正性則會降低, 同時(shí)降低整體推薦質(zhì)量。近年來, 研究學(xué)者關(guān)注于多目標(biāo)公平均衡問題, 尋求一種解決方案, 平衡內(nèi)容提供者和受眾的多方公平性, 如文章[59]和[60]。前者通過分析推薦質(zhì)量、受眾公平性和內(nèi)容提供者公平性之間的關(guān)系, 提出一種面向受眾和內(nèi)容提供者的雙方公平性的推薦模型TFROM, 以保障雙方的公平性。后者將推薦公平性問題映射為不可分割物品的公平分配問題, 以此提出FairRec 算法, 保證大多數(shù)內(nèi)容提供者中至少一個(gè)能夠獲得最大份額的曝光率, 而且每個(gè)受眾擁有相對較好的公平性。Robin Burke 等人[49]證明了一種改進(jìn)的稀疏線性方法SLIM, 可以改善受眾和推薦內(nèi)容鄰域之間的平衡, 在提高推薦公平性的同時(shí), 最大程度降低排序性能損失。
當(dāng)前, 國內(nèi)外對推薦算法的可信評價(jià)研究仍是空白。本文將從公平性、可解釋性、抗抵賴性三方面建立評價(jià)新聞推薦算法的可信指標(biāo)體系, 共劃分成三級指標(biāo), 如表1 所示。一級指標(biāo)包括公平性、可解釋性和抗抵賴性。公平性包括生產(chǎn)者側(cè)、內(nèi)容側(cè)、受眾側(cè)和算法模型側(cè); 可解釋性包括數(shù)據(jù)可解釋性、模型可解釋性和推薦結(jié)果可解釋性; 抗抵賴性包括受眾側(cè)和平臺側(cè)。公平性、可解釋性和抗抵賴性是正相關(guān)關(guān)系, 當(dāng)公平性和抗抵賴性越強(qiáng)、可解釋程度越高, 新聞推薦算法的可信度越高。
表1 推薦算法可信評價(jià)指標(biāo)Table 1 The trust evaluating indicators of recommendation algorithms
(1) 公平性
公平性應(yīng)從內(nèi)容生產(chǎn)者、內(nèi)容本身、受眾、算法模型等方面實(shí)現(xiàn)對用戶的公平。
生產(chǎn)者側(cè)指標(biāo)包括生產(chǎn)者被推薦率(recommendation rate of producer, RRP)和稿源可信度(credibility of sources, CS)。
生產(chǎn)者被推薦率是指新聞推薦算法對平臺上內(nèi)容生產(chǎn)者的推薦率。計(jì)算公式如下:
其中, UserR是被推薦的受眾數(shù), UserAll是新聞平臺所有受眾數(shù)。生產(chǎn)者被推薦率越高, 對生產(chǎn)者越公平。
稿源可信度是指新聞稿件來源的可信, 新聞稿件來源于國家互聯(lián)網(wǎng)信息辦公室發(fā)布的《互聯(lián)網(wǎng)新聞信息稿源單位名單》[61], 政務(wù)機(jī)構(gòu)、新聞媒體機(jī)構(gòu)和其他被授權(quán)發(fā)布時(shí)政信息的單位的, 可信度高。此外, 依據(jù)包含除此之外的來源比例, 逐步降低可信度。
內(nèi)容側(cè)指標(biāo)細(xì)分為稿件池主題覆蓋度(coverge of news theme, CNT)、新聞實(shí)時(shí)性(real time, RT)、新聞?wù)鎸?shí)性(authenticity)和內(nèi)容規(guī)范性(normativity)。
稿件池主題覆蓋度是新聞平臺稿件池中內(nèi)容主題占新聞?lì)I(lǐng)域總主題數(shù)的比率。計(jì)算方式如下:
其中, TExist是新聞平臺稿件主題數(shù), TAll是新聞主題類別總數(shù)。稿件池主題覆蓋度應(yīng)接近100%, 且覆蓋度越高, 對受眾的公平性越高。
新聞實(shí)時(shí)性指新聞被推薦給受眾的時(shí)效。新聞實(shí)時(shí)性不應(yīng)晚于新聞本身的時(shí)效。新聞實(shí)時(shí)性越高,對受眾的公平性越高。
真實(shí)性是新聞應(yīng)具備的基本原則之一。新聞內(nèi)容在呈現(xiàn)給受眾前, 應(yīng)進(jìn)行真實(shí)性檢測。當(dāng)真實(shí)性檢測模型準(zhǔn)確率達(dá)90%以上時(shí)認(rèn)為具備真實(shí)性。新聞?wù)鎸?shí)性越高, 對受眾的公平性越高。
內(nèi)容規(guī)范性是指新聞內(nèi)容應(yīng)滿足健康向上、能夠弘揚(yáng)正確價(jià)值觀, 不含違法不良信息。當(dāng)一條新聞內(nèi)容違反內(nèi)容規(guī)范性要求時(shí), 直接違背了受眾獲取健康內(nèi)容的公平性權(quán)利, 極大降低了推薦算法的可信度。
受眾側(cè)指標(biāo)可細(xì)分為相似個(gè)體間推薦內(nèi)容偏差(news bias of similar individual, NBSI)、是否進(jìn)行群組劃分(is groups, IS)和是否進(jìn)行興趣探索(explore interest, EI)。
通常相似個(gè)體間接收的推薦內(nèi)容一致或接近一致, 被認(rèn)為具有高公平性。相似個(gè)體間推薦內(nèi)容偏差是指相似個(gè)體間被推薦內(nèi)容的不同程度。計(jì)算方式如下:
其中, NewsA和 NewsB是對個(gè)體受眾A 和B 推薦的新聞??紤]個(gè)體相似度計(jì)算偏差, 可對NBSI 設(shè)置一個(gè)閾值, 當(dāng)NBSI 大于該閾值時(shí), 認(rèn)為是對受眾存在不公平性, 而且將隨著NBSI 增大而加劇。
通常, 群組劃分是平臺為了提高個(gè)性化推薦效果。但根據(jù)用戶偏好、位置、職業(yè)等屬性將用戶劃分群組, 在一定程度上降低了受眾公平性, 將加劇社會分層。
興趣探索是為了挖掘用戶興趣點(diǎn), 拓寬推薦范圍和優(yōu)化推薦效果。若推薦算法中運(yùn)用興趣探索機(jī)制, 不僅一定程度上增加了內(nèi)容多樣性, 還將增大對受眾的公平性。
算法模型側(cè)的三級指標(biāo)包括訓(xùn)練數(shù)據(jù)是否使用敏感屬性(sensitive attributes, SA)、推薦內(nèi)容分布與受眾興趣分布偏差(bias between news and user,BBNU)、推薦內(nèi)容覆蓋率(coverge of recommended news, CRN)、最近N 小時(shí)新聞推薦率(recent N-hour recommendation rate of news, RNRR)、同質(zhì)內(nèi)容推薦率(recommendation rate of homogeneous content,RRHC)、受眾覆蓋率(coverge rate of user, CRU)和冷門內(nèi)容推薦率(recommendation rate of non-popular news, RRNN)。
訓(xùn)練數(shù)據(jù)中使用敏感屬性是間接地對受眾實(shí)施分級分類, 造成的顯式不公平。明確敏感屬性范圍和分級分類, 根據(jù)使用敏感屬性的級別和類別, 對模型側(cè)公平性進(jìn)行分級量化。
推薦內(nèi)容分布與受眾興趣分布偏差是指因算法模型推薦的精準(zhǔn)度問題, 造成推薦的內(nèi)容分布與受眾興趣分布有一定偏差。該偏差與公平性是負(fù)相關(guān),偏差越小, 公平性越高。
其中 Quser是受眾興趣分布, Fnews推薦算法為受眾user 推薦的內(nèi)容分布, 若BBNU 為常量, 認(rèn)為無偏差。
推薦內(nèi)容覆蓋率是指推薦算法推薦的內(nèi)容占稿件池中內(nèi)容的比率, 計(jì)算公式如下:
其中,uC 是推薦給受眾u 的內(nèi)容量, CAll是稿件池中內(nèi)容總量。推薦內(nèi)容覆蓋率越高, 表示推薦算法的內(nèi)容分發(fā)能力越強(qiáng), 公平性也越強(qiáng)。
最近N 小時(shí)新聞推薦率表示在某一時(shí)間點(diǎn), 推薦最近N 小時(shí)內(nèi)生產(chǎn)的新聞的量與總推薦量的比率。計(jì)算公式如下:
其中, Nnews是推薦的最近N 小時(shí)內(nèi)生產(chǎn)的新聞數(shù)量,RAll是推薦新聞總量。最近N 小時(shí)新聞推薦率越高,代表推薦算法對新聞推薦的時(shí)效性越高, 推薦算法公平性越強(qiáng)。
屬于同一分類、同一話題和同一作者的內(nèi)容稱為同質(zhì)內(nèi)容。同質(zhì)內(nèi)容推薦率是指在向單個(gè)受眾的一次推薦中, 同質(zhì)內(nèi)容量與所有推薦內(nèi)容的比率。計(jì)算公式如下:
其中,hR 是推薦的同質(zhì)內(nèi)容量, RAll推薦內(nèi)容總量。同質(zhì)內(nèi)容推薦率越高, 推薦算法在內(nèi)容多樣性方面能力越低, 推薦算法的公平性越低。
受眾覆蓋率是指被推薦受眾占總受眾量的比率。計(jì)算公式如下:
其中,uR 是被推薦受眾量, UAll是總受眾量。對一條新聞來講, 受眾覆蓋率越高, 對受眾越公平。但不同類別新聞的受眾覆蓋率不同, 如時(shí)政類新聞應(yīng)比娛樂類新聞受眾覆蓋率高。在推薦平臺經(jīng)濟(jì)效益的策略下, 受眾覆蓋率應(yīng)設(shè)置一個(gè)最低閾值, 每種類別新聞的受眾覆蓋率不應(yīng)低于該閾值。
保證冷門內(nèi)容推薦率是推薦內(nèi)容多樣性的保障措施之一, 冷門內(nèi)容推薦率是指在一次推薦中,對非流行的新聞內(nèi)容占推薦總量的比率。計(jì)算公式如下:
其中,nR 是推薦的冷門內(nèi)容量, RAll是總推薦內(nèi)容量。冷門內(nèi)容推薦率的合理性, 是對冷門內(nèi)容公平性的有效保障。
可解釋性是增強(qiáng)推薦算法透明性的有效方法,可解釋性越強(qiáng), 推薦算法可信程度越高。本文從數(shù)據(jù)層面、算法模型層面和推薦結(jié)果層面分析推薦算法可解釋性評價(jià)指標(biāo), 具體分為數(shù)據(jù)可解釋性、模型可解釋性、推薦結(jié)果可解釋性。
數(shù)據(jù)可解釋主要從受眾和新聞內(nèi)容的具有影響力特征及關(guān)系是否可視化來評價(jià), 評價(jià)指標(biāo)包括受眾關(guān)鍵特征、內(nèi)容關(guān)鍵特征和特征及關(guān)系可視化。如果推薦平臺具備解釋關(guān)鍵特征和可視化展示特征及關(guān)系的能力, 說明具備數(shù)據(jù)可解釋性。
算法模型的可解釋性主要面向算法開發(fā)人員,有利于增強(qiáng)對模型的調(diào)參和優(yōu)化。通常情況下, 算法模型基本是一個(gè)黑盒, 因此可從參數(shù)可解釋、模型可解釋程度及是否具備解釋功能或模塊三個(gè)指標(biāo)進(jìn)行解釋。
參數(shù)是推薦算法模型的重要組成部分, 在模型構(gòu)建和優(yōu)化的過程中, 應(yīng)對參數(shù)的初始化值和調(diào)參的依據(jù)、目標(biāo)進(jìn)行明確和記錄, 增強(qiáng)模型參數(shù)的可解釋性。
推薦算法可根據(jù)使用的模型類別, 判斷模型可解釋程度。如邏輯回歸、樹、圖等統(tǒng)計(jì)學(xué)模型可根據(jù)規(guī)則進(jìn)行推理解釋, 因此可解釋程度較高。而深度學(xué)習(xí)模型、混合模型等因網(wǎng)絡(luò)復(fù)雜度高、黑盒化程度高, 可解釋程度低。
當(dāng)前算法解釋功能或模塊的研究仍處于研究初期, 主要路線分為演進(jìn)式和全新式, 演進(jìn)式推薦算法模型是獨(dú)立于當(dāng)前推薦算法模型運(yùn)行的解釋模塊,即淺層解釋方法, 主要解釋輸入和輸出的因果關(guān)系。全新式推薦算法模型致力于研究內(nèi)置的解釋功能,即深層解釋方法, 從算法模型原理角度解釋每一步執(zhí)行的過程。若一個(gè)推薦算法模型具備可解釋功能或模塊, 代表具備可解釋性, 且深層解釋方法比淺層解釋方法具有更高的可解釋程度。
推薦結(jié)果可解釋性主要面向受眾, 使其更好的理解和信任推薦結(jié)果。當(dāng)前, 推薦結(jié)果的解釋已經(jīng)廣泛應(yīng)用于新聞推薦平臺, 且大幅度提高了流量。如基于好友關(guān)系的解釋, 可通過說明多少好友感興趣、哪位好友已經(jīng)關(guān)注等方法進(jìn)行解釋。推薦結(jié)果可解釋性主要包括推薦準(zhǔn)確率和推薦有效性。解釋準(zhǔn)確率一方面標(biāo)識著用戶對推薦結(jié)果的信任度, 另一方面代表推薦算法的解釋能力。解釋有效性可通過可解釋性推薦結(jié)果產(chǎn)生的效益進(jìn)行量化。解釋準(zhǔn)確率越高、解釋有效性越強(qiáng), 表示推薦算法可解釋性越高。
一個(gè)可信的推薦算法應(yīng)避免和預(yù)防受眾、內(nèi)容生產(chǎn)者等用戶和新聞平臺對各自的違法或不當(dāng)行為進(jìn)行抵賴, 因此抗抵賴性也應(yīng)是推薦算法可信評價(jià)中的一個(gè)重要指標(biāo)。
抗抵賴性指標(biāo)按照對象可分為指標(biāo)用戶側(cè)、新聞平臺側(cè)兩個(gè)維度, 分別對用戶、平臺兩方的行為進(jìn)行評價(jià)。
用戶在系統(tǒng)中發(fā)布內(nèi)容, 產(chǎn)生評論、點(diǎn)贊等行為,新聞平臺應(yīng)有能力記錄詳盡的產(chǎn)生、傳播、銷毀等過程, 即分別對發(fā)布內(nèi)容和用戶與平臺間的交互行為進(jìn)行存證。按照存證期限可將系統(tǒng)劃分5 個(gè)級別:日、周、月、季、年; 按照存證粒度的粗細(xì)可劃分兩個(gè)級別: 最終版本存證、歷史修改存證。
新聞平臺側(cè)也應(yīng)記錄自身系統(tǒng)數(shù)據(jù)流轉(zhuǎn)過程中的采集、訓(xùn)練、干預(yù)等行為和推薦結(jié)果數(shù)據(jù), 供相關(guān)部門或者社會進(jìn)行監(jiān)管。按照推薦算法數(shù)據(jù)流程, 一般分為數(shù)據(jù)內(nèi)容采集、模型訓(xùn)練、結(jié)果干預(yù)、結(jié)果推薦4 個(gè)主要步驟。針對該4 個(gè)步驟, 新聞平臺均應(yīng)具備記錄存證的能力, 即分別需要記錄推薦算法采集的數(shù)據(jù)源、數(shù)據(jù)范圍、數(shù)據(jù)類型等內(nèi)容, 記錄算法模型訓(xùn)練日志、訓(xùn)練參數(shù), 記錄面向不同受眾的歷史召回、排序的結(jié)果。
近些年, 互聯(lián)網(wǎng)信息數(shù)據(jù)量急增, 信息過載問題日益嚴(yán)重, 隨著人工智能技術(shù)迅速發(fā)展, 推薦算法尤其是個(gè)性化推薦得到了前所未有的發(fā)展。作為推薦算法一大應(yīng)用場景, 新聞推薦不僅改變了內(nèi)容分發(fā)方式, 且便利了用戶獲取自身需要的新聞內(nèi)容。但依靠算法實(shí)現(xiàn)推薦推送, 用戶被動接收新聞推薦的形式, 逐漸引起信息繭房、算法偏見等問題。因此國內(nèi)外監(jiān)管部門、研究學(xué)者越來越關(guān)注如何提高推薦算法可解釋性、公平性等。但針對新聞推薦算法的可信評價(jià)的研究仍是空白。
本文主要研究新聞推薦算法的可信評價(jià)。首先深入分析新聞推薦算法的關(guān)鍵要素, 研究產(chǎn)業(yè)界當(dāng)前應(yīng)用的主流推薦算法。通過分析新聞推薦算法現(xiàn)存的風(fēng)險(xiǎn), 梳理了國內(nèi)外相關(guān)監(jiān)管部門、研究學(xué)者及推薦算法一線研發(fā)人員, 從政策、標(biāo)準(zhǔn)規(guī)范、學(xué)術(shù)研究等方面在算法公平性、可解釋性等方向的研究探索的成果。本文最后面向生產(chǎn)者、受眾、算法模型、新聞平臺等參與角色, 從公平性、可解釋性和抗抵賴性三方面建立了一套新聞推薦算法可信評價(jià)指標(biāo)體系, 分析各指標(biāo)對新聞推薦算法可信的影響, 并定性或定量分析。本文提出的推薦算法可信評價(jià)指標(biāo)體系填補(bǔ)了推薦算法可信評價(jià)研究領(lǐng)域的空白, 同時(shí)為新聞推薦算法在可信方向的技術(shù)演進(jìn)提供思路,為智能算法治理相關(guān)工作提供有力參考。
未來研究工作重點(diǎn)將在本文中提出的指標(biāo)評價(jià)體系的基礎(chǔ)上, 建立更為嚴(yán)謹(jǐn)?shù)脑u價(jià)指標(biāo), 結(jié)合推薦算法具體應(yīng)用場景, 研究可量化的評價(jià)方法。此外,研究高效、準(zhǔn)確的自動化推薦算法可信測評技術(shù)和工具, 探索推薦算法可信性分析, 驗(yàn)證其在新聞等多領(lǐng)域的有效性, 同時(shí)為智能算法的可信研究給予參考。