李文俊 LI Wen-jun
(蘇州工業(yè)職業(yè)技術(shù)學(xué)院,蘇州 215000)
在數(shù)字經(jīng)濟(jì)快速發(fā)展的背景下,網(wǎng)絡(luò)數(shù)據(jù)的規(guī)模也急劇擴(kuò)大,我們?cè)絹?lái)越依賴于以數(shù)據(jù)為驅(qū)動(dòng)的算法系統(tǒng)。例如,從選擇餐廳和商品,到交友和求職,推薦系統(tǒng)已經(jīng)滲透進(jìn)在線生活的各領(lǐng)域。盡管推薦系統(tǒng)已經(jīng)得到廣泛的社會(huì)和商業(yè)認(rèn)可,但進(jìn)一步改進(jìn)的一個(gè)關(guān)鍵方面是推薦對(duì)參與者的有用性。一個(gè)推薦系統(tǒng)通常服務(wù)于兩類參與者,用戶和商品提供者/生產(chǎn)者,因此推薦的有用性也應(yīng)該是雙重的。一方面,推薦系統(tǒng)為用戶提供他們潛在的興趣項(xiàng)目,緩解信息過(guò)載給用戶帶來(lái)的困擾,強(qiáng)化用戶在平臺(tái)上的粘性;另一方面,推薦系統(tǒng)也應(yīng)該幫助商品提供者增加商品的銷(xiāo)售量,特別是暫時(shí)不受歡迎的商品,為其創(chuàng)造價(jià)值。
推薦系統(tǒng)的有效性通常是通過(guò)準(zhǔn)確性指標(biāo)來(lái)進(jìn)行評(píng)估,但是現(xiàn)在很多研究也從其他不同的角度來(lái)衡量推薦結(jié)果的質(zhì)量,最常用的非精度指標(biāo)包括多樣性、新穎性、驚喜性、可解釋性,以及近年來(lái)廣受關(guān)注的公平性[1-5]。相關(guān)研究認(rèn)為,決策支持系統(tǒng)會(huì)在無(wú)意中對(duì)已有的用戶偏見(jiàn)進(jìn)行建模或引入新的偏見(jiàn)[6],而推薦算法的不公平問(wèn)題將對(duì)長(zhǎng)尾弱勢(shì)商家或特定用戶造成傷害。例如,音樂(lè)平臺(tái)可能會(huì)根據(jù)歷史收聽(tīng)數(shù)據(jù)從而過(guò)多地曝光男性藝術(shù)家創(chuàng)作的音樂(lè)作品[7],社交平臺(tái)會(huì)不成比例的向男性和女性展示某些類型的招聘廣告[8]。隨著相關(guān)領(lǐng)域研究不斷的發(fā)展,公平性在推薦算法的研究仍存在許多挑戰(zhàn)需要探索。因此,本文從推薦算法公平性問(wèn)題的定義、研究現(xiàn)狀和關(guān)鍵技術(shù)進(jìn)行了總結(jié)和分析。
推薦系統(tǒng)不公平問(wèn)題的來(lái)源主要有兩個(gè)方面:偏見(jiàn)和歧視。
偏見(jiàn)可以分為兩類,一類是數(shù)據(jù)偏見(jiàn),數(shù)據(jù)在生成、收集和存儲(chǔ)的過(guò)程中都有可能引入偏見(jiàn)。例如,采用了帶偏見(jiàn)的采樣策略收集數(shù)據(jù),使用模型對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),模型很可能會(huì)學(xué)習(xí)那些代表性過(guò)高的群體樣本,在排名結(jié)果中將其排在前列,最終導(dǎo)致某些弱勢(shì)群體的曝光度變低。另一類偏見(jiàn)是算法模型導(dǎo)致的。例如,算法會(huì)進(jìn)一步增強(qiáng)訓(xùn)練數(shù)據(jù)中已有的偏見(jiàn)和偏態(tài)分布。流行度偏見(jiàn)是比較著名的例子,越活躍的用戶交互的越多的商品將被更加頻繁的出現(xiàn)在推薦結(jié)果中,獲得更多的曝光量。雖然流行商品可能可以較好的匹配用戶的偏好,提高系統(tǒng)的預(yù)測(cè)精確度,但是用戶通常并不認(rèn)為它們是非常有用的推薦,因?yàn)樗麄兒苋菀讖钠渌胤将@取到這些流行商品的信息,例如銷(xiāo)售排行榜、廣告或者朋友圈。
除了偏見(jiàn)以外,歧視也是一個(gè)因?yàn)槿祟愑幸鉄o(wú)意的導(dǎo)致不公平問(wèn)題的原因,例如對(duì)特定種族、性別和宗教等因素的敏感程度。
大多數(shù)關(guān)于公平性問(wèn)題的算法都將公平解釋為“缺乏歧視”[9],要求算法不應(yīng)該根據(jù)與當(dāng)前任務(wù)無(wú)關(guān)的屬性來(lái)歧視不同的輸入對(duì)象。這類屬性被稱為受保護(hù)或者敏感屬性,通常包括性別、宗教、年齡、性取向和種族等。例如,在招聘網(wǎng)站中,JAVA程序員的崗位應(yīng)該等比例的同時(shí)推薦給男性和女性求職者。
推薦系統(tǒng)的目的是根據(jù)用戶的個(gè)人資料和歷史記錄為用戶檢索感興趣的商品。根據(jù)不同的應(yīng)用程序和推薦場(chǎng)景,歷史記錄可能是對(duì)商品的顯性用戶評(píng)分或者是隱性的商品選擇(例如查看或點(diǎn)擊行為)。推薦系統(tǒng)會(huì)為用戶u和商品i評(píng)估一個(gè)分?jǐn)?shù),這個(gè)分?jǐn)?shù)反映了用戶u對(duì)商品i的偏好程度,或者稱為商品i對(duì)用戶u的相關(guān)性。最終,系統(tǒng)為用戶u形成一個(gè)推薦列表I,其中包括對(duì)用戶u評(píng)估分?jǐn)?shù)最高的若干商品。對(duì)于推薦系統(tǒng),這些評(píng)估分?jǐn)?shù)可以被視為效用分?jǐn)?shù)。抽象的說(shuō),如果用戶或商品的受保護(hù)屬性不會(huì)影響推薦結(jié)果的輸出,則該推薦系統(tǒng)被視為是“公平”的。
公平是一個(gè)復(fù)雜的概念,可以從不同的角度進(jìn)行定義,尤其是在推薦場(chǎng)景中,情況將變的更加復(fù)雜。公平性的概念可以從四個(gè)角度進(jìn)行定義,分別是個(gè)體公平和群體公平、消費(fèi)者公平和生產(chǎn)者公平、關(guān)聯(lián)公平和因果公平以及靜態(tài)公平和動(dòng)態(tài)公平。
個(gè)體公平vs群體公平。
個(gè)體公平假設(shè)類似的實(shí)體應(yīng)該受到類似的對(duì)待,即相似的用戶應(yīng)該收到相似的推薦列表。衡量類似的一種方式是基于距離,給定兩個(gè)實(shí)體之間的距離測(cè)量d和算法輸出之間的距離測(cè)量D。在公平的推薦系統(tǒng)上,當(dāng)兩個(gè)實(shí)體的距離d很小時(shí),希望算法輸出的距離D也很小。
群體公平指在通過(guò)受保護(hù)屬性劃分的群體間,平均評(píng)價(jià)指標(biāo)應(yīng)該相同。根據(jù)上述定義,研究人員提出了許多平均指標(biāo),例如機(jī)會(huì)均等、平均賠率、人口平等。例如根據(jù)訓(xùn)練集中用戶交互的商品數(shù)量將用戶分為活躍用戶組和非活躍用戶組,要求不同的用戶組應(yīng)獲得類似的推薦質(zhì)量,如F1和NDCG指標(biāo)。
消費(fèi)者公平vs生產(chǎn)者公平。
考慮到推薦系統(tǒng)中的公平需求可能來(lái)自不同的利益相關(guān)者,推薦系統(tǒng)中的公平也可以分為用戶(消費(fèi)者)一方的公平和商品(生產(chǎn)者)一方的公平。此外,還有一些情況下,系統(tǒng)可能要求對(duì)消費(fèi)者和生產(chǎn)者都公平。
消費(fèi)者公平性衡量的是對(duì)不同消費(fèi)者用戶組的不同推薦影響。用戶組通過(guò)受保護(hù)屬性進(jìn)行分組,如種族、性別屬性等,也可以是主觀賦予的屬性。有研究根據(jù)用戶與推薦系統(tǒng)的交互頻率對(duì)用戶進(jìn)行分組,發(fā)現(xiàn)只有一小部分(5%)的活躍用戶享有比其他用戶(95%)高得多的推薦質(zhì)量。
生產(chǎn)者公平性考慮了商品和商品生產(chǎn)者在推薦系統(tǒng)中的公平,目的是確保市場(chǎng)公平,避免壟斷支配或馬太效應(yīng)。例如,商品受歡迎程度普遍存在著偏見(jiàn),受歡迎的商品(頻繁評(píng)級(jí)、點(diǎn)擊或購(gòu)買(mǎi)的商品)得到不成比例的更多曝光,而不太受歡迎的商品很少被推薦。
關(guān)聯(lián)公平vs因果公平。
在推薦場(chǎng)景下,現(xiàn)有的大多數(shù)工作都是考慮關(guān)聯(lián)(或稱基于相關(guān)性)的公平性概念。然而,最近一些工作發(fā)現(xiàn),僅僅基于關(guān)聯(lián)概念不能很好地評(píng)估公平性,因?yàn)檫@樣的公平性定義不能推導(dǎo)導(dǎo)致不公平的潛在因果機(jī)制。
關(guān)聯(lián)公平也被稱為基于相關(guān)性/統(tǒng)計(jì)的公平,它衡量個(gè)體或者子集之間的統(tǒng)計(jì)差異,如平等機(jī)會(huì),平均賠率和人口平等。
因果公平不僅僅是建立在數(shù)據(jù)的基礎(chǔ)上,還考慮了對(duì)整體結(jié)構(gòu)的因果模型的額外知識(shí)。它的研究重點(diǎn)是在受保護(hù)屬性與模型輸出之間的因果關(guān)系,而不僅僅是關(guān)聯(lián)關(guān)系。
靜態(tài)公平vs動(dòng)態(tài)公平。
大多數(shù)機(jī)器學(xué)習(xí)中的公平性主要是在靜態(tài)環(huán)境中研究的,沒(méi)有考慮決策如何隨著時(shí)間的推移而改變數(shù)據(jù)。然而,推薦中的公平性需要考慮系統(tǒng)的動(dòng)態(tài)特性,因?yàn)樵S多特征會(huì)隨著時(shí)間的推移而變化,比如用戶的偏好和商品的流行程度。
靜態(tài)公平性提供了一種基于公平約束優(yōu)化的一次性公平性解決方案,重點(diǎn)研究在靜態(tài)或者一次性上下文中決策的公平性定義?,F(xiàn)有的公平性推薦研究都是置于靜態(tài)環(huán)境中的。
動(dòng)態(tài)公平性需要考慮環(huán)境中的動(dòng)態(tài)因素,并學(xué)習(xí)適應(yīng)這種動(dòng)態(tài)的公平策略。例如,GE研究了推薦系統(tǒng)中商品曝光的動(dòng)態(tài)公平性。這些商品根據(jù)訓(xùn)練數(shù)據(jù)中暴露的數(shù)量分為流行組和長(zhǎng)尾組。這項(xiàng)工作的直覺(jué)是,在基于推薦策略和用戶反饋的推薦過(guò)程中,商品受歡迎程度可能會(huì)發(fā)生變化,導(dǎo)致底層組標(biāo)簽隨著時(shí)間的推移而變化,也就是說(shuō),一個(gè)曾經(jīng)不受歡迎的商品現(xiàn)在可能變得受歡迎,反之亦然。為了解決這個(gè)問(wèn)題,作者將這個(gè)問(wèn)題表述為一個(gè)帶有項(xiàng)目曝光時(shí)間變化的公平性約束的馬可夫決策過(guò)程CMDP,并使用約束型策略優(yōu)化算法CPO來(lái)解決這個(gè)問(wèn)題。
現(xiàn)有的公平性推薦主要集中在三個(gè)方面:①公平量化,在各種公平定義下提出量化指標(biāo)來(lái)衡量算法的公平性;②公平性推薦算法建模,開(kāi)發(fā)算法或者模型來(lái)提高輸出的公平性;③公平評(píng)估,開(kāi)發(fā)可解釋的算法來(lái)識(shí)別模型不公平的原因,從而解釋模型為什么是公平或不公平的。
公平量化旨在開(kāi)發(fā)和研究量化指標(biāo),衡量排名或者推薦中的算法差異。關(guān)于公平量化的工作集中在推薦中定義各種類型的不公平概念,例如性別和年齡等敏感特征的不公平,受歡迎和不受歡迎商品的不公平,用戶推薦質(zhì)量的不公平。
公平推薦模型側(cè)重于基于一定的公平定義輸出公平的推薦結(jié)果,該類算法大致可以分為三類:預(yù)處理方法,中處理方法和后處理方法。
由于用戶交互數(shù)據(jù)是觀察數(shù)據(jù),用戶交互數(shù)據(jù)庫(kù)的不平衡成為造成偏差的主要因素之一。預(yù)處理方式通常旨在改變訓(xùn)練推薦算法的數(shù)據(jù)來(lái)減少這種偏差,再對(duì)模型進(jìn)行訓(xùn)練。因此,當(dāng)可以接觸原始數(shù)據(jù)時(shí),可以采用預(yù)處理方法。這類方法并不顯示地包含在模型輸出定義的公平性度量上。最具代表性的預(yù)處理方法包括:①數(shù)據(jù)收集過(guò)程中的基于公平感知的采樣技術(shù),以覆蓋所有群體的商品;②平衡技術(shù),以增加少數(shù)群體的覆蓋面,以及修復(fù)技術(shù)以確保標(biāo)簽正確性。
中處理方法旨在通過(guò)修改現(xiàn)有模型或引入新模型來(lái)消除模型訓(xùn)練過(guò)程中的偏見(jiàn)[10,11]。一種通用的方法是將公平性要求編碼為目標(biāo)函數(shù)的一部分,通常作為正則化項(xiàng),其優(yōu)化策略除了最小化原始損失函數(shù)之外必須最小化不公平程度。這種方法還試圖在推薦的準(zhǔn)確性和公平性之間找到一個(gè)平衡點(diǎn)。例如Ge研究了推薦場(chǎng)景中公平-效用的平衡關(guān)系,并提出了一個(gè)基于多目標(biāo)強(qiáng)化學(xué)習(xí)的公平感知推薦框架,該框架能夠在公平和效用之間的所有可能偏好空間上學(xué)習(xí)最優(yōu)推薦策略的單個(gè)參數(shù)表示。
后處理方法通常旨在對(duì)已經(jīng)生成的推薦列表進(jìn)行重新排序,或者根據(jù)一些特定的約束創(chuàng)建一個(gè)新的推薦列表。這類方法是減輕偏見(jiàn)的最常用方法,因?yàn)樗鼈兛梢院苋菀椎貞?yīng)用于任何推薦算法的輸出上。
公平評(píng)估側(cè)重于回答一個(gè)更基本的問(wèn)題:什么是導(dǎo)致模型不公平的原因?人工智能領(lǐng)域已經(jīng)有一些開(kāi)創(chuàng)性的工作,試圖推導(dǎo)出模型公平性的解釋。例如,Begley利用Shapley值將特征貢獻(xiàn)歸因于模型差異,從而產(chǎn)生解釋[8]。他提出的方法估計(jì)來(lái)自輸入特征的個(gè)體貢獻(xiàn)的總和,從而理解哪個(gè)特征對(duì)模型差異貢獻(xiàn)最大。雖然這種方法可以解釋模型間的差異,但由于推薦系統(tǒng)中的商品/用戶特征空間較大,不適用于推薦系統(tǒng)。為了解決這個(gè)問(wèn)題,Ge設(shè)計(jì)了一個(gè)基于學(xué)習(xí)的反事實(shí)推理方法來(lái)發(fā)現(xiàn)顯著影響公平-效用平衡的關(guān)鍵特征,并將它們用作黑盒特征感知推薦系統(tǒng)的公平解釋。
隨著數(shù)字經(jīng)濟(jì)在國(guó)內(nèi)迅速發(fā)展,越來(lái)越多的內(nèi)容創(chuàng)作者在互聯(lián)網(wǎng)上提供了越來(lái)越多的在線商品,用戶對(duì)商品的個(gè)性化需求也日益膨脹,推薦系統(tǒng)在在線平臺(tái)上的作用也日趨重要。能否向用戶和商家提供公平的推薦內(nèi)容和推薦機(jī)會(huì),將是在線平臺(tái)長(zhǎng)期生存下去留住用戶和商家的重要因素。本文遵循系統(tǒng)和結(jié)構(gòu)化的方法來(lái)簡(jiǎn)述了公平性問(wèn)題的各個(gè)方面和方法。首先歸納了推薦系統(tǒng)場(chǎng)景下公平性問(wèn)題產(chǎn)生的來(lái)源,從不同視角闡述了公平性的定義,總結(jié)了解決公平性問(wèn)題的模型方法,并提出了目前存在的問(wèn)題和未來(lái)的可能研究方向。希望相關(guān)內(nèi)容能夠?yàn)檠芯咳藛T在該領(lǐng)域的嘗試提供幫助。
到目前為止,研究人員已經(jīng)意識(shí)到了在推薦系統(tǒng)中改善公平性的重要意義,并且開(kāi)始了相關(guān)研究的探索。但是,相關(guān)領(lǐng)域的研究仍然相對(duì)有限,許多重要的問(wèn)題仍需解決。
首先,在公平性研究領(lǐng)域最大的問(wèn)題就是沒(méi)有一個(gè)通用的公平性定義。如上文所述,在不同的場(chǎng)景下,公平性考慮的視角相差很大,對(duì)公平性的定義也就不統(tǒng)一,甚至有些定義是不能同時(shí)滿足的。
其次,缺乏支撐公平性研究的數(shù)據(jù)。公平性研究目前遇到的一個(gè)重要挑戰(zhàn)就是缺乏數(shù)據(jù)的支持,現(xiàn)有數(shù)據(jù)十分有限。大部分實(shí)驗(yàn)數(shù)據(jù)都是通過(guò)研究人員獨(dú)立獲得的,收集更多通用數(shù)據(jù)將可以發(fā)現(xiàn)更多的偏見(jiàn)類型和內(nèi)在規(guī)律。
然后,公平約束的長(zhǎng)期影響。盡管一些現(xiàn)有的研究表明,某些公平性和效用指標(biāo)可能在短期內(nèi)相互平衡,但推薦中公平性的好處應(yīng)該在動(dòng)態(tài)和長(zhǎng)期的背景下考慮。這是因?yàn)閺拈L(zhǎng)遠(yuǎn)來(lái)看,如果使用者和生產(chǎn)者感到他們受到該系統(tǒng)的公平對(duì)待,他們對(duì)該系統(tǒng)的留存、興趣、信任和參與將會(huì)增加,這反過(guò)來(lái)有助于在該平臺(tái)上創(chuàng)造和培育一個(gè)可持續(xù)的經(jīng)濟(jì)生態(tài)系統(tǒng)。
推薦系統(tǒng)涉及用戶、內(nèi)容創(chuàng)作者和商品三類群體,需要兼顧考慮的問(wèn)題涉及很多。在信息化、智能控制高度發(fā)展的今天,工業(yè)界系統(tǒng)中為解決公平性問(wèn)題,需要考慮以下幾個(gè)方面:①需要構(gòu)建一個(gè)可控的公平系統(tǒng)。推薦系統(tǒng)的精準(zhǔn)性、多樣性、新穎性、公平性等指標(biāo)在理論上被證明是不可能同時(shí)滿足最優(yōu)的。同時(shí),多種類型的公平性也無(wú)法同時(shí)滿足。為了能夠在現(xiàn)實(shí)中的系統(tǒng)上應(yīng)用公平性研究成果,需要構(gòu)建一個(gè)可控的公平系統(tǒng),使得用戶和生產(chǎn)者可以選擇他們最關(guān)心的公平類型和性能指標(biāo),以此滿足不同群體的使用需求,實(shí)現(xiàn)千人千面。②除了考慮改進(jìn)個(gè)性化推薦算法模型,還需要融合經(jīng)濟(jì)學(xué)和社會(huì)科學(xué)的理論和知識(shí),例如經(jīng)濟(jì)學(xué)的帕累托優(yōu)化方法、邊際效益、最低工資、嫉妒公平等理論、社會(huì)學(xué)的基尼系數(shù)、壟斷指數(shù)等[5]。文獻(xiàn)[2]從帕累托視角出發(fā),通過(guò)曝光的負(fù)采樣策略在一定程度上平衡了用戶和物品的雙重公平性,并且提高了系統(tǒng)準(zhǔn)確率。③需要了解現(xiàn)實(shí)系統(tǒng)中不同利益相關(guān)者的各種公平要求之間的差異和關(guān)系,以及將面向開(kāi)發(fā)者的知識(shí)轉(zhuǎn)化為面向用戶的,從而直接造福于用戶也是非常重要的一面。工業(yè)界公平性模型的應(yīng)用大致可以分為兩類,面向用戶的和面向開(kāi)發(fā)人員的。面向用戶的應(yīng)用側(cè)重于向真實(shí)用戶提供公平性推薦結(jié)果,從而直接影響用戶的服務(wù),而面向開(kāi)發(fā)者的應(yīng)用主要是幫助開(kāi)發(fā)者了解系統(tǒng)的不公平性。例如,LinkedIn是一個(gè)面向用戶應(yīng)用的典型例子,他們開(kāi)發(fā)了一個(gè)大規(guī)模應(yīng)用框架,以確保照片領(lǐng)域的公平性,在人才搜索的時(shí)候?qū)崿F(xiàn)候選人排名中的機(jī)會(huì)均等和人口平等等公平標(biāo)準(zhǔn)。TikTok的視頻推薦也是一個(gè)面向用戶的應(yīng)用[5],他們?cè)谝曨l推薦中確保非知名博主的新作品與網(wǎng)紅明顯的視頻一樣有機(jī)會(huì)被廣大用戶所看到。Amazon SageMaker Clarify則是一個(gè)面向開(kāi)發(fā)者的應(yīng)用,它為開(kāi)發(fā)者提供了可解釋工具包并部署在AWS云上。基于這些工具包,世界各地的開(kāi)發(fā)者可以容易地檢測(cè)自己的數(shù)據(jù)和模型是否存在偏差,以及他們的結(jié)構(gòu)是否公平。