亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        算法公平與公平計(jì)算

        2023-09-22 06:21:32范卓婭孟小峰
        關(guān)鍵詞:公平定義群體

        范卓婭 孟小峰

        (中國人民大學(xué)信息學(xué)院 北京 100872)

        (fanzhuoya@ruc.edu.cn)

        公平是社會(huì)的基石,人類對(duì)公平的追求由來已久.早在公元前25 世紀(jì),古埃及人就發(fā)明了天平,用于保證交易雙方的公平.古埃及的《亡靈書》[1]更是以繪畫的形式記錄了亡者由公平女神瑪特引領(lǐng),在天平上進(jìn)行心臟稱量,并由冥王進(jìn)行審判的情景.這充分體現(xiàn)了公平在人類血脈中留下的深刻烙印.在此時(shí)期,人類社會(huì)尚處于原始公社階段,由于生產(chǎn)力極為低下,人們?cè)趧趧?dòng)中平等互助,勞動(dòng)產(chǎn)品在全體公社成員中實(shí)行平均分配,正如盧梭所言“原始社會(huì)人人平等”.

        隨著生產(chǎn)力的發(fā)展,人類社會(huì)逐漸出現(xiàn)了利益不同的階層和階級(jí)的分化,人類對(duì)公平的關(guān)注開始從勞動(dòng)轉(zhuǎn)向?qū)兿鳌浩鹊炔还浆F(xiàn)象的批判.古希臘思想家柏拉圖、亞里士多德等均針對(duì)公平問題闡述了不同的公平觀.柏拉圖在《理想國》中討論了如何設(shè)計(jì)公平的國家,他認(rèn)為公平的國家要求社會(huì)各階層之間分工互助,以達(dá)到全體公民的普遍幸福.亞里士多德對(duì)公平進(jìn)行了更為細(xì)致的劃分,將公平分為分配公平與矯正公平.與此同時(shí)期,我國思想家孔子也在《論語》中提出“不患寡而患不均”的分配公平理念以及“有教無類”的教育公平理念.20 世紀(jì)60 年代后,西方社會(huì)已經(jīng)發(fā)展進(jìn)入資本主義階段,貧富差距使得階級(jí)對(duì)立進(jìn)一步加劇,由此引發(fā)了人們對(duì)公平問題的激烈探討,其中產(chǎn)生的代表性理論如亞當(dāng)斯的公平理論、羅爾斯的“無知之幕”等.亞當(dāng)斯在1965 年提出公平理論[2],該理論聚焦于薪酬分配公平,認(rèn)為公平是員工進(jìn)行社會(huì)比較與歷史比較而產(chǎn)生的主觀感受.羅爾斯在《正義論》[3]中提出“無知之幕”的思想實(shí)驗(yàn),他將人們從當(dāng)下的社會(huì)角色和身份地位中剝離出來,回歸到最原始的平等狀態(tài):每個(gè)人都不知道自己將在社會(huì)上扮演什么角色.羅爾斯認(rèn)為在這種博弈境況下,人們會(huì)共同制定出公平的社會(huì)規(guī)則以保護(hù)社會(huì)中的弱勢群體.這些理論為后世解決公平問題提供了方法論指導(dǎo),但不可避免地帶有歷史局限性.

        近代社會(huì)的演進(jìn)由基礎(chǔ)設(shè)施的發(fā)展決定,不同階段的基礎(chǔ)設(shè)施帶來不同的生產(chǎn)要素和社會(huì)結(jié)構(gòu).如表1 所示,交通、電力、信息等基礎(chǔ)設(shè)施的建設(shè)發(fā)展,為社會(huì)發(fā)展提供了新的生產(chǎn)工具與方式,促使社會(huì)從工業(yè)革命1.0 時(shí)代逐步步入工業(yè)革命4.0 時(shí)代.在社會(huì)變革中,數(shù)據(jù)、算法逐漸成為社會(huì)的基本要素,由此而生的算法公平問題也不盡相同.在此背景下,本文所討論的算法公平不僅僅限定于作用于人的決策算法,而是將其概念拓展至廣義的算法公平.廣義的算法公平,是指在化解社會(huì)矛盾糾紛中尋求實(shí)現(xiàn)公平的算法[4],至少可追溯至17 世紀(jì).1654 年,數(shù)學(xué)家帕斯卡與費(fèi)馬就在信件往來中開創(chuàng)了概率論的研究,討論了如何在中斷的賭博中公平分配賭注的問題[5].在工業(yè)革命3.0 時(shí)代之前,算法公平問題主要集中在此類公平分配問題上,其根源是人與人之間由于利益糾葛而產(chǎn)生的不信任,即社會(huì)偏見.隨著互聯(lián)網(wǎng)與云計(jì)算基礎(chǔ)設(shè)施的建設(shè)發(fā)展,社會(huì)進(jìn)入工業(yè)革命3.0時(shí)代,算法公平問題主要來源于人們對(duì)海量高速的大數(shù)據(jù)的不信任,即數(shù)據(jù)偏見.隨著萬物互聯(lián)基礎(chǔ)設(shè)施的深入推進(jìn),在工業(yè)革命4.0 時(shí)代,人工智能技術(shù)悄然重塑了人們的生產(chǎn)生活方式,人工智能算法滲透至社交[6]、醫(yī)療[7]、司法[8]等領(lǐng)域,可謂無處不在、無孔不入.在此階段,算法公平問題主要來源于人們對(duì)黑箱模型的不信任,即模型偏見.由此可見,算法公平問題由來已久,且隨著社會(huì)發(fā)展的進(jìn)程不斷花樣翻新.

        Table 1 Evolution of Algorithmic Fairness表1 算法公平問題的演進(jìn)

        在數(shù)據(jù)基礎(chǔ)設(shè)施驅(qū)動(dòng)下,社會(huì)面臨數(shù)字化轉(zhuǎn)型,算法公平問題更是尤為重要.算法給人帶來的剝削將更為隱蔽,而影響將更為深遠(yuǎn).針對(duì)該問題,一方面,國家監(jiān)管部門日趨重視:2021 年、2022 年《中華人民共和國個(gè)人信息保護(hù)法》[9]與《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》[10]接連發(fā)布,要求算法服務(wù)提供者不得利用算法在交易價(jià)格等交易條件上實(shí)施不合理的差別待遇.另一方面,工業(yè)界迫切需要技術(shù)手段對(duì)算法公平加以保障.盡管公平問題的研究在社會(huì)科學(xué)各領(lǐng)域由來已久,但大部分僅停留在定性的表述上.算法公平,作為計(jì)算機(jī)科學(xué)與社會(huì)科學(xué)的交叉問題,不僅要繼承社會(huì)科學(xué)各領(lǐng)域的基本理論,更要從定性分析轉(zhuǎn)向定量計(jì)算.因此,本文將實(shí)現(xiàn)算法公平的方法稱為“公平計(jì)算”.然而現(xiàn)有的研究處于2種極端:社會(huì)科學(xué)領(lǐng)域的研究對(duì)于如何為算法公平計(jì)算提供理論基礎(chǔ)的關(guān)注度不高;計(jì)算機(jī)科學(xué)領(lǐng)域的研究忽視了對(duì)社會(huì)科學(xué)理論方法的借鑒繼承.

        基于此,本文主要針對(duì)計(jì)算機(jī)科學(xué)與社會(huì)科學(xué)領(lǐng)域的算法公平研究的交叉融合進(jìn)行探討,重點(diǎn)強(qiáng)調(diào)算法公平需要具備公平計(jì)算的方法和能力.本文首先介紹算法公平的定義及構(gòu)成要素.然后,根據(jù)社會(huì)的發(fā)展歷程及算法公平的構(gòu)成要素,將不公平的根源分為社會(huì)偏見、數(shù)據(jù)偏見以及模型偏見3 方面,并從這3 個(gè)方面對(duì)現(xiàn)有的算法公平計(jì)算方法進(jìn)行總結(jié)說明.最后,對(duì)算法公平指標(biāo)和公平方法進(jìn)行實(shí)驗(yàn)評(píng)估,并進(jìn)一步指出算法公平計(jì)算面臨的挑戰(zhàn).

        算法公平領(lǐng)域在國內(nèi)外已有眾多綜述文章[11-15],其中:Mehrabi 等人[11]在數(shù)據(jù)、模型和用戶交互的閉環(huán)上對(duì)偏見的來源進(jìn)行了詳盡的分類;陳晉音等人[12]從數(shù)據(jù)和模型2 個(gè)角度對(duì)深度學(xué)習(xí)中的公平性研究進(jìn)行綜述;劉文炎等人[13]從公平表征、公平建模和公平?jīng)Q策3 個(gè)角度對(duì)可信機(jī)器學(xué)習(xí)的公平性研究進(jìn)行總結(jié);古天龍等人[14]以機(jī)器學(xué)習(xí)生命周期的角度從預(yù)處理、中間處理和后處理3 類方法對(duì)公平機(jī)器學(xué)習(xí)研究進(jìn)行介紹;Pessach 等人[15]在介紹預(yù)處理、中間處理和后處理這3 類方法的同時(shí),還特別分析了它們的適用場景.

        但文獻(xiàn)[11-15]均存在2 方面不足:一是關(guān)于算法的討論局限于機(jī)器學(xué)習(xí)算法;二是關(guān)于公平方法的分類僅包括數(shù)據(jù)和模型2 個(gè)維度,而忽略了社會(huì)維度.因此,本文的創(chuàng)新之處主要包括3 點(diǎn):

        1)將公平問題所涉算法從機(jī)器學(xué)習(xí)算法推廣至通用算法.公平問題不僅是機(jī)器學(xué)習(xí)算法具有的問題,更是通用算法可能具有的問題.進(jìn)一步地,本文將算法公平的研究范圍從狹義拓展至廣義,從而涵蓋了使用算法手段解決社會(huì)矛盾糾紛的問題.

        2)將社會(huì)偏見下的算法公平納入算法公平問題的分類.首先,社會(huì)偏見、數(shù)據(jù)偏見與模型偏見之間既存在歷史發(fā)展關(guān)系,又存在相互作用關(guān)系,這使得本文提出的算法分類體系更加完整.其次,社會(huì)偏見下的算法公平計(jì)算方法對(duì)于數(shù)據(jù)偏見與模型偏見問題有重要的借鑒意義.比如目前數(shù)據(jù)偏見與模型偏見下的算法公平大多致力于實(shí)現(xiàn)不同群體在某種指標(biāo)上的相等,而社會(huì)偏見下的算法公平說明了公平不等于平等.

        3)實(shí)驗(yàn)對(duì)比了社會(huì)偏見下的算法公平與數(shù)據(jù)偏見、模型偏見下的算法公平的區(qū)別.本文在第5 節(jié)對(duì)不同的公平指標(biāo)進(jìn)行了實(shí)驗(yàn)計(jì)算,并比較了不同公平指標(biāo)間的關(guān)系.

        1 算法公平的內(nèi)涵

        在研究算法公平問題之前,我們首先需要了解什么是算法公平.因此,本節(jié)將從算法公平的定義出發(fā),說明算法公平的構(gòu)成要素;然后根據(jù)算法公平的構(gòu)成要素,將算法公平分為社會(huì)偏見下的算法公平、數(shù)據(jù)偏見下的算法公平以及模型偏見下的算法公平3 類.

        1.1 算法公平的定義

        算法公平是指算法不會(huì)根據(jù)個(gè)體或群體的先天特征或后天特征,對(duì)其產(chǎn)生歧視或偏見[11].因此,算法公平的定義可分為個(gè)體公平(individual fairness)與群體公平(group fairness)這2 類[16].個(gè)體公平是指任何2 個(gè)相似的個(gè)體都應(yīng)該受到算法相似的對(duì)待,通常需要一個(gè)與任務(wù)相關(guān)的距離度量來刻畫每對(duì)個(gè)體間的相似度.群體公平的基本理念是算法的輸出不應(yīng)該受與任務(wù)無關(guān)的屬性影響,如性別、宗教、種族等屬性不應(yīng)該影響算法的輸出,這些屬性又被稱作受保護(hù)屬性(protected attributes)或敏感屬性.受保護(hù)屬性的定義通常參照法律法規(guī),表2 展示了不同國家地區(qū)的法律規(guī)定的受保護(hù)屬性.在群體公平下,按照受保護(hù)屬性劃分群體,不同的群體應(yīng)受到算法相似的對(duì)待.

        Table 2 Protected Attributes Under the Laws of Different Countries表2 不同國家法律規(guī)定的受保護(hù)屬性

        參考Lippert-Rasmussen[21]對(duì)歧視的形式化定義,本節(jié)給出算法公平的形式化定義:

        定義1.算法公平(algorithmic fairness).算法 M 對(duì)于個(gè)體O1(相對(duì)于個(gè)體O2)在輸出out上是滿足個(gè)體公平的,當(dāng)且僅當(dāng)不存在2 種情況:

        1)存在與任務(wù)相關(guān)的距離度量dist,使得dist(O1)≈dist(O2);

        2)M通過輸出out對(duì)待O1與O2不同.

        算法 M 對(duì)于群體G1(相對(duì)于群體G2)在輸出out上是滿足群體公平的,當(dāng)且僅當(dāng)不存在2 種情況:

        1)存在受保護(hù)屬性A,使得G1具有屬性A(或M認(rèn)為G1具有屬性A),G2不具有屬性A(或 M 認(rèn)為G2不具有屬性A);

        2)相對(duì)于G2,M 通過輸出out對(duì)待G1更差,且正是因?yàn)?M 認(rèn)為G1具有屬性A而G2不具有屬性A.

        基于算法公平的定義,可以發(fā)現(xiàn):算法公平的主體是算法;算法公平的客體是個(gè)體或群體;算法公平的行為是算法的輸出.

        1.2 算法公平的分類

        根據(jù)算法公平參與者的不同,算法公平的構(gòu)成要素可分為數(shù)據(jù)提供者、服務(wù)提供者、公平監(jiān)管者以及用戶4 類,如圖1 所示.

        Fig.1 Components of algorithmic fairness圖1 算法公平的構(gòu)成要素

        1)數(shù)據(jù)提供者.數(shù)據(jù)提供者是指對(duì)數(shù)據(jù)進(jìn)行收集、加工及標(biāo)注等的第三方.

        2)服務(wù)提供者.服務(wù)提供者使用數(shù)據(jù)提供者提供的數(shù)據(jù)訓(xùn)練模型,并為算法使用者提供算法服務(wù).

        3)公平監(jiān)管者.公平監(jiān)管者是指確定公平標(biāo)準(zhǔn)并對(duì)算法進(jìn)行監(jiān)管審計(jì)的政府、法院等機(jī)構(gòu).

        4)用戶.用戶是算法公平的客體.當(dāng)用戶與算法的交互數(shù)據(jù)再次被數(shù)據(jù)提供者收集時(shí),則可能會(huì)造成偏見的惡性循環(huán).

        算法公平問題源自這四者與數(shù)據(jù)、模型之間的交互.若僅考慮算法的輸入輸出,則算法公平可以分為數(shù)據(jù)與模型2 個(gè)維度.但由于算法公平問題是一個(gè)社會(huì)問題,還應(yīng)考慮4 類參與者之間的利益權(quán)衡,包括用戶之間的利益分配、服務(wù)提供者提供的模型質(zhì)量與公平監(jiān)管者提出的公平約束之間的權(quán)衡等.因此,本文將算法公平分為社會(huì)、數(shù)據(jù)以及模型3 個(gè)維度.同時(shí),這3 個(gè)維度間具有如引言所述的社會(huì)發(fā)展關(guān)系.基于算法公平的分類,下文將分別對(duì)社會(huì)偏見下的算法公平、數(shù)據(jù)偏見下的算法公平以及模型偏見下的算法公平進(jìn)行介紹.這三者的內(nèi)涵與評(píng)估指標(biāo)之間存在交叉,其內(nèi)涵區(qū)別在于:社會(huì)偏見下的算法公平依據(jù)公平的特殊性質(zhì)進(jìn)行劃分,涉及多類參與者或體現(xiàn)公平的相對(duì)性;數(shù)據(jù)偏見與模型偏見下的算法公平依據(jù)現(xiàn)有研究通用的機(jī)器學(xué)習(xí)生命周期進(jìn)行劃分,數(shù)據(jù)偏見下的算法公平對(duì)應(yīng)于預(yù)處理方法;模型偏見下的算法公平對(duì)應(yīng)于中間處理與后處理方法.

        2 社會(huì)偏見下的算法公平

        在互聯(lián)網(wǎng)誕生之前及互聯(lián)網(wǎng)發(fā)展初期,公平問題主要來源于人與人之間的偏見與不信任,即社會(huì)偏見.社會(huì)偏見在社會(huì)分配中表現(xiàn)得尤為明顯,由于人與人之間存在利益沖突,人們不信任分配方式,擔(dān)心自己的利益受損.如果將分配方式視為一種算法,社會(huì)偏見問題即化歸為算法公平問題,其目標(biāo)是使參與人在博弈下達(dá)到一種平衡狀態(tài).根據(jù)損益情境,社會(huì)偏見下的算法公平可分為公平利益分配與公平損失分?jǐn)? 類.二者的區(qū)別在于:在利益分配中,每人希望分得的利益盡量多;在損失分?jǐn)傊?,每人希望分得的損失盡量少.

        2.1 公平利益分配

        公平利益分配發(fā)生于利益共享情境,如薪酬分配、教育資源分配、醫(yī)療資源分配等.蛋糕分割(cake cutting)[22-23]問題是公平利益分配的經(jīng)典問題,常用于建模異質(zhì)可分的有限資源分配.異質(zhì)是指蛋糕由不同的成分組成,參與者不只關(guān)心蛋糕的大小,可能有人喜歡奶油,有人喜歡果醬;可分是指蛋糕可以分割成任意小的塊,并且分割粒度不會(huì)影響蛋糕的價(jià)值.怎么才算蛋糕分得“公平”?研究者提出了2 種定義.

        定義2.均衡(proportionality).給定蛋糕區(qū)間 [0,1],參與者集合 N={1,2,…,n},每個(gè)參與者p對(duì)蛋糕有1個(gè)未知的估值函數(shù)Vp,分割程序分給每個(gè)參與者p的蛋糕為Cp,則均衡分割滿足條件:

        定義3.無怨(envy-freeness).給定蛋糕區(qū)間[0,1],參與者集合 N={1,2,…,n},每個(gè)參與者p對(duì)蛋糕有1個(gè)未知的估值函數(shù)Vp,分割程序分給每個(gè)參與者p的蛋糕為Cp,則無怨分割滿足條件:

        即每個(gè)參與者都認(rèn)為自己得到的蛋糕比別人的大,從而不會(huì)嫉妒他人.可見,無怨比均衡的要求更嚴(yán)格.

        當(dāng)n=2時(shí),“一人切,一人選”是很自然的均衡分割方法,同時(shí)可以證明這種方法也是滿足無怨的.假設(shè)A和B分蛋糕,“一人切,一人選”的算法流程為:

        ①A將蛋糕切分成2 塊;

        ②B選擇其中的1 塊;

        ③A最終分得剩下的1 塊.

        如果A切分的2 塊蛋糕一大一小,那么B會(huì)選擇更大的那塊,因此為了避免自己吃虧,A就會(huì)將蛋糕分成自己認(rèn)為價(jià)值相等的2 塊.最終結(jié)果為VA(CA)=VA(CB),VB(CB)≥VB(CA),即滿足無怨.

        當(dāng)n>2時(shí),可以基于“一人切,一人選”的方法遞歸地實(shí)現(xiàn)均衡分割.前n-1個(gè)人遞歸調(diào)用分割程序;然后,第n個(gè)人讓前n-1個(gè)人都把自己手里的蛋糕分成n份,并從每個(gè)人手中選出n份中的1 份.同理可證明這種方法是均衡的,但不滿足無怨.以n=3為例,A和B先采用“一人切,一人選”的方式將蛋糕分成2 塊,然后將各自的蛋糕都分成3 份,C從A的手中選出1 份,從B的手中選出1 份.如果A和B合謀將整個(gè)蛋糕分給了A,那么C會(huì)得到蛋糕的,A得到蛋糕的,不滿足無怨.

        盡管蛋糕分割問題歷史悠久,但依然吸引著眾多研究者前赴后繼.這是因?yàn)闃?gòu)造多人的無怨分割比較困難:Brams 等人[24]證明了當(dāng)n取任意值時(shí),都存在無怨分割方法,但該分割方法的運(yùn)行時(shí)間即便在n=4時(shí)也是無界的.針對(duì)運(yùn)行時(shí)間的無界問題,20 年后,Aziz 等人[25]提出了一種時(shí)間復(fù)雜度為的無怨分割方法.可見實(shí)現(xiàn)多人的無怨分割復(fù)雜度極大.目前只有3 人的無怨分割有相對(duì)完美的解法[22],假設(shè)A,B,C分蛋糕,其算法流程為:

        ①A將蛋糕切分為認(rèn)為相等的3 份X1,X2,X3,即

        ②B從3 份中選出自己認(rèn)為最大的那塊進(jìn)行修剪.例如,當(dāng)VB(X1)>VB(X2)≥VB(X3) 時(shí),B從X1中剪去X′,使得VB(X1X′)=VB(X2).

        ③按照C,B,A的順序依次從修剪剩下的3 塊中選擇1 塊.算法流程中,即從X1X′,X2,X3中進(jìn)行選擇.對(duì)于被修剪過的那塊,即X1X′,如果C沒有選擇該塊,B就得選擇該塊.在B和C中,設(shè)最終選擇被修剪過的那塊蛋糕的人為T,沒選擇該塊的人為.

        ④將剪掉的那塊,即X′,分成認(rèn)為相等的3 份.

        ⑤按照T,A,的順序依次選擇1 份.

        2.2 公平損失分?jǐn)?/h3>

        公平損失分?jǐn)偘l(fā)生于損失共擔(dān)的情境,如房租分?jǐn)?、保費(fèi)分?jǐn)偂h(huán)保成本分?jǐn)偟?差別定價(jià)問題是公平損失分?jǐn)偟慕?jīng)典問題,是指企業(yè)針對(duì)顧客、產(chǎn)品、時(shí)間、地點(diǎn)等因素的差異,為生產(chǎn)的產(chǎn)品設(shè)定不同的銷售價(jià)格.顧客細(xì)分定價(jià)是差別定價(jià)的一種典型形式,即企業(yè)將同一種商品或服務(wù)以不同的價(jià)格賣給不同的消費(fèi)者.

        針對(duì)該問題,在商品定價(jià)的場景下,Cohen 等人[26]研究了施加公平約束對(duì)社會(huì)總福利的影響.他們認(rèn)為商家的目標(biāo)是為每個(gè)消費(fèi)者群體分別定價(jià)以最大化利潤,在此基礎(chǔ)上提出了4 種公平約束定義:價(jià)格公平、需求公平、消費(fèi)者剩余公平和未購買估值公平.假設(shè)商家將1 種商品賣給2 個(gè)消費(fèi)者群體,記為群體0 和群體1.商品的單位成本是c.對(duì)于群體i=0,1,群體i的人數(shù)是di,商家的定價(jià)是 ρi.群體i中的消費(fèi)者對(duì)商品的估值為 τi~Ti(·),則群體i購買商品的比例為(ρi).消費(fèi)者剩余定義為消費(fèi)者對(duì)產(chǎn)品的估值與實(shí)際購買價(jià)格的差值,群體的消費(fèi)者剩余Si(ρi)=E[(τi-ρi)+].商家從群體i中獲利為Ri(ρi)=di(ρi-c)×(ρi),在沒有公平約束的情況下,商家的目標(biāo)是獲利最大,即目標(biāo)函數(shù)為=arg maxRi(ρi).

        4 種公平約束定義為:

        1)價(jià)格公平是指商家給每個(gè)消費(fèi)者群體的定價(jià)相似,即 ρi相似;

        2)需求公平是指每個(gè)消費(fèi)者群體的購買比例相似,即(ρi)相似;

        3)消費(fèi)者剩余公平是指每個(gè)消費(fèi)者群體的平均剩余相似,即Si(ρi)相似;

        4)未購買估值公平是指每個(gè)消費(fèi)者群體中未購買的消費(fèi)者對(duì)該產(chǎn)品的平均估值相似,即E[τi|τi<ρi]相似.

        Cohen 等人[26]使用參數(shù) α調(diào)節(jié)公平約束的嚴(yán)格程度,實(shí)驗(yàn)發(fā)現(xiàn),一定程度的價(jià)格公平下,社會(huì)總福利隨著約束程度的增強(qiáng)而提高;當(dāng)價(jià)格公平約束過于嚴(yán)格時(shí),社會(huì)總福利反而會(huì)降低.在未購買估值公平下,社會(huì)總福利隨著約束程度的增強(qiáng)而提高,但其中某個(gè)消費(fèi)者群體的需求可能會(huì)消失.

        在保險(xiǎn)定價(jià)的場景下,Donahue 等人[27]研究了基于期望的定價(jià)、基于破產(chǎn)的定價(jià)2 種定價(jià)方式,以及均等定價(jià)、比例定價(jià)2 種公平目標(biāo).假設(shè)投保人分為高風(fēng)險(xiǎn)和低風(fēng)險(xiǎn)2 類群體,N為投保人集合.高風(fēng)險(xiǎn)群體共有nH人,風(fēng)險(xiǎn)概率為rH.低風(fēng)險(xiǎn)群體共有nL人,風(fēng)險(xiǎn)概率為rL.被保物品的價(jià)值為ν,收取的總保費(fèi)為C.則在基于期望的定價(jià)下,有

        其中,ri表示第i個(gè)人的風(fēng)險(xiǎn)概率.

        在基于破產(chǎn)的定價(jià)下,設(shè)保險(xiǎn)公司1 年內(nèi)賠付總額為隨機(jī)變量 χ,給定破產(chǎn)概率為常數(shù)q,收取的保費(fèi)為 Cq,則有

        均等定價(jià)是指不同風(fēng)險(xiǎn)群體的保費(fèi)相同;比例定價(jià)是指不同風(fēng)險(xiǎn)群體的保費(fèi)與其風(fēng)險(xiǎn)概率成正比.Donahue 等人[27]證明了在基于破產(chǎn)的定價(jià)下,由于定價(jià)函數(shù)具有外部性,均等定價(jià)和比例定價(jià)均有利于高風(fēng)險(xiǎn)群體.此外,高風(fēng)險(xiǎn)群體相對(duì)風(fēng)險(xiǎn)越高,低風(fēng)險(xiǎn)群體需繳納的保費(fèi)越少,說明此種定價(jià)方式具有一定的“反社會(huì)性”.

        在商品定價(jià)中,嚴(yán)格的價(jià)格約束反而使得社會(huì)總福利降低;在保險(xiǎn)定價(jià)中,基于破產(chǎn)的定價(jià)使得人們期望別人的風(fēng)險(xiǎn)比自己高.這體現(xiàn)了算法公平的社會(huì)性,說明在某些場景下不夠合理的公平定義可能會(huì)帶來期望之外的負(fù)面影響.

        蛋糕分割問題與差別定價(jià)問題分別是個(gè)體公平與群體公平的典型范例,二者對(duì)比如表3.蛋糕分割問題考慮利益所得者之間的博弈,體現(xiàn)了公平的相對(duì)性,但無法擺脫個(gè)體公平計(jì)算復(fù)雜度高的缺點(diǎn);差別定價(jià)問題考慮監(jiān)管者與服務(wù)提供者之間的博弈,體現(xiàn)了公平的社會(huì)性,但忽略了群體內(nèi)的差異性.

        Table 3 Comparison Between Cake Cutting Problem and Price Discrimination Problem表3 蛋糕分割問題與差別定價(jià)問題對(duì)比

        3 數(shù)據(jù)偏見下的算法公平

        隨著計(jì)算機(jī)技術(shù)的高速發(fā)展,云計(jì)算技術(shù)逐漸崛起,我們步入了大數(shù)據(jù)時(shí)代.源源不斷產(chǎn)生的數(shù)據(jù)促使機(jī)器學(xué)習(xí)算法逐漸興起,大數(shù)據(jù)時(shí)代的數(shù)據(jù)偏見問題開始進(jìn)入研究視野.由于機(jī)器學(xué)習(xí)算法極其依賴于訓(xùn)練數(shù)據(jù),訓(xùn)練數(shù)據(jù)中存在的偏見極有可能使算法輸出產(chǎn)生偏見,即“偏見進(jìn),偏見出”(bias in,bias out).因此,數(shù)據(jù)偏見下的算法公平致力于在源頭上解決算法公平問題,在訓(xùn)練數(shù)據(jù)輸入算法之前消除其中存在的偏見,即預(yù)處理(pre-processing).如:IBM 于2019 年發(fā)布多樣性人臉(diversity in faces,DiF)數(shù)據(jù)集[28],提供分布均衡多樣的人臉圖像,以期減少人臉識(shí)別系統(tǒng)的偏見問題;Yang 等人[29]針對(duì)ImageNet 的數(shù)據(jù)收集流程進(jìn)行分析,在“person”子類中使用過濾與平衡數(shù)據(jù)分布的方法,試圖緩解數(shù)據(jù)集中的公平問題.表4 梳理了近年來數(shù)據(jù)偏見事件的原因與危害,可以發(fā)現(xiàn):數(shù)據(jù)偏見事件在各領(lǐng)域相似且頻繁地出現(xiàn),對(duì)人們的人格權(quán)與平等就業(yè)權(quán)造成潛在危害.

        Table 4 Causes and Harms of Data Bias Events in Recent Years表4 近年來數(shù)據(jù)偏見事件的原因與危害

        根據(jù)數(shù)據(jù)偏見的具體來源,數(shù)據(jù)偏見可以分為涌現(xiàn)偏見、歷史偏見、數(shù)據(jù)類別不平衡等類型.

        1)涌現(xiàn)偏見.涌現(xiàn)偏見[11,36]是指系統(tǒng)在與用戶交互的過程中,系統(tǒng)受到人類社會(huì)文化、價(jià)值觀等因素的影響,從而表現(xiàn)出的偏見.例如聊天機(jī)器人在剛上線時(shí)表現(xiàn)正常,經(jīng)過一段時(shí)間的使用后,在與用戶的交互中學(xué)習(xí)到人類社會(huì)中的偏見.

        2)歷史偏見.歷史偏見[11]是指歷史數(shù)據(jù)中已經(jīng)存在人類社會(huì)中的偏見未經(jīng)過處理即作為模型輸入.例如谷歌新聞中有關(guān)醫(yī)生的描述大多數(shù)與男性相關(guān),有關(guān)護(hù)士的描述大多數(shù)與女性相關(guān),由此未經(jīng)處理而訓(xùn)練出的詞向量同樣會(huì)表現(xiàn)出性別刻板印象.

        3)數(shù)據(jù)類別不平衡.數(shù)據(jù)類別不平衡是指數(shù)據(jù)集中的某一類樣本數(shù)遠(yuǎn)少于其他類,從而導(dǎo)致模型在少數(shù)類上表現(xiàn)較差.例如谷歌照片識(shí)別模型與Facebook 視頻主題推薦模型的訓(xùn)練數(shù)據(jù)中黑人樣本較少,導(dǎo)致模型在黑人測試集上的效果較差.

        此外,根據(jù)訓(xùn)練數(shù)據(jù)中是否包含受保護(hù)屬性,數(shù)據(jù)偏見可分為顯式偏見與隱式偏見2 類.顯式偏見是指訓(xùn)練數(shù)據(jù)中直接含有受保護(hù)屬性而導(dǎo)致的偏見,如受保護(hù)屬性群體的樣本數(shù)量不平衡,某些群體樣本數(shù)量過少使得模型在該群體樣本上表現(xiàn)較差.如圖2 所示,A為受保護(hù)屬性,為訓(xùn)練數(shù)據(jù)中受保護(hù)屬性之外的其他屬性,Y為算法輸出結(jié)果,顯式偏見表明Y與A之間存在直接相關(guān)性.此類偏見可用不平衡數(shù)據(jù)處理技術(shù)去除.隱式偏見是指訓(xùn)練數(shù)據(jù)去除了受保護(hù)屬性,但仍存在其他與受保護(hù)屬性相關(guān)的特征信息而導(dǎo)致的偏見,如詞向量中隱含的偏見、郵政編碼中隱含的種族信息等.如圖2 所示,訓(xùn)練數(shù)據(jù)中的受保護(hù)屬性A已消除,但由于訓(xùn)練數(shù)據(jù)中仍存在隱變量H與A具 有相關(guān)性,算法輸出結(jié)果Y與H具有相關(guān)性,間接導(dǎo)致Y與A具有相關(guān)性.此類偏見需使用公平表示學(xué)習(xí)技術(shù)去除.

        Fig.2 Explicit bias and implicit bias圖2 顯式偏見與隱式偏見

        3.1 不平衡數(shù)據(jù)處理

        常用的不平衡數(shù)據(jù)處理的方法有數(shù)據(jù)重賦權(quán)、數(shù)據(jù)重采樣、數(shù)據(jù)增強(qiáng)等.數(shù)據(jù)重賦權(quán)是指調(diào)整樣本在目標(biāo)函數(shù)中的權(quán)重.如Amini 等人[37]利用變分自編碼器學(xué)習(xí)數(shù)據(jù)集的潛在結(jié)構(gòu),然后根據(jù)學(xué)習(xí)到的潛在分布調(diào)整訓(xùn)練過程中數(shù)據(jù)點(diǎn)的權(quán)重.Kamiran 等人[38]認(rèn)為無偏的數(shù)據(jù)集應(yīng)滿足樣本標(biāo)簽與受保護(hù)屬性相互獨(dú)立的條件,假設(shè)數(shù)據(jù)集 D 中樣本為X,標(biāo)簽為Y,受保護(hù)屬性為A,則數(shù)據(jù)集的期望分布為

        數(shù)據(jù)集的實(shí)際分布為

        因此,Kamiran 等人[38]將重賦權(quán)函數(shù)定義為

        當(dāng)W(X)>1,即樣本點(diǎn)比例比期望比例少時(shí),增加樣本點(diǎn)的權(quán)重;當(dāng)W(X)<1,即樣本點(diǎn)比例比期望比例多時(shí),減少樣本點(diǎn)的權(quán)重.

        數(shù)據(jù)重采樣可分為欠采樣和過采樣2 類.欠采樣旨在減少多數(shù)類的樣本量,如隨機(jī)欠采樣對(duì)多數(shù)類的樣本進(jìn)行隨機(jī)刪除.過采樣旨在增加少數(shù)類的樣本量,如隨機(jī)過采樣對(duì)少數(shù)類的樣本進(jìn)行隨機(jī)復(fù)制.隨機(jī)欠采樣方法與隨機(jī)過采樣方法均存在缺陷:前者會(huì)丟失某些重要樣本的隱含信息;后者容易使模型產(chǎn)生過擬合.基于隨機(jī)過采樣,Chawla 等人[39]提出了改進(jìn)方案——合成少數(shù)類過采樣算法(synthetic minority over-sampling technique,SMOTE).SMOTE 的基本思想是合成與少數(shù)類樣本相似的新樣本:首先采用k近鄰算法計(jì)算出每個(gè)少數(shù)類樣本的k個(gè)近鄰,然后從k個(gè)近鄰中隨機(jī)選擇N個(gè)樣本進(jìn)行隨機(jī)線性插值構(gòu)造出新樣本.針對(duì)無法進(jìn)行數(shù)據(jù)重賦權(quán)的數(shù)據(jù)點(diǎn),Kamiran 等人[38]設(shè)計(jì)了隨機(jī)普遍采樣與優(yōu)先采樣2 種采樣方法.隨機(jī)普遍采樣首先將數(shù)據(jù)集根據(jù)二元受保護(hù)屬性與二元樣本標(biāo)簽交叉劃分為4 組,然后在每組數(shù)據(jù)點(diǎn)中隨機(jī)采樣期望數(shù)目的樣本.優(yōu)先采樣依賴于用訓(xùn)練數(shù)據(jù)提前訓(xùn)練好的樸素貝葉斯分類器,優(yōu)先對(duì)靠近分類器決策邊界的樣本進(jìn)行采樣.

        數(shù)據(jù)增強(qiáng)是計(jì)算機(jī)視覺領(lǐng)域的常用數(shù)據(jù)預(yù)處理方法,通過對(duì)圖像進(jìn)行幾何變換(如翻轉(zhuǎn)、旋轉(zhuǎn)、平移、裁剪、縮放等)與顏色變換(如色彩調(diào)整、灰度、加噪、濾波等)2 類操作,可以有效提高圖像數(shù)據(jù)的樣本量和多樣性.類似地,自然語言處理領(lǐng)域也發(fā)展出文本增強(qiáng)技術(shù),通過回譯、隨機(jī)詞與非核心詞替換等方式擴(kuò)增文本.如Zhao 等人[40]通過交換命名實(shí)體性別的方式減少指代消解任務(wù)中的性別偏見.

        3.2 公平表示學(xué)習(xí)

        由于不平衡數(shù)據(jù)處理無法解決隱式偏見問題,部分研究者致力于消除數(shù)據(jù)中存在的敏感屬性信息,意圖在輸入數(shù)據(jù)X到輸出結(jié)果Y的映射之間增加一個(gè)X的表示Z,使得Z中在不包含敏感屬性信息的同時(shí)能很好地適應(yīng)于下游的任務(wù),即公平表示學(xué)習(xí).McNamara等人[41]將公平表示學(xué)習(xí)的構(gòu)成要素分為數(shù)據(jù)監(jiān)管者(data regulator)、數(shù)據(jù)生產(chǎn)者(data producer)和數(shù)據(jù)使用者(data user)3 類.其中,數(shù)據(jù)監(jiān)管者負(fù)責(zé)確定公平定義標(biāo)準(zhǔn)、確定原始數(shù)據(jù)并審計(jì)結(jié)果;數(shù)據(jù)生產(chǎn)者負(fù)責(zé)基于原始數(shù)據(jù)計(jì)算公平的數(shù)據(jù)表示,進(jìn)行數(shù)據(jù)去偏;數(shù)據(jù)使用者負(fù)責(zé)基于去偏的數(shù)據(jù)訓(xùn)練模型.Zemel等人[42]提出了LFR(learning fair representations)方法,要求X到Z的映射滿足統(tǒng)計(jì)平等.隨后,眾多研究者采用對(duì)抗性訓(xùn)練的方法進(jìn)行公平表示學(xué)習(xí).關(guān)于對(duì)抗性訓(xùn)練的分類存在爭議,由于對(duì)抗性訓(xùn)練也是對(duì)目標(biāo)函數(shù)的一種修改,部分研究者將對(duì)抗性訓(xùn)練劃為模型去偏方法[12].但本文認(rèn)為對(duì)抗性訓(xùn)練作為一種表示學(xué)習(xí)方法,其學(xué)習(xí)出的公平表示可遷移于不同的下游任務(wù).從原始數(shù)據(jù)到表示的轉(zhuǎn)換歸屬于預(yù)處理方法更為合適,因此本文將對(duì)抗性訓(xùn)練方法劃分為數(shù)據(jù)偏見下的算法公平.如Madras 等人[43]提出了LAFTR(learning adversarially fair and transferable representations)方法,采用對(duì)抗性訓(xùn)練和遷移學(xué)習(xí)的方法訓(xùn)練可遷移于不同任務(wù)的公平表示,該方法支持基準(zhǔn)率公平、準(zhǔn)確率公平等公平定義.LAFTR 的目標(biāo)函數(shù)如式(8)(9)所示:

        其中X為輸入,Y為標(biāo)簽,A為受保護(hù)屬性,模型結(jié)構(gòu)包含編碼器f、分類器g、對(duì)抗器h和解碼器k這4 部分,損失函數(shù)由分類損失LC、重構(gòu)損失LDec和對(duì)抗損失LAdv這 3 部分構(gòu)成.設(shè)Z=f(X,A),首先,編碼器f將X編碼為潛在表示Z,分類器g根據(jù)Z來預(yù)測輸出結(jié)果Y,分類損失LC用于控制Z能夠分類準(zhǔn)確;然后,解碼器k將Z與受保護(hù)屬性A解碼回X,重構(gòu)損失LDec用于控制Z包含X中的顯著信息;最后,對(duì)抗器h根據(jù)Z來預(yù)測A,對(duì)抗損失LAdv用于控制Z中不包含A中的信息.

        Alvi 等人[44]受領(lǐng)域自適應(yīng)的啟發(fā),同樣基于對(duì)抗性訓(xùn)練學(xué)習(xí)去偏的特征表示.該方法分為主要任務(wù)與輔助任務(wù)2 個(gè)分支:主要任務(wù)用于完成目標(biāo)屬性的分類;輔助任務(wù)包括受保護(hù)屬性分類與混淆2個(gè)對(duì)抗目標(biāo),用于評(píng)估并移除特征表示中遺留的受保護(hù)屬性信息.此外,基于對(duì)抗性訓(xùn)練的公平表示學(xué)習(xí)也可用于更多具有復(fù)雜數(shù)據(jù)類型與任務(wù)的應(yīng)用場景.如:Bose 等人[45]使用生成對(duì)抗性訓(xùn)練的方式學(xué)習(xí)公平的圖嵌入向量;Zhang 等人[46]將對(duì)抗性訓(xùn)練的公平表示學(xué)習(xí)方式應(yīng)用于深度異常檢測任務(wù);Sweeney等人[47]在情感分析任務(wù)中,采用對(duì)抗性訓(xùn)練將受保護(hù)屬性與情緒狀態(tài)解相關(guān);Ball-Burack 等人[48]針對(duì)推特有害信息檢測的場景,將優(yōu)先采樣方法與對(duì)抗性訓(xùn)練加以結(jié)合,緩解該場景下的種族偏見.

        但是對(duì)抗性訓(xùn)練成本高且難以優(yōu)化,針對(duì)該問題,Shen 等人[49]采用對(duì)比學(xué)習(xí)的方法學(xué)習(xí)公平的表示,其損失函數(shù)為

        其中 :Lce為 交叉熵?fù)p失;Lscl為監(jiān)督對(duì)比損失,用于在表示空間中將類別相同的相似樣本拉近;Lfcl為公平對(duì)比損失,用于在表示空間中將受保護(hù)屬性相同的相似樣本推遠(yuǎn).Hong 等人[50]將數(shù)據(jù)有偏場景分為偏差標(biāo)簽已知和偏差標(biāo)簽未知2 種情況:在偏差標(biāo)簽已知情況下提出了與Shen 等人[49]相似的目標(biāo);在偏差標(biāo)簽未知的情況下將偏差捕獲模型與對(duì)比學(xué)習(xí)相結(jié)合.

        4 模型偏見下的算法公平

        隨著人工智能時(shí)代的日益發(fā)展,算法黑箱使得人們開始質(zhì)疑僅消除訓(xùn)練數(shù)據(jù)中的偏見是否足夠.Baeza-Yates[51]指出機(jī)器學(xué)習(xí)模型在訓(xùn)練過程中也可能產(chǎn)生偏見,即模型偏見.造成模型偏見的原因有不合理的目標(biāo)函數(shù)[52]、不合理的特征設(shè)計(jì)[53]等.針對(duì)此類偏見,部分學(xué)者致力于在機(jī)器學(xué)習(xí)模型訓(xùn)練或預(yù)測過程中實(shí)現(xiàn)某種公平度量指標(biāo)上的均等,主要手段包括在模型訓(xùn)練的目標(biāo)函數(shù)中引入公平約束、調(diào)整輸出閾值等.如Li 等人[54]在聯(lián)邦學(xué)習(xí)場景下將公平定義為不同設(shè)備間模型精度分布的方差,在模型訓(xùn)練過程中優(yōu)化施加了公平約束的目標(biāo)函數(shù).根據(jù)機(jī)器學(xué)習(xí)算法的類別,模型偏見下的算法公平大致可分為公平有監(jiān)督學(xué)習(xí)與公平無監(jiān)督學(xué)習(xí)2 類.

        4.1 公平有監(jiān)督學(xué)習(xí)

        公平有監(jiān)督學(xué)習(xí)的研究最初集中于分類任務(wù),并逐漸擴(kuò)展至推薦、信息檢索等領(lǐng)域.分類任務(wù)的經(jīng)典公平定義有基準(zhǔn)率公平[55]、準(zhǔn)確率公平[56]和校準(zhǔn)公平[57]3 種,新的公平定義層出不窮,Narayanan[58]曾總結(jié)了21 種不同的公平定義,本節(jié)僅對(duì)比分析其中常用的6 種.在這6 種定義中,定義4~6 為最常用的公平定義;定義7~9 具有獨(dú)特的基本思想或適用范圍.

        定義4.基準(zhǔn)率公平(base rate fairness).給定為二值分類器,A為受保護(hù)屬性,基準(zhǔn)率公平要求:

        定義5.準(zhǔn)確率公平(accuracy-based fairness).給定為二值分類器,A為 受保護(hù)屬性,Y為真實(shí)值,準(zhǔn)確率公平要求:

        準(zhǔn)確率公平又被稱為機(jī)會(huì)平等(equal opportunity),在此定義下,受保護(hù)的群體與未受保護(hù)的群體具有相等的真陽性率和假陰性率.

        定義6.校準(zhǔn)公平(calibration-based fairness).給定為分類器,A為 受保護(hù)屬性,Y為真實(shí)值,校準(zhǔn)公平要求:

        在此定義下,對(duì)于任何預(yù)測概率η,受保護(hù)的群體與未受保護(hù)的群體實(shí)際屬于正例的概率是相等的.

        定義4~6 均基于統(tǒng)計(jì)意義上的獨(dú)立或條件獨(dú)立,隨著因果科學(xué)的發(fā)展,Kusner 等人[59]基于因果推斷技術(shù)提出反事實(shí)公平(counterfactual fairness)的定義,認(rèn)為在改變受保護(hù)屬性,并保持其他非因果依賴于受保護(hù)屬性的因素不變的情況下,若算法的預(yù)測結(jié)果分布不發(fā)生變化,則該算法是公平的.

        定義7.反事實(shí)公平(counterfactual fairness).給定為分類器,A為 受保護(hù)屬性,為受保護(hù)屬性之外的其余屬性.(G,V,F)構(gòu) 成因果模型,其中 G為外生變量,不由可觀測變量集合 V 中的任何變量決定;V為內(nèi)生變量,V ≡A∪;F為結(jié)構(gòu)方程,將每個(gè)內(nèi)生變量的值表示為 G 和 F中其他變量值的函數(shù).反事實(shí)公平要求:

        在樣本真實(shí)標(biāo)簽存在偏見的情況下,反事實(shí)公平通過外生變量的計(jì)算去除了樣本真實(shí)標(biāo)簽中的偏見;而準(zhǔn)確率公平和校準(zhǔn)公平均依賴于樣本的真實(shí)標(biāo)簽,無法應(yīng)對(duì)此類情況.

        定義4~7 均用于判斷算法是否公平,但無法衡量算法不公平的程度.針對(duì)該問題,Speicher 等人[60]基于廣義熵指數(shù)對(duì)算法不公平程度進(jìn)行度量.

        定義8.廣義熵指數(shù)(generalized entropy index).給定bi為個(gè)體i在算法決策結(jié)果下的收益,b為收益均值,n為總?cè)藬?shù),α ?{0,1}.廣義熵指數(shù)計(jì)算方法為:

        廣義熵指數(shù)可以統(tǒng)一地度量個(gè)體與群體層面的不公平,但其缺點(diǎn)在于收益取值依賴于應(yīng)用場景,不易確定.以保釋為例,收益bi的取值如表5 所示.

        Table 5 Benefit Value Under Bail Scenario表5 保釋場景下的收益取值

        目前的公平定義大多僅針對(duì)單一受保護(hù)屬性,如判斷算法是否對(duì)女性有歧視;針對(duì)交叉受保護(hù)屬性,如判斷算法是否對(duì)黑人女性有歧視,F(xiàn)oulds 等人[61]借鑒差分隱私的定義提出了差分公平(differential fairness),用公平代價(jià) ε限制算法在不同群體間輸出概率的差異.

        定義9.ε-差分公平(differential fairness).給定樣本的分布θ,ai,aj為 不同的受保護(hù)屬性.若分類器滿足條件:

        在此定義下,無論受保護(hù)屬性的組合如何,算法輸出概率都是相似的.

        以上介紹了分類任務(wù)中的6 種公平定義,表6 對(duì)這6 種公平定義的基本思想和適用范圍進(jìn)行對(duì)比分析.首先,在公平類型上,這6 種公平定義中只有反事實(shí)公平與廣義熵指數(shù)支持個(gè)體公平,其余均屬于群體公平類型;其次,在基本思想上,這6 種公平定義中只有反事實(shí)公平是要求受保護(hù)屬性A與預(yù)測結(jié)果之間的因果獨(dú)立,其余均是統(tǒng)計(jì)意義上的獨(dú)立或條件獨(dú)立;最后,在適用場景上,差分公平適用于交叉受保護(hù)屬性,廣義熵指數(shù)與差分公平均可用于衡量算法不公平的程度.

        4.2 公平無監(jiān)督學(xué)習(xí)

        公平無監(jiān)督學(xué)習(xí)的研究基于公平有監(jiān)督學(xué)習(xí)的眾多公平定義進(jìn)行類比與拓展,主要集中于聚類、主成分分析、異常檢測等任務(wù).Chierichetti 等人[62]研究了經(jīng)典聚類問題中的k-center 和k-median 算法,要求受保護(hù)群體在每個(gè)聚簇中具有相似的表示,提出如定義10 的公平目標(biāo).該目標(biāo)希望每個(gè)聚簇中不同受保護(hù)群體所占比例盡可能相等,即當(dāng)點(diǎn)集Ui中屬于群體A的 數(shù)據(jù)點(diǎn)和屬于群體B的數(shù)據(jù)點(diǎn)相同時(shí),balance(Ui)取得最大值1,即最公平;當(dāng)Ui中只包含屬于單一群體的數(shù)據(jù)點(diǎn)時(shí),balance(Ui)取得最小值0,即最不公平.Backurs 等人[63]基于和Chierichetti 等人[62]相同的公平目標(biāo),將公平聚類算法的時(shí)間復(fù)雜度從超二次降低為線性.

        定義10.平衡(balance).給定點(diǎn)集U,整數(shù)k,U={U1,U2,…,Uk}為 點(diǎn)集U上的一個(gè)劃分,對(duì)于受保護(hù)群體GA和GB,Ui?U,Ui上的平衡定義為

        則劃分 U 上的平衡定義為

        Ghadiri 等人[65]指出在設(shè)施選址問題上,平衡的目標(biāo)并不是公平的,并提出了社會(huì)公平定義.

        定義12.社會(huì)公平(socially fairness).給定點(diǎn)集U,整 數(shù)k,U={U1,U2,…,Uk}為點(diǎn)集U上的一個(gè)劃分,Λ={λ1,λ2,…,λk}為聚類中心的集合,聚類算法的代價(jià)為

        則對(duì)于受保護(hù)群體GA和GB,社會(huì)公平的目標(biāo)是最小化

        表7 對(duì)聚類任務(wù)的3 種公平定義的基本思想和適用范圍進(jìn)行對(duì)比分析.3 種公平定義均屬于群體公平類型,其中只有比例性定義的群體劃分不依賴于受保護(hù)屬性.在基本思想上,平衡定義僅考慮聚簇中不同受保護(hù)群體的比例;比例性定義考慮聚簇的規(guī)模;社會(huì)公平考慮數(shù)據(jù)點(diǎn)到聚簇中心的平均距離.可見,即便任務(wù)相同,在不同的應(yīng)用場景下,公平目標(biāo)也不同.在群體劃分上,比例性定義不依賴于受保護(hù)屬性.

        Table 7 Comparative Analysis of Three Definitions of Fairness in Clustering Tasks表7 聚類任務(wù)3 種公平定義的對(duì)比分析

        基于定義12,模型偏見下的算法公平可采取中間處理(in-processing)與后處理(post-processing)這2 種方法進(jìn)行實(shí)現(xiàn).中間處理是指在模型訓(xùn)練過程中修改訓(xùn)練目標(biāo),通常采取公平正則化的方法.如Kamishima 等人[66]基于受保護(hù)屬性與算法輸出的互信息設(shè)計(jì)了偏見指數(shù),將偏見指數(shù)以正則化項(xiàng)的方式引入模型的損失函數(shù)中.當(dāng)偏見指數(shù)為0 時(shí)即滿足統(tǒng)計(jì)平等的定義.除了公平正則化外,還有其他的方法致力于修改訓(xùn)練目標(biāo).如域獨(dú)立性學(xué)習(xí)(domain independent learning,DI)[67]針對(duì)受保護(hù)屬性不同的群體分別訓(xùn)練單獨(dú)的分類器,然后再集成分類器的輸出.組偏移的分布魯棒性優(yōu)化(distributionally robust optimization for group shifts,G-DRO)[68]改進(jìn)了期望風(fēng)險(xiǎn)最小化的目標(biāo),通過優(yōu)化最差組的訓(xùn)練誤差,增強(qiáng)模型的泛化性從而改善公平性.后處理是指將模型訓(xùn)練的過程視為黑箱,通過調(diào)整模型輸出結(jié)果來實(shí)現(xiàn)公平.如Hardt 等人[56]通過設(shè)置閾值機(jī)制調(diào)整貝葉斯模型的輸出結(jié)果,從而實(shí)現(xiàn)準(zhǔn)確率公平.

        5 算法公平的評(píng)估

        為評(píng)估不同公平指標(biāo)的關(guān)系與不同公平方法的效果,本節(jié)分別從公平指標(biāo)與公平方法2 個(gè)方面對(duì)算法公平進(jìn)行實(shí)驗(yàn).

        5.1 公平指標(biāo)評(píng)估

        德國信用數(shù)據(jù)集、銀行營銷數(shù)據(jù)集、Adult 數(shù)據(jù)集、COMPAS 數(shù)據(jù)集是算法公平的常用數(shù)據(jù)集.本節(jié)基于這4 個(gè)數(shù)據(jù)集,分別對(duì)社會(huì)偏見、數(shù)據(jù)偏見以及模型偏見下的算法公平進(jìn)行實(shí)驗(yàn)評(píng)估.其中,德國信用數(shù)據(jù)集與銀行營銷數(shù)據(jù)集采用與Kamiran 等人[38]相同的敏感屬性設(shè)置,以年齡作為敏感屬性,將人群分為25 歲及以上(成人)、25 歲以下(青年)2 類群體,同時(shí)去除性別屬性以及與性別相關(guān)的婚姻狀態(tài)屬性(只考慮單一敏感屬性).Adult 數(shù)據(jù)集與COMPAS 數(shù)據(jù)集采用種族作為敏感屬性.本節(jié)將數(shù)據(jù)集隨機(jī)拆分為70%的訓(xùn)練集與30%的測試集,分別訓(xùn)練決策樹、樸素貝葉斯、邏輯回歸、支持向量機(jī)(support vector machine,SVM)這4 種傳統(tǒng)機(jī)器學(xué)習(xí)模型,以及神經(jīng)網(wǎng)絡(luò)模型中的多層感知機(jī)(multilayer perceptron,MLP),共計(jì)5 種分類模型.模型參數(shù)選取scikit-learn 的默認(rèn)參數(shù).

        關(guān)于本節(jié)對(duì)比的公平指標(biāo),社會(huì)偏見下的算法公平指標(biāo)參考均衡蛋糕分割的思想,假設(shè)樣本i對(duì)信用評(píng)分的估值vi符合正態(tài)分布N(0.5,0.25),表示樣本i的 預(yù)測標(biāo)簽,A=0 表 示青年群體,A=1表示成人群體,則定義加權(quán)基準(zhǔn)率公平指標(biāo)為

        數(shù)據(jù)偏見下的算法公平指標(biāo)參考基準(zhǔn)率公平的定義,采用2 類群體的正例的比例差異進(jìn)行衡量,定義數(shù)據(jù)基準(zhǔn)率公平為

        模型偏見下的算法公平指標(biāo)參照4.1 節(jié)的6 種定義.其中,基準(zhǔn)率公平、準(zhǔn)確率公平與校準(zhǔn)公平均采用概率差值的絕對(duì)值進(jìn)行計(jì)算;反事實(shí)公平采用反事實(shí)操作前后的真陽性率差值的絕對(duì)值進(jìn)行計(jì)算;廣義熵指數(shù)設(shè)置參數(shù) α=2;差分公平采用拉普拉斯平滑進(jìn)行概率估計(jì).

        上述公平指標(biāo)均是數(shù)值越小,表示公平性越高.此外,為衡量模型與數(shù)據(jù)集相比在基準(zhǔn)率公平上的改善,定義基準(zhǔn)率公平差異為模型基準(zhǔn)率公平與數(shù)據(jù)基準(zhǔn)率公平的差值,該指標(biāo)數(shù)值越大,表示模型在基準(zhǔn)率公平上的改善越大.針對(duì)公平指標(biāo),由圖3~5分析得到3 條結(jié)論.

        Fig.3 Comparison of fairness indicators of different models圖3 不同模型的公平指標(biāo)對(duì)比

        1)分類模型在不同公平指標(biāo)上的表現(xiàn)差異較大.針對(duì)各分類模型,計(jì)算社會(huì)偏見、模型偏見下的算法公平指標(biāo)對(duì)比如圖3 所示.可以發(fā)現(xiàn):沒有任何一種分類模型可以在7 種公平指標(biāo)上均表現(xiàn)最佳.如對(duì)于德國信用數(shù)據(jù)集:在準(zhǔn)確率公平上,樸素貝葉斯模型表現(xiàn)最好;而在廣義熵指數(shù)上,樸素貝葉斯模型表現(xiàn)較差.在差分公平上,決策樹模型表現(xiàn)較好;而在反事實(shí)公平和廣義熵指數(shù)上,決策樹模型均表現(xiàn)最差.在反事實(shí)公平上,邏輯回歸模型表現(xiàn)最好;而在差分公平上,邏輯回歸模型表現(xiàn)較差.

        2)在現(xiàn)有模型上,公平性與準(zhǔn)確性之間存在權(quán)衡關(guān)系.如圖4 所示,準(zhǔn)確率較高的模型在基準(zhǔn)率公平上的表現(xiàn)往往較差.例如:在德國信用數(shù)據(jù)集和銀行營銷數(shù)據(jù)集上,準(zhǔn)確率最高的邏輯回歸模型在基準(zhǔn)率公平上的改善較??;在Adult 數(shù)據(jù)集上,準(zhǔn)確率較高的MLP 模型在基準(zhǔn)率公平上的改善最?。辉贑OMPAS 數(shù)據(jù)集上,邏輯回歸與SVM 模型在準(zhǔn)確率上表現(xiàn)較好,而在基準(zhǔn)率公平上表現(xiàn)較差.這體現(xiàn)出公平性與準(zhǔn)確性之間的權(quán)衡.

        Fig.4 Accuracy and base rate fairness difference of different models圖4 不同模型的準(zhǔn)確率與基準(zhǔn)率公平差異

        3)不同公平指標(biāo)間的相關(guān)性差異較大,難以實(shí)現(xiàn)共同最優(yōu).圖5 展示了7 種公平指標(biāo)之間的皮爾森相關(guān)系數(shù)熱力圖.由圖5 可知:在這4 個(gè)數(shù)據(jù)集上,廣義熵指數(shù)與校準(zhǔn)公平、反事實(shí)公平之間存在一定的正相關(guān)性,而與加權(quán)基準(zhǔn)率公平之間呈現(xiàn)負(fù)相關(guān)性.此外,公平指標(biāo)在不同數(shù)據(jù)集上的相關(guān)性并不穩(wěn)定,如:在德國信用數(shù)據(jù)集和銀行營銷數(shù)據(jù)集上,基準(zhǔn)率公平和準(zhǔn)確率公平之間呈現(xiàn)負(fù)相關(guān)關(guān)系;而在Adult數(shù)據(jù)集和COMPAS 數(shù)據(jù)集上,基準(zhǔn)率公平和準(zhǔn)確率公平之間呈現(xiàn)正相關(guān)關(guān)系.這說明在不同的公平指標(biāo)上難以實(shí)現(xiàn)共同最優(yōu).

        Fig.5 Correlation between fairness indicators圖5 公平指標(biāo)間的相關(guān)性

        5.2 公平方法評(píng)估

        為對(duì)比不同公平方法的效果,參照Qraitem 等人[69]的實(shí)驗(yàn)設(shè)置,在數(shù)據(jù)偏見下的算法公平中,本節(jié)選取了過采樣(oversampling,OS)、欠采樣(undersampling,US)、重賦權(quán)(upweighting,UW)這3 種不平衡數(shù)據(jù)處理方法,以及對(duì)抗性訓(xùn)練(adversial training,ADV)[44]、對(duì)比學(xué)習(xí)(bias-contrastive learning,BC)[50]這2 種公平表示學(xué)習(xí)方法;在模型偏見下的算法公平中,本節(jié)選取了DI[67]與G-DRO[68]這2 種中間處理方法進(jìn)行實(shí)驗(yàn)評(píng)估.與文獻(xiàn)[50,69]保持一致的是:實(shí)驗(yàn)數(shù)據(jù)集選取UTKFace 人臉識(shí)別數(shù)據(jù)集,實(shí)驗(yàn)任務(wù)以性別為分類目標(biāo)Y,以種族為受保護(hù)屬性A;實(shí)驗(yàn)控制訓(xùn)練集的偏度,即訓(xùn)練集中Y與A的 相關(guān)性P(Y|A);使用的公平指標(biāo)為無偏準(zhǔn)確率(unbiased accuracy,UA),以分類類別與受保護(hù)屬性交叉劃分子組,UA 定義為所有子組準(zhǔn)確率的平均值.與文獻(xiàn)[50,69]不同,文獻(xiàn)[67-68]僅設(shè)置偏度為0.9,本節(jié)對(duì)比了各公平方法在多個(gè)不同偏度下的表現(xiàn),如圖6 所示.

        Fig.6 Performance of fair methods under different bias rates圖6 各公平方法在不同偏度下的表現(xiàn)

        由圖6 分析可得3 個(gè)結(jié)論:

        1)在數(shù)據(jù)集偏度較高時(shí),公平方法的表現(xiàn)并不穩(wěn)定.當(dāng)偏度超過0.95 后,各公平方法的公平性與準(zhǔn)確性降低幅度都較大.這說明魯棒的公平方法值得研究.

        2)在現(xiàn)有公平方法上,公平性與準(zhǔn)確性之間存在一致關(guān)系.以無偏準(zhǔn)確率作為公平指標(biāo)和訓(xùn)練目標(biāo)時(shí),具有較高無偏準(zhǔn)確率的模型同樣具有較高的準(zhǔn)確率.

        3)單一的公平方法取得的效果有限.實(shí)驗(yàn)比較了將對(duì)比學(xué)習(xí)與3 種不平衡數(shù)據(jù)處理方法相結(jié)合的組合方法,其中對(duì)比學(xué)習(xí)結(jié)合過采樣(BC+OS)方法在數(shù)據(jù)集高度有偏的情況下也能取得較好的效果,并優(yōu)于僅用對(duì)比學(xué)習(xí)的方法和僅用過采樣的方法.這說明公平方法的組合值得探索.

        6 算法公平計(jì)算面臨的挑戰(zhàn)

        如圖7 所示,算法公平的3 個(gè)維度是相輔相成、相互貫通的.從歷史發(fā)展的角度來看,社會(huì)偏見下的算法公平出現(xiàn)于小數(shù)據(jù)時(shí)代,主要通過博弈論與運(yùn)籌學(xué)實(shí)現(xiàn)公平.數(shù)據(jù)偏見下的算法公平出現(xiàn)于大數(shù)據(jù)時(shí)代,主要通過平衡數(shù)據(jù)分布與表示學(xué)習(xí)實(shí)現(xiàn)公平.模型偏見下的算法公平出現(xiàn)于人工智能時(shí)代,主要通過正則化與后處理實(shí)現(xiàn)公平.秉承萊布尼茨的“思維可計(jì)算”思想,本文認(rèn)為實(shí)現(xiàn)算法公平的過程本質(zhì)上是一個(gè)計(jì)算過程,因此本文將實(shí)現(xiàn)算法公平的方法稱為“公平計(jì)算”.

        Fig.7 Relationship among the three dimensions of algorithmic fairness圖7 算法公平3 個(gè)維度的聯(lián)系

        從事物聯(lián)系的角度來看,社會(huì)偏見下的算法公平是指引公平計(jì)算方法的目標(biāo)方向.公平問題的本質(zhì)是社會(huì)問題.作為公平問題的分支,算法公平必然具有社會(huì)性,其最高目標(biāo)是以人為本實(shí)現(xiàn)社會(huì)總福利的帕累托最優(yōu).

        數(shù)據(jù)偏見下的算法公平是公平計(jì)算方法的基礎(chǔ)前提.有偏見的數(shù)據(jù)輸入算法會(huì)產(chǎn)生有偏見的輸出,當(dāng)算法的輸入輸出形成閉環(huán)時(shí),更會(huì)引發(fā)偏見的惡性循環(huán).由于樣本量不足或預(yù)測變量未測量等原因?qū)е碌钠姂?yīng)首先通過數(shù)據(jù)收集來解決,而不是直接對(duì)模型進(jìn)行約束[70].

        模型偏見下的算法公平是公平計(jì)算方法的強(qiáng)化手段.算法公平問題的復(fù)雜性決定了單一的公平計(jì)算方法的療效有限,即便數(shù)據(jù)層消除了偏見,模型層也可能由不合理的目標(biāo)函數(shù)帶來偏見,如Kilby[52]針對(duì)機(jī)器學(xué)習(xí)預(yù)測阿片類藥物使用風(fēng)險(xiǎn)評(píng)分與使用阿片類藥物的個(gè)體異質(zhì)性治療效果并不相關(guān)的實(shí)驗(yàn)結(jié)果進(jìn)行分析研究,指出在醫(yī)療保健場景下研究人員對(duì)目標(biāo)函數(shù)的選擇也是算法偏見的來源.因此,算法公平問題的解決方案應(yīng)有機(jī)結(jié)合數(shù)據(jù)偏見下的算法公平與模型偏見下的算法公平,并力求接近社會(huì)偏見下的算法公平.

        綜上所述,本文提出如圖8 所示的算法公平計(jì)算框架.該框架包含公平定義量化、公平監(jiān)測預(yù)警以及公平方法選擇3 個(gè)模塊.其中,公平定義量化模塊基于各類公平定義,針對(duì)不同類型的數(shù)據(jù)及模型進(jìn)行公平度量值計(jì)算,如針對(duì)模型結(jié)果r,計(jì)算得到公平指標(biāo)i的數(shù)值為Fi(r).然后,基于計(jì)算出的公平度量值,公平監(jiān)測模塊針對(duì)風(fēng)險(xiǎn)數(shù)據(jù)進(jìn)行預(yù)警,利用法律法規(guī)進(jìn)行處罰.在第5 節(jié)的實(shí)驗(yàn)部分可發(fā)現(xiàn),公平指標(biāo)在不同數(shù)據(jù)集上的差異性較大,僅通過指標(biāo)計(jì)算結(jié)果難以解釋分析歧視來源.因此,該模塊要求數(shù)據(jù)提供者和服務(wù)提供商借助算法追索技術(shù)[71]提供解釋.算法追索技術(shù)是一種可解釋技術(shù),例如某用戶未獲得貸款,算法追索技術(shù)需要告知用戶想要獲取貸款應(yīng)如何去做(如將資產(chǎn)提升至20 萬元).最后,公平方法選擇模塊為計(jì)算出的每個(gè)公平指標(biāo)賦予不同的權(quán)重,形成統(tǒng)一的權(quán)衡函數(shù).該模塊基于權(quán)衡函數(shù),在已有公平計(jì)算方法庫中選擇適當(dāng)?shù)墓接?jì)算方法,從而進(jìn)行公平上的改進(jìn).在社會(huì)偏見下的算法公平中,本文介紹了公平利益分配與公平損失分?jǐn)? 類問題,這2 類問題可用博弈論與運(yùn)籌優(yōu)化方法解決;在數(shù)據(jù)偏見下的算法公平中,本文介紹了顯式偏見與隱式偏見2 類問題,這2 類問題分別可用不平衡數(shù)據(jù)處理與公平表示學(xué)習(xí)方法解決;在模型偏見下的算法公平中,本文介紹了公平有監(jiān)督學(xué)習(xí)與公平無監(jiān)督學(xué)習(xí)2 類問題,這2 類問題可用中間處理和后處理方法解決.

        下面對(duì)算法公平計(jì)算面臨的挑戰(zhàn)和未來研究方向進(jìn)行分析展望.

        1)公平度量標(biāo)準(zhǔn)的選擇

        目前,尚無統(tǒng)一普適的公平度量.Kleinberg 等人[72]證明了除了在高度約束的特殊情況下,無法同時(shí)滿足3 種不同的公平度量,即不同的公平度量基本互不相容.由第5 節(jié)實(shí)驗(yàn)可知,一個(gè)模型在某種公平度量上表現(xiàn)良好,可能在其他公平度量上表現(xiàn)極差.因此,如何針對(duì)特定領(lǐng)域選擇合適的公平度量仍有待厘清.比如在醫(yī)療領(lǐng)域的疾病診斷算法,如果算法預(yù)測的男性和女性的發(fā)病率不同是否意味著不公平?

        2)公平與其他指標(biāo)的關(guān)系

        在不考慮算法準(zhǔn)確性的情況下,很容易實(shí)現(xiàn)算法公平性,但這會(huì)使算法失去實(shí)際應(yīng)用價(jià)值.因此,我們希望在算法保證足夠準(zhǔn)確的基礎(chǔ)上盡可能地達(dá)到公平.但由于數(shù)據(jù)偏見與模型偏見的復(fù)雜性,實(shí)現(xiàn)算法公平通常會(huì)對(duì)算法準(zhǔn)確性造成傷害.除了算法準(zhǔn)確性,隱私性與算法公平之間也存在相互作用.例如,差分隱私是目前隱私保護(hù)的常用技術(shù),通過向原始數(shù)據(jù)中添加噪聲擾動(dòng)的方式實(shí)現(xiàn)難以區(qū)分個(gè)人隱私數(shù)據(jù)的目的.Pujol 等人[73]針對(duì)差分隱私在投票權(quán)分配、聯(lián)邦資金分配和議會(huì)代表分配3 類場景中的應(yīng)用進(jìn)行研究,發(fā)現(xiàn)在嚴(yán)格的隱私約束(較小的ε)下,為實(shí)現(xiàn)隱私而添加的噪聲可能會(huì)對(duì)某些群體產(chǎn)生不成比例的影響.類似地,Suriyakumar 等人[74]針對(duì)差分隱私在醫(yī)療保健場景的應(yīng)用進(jìn)行研究,發(fā)現(xiàn)差分隱私引入的隨機(jī)噪聲可能偏向于影響數(shù)據(jù)分布長尾(即少數(shù)群體)的準(zhǔn)確性.除了隱私與公平之間的權(quán)衡關(guān)系外,Tian 等人[75]指出隱私保護(hù)與公平保護(hù)之間存在交集,如隱私保護(hù)關(guān)注的敏感屬性與公平保護(hù)關(guān)注的受保護(hù)屬性一致,則消除特征表示中的敏感信息可同時(shí)保障隱私性與公平性.因此,如何在算法公平與其他指標(biāo)間進(jìn)行權(quán)衡,以及算法公平與其他指標(biāo)之間具有怎樣的相互作用仍有待研究.

        3)魯棒的公平計(jì)算方法

        目前的公平計(jì)算方法魯棒性并不強(qiáng),研究發(fā)現(xiàn),數(shù)據(jù)集中存在的噪聲會(huì)影響算法公平計(jì)算方法的有效性.例如Mehrotra 等人[76]針對(duì)子集選擇算法的公平性進(jìn)行研究,發(fā)現(xiàn)在受保護(hù)屬性存在噪聲的情況下,直接施加公平約束反而會(huì)降低算法公平性;Wang等人[77]在樣本標(biāo)簽含有噪聲的場景下,針對(duì)分類算法的公平性進(jìn)行研究,得出了類似的結(jié)論.此外,Khani 等人[78]發(fā)現(xiàn)由于模型的歸納偏置,刪除偽特征會(huì)降低模型準(zhǔn)確性,并對(duì)不同的群體產(chǎn)生不同比例的影響.因此,魯棒的公平計(jì)算方法是有挑戰(zhàn)的研究方向.

        4)算法公平的非技術(shù)解決方案

        目前,算法公平的相關(guān)研究大多沒有分析算法不公平的實(shí)際危害,試圖通過技術(shù)手段解決一切算法公平問題,然而某些場景下可能存在更好的非技術(shù)解決方案.比如:谷歌翻譯將土耳其語、匈牙利語等性別中立的語言(即沒有區(qū)分性別的人稱代詞)翻譯成英語時(shí),將女性與“漂亮”“家務(wù)”“護(hù)士”等詞語關(guān)聯(lián)起來,將男性與“聰明”“賺錢”“醫(yī)生”等詞語關(guān)聯(lián)起來.針對(duì)此類性別刻板印象問題,技術(shù)上可以采用公平表示學(xué)習(xí)的方式將性別與刻板印象解相關(guān);產(chǎn)品設(shè)計(jì)層面則可以允許用戶選擇將沒有區(qū)分性別的人稱代詞翻譯成男性、女性或其他性別.類似地,Albert 等人[79]針對(duì)智能體重秤的身體成分分析依賴于二元性別作為輸入,對(duì)于變性人等性少數(shù)群體不適用的問題,提出了2 類改進(jìn)建議:技術(shù)上,在輸入變量中去除性別以及與性別相關(guān)的信息;非技術(shù)上,為性少數(shù)群體增加二元性別之外的其他選項(xiàng).因此,算法公平作為交叉領(lǐng)域的研究問題,如何在特定場景下選擇適合的學(xué)科理論方法仍有待研究.

        5)公平計(jì)算的工具

        針對(duì)偏見的檢測與消除,IBM[80]、微軟[81]、谷歌[82]等公司開發(fā)了公平計(jì)算的相關(guān)工具.IBM 開發(fā)了AI Fairness 360[80]工具包,它支持Python 與R 這2 種語言,涵蓋多種公平度量指標(biāo)與去偏算法.微軟開發(fā)了Fairlearn[81]工具包,它支持Python 語言,提供公平度量、偏見消除及繪圖等功能.谷歌開發(fā)了Fairness Indicators 工具包,該工具包涵蓋分類任務(wù)的常用公平度量,以可視化的形式提供數(shù)據(jù)評(píng)估與模型分析,并且適用于大規(guī)模數(shù)據(jù)集.此外,針對(duì)算法公平的長期性與動(dòng)態(tài)性,谷歌還推出了ML-fairness-gym[82],并在銀行貸款、注意力分配和大學(xué)錄取這3 類動(dòng)態(tài)場景下進(jìn)行驗(yàn)證.盡管已有公平計(jì)算相關(guān)工具,但現(xiàn)有的公平計(jì)算工具主要面向分類任務(wù),社區(qū)生態(tài)尚不完善,針對(duì)其他任務(wù)的公平計(jì)算工具仍有待開發(fā).

        7 結(jié)束語

        算法公平問題備受關(guān)注,但作為計(jì)算機(jī)科學(xué)與社會(huì)科學(xué)的交叉問題,不僅要繼承社會(huì)科學(xué)各領(lǐng)域的基本理論,更要從定性分析轉(zhuǎn)向定量計(jì)算.基于此,本文強(qiáng)調(diào)算法公平問題需要具備公平計(jì)算的方法與能力.本文首先對(duì)算法公平問題的發(fā)展脈絡(luò)進(jìn)行梳理,將其根源分為社會(huì)偏見、數(shù)據(jù)偏見、模型偏見3個(gè)階段;然后分別對(duì)3 類偏見下的算法公平計(jì)算方法進(jìn)行總結(jié)歸納,并通過實(shí)驗(yàn)進(jìn)行對(duì)比評(píng)估;最后,提出了算法公平計(jì)算框架,并對(duì)面臨的挑戰(zhàn)與未來研究方向進(jìn)行展望.

        作者貢獻(xiàn)聲明:范卓婭負(fù)責(zé)完成實(shí)驗(yàn)并撰寫論文初稿;孟小峰提出指導(dǎo)意見并修改論文.

        猜你喜歡
        公平定義群體
        不公平
        公平對(duì)抗
        怎樣才公平
        通過自然感染獲得群體免疫有多可怕
        “群體失語”需要警惕——“為官不言”也是腐敗
        公平比較
        成功的定義
        山東青年(2016年1期)2016-02-28 14:25:25
        修辭學(xué)的重大定義
        山的定義
        關(guān)愛特殊群體不畏難
        中國火炬(2012年8期)2012-07-25 09:29:50
        а√中文在线资源库| 亚洲国产av剧一区二区三区| 国产三级精品三级在线| 人妻制服丝袜中文字幕| 人人爽人人爽人人片av| 天堂sv在线最新版在线| 在线a人片免费观看高清| 日本老熟妇五十路一区二区三区| 天堂8在线新版官网| 国产熟女露脸大叫高潮| 国产精品99久久久精品免费观看| 国产99视频一区二区三区 | 国产精品丝袜久久久久久不卡| 久久噜噜噜| 中文天堂一区二区三区| 男女无遮挡高清性视频| 永久免费看啪啪网址入口| 久久国产成人亚洲精品影院老金| 少妇高潮呻吟求饶视频网站| 国产情侣一区二区三区| 欧妇女乱妇女乱视频| 亚洲高潮喷水中文字幕| 白白色发布视频在线播放| 97在线视频人妻无码| 日本乱子人伦在线视频| 黄 色 成 年 人 网 站免费| 亚洲丰满熟女一区二亚洲亚洲| 日本大乳高潮视频在线观看| 国产精品美女久久久久久久| 久久国产av在线观看| 国产激情一区二区三区在线| 久久国产精品久久久久久| 无码成人片一区二区三区| 精品国产亚洲av久一区二区三区| 国产成人无码a在线观看不卡| 丰满少妇在线观看网站| 久久久久无码精品国| 日韩少妇人妻中文视频| 欧美最猛性xxxxx免费| 日韩av一区二区三区四区av| 国产一区二区在线免费视频观看|