亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        聯(lián)邦學(xué)習(xí)公平性研究綜述*

        2022-11-04 02:23:06王文鑫張健毅
        關(guān)鍵詞:公平性聯(lián)邦偏差

        王文鑫 張健毅

        北京電子科技學(xué)院,北京市 100070

        引言

        近年來,隨著互聯(lián)網(wǎng)與大數(shù)據(jù)時(shí)代的來臨,深度學(xué)習(xí)越來越受到社會(huì)各界的廣泛關(guān)注[1],數(shù)據(jù)分析師可以通過整合各種零碎數(shù)據(jù)來進(jìn)行對某件事或某個(gè)人的信息分析,進(jìn)而預(yù)測潛在結(jié)果發(fā)生概率。 如淘寶、京東等大企業(yè)的應(yīng)用程序經(jīng)常會(huì)精確地把一些符合消費(fèi)者偏好的商品推薦給用戶,這其中的推送方式或通過購物者的日常消費(fèi)記錄,或憑借其他APP 獲取購物者自身相關(guān)信息(如消費(fèi)者的性別、到訪地、接觸人群等)。 雖然兩種方式有著些許的差異,但是大致都是通過深度學(xué)習(xí)把消費(fèi)者日常相關(guān)信息進(jìn)行大量訓(xùn)練分析來形成數(shù)據(jù)預(yù)測[2]。

        不過深度學(xué)習(xí)是先構(gòu)建中心服務(wù)器,然后將多個(gè)客戶端數(shù)據(jù)進(jìn)行整合與訓(xùn)練,這樣可能導(dǎo)致各方數(shù)據(jù)安全不能得到充分保障,比如在醫(yī)療、金融等重要行業(yè),企業(yè)無法將己方數(shù)據(jù)信息傳遞給潛在的競爭對手,而且同一單位的不同部門相互之間信息也無法完全共享。 隨著2018 年歐盟史上最嚴(yán)隱私法規(guī)——《通用數(shù)據(jù)保護(hù)條例》(GDPR)的頒布[3],越來越多的企業(yè)和單位對于個(gè)人敏感信息提起高度重視,例如2019 年英國航空公司由于違反《一般數(shù)據(jù)保護(hù)條例》被英國信息監(jiān)管局罰款1.8339 億英鎊。 而我國在2020 年頒布《信息安全技術(shù)個(gè)人信息安全規(guī)范》和《個(gè)人信息保護(hù)法》,這些法規(guī)的制定旨在保護(hù)用戶個(gè)人隱私和規(guī)整行業(yè)數(shù)據(jù)的處理規(guī)范,且對如今普遍采用數(shù)據(jù)驅(qū)動(dòng)的發(fā)展提出了新挑戰(zhàn)。為了解決數(shù)據(jù)安全問題和實(shí)現(xiàn)信息孤島全面共享,谷歌2016 年提出聯(lián)邦學(xué)習(xí)(Federated Learning,F(xiàn)L)的理論概念,其主要是通過將用戶端數(shù)據(jù)存儲(chǔ)和模型訓(xùn)練階段轉(zhuǎn)移至本地用戶,而僅與中心服務(wù)器交互模型更新的方式有效保障用戶隱私安全[4]。

        公平性指系統(tǒng)開發(fā)過程不偏袒于任何一方。在實(shí)際生活中,所有公共和私有行為者都必須防止和減輕機(jī)器學(xué)習(xí)的設(shè)計(jì)、開發(fā)和應(yīng)用中的歧視風(fēng)險(xiǎn)。 隨著聯(lián)邦學(xué)習(xí)技術(shù)[5,6,7]的逐漸興起,公平性問題成為制約其發(fā)展的一個(gè)短板一般來說,訓(xùn)練的數(shù)據(jù)和數(shù)據(jù)集并非客觀存在,而是人類主觀設(shè)計(jì)的產(chǎn)物。 從數(shù)據(jù)收集到算法推演,從程序運(yùn)行到結(jié)果初步評(píng)估,再到最后分析師得出滿意的預(yù)測結(jié)果,各種各樣的操作都參與到深度學(xué)習(xí)的訓(xùn)練中,難免其中一些步驟存在偏差。 例如機(jī)器學(xué)習(xí)開發(fā)人員在對數(shù)據(jù)進(jìn)行預(yù)處理時(shí),由于沒有意識(shí)到數(shù)據(jù)集中可能的偏差,訓(xùn)練之后便會(huì)得出與事實(shí)相背的結(jié)果。 盡管公平性問題對于個(gè)人實(shí)驗(yàn)結(jié)果影響或許微乎其微,不過在工業(yè)界細(xì)小差異可能造成不可預(yù)估的損失[8],由此聯(lián)邦學(xué)習(xí)公平性是如今急需探究的話題。

        本文通過調(diào)研發(fā)現(xiàn)大部分文獻(xiàn)側(cè)重于局部公平探討,缺乏系統(tǒng)總體的公平性研究。 比如為使各客戶端資源分配更具公平的準(zhǔn)確性,文獻(xiàn)[9]提出高效通信方法q-FFL,但卻缺少數(shù)據(jù)不公與權(quán)值分配差異的分析;為使數(shù)據(jù)和模型遭受中毒攻擊時(shí)保持穩(wěn)健性和公平性,文獻(xiàn)[10]提出個(gè)性化聯(lián)合學(xué)習(xí)框架Ditto,但卻缺少存在偏見對于系統(tǒng)公平的影響;為使數(shù)據(jù)異質(zhì)性下聯(lián)合模型訓(xùn)練偏差減少,文獻(xiàn)[11]討論FL 偏差存在的原因以及提出削弱偏差的方案,但卻缺少對于偏差類別的形式化分類[12,13]。 在先前一系列文章的基礎(chǔ)上,本文進(jìn)行詳細(xì)的歸納,并對偏差的出現(xiàn)、偏差的解決和公平性的分類方式等提出自己的見解。 本文脈絡(luò)如下:第1 章節(jié)總體介紹聯(lián)邦學(xué)習(xí)公平性架構(gòu),第2、3、4 章節(jié)分別闡釋偏差分類、公平機(jī)制和公平性系統(tǒng)應(yīng)用,第5 章說明未來發(fā)展方向,第6 章進(jìn)行全篇結(jié)論。

        1 聯(lián)邦學(xué)習(xí)介紹

        主要介紹傳統(tǒng)聯(lián)邦學(xué)習(xí)迭代過程和公平聯(lián)邦學(xué)習(xí)系統(tǒng)設(shè)計(jì)思路,并對公平性展開數(shù)學(xué)定義,之后根據(jù)實(shí)際迭代過程梳理系統(tǒng)整體層次結(jié)構(gòu),將公平聯(lián)邦學(xué)習(xí)分為公平認(rèn)知表征、公平算法建模和公平評(píng)估決策三個(gè)階段分別討論[14]。本節(jié)使用符號(hào)及其意義說明詳見表1。

        表1 本節(jié)符號(hào)表

        1.1 傳統(tǒng)聯(lián)邦學(xué)習(xí)

        與集中式機(jī)器學(xué)習(xí)所不同,傳統(tǒng)聯(lián)邦學(xué)習(xí)是基于分布式機(jī)器學(xué)習(xí)技術(shù)。 各客戶端(PC、移動(dòng)終端等)不再將自身數(shù)據(jù)直接傳送給中心服務(wù)器統(tǒng)一訓(xùn)練,而是在本地訓(xùn)練后形成模型參數(shù)傳送給中心服務(wù)端,中心服務(wù)器把各個(gè)傳送的模型加權(quán)集合形成全局模型再傳輸給各個(gè)客戶端,如此反復(fù)迭代直至全局模型收斂,中心服務(wù)端函數(shù)可表示如下:

        1.2 公平聯(lián)邦學(xué)習(xí)

        公平聯(lián)邦學(xué)習(xí)[15]是在傳統(tǒng)聯(lián)邦學(xué)習(xí)基礎(chǔ)上,考慮系統(tǒng)模型訓(xùn)練時(shí)認(rèn)知表征、算法建模和評(píng)估決策的公平性對于聚合梯度的影響,減少三階段偏見的生成,從而使得系統(tǒng)設(shè)計(jì)更大程度滿足于各參與方需求,并符合國家相關(guān)法律標(biāo)準(zhǔn)和倫理規(guī)范。 比如文獻(xiàn)[16]提出新型魯棒公平聯(lián)邦學(xué)習(xí)(RFFL)框架,通過聲譽(yù)機(jī)制實(shí)現(xiàn)系統(tǒng)協(xié)作公平和對抗魯棒性,本文公平聯(lián)邦學(xué)習(xí)表示如下:

        由圖1 可知X,Y,Z,L,H階段可能存在偏差歧視的現(xiàn)象。 比如認(rèn)知表征階段(X), 數(shù)據(jù)收集、數(shù)據(jù)集輸入可能由于采樣者不同而引入不同的采樣行為偏差;算法建模階段(Y,Z,H),程序?qū)崿F(xiàn)、模型訓(xùn)練可能由于算法設(shè)計(jì)存在偏見而使得整體系統(tǒng)歧視的產(chǎn)生;評(píng)估決策階段(L), 實(shí)驗(yàn)評(píng)估、結(jié)論歸納可能由于研究者自身認(rèn)知局限性導(dǎo)致實(shí)驗(yàn)數(shù)據(jù)與真實(shí)結(jié)果因果關(guān)系存在差異。由此可知,聯(lián)邦學(xué)習(xí)系統(tǒng)迭代過程或多或少存在不公的風(fēng)險(xiǎn)。

        圖1 聯(lián)邦學(xué)習(xí)迭代架構(gòu)圖

        若實(shí)現(xiàn)整體系統(tǒng)架構(gòu)公平性,那么必須要認(rèn)知表征、算法建模和校準(zhǔn)決策三階段分別公平(如圖1)。 由此聯(lián)邦學(xué)習(xí)公平性系統(tǒng)可以根據(jù)數(shù)據(jù)處理階段劃分為三部分:公平認(rèn)知表征、公平算法建模和公平評(píng)估決策。 公平認(rèn)知表征存在于數(shù)據(jù)輸入階段,其主要包含數(shù)據(jù)收集、數(shù)據(jù)集輸入和特征提取等公平;公平算法建模存在于模型訓(xùn)練階段,其主要包括算法設(shè)計(jì)、程序?qū)崿F(xiàn)、模型建立和聚合等公平;公平評(píng)估決策存在于評(píng)估決策階段,其主要包括數(shù)據(jù)校準(zhǔn)、實(shí)驗(yàn)評(píng)估和結(jié)論歸納等公平。

        本文通過預(yù)處理、處理中和后處理三種方式解決認(rèn)知表征、算法建模和決策評(píng)估的公平,從而使得傳統(tǒng)聯(lián)邦學(xué)習(xí)系統(tǒng)轉(zhuǎn)變?yōu)楣铰?lián)邦學(xué)習(xí)系統(tǒng)。 其中預(yù)處理機(jī)制包括數(shù)據(jù)重采樣和尋找特征函數(shù),處理中機(jī)制包括重新加權(quán)和增加約束項(xiàng),后處理機(jī)制包括調(diào)整預(yù)期閾值、使用去偏工具和增加風(fēng)險(xiǎn)評(píng)估等方式。

        2 偏差類別

        在聯(lián)邦學(xué)習(xí)系統(tǒng)中,研發(fā)者主觀上無意造成偏見,不過往往有些偏見是無意識(shí)產(chǎn)生,從而導(dǎo)致系統(tǒng)開發(fā)存在偏差。 結(jié)合Suresh 等人對不同類型偏差分析,本節(jié)將常見偏差分類為認(rèn)知表征偏差、算法建模偏差和評(píng)估決策偏差。

        圖2 公平聯(lián)邦學(xué)習(xí)架構(gòu)圖

        2.1 認(rèn)知表征偏差

        認(rèn)知表征偏差主要存在于數(shù)據(jù)收集、數(shù)據(jù)集輸入階段,本小節(jié)將認(rèn)知表征偏差劃分為:歷史偏差[17]、抽樣偏差[18]、測量偏差[19]、標(biāo)簽偏差[20]和行為偏差[21]。

        歷史偏差:指一些模型通過當(dāng)時(shí)數(shù)據(jù)訓(xùn)練得到的結(jié)果與當(dāng)今社會(huì)數(shù)據(jù)訓(xùn)練得出的結(jié)果存在差異。 如2018 年瀏覽器圖片搜索關(guān)鍵詞“女性CEO”時(shí)會(huì)減少女性CEO 圖片出現(xiàn)的情況,究其原因是因?yàn)楫?dāng)時(shí)世界500 強(qiáng)中女性CEO 只占5%。

        抽樣偏差:選取樣本沒有使用隨機(jī)采樣導(dǎo)致數(shù)據(jù)樣本失去評(píng)估總體的能力。 可具體分為:偏見偏差[22]、鏈接偏差[23]、代表性偏差[24]等。 偏見偏差指研究人員無意識(shí)情況下將自身期望映射到抽樣階段從而產(chǎn)生偏差,如根據(jù)種族、性別、地域等相關(guān)信息來評(píng)價(jià)某種事物,這是帶有偏見色彩的。 鏈接偏差指受訪者通過網(wǎng)絡(luò)鏈接向調(diào)研者收集數(shù)據(jù),由于匿名化和網(wǎng)絡(luò)化導(dǎo)致信息收集可能與真實(shí)用戶信息存在差異。 代表性偏差指研究者對某個(gè)事件判斷過度注重某個(gè)特征,反而忽視其他具有影響力的特征。

        測量偏差:指測量值與真實(shí)值之間存在的誤差。 美國累犯風(fēng)險(xiǎn)預(yù)測工具涉嫌歧視案中有這樣一個(gè)結(jié)論:由于來自少數(shù)族人群的逮捕率較高,所以他們更有可能犯罪。 研究發(fā)現(xiàn)逮捕率較高的原因是少數(shù)族裔社區(qū)相比于白人種受到政府更頻繁的控制和監(jiān)管,這種在評(píng)估群體存在差異的方式屬于測量偏差。

        標(biāo)簽偏差:標(biāo)注者為某一實(shí)驗(yàn)樣本分配帶有歧視的標(biāo)簽從而產(chǎn)生偏差。 Jiang H 等人研究標(biāo)簽偏差并證實(shí)在不改變標(biāo)簽的情況下通過重新加權(quán)數(shù)據(jù)集方式可以糾正標(biāo)簽謬誤導(dǎo)致的偏差,從而設(shè)想無偏機(jī)器學(xué)習(xí)分類器的生成[25]。

        行為偏差:行為偏差是指不同平臺(tái)面對不同用戶產(chǎn)生不同影響。 如不同網(wǎng)絡(luò)平臺(tái)之間表情符號(hào)表現(xiàn)形式差異可能導(dǎo)致用戶反應(yīng)和行為存在不同,甚至出現(xiàn)溝通錯(cuò)誤的情況。

        2.2 算法建模偏差

        算法建模偏差主要存在算法設(shè)計(jì)和數(shù)據(jù)訓(xùn)練階段,可以根據(jù)層次結(jié)構(gòu)將模型偏差劃分為客戶端偏差和服務(wù)端偏差兩大類:其一客戶端偏差是指當(dāng)多個(gè)客戶端通過模型參數(shù)與本地?cái)?shù)據(jù)訓(xùn)練時(shí)由于算法不合理導(dǎo)致客戶端偏差的存在。其二是服務(wù)端偏差,當(dāng)多個(gè)客戶端將更新權(quán)值傳輸給中心服務(wù)器時(shí),根據(jù)伯克森悖論[26](多個(gè)通常獨(dú)立的事物會(huì)在特定場合下形成關(guān)聯(lián)帶來偏差)可知中心服務(wù)器聚合后的模型可能與實(shí)際模型相差甚遠(yuǎn)。 算法建模偏差也可根據(jù)機(jī)制差異分為混雜偏差[27]、資源分配偏差[28]、激勵(lì)機(jī)制偏差[29]和省略可變偏差[30]四部分。 混雜偏差指模型算法沒考慮對象全部信息,或沒考慮特征和目標(biāo)輸出之間關(guān)聯(lián),從而學(xué)習(xí)錯(cuò)誤的關(guān)系造成偏差;資源分配偏差是指中心服務(wù)器通過降低最小損失函數(shù)導(dǎo)致訓(xùn)練時(shí)對各個(gè)客戶端造成偏差,顯然各個(gè)客戶端獲得相同的模型參數(shù)對于提供數(shù)據(jù)資源較多的客戶端是不公平的;激勵(lì)機(jī)制偏差是FL 技術(shù)與區(qū)塊鏈技術(shù)結(jié)合時(shí)存在的情況,當(dāng)整個(gè)聯(lián)邦學(xué)習(xí)系統(tǒng)獲得外部貢獻(xiàn)時(shí),客戶端通過制定利益分配方案獲取各自利益時(shí)存在一定偏差;省略可變偏差是指當(dāng)模型遺漏一個(gè)或多個(gè)重要變量時(shí)產(chǎn)生的偏差。 例如某商家設(shè)計(jì)較高準(zhǔn)確度模型來預(yù)測客戶喜愛產(chǎn)品程度,由于出現(xiàn)新的競爭對手導(dǎo)致很多客戶選擇其他商家產(chǎn)品,而模型卻并沒有根據(jù)實(shí)際情況更改導(dǎo)致出現(xiàn)偏差。

        2.3 評(píng)估決策偏差

        評(píng)估決策偏差主要存在于數(shù)據(jù)校準(zhǔn)、實(shí)驗(yàn)評(píng)估和結(jié)論歸納階段,此階段可能由于研究者自身局限性(知識(shí)存儲(chǔ)量不足或認(rèn)知謬誤),導(dǎo)致實(shí)驗(yàn)結(jié)論與真實(shí)原理存在差異。 此類偏差根據(jù)實(shí)驗(yàn)處理過程可分為:評(píng)估偏差[31]、因果偏差[32]、匯總偏差[33]、驗(yàn)證性偏差[34]和辛普森駁論[35]。

        評(píng)估偏差:是指模型評(píng)估階段存在的一種偏差。 例如一些基準(zhǔn)(IJB-A)在具有種族或性別歧視的人臉識(shí)別系統(tǒng)評(píng)價(jià)管理中應(yīng)用,如果使用這類不相稱的基準(zhǔn)來評(píng)估實(shí)驗(yàn)最終模型,可能導(dǎo)致實(shí)驗(yàn)結(jié)果無意識(shí)的歧視產(chǎn)生。

        因果偏差:是指研究者沒有正確把握問題隱含因果關(guān)系,當(dāng)只通過表面現(xiàn)象主觀臆斷時(shí),可能導(dǎo)致相關(guān)性謬誤出現(xiàn),從而使得因果偏見生成。 因果關(guān)系是研究者認(rèn)知?dú)w納常用方法,只有正確把握問題的因果結(jié)構(gòu),才能確立正確思維,得出正確實(shí)驗(yàn)結(jié)論。

        匯總偏差:匯總偏差又稱作整理偏差,指訓(xùn)練數(shù)據(jù)在匯總整理階段所形成的誤差。 訓(xùn)練聚合數(shù)據(jù)需經(jīng)過層層匯總才能形成為反映評(píng)估實(shí)驗(yàn)的結(jié)論信息。 由于匯總方式的不同,統(tǒng)計(jì)整理時(shí)此類偏差可分為手工匯總偏差(手工整理偏差)和機(jī)器匯總偏差(機(jī)器整理偏差)。

        驗(yàn)證性偏差:是指研究者對某一觀點(diǎn)或信念形成意識(shí)形態(tài)后,在分析信息和實(shí)驗(yàn)評(píng)估時(shí),若真實(shí)結(jié)果與理論原理存在差異,可能為了自身信念反復(fù)質(zhì)疑甚至全盤否定真實(shí)結(jié)果。 文獻(xiàn)[35]表述當(dāng)研究者個(gè)人信念影響研究問題和方法的選擇時(shí)便會(huì)產(chǎn)生偏見,并舉例一制藥公司研究人員可選擇支持制造藥物有用性的研究問題。

        辛普森駁論:當(dāng)實(shí)驗(yàn)者研究兩種變量關(guān)聯(lián)性問題時(shí),一般采用分組比較法觀測,然而在分組比較占優(yōu)一方可能在總評(píng)處于劣勢地位。 如加州大學(xué)伯克利分校大學(xué)因不同學(xué)院女性新生比男性新生錄取率更少而被訴訟一案,調(diào)研者對各個(gè)學(xué)院新生分組剖析時(shí)卻發(fā)現(xiàn)女性申請人具有平等性,且在某些學(xué)院中錄取人數(shù)女性比男性更多。

        表2 偏差類別

        3 不公平案例

        如今FL 技術(shù)在越來越多領(lǐng)域展開應(yīng)用,為了更直觀介紹偏差對于FL 的危害,本節(jié)通過兩個(gè)不公平案例簡單說明。

        3.1 COMPAS

        COMPAS(Correctional Offender Management Profiling for Alternative Sanctions)是越多越多美國的法官、緩刑和假釋官使用的累犯風(fēng)險(xiǎn)預(yù)測工具[36],其主要用于被告保釋評(píng)估階段,算法可定義為:S= (Y-W) + (Yf-W) + (C*W) +(E*W) + (I*W),其中S表示累犯風(fēng)險(xiǎn)預(yù)測分?jǐn)?shù),W表示權(quán)值系數(shù),Y表示被告年齡,Yf表示首次被捕年齡,C表示歷史暴力情況,E表示教育水平,I表示違法歷史,從中不難觀測分?jǐn)?shù)與種族并無聯(lián)系。 然而ProPublica 團(tuán)隊(duì)發(fā)現(xiàn)預(yù)測工具隱含偏見:黑人被告被錯(cuò)誤歸類為高暴力累犯風(fēng)險(xiǎn)是白人可能性的兩倍。 COMPAS 出現(xiàn)種族偏見的主要原因是:“歷史暴力情況”、“教育水平”等在不同種族間存在顯著差距。 在違法歷史的討論上,相同犯罪在白人、亞裔、非裔黑人等種族之間存在明顯差異,進(jìn)而導(dǎo)致某種程度上偏向或不利于某個(gè)種族,從而使得累犯風(fēng)險(xiǎn)預(yù)測工具COMPAS 不公平的產(chǎn)生。

        圖3 COMPAS 預(yù)測算法過程圖

        3.2 保險(xiǎn)定價(jià)

        如文獻(xiàn)[37]一出租車公司B希望為全體司機(jī)上保而與保險(xiǎn)公司A合作。 這時(shí)單一訓(xùn)練出租車公司歷史數(shù)據(jù)不足以清晰評(píng)估司機(jī)出險(xiǎn)情況,所以保險(xiǎn)公司采用多方聯(lián)合方式更精確預(yù)測保險(xiǎn)個(gè)性化定價(jià)。 假設(shè)X表示司機(jī)歷史出險(xiǎn)概率,Y表示乘客滿意度等其他敏感特征信息,此外由于各保險(xiǎn)公司間存在合作,保險(xiǎn)公司A一定程度能獲取其他保險(xiǎn)公司C的司機(jī)投保特征數(shù)據(jù),此部分屬性可設(shè)定為Z,以上數(shù)據(jù)以聚合模型傳輸。 令X1= (ID,x,y),X2= (ID,z), 可用邏輯回歸模型預(yù)測:L=sigmoid(W;X1,X2),W表示聯(lián)邦學(xué)習(xí)中模型多輪迭代聚合收斂的最優(yōu)參數(shù)。 若此過程中B、C公司數(shù)據(jù)標(biāo)簽存在差異,或公司C的數(shù)據(jù)量Z過小且不具代表性等,將可能導(dǎo)致回歸模型預(yù)測保險(xiǎn)定價(jià)與實(shí)際本應(yīng)定價(jià)存在差異。

        圖4 保險(xiǎn)定價(jià)流程

        4 公平性探討

        近年來,由于工業(yè)界對于數(shù)據(jù)集精度要求與日俱增以及避免偏差對于經(jīng)濟(jì)損失造成重大影響,許多研究團(tuán)隊(duì)致力于探討公平性問題。 比如劉文炎團(tuán)隊(duì)[14]提出可以把公平性類別分為感知公平性、統(tǒng)計(jì)公平性和因果公平性三部分,感知公平性主要關(guān)注于處理敏感屬性和一般屬性的平衡,或使用減少敏感屬性輸入以達(dá)到減少偏差的目的,或通過差分隱私使得敏感特征加權(quán)實(shí)現(xiàn)與一般特征的公平;統(tǒng)計(jì)公平性主要關(guān)注于數(shù)據(jù)和算法的公平,使得受保護(hù)群體和非保護(hù)群體的預(yù)期結(jié)果與真實(shí)結(jié)果保持一致;因果公平性通過干預(yù)實(shí)驗(yàn)的因果模型、實(shí)驗(yàn)者意識(shí)的因果關(guān)系來研究受保護(hù)屬性對于實(shí)驗(yàn)結(jié)果的影響。 文獻(xiàn)[38]中提出基于FL 的一種實(shí)時(shí)算法以實(shí)現(xiàn)貢獻(xiàn)公平、遺憾分布公平和期望公平三種公平性指標(biāo),由于FL 基于多方合作傳輸梯度模型以實(shí)現(xiàn)資源共享,所以需要各方利益分配合理才能使得整個(gè)系統(tǒng)持續(xù)運(yùn)轉(zhuǎn)。 本章節(jié)根據(jù)Gajane 和Pechenizkiy 等人系統(tǒng)化研究將公平性分為群體公平、個(gè)體公平、無意識(shí)公平、反事實(shí)公平、基于偏好公平五種類型[12,13],并通過預(yù)處理、處理中、后處理三階段對FL 公平性機(jī)制開展探討。

        4.1 公平性分類

        群體公平[39]:特定屬性在不同的群體間通過FL 算法應(yīng)呈現(xiàn)相同的概率。 假設(shè)a= 1 表示受保護(hù)屬性,Y表示實(shí)際輸出結(jié)果,現(xiàn)有B、C兩個(gè)群體,則可根據(jù)定義表示為:

        群體公平可依照度量形式不同分為統(tǒng)計(jì)公平、精度公平、均等公平。

        個(gè)體公平[39]:如果一對個(gè)體具有相似的屬性,F(xiàn)L 算法應(yīng)該輸入相似的概率。 若b1,b2 分別為群體B中的個(gè)體,a=1 表示受保護(hù)屬性,Y表示實(shí)際輸出結(jié)果,那么可表示為:

        無意識(shí)公平[12,13]:FL 過程中,如果個(gè)體的同類型屬性(受保護(hù)屬性和一般屬性)出現(xiàn)相似的決策,換言之受保護(hù)屬性不影響系統(tǒng)輸出結(jié)果,那么預(yù)測器被稱為通過無意識(shí)實(shí)現(xiàn)公平。 假設(shè)a= 1 表示敏感屬性,a= 0 表示一般屬性,Y表示實(shí)際輸出結(jié)果,A為一個(gè)個(gè)體,則根據(jù)定義可表示為:

        基于偏好的公平[40]:Zafar 等人[41]從經(jīng)濟(jì)學(xué)和博弈論角度出發(fā)得到基于偏好公平的概念,當(dāng)在不同群體間給定多種選擇時(shí),群體中的個(gè)體往往自發(fā)選擇有利于自身發(fā)展的決策執(zhí)行。 假如分類器X對種族B提供不低于分類器Y的益處,那么當(dāng)決策選擇時(shí)種族B根據(jù)基于偏好的公平更容易選擇分類器X,可表示為:

        反事實(shí)公平[42]:Kusner 等人[42]描述受保護(hù)屬性和數(shù)據(jù)之間關(guān)系時(shí)提出一種反事實(shí)公平。定義如下,假定現(xiàn)實(shí)世界帶有受保護(hù)屬性的數(shù)據(jù)集訓(xùn)練得出的結(jié)果與在反事實(shí)世界運(yùn)算得出的結(jié)果一致,則說明遵從反事實(shí)公平,這種對公平性的衡量也提供了一種解釋偏見原因的機(jī)制。

        表3 公平性分類

        4.2 公平性處理

        4.2.1 預(yù)處理機(jī)制

        預(yù)處理機(jī)制是指采取數(shù)據(jù)層面去偏方式以實(shí)現(xiàn)FL 系統(tǒng)輸入時(shí)的認(rèn)知表征公平,其主要采用數(shù)據(jù)重采樣技術(shù)[43]。 數(shù)據(jù)重采樣技術(shù)表示重新選取樣本數(shù)據(jù)以減少預(yù)期結(jié)果和真實(shí)結(jié)果之間的偏差。 比如當(dāng)研究者發(fā)現(xiàn)樣本屬性帶有偏見時(shí),可以選擇減少帶有偏見的采樣數(shù)據(jù)或去除受保護(hù)屬性的信息,不過直接去除特征中的敏感屬性可能會(huì)造成實(shí)驗(yàn)結(jié)果出現(xiàn)誤差。 又如當(dāng)采樣數(shù)據(jù)的不同屬性采樣比例不一致時(shí),根據(jù)馬太效應(yīng)占比更大的屬性會(huì)在模型訓(xùn)練中比例越來越多、占比更少的屬性會(huì)在模型訓(xùn)練中越來越少,從而出現(xiàn)兩極分化的局面,這時(shí)可以使用重復(fù)采樣少比例樣本來實(shí)現(xiàn)數(shù)據(jù)采集的公平。 還可以通過尋找合適的特征函數(shù),將原來帶有受保護(hù)屬性的函數(shù)X轉(zhuǎn)換為一般屬性的函數(shù)Y,但是函數(shù)Y仍然具有很強(qiáng)的特征表達(dá)能力,從而使得FL 系統(tǒng)輸入時(shí)具有公平性。

        4.2.2 處理中機(jī)制

        圖5 預(yù)處理機(jī)制過程圖

        圖6 處理中機(jī)制過程圖

        4.2.3 后處理機(jī)制

        后處理機(jī)制是指決策層面去偏方式以實(shí)現(xiàn)FL 系統(tǒng)輸出時(shí)的后驗(yàn)評(píng)估公平,其方法形式也多種多樣。 首先當(dāng)分類器聚合各參與方傳輸?shù)臋?quán)重多次迭代形成最終收斂時(shí),研究者可以通過調(diào)整預(yù)測閾值對模型進(jìn)行后處理或直接修改聯(lián)邦學(xué)習(xí)的輸出結(jié)果以滿足驗(yàn)證決策的公平;其次研究者可以使用一個(gè)有效去偏工具[44],根據(jù)可解釋技術(shù)生成特征向量,然后對特征向量進(jìn)行分析,去除其中的偏見結(jié)果以實(shí)現(xiàn)公平;最后還可以在訓(xùn)練完成的模型后增加風(fēng)險(xiǎn)評(píng)估算法,通過再訓(xùn)練模型來評(píng)估偏見,以預(yù)測數(shù)據(jù)的偏差程度,如果結(jié)果偏差較大,則需要改進(jìn)實(shí)驗(yàn)、重新訓(xùn)練,如果偏差較小,則可以修改數(shù)據(jù)以滿足公平性。 例如Galhotra 團(tuán)隊(duì)開發(fā)出一種基于測試的方法Themis 來識(shí)別模型訓(xùn)練時(shí)存在的歧視以及歧視程度。

        圖7 后處理機(jī)制過程圖

        5 公平性系統(tǒng)

        5.1 公平性數(shù)據(jù)集

        COMPAS 數(shù)據(jù)集[45]:COMPAS 數(shù)據(jù)集包含2013、2014 年美國佛羅里達(dá)州布勞沃德縣11757名被告人的姓名、性別、年齡、種族等相關(guān)信息,其任務(wù)是通過計(jì)算累犯風(fēng)險(xiǎn)預(yù)測分?jǐn)?shù),進(jìn)而來預(yù)測被告人的累犯概率和累犯高風(fēng)險(xiǎn)概率。 該數(shù)據(jù)集可以研究種族和性別對于被告再次犯罪的影響。

        Adult 數(shù)據(jù)集[46]:Adult 數(shù)據(jù)集包含1994 年美國人口普查中48842 條居民信息,囊括年齡、種族、工作性質(zhì)、教育程度、婚姻狀況、國籍和收入等14 項(xiàng)屬性,其任務(wù)是根據(jù)教育、每周工作時(shí)間等屬性預(yù)測給定的成人是否年收入超過50000 美元,該數(shù)據(jù)集可以研究國籍、種族和教育程度等對于年薪收入的影響。

        German Credit 數(shù)據(jù)集[47]:German Credit 數(shù)據(jù)集包含1000 名貸款申請人的20 種特征屬性,比如現(xiàn)有支票賬戶狀態(tài)、信用記錄、貸款目的等,其任務(wù)是通過訓(xùn)練來預(yù)測借貸人信用風(fēng)險(xiǎn)好壞分類,從而實(shí)現(xiàn)銀行貸款的風(fēng)險(xiǎn)最小化和利益最大化。

        WQDB 數(shù)據(jù)庫[48]:WQDB 數(shù)據(jù)庫是由美國地質(zhì)調(diào)查局與密蘇里州哥倫比亞市和密蘇里州環(huán)境保護(hù)部合作收集1998 年到2005 年地下水和地表水位數(shù)據(jù)等形成的研究,包括900 個(gè)聯(lián)邦、州等超過3.8 億條水質(zhì)數(shù)據(jù)記錄,物理特性、化學(xué)成分、營養(yǎng)物質(zhì)等多種屬性,其主要用于研究水質(zhì)情況的預(yù)測。

        5.2 去偏平臺(tái)

        TensorFlow 是由谷歌公司開發(fā)的第二代數(shù)字計(jì)算軟件庫開源系統(tǒng),可便捷應(yīng)用于PC、服務(wù)器和移動(dòng)終端。 其工作模式如下:TensorFlow 系統(tǒng)先調(diào)用TensorFlow 約束優(yōu)化庫,然后根據(jù)不同指標(biāo)(如種族、性別等)來配置聯(lián)邦學(xué)習(xí)系統(tǒng)環(huán)境,最后為用戶提供最小化和約束指標(biāo)任意組合的功能,由此解決系統(tǒng)公平性問題。

        WhiteNoise:WhiteNoise 是由微軟與哈佛研究所聯(lián)合開發(fā)的工具包,其可通過差分隱私方式保證各參與方的隱私安全和統(tǒng)計(jì)公平性。 例如多家醫(yī)院科室協(xié)同搭建一個(gè)實(shí)行重癥治療的預(yù)測模型,依靠差分隱私技術(shù)能夠使得各參與方不用直接通過數(shù)據(jù)進(jìn)行信息的傳輸,從而減少個(gè)人信息被泄漏的風(fēng)險(xiǎn)以及增加各參與方數(shù)據(jù)采集的正確性。

        6 未來研究方向

        (1)資源分配更趨近公平

        聯(lián)邦學(xué)習(xí)系統(tǒng)中,當(dāng)中心服務(wù)器將聚合后的模型參數(shù)分配給各客戶端時(shí),每個(gè)客戶端從中心服務(wù)器獲取相同模型或者平均分配模型參數(shù)(Fed-Avg)對于向服務(wù)端提供更多數(shù)據(jù)模型的參與方顯然不公平,所以如何更合理資源分配使得各參與方認(rèn)為己方公平是值得后續(xù)學(xué)者認(rèn)真考慮的問題。

        (2)公平性與準(zhǔn)確性的界定

        在公平性解決方案中,研究者可以通過差分隱私技術(shù)實(shí)現(xiàn)聯(lián)邦學(xué)習(xí)算法的公平,不過差分隱私的引入可能導(dǎo)致噪聲過大,從而降低模型訓(xùn)練的準(zhǔn)確性[49]。 所以如何更合理控制噪聲大小使得公平性與準(zhǔn)確性達(dá)到一個(gè)臨值也是需要后續(xù)進(jìn)一步討論。

        (3)聯(lián)邦學(xué)習(xí)與區(qū)塊鏈結(jié)合的公平

        近幾年隨著區(qū)塊鏈技術(shù)的興起,聯(lián)邦學(xué)習(xí)與區(qū)塊鏈結(jié)合引發(fā)激勵(lì)機(jī)制問題[50]成為學(xué)術(shù)界熱衷的新熱點(diǎn),不過如何合理分配各方利益也是一個(gè)關(guān)鍵的難題。 若給予某些參與方的利益沒有達(dá)到心理預(yù)期,可能這些參與方擅自退出整個(gè)聯(lián)邦學(xué)習(xí)系統(tǒng),若給予某些參與方利益過高使得其他參與方感到不滿,可能其他參與方也會(huì)離開此系統(tǒng),從而導(dǎo)致整體模型數(shù)量級(jí)減少和利潤總和降低,甚至產(chǎn)生不可預(yù)想的蝴蝶效應(yīng),所以聯(lián)邦學(xué)習(xí)與區(qū)塊鏈關(guān)于激勵(lì)機(jī)制分配公平也需要加深探討。

        7 結(jié)束語

        目前,公平性定義衡量標(biāo)準(zhǔn)在世界范圍內(nèi)沒有統(tǒng)一確立,且系統(tǒng)研發(fā)多數(shù)情況下偏差的出現(xiàn)是由于設(shè)計(jì)者無意識(shí)行為導(dǎo)致,所以僅僅依靠技術(shù)算法層面去偏不能真正實(shí)現(xiàn)聯(lián)邦學(xué)習(xí)公平性問題,還需要進(jìn)一步完善相關(guān)機(jī)制,形成社會(huì)、法律、道德等聯(lián)合一體化整治規(guī)范。 不過隨著社會(huì)的不斷發(fā)展和人們對于網(wǎng)絡(luò)信息安全意識(shí)不斷增強(qiáng),相信在不久的將來,聯(lián)邦學(xué)習(xí)公平性相關(guān)問題在社會(huì)各界的共同重視下得到進(jìn)一步解決和完善,相關(guān)項(xiàng)目產(chǎn)品研發(fā)也將減少無意識(shí)偏差引入帶來的危害。

        猜你喜歡
        公平性聯(lián)邦偏差
        一“炮”而紅 音聯(lián)邦SVSound 2000 Pro品鑒會(huì)完滿舉行
        如何走出文章立意偏差的誤區(qū)
        兩矩形上的全偏差
        303A深圳市音聯(lián)邦電氣有限公司
        一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機(jī)制
        公平性問題例談
        關(guān)于均數(shù)與偏差
        關(guān)于公平性的思考
        華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版)(2014年1期)2014-02-27 13:48:36
        20年后捷克與斯洛伐克各界對聯(lián)邦解體的反思
        久久久久久人妻一区精品| 日本高清不卡二区三区| 亚洲天堂av在线网站| 久久久久久久综合综合狠狠| 国产精品熟妇视频国产偷人 | 无码无在线观看| 白白色发布在线观看视频| 久久久国产乱子伦精品| 拍摄av现场失控高潮数次| 亚洲片在线视频| 免费人妖一区二区三区| 99久久精品国产一区二区| 国产美女在线精品免费观看网址 | 青青草原精品99久久精品66| 98精品国产综合久久| 亚洲熟女少妇精品久久| 欧洲成人一区二区三区| 久久久亚洲色| AV中文字幕在线视| 手机在线播放av网址| 日本高清视频xxxxx| 欧美自拍区| 中文字幕国产精品专区| 欧美成人家庭影院| 少妇人妻偷人精品视频| 女人的天堂av免费看| 日本老熟妇五十路一区二区三区 | 五月婷婷俺也去开心| 97在线观看播放| 亚洲综合欧美日本另类激情| 亚洲精品精品日本日本| 久草青青91在线播放| 中国丰满熟妇xxxx| 538亚洲欧美国产日韩在线精品| 人妖啪啪综合av一区| 狠狠色综合7777久夜色撩人| 亚洲国产一区二区三区网| 精品在线亚洲一区二区三区| 999精品无码a片在线1级| 国产精品成人av在线观看 | 人妻少妇精品无码专区二|