面向正常擬合遷移學習模型的成員推理攻擊

2021-11-14 08:23:30陳晉音上官文昌張京京鄭海斌鄭雅羽張旭鴻

通信學報 2021年10期

陳晉音，上官文昌，張京京，鄭海斌，鄭雅羽，張旭鴻

（1.浙江工業(yè)大學網絡空間安全研究院，浙江杭州 310012；2.浙江工業(yè)大學信息工程學院，浙江杭州 310012；3.軍事科學院系統(tǒng)工程研究院信息系統(tǒng)安全技術國防科技重點實驗室，北京 100039；4.浙江大學控制科學與工程學院，浙江杭州 310007）

1 引言

隨著深度學習技術的飛速發(fā)展，深度學習模型已成功應用于多種任務，包括圖像分類[1-4]、文本識別[5-6]、語音識別[7-8]、社交網絡挖掘[9-10]、電磁信號處理[11-12]等，且均取得了令人滿意的性能。

伴隨應用任務的復雜化，以及對任務性能的需求日益增高，深度學習模型日趨復雜化[13-14]，通過本地獨立完成這些復雜模型的訓練需要大量的訓練數(shù)據與計算資源的支持。例如，OpenAI 公司花費了將近1.4 TB 的訓練數(shù)據和460 萬美元來訓練GPT-3 模型[15]。通常情況下，個體研究人員和小公司負擔不了這么多的資源。針對這一問題，近期研究提出了遷移學習，即通過在一個或多個源領域訓練獲得模型，總結有用的知識并將其應用于新的目標任務。常用的遷移學習方法之一是在已有的預訓練模型（教師模型）的基礎上進行微調訓練，獲得性能較好的學生模型。這種方式使個體研究人員不需要大量訓練數(shù)據和訓練資源也能獲得性能良好的模型，提高模型的利用效率，降低訓練成本。例如，應用于文本處理預訓練模型Transformer[16]，可以通過微調訓練的方法應用于眾多不同任務（如情感分類、文本識別等）中，且取得較好性能。

深度學習在現(xiàn)實商業(yè)中的應用日益廣泛，其數(shù)據的誤用和不充足的法律基礎所導致的數(shù)據隱私問題頻繁發(fā)生。例如，DeepMind 項目中存在濫用國家健康服務數(shù)據的問題。在眾多深度學習技術的安全問題中，較嚴重的一個是數(shù)據隱私問題，即模型的惡意使用者通過成員推理攻擊（MIA,membership inference attack）實現(xiàn)對模型訓練數(shù)據的竊取。具體而言，成員推理攻擊是指給定數(shù)據樣本和模型的訪問權限，判定該樣本是否存在于模型的訓練數(shù)據集中。至今為止，針對成員推理攻擊的研究[17-28]已引起學術界的廣泛關注。成員推理攻擊根據攻擊的方式可以分為2 種類型：1)基于模型的成員推理攻擊[21]，通過攻擊者訓練攻擊模型，利用攻擊模型判斷待測樣本是否為目標模型的成員樣本；2)基于指標的成員推理攻擊[20,23]，不需要訓練攻擊模型，通過計算預測向量的指標并與預設閾值進行比較來給出成員關系的推理。

通常假設成員推理攻擊的攻擊方具有目標模型的數(shù)據知識、訓練知識和輸出知識，獲取數(shù)據知識表明攻擊者已知訓練數(shù)據的分布特征，訓練知識意味著攻擊者知道目標模型的訓練方法，輸出知識表示攻擊者可以得到目標模型的輸出。根據攻擊者是否能夠訪問模型參數(shù)的模型知識，MIA 可分為黑盒推理攻擊[20-21,23]和白盒推理攻擊[24-25]。然而，上述工作都是在所有樣本中不加選擇地進行攻擊，這種場景下的攻擊成功率在所有目標樣本上平均，而不考慮誤判的代價。文獻[26]首次研究了針對單個樣本點的MIA，從另一個角度清晰地闡明了隱私風險，但是該攻擊需要獲取目標模型的置信度信息，在目標模型只輸出標簽信息的情況下無法正常工作。

鑒于遷移學習的優(yōu)勢，即利用較少訓練資源獲得較高性能的深度學習模型，通過遷移學習的方式獲取深度模型成為主流方式之一，隨之而來的是遷移學習的隱私安全問題，例如，面向遷移學習模型的成員推理攻擊。遷移學習中主要包含2 種模型：教師模型和學生模型。與現(xiàn)有的針對單獨模型的成員推理攻擊不同，本文面向遷移學習的MIA 根據攻擊對象不同和攻擊者的訪問權限不同，提出了分別竊取教師模型和學生模型的數(shù)據隱私，判斷目標樣本是否為目標模型的訓練數(shù)據。例如，當攻擊者攻擊教師模型且可以訪問教師模型時，可以判斷目標樣本是否為教師模型的訓練數(shù)據。文獻[27]首次研究了面向遷移學習的成員推理攻擊，該方法在模型處于過擬合狀態(tài)下取得較好攻擊效果，當模型處于正常擬合狀態(tài)時，攻擊性能有明顯的下降。這一現(xiàn)象也普遍存在于針對非遷移學習的MIA 方法中，包括Salem[20]、Yeom[23]、Nasr[24]和Lenio[25]等。為了表明這些方法只能在過擬合的深度學習模型上取得較好的攻擊效果，而當模型是正常擬合的情況下攻擊性能大幅下降。本文在 VGG16 模型、Caltech101 數(shù)據集上復現(xiàn)了上述攻擊方法，攻擊結果如圖1 所示。在過擬合與正常擬合情況下，各種MIA 方法的攻擊性能均存在明顯下降。具體而言，當模型處于過擬合時，攻擊有較高的精確率；當模型處于正常擬合時，攻擊性能明顯降低，而實際應用中的大部分深度學習模型都是正常訓練且處于正常擬合的情況。針對這一問題，文獻[26]提出了模型處于正常擬合環(huán)境下的成員推理攻擊，然而該攻擊需要獲取置信度信息，在目標模型只輸出標簽的情況下則無法展開攻擊，限制了其實際應用的可操作性。

圖1 訓練集為Caltech101 的VGG16 模型的攻擊樣本精確率

綜上所述，本文提出了針對遷移學習的深度學習模型在正常擬合情況下的成員推理攻擊方法，通過搜索對目標模型預測產生特殊影響的異常樣本，利用異常樣本在目標模型的訓練集中存在與否對預測結果產生較大差異，通過異常樣本展開成員推理攻擊，實現(xiàn)正常擬合模型的成員推理攻擊。此外，針對現(xiàn)有成員推理攻擊需要獲取置信度才能實現(xiàn)攻擊的問題，本文提出了一種只需要輸出標簽不需要置信度的更高效的MIA 方法，采用置信度分數(shù)表示樣本與模型決策邊界的距離，并使用對抗噪聲進行衡量，從而實現(xiàn)置信度重構，通過對抗攻擊和回歸分析獲取攻擊樣本所需對抗噪聲的大小與樣本在模型下的置信度關系，僅獲取模型輸出標簽的情況下，實現(xiàn)與置信度攻擊相當?shù)墓粜阅堋?/p>

本文的主要創(chuàng)新點如下。

1) 研究了遷移學習的模型處于正常擬合時的成員推理攻擊。設計了3 種攻擊模式，分別實現(xiàn)對教師模型和學生模型的成員推理攻擊，提出了異常樣本檢測和置信度重構方法，實現(xiàn)了面向正常擬合遷移學習模型的成員推理攻擊（TMIA,transfer membership inference attack）。

2) 在目標模型只輸出標簽的情況下，通過置信度重構，尋找對抗攻擊成功時對抗噪聲的大小與置信度的邏輯關系，實現(xiàn)了成員推理攻擊，即在最小信息量的情況下，依然達到了與擁有置信度的MIA相當?shù)墓粜阅堋?/p>

3) 展開對不同數(shù)據集的實驗驗證，證明了本文所提出的成員推理攻擊在不同遷移學習方式下的攻擊有效性，并與現(xiàn)有的多種MIA 方法展開對比，本文方法在大部分情況下達到了最優(yōu)攻擊性能（SOTA,state-of-the-art）。另外，在特征提取器的遷移方式下，揭示了凍結層數(shù)對攻擊性能的影響。

4) 為了進一步驗證本文提出的TMIA 攻擊的有效性，假設實際應用中存在對TMIA 的防御方法，對防御模型展開適應性攻擊，實驗結果表明，即使存在防御，本文的TMIA 依然具有較高的攻擊精確率。

2 相關工作

本節(jié)主要介紹面向機器學習模型的成員推理攻擊方法，以及遷移學習安全性研究。

2.1 成員推理攻擊

成員推理攻擊主要是為了竊取模型的數(shù)據隱私，當數(shù)據包含大量敏感信息時，如生物醫(yī)學數(shù)據[28-29]和移動跟蹤數(shù)據[30]，將造成嚴重的隱私風險，因此，成員推理攻擊引起廣泛關注。

文獻[21]首次提出了針對機器學習模型的成員推理攻擊，利用影子模型模擬目標模型的行為，為攻擊模型生成訓練數(shù)據，通過攻擊模型判定樣本是否為成員樣本。然而該攻擊的前提是需要獲取目標模型的結構和訓練數(shù)據的分布，而實際應用中大部分情況下，目標模型的結構與訓練數(shù)據分布獲取異常困難，限制了其實際應用。因此，文獻[20]提出目標模型結構和訓練數(shù)據分布未知情況下的成員推理攻擊，在訓練攻擊模型時不使用所有的置信度分數(shù)，只從中選取前3 個最大的值進行訓練。另外，文獻[20]也提出了基于閾值的成員推理攻擊，通過比較閾值和置信度分數(shù)的最大值進行成員推理，當置信度大于設定閾值，則判定為成員樣本。文獻[23]提出了2 種成員推理攻擊：第一種只利用標簽信息，將樣本的真實標簽與預測的標簽相比，如果相同則認為是成員樣本；第二種攻擊計算樣本的交叉熵損失，并將計算出的損失與所有訓練樣本的平均損失相比，從而判斷是否是成員樣本。文獻[24]評估了針對深度學習算法的白盒成員推理攻擊，認為白盒場景是黑盒場景的拓展，不同于黑盒環(huán)境下只能使用模型最后一層的輸出，白盒環(huán)境則可利用任意層的輸出進行攻擊，但攻擊性能并沒有明顯的提升。隨后，他們又提出了一種預測損失對模型訓練參數(shù)求導的方法，利用得到的梯度信息進行白盒攻擊，并表明該攻擊的性能優(yōu)于黑盒攻擊。但這種攻擊需要得到模型的訓練數(shù)據，在實際應用中面臨較大困難。文獻[25]針對這一問題，提出了一種不需要模型訓練數(shù)據的白盒成員推理攻擊。

總結上述攻擊的有效性保證是模型處于過擬合狀態(tài)，而當模型處于正常擬合狀態(tài)時，攻擊性能會大大降低。

除了針對批量成員數(shù)據的推理攻擊，文獻[26]首次提出了針對單個樣本點的成員推理攻擊。該方法只對部分樣本點進行攻擊，即使在模型處于正常擬合狀態(tài)下，依然有較高的攻擊準確率。然而，該方法需要獲取模型輸出的置信度信息，在模型輸出標簽的環(huán)境下無法正常工作。

綜上，現(xiàn)有工作尚未對面向正常擬合遷移學習模型的成員推理攻擊進行研究，且在目標模型只輸出標簽的情況下無法達到較好的攻擊效果。

2.2 遷移學習安全性研究

面向深度學習的遷移學習方法在計算機視覺[31-34]、語音分析[35-38]和文本處理[39-40]等領域均取得了較好的性能。但已有研究表明，遷移學習存在安全隱患，包括對抗攻擊[41]、中毒攻擊[42]和成員推理攻擊[27]。

文獻[41]提出了一種針對遷移學習的對抗攻擊。常用的對抗攻擊[38-40]主要是優(yōu)化圖像，使其被預測為目標標簽，與已有方法的不同之處是，文獻[41]提出的方法的核心思想是優(yōu)化圖像來模仿目標圖像的內部表現(xiàn)。文獻[42]提出了一種針對詞嵌入的數(shù)據中毒攻擊，基于嵌入的自然語言處理任務遵循遷移學習模式，其中嵌入模型和下游模型分別被視為教師模型和學生模型。目標可以是使目標單詞在單詞中排名更高，也可以將目標單詞與特定的單詞集的距離進行移近或者移遠。論文進行了大量的實驗，表明對嵌入模型（教師模型）進行攻擊可以嚴重影響多個下游模型（學生模型）。文獻[27]利用影子模型模仿目標模型，通過影子模型的輸出訓練攻擊模型，最后使用攻擊模型判斷樣本是否為成員樣本，首次研究了面向遷移學習的成員推理攻擊，但是該攻擊只能在目標模型處于過擬合狀態(tài)時有較好的攻擊效果。

綜上，現(xiàn)有的面向遷移學習成員隱私的研究只在模型處于過擬合的狀態(tài)下進行，所提方法無法在模型正常擬合時有較好的攻擊效果。

3 方法

本節(jié)首先介紹了攻擊模式和威脅模型，隨后對提出的攻擊方法展開詳細描述。

3.1 攻擊模式

與成員推理攻擊[22-25]不同，遷移學習場景中包含教師模型和學生模型2 種模型，微調和特征提取器2 種遷移方式。微調是指不凍結教師模型，直接用學生數(shù)據集訓練教師模型得到學生模型。特征提取器是指假設教師模型共n層，凍結其前k層，只用學生數(shù)據集訓練教師模型的n-k層。另外，從攻擊者能獲得的權限來看，攻擊者在某些情況下可能獲得教師模型的訪問權限，在某些情況下可能獲得學生模型的訪問權限。從攻擊者的目標來看，攻擊者可能想要推斷教師模型的訓練數(shù)據，也可能想要推斷學生模型的訓練數(shù)據。根據上述遷移方式的不同和攻擊者的能力及需求，本文將攻擊分為以下3 種模式。

攻擊Ⅰ：微調模式下，攻擊者攻擊教師模型，能且僅能訪問教師模型。

攻擊Ⅱ：特征提取器模式下，攻擊者攻擊教師模型，能且僅能訪問學生模型。

攻擊Ⅲ：微調模式下，攻擊者攻擊學生模型，能且僅能訪問學生模型。

3.2 威脅模型

與現(xiàn)有成員推理攻擊[25]相似，本文假設攻擊者可以獲得目標模型的結構和數(shù)據分布，并且可以訪問目標模型，獲得目標模型的輸入輸出對。

攻擊Ⅰ模式下，攻擊者A攻擊教師模型ft，能且僅能訪問教師模型。攻擊目標是判斷一個數(shù)據樣本點(x,y)是否是教師模型的訓練數(shù)據，計算式為

該模式下，本文默認攻擊者A可以獲得以下內容。

1) 教師模型結構和訓練方式。

2) 教師模型訓練集的特征分布和其同分布的數(shù)據集。

3) 教師模型的黑盒訪問權限。

攻擊Ⅱ模式下，攻擊者A攻擊教師模型ft，能且僅能訪問學生模型fs。攻擊目標是判斷一個數(shù)據樣本點(x,y)是否是教師模型的訓練數(shù)據，計算式為

該模式下，A可以獲得以下內容。

1) 教師模型和學生模型的結構和訓練方式。

2) 教師模型和學生模型的訓練集的特征分布和其同分布的數(shù)據集。

3) 學生模型的黑盒訪問權限。

攻擊Ⅲ模式下，攻擊者A攻擊學生模型fs，能且僅能訪問學生模型fs。攻擊目標是判斷一個數(shù)據樣本點(x,y)是否是學生模型的訓練數(shù)據，計算式為

該模式下，本文默認攻擊者A可以獲得以下內容。

1) 教師模型和學生模型的結構和訓練方式。

2) 教師模型和學生模型訓練集的特征分布和其同分布的數(shù)據集。

3) 學生模型的黑盒訪問權限。

3.3 攻擊框架

本節(jié)對攻擊方法進行整體概述。本文方法的整體框架如圖2 所示，主要分為3 種攻擊模式。

圖2 面向正常擬合模型的成員推理攻擊方法整體框架

1) 攻擊Ⅰ

攻擊Ⅰ模式下，攻擊者攻擊教師模型，判斷待測樣本是否為教師模型的訓練數(shù)據，且僅能訪問教師模型。為實現(xiàn)這一目標，本文建立了對比模型。對比模型的作用有2 個，首先是構建樣本特征，然后是生成輸出特征累計概率分布圖。對比模型的結構與目標模型相同，對比模型的訓練集與目標模型的訓練集特征分布一致。為構建樣本特征，本文構建k個對比模型，考慮到攻擊者存在獲得的數(shù)據集樣本數(shù)量不足的問題，使用bootstrap 采樣[27]來生成對比數(shù)據集，bootstrap 采樣減少了對比訓練集之間的重疊，使對比模型之間的相似性降低。對比模型的訓練方法與目標模型一致。

隨后，將待測樣本輸入k個對比模型，獲取其中間層輸出并將其合并構建樣本特征，通過異常樣本檢測得到異常樣本，本文只針對異常樣本進行成員推理攻擊。

將異常樣本輸入對比模型，繪制其輸出特征累計概率分布圖，對數(shù)損失函數(shù)在訓練模型時常用作標準函數(shù)，故本文采用對數(shù)損失函數(shù)構建輸出特征分布圖，定義為

其中，M表示分類器，x表示輸入樣本，yx表示輸入樣本的標簽，表示分類器M將樣本x分類為yx的置信度。

具體步驟如下。首先將目標樣本輸入對比模型獲取其輸出L，利用L構建累積分布函數(shù)（CDF,cumulative distribution function）圖D(L)，函數(shù)形式表示為F(L)。然后將異常樣本輸入教師模型，使用置信度重構方法獲取教師模型預測該樣本的置信度。最后是成員推理階段，本文根據假設檢驗評估樣本x是目標模型訓練數(shù)據的置信度。零假設H0：樣本x不是目標模型的訓練數(shù)據。備擇假設H1：樣本x是目標模型的訓練數(shù)據。根據假設檢驗，存在p值和顯著性水平β，當p>β時，零假設H0正確；反之，備擇假設H1正確。顯著性水平β由人為設置，p值計算式為將重構的置信度輸入式(4)計算得到對數(shù)損失，再將其輸入式(5)計算，獲取p值，若p>β，則認為該樣本不是成員樣本，反之，則是成員樣本。

2) 攻擊Ⅱ

攻擊Ⅱ模式下，攻擊者攻擊教師模型，判斷待測樣本是否為教師模型的訓練數(shù)據，且僅能訪問學生模型。與攻擊Ⅰ不同，攻擊Ⅱ建立了學生模型的對比模型，其訓練集分布與學生模型訓練集分布一致，訓練方式相同。

構建樣本特征時將異常樣本輸入對比模型獲取其中間層輸出并合并，通過異常樣本檢測得到異常樣本。隨后將異常樣本分別輸入對比模型繪制輸出特征累計概率分布圖，輸入學生模型利用置信度重構得到置信度。與攻擊Ⅰ不同，攻擊Ⅱ繪制輸出特征累計概率分布圖時，將目標模型輸出的最大置信度代入式(4)計算對數(shù)損失。最后通過假設檢驗，推理該樣本是否為成員樣本。

3) 攻擊Ⅲ

攻擊者攻擊學生模型，判斷待測樣本是否是學生模型的訓練數(shù)據，能且僅能訪問學生模型。與上述攻擊不同，攻擊Ⅲ攻擊目標是學生模型，待測樣本與學生模型訓練集相同。攻擊者建立對比模型，模型的結構與學生模型相同，其訓練數(shù)據分布與學生模型的訓練數(shù)據分布一致，訓練方式與學生模型相同。

隨后，將待測樣本輸入對比模型，提取中間層輸出并將其合并得到樣本特征，通過異常樣本檢測獲取異常樣本，并只對異常樣本進行成員推理攻擊。將異常樣本輸入對比模型繪制輸出特征累計概率分布圖，與攻擊Ⅱ不同之處在于繪制輸出特征累計概率分布圖時，將目標模型輸出的預測類對應的置信度代入式(4)計算對數(shù)損失，后將異常樣本輸入學生模型，利用置信度重構方法獲取異常樣本在目標模型下的預測置信度。最后利用假設檢驗，推理異常樣本是否為學生模型的成員樣本。

3.4 異常樣本檢測

本文只對檢測到的異常樣本進行成員推理攻擊，這些異常樣本在特征分布上與其他待測樣本存在較大差異，故在訓練模型時，異常樣本會對模型產生特殊的影響。在模型訓練集包含與不包含異常樣本時，模型對異常樣本的預測會有明顯的差別，故能達到較好的攻擊效果，異常樣本檢測算法如算法1 所示。

算法1異常樣本檢測算法

輸入待測樣本與對比模型訓練樣本n，類別數(shù)k，最大迭代次數(shù) max_iter，當前迭代次數(shù)num_iter，距離閾值α

輸出待測樣本中的異常樣本集合Q

樣本類別計算式為

其中，ci表示第i個樣本的類，j表示第j個類，uj表示第j個類的中心，表示第i個樣本特征，即樣本xi在k個對比模型中間層輸出的組合。

簇中心計算式為

其中，uj表示第j個類的中心，n表示樣本特征的個數(shù)，c i表示第i個樣本的類，j表示第j個類，表示第i個樣本特征。當ci為j時，1{ci=j}的值為1，否則為0。

樣本間距離計算式為

3.5 置信度重構

本文提出置信度重構技術，即使模型只輸出預測標簽，也能使攻擊有較好的攻擊性能。

置信度重構基于的思想是將一個樣本輸入深度模型，模型輸出的置信度越大，則該樣本越難被對抗攻擊，即攻擊成功所需要的對抗噪聲越大。本文提出的置信度重構主要分為2 個部分：首先通過對抗攻擊，獲取攻擊成功所需要的對抗噪聲大??；然后利用回歸分析，獲取對抗噪聲和置信度的邏輯關系。“HopSkipJump”攻擊[41]是最近提出的攻擊效率最高的對抗攻擊，具有查詢次數(shù)少、添加噪聲少的特點，本文選用該攻擊作為攻擊方法。第一步，將樣本輸入對比模型，獲取其置信度，隨后將樣本輸入目標模型進行對抗攻擊，獲取對抗噪聲大小。第二步，將第一步中獲取的置信度-噪聲大小對進行回歸分析，獲取其對應關系。回歸分析采用最小二乘法，具體步驟如下。

1)根據樣本點分布特征，初始化近似函數(shù)y=f(w,x)。

2)計算殘差函數(shù)

3)更新w，取殘差函數(shù)最小時的w為近似函數(shù)的最終參數(shù)。

因為對比模型的訓練數(shù)據分布與目標模型的訓練數(shù)據分布一致，本文認為在對比模型上得到的置信度和噪聲的大小關系與目標模型的基本一致。

4 實驗

本節(jié)在多個真實數(shù)據集和模型上進行實驗驗證正常擬合遷移學習模型的3 種成員推理攻擊有效性。首先，在4 種攻擊模式下評估了攻擊的性能，分別分析了成員推理攻擊在訪問教師模型時對教師模型造成的成員隱私風險、訪問學生模型時對教師模型造成的成員隱私風險和訪問學生模型時對學生模型造成的成員隱私風險。其次，對本文方法的有效性進行分析，解釋了本文方法在正常擬合模型下有效的原因，隨后解釋了相比于其他攻擊需要獲得置信度信息，而本文方法僅需獲得標簽信息就能有效的原因。再次，進行了參數(shù)敏感性分析，評估了異常樣本檢測階段不同參數(shù)對攻擊性能造成的影響。最后，進行了適應性攻擊實驗，對添加了防御的模型進行攻擊，以說明本文所提方法的普適性。

4.1 實驗設置

本節(jié)主要介紹了實驗環(huán)境、數(shù)據集、模型和評價指標、對比算法等信息。

實驗硬件及軟件平臺：i7-7700K 4.20GHzx8(CPU),TITAN Xp 12GiBx2 (GPU),16GBx4 memory(DDR4),Ubuntu16.04 (OS),Python(3.6),tensorflow-gpu (1.12.0),keras (2.2.4),torch (0.4.1)和torchvision (0.2.1)。

數(shù)據集：本文實驗采用4 個公共數(shù)據集。

Caltech101[43]。該數(shù)據集包含5 486 個訓練圖像和3 658 張測試圖像，分為101 個不同的物體類別（如人臉、手表、螞蟻、鋼琴等）和一個背景類別。每個類別大約有40～800 張圖片，大多數(shù)類別大約有50 張圖片。

CIFAR100[44]。該數(shù)據集是廣泛用于評價圖像識別算法的基準數(shù)據集，由彩色圖像組成，這些圖像被平均分為100 類，如食物、人、昆蟲等。每個類別有500 張訓練圖片和100 張測試圖片。

Flowers102[45]。該數(shù)據集包含102 種常見的花卉類別，包含6 149 張訓練圖像和1 020 張測試圖像。

PubFig83[46]。該數(shù)據集由8 300 張裁剪面部圖像組成，這些圖像來自83 張公共人臉圖像，每一張人臉圖像包含100 個變體。PubFig83 中的圖片是從網上獲取的，并不是在可控的環(huán)境中收集的。

本文選用4 個常用的深度模型，分別是VGG16模型[47]、VGG19 模型[47]、ResNet50 模型[48]和Inception_v3 模型[49]。模型訓練階段，優(yōu)化算法采用Adam 方法，batch_size 設置為64，epoch 設置為100。訓練完成后，模型均處于正常擬合狀態(tài)，訓練準確率與測試準確率較高且無明顯差異。

精確率是衡量成員推理攻擊[10]的常用指標，精確率越大表示攻擊性能越高，定義為

其中，TP 表示實際為成員樣本預測為成員樣本的樣本個數(shù)，F(xiàn)P 表示實際為非成員樣本預測為成員樣本的樣本個數(shù)。

另外，本文引入覆蓋率衡量成員推理攻擊性能，覆蓋率越大，表示攻擊性能越好。

其中，TP 表示實際為成員樣本預測為成員樣本的樣本個數(shù)，N表示成員樣本總數(shù)。

本文采取Zou 等[27]（FMIA）、Salem 等[20]（GMIA）和Long 等[26]（PMIA）這3 種攻擊方法作為本文方法的對比算法。FMIA 和GMIA 在攻擊過程中都建立了攻擊模型，區(qū)別是FMIA 針對每一類樣本建立了一個攻擊模型，GMIA 只需要建立一個攻擊模型。攻擊模型由兩層全連接層組成，第一層包含64 個神經元，激活函數(shù)選用ReLU，輸出層選用Softmax。PMIA 不建立攻擊模型，通過建立參考模型獲取樣本在不同模型下的輸出差異進行攻擊。為評估攻擊方法的性能，本文建立100 個目標模型進行測試，其中50 個包含待測樣本，另外50 個不包含待測樣本。

4.2 攻擊I：訪教-攻教

本節(jié)在微調的遷移方式下評估了本文提出的成員推理攻擊性能。攻擊I 模式下，攻擊者攻擊教師模型，判斷輸入樣本是否為教師模型的成員樣本，且攻擊者能且僅能訪問教師模型。本文教師模型分別在4 種數(shù)據集和3 種常見的深度模型上訓練。實驗結果如表1 所示。本文用精確率和覆蓋率來衡量不同攻擊方法之間的攻擊性能。

表1 攻擊I：訪教-攻教模式下不同攻擊的攻擊性能比較

首先，本文比較了PMIA 和TMIA 檢測的異常樣本數(shù)量。TMIA 檢測到的異常樣本比PMIA 多，這主要是因為PMIA 基于密度檢測異常樣本，只能在樣本分布稀疏時檢測到較多異常樣本，而TMIA基于距離檢測異常樣本，更具普適性。FMIA 和GMIA 本身無異常檢測步驟，為與本文方法TMIA對比，測試時攻擊TMIA 檢測到的異常樣本，故其異常樣本數(shù)量與TMIA 相同。

其次，本文比較了不同攻擊方法在不同數(shù)據集和不同模型下的精確率。在任意模型和任意數(shù)據集中，TMIA 和PMIA 的精確率均高于FMIA 和GMIA，F(xiàn)MIA 和GMIA 在Caltech101 數(shù)據集的Resnet50 模型下的精確率分別為45.12%和51.01%，這主要是因為FMIA 和GMIA 是針對過擬合模型的成員推理攻擊，它們基于成員樣本和非成員樣本在目標模型下的輸出差異進行攻擊，然而，在攻擊正常擬合模型時，成員樣本和非成員樣本在目標模型下的輸出差異較小，F(xiàn)MIA 和GMIA 攻擊性能大大降低。

本文所提方法PMIA 和TMIA 的攻擊性能相近，均有較好的攻擊性能，例如在Flowers102 數(shù)據集的VGG16 模型下，精確率分別為94.22%和93.49%，這是因為TMIA 和PMIA 利用異常樣本檢測找到了容易受到攻擊的樣本，這些樣本對模型的預測輸出有特殊的影響，有較高的概率被攻擊成功。

與PMIA 需要獲取置信度不同，本文所提方法只需要獲取樣本在目標模型下輸出的標簽信息，獲得的信息更少，但是攻擊性能與PMIA 相比并沒有明顯的降低，表明了TMIA 的優(yōu)越性。

最后，本文比較了不同攻擊方法在不同模型和不同數(shù)據集下的覆蓋率。在任意模型和數(shù)據集下，TMIA 的覆蓋率明顯高于FMIA 和GMIA，這顯示了TMIA 較好的攻擊性能。與PMIA 需要置信度相比，TMIA 只需要獲取標簽信息，在獲得信息較少的情況下，性能并沒有明顯的降低，再次表現(xiàn)了TMIA 的優(yōu)越性。

4.3 攻擊II：訪學-攻教

本節(jié)在特征提取器的遷移方式下評估了本文提出的成員推理攻擊性能。攻擊II 模式下，攻擊者攻擊教師模型，判斷輸入樣本是否為教師模型的成員樣本，且攻擊者能且僅能訪問學生模型。本節(jié)教師模型均由Caltech101 數(shù)據集訓練，學生模型在另外3 種數(shù)據集上訓練，教師模型和學生模型都采用VGG16。實驗結果如圖3 所示，其中橫坐標表示凍結教師模型的層數(shù)，縱坐標表示攻擊的性能指標。本文用精確率和覆蓋率來衡量不同攻擊方法之間的攻擊性能。

由圖3 可知，隨著凍結層數(shù)的增加，攻擊的性能也會上升。這是因為凍結的層數(shù)越多，學生模型會更多地保留教師模型訓練集的特征，增加了攻擊的成功率。上述結果表明，即使在不訪問教師模型的情況下，只訪問學生模型，也會造成教師模型訓練數(shù)據的成員隱私泄露。這主要是因為學生模型也包含教師模型訓練數(shù)據的特征，故存在泄露其數(shù)據隱私的可能。

圖3 不同攻擊方法在不同凍結層數(shù)下的性能比較

其次，在任意數(shù)據集下，TMIA 的精確率和覆蓋率均大于FMIA 和GMIA，表明了本文方法有較好的攻擊性能。這主要因為FMIA 和GMIA 基于成員樣本和非成員樣本在模型下的輸出差異進行攻擊，而模型處于正常擬合狀態(tài)下，輸出幾乎無差異，而TMIA 只攻擊異常樣本，這些異常樣本對目標模型的預測產生特殊影響，當模型訓練集中存在和不存在異常樣本時，模型對異常樣本的預測會有較大的差異，對比模型訓練集中不包含異常樣本，在推理階段，利用假設檢驗，若異常樣本在目標模型下的輸出特征不符合異常樣本在對比模型下的輸出特征分布，則認為該樣本為成員樣本，有較高的精確率推理成功。

最后，TMIA 在只獲得標簽信息的情況下，獲得的信息更少，但是和PMIA 性能幾乎無差異，再次表明了TMIA 方法的優(yōu)越性。

4.4 攻擊III：訪學-攻學

本節(jié)在微調的遷移模式下評估了本文提出的成員推理攻擊性能。攻擊III 模式下，攻擊者攻擊學生模型，判斷輸入樣本是否為學生模型的成員樣本，且攻擊者能且僅能訪問學生模型。本節(jié)教師模型均由Caltech101 數(shù)據集訓練，學生模型在另外3 種數(shù)據集上訓練，分別在3 種常見的深度模型上進行成員推理攻擊。本文用精確率和覆蓋率來衡量不同攻擊方法之間的攻擊性能。

如表2 所示，在任意模型和任意數(shù)據集中，TMIA 和PMIA 的精確率和覆蓋率均高于FMIA 和GMIA，例如在Flowers102 上訓練的VGG19 的精確率分別為53.55%和53.06%，PMIA 和TMIA 的精確率分別為94.37%和93.53%。這是因為FMIA和GMIA是基于成員樣本和非成員樣本在模型輸出下的置信度差異進行攻擊，當模型處于正常擬合時，成員樣本和非成員樣本的置信度差異很小，導致FMIA 和GMIA 攻擊性能大大降低。本文所提方法TMIA 和PMIA 的攻擊性能更強，因為TMIA 和PMIA 挑選對模型輸出有特殊影響的樣本，這些樣本更容易被攻擊。

表2 攻擊III：訪學-攻學模式下不同攻擊的攻擊性能比較

與PMIA 需要獲取置信度不同，本文所提方法TMIA 只需要獲取樣本在目標模型下輸出的標簽信息，獲得的信息更少，但是攻擊性能與PMIA 相比并沒有明顯的降低，這也表明了本文置信度重構的有效性。

4.5 有效性分析

本節(jié)分析了TMIA 有較強攻擊性能的原因。為此，本文給出了異常樣本在模型in 和模型out 下輸出的置信度概率累計分布，模型in 表示該模型的訓練數(shù)據包含異常樣本，模型out 表示該模型的訓練數(shù)據不包含異常樣本。

如圖4 所示，異常樣本在模型in 和模型out 下的輸出分布有著明顯差異。異常樣本在模型in 下的輸出置信度明顯大于在模型out 下的輸出置信度，這說明了本文方法的攻擊有效性，解釋了本文方法可以推斷出樣本成員狀態(tài)的原因。

圖4 異常樣本累計概率分布

最后，本節(jié)給出了置信度重構，如圖5 所示。構成對抗樣本的噪聲大小和模型對樣本預測的置信度有明顯的邏輯關系，置信度越大，攻擊該樣本所需要的噪聲就越大，說明了本文所提置信度重構方法的有效性，解釋了即使在模型只輸出標簽信息的情況下TMIA 依然能有較好攻擊性能的原因。

圖5 置信度重構

4.6 參數(shù)敏感性分析

本節(jié)主要對異常樣本檢測過程中距離閾值α進行敏感性分析，評估了不同閾值α對攻擊性能的影響。實驗結果如表3 所示，隨著閾值α的增加，檢測到的異常樣本數(shù)量會減少，精確率和覆蓋率有一定增加，這表明閾值的增高會讓更少的樣本被認為是異常樣本，這些異常樣本離聚類中心更遠，特征差異越大，對模型預測造成的影響也越大，更容易被攻擊成功。

表3 參數(shù)敏感性分析

4.7 適應性攻擊

本節(jié)主要對TMIA 方法在施加了防御后的模型的攻擊效果進行分析?，F(xiàn)有研究[19]表明，Dropout對成員推理攻擊有較好的防御性能。本節(jié)在Caltech101 數(shù)據集上訓練的目標模型上應用了Dropout，隨后用TMIA 進行攻擊。

表4 給出了應用Dropout 前后，模型的準確率和攻擊性能的差異。結果顯示，Dropout 方法降低了異常樣本檢測環(huán)節(jié)檢測到的異常樣本數(shù)量，但是檢測出的異常樣本仍然以較高的精確率被攻擊成功。例如，當Dropout 的參數(shù)被設置為0.1 時，檢測到了6 個異常樣本，這些異常樣本以高達96.15%的精確率被推理成功。

表4 不同Dropout 下TMIA 的攻擊性能

綜上，Dropout 在一定程度上緩解了成員推理攻擊，但是并沒有完全解決成員推理攻擊的隱私威脅，防御效果有限，進一步說明了本文方法對成員隱私的危害。

4.8 累計分布圖

本節(jié)在微調的遷移方式下展示了Flowers102數(shù)據集在VGG16、VGG19 和Resnet50 模型上的對數(shù)損失L累計分布。攻擊I 模式下，攻擊者攻擊教師模型，判斷輸入樣本是否為教師模型的成員樣本，且攻擊者能且僅能訪問教師模型。TMIA 在VGG16、VGG19 和Resnet50 模型上分別檢測到了42、43 和40 個異常樣本。本文將檢測到的異常樣本輸入對比模型，得到輸出標簽后，利用回歸分析得到其置信度，最后通過式(4)計算其對數(shù)損失。根據獲得的對數(shù)損失，繪制累計分布圖。

累計概率分布如圖6 所示，其中橫坐標表示對數(shù)損失L，縱坐標表示累計概率。判別輸入樣本是否為成員樣本時，將輸入樣本輸入目標模型，得到輸入樣本在目標模型下真實標簽類的置信度，隨后利用式(4)計算其對數(shù)損失，最后根據假設檢驗判別輸入樣本是否為成員樣本。

圖6 累計概率分布

5 結束語

本文對不同遷移學習下，正常擬合模型的數(shù)據成員隱私風險進行了系統(tǒng)的研究。針對過去的工作主要面向過擬合模型，本文考慮的是正常擬合這一更加符合現(xiàn)實條件的環(huán)境，通過異常點檢測選擇容易受到成員推理攻擊的目標數(shù)據并根據假設檢驗保守地做出成員關系預測，使攻擊失敗成本降至最低。針對過去的工作主要面向個人獨自訓練的模型，本文在遷移學習環(huán)境中設置了2 種不同遷移方式，并設計了3 種不同的攻擊模式。本文系統(tǒng)地設計了攻擊框架，并根據實驗結果評估了3 種攻擊對4 個真實數(shù)據集的攻擊性能。針對模型只能在標簽信息情況下過去攻擊無法正常工作的問題，本文提出了置信度重構方法，在獲得信息更少的情況下，達到了與基于置信度攻擊幾乎一致的性能。

此外，本文TMIA 方法存在異常樣本檢測數(shù)量少的問題，這是由于本文提出的異常樣本檢測技術可能無法找到所有對模型預測產生特殊影響的樣本。另外，本文方法需要獲取目標模型的訓練集分布，當攻擊者無法獲取目標模型訓練集分布時，攻擊性能有一定降低。因此，在未來的研究中，作者將繼續(xù)研究異常樣本的檢測方法，找到更多的異常樣本，并找到一種不需要獲取目標模型訓練集的通用方法。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放