烏達(dá)巴拉 張貫虹
摘要:近年來,性別偏見引起自然語言處理領(lǐng)域研究者們的關(guān)注。已有研究工作證實,性別偏見不僅影響模型性能,且其傳播將進(jìn)一步對下游產(chǎn)品產(chǎn)生一定的危害。文章探究性別偏見對文本情緒分析的影響,提出基于對抗網(wǎng)絡(luò)模型的性別偏見消減方法。實驗結(jié)果表明,在文本數(shù)據(jù)集上,文章提出的對抗性訓(xùn)練方法相比其他減偏方法,使TPR-GAP下降約0.02~0.03,而性能只降低了0.8個點(diǎn)。
關(guān)鍵詞:性別偏見;文本情緒分析;對抗網(wǎng)絡(luò)
中圖分類號:TP391? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2023)34-0029-03
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID)
0 引言
近年來,性別偏見(Gender Bias) 在NLP領(lǐng)域受到了關(guān)注,它不僅影響NLP模型的性能,其傳播在很大程度上會對下游產(chǎn)品產(chǎn)生一些危險的刻板印象。
性別偏見沒有統(tǒng)一的定義,也沒有用于衡量它的統(tǒng)一標(biāo)準(zhǔn)。但研究者們普遍認(rèn)為,性別偏見是對一種性別的偏好或偏見[1],它存在于NLP 模型或系統(tǒng)的多個方面,比如訓(xùn)練數(shù)據(jù)、預(yù)訓(xùn)練模型和訓(xùn)練算法等。以下通過例子來說明不同任務(wù)中存在的性別偏見。
例句1. 機(jī)器翻譯系統(tǒng)[2]。英語: The doctor asked the nurse to help her in the procedure. 西班牙語: El doctor le pidio a la enfermera que le ayudara con el procedimiento.
在英語源句中,護(hù)士的性別是未知的,但與her的共指表明“醫(yī)生”是女性。西班牙語的目標(biāo)句使用形態(tài)特征來表示性別:el doctor表示男性,而la enfermera表示女性。
例句2.詞嵌入[3]。有偏見的詞嵌入模型自動生成諸如“男人:女人”,“計算機(jī)程序員:家庭主婦”之類的類推。
例句3. 共指解析[4]。一個男人和他的兒子發(fā)生了一場可怕的車禍。父親死了,男孩受了重傷。醫(yī)院里,外科醫(yī)生看著病人驚呼,我不能給這個男孩做手術(shù),他是我兒子!
許多第一次聽到上述描述的人很難將母親和外科醫(yī)生的角色分配給同一個實體。
例句 4. 侮辱性語言檢測[5]?!澳闶且粋€好女人”(You are a good woman) 被認(rèn)為存在“性別歧視”,其原因可能是由于“女人”(woman) 這個詞語。
例句5. 情感傾向性分析[6]。超過75%的系統(tǒng)傾向于標(biāo)記涉及某一種性別/種族的句子(相比其他性別/種族的句子)較高的傾向性強(qiáng)度值。
本文針對情感分析中存在的性別偏見問題,提出一種基于對抗網(wǎng)絡(luò)的性別偏見消減方法。通過將情緒分析和性別預(yù)測模型以對抗的方式聯(lián)合訓(xùn)練,增強(qiáng)模型泛化能力,同時抵御敏感屬性(性別)對情緒分析任務(wù)的影響。
1 相關(guān)工作
目前,國內(nèi)外研究者們提出了不同方法來解決性別偏見問題。例如:構(gòu)建性別平衡語料的方法[7]、詞嵌入去偏的方法[8]以及調(diào)整訓(xùn)練算法來消減偏見的方法[9]。上述研究均取得了不同程度的研究結(jié)果。但是,構(gòu)建語料的方法并不完全適用于文本情緒分析,因為在情緒表達(dá)的語句中很少會直接顯示性別信息。例如,“I never knew a detention was so hard to get.”(我從來不知道拘留是如此之難)。詞嵌入去偏的方法存在刪除過多有利于下游應(yīng)用信息的問題。調(diào)整訓(xùn)練算法需要設(shè)計合理的模型和訓(xùn)練策略來平衡盲化的敏感信息(如性別)和保留的目標(biāo)任務(wù)所需信息。
2 模型概述
本文借鑒對抗訓(xùn)練[10]的思想,對情緒識別和性別預(yù)測模型進(jìn)行聯(lián)合訓(xùn)練,通過調(diào)整對抗性損失函數(shù)達(dá)到消減性別偏見的目的。對抗性訓(xùn)練方法涉及同時訓(xùn)練兩個網(wǎng)絡(luò)模型:生成器G和判別器D。生成器G試圖生成欺騙D的噪聲數(shù)據(jù),而判別器D對從G生成的真實數(shù)據(jù)和假數(shù)據(jù)進(jìn)行分類。在結(jié)合G和D兩個模型的學(xué)習(xí)過程中,G和D以交互方式相互促進(jìn),以實現(xiàn)各自的目標(biāo)。
本文沒有設(shè)計專門的生成器,而是采用一種基于中介的方式,將情緒識別網(wǎng)絡(luò)的前 k 層結(jié)果視為生成器的一部分內(nèi)容,它將情感特征 Xi映射到一系列表示 Ri。然后,Ri被輸入到解碼器網(wǎng)絡(luò)以輸出情感分值,同時它也將成為另一個解碼器網(wǎng)絡(luò)(性別預(yù)測模型)輸入的一部分。因此,情緒識別模型和性別檢測模型之間的關(guān)系可表示為:
[Pr(y,g|x)=p(y|x,g)?p(g|x+noise)y',g'p(y'|x,g)?p(g'|x+noise)] (1)
其中,x是句子集:x = x1, ..., xN, y = y1, ..., yN表示x的所有可能的情緒類別集合,g = g1, ..., gN, 其中,[gi∈[0,1]]表示xi的性別信息,即該條句子是由女性產(chǎn)生還是由男性產(chǎn)生。noise 表示情緒識別網(wǎng)絡(luò)的前 k 層結(jié)果作為干擾性別預(yù)測模型的干擾數(shù)據(jù)。
模型的流程示意圖如圖1所示。情緒識別模型和性別檢測模型通過對抗訓(xùn)練實現(xiàn),情緒識別模型的結(jié)果干擾性別預(yù)測模型的結(jié)果的同時保證其準(zhǔn)確率。
2.1 基礎(chǔ)模型
本文以CNN模型為基礎(chǔ)框架,網(wǎng)絡(luò)的前k層作為編碼器,生成一組 N個表示Rn(Y, X), n = 1, ..., N。然后,Ri作為特征值被輸入到解碼器以輸出情緒后驗P(yi| xi)。基礎(chǔ)模型記為E,其損失表示為LE。
2.2 對抗模型
本文針對性別預(yù)測設(shè)計了對抗模型,可以通過神經(jīng)網(wǎng)絡(luò)實現(xiàn)。本文設(shè)計3種不同的對抗模型:
1) 線性模型(Linear)。使用兩個線性層來生成一個對抗模型。
2) LSTM 模型(LSTM)。包含 1 個嵌入層、1 個 LSTM層和兩個線性層。LSTM 模型旨在通過單層雙向 LSTM 將由 c1,...,cN 組成的中間卷積表示C 映射到一系列隱藏狀態(tài) h1,...,hN。H = BiLSTM(X + C) = [h1,..., hN],[H∈Rd×N],其中d是隱藏層的大小,N是給定句子的長度。
3) 基于注意力的 LSTM 模型(Attention-LSTM)。該對抗模型將注意力機(jī)制集成到 LSTM 模型中。在 LSTM 生成矩陣H后,應(yīng)用均值池化將結(jié)果[h]與最后一個時刻產(chǎn)生的隱藏狀態(tài)hN連接起來。注意力層旨在從H中學(xué)習(xí)歸一化權(quán)重向量[α=α1, ...,αN]和加權(quán)隱藏表示[δ]。即[M=tanh(h⊕hN)], [α=softmax(wTM)], [δ=HαT],其中[⊕]表示連接運(yùn)算符。
對抗模型記為A,其損失表示為LA。
2.3 對抗訓(xùn)練
基礎(chǔ)模型E中產(chǎn)生的Ri作為一種噪聲也同時傳輸?shù)紸中。在訓(xùn)練過程中,當(dāng)A 處于最優(yōu)狀態(tài)時,其參數(shù)將會被凍結(jié),同時其輸入將產(chǎn)生被繼續(xù)修改,從而達(dá)到降低A準(zhǔn)確率的目的。但同時保證E 將找到最佳的特征,使其準(zhǔn)確率較高。即整個系統(tǒng)的最終目的是讓E準(zhǔn)確地預(yù)測標(biāo)簽yi,同時通過Ri的干擾,使A預(yù)測gi的結(jié)果很差。
E的目的是最小化與預(yù)測訓(xùn)練數(shù)據(jù)(Xtest, Ytest)上的情緒類別相關(guān)的交叉熵?fù)p失LE。
[LE(X;θe)=-i=1KlogP(yi|X;θe)]? ?(2)
A的目的是最小化與預(yù)測訓(xùn)練數(shù)據(jù)(Xtest, Gtest)上的性別相關(guān)的交叉熵?fù)p失LA。
[LA(X;θa)=-GlogP(gi|X;θa)]? ? ?(3)
上述模型的最終參數(shù)值作為對抗網(wǎng)絡(luò)的起點(diǎn)。在對抗訓(xùn)練中,前k個CNN層的輸出C被選為特征向量,并與詞嵌入連接作為A的輸入。此時,對抗損失形式為:
[LA(X+C;θa)=-GlogP(gi|X+C;θa)] (4)
通過優(yōu)化E對y的預(yù)測來聯(lián)合訓(xùn)練E和A,同時隨著A在預(yù)測g時受到懲罰。換言之,情緒分類器試圖最小化其對特定任務(wù)預(yù)測的損失,而性別預(yù)測模型試圖增加其損失。因此,對抗網(wǎng)絡(luò)的損失函數(shù)L是 LE和 LA的加權(quán)組合。本文采用的組合形式為:
[L=λLE+(1-λ)LA]? ? ? ? ?(5)
2.4 評估指標(biāo)
本文采用兩個指標(biāo)來評估性別偏見消減結(jié)果:準(zhǔn)確率ACC和真陽性率差異TPR-GAP?;谖墨I(xiàn)[11]對于性別偏見的影響分析,本文定義了TPR-GAP,計算公式見公式(6)。其中TPR是與“賠率相等”相關(guān)的“真陽性率”(True Positive Rate, TPR)。TPR-GAP 表示女性和男性的TPR值差異的絕對值。具體而言,通過計算每個類別的真陽性率 (TPR) 的差異,并進(jìn)一步通過平均這些數(shù)量來量化這個標(biāo)準(zhǔn)。
TPR-GAP = |TPRf - TPRm| (6)
對于情緒識別任務(wù),需要通過計算準(zhǔn)確率ACC來驗證學(xué)習(xí)的目標(biāo)模型是否能得到令人滿意的性能:準(zhǔn)確率越高表明性能越好。對于性別偏見的影響,如果TPR-GAP越低表明性別偏見消減結(jié)果越好。
3 實驗結(jié)果及討論
3.1 實驗數(shù)據(jù)及設(shè)置
實驗數(shù)據(jù):本文在ISEAR,CrowdFlower和Volkova數(shù)據(jù)集上進(jìn)行相應(yīng)實驗。ISEAR包含7 659條語句,其中來自女性的語句4 201條;男性語句3 458條,標(biāo)注了七種情緒:喜悅、恐懼、憤怒、悲傷、厭惡、羞恥和內(nèi)疚。CrowdFlower是利用眾包技術(shù)生成的面向推文的情感數(shù)據(jù)集,由40 000條推文構(gòu)成,情緒類別包括:空虛、悲傷、熱情、擔(dān)憂、愛、樂趣、恨、快樂、釋然、厭倦、驚訝和憤怒等。性別信息利用Facebook個人資料和社會保障局 (SSA) 提供的姓名數(shù)據(jù)集進(jìn)行。Volkova的推文數(shù)據(jù)包括739 440條推文,其中417 634條句子來自女性,320 846條句子來自男性,但沒有情感信息的標(biāo)注。針對Volkova的推文數(shù)據(jù),本文利用WAL(Wordnet Affective Lexicon)情感詞匯庫以及情感表情庫(Full Emoji Database,F(xiàn)ED)對Volkova的推文句子進(jìn)行情緒標(biāo)注。標(biāo)注信息除了WAL中顯示的六種情緒(憤怒、厭惡、恐懼、喜悅、悲傷、驚訝)之外還增加了愛和信任兩個情緒標(biāo)簽。
實驗設(shè)置:本文將數(shù)據(jù)集以80∶10∶10的比例分別拆分為訓(xùn)練集、驗證集和測試集,同時保證測試集包含相同數(shù)量的兩種性別(男性和女性)的句子。
對所有參數(shù)設(shè)置了相同的歸一化參數(shù)[λ=10-4],每批數(shù)據(jù)量的大?。╞atch size)設(shè)置為64,AdaGrad 的學(xué)習(xí)率設(shè)置為[α=0.1],詞向量大小為300。
3.2 對比實驗
為了驗證本文提出的基于對抗訓(xùn)練的性別偏見消減方法對文本情緒分析任務(wù)影響的有效性,本文將其與一些主流的性別偏見消減方法進(jìn)行比較。對比方法包括:
1) 無消減策略(無):以在原始數(shù)據(jù)上訓(xùn)練的基本情緒檢測模型為主模型,使用預(yù)訓(xùn)練的詞嵌入GloVe,沒有采取任何去偏或減偏策略。
2) 詞嵌入去偏策略(GN-GloVe):本組實驗使用文獻(xiàn)[9]等構(gòu)建去偏的詞嵌入GN-GloVe替換預(yù)訓(xùn)練的 GloVe,以驗證去偏詞嵌入在文本情緒分析任務(wù)中的有效性。
3) 基于數(shù)據(jù)增強(qiáng)的消減方法(Data-Aug):在本組實驗中,首先使用[5]描述的性別對雙向字典交換所有性別詞。然后,使用增強(qiáng)數(shù)據(jù)集和預(yù)訓(xùn)練的GloVe嵌入來訓(xùn)練模型。
4) 對抗網(wǎng)絡(luò)架構(gòu)(LSTM-MLP):構(gòu)建了一個類似于文獻(xiàn)[12]的對抗網(wǎng)絡(luò)。該網(wǎng)絡(luò)架構(gòu)由1個用于表示的 LSTM 網(wǎng)絡(luò)和用于分類和對抗的多層感知器組成。在本組實驗中,構(gòu)建了3層感知器。
對比實驗結(jié)果如表1所示。
4 結(jié)論
針對性別偏見問題,本文提出基于對抗訓(xùn)練的方法,評估指標(biāo)為準(zhǔn)確率和真陽性率差異。實驗結(jié)果表明,本文提出方法可以有效地克服文本情緒分析中存在的性別偏見。為了保證內(nèi)存需求的可控性,本文限制了對抗訓(xùn)練階段的迭代。在未來的工作中,將計劃用一種訓(xùn)練標(biāo)準(zhǔn)來探索解決這個問題。同時,進(jìn)一步研究更多敏感屬性的影響。
參考文獻(xiàn):
[1] SUN T,GAUT A,TANG S,et al.Mitigating gender bias in natural language processing:literature review[EB/OL].[2022-10-20].2019:arXiv:1906.08976.https://arxiv.org/abs/1906.08976.pdf.
[2] SAVOLDI B,GAIDO M,BENTIVOGLI L,et al.Gender bias in machine translation[EB/OL].[2022-10-20].2021:arXiv:2104. 06001.https://arxiv.org/abs/2104.06001.pdf.
[3] BOLUKBASI T,CHANG K W,ZOU J,et al.Man is to computer programmer as woman is to homemaker?debiasing word embeddings[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems.December 5 - 10,2016,Barcelona,Spain.ACM,2016:4356-4364.
[4] RUDINGER R,NARADOWSKY J,LEONARD B,et al.Gender bias in coreference resolution[EB/OL].[2022-10-20].2018:arXiv:1804.09301.https://arxiv.org/abs/1804.09301.pdf.
[5] PARK J H,SHIN J,F(xiàn)UNG P.Reducing gender bias in abusive language detection[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing.Brussels,Belgium.Stroudsburg,PA,USA:Association for Computational Linguistics,2018.
[6] KIRITCHENKO S,MOHAMMAD S M.Examining gender and race bias in two hundred sentiment analysis systems[EB/OL].[2022-10-20].2018:arXiv:1805.04508.https://arxiv.org/abs/1805.04508.pdf.
[7] LU K J,MARDZIEL P,WU F J,et al.Gender bias in neural natural language processing[EB/OL].[2022-10-20].2018:arXiv:1807.11714.https://arxiv.org/abs/1807.11714.pdf.
[8] BARTL M,NISSIM M,GATT A.Unmasking contextual stereotypes:measuring and mitigating BERT’s gender bias[EB/OL].[2022-10-20].2020:arXiv:2010.14534.https://arxiv.org/abs/2010.14534.pdf.
[9] ZHAO J Y,ZHOU Y C,LI Z Y,et al.Learning gender-neutral word embeddings[EB/OL].[2022-10-20].2018:arXiv:1809. 01496.https://arxiv.org/abs/1809.01496.pdf.
[10] GOODFELLOW I J,POUGET-ABADIE J,MIRZA M,et al.Generative adversarial networks[EB/OL].[2022-10-20].2014:arXiv:1406.2661.https://arxiv.org/abs/1406.2661.pdf.
[11] ROMANOV A, DE-ARTEAGA M, WALLACH H,et al. What’s in a name? reducing bias in bios without access to protected attributes. In NAACL-HLT,2019:4187-4195.
[12] ELAZAR Y,GOLDBERG Y.Adversarial removal of demographic attributes from text data[EB/OL].[2022-10-20].2018:arXiv:1808.06640.https://arxiv.org/abs/1808.06640.pdf.
【通聯(lián)編輯:唐一東】