李晨光,張波,趙騫,陳小平,王行甫*
基于遷移學(xué)習(xí)的文本共情預(yù)測
李晨光1,張波2,趙騫2,陳小平1,王行甫1*
(1.中國科學(xué)技術(shù)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,合肥 230026; 2.國網(wǎng)安徽省電力有限公司,合肥 230022)(?通信作者電子郵箱cg0808@mail.ustc.edu.cn)
由于缺乏足夠的訓(xùn)練數(shù)據(jù),文本共情預(yù)測的進展一直都較為緩慢;而與之相關(guān)的文本情感極性分類任務(wù)則存在大量有標(biāo)簽的訓(xùn)練樣本。由于文本共情預(yù)測與文本情感極性分類兩個任務(wù)間存在較大相關(guān)性,因此提出了一種基于遷移學(xué)習(xí)的文本共情預(yù)測方法,該方法可從情感極性分類任務(wù)中學(xué)習(xí)到可遷移的公共特征,并通過學(xué)習(xí)到的公共特征輔助文本共情預(yù)測任務(wù)。首先通過一個注意力機制對兩個任務(wù)間的公私有特征進行動態(tài)加權(quán)融合;其次為了消除兩個任務(wù)間的數(shù)據(jù)集領(lǐng)域差異,通過一種對抗學(xué)習(xí)策略來區(qū)分兩個任務(wù)間的領(lǐng)域獨有特征與領(lǐng)域公共特征;最后提出了一種Hinge?loss約束策略,使共同特征對不同的目標(biāo)標(biāo)簽具有通用性,而私有特征對不同的目標(biāo)標(biāo)簽具有獨有性。在兩個基準(zhǔn)數(shù)據(jù)集上的實驗結(jié)果表明,相較于對比的遷移學(xué)習(xí)方法,所提方法的皮爾遜相關(guān)系數(shù)(PCC)和決定系數(shù)(R2)更高,均方誤差(MSE)更小,充分說明了所提方法的有效性。
遷移學(xué)習(xí);文本共情預(yù)測;文本情感極性分類;自然語言處理;深度學(xué)習(xí)
共情(同理心)作為情感的重要組成部分,反映了人們面對他人遭遇或目睹他人境況時所產(chǎn)生的對應(yīng)情感[1]。共情的定義較為廣泛,因而存在許多不同的評測標(biāo)準(zhǔn)[2-4]。這些不同的共情評測標(biāo)準(zhǔn)均可以反映人們面對他人遭遇時所產(chǎn)生的情感及反饋,除此之外共情分析也與人機交互、情感分析等息息相關(guān)[5-7],因而識別文本內(nèi)所蘊含的共情因素是非常必要的。
截至目前,基于文本的共情預(yù)測這一領(lǐng)域仍然進展緩慢,核心原因是目前所發(fā)表的基于文本的共情數(shù)據(jù)集的樣本量都過小。顯然,當(dāng)數(shù)據(jù)量不足時,訓(xùn)練出的網(wǎng)絡(luò)模型的泛化能力會比較差,且預(yù)測精度也會較低。目前公認的開源文本共情數(shù)據(jù)集[8-10]均只包含一千多條數(shù)據(jù)。與之形成對比的是,一些其余的情感分析任務(wù)擁有非常充足的訓(xùn)練數(shù)據(jù)。以情感極性分類任務(wù)為例,目前該任務(wù)對應(yīng)非常多的開源數(shù)據(jù)集,這些數(shù)據(jù)集包含數(shù)萬乃至數(shù)十萬訓(xùn)練樣本[11-13]。表1列舉了一些樣例,這些樣例是標(biāo)注者閱讀完一些新聞后寫下的讀后感,以及這些讀后感所對應(yīng)的共情標(biāo)簽與極性標(biāo)簽。從該樣例可以看出,共情標(biāo)簽與極性標(biāo)簽都在一定程度上反映了文本的情感屬性,且兩者的值都依賴于文本內(nèi)所包含的情感詞。這說明兩個標(biāo)簽之間存在一定的聯(lián)系,從而為在這兩個任務(wù)之間進行遷移學(xué)習(xí)提供了可能性。因此,本文提出一種遷移學(xué)習(xí)方法,希望通過情感極性分類任務(wù)來輔助共情預(yù)測任務(wù),以獲得更好的共情預(yù)測結(jié)果。
表1 共情/極性數(shù)據(jù)樣例
但是,在共情預(yù)測與情感極性分類這兩個任務(wù)間進行遷移學(xué)習(xí)存在兩個困難。第一個困難是兩個任務(wù)之間的領(lǐng)域差異,即數(shù)據(jù)集分布差異。共情數(shù)據(jù)集與情感極性數(shù)據(jù)集的采樣空間與文本風(fēng)格可能截然不同。舉例而言,共情數(shù)據(jù)集[8]主要來源于對各類新聞的讀后感,而情感極性數(shù)據(jù)集[11]主要來源于電影評論領(lǐng)域。這是兩個截然不同的領(lǐng)域,因而對應(yīng)不同的樣本空間。第二個困難是兩個任務(wù)的預(yù)測標(biāo)簽并不相同。從表1可以看出,極性更多是判斷一段文本是開心的還是悲傷的,而共情則要更加復(fù)雜,它更多是考察共情的情感強度,而無需考慮共情的情感是正向還是負向的。
數(shù)據(jù)集領(lǐng)域方面的差異與標(biāo)簽不同所帶來的差異給兩個任務(wù)之間的遷移學(xué)習(xí)帶來了干擾。因此,本文提出一種新穎的共情預(yù)測方法,可以從情感極性分類任務(wù)中學(xué)習(xí)到可遷移的公共特征,且避免領(lǐng)域和標(biāo)簽差異所帶來的干擾。該方法主要包括三部分:首先,利用注意力模塊依據(jù)公私有特征對對兩個任務(wù)間的公私有特征進行動態(tài)加權(quán);其次,通過一個領(lǐng)域分類器分辨所有特征的來源領(lǐng)域,從而使公共特征對不同領(lǐng)域的數(shù)據(jù)集領(lǐng)域具有普適性,而私有特征對不同領(lǐng)域的數(shù)據(jù)集領(lǐng)域具有獨有性,利用對抗學(xué)習(xí)模塊消除領(lǐng)域差異;最后,為減少標(biāo)簽差異,設(shè)計一種Hinge?loss約束策略使公共特征提取器更多地提取對標(biāo)簽預(yù)測有益的特征,而對標(biāo)簽預(yù)測沒有助益的特征都由另一任務(wù)的私有特征提取器提取。
為了驗證本文方法的有效性,在兩個共情數(shù)據(jù)集[8-9]和兩個情感極性分類數(shù)據(jù)集[12,14]上進行實驗,即通過這兩個情感極性分類數(shù)據(jù)集來輔助兩個共情數(shù)據(jù)集。實驗結(jié)果表明,本文方法在引入情感極性分類任務(wù)后大大提高了共情預(yù)測的準(zhǔn)確度。本文方法可以同時降低數(shù)據(jù)集領(lǐng)域不同與預(yù)測標(biāo)簽不同所帶來的干擾,從而可以在兩個標(biāo)簽不同且領(lǐng)域不同的任務(wù)間進行遷移學(xué)習(xí),具有較強的可拓展性。
雖然文本共情預(yù)測對于人機交互、情感分析非常重要,但是該領(lǐng)域目前的相關(guān)工作還比較少。例如,Xiao等[15]提出一種N?gram模型對醫(yī)學(xué)與心理學(xué)領(lǐng)域中的數(shù)據(jù)樣例進行了共情與非共情的分類;Khanpour等[16]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的模型來識別在線健康論壇內(nèi)的共情信息;Zhou等[17]分析了各種領(lǐng)域的共情樣例,例如新聞報刊、校園欺凌、心理治療等。以上這些工作均在部分領(lǐng)域?qū)睬檫M行了分析與討論,但所使用的數(shù)據(jù)集并未開源,因此在這些工作的基礎(chǔ)上嘗試進一步的探索非常困難。
Buechel等[8]在2018年提出了首個開源的共情標(biāo)注數(shù)據(jù)集,這些數(shù)據(jù)來源于用戶對一些新聞的讀后感,而且每位用戶還對其寫下的讀后感進行了共情標(biāo)簽的標(biāo)注,標(biāo)注標(biāo)準(zhǔn)為EC?PD標(biāo)準(zhǔn)[2],從而每份讀后感都對應(yīng)一個標(biāo)簽值,標(biāo)簽值的取值范圍為從1~7。而Zhou等[9]則同樣開源了一份共情數(shù)據(jù)集,這份數(shù)據(jù)集內(nèi)的每條數(shù)據(jù)也對應(yīng)一個標(biāo)簽值,標(biāo)簽值的取值范圍為從1~5。目前的主要問題是這兩個數(shù)據(jù)集都只包含1 000條左右的樣本,數(shù)據(jù)量非常小,因此難以訓(xùn)練出泛化能力強的神經(jīng)網(wǎng)絡(luò)。而情感極性分類任務(wù)則包含大量的數(shù)據(jù)樣本,如文獻[11-13]中介紹的這些數(shù)據(jù)集往往包含數(shù)萬條情感極性分類數(shù)據(jù),并且此這些數(shù)據(jù)與共情預(yù)測任務(wù)之間存在較強的相關(guān)性。
從遷移學(xué)習(xí)的相關(guān)綜述論文[18-19]可知,目前遷移學(xué)習(xí)方法主要分為兩種,分別是:同質(zhì)遷移學(xué)習(xí)與異質(zhì)遷移學(xué)習(xí)。其中:同質(zhì)遷移學(xué)習(xí)方法[20-21]主要針對同一特征分布空間的情況;而異質(zhì)遷移學(xué)習(xí)習(xí)方法主要針對源領(lǐng)域與目標(biāo)領(lǐng)域的特征分布空間不同的任務(wù)。由于源領(lǐng)域與目標(biāo)領(lǐng)域的特征空間分布往往不一致,因此近年來自然語言處理領(lǐng)域的相關(guān)工作主要集中于異質(zhì)的遷移學(xué)習(xí)。
異質(zhì)遷移學(xué)習(xí)可進一步地分為有監(jiān)督異質(zhì)遷移學(xué)習(xí)與無監(jiān)督異質(zhì)遷移學(xué)習(xí)。其中后者雖然有大量的相關(guān)工作[13,22],但由于本文所涉及的共情領(lǐng)域是有標(biāo)簽的,因此這些方法難以應(yīng)用到本任務(wù)中。而針對有監(jiān)督異質(zhì)遷移學(xué)習(xí)而言,雖然目前也存在一些相關(guān)工作[23-24],但這些任務(wù)往往只考慮了數(shù)據(jù)集領(lǐng)域間的差異,忽略了標(biāo)簽帶來的差異。若忽略共情標(biāo)簽與極性標(biāo)簽的差異,必定會對共情預(yù)測任務(wù)帶來不利的影響。因此要在文本共情預(yù)測任務(wù)與文本情感分類任務(wù)間進行遷移學(xué)習(xí),需要同時考慮數(shù)據(jù)集領(lǐng)域差異與標(biāo)簽空間差異。
圖1 本文方法的模型框架
在后續(xù)的網(wǎng)絡(luò)架構(gòu)中,由于公私有特征對共情預(yù)測的貢獻可能不一致,因此首先通過一個注意力模型(Attention)對公私有特征進行加權(quán),通過動態(tài)加權(quán)的方式將公私有特征融合為最終的特征表達,并進行對應(yīng)標(biāo)簽的預(yù)測。與此同時,針對共情預(yù)測與極性分類這兩個任務(wù)間數(shù)據(jù)集領(lǐng)域差異與標(biāo)簽評測差異所帶來的干擾,模型通過對抗分類損失來降低數(shù)據(jù)集領(lǐng)域差異所帶來的干擾,并通過設(shè)計Hinge?loss的方式來降低不同標(biāo)簽所帶來的干擾,從而使特征編碼器所學(xué)習(xí)到的可遷移特征能適用于不同的領(lǐng)域和標(biāo)簽,進一步地解纏中所得到的兩個任務(wù)之間的公私有特征。
2.2.1基于Attetion架構(gòu)的公私有特征動態(tài)融合
極性分類的訓(xùn)練損失如式(5)所示:
2.2.2基于對抗損失來消除數(shù)據(jù)集領(lǐng)域差異
2.2.3基于Hinge?loss來消除標(biāo)簽差異
為消除共情任務(wù)與極性任務(wù)兩者間的標(biāo)簽差異,本文提出了一種標(biāo)簽訓(xùn)練策略。具體而言,以共情預(yù)測為例,有些可遷移特征對共情預(yù)測是有用的,而有些特征是沒有用的。這些有用的特征應(yīng)該主要通過公共特征編碼器進行提取,而無效的特征由另外一個任務(wù)的私有特征提取器提取,這是因為在測試階段另外一個任務(wù)的私有特征提取器是不使用的,從而可以舍棄這些無效特征。因此,本文方法通過Hinge?loss這一模塊來盡可能擴大公共特征器和共情私有特征提取器所對應(yīng)的實驗結(jié)果與極性私有特征提取器和共情私有特征提取器所對應(yīng)的實驗結(jié)果之間的差值。
其中:1和2為實驗中的兩個超參數(shù),實驗中兩者取值分別0.4與0.5。
2.2.4總體損失函數(shù)
本文在兩個共情分析數(shù)據(jù)集進行了實驗驗證,它們分別來自文獻[8-9]。輔助這兩個共情數(shù)據(jù)集的情感極性分類數(shù)據(jù)集分別為SemEval 2017 task(以下簡稱SemEval)[12]與IMDB reviews[14](以下簡稱IMDB)。對于極性數(shù)據(jù)集而言,僅保留其中正向樣本與負向樣本。
由Buechel等[8]提出的共情數(shù)據(jù)集(以下簡稱Buechel)共包括1 860條標(biāo)注數(shù)據(jù)集,主要來源于標(biāo)注人員對于各類新聞的讀后感;其中每條數(shù)據(jù)樣例都包括兩個共情標(biāo)簽,分別是EC和PD,這兩個標(biāo)簽值的取值范圍是1~7。由Zhou等[9]提出的共情數(shù)據(jù)集(以下簡稱Zhou)則包括1 000條標(biāo)注數(shù)據(jù),這些數(shù)據(jù)來源于Reddit論壇,主要內(nèi)容為用戶在該論壇上的發(fā)帖及對應(yīng)帖子的回復(fù);其中每條數(shù)據(jù)樣例都被打上了一個共情標(biāo)簽,標(biāo)簽值的范圍為1~5。極性分類數(shù)據(jù)集SemEval主要包括用戶在Twitter上發(fā)布的各類推文,包含7 061條正向樣本與3 240條負向樣本;IMDB則主要是用戶對各種類別電影的觀后感及評論,包括25 000條正向樣本與25 000條負向樣本。
實驗參數(shù)部分,編碼器部分采用了兩種不同模型,分別是雙向長短記憶(Bi?directional Long Short?Term Memory, Bi?LSTM)網(wǎng)絡(luò)[25]與雙向Transformer表征預(yù)訓(xùn)練模型(Bidirectional Encoder Representation from Transformers, BERT)[26]。當(dāng)Bi?LSTM作為編碼器時,其前向LSTM與后向LSTM的隱層維度均被設(shè)置為200。為了保持一致,本文采用了同文獻[8]中相同的詞向量詞典對輸入文本進行詞向量的轉(zhuǎn)換;而當(dāng)BERT作為編碼器時,直接采用BERT中的bert?base?uncased模型作為基準(zhǔn)編碼模型。Bi?LSTM作為編碼器時,學(xué)習(xí)率設(shè)置為0.001,而BERT作為編碼器時,學(xué)習(xí)率設(shè)置為0.000 02,衰減系數(shù)統(tǒng)一設(shè)置為0.95,Dropout率設(shè)置為0.3,訓(xùn)練的batch大小為16,正則化方法為L2正則化。訓(xùn)練過程中,極性數(shù)據(jù)集中的樣本同共情數(shù)據(jù)集內(nèi)的樣本進行組合,以成對的形式輸入到網(wǎng)絡(luò)架構(gòu)內(nèi)。實驗框架為Pytorch,優(yōu)化器采用Adam[27]。
表2 兩個共情數(shù)據(jù)集上的消融實驗結(jié)果
從表2的實驗結(jié)果中可得出以下三點結(jié)論:
首先,從實驗結(jié)果中可以看出,AL對共情預(yù)測取得了最明顯的輔助作用,即AL模塊的貢獻最高。造成這一結(jié)果的原因是共情與極性這兩個標(biāo)簽都具備一定的情感屬性,因此兩者間的標(biāo)簽差異較?。坏c此同時,其數(shù)據(jù)集領(lǐng)域差異要明顯更大,例如Buechel共情數(shù)據(jù)集主要來自Twitter上的用戶推文,而IMDB極性分類數(shù)據(jù)集則主要來自用戶電影評論,這兩個數(shù)據(jù)集領(lǐng)域之間的分布差異非常大。因此,對于共情預(yù)測與極性分類這兩個任務(wù)而言,其數(shù)據(jù)集領(lǐng)域差異要大于標(biāo)簽差異。三個模塊中,AL模塊的主要作用便是縮小數(shù)據(jù)集領(lǐng)域差異,其余兩個模塊對于縮小數(shù)據(jù)集領(lǐng)域的差異的功效遠小于AL模塊。因此,AL模塊可以最大限度地縮小兩個任務(wù)之間的差異,進而取得更好的實驗結(jié)果。
其次,對于BiLSTM與BERT這兩種編碼器而言,當(dāng)BERT作為編碼器時,實驗結(jié)果要更優(yōu)。針對這一現(xiàn)象,推測原因主要是Bi?LSTM作為編碼器時模型是隨機初始化的,而當(dāng)BERT模型作為編碼器時,本文直接使用了預(yù)訓(xùn)練模型bert?base?uncased作為編碼器。預(yù)訓(xùn)練模型bert?base?uncased已經(jīng)在大規(guī)模的文本數(shù)據(jù)上提前進行了訓(xùn)練,因此預(yù)訓(xùn)練模型內(nèi)已經(jīng)包含了非常多的先驗信息,所以輸入文本通過預(yù)訓(xùn)練模型進行編碼必定可以獲得更好的編碼特征表達,從而當(dāng)BERT作為編碼器時可以取得更好的實驗結(jié)果。
第三,從實驗結(jié)果可以看出,極性數(shù)據(jù)集SemEval的實驗結(jié)果要明顯優(yōu)于IMDB的實驗結(jié)果。造成這一現(xiàn)象的原因是SemEval數(shù)據(jù)集主要來自用戶推文,因此包含了各種類型和各類領(lǐng)域的極性數(shù)據(jù);而IMDB主要來自電影評論這一單獨領(lǐng)域。實驗結(jié)果說明豐富多樣的極性數(shù)據(jù)相較于單一來源的極性數(shù)據(jù)往往可以取得更好的實驗增益效果。尤其是當(dāng)共情數(shù)據(jù)集的來源也較為豐富時,例如以Buechel共情數(shù)據(jù)集為例,它同樣來自各式各樣的用戶推文,從表2的實驗結(jié)果可以看出,此時極性SemEval數(shù)據(jù)集的輔助增益效果明顯優(yōu)于極性數(shù)據(jù)集IMDB。
表3 基于不同極性數(shù)據(jù)量的消融實驗結(jié)果
同相關(guān)工作的比較主要分為兩類,分別是不進行遷移學(xué)習(xí)的工作,即只使用共情數(shù)據(jù)進行共情預(yù)測的方法,例如前饋神經(jīng)網(wǎng)絡(luò)(Feedforwardl Neural Network, FNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)等,這些不進行遷移學(xué)習(xí)工作的實驗結(jié)果直接來源于文獻[8-9];第二類比較的工作為利用共情數(shù)據(jù)進行遷移學(xué)習(xí)的相關(guān)工作,例如雙向?qū)惯w移網(wǎng)絡(luò)(Dual Adversarial Transfer Network, DATNet)[23]、基于自注意力的對抗遷移網(wǎng)絡(luò)ADV?SA(ADVersarial transfer learning with Self?Attention)[24]等,本文同樣復(fù)現(xiàn)了這些方法并進行比較。實驗結(jié)果如表4、5所示。從表4、5可以看出,本文方法Bi?LSTM+AL+AT+HN與BERT+AL+AT+HN的實驗結(jié)果無論在Buechel共情數(shù)據(jù)集上還是在Zhou共情數(shù)據(jù)集上,都取得了最好的結(jié)果。具體分析而言,相較于不進行遷移學(xué)習(xí)的工作,例如CNN,F(xiàn)NN、BERT、Random Forest等,本文方法的性能明顯更優(yōu)。這是因為本文方法可以通過大規(guī)模的極性分類數(shù)據(jù)集幫助小規(guī)模的共情分析數(shù)據(jù)集學(xué)習(xí)到更好的公共特征表達,從而使共情預(yù)測的性能更好。除此之外,相較于DATNet、ADV?SA等進行遷移學(xué)習(xí)的工作,本文方法的實驗結(jié)果也更優(yōu)。這是因為本文方法不僅通過對抗學(xué)習(xí)的方式降低了兩個任務(wù)間領(lǐng)域差異所帶來的干擾;也通過設(shè)計Hinge?loss的方式減少了兩個任務(wù)間標(biāo)簽差異所帶來的干擾,從而使學(xué)習(xí)到的可遷移的公共特征對于不同的領(lǐng)域、不同的標(biāo)簽都是普適且高效的。
表4 不進行遷移學(xué)習(xí)的實驗結(jié)果
表5 進行遷移學(xué)習(xí)的實驗結(jié)果
本文選取了兩條來源于Buechel共情數(shù)據(jù)集中的樣例作為分析目標(biāo),兩條樣例分別對應(yīng)高共情與低共情。實驗結(jié)果如表6所示,每條樣例包括兩個共情標(biāo)簽,分別是EC和PD,標(biāo)簽的取值范圍是1~7。將該樣例內(nèi)的情感詞通過添加下劃線的方式進行凸顯,表6中的Baseline為BERT模型的實驗結(jié)果。
示例1: I am soto hear that, and I am realabout that you canit. I believe it!
示例2: This doesn’t sounde to me. If you are affected, then you should decide as an individual to find another options.
表6樣例分析實驗結(jié)果
Tab.6 Experimental results of case analysis
從表6中可以得出兩個結(jié)論:
首先是本文方法相較于傳統(tǒng)方法可以更好地進行共情預(yù)測,這是因為本文方法可以更好地對句子內(nèi)的情感詞進行建模分析。以第一個樣例中hopeful這一情感詞為例,它在共情數(shù)據(jù)集內(nèi)共出現(xiàn)13次,與此同時,它在極性數(shù)據(jù)集內(nèi)出現(xiàn)了86次,其變形詞“hope”“hopefully”在極性數(shù)據(jù)集內(nèi)的出現(xiàn)次數(shù)更是高達468。因此,這些極性數(shù)據(jù)樣例可以很好地幫助共情預(yù)測任務(wù)取得更好的實驗結(jié)果。
其次,通過兩條樣例的實驗結(jié)果可以看出,本文方法對于高共情值樣例的預(yù)測精度要高于低共情值樣例。這是因為,一般而言,高共情樣例中往往包含更多的情感詞匯與情感屬性,而低共情值中相關(guān)信息較少,例如樣例二中僅包含“not worrisome”這一個情感詞匯。由于采用的輔助數(shù)據(jù)集為文本情感分類數(shù)據(jù),其中包含大量的情感詞匯與信息,因此在這些數(shù)據(jù)的輔助作用下,模型會對情感詞匯、信息更為敏感。故本文方法對高共情值樣例的預(yù)測精度與提升效果會更突出。
為了解決數(shù)據(jù)量小所導(dǎo)致的文本共情預(yù)測準(zhǔn)確率低這一問題,本文提出了一種新的遷移學(xué)習(xí)方法。該方法從擁有大量數(shù)據(jù)的極性分類任務(wù)中學(xué)習(xí)到可遷移的公共特征,并通過這些公共特征來輔助共情預(yù)測任務(wù)。具體而言,該方法首先通過注意力模塊對公私有特征進行動態(tài)加權(quán),從而使融合特征可以更好地進行共情預(yù)測。其次,針對共情預(yù)測與極性分類兩個任務(wù)間領(lǐng)域與標(biāo)簽的差異,設(shè)計了一種對抗學(xué)習(xí)策略來降低兩個任務(wù)間數(shù)據(jù)集領(lǐng)域不同所帶來的差異;并設(shè)計了一種Hinge?loss約束策略來消除兩個任務(wù)間標(biāo)簽不同所帶來的差異。實驗結(jié)果也表明本文方法取得了較好的預(yù)測精度。
[1] BELLET P S, MALONEY M J. The importance of empathy as an interviewing skill in medicine[J]. Journal of the American Medical Association, 1991, 266(13): 1831-1832.
[2] BATSON C D, FULTZ J, SCHOENRADE P A. Distress and empathy: two qualitatively distinct vicarious emotions with different motivational consequences[J]. Journal of Personality, 1987, 55(1): 19-39.
[3] BASCH M F. Empathic understanding: a review of the concept and some theoretical considerations[J]. Journal of the American Psychoanalytic Association, 1983, 31(1): 101-126.
[4] SOBER E, WILSON D S. Summary of: ‘Unto others: the evolution and psychology of unselfish behavior’[J]. Journal of Consciousness Studies, 2000, 7(1/2): 185-206.
[5] FUNG P, DEY A, SIDDIQUE F B, et al. Zara the supergirl: an empathetic personality recognition system[C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations. Stroudsburg, PA: Association for Computational Linguistics, 2016: 87-91.
[6] ALAM F, DANIELI M, RICCARDI G. Annotating and modeling empathy in spoken conversations[J]. Computer Speech & Language, 2018, 50: 40-61.
[7] MAJUMDER N, HONG P, PENG S, et al. MIME: MIMicking Emotions for empathetic response generation [EB/OL]. [2021-04-28]. https://arxiv.org/pdf/2010.01454.pdf.
[8] BUECHEL S, BUFFONE A, SLAFF B, et al. Modeling empathy and distress in reaction to news stories[EB/OL]. [2021-06-15]. https://arxiv.org/pdf/1808.10399.pdf.
[9] ZHOU N, JURGENS D. Condolences and empathy in online communities[C]// Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2020: 609-626.
[10] SHARMA A, MINER A S, ATKINS D C, et al. A computational approach to understanding empathy expressed in text?based mental health support. [EB/OL]. [2021-05-09]. https://arxiv.org/pdf/2009.08441.pdf.
[11] PANG B, LEE L. Seeing stars: exploiting class relationships for sentiment categorization with respect to rating scales[C]// Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2005: 115-124.
[12] ROSENTHAL S, FARRA N, NAKOV P. SemEval?2017 task 4: sentiment analysis in Twitter[C]// Proceedings of the 11th International Workshop on Semantic Evaluation. Stroudsburg, PA: Association for Computational Linguistics, 2017: 502-518.
[13] BHATT H S, ROY S, RAJKUMAR A, et al. Learning transferable feature representations using neural networks[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2019: 4124-4134.
[14] MAAS A, DALY R E, PHAM P T, et al. Learning word vectors for sentiment analysis[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2011: 142-150.
[15] XIAO B, CAN D, GEORGIOU P G, et al. Analyzing the language of therapist empathy in motivational interview based psychotherapy[C]// Proceedings of the 2012 Asia Pacific Signal and Information Processing Association Annual Summit and Conference. [S.l.]: PMC, 2012: 6411762.
[16] KHANPOUR H, CARAGEA C, BIYANI P. Identifying empathetic messages in online health communities[C]// Proceedings of the Eighth International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2017, 2: 246-251.
[17] ZHOU K, AIELLO L M, SCEPANOVIC S, et al. The language of situational empathy[J]. Proceedings of the ACM on Human? Computer Interaction, 2021, 5(CSCW1): Article No. 13.
[18] DREDZE M, KULESZA A, CRAMMER K. Multi?domain learning by confidence?weighted parameter combination[J]. Machine Learning, 2010, 79(1): 123-149.
[19] PAN S J, YANG Q. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 22(10): 1345-1359.
[20] HUANG J, GRETTON A, BORGWARDT K, et al. Correcting sample selection bias by unlabeled data[C]// Proceedings of the 19th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2006: 601-608.
[21] SUGIYAMA M, SUZUKI T, NAKAJIMA S, et al. Direct importance estimation for covariate shift adaptation[J]. Annals of the Institute of Statistical Mathematics, 2008, 60(4): 699-746.
[22] MALMI E, SEVERYN A, ROTHE S. Unsupervised text style transfer with padded masked language models[EB/OL].[2021-06-28]. https://arxiv.org/pdf/2010.01054.pdf.
[23] ZHOU J T, ZHANG H, JIN D, et al. Dual adversarial neural transfer for low?resource named entity recognition[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2019: 3461-3471.
[24] CAO P, CHEN Y, LIU K, et al. Adversarial transfer learning for Chinese named entity recognition with self?attention mechanism[C]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2018: 182-192.
[25] GRAVES A, FERNáNDEZ S, SCHMIDHUBER J. Bidirectional LSTM networks for improved phoneme classification and recognition[C]// Proceedings of the 2005 International Conference on Artificial Neural Networks, LNTCS 3697. Berlin: Springer, 2005: 799-804.
[26] DEVLIN J, CHANG M W, LEE K, et al. BERT: pre?training of deep bidirectional transformers for language understanding. [EB/OL]. [2021-09-01]. https://arxiv.org/pdf/1810.04805.pdf.
[27] KINGMA D P, AND BA J. Adam: a method for stochastic optimization. [EB/OL]. [2021-06-08]. https://arxiv.org/pdf/1412.6980.pdf.
Empathy prediction from texts based on transfer learning
LI Chenguang1, ZHANG Bo2, ZHAO Qian2, CHEN Xiaoping1, WANG Xingfu1*
(1,,230026,;2,230022,)
Empathy prediction from texts achieves little progress due to the lack of sufficient labeled data, while the related task of text sentiment polarity classification has a large number of labeled samples. Since there is a strong correlation between empathy prediction and polarity classification, a transfer learning?based text empathy prediction method was proposed. Transferable public features were learned from the sentiment polarity classification task to assist text empathy prediction task. Firstly, a dynamic weighted fusion of public and private features between two tasks was performed through an attention mechanism. Secondly, in order to eliminate domain differences in datasets between two tasks, an adversarial learning strategy was used to distinguish the domain?unique features from the domain?public features between two tasks. Finally, a Hinge?loss constraint strategy was proposed to make common features be generic for different target labels and private features be unique to different target labels. Experimental results on two benchmark datasets show that compared to the comparison transfer learning methods, the proposed method has higher Pearson Correlation Coefficient (PCC) and coefficient of determination (R2), and has lower Mean?Square Error (MSE), which fully demonstrates the effectiveness of the proposed method.
transfer learning; text empathy prediction; text sentiment polarity classification; Nature Language Processing (NLP); deep learning
This work is partially supported by National Natural Science Foundation of China (92048301), Science and Technology Project of Anhui Electric Power Company Limited (52120018004x).
LI Chenguang, born in 1999, M. S. candidate. His research interests include emotion recognition, natural language processing.
ZHANG Bo, born in 1966, M. S., senior engineer. His research interests include power marketing service management.
ZHAO Qian, born in 1976, M. S., senior engineer. His research interests include power marketing service management.
CHEN Xiaoping, born in 1955, Ph. D., professor. His research interests include agent formal modeling, multi?robot system.
WANG Xingfu, born in 1965, Ph. D., associate professor. His research interests include natural language processing, emotional analysis.
TP391.1
A
1001-9081(2022)11-3603-07
10.11772/j.issn.1001-9081.2021091632
2021?09?15;
2022?01?17;
2022?01?28。
國家自然科學(xué)基金資助項目(92048301);安徽省電力有限公司科技項目(52120018004x)。
李晨光(1999—),男,河南許昌人,碩士研究生,主要研究方向:情感識別、自然語言處理;張波(1966—),男,安徽淮南人,高級工程師,碩士,主要研究方向:電力營銷服務(wù)管理;趙騫(1976—),男,安徽合肥人,高級工程師,碩士,主要研究方向:電力營銷服務(wù)管理;陳小平(1955—),男,重慶人,教授,博士,主要研究方向:智能體形式化建模、多機器人系統(tǒng);王行甫(1965—),男,安徽合肥人,副教授,博士,主要研究方向:自然語言處理、情感分析。