李晨光,張波,趙騫,陳小平,王行甫*
基于遷移學習的文本共情預測
李晨光1,張波2,趙騫2,陳小平1,王行甫1*
(1.中國科學技術大學 計算機科學與技術學院,合肥 230026; 2.國網安徽省電力有限公司,合肥 230022)(?通信作者電子郵箱cg0808@mail.ustc.edu.cn)
由于缺乏足夠的訓練數據,文本共情預測的進展一直都較為緩慢;而與之相關的文本情感極性分類任務則存在大量有標簽的訓練樣本。由于文本共情預測與文本情感極性分類兩個任務間存在較大相關性,因此提出了一種基于遷移學習的文本共情預測方法,該方法可從情感極性分類任務中學習到可遷移的公共特征,并通過學習到的公共特征輔助文本共情預測任務。首先通過一個注意力機制對兩個任務間的公私有特征進行動態(tài)加權融合;其次為了消除兩個任務間的數據集領域差異,通過一種對抗學習策略來區(qū)分兩個任務間的領域獨有特征與領域公共特征;最后提出了一種Hinge?loss約束策略,使共同特征對不同的目標標簽具有通用性,而私有特征對不同的目標標簽具有獨有性。在兩個基準數據集上的實驗結果表明,相較于對比的遷移學習方法,所提方法的皮爾遜相關系數(PCC)和決定系數(R2)更高,均方誤差(MSE)更小,充分說明了所提方法的有效性。
遷移學習;文本共情預測;文本情感極性分類;自然語言處理;深度學習
共情(同理心)作為情感的重要組成部分,反映了人們面對他人遭遇或目睹他人境況時所產生的對應情感[1]。共情的定義較為廣泛,因而存在許多不同的評測標準[2-4]。這些不同的共情評測標準均可以反映人們面對他人遭遇時所產生的情感及反饋,除此之外共情分析也與人機交互、情感分析等息息相關[5-7],因而識別文本內所蘊含的共情因素是非常必要的。
截至目前,基于文本的共情預測這一領域仍然進展緩慢,核心原因是目前所發(fā)表的基于文本的共情數據集的樣本量都過小。顯然,當數據量不足時,訓練出的網絡模型的泛化能力會比較差,且預測精度也會較低。目前公認的開源文本共情數據集[8-10]均只包含一千多條數據。與之形成對比的是,一些其余的情感分析任務擁有非常充足的訓練數據。以情感極性分類任務為例,目前該任務對應非常多的開源數據集,這些數據集包含數萬乃至數十萬訓練樣本[11-13]。表1列舉了一些樣例,這些樣例是標注者閱讀完一些新聞后寫下的讀后感,以及這些讀后感所對應的共情標簽與極性標簽。從該樣例可以看出,共情標簽與極性標簽都在一定程度上反映了文本的情感屬性,且兩者的值都依賴于文本內所包含的情感詞。這說明兩個標簽之間存在一定的聯系,從而為在這兩個任務之間進行遷移學習提供了可能性。因此,本文提出一種遷移學習方法,希望通過情感極性分類任務來輔助共情預測任務,以獲得更好的共情預測結果。
表1 共情/極性數據樣例
但是,在共情預測與情感極性分類這兩個任務間進行遷移學習存在兩個困難。第一個困難是兩個任務之間的領域差異,即數據集分布差異。共情數據集與情感極性數據集的采樣空間與文本風格可能截然不同。舉例而言,共情數據集[8]主要來源于對各類新聞的讀后感,而情感極性數據集[11]主要來源于電影評論領域。這是兩個截然不同的領域,因而對應不同的樣本空間。第二個困難是兩個任務的預測標簽并不相同。從表1可以看出,極性更多是判斷一段文本是開心的還是悲傷的,而共情則要更加復雜,它更多是考察共情的情感強度,而無需考慮共情的情感是正向還是負向的。
數據集領域方面的差異與標簽不同所帶來的差異給兩個任務之間的遷移學習帶來了干擾。因此,本文提出一種新穎的共情預測方法,可以從情感極性分類任務中學習到可遷移的公共特征,且避免領域和標簽差異所帶來的干擾。該方法主要包括三部分:首先,利用注意力模塊依據公私有特征對對兩個任務間的公私有特征進行動態(tài)加權;其次,通過一個領域分類器分辨所有特征的來源領域,從而使公共特征對不同領域的數據集領域具有普適性,而私有特征對不同領域的數據集領域具有獨有性,利用對抗學習模塊消除領域差異;最后,為減少標簽差異,設計一種Hinge?loss約束策略使公共特征提取器更多地提取對標簽預測有益的特征,而對標簽預測沒有助益的特征都由另一任務的私有特征提取器提取。
為了驗證本文方法的有效性,在兩個共情數據集[8-9]和兩個情感極性分類數據集[12,14]上進行實驗,即通過這兩個情感極性分類數據集來輔助兩個共情數據集。實驗結果表明,本文方法在引入情感極性分類任務后大大提高了共情預測的準確度。本文方法可以同時降低數據集領域不同與預測標簽不同所帶來的干擾,從而可以在兩個標簽不同且領域不同的任務間進行遷移學習,具有較強的可拓展性。
雖然文本共情預測對于人機交互、情感分析非常重要,但是該領域目前的相關工作還比較少。例如,Xiao等[15]提出一種N?gram模型對醫(yī)學與心理學領域中的數據樣例進行了共情與非共情的分類;Khanpour等[16]提出一種基于卷積神經網絡的模型來識別在線健康論壇內的共情信息;Zhou等[17]分析了各種領域的共情樣例,例如新聞報刊、校園欺凌、心理治療等。以上這些工作均在部分領域對共情進行了分析與討論,但所使用的數據集并未開源,因此在這些工作的基礎上嘗試進一步的探索非常困難。
Buechel等[8]在2018年提出了首個開源的共情標注數據集,這些數據來源于用戶對一些新聞的讀后感,而且每位用戶還對其寫下的讀后感進行了共情標簽的標注,標注標準為EC?PD標準[2],從而每份讀后感都對應一個標簽值,標簽值的取值范圍為從1~7。而Zhou等[9]則同樣開源了一份共情數據集,這份數據集內的每條數據也對應一個標簽值,標簽值的取值范圍為從1~5。目前的主要問題是這兩個數據集都只包含1 000條左右的樣本,數據量非常小,因此難以訓練出泛化能力強的神經網絡。而情感極性分類任務則包含大量的數據樣本,如文獻[11-13]中介紹的這些數據集往往包含數萬條情感極性分類數據,并且此這些數據與共情預測任務之間存在較強的相關性。
從遷移學習的相關綜述論文[18-19]可知,目前遷移學習方法主要分為兩種,分別是:同質遷移學習與異質遷移學習。其中:同質遷移學習方法[20-21]主要針對同一特征分布空間的情況;而異質遷移學習習方法主要針對源領域與目標領域的特征分布空間不同的任務。由于源領域與目標領域的特征空間分布往往不一致,因此近年來自然語言處理領域的相關工作主要集中于異質的遷移學習。
異質遷移學習可進一步地分為有監(jiān)督異質遷移學習與無監(jiān)督異質遷移學習。其中后者雖然有大量的相關工作[13,22],但由于本文所涉及的共情領域是有標簽的,因此這些方法難以應用到本任務中。而針對有監(jiān)督異質遷移學習而言,雖然目前也存在一些相關工作[23-24],但這些任務往往只考慮了數據集領域間的差異,忽略了標簽帶來的差異。若忽略共情標簽與極性標簽的差異,必定會對共情預測任務帶來不利的影響。因此要在文本共情預測任務與文本情感分類任務間進行遷移學習,需要同時考慮數據集領域差異與標簽空間差異。
圖1 本文方法的模型框架
在后續(xù)的網絡架構中,由于公私有特征對共情預測的貢獻可能不一致,因此首先通過一個注意力模型(Attention)對公私有特征進行加權,通過動態(tài)加權的方式將公私有特征融合為最終的特征表達,并進行對應標簽的預測。與此同時,針對共情預測與極性分類這兩個任務間數據集領域差異與標簽評測差異所帶來的干擾,模型通過對抗分類損失來降低數據集領域差異所帶來的干擾,并通過設計Hinge?loss的方式來降低不同標簽所帶來的干擾,從而使特征編碼器所學習到的可遷移特征能適用于不同的領域和標簽,進一步地解纏中所得到的兩個任務之間的公私有特征。
2.2.1基于Attetion架構的公私有特征動態(tài)融合
極性分類的訓練損失如式(5)所示:
2.2.2基于對抗損失來消除數據集領域差異
2.2.3基于Hinge?loss來消除標簽差異
為消除共情任務與極性任務兩者間的標簽差異,本文提出了一種標簽訓練策略。具體而言,以共情預測為例,有些可遷移特征對共情預測是有用的,而有些特征是沒有用的。這些有用的特征應該主要通過公共特征編碼器進行提取,而無效的特征由另外一個任務的私有特征提取器提取,這是因為在測試階段另外一個任務的私有特征提取器是不使用的,從而可以舍棄這些無效特征。因此,本文方法通過Hinge?loss這一模塊來盡可能擴大公共特征器和共情私有特征提取器所對應的實驗結果與極性私有特征提取器和共情私有特征提取器所對應的實驗結果之間的差值。
其中:1和2為實驗中的兩個超參數,實驗中兩者取值分別0.4與0.5。
2.2.4總體損失函數
本文在兩個共情分析數據集進行了實驗驗證,它們分別來自文獻[8-9]。輔助這兩個共情數據集的情感極性分類數據集分別為SemEval 2017 task(以下簡稱SemEval)[12]與IMDB reviews[14](以下簡稱IMDB)。對于極性數據集而言,僅保留其中正向樣本與負向樣本。
由Buechel等[8]提出的共情數據集(以下簡稱Buechel)共包括1 860條標注數據集,主要來源于標注人員對于各類新聞的讀后感;其中每條數據樣例都包括兩個共情標簽,分別是EC和PD,這兩個標簽值的取值范圍是1~7。由Zhou等[9]提出的共情數據集(以下簡稱Zhou)則包括1 000條標注數據,這些數據來源于Reddit論壇,主要內容為用戶在該論壇上的發(fā)帖及對應帖子的回復;其中每條數據樣例都被打上了一個共情標簽,標簽值的范圍為1~5。極性分類數據集SemEval主要包括用戶在Twitter上發(fā)布的各類推文,包含7 061條正向樣本與3 240條負向樣本;IMDB則主要是用戶對各種類別電影的觀后感及評論,包括25 000條正向樣本與25 000條負向樣本。
實驗參數部分,編碼器部分采用了兩種不同模型,分別是雙向長短記憶(Bi?directional Long Short?Term Memory, Bi?LSTM)網絡[25]與雙向Transformer表征預訓練模型(Bidirectional Encoder Representation from Transformers, BERT)[26]。當Bi?LSTM作為編碼器時,其前向LSTM與后向LSTM的隱層維度均被設置為200。為了保持一致,本文采用了同文獻[8]中相同的詞向量詞典對輸入文本進行詞向量的轉換;而當BERT作為編碼器時,直接采用BERT中的bert?base?uncased模型作為基準編碼模型。Bi?LSTM作為編碼器時,學習率設置為0.001,而BERT作為編碼器時,學習率設置為0.000 02,衰減系數統一設置為0.95,Dropout率設置為0.3,訓練的batch大小為16,正則化方法為L2正則化。訓練過程中,極性數據集中的樣本同共情數據集內的樣本進行組合,以成對的形式輸入到網絡架構內。實驗框架為Pytorch,優(yōu)化器采用Adam[27]。
表2 兩個共情數據集上的消融實驗結果
從表2的實驗結果中可得出以下三點結論:
首先,從實驗結果中可以看出,AL對共情預測取得了最明顯的輔助作用,即AL模塊的貢獻最高。造成這一結果的原因是共情與極性這兩個標簽都具備一定的情感屬性,因此兩者間的標簽差異較??;但與此同時,其數據集領域差異要明顯更大,例如Buechel共情數據集主要來自Twitter上的用戶推文,而IMDB極性分類數據集則主要來自用戶電影評論,這兩個數據集領域之間的分布差異非常大。因此,對于共情預測與極性分類這兩個任務而言,其數據集領域差異要大于標簽差異。三個模塊中,AL模塊的主要作用便是縮小數據集領域差異,其余兩個模塊對于縮小數據集領域的差異的功效遠小于AL模塊。因此,AL模塊可以最大限度地縮小兩個任務之間的差異,進而取得更好的實驗結果。
其次,對于BiLSTM與BERT這兩種編碼器而言,當BERT作為編碼器時,實驗結果要更優(yōu)。針對這一現象,推測原因主要是Bi?LSTM作為編碼器時模型是隨機初始化的,而當BERT模型作為編碼器時,本文直接使用了預訓練模型bert?base?uncased作為編碼器。預訓練模型bert?base?uncased已經在大規(guī)模的文本數據上提前進行了訓練,因此預訓練模型內已經包含了非常多的先驗信息,所以輸入文本通過預訓練模型進行編碼必定可以獲得更好的編碼特征表達,從而當BERT作為編碼器時可以取得更好的實驗結果。
第三,從實驗結果可以看出,極性數據集SemEval的實驗結果要明顯優(yōu)于IMDB的實驗結果。造成這一現象的原因是SemEval數據集主要來自用戶推文,因此包含了各種類型和各類領域的極性數據;而IMDB主要來自電影評論這一單獨領域。實驗結果說明豐富多樣的極性數據相較于單一來源的極性數據往往可以取得更好的實驗增益效果。尤其是當共情數據集的來源也較為豐富時,例如以Buechel共情數據集為例,它同樣來自各式各樣的用戶推文,從表2的實驗結果可以看出,此時極性SemEval數據集的輔助增益效果明顯優(yōu)于極性數據集IMDB。
表3 基于不同極性數據量的消融實驗結果
同相關工作的比較主要分為兩類,分別是不進行遷移學習的工作,即只使用共情數據進行共情預測的方法,例如前饋神經網絡(Feedforwardl Neural Network, FNN)、卷積神經網絡(Convolutional Neural Network, CNN)等,這些不進行遷移學習工作的實驗結果直接來源于文獻[8-9];第二類比較的工作為利用共情數據進行遷移學習的相關工作,例如雙向對抗遷移網絡(Dual Adversarial Transfer Network, DATNet)[23]、基于自注意力的對抗遷移網絡ADV?SA(ADVersarial transfer learning with Self?Attention)[24]等,本文同樣復現了這些方法并進行比較。實驗結果如表4、5所示。從表4、5可以看出,本文方法Bi?LSTM+AL+AT+HN與BERT+AL+AT+HN的實驗結果無論在Buechel共情數據集上還是在Zhou共情數據集上,都取得了最好的結果。具體分析而言,相較于不進行遷移學習的工作,例如CNN,FNN、BERT、Random Forest等,本文方法的性能明顯更優(yōu)。這是因為本文方法可以通過大規(guī)模的極性分類數據集幫助小規(guī)模的共情分析數據集學習到更好的公共特征表達,從而使共情預測的性能更好。除此之外,相較于DATNet、ADV?SA等進行遷移學習的工作,本文方法的實驗結果也更優(yōu)。這是因為本文方法不僅通過對抗學習的方式降低了兩個任務間領域差異所帶來的干擾;也通過設計Hinge?loss的方式減少了兩個任務間標簽差異所帶來的干擾,從而使學習到的可遷移的公共特征對于不同的領域、不同的標簽都是普適且高效的。
表4 不進行遷移學習的實驗結果
表5 進行遷移學習的實驗結果
本文選取了兩條來源于Buechel共情數據集中的樣例作為分析目標,兩條樣例分別對應高共情與低共情。實驗結果如表6所示,每條樣例包括兩個共情標簽,分別是EC和PD,標簽的取值范圍是1~7。將該樣例內的情感詞通過添加下劃線的方式進行凸顯,表6中的Baseline為BERT模型的實驗結果。
示例1: I am soto hear that, and I am realabout that you canit. I believe it!
示例2: This doesn’t sounde to me. If you are affected, then you should decide as an individual to find another options.
表6樣例分析實驗結果
Tab.6 Experimental results of case analysis
從表6中可以得出兩個結論:
首先是本文方法相較于傳統方法可以更好地進行共情預測,這是因為本文方法可以更好地對句子內的情感詞進行建模分析。以第一個樣例中hopeful這一情感詞為例,它在共情數據集內共出現13次,與此同時,它在極性數據集內出現了86次,其變形詞“hope”“hopefully”在極性數據集內的出現次數更是高達468。因此,這些極性數據樣例可以很好地幫助共情預測任務取得更好的實驗結果。
其次,通過兩條樣例的實驗結果可以看出,本文方法對于高共情值樣例的預測精度要高于低共情值樣例。這是因為,一般而言,高共情樣例中往往包含更多的情感詞匯與情感屬性,而低共情值中相關信息較少,例如樣例二中僅包含“not worrisome”這一個情感詞匯。由于采用的輔助數據集為文本情感分類數據,其中包含大量的情感詞匯與信息,因此在這些數據的輔助作用下,模型會對情感詞匯、信息更為敏感。故本文方法對高共情值樣例的預測精度與提升效果會更突出。
為了解決數據量小所導致的文本共情預測準確率低這一問題,本文提出了一種新的遷移學習方法。該方法從擁有大量數據的極性分類任務中學習到可遷移的公共特征,并通過這些公共特征來輔助共情預測任務。具體而言,該方法首先通過注意力模塊對公私有特征進行動態(tài)加權,從而使融合特征可以更好地進行共情預測。其次,針對共情預測與極性分類兩個任務間領域與標簽的差異,設計了一種對抗學習策略來降低兩個任務間數據集領域不同所帶來的差異;并設計了一種Hinge?loss約束策略來消除兩個任務間標簽不同所帶來的差異。實驗結果也表明本文方法取得了較好的預測精度。
[1] BELLET P S, MALONEY M J. The importance of empathy as an interviewing skill in medicine[J]. Journal of the American Medical Association, 1991, 266(13): 1831-1832.
[2] BATSON C D, FULTZ J, SCHOENRADE P A. Distress and empathy: two qualitatively distinct vicarious emotions with different motivational consequences[J]. Journal of Personality, 1987, 55(1): 19-39.
[3] BASCH M F. Empathic understanding: a review of the concept and some theoretical considerations[J]. Journal of the American Psychoanalytic Association, 1983, 31(1): 101-126.
[4] SOBER E, WILSON D S. Summary of: ‘Unto others: the evolution and psychology of unselfish behavior’[J]. Journal of Consciousness Studies, 2000, 7(1/2): 185-206.
[5] FUNG P, DEY A, SIDDIQUE F B, et al. Zara the supergirl: an empathetic personality recognition system[C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations. Stroudsburg, PA: Association for Computational Linguistics, 2016: 87-91.
[6] ALAM F, DANIELI M, RICCARDI G. Annotating and modeling empathy in spoken conversations[J]. Computer Speech & Language, 2018, 50: 40-61.
[7] MAJUMDER N, HONG P, PENG S, et al. MIME: MIMicking Emotions for empathetic response generation [EB/OL]. [2021-04-28]. https://arxiv.org/pdf/2010.01454.pdf.
[8] BUECHEL S, BUFFONE A, SLAFF B, et al. Modeling empathy and distress in reaction to news stories[EB/OL]. [2021-06-15]. https://arxiv.org/pdf/1808.10399.pdf.
[9] ZHOU N, JURGENS D. Condolences and empathy in online communities[C]// Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2020: 609-626.
[10] SHARMA A, MINER A S, ATKINS D C, et al. A computational approach to understanding empathy expressed in text?based mental health support. [EB/OL]. [2021-05-09]. https://arxiv.org/pdf/2009.08441.pdf.
[11] PANG B, LEE L. Seeing stars: exploiting class relationships for sentiment categorization with respect to rating scales[C]// Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2005: 115-124.
[12] ROSENTHAL S, FARRA N, NAKOV P. SemEval?2017 task 4: sentiment analysis in Twitter[C]// Proceedings of the 11th International Workshop on Semantic Evaluation. Stroudsburg, PA: Association for Computational Linguistics, 2017: 502-518.
[13] BHATT H S, ROY S, RAJKUMAR A, et al. Learning transferable feature representations using neural networks[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2019: 4124-4134.
[14] MAAS A, DALY R E, PHAM P T, et al. Learning word vectors for sentiment analysis[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2011: 142-150.
[15] XIAO B, CAN D, GEORGIOU P G, et al. Analyzing the language of therapist empathy in motivational interview based psychotherapy[C]// Proceedings of the 2012 Asia Pacific Signal and Information Processing Association Annual Summit and Conference. [S.l.]: PMC, 2012: 6411762.
[16] KHANPOUR H, CARAGEA C, BIYANI P. Identifying empathetic messages in online health communities[C]// Proceedings of the Eighth International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2017, 2: 246-251.
[17] ZHOU K, AIELLO L M, SCEPANOVIC S, et al. The language of situational empathy[J]. Proceedings of the ACM on Human? Computer Interaction, 2021, 5(CSCW1): Article No. 13.
[18] DREDZE M, KULESZA A, CRAMMER K. Multi?domain learning by confidence?weighted parameter combination[J]. Machine Learning, 2010, 79(1): 123-149.
[19] PAN S J, YANG Q. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 22(10): 1345-1359.
[20] HUANG J, GRETTON A, BORGWARDT K, et al. Correcting sample selection bias by unlabeled data[C]// Proceedings of the 19th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2006: 601-608.
[21] SUGIYAMA M, SUZUKI T, NAKAJIMA S, et al. Direct importance estimation for covariate shift adaptation[J]. Annals of the Institute of Statistical Mathematics, 2008, 60(4): 699-746.
[22] MALMI E, SEVERYN A, ROTHE S. Unsupervised text style transfer with padded masked language models[EB/OL].[2021-06-28]. https://arxiv.org/pdf/2010.01054.pdf.
[23] ZHOU J T, ZHANG H, JIN D, et al. Dual adversarial neural transfer for low?resource named entity recognition[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2019: 3461-3471.
[24] CAO P, CHEN Y, LIU K, et al. Adversarial transfer learning for Chinese named entity recognition with self?attention mechanism[C]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2018: 182-192.
[25] GRAVES A, FERNáNDEZ S, SCHMIDHUBER J. Bidirectional LSTM networks for improved phoneme classification and recognition[C]// Proceedings of the 2005 International Conference on Artificial Neural Networks, LNTCS 3697. Berlin: Springer, 2005: 799-804.
[26] DEVLIN J, CHANG M W, LEE K, et al. BERT: pre?training of deep bidirectional transformers for language understanding. [EB/OL]. [2021-09-01]. https://arxiv.org/pdf/1810.04805.pdf.
[27] KINGMA D P, AND BA J. Adam: a method for stochastic optimization. [EB/OL]. [2021-06-08]. https://arxiv.org/pdf/1412.6980.pdf.
Empathy prediction from texts based on transfer learning
LI Chenguang1, ZHANG Bo2, ZHAO Qian2, CHEN Xiaoping1, WANG Xingfu1*
(1,,230026,;2,230022,)
Empathy prediction from texts achieves little progress due to the lack of sufficient labeled data, while the related task of text sentiment polarity classification has a large number of labeled samples. Since there is a strong correlation between empathy prediction and polarity classification, a transfer learning?based text empathy prediction method was proposed. Transferable public features were learned from the sentiment polarity classification task to assist text empathy prediction task. Firstly, a dynamic weighted fusion of public and private features between two tasks was performed through an attention mechanism. Secondly, in order to eliminate domain differences in datasets between two tasks, an adversarial learning strategy was used to distinguish the domain?unique features from the domain?public features between two tasks. Finally, a Hinge?loss constraint strategy was proposed to make common features be generic for different target labels and private features be unique to different target labels. Experimental results on two benchmark datasets show that compared to the comparison transfer learning methods, the proposed method has higher Pearson Correlation Coefficient (PCC) and coefficient of determination (R2), and has lower Mean?Square Error (MSE), which fully demonstrates the effectiveness of the proposed method.
transfer learning; text empathy prediction; text sentiment polarity classification; Nature Language Processing (NLP); deep learning
This work is partially supported by National Natural Science Foundation of China (92048301), Science and Technology Project of Anhui Electric Power Company Limited (52120018004x).
LI Chenguang, born in 1999, M. S. candidate. His research interests include emotion recognition, natural language processing.
ZHANG Bo, born in 1966, M. S., senior engineer. His research interests include power marketing service management.
ZHAO Qian, born in 1976, M. S., senior engineer. His research interests include power marketing service management.
CHEN Xiaoping, born in 1955, Ph. D., professor. His research interests include agent formal modeling, multi?robot system.
WANG Xingfu, born in 1965, Ph. D., associate professor. His research interests include natural language processing, emotional analysis.
TP391.1
A
1001-9081(2022)11-3603-07
10.11772/j.issn.1001-9081.2021091632
2021?09?15;
2022?01?17;
2022?01?28。
國家自然科學基金資助項目(92048301);安徽省電力有限公司科技項目(52120018004x)。
李晨光(1999—),男,河南許昌人,碩士研究生,主要研究方向:情感識別、自然語言處理;張波(1966—),男,安徽淮南人,高級工程師,碩士,主要研究方向:電力營銷服務管理;趙騫(1976—),男,安徽合肥人,高級工程師,碩士,主要研究方向:電力營銷服務管理;陳小平(1955—),男,重慶人,教授,博士,主要研究方向:智能體形式化建模、多機器人系統;王行甫(1965—),男,安徽合肥人,副教授,博士,主要研究方向:自然語言處理、情感分析。