亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        領(lǐng)域?qū)R對抗的無監(jiān)督跨領(lǐng)域文本情感分析算法

        2022-06-09 14:57:42賈熹濱胡永利
        計算機研究與發(fā)展 2022年6期
        關(guān)鍵詞:分類特征文本

        賈熹濱 曾 檬 米 慶 胡永利

        1(北京工業(yè)大學信息學部 北京 100124) 2(多媒體與智能軟件技術(shù)北京市重點實驗室(北京工業(yè)大學) 北京 100124) 3(北京人工智能研究院(北京工業(yè)大學) 北京 100124)

        隨著互聯(lián)網(wǎng)的迅速發(fā)展和社交媒體平臺的快速普及,包含個人情感傾向的文本評論數(shù)據(jù)大量產(chǎn)生,文本情感分析技術(shù)(sentiment analysis)應運而生.該技術(shù)采用有監(jiān)督學習的方式,利用標定樣本訓練文本情感分類模型,實現(xiàn)了對評論數(shù)據(jù)情感傾向的自動判別[1].目前文本情感分析技術(shù)被廣泛地應用在輿情監(jiān)測[2]、智能客服[3]、社交網(wǎng)絡情感分析[4]等實際業(yè)務場景中,該技術(shù)實現(xiàn)了對輿情信息的及時把控和商業(yè)價值的有效挖掘.然而全新的產(chǎn)業(yè)領(lǐng)域?qū)映霾桓F,未標定的文本數(shù)據(jù)日益劇增,為一個新領(lǐng)域重新標定大量的訓練數(shù)據(jù)并學習全新的情感分類模型無疑費時費力.

        因此,學術(shù)界提出了領(lǐng)域自適應(domain adap-tation)方法[5]以減輕數(shù)據(jù)標定的負擔.領(lǐng)域自適應是遷移學習(transfer learning)的一條分支,其目標是利用標定的源領(lǐng)域數(shù)據(jù)訓練一個分類性能良好的源領(lǐng)域模型,并將該模型遷移到少量標定甚至無標定的目標領(lǐng)域數(shù)據(jù)[6],以完成跨領(lǐng)域情感分析任務.

        然而,源領(lǐng)域模型無法直接遷移到目標領(lǐng)域,其原因在于跨領(lǐng)域文本數(shù)據(jù)在包含部分公共信息的同時,也具有大量的領(lǐng)域?qū)S行畔?該專有信息將導致領(lǐng)域偏移問題(domain shift),使源領(lǐng)域模型無法擬合目標領(lǐng)域數(shù)據(jù).例如2個領(lǐng)域都共享“好”“不錯”“質(zhì)量不佳”等通用型描述詞,在跨領(lǐng)域情感分析任務中,這類詞匯有助于挖掘領(lǐng)域不變信息.但是各領(lǐng)域也存在專有的描述詞匯,如在書籍評論中,通常采用“生動”“不易理解”“有趣”等描述詞匯.在電子產(chǎn)品評價中,通常采用“便攜”“順滑”“性能卓越”等領(lǐng)域?qū)S忻枋鲈~,這些詞匯導致了跨領(lǐng)域文本數(shù)據(jù)的分布差異.

        因此,為了解決跨領(lǐng)域情感分析任務中的領(lǐng)域偏移問題,研究者提出了2類解決方案:1)提取領(lǐng)域不變特征,其中包括基于特征選擇[7-9]和基于領(lǐng)域?qū)箤W習的領(lǐng)域自適應算法[10-11];2)減小領(lǐng)域?qū)S刑卣鞑町?,包括基于分布自適應[12-15]和基于子空間學習的領(lǐng)域自適應算法[16-21].目前主要采取一種解決方案緩解領(lǐng)域偏移問題.然而實際上跨領(lǐng)域文本數(shù)據(jù)同時包含領(lǐng)域不變信息和領(lǐng)域?qū)S行畔?,?種信息的占比不定.因此本文擬在提取領(lǐng)域不變特征的同時,減少領(lǐng)域?qū)S刑卣鞑町悾蕴嵘F(xiàn)有跨領(lǐng)域情感分析算法的遷移性能和分類性能.

        為此,本文提出了一種領(lǐng)域?qū)R對抗的無監(jiān)督跨領(lǐng)域文本情感分析算法(domain alignment adversarial unsupervised cross-domain text sentiment analysis algorithm, DAA).該算法以漸進式的遷移策略學習跨領(lǐng)域知識,依次構(gòu)建了特征提取模塊、領(lǐng)域?qū)R模塊和領(lǐng)域?qū)鼓K.首先經(jīng)由特征提取模塊將源領(lǐng)域和目標領(lǐng)域數(shù)據(jù)映射到公共的子空間,再將源領(lǐng)域和目標領(lǐng)域特征輸入領(lǐng)域?qū)R模塊和領(lǐng)域?qū)鼓K.在領(lǐng)域?qū)R模塊中,本文基于對跨領(lǐng)域文本數(shù)據(jù)差異度量完備性和計算復雜性的考慮,引入了中心矩差異構(gòu)建領(lǐng)域一致性約束以減小領(lǐng)域?qū)S行畔⒉町?其次,在領(lǐng)域?qū)鼓K中,本文基于領(lǐng)域?qū)箤W習的領(lǐng)域自適應算法,構(gòu)造了領(lǐng)域判別器和梯度反轉(zhuǎn)層(gradient reversal layer, GRL)[10],通過領(lǐng)域?qū)箤W習的方式使領(lǐng)域判別器無法判別數(shù)據(jù)的領(lǐng)域類別,以提取領(lǐng)域不變特征.最后,本文通過協(xié)同優(yōu)化的訓練方式,使網(wǎng)絡在提取領(lǐng)域不變特征的同時,減小領(lǐng)域?qū)S刑卣鞑町?

        本文的主要貢獻有3個方面:

        1) 提出了一種領(lǐng)域?qū)R對抗的無監(jiān)督跨領(lǐng)域文本情感分析算法.該算法通過漸進式的遷移策略實現(xiàn)了領(lǐng)域知識的遷移,即在底層特征提取層共享參數(shù),以完成底層文本特征到公共語義空間的映射,并進一步在高維語義空間通過領(lǐng)域?qū)R模塊和領(lǐng)域?qū)鼓K協(xié)同優(yōu)化的方式,迭代地減小領(lǐng)域差異.

        2) 考慮到跨領(lǐng)域文本數(shù)據(jù)同時包含領(lǐng)域不變特征和領(lǐng)域?qū)S刑卣鞯奶攸c,本文分別在領(lǐng)域?qū)R模塊和領(lǐng)域?qū)鼓K,構(gòu)造領(lǐng)域一致性約束和領(lǐng)域不變性約束.并在訓練過程中通過協(xié)同優(yōu)化的訓練方式優(yōu)化這2種約束,以提升跨領(lǐng)域文本情感分析算法的遷移性能.

        3) 為了證明本算法在跨領(lǐng)域文本情感分析任務中的分類性能和遷移性能,本研究在2個標準的亞馬遜跨領(lǐng)域情感分類數(shù)據(jù)集上進行了24組實驗,包含12組區(qū)分積極、消極情感的2分類實驗和12組區(qū)分積極、中性、消極情感的3分類實驗.實驗結(jié)果顯示,本算法在24組跨域情感分類任務中的平均分類準確率都超過了最先進的模型.其次為了進一步驗證本算法的遷移性能,本研究分別從定量分析和定性分析2個角度,分析遷移前后的Proxy A-distance和特征分布圖.實驗結(jié)果顯示即使當2個領(lǐng)域存在較大的領(lǐng)域差異時,本算法依然展現(xiàn)出顯著的遷移性能.

        1 相關(guān)研究工作

        目前,領(lǐng)域自適應算法主要被劃歸為4類:基于特征選擇、基于領(lǐng)域?qū)箤W習、基于數(shù)據(jù)分布對齊和基于子空間學習的領(lǐng)域自適應算法.前2種方法從提取領(lǐng)域不變特征的角度進行遷移,后2種方法通過減小領(lǐng)域?qū)S刑卣鞑町惖姆绞竭M行遷移.

        1.1 基于特征選擇的領(lǐng)域自適應算法

        在早期工作中,大多數(shù)研究者主要采用基于特征選擇的領(lǐng)域自適應算法,通過學習源領(lǐng)域和目標領(lǐng)域的公共特征的方式減小領(lǐng)域差異.

        結(jié)構(gòu)對應學習(structural correspondence learning, SCL)[7]是較早被提出的跨領(lǐng)域文本情感分析算法,該算法通過奇異值分解的計算過程,預測在領(lǐng)域間頻繁出現(xiàn)且表現(xiàn)相似的樞紐特征(pivot features),以建立不同領(lǐng)域間特征的對應關(guān)系.Blitzer等人[8]進一步對SCL進行改進,通過源領(lǐng)域標簽出現(xiàn)的頻率和互信息預測樞紐特征.Pan等人[9]提出的譜特征對齊算法(spectral feature alignment, SFA)構(gòu)建了領(lǐng)域?qū)S刑卣鞯亩謭D,并基于圖譜理論的譜聚類算法,將連接到共有領(lǐng)域無關(guān)特征的領(lǐng)域?qū)S刑卣饔成涞焦蔡卣髯涌臻g中.Bollegala等人[22]通過挖掘領(lǐng)域間共性的情感表達方式創(chuàng)建情緒敏感詞庫,以獲取不同領(lǐng)域間單詞的相關(guān)性,并采用該詞庫在2分類器中擴展特征向量表示訓練模型.Bollegala等人[5]通過挖掘源領(lǐng)域標定信息、領(lǐng)域間公共特征的分布式屬性、領(lǐng)域間無標定樣本的局部幾何信息,構(gòu)造詞嵌入表示模型,以學習源領(lǐng)域和目標領(lǐng)域間的樞紐特征.Xi等人[23]提出的基于類別注意力網(wǎng)絡與卷積神經(jīng)網(wǎng)絡的模型(category attention network and convolutional neural network based model, CAN-CNN)將類別注意力網(wǎng)絡作為核心模塊,使網(wǎng)絡關(guān)注有助于分類器判別的類別特征,以提取源領(lǐng)域和目標領(lǐng)域的可遷移特征.Zhang等人[24]提出的分層注意力生成對抗網(wǎng)絡(hierarchical attention generative adversarial networks, HAGAN)通過分層注意力機制,自動提取樞紐特征與非樞紐特征.

        綜上,基于特征選擇的領(lǐng)域自適應算法的關(guān)鍵在于學習領(lǐng)域不變特征,因此該類算法適合源領(lǐng)域和目標領(lǐng)域包含較多公共特征的遷移任務.

        1.2 基于領(lǐng)域?qū)箤W習的領(lǐng)域自適應算法

        隨著生成對抗網(wǎng)絡(generative adversarial net-work, GAN)的提出,基于領(lǐng)域?qū)箤W習的領(lǐng)域自適應算法受到了研究者們的廣泛關(guān)注.

        Ganin等人[10]提出的領(lǐng)域?qū)股窠?jīng)網(wǎng)絡(domain-adversarial neural networks, DANN)將生成對抗思想應用于遷移學習領(lǐng)域.該研究提出的領(lǐng)域?qū)顾惴ㄖ苯訕?gòu)造了領(lǐng)域判別器,并在反向傳播過程中配合梯度翻轉(zhuǎn)層,令該判別器無法判定樣本的領(lǐng)域來源,以提取領(lǐng)域不變特征.Tzeng等人[11]提出的對抗判別領(lǐng)域自適應算法(adversarial discriminative domain adaptation, ADDA),利用領(lǐng)域判別器判別樣本領(lǐng)域來源的同時,在固定源領(lǐng)域特征提取器的基礎(chǔ)上,為目標領(lǐng)域額外訓練特征提取器,以保證2個領(lǐng)域提取到相似的特征.

        隨后,研究者們在DANN和ADDA的基礎(chǔ)上進行改進.Sankaranarayanan等人[25]在領(lǐng)域分類分支下同時構(gòu)建了生成器與判別器,通過源領(lǐng)域和目標領(lǐng)域樣本生成偽樣本,并將真實樣本和偽樣本同時輸入判別器,并采用對抗學習的訓練方式提取領(lǐng)域不變特征.Volpi等人[26]以加噪的方式增強特征表示,使訓練過程更魯棒,并且令源領(lǐng)域和目標領(lǐng)域共用一個特征提取器,以提取領(lǐng)域不變特征.Long等人[27]提出的CDANs(conditional domain adversarial networks)通過計算特征與預測標簽概率向量的互協(xié)方差以提升分類器的判別性.Saito等人[28]使用2個獨立的分類器,通過迭代地最大最小化2個分類器的判別矛盾區(qū)域,間接優(yōu)化領(lǐng)域的決策邊界.Lee等人[29]提出DTA(drop to adapt)以正則化的思想,針對卷積層和全連接層設(shè)計了2種dropout機制,使決策邊界穿過目標領(lǐng)域的低密度區(qū)域,以提升遷移模型的泛化性能.Zhang等人[30]提出的SymNets(domain-symmetric networks)將源領(lǐng)域類別分類器和目標領(lǐng)域類別分類器拼接成聯(lián)合的分類器,在預測標簽類別的同時對預測結(jié)果加和,隱性地構(gòu)建領(lǐng)域判別器.針對源領(lǐng)域標簽空間是目標領(lǐng)域標簽空間的子集時,直接將源領(lǐng)域分類器遷移到目標領(lǐng)域可能會出現(xiàn)負遷移的問題,Zhang等人[31]提出的選擇對抗網(wǎng)絡(selective adversarial network, SAN)構(gòu)造了2個領(lǐng)域判別器:第1個判別器為相關(guān)的源領(lǐng)域樣本賦予權(quán)重,第2個判別器將源領(lǐng)域加權(quán)數(shù)據(jù)和目標領(lǐng)域數(shù)據(jù)作為特征判別器的輸入.不同于Zhang等人[30]提出的為樣本加權(quán)的操作,Cao等人[32]提出的SAN(selective adversarial network)設(shè)計了實例級別和類別級別的2種判別器加權(quán)機制,從而同時減弱甚至消除不相關(guān)樣本和不相關(guān)類別的影響.

        還有研究者結(jié)合各個領(lǐng)域自適應算法的優(yōu)勢,提出了融合多種遷移策略的領(lǐng)域?qū)箤W習算法.Qu等人[33]提出的對抗類別對齊網(wǎng)絡(adversarial category alignment network, ACAN),在衡量跨領(lǐng)域數(shù)據(jù)底層特征邊緣分布差異的同時,最大化2個領(lǐng)域同類別特征的平均絕對差值,并在優(yōu)化生成器時最小化平均絕對差值,進而增強領(lǐng)域間的類別一致性.Cao等人[34]提出的對稱對抗遷移網(wǎng)絡(symmetric adver-sarial transfer network, SATNet)為源領(lǐng)域和目標領(lǐng)域分別構(gòu)造分類器,并通過優(yōu)化類別級和領(lǐng)域級的對齊損失,增強類別級領(lǐng)域不變特征的學習.

        綜上,領(lǐng)域?qū)箤W習適用于源領(lǐng)域和目標領(lǐng)域有大量領(lǐng)域公共特征的情況,其優(yōu)勢在于簡潔的遷移過程,只需采用對抗學習的方式優(yōu)化領(lǐng)域判別器,即可提取領(lǐng)域不變特征.

        1.3 基于數(shù)據(jù)分布對齊的領(lǐng)域自適應算法

        當源領(lǐng)域和目標領(lǐng)域僅包含部分公共特征,而領(lǐng)域?qū)S刑卣鞅硎据^為顯著時,一般采用基于數(shù)據(jù)分布對齊的領(lǐng)域自適應算法.具體劃分為基于邊緣分布對齊、基于條件分布對齊和基于聯(lián)合分布對齊的領(lǐng)域自適應算法.

        當假設(shè)2個領(lǐng)域的邊緣分布差異較大時,通常采用基于邊緣分布對齊的領(lǐng)域自適應算法.Pan等人[12]提出的TCA(transfer component analysis)在再生核希爾伯特空間下利用最大均值差異(maximum mean discrepancy, MMD)度量跨領(lǐng)域數(shù)據(jù)的邊緣分布差異.Gretton等人[13]在文獻[12]研究的基礎(chǔ)上提出多核MMD(multi-kernel maximum mean discrepancy, MK-MMD),通過構(gòu)造多核加權(quán)的MMD提升單核的表征能力.Long等人[14]在深度網(wǎng)絡中構(gòu)建多層MK-MMD的領(lǐng)域差異度量約束,增強特定任務層中特征的遷移能力.Zellinger等人[15]提出中心矩差異(central moment discrepancy, CMD)通過顯性地刻畫領(lǐng)域間的高階中心矩差異,度量領(lǐng)域間的邊緣分布差異.

        基于條件分布對齊的領(lǐng)域自適應算法通常假設(shè)領(lǐng)域間的條件分布概率存在一定差異.Gong等人[35]在協(xié)變量分布和目標領(lǐng)域條件分布都發(fā)生變化的情況下,通過學習領(lǐng)域間條件概率中保持不變的條件轉(zhuǎn)移成分(conditional transferable components),實現(xiàn)源領(lǐng)域到目標領(lǐng)域的遷移.Xie等人[36]通過對齊標定源領(lǐng)域數(shù)據(jù)的中心和包含偽標簽的目標領(lǐng)域中心的方法,學習遷移任務中的語義信息,以減小同類但不同領(lǐng)域特征的差異.傳統(tǒng)的無監(jiān)督領(lǐng)域自適應方法通過對齊領(lǐng)域分布差異的方式進行遷移,但是這種方式破壞了目標領(lǐng)域數(shù)據(jù)判別性的內(nèi)在結(jié)構(gòu).因此為了保持目標領(lǐng)域數(shù)據(jù)內(nèi)在的判別性,Wang等人[37]提出了基于結(jié)構(gòu)預測的偽標簽選擇算法(structured prediction based selective pseudo-labeling),該算法將預測結(jié)果可信的目標領(lǐng)域標簽作為下一輪迭代中特征對齊網(wǎng)絡的輸入,進而對齊特征的條件概率分布.類似地,Tang等人[38]提出的SRDC(structurally regularized deep clustering)基于判別性聚類的深度網(wǎng)絡,利用KL散度(Kullback-Leibler divergence)最小化目標領(lǐng)域預測標簽分布和引入輔助標簽分布之間的距離,以目標領(lǐng)域數(shù)據(jù)的分布推測目標領(lǐng)域偽標簽,并依靠源領(lǐng)域數(shù)據(jù)的真實標簽形成輔助分布,通過聯(lián)合網(wǎng)絡訓練策略,保證目標領(lǐng)域內(nèi)在的判別性.Zhu等人[39]針對全局領(lǐng)域遷移難以學習特征結(jié)構(gòu)的問題,提出了局部最大化均值差異(local maximum mean discrepancy, LMMD).該距離度量函數(shù)根據(jù)樣本所屬類別,在度量領(lǐng)域經(jīng)驗分布核均值嵌入的希爾伯特施密特范數(shù)(Hilbert-Schmidt norm)的同時,根據(jù)預測標簽的概率向量為源領(lǐng)域和目標領(lǐng)域樣本賦予權(quán)重,并對齊領(lǐng)域間相關(guān)子領(lǐng)域的數(shù)據(jù)分布.

        假設(shè)領(lǐng)域間聯(lián)合概率分布存在一定差異時,通常采用基于聯(lián)合分布對齊的領(lǐng)域自適應算法,即綜合考慮邊緣分布對齊與條件分布對齊.Long等人[40]提出了基于聯(lián)合分布對齊的遷移算法(joint distri-bution adaptation, JDA),該算法參考了Pan等人[12]提出的TCA,構(gòu)建了針對邊緣分布對齊的損失函數(shù),計算目標領(lǐng)域的偽標簽,并利用貝葉斯公式逼近條件概率以實現(xiàn)條件分布自適應,最后經(jīng)過多輪的迭代獲取精度較高的偽標簽,間接提升領(lǐng)域遷移性能.Tahmoresnezhad等人[41]在減小邊緣分布和條件分布的同時,構(gòu)造了類內(nèi)距與類間距約束,以提升源領(lǐng)域分類器向目標領(lǐng)域數(shù)據(jù)遷移的擬合能力.由于不同的特定任務層各側(cè)重于不同的數(shù)據(jù)分布對齊,Long等人[42]提出的JAN(joint adaptation networks)基于聯(lián)合最大均值差異策略(joint maximum mean discrepancy, JMMD),通過對齊多層的聯(lián)合分布差異,實現(xiàn)領(lǐng)域知識的遷移.

        1.4 基于子空間學習的領(lǐng)域自適應算法

        基于子空間學習的算法將源領(lǐng)域和目標領(lǐng)域從2個不同的子空間,經(jīng)由映射矩陣投影到全局的公共子空間,并進行領(lǐng)域重構(gòu).對于基于線性函數(shù)映射的子空間學習算法,F(xiàn)ernando等人[21]提出的SA(subspace alignment)直接為源領(lǐng)域計算線性變換,令投影后的源領(lǐng)域數(shù)據(jù)的概率分布近似目標領(lǐng)域數(shù)據(jù).Sun等人[18]提出的CORAL(corelation alignment)通過學習二階特征變換,對齊源領(lǐng)域和目標領(lǐng)域的二階協(xié)方差矩陣信息.除了上述線性的函數(shù)映射外,還有研究者采用非線性映射實現(xiàn)樣本到特征子空間的投影.Glorot等人[16]所提出的堆疊降噪自編碼器(stacked denoising auto-encoders, SDA),通過構(gòu)建非線性編碼器學習映射矩陣.Chen等人[17]提出的邊緣堆疊降噪自編碼器(marginalized stacked denoising auto-encoders, mSDA)在SDA的基礎(chǔ)上進行改進,以閉式求解代替隨機梯度下降進行參數(shù)的更新.Aljundi等人[19]提出的基于標記的子空間對齊方法從2個領(lǐng)域中選擇標記以最大化領(lǐng)域重疊信息,并利用高斯核投影將源領(lǐng)域和目標領(lǐng)域樣本映射到公共子空間,以學習新的領(lǐng)域特征表示.Bousmalis等人[20]提出的領(lǐng)域分離網(wǎng)絡(domain separation network, DSN)通過最小化源領(lǐng)域和目標領(lǐng)域之間的相似性損失和約束重建損失,獲取領(lǐng)域不變特征,同時利用正交約束將私有和共享的表示分量分開以獲取領(lǐng)域?qū)S刑卣?Bermúdez-Chacón等人[43]提出的多分支網(wǎng)絡(multibranch networks)通過加權(quán)組合操作集成多條分支,自動地為各領(lǐng)域構(gòu)建描述領(lǐng)域性質(zhì)的特征提取網(wǎng)絡結(jié)構(gòu),并將經(jīng)過多分支網(wǎng)絡提取的源領(lǐng)域和目標領(lǐng)域特征輸入領(lǐng)域判別器,以提取領(lǐng)域不變特征.

        總之,經(jīng)由子空間投影后,在源領(lǐng)域數(shù)據(jù)分布與目標領(lǐng)域數(shù)據(jù)分布相互匹配的全局子空間下,源領(lǐng)域分類器對目標領(lǐng)域數(shù)據(jù)具有更好的分類性能.

        1.5 本文研究動機

        跨領(lǐng)域文本情感分類任務具有2個顯著特征:

        1) 不同語義層次的特征具有不同程度的領(lǐng)域差異,具體反映在低層特征的領(lǐng)域差異集中在文本特征表示上,而高層特征的差異體現(xiàn)在更為抽象的語義信息中.因此,多層漸進式的遷移策略有助于促進跨領(lǐng)域文本情感分類任務中的知識遷移過程.

        2) 在實際的跨領(lǐng)域情感分析任務中,數(shù)據(jù)同時包含領(lǐng)域?qū)S行畔⒑皖I(lǐng)域不變信息,且2種信息的占比難以確定,因此考慮到遷移模型泛化性,探究領(lǐng)域一致性約束和領(lǐng)域不變性約束的協(xié)同優(yōu)化方法對知識遷移的影響,同樣是跨領(lǐng)域文本情感分類任務中的研究重點之一.

        因此,基于跨領(lǐng)域文本情感分類任務中的2個特點,本研究結(jié)合文獻[10,15]的優(yōu)勢,提出一種領(lǐng)域?qū)R對抗的無監(jiān)督跨領(lǐng)域文本情感分析算法.

        2 領(lǐng)域?qū)R對抗的無監(jiān)督跨領(lǐng)域文本情感分析算法

        本節(jié)主要介紹領(lǐng)域?qū)R對抗的無監(jiān)督跨領(lǐng)域文本情感分析算法DAA.

        2.1 基本定義

        (1)

        本文提出了一種協(xié)同優(yōu)化的領(lǐng)域自適應算法以最小化領(lǐng)域差異損失.該算法由2部分組成:1)通過領(lǐng)域?qū)箤W習的方式提取領(lǐng)域不變特征;2)通過基于數(shù)據(jù)分布對齊的領(lǐng)域自適應算法計算領(lǐng)域間的分布差異.

        目前,基于數(shù)據(jù)分布對齊的領(lǐng)域自適應算法通常采用KL散度[44]、MMD[12]及MK-MMD[13]等標準分布度量函數(shù)計算領(lǐng)域差異.但是KL散度僅僅在一階矩下度量概率分布差異,而MMD及其變體MK-MMD盡管匹配了多階矩的加權(quán)和,但是仍然需要相對較為復雜的核函數(shù)計算過程.相比之下,中心矩差異CMD[15]通過顯性地刻畫領(lǐng)域間的高階中心矩差異,包括方差、偏度、峰態(tài)等,彌補了KL散度、MMD和MK-MMD這3個標準分布度量函數(shù)的不足.

        定義2.中心矩差異.設(shè)X和Y為有界的隨機樣本,數(shù)據(jù)分布分別為p和q,其區(qū)間為[a,b]N,中心矩差異為

        (2)

        (3)

        2.2 算法架構(gòu)細節(jié)

        本算法以漸進式的遷移策略,實現(xiàn)了跨領(lǐng)域文本數(shù)據(jù)的領(lǐng)域知識遷移.網(wǎng)絡結(jié)構(gòu)如圖1所示,網(wǎng)絡主要由3部分組成,包括特征提取模塊、領(lǐng)域?qū)R模塊和領(lǐng)域?qū)鼓K.其中特征提取模塊將2個領(lǐng)域的樣本xs和xt映射到全局子空間,實現(xiàn)了底層文本特征的對齊.其次將底層特征分別輸入領(lǐng)域?qū)R模塊和領(lǐng)域?qū)鼓K,并通過協(xié)同優(yōu)化的領(lǐng)域自適應算法,在高層語義空間進一步遷移領(lǐng)域知識.在領(lǐng)域?qū)R層中,首先在多層高維語義層,通過CMD度量源領(lǐng)域和目標領(lǐng)域的領(lǐng)域差異,提取領(lǐng)域可遷移特征.并將源領(lǐng)域樣本特征輸入標簽預測器,保證遷移模型的分類性能.此外本算法構(gòu)建了與領(lǐng)域?qū)R模塊平行的領(lǐng)域?qū)鼓K,該模塊構(gòu)造了梯度反轉(zhuǎn)層,并后接領(lǐng)域判別器,通過網(wǎng)絡的迭代訓練,令領(lǐng)域判別器無法判別數(shù)據(jù)的領(lǐng)域來源,以提取領(lǐng)域不變特征.

        Fig. 1 The network structure of DAA圖1 DAA網(wǎng)絡結(jié)構(gòu)圖

        在特征提取模塊中,源領(lǐng)域和目標領(lǐng)域向量共享映射函數(shù)φ,2個領(lǐng)域的數(shù)據(jù)同時被映射到公共子空間下:

        (4)

        (5)

        其中xs和xt分別代表源領(lǐng)域和目標領(lǐng)域的原始樣

        其次,令映射后的跨領(lǐng)域數(shù)據(jù)特征經(jīng)過全連接層,采用非線性激活函數(shù)獲得底層特征,并拼接源領(lǐng)域和目標領(lǐng)域底層特征,方便領(lǐng)域?qū)鼓K的處理.計算過程為:

        (6)

        (7)

        (8)

        經(jīng)由底層特征初步的特征映射后,本文構(gòu)建了領(lǐng)域?qū)R模塊,實現(xiàn)多重語義層中領(lǐng)域?qū)S行畔⒃诟邔诱Z義空間的數(shù)據(jù)分布對齊.本文引入了CMD在各層高層語義層構(gòu)建領(lǐng)域?qū)R損失,通過最小化該損失項,可減小2個領(lǐng)域的高階分布差異.領(lǐng)域分布一致性約束為:

        (9)

        (10)

        (11)

        同時為保證分類器的判別性,本文還在領(lǐng)域?qū)R模塊構(gòu)建了源領(lǐng)域情感分類器,分類器的輸入是源領(lǐng)域特征和源領(lǐng)域情感極性標簽:

        (12)

        (13)

        除了領(lǐng)域?qū)R模塊外,本文還設(shè)計了一個具有領(lǐng)域不變性約束的領(lǐng)域?qū)鼓K,用于提取領(lǐng)域不變性特征.領(lǐng)域判別器為2分類器,判別輸入樣本所屬領(lǐng)域,即來自源領(lǐng)域還是目標領(lǐng)域.并且為了提取領(lǐng)域不變特征,還需在分類器之前構(gòu)建梯度反轉(zhuǎn)層,在反向傳播時將梯度乘以負標量以逆轉(zhuǎn)梯度,在模型的迭代訓練中學習領(lǐng)域不變特征.領(lǐng)域?qū)箵p失為:

        (14)

        (15)

        2.3 算法優(yōu)化過程

        (16)

        其中,α和β為損失項權(quán)重.

        本文所提出的領(lǐng)域?qū)R對抗的無監(jiān)督跨領(lǐng)域文本情感分析算法DAA完成了源領(lǐng)域情感分類器到無標定目標領(lǐng)域的遷移任務,算法優(yōu)化過程如算法1所示:

        算法1.領(lǐng)域?qū)R對抗的無監(jiān)督跨領(lǐng)域文本情感分析算法.

        輸出:經(jīng)優(yōu)化后的網(wǎng)絡{φ,We,be,Ws,bs,ηlabel}.

        ② 初始化網(wǎng)絡參數(shù)包括We,be,Ws,bs,Wt,bt;/*特征提取模塊*/

        ③ 將源領(lǐng)域和目標領(lǐng)域樣本映射到公共子空間,如式(4)(5);

        ④ 獲取底層特征表示,如式(6)(7);

        ⑤ 拼接源領(lǐng)域和目標領(lǐng)域底層特征,如式(8);

        ⑥ while損失未收斂do /*領(lǐng)域?qū)R模塊*/

        ⑦ forj←0到N:

        ⑧ 提取高層特征,如式(10)(11);

        ⑨ end for

        ⑩ 計算領(lǐng)域?qū)R損失,如式(9);

        3 實驗設(shè)計

        3.1 數(shù)據(jù)集

        為了驗證領(lǐng)域?qū)R對抗的無監(jiān)督跨領(lǐng)域文本情感分析算法DAA的可行性與有效性,本文在2個公開的亞馬遜評論數(shù)據(jù)集上進行實驗,包括積極和消極情感的2分類評論數(shù)據(jù)集,以及包含積極、中性、消極情感的3分類評論數(shù)據(jù)集.

        第1個數(shù)據(jù)集是Blitzer等人[8]公開的早期2分類亞馬遜評論數(shù)據(jù)集,如表1所示,包括書籍B(books)、光盤D(DVD)、電子產(chǎn)品E(electronics)和廚房用具K(kitchen)這4個領(lǐng)域,每個領(lǐng)域包含2 000個訓練樣本和3 000~6 000個測試樣本.情感標簽來源于顧客給出的評價星級,若產(chǎn)品獲得4星或5星,則標簽被設(shè)置為1,代表積極情感,否則其標簽被設(shè)置為0,表示消極情感.本研究在該數(shù)據(jù)集上劃分出12個跨領(lǐng)域任務,即B→D,B→E,B→K,D→B,D→E,D→K,E→B,E→D,E→K,K→B,K→D,K→E.

        Table 1 Profile of Two-category Amazon Review Dataset表1 2分類亞馬遜評論數(shù)據(jù)集

        最新的亞馬遜評論數(shù)據(jù)集如表2所示,該數(shù)據(jù)集由McAuley等人[45]公開.該數(shù)據(jù)集包括積極情感、中性情感和消極情感3個類別,包含書籍BK(books)、電子產(chǎn)品E(electronics)、美容產(chǎn)品BT(beauty)、音樂M(music)這4個領(lǐng)域,每個領(lǐng)域分別包含2 000個樣本.本文將每個領(lǐng)域中的1 600個樣本用于訓練,剩余400個樣本用于測試.盡管該數(shù)據(jù)集與Blitzer等人[8]公開的數(shù)據(jù)集在領(lǐng)域上看似有所重疊,但由于數(shù)據(jù)收集時間不同,同類領(lǐng)域樣本分布也具有本質(zhì)上的差異.同樣在該數(shù)據(jù)集中,本研究將其劃分為12個跨領(lǐng)域任務,即BK→E,BK→BT,BK→M,E→BK,E→BT,E→M,BT→BK,BT→E,BT→M,M→BK,M→E,M→BT.

        Table 2 Profile of Three-category Amazon Review Dataset表2 3分類亞馬遜評論數(shù)據(jù)集

        3.2 對比方法

        為了驗證算法的有效性,本文所提出的DAA與1個基線方法、4類面向跨領(lǐng)域文本情感分類任務的無監(jiān)督領(lǐng)域自適應算法中的代表性方法以及最先進的方法(state of the art, SOTA)進行對比.基線方法為SO(source-only),即不采用任何遷移算法的分類結(jié)果.4類遷移學習算法包括:

        1) 基于特征選擇的領(lǐng)域自適應算法.該類算法通過選擇源領(lǐng)域和目標領(lǐng)域公共特征的方式,實現(xiàn)領(lǐng)域知識的遷移.代表算法包括SCL[7]和SFA[9],跨領(lǐng)域文本情感分類任務中的SOTA為HAGAN算法[24].

        2) 基于領(lǐng)域?qū)箤W習的領(lǐng)域自適應算法.該算法通過構(gòu)建領(lǐng)域判別器并最大化領(lǐng)域判別器損失,實現(xiàn)領(lǐng)域不變特征的提取.DANN[10]是該類算法中通過構(gòu)建梯度反轉(zhuǎn)層和領(lǐng)域判別器實現(xiàn)領(lǐng)域?qū)箤W習的代表性算法.ACAN[33]和SATNet[34]是以領(lǐng)域?qū)箤W習方式為主、融合多種領(lǐng)域自適應策略的代表性算法,其中SATNet是該類算法中的SOTA.為達成最公平的比較,本實驗復現(xiàn)DANN時,同樣采用mSDA提取底層特征,并在領(lǐng)域?qū)鼓P椭袠?gòu)造1層全連接層.

        3) 基于數(shù)據(jù)分布對齊的領(lǐng)域自適應算法.該類算法的核心在于對齊源領(lǐng)域和目標領(lǐng)域的數(shù)據(jù)分布,代表算法包括DAN[14],其中CMD是現(xiàn)有跨領(lǐng)域文本數(shù)據(jù)距離度量算法中的SOTA,為了達成最公平的比較,本實驗中將CMD的中心矩階數(shù)設(shè)置為3.

        4) 基于子空間學習的領(lǐng)域自適應算法.該類算法將源領(lǐng)域和目標領(lǐng)域映射到公共的子空間,代表算法包括mSDA[17]和DSN[20],其中mSDA是基于離散特征輸入的領(lǐng)域自適應算法中的SOTA,為達成最公平的比較,本實驗中將mSDA輸入向量的維度同樣設(shè)置為30 000維,堆疊層數(shù)設(shè)置為5.

        3.3 最優(yōu)超參設(shè)定及其設(shè)定策略

        實驗采用針對遷移學習任務的反轉(zhuǎn)交叉驗證方法(reverse cross-validation criteria)實現(xiàn)模型調(diào)優(yōu),該方法過程有4步:

        1) 將標定的源領(lǐng)域樣本S和未標定的目標領(lǐng)域樣本T按照10折交叉驗證的方式劃分,得到源領(lǐng)域訓練集S′、目標領(lǐng)域訓練集T′、源領(lǐng)域驗證集Sv,目標領(lǐng)域驗證集Tv;

        2) 采用源領(lǐng)域訓練集S′和目標領(lǐng)域訓練集T′訓練情感分類器η,并在源領(lǐng)域驗證集Sv上進行模型驗證和早停機制;

        3) 基于上一步訓練的模型,獲得帶標簽的目標領(lǐng)域樣本{(x,η(x))}x∈T′,并將標定的目標領(lǐng)域和無標簽的源領(lǐng)域樣本S′分別作為源領(lǐng)域和目標領(lǐng)域輸入,訓練獲得反轉(zhuǎn)分類器ηr,同時在帶標簽的目標領(lǐng)域驗證集{(x,η(x))}x∈Tv中進行模型驗證和早停機制;

        4) 在源領(lǐng)域驗證集上采用反轉(zhuǎn)分類器ηr進行驗證,并計算反轉(zhuǎn)驗證損失RSv(ηr).

        這4個步驟不斷重復,直至獲得最低的反轉(zhuǎn)驗證損失,此時得到最優(yōu)的遷移模型.經(jīng)上述反轉(zhuǎn)交叉驗證方法可獲得最優(yōu)超參設(shè)置.在特征提取模塊中,全連接層的神經(jīng)元個數(shù)為48.在領(lǐng)域?qū)R模塊中,采用2層全連接層,神經(jīng)元個數(shù)分別為32和16.在領(lǐng)域?qū)鼓K中,采用1層全連接層,神經(jīng)元個數(shù)為48.中心矩階數(shù)為3,學習率為10-3,根據(jù)遷移任務的不同,損失項權(quán)重α和β分別取自[0.1,1]中的9個數(shù).

        4 實驗結(jié)果分析

        4.1 分類準確率結(jié)果

        表3給出本算法在跨領(lǐng)域2分類評論數(shù)據(jù)集的分類準確率,并與3.2節(jié)中給出的4類領(lǐng)域自適應算法進行對比.由表3所示,本算法DAA相比SO高出6%,證明算法具備基本的遷移能力.其次,與基于特征選擇的領(lǐng)域自適應算法SCL,SFA和該類算法中的SOTA算法HAGAN相比,DAA在12個2分類跨領(lǐng)域文本情感分類任務中的平均準確率分別高出了5.1%,4.6%,1.1%.與基于數(shù)據(jù)分布對齊的領(lǐng)域自適應算法DAN,CMD的對比結(jié)果顯示,DAA的平均準確率相比2種算法高出2.8%和2.2%.證明本文提出的DAA的領(lǐng)域?qū)R損失和領(lǐng)域?qū)箵p失的聯(lián)合優(yōu)化有助于促進跨領(lǐng)域文本數(shù)據(jù)的知識遷移.同樣地,DAA在12個任務中的準確率均高于基于子空間學習的領(lǐng)域自適應算法mSDA,在大多數(shù)的任務中高于DSN,其中在B→K和D→B任務中比DSN,DAA低0.4%,0.3%.在K→E任務中,DSN比DAA高出0.6%,其原因在于DSN中私有編碼器和共享編碼器的協(xié)作有助于提取良好的特征表示.與只采用領(lǐng)域?qū)箤W習算法的DANN相比,本算法的平均準確率高出1.4%.而相比于融合多種領(lǐng)域自適應算法的ACAN和SATNet,本算法分別提高了0.6%和0.4%.

        Table 3 Accuracy of Twelve Two-category Cross-domain Text Sentiment Analysis Tasks表3 12個2分類跨領(lǐng)域文本情感分析任務的準確率 %

        表該分類任務的最優(yōu)值.

        由表3的實驗結(jié)果表明本文提出的DAA在12個2分類子任務上的平均準確率相對近年所提出的ACAN和SATNet有一定提升,特別是在子任務B→E,D→K和E→K上均有較大幅度的提升.其中本算法DAA在B→E任務上分別提升了1.2%和3.2%,在D→K任務上分別提升了7%和7.4%,在E→K任務上相比ACAN提升了4.9%.分析對比11種算法,本文所提出的DAA的網(wǎng)絡結(jié)構(gòu)、遷移約束項和算法優(yōu)化過程更簡潔.首先對于網(wǎng)絡結(jié)構(gòu),本算法對源領(lǐng)域和目標領(lǐng)域都采用單個統(tǒng)一的領(lǐng)域判別器,而ACAN和SATNet為源領(lǐng)域和目標領(lǐng)域分別構(gòu)建了2個分類器.其次對于遷移約束項,本文以領(lǐng)域?qū)箤W習和邊緣分布對齊的思想構(gòu)建了2個約束,而ACAN融合邊緣分布對齊、條件對抗、生成器正則化的思想構(gòu)建了3個約束項.最后對于算法的優(yōu)化過程,ACAN和SATNet都采用最大化最小化的2步式對抗生成訓練方式,而本算法以構(gòu)建領(lǐng)域反轉(zhuǎn)層的方式,采用更簡潔的協(xié)同優(yōu)化方式統(tǒng)一訓練特征提取模塊和2個遷移模塊,單步協(xié)同訓練相對2步式訓練,更有利于避免局部最優(yōu),獲得優(yōu)化訓練結(jié)果.因此通過表3的實驗結(jié)果證明了本算法DAA對跨領(lǐng)域情感分析模型的優(yōu)化和跨領(lǐng)域數(shù)據(jù)分類性能的提升.

        此外由表3數(shù)據(jù)可見,基于特征選擇的算法SCL和SFA的準確率相比其他領(lǐng)域自適應算法準確率更低.其原因在于該算法的優(yōu)勢是提取領(lǐng)域間共享的全局特征,然而當源領(lǐng)域和目標領(lǐng)域差異較大時,很難找到所需的全局共享特征,進而導致在沒有對齊領(lǐng)域的情況下算法分類性能的下降.

        表4顯示了12個3分類跨領(lǐng)域情感分析子任務的實驗結(jié)果.在該實驗中,相比積極和消極情感,中性情感極性在特征表現(xiàn)上不太明顯,因此本文考慮選擇一種特征提取性能更優(yōu)的特征編碼器.本實驗分別采用mSDA和單層text-CNN(text convolutional neural networks),進一步探討特征提取器的選擇對遷移效果的影響.其中,mSDA的輸入是經(jīng)過詞袋模型(bag of words)處理所得的詞頻矩陣,mSDA[17]采用閉式求解,因此相比于傳統(tǒng)的神經(jīng)網(wǎng)絡,該算法計算速度更快.而單層的text-CNN由Kim[46]提出,該網(wǎng)絡的輸入是詞向量矩陣,本文通過Mikolov等人[47]提出的詞嵌入模型獲得詞向量表示.

        在表4中,DAA(CNN)表示使用text-CNN的DAA, DAA(mSDA)表示采用mSDA編碼器提取特征的DAA.實驗結(jié)果表明,不論是DAA(CNN)或是DAA(mSDA),都在所有子任務中高于其他的對比算法.因此該實驗結(jié)果進一步證明,同時對齊特定領(lǐng)域特征和提取領(lǐng)域不變特征在跨領(lǐng)域情感分類任務中的必要性和有效性.

        Table 4 Accuracy of Twelve Three-category Cross-domain Text Sentiment Analysis Tasks表4 12個3分類跨領(lǐng)域文本情感分析任務的準確率 %

        而對于特征提取器的選擇對遷移效果的影響,由表4數(shù)據(jù)可知,DAA(mSDA)在12個子任務上的平均準確率比DAA(CNN)高4.5%,而DAA(CNN)只在跨領(lǐng)域任務BT→E上比DAA(mSDA)稍高一些.經(jīng)分析后得出子空間映射能力會對分類性能造成影響.其原因在于,mSDA將輸入映射為底層特征表示前,為輸入添加了噪聲.并通過邊緣化降噪自編碼器,以增強去噪變換的計算過程,增強特征的魯棒性表達.然而在DAA(CNN)中,底層特征通過卷積網(wǎng)絡提取獲得,而在卷積網(wǎng)絡中,良好的特征表示很大程度上取決于訓練數(shù)據(jù)的多樣性.相比之下,CNN面向新數(shù)據(jù)的魯棒性相對較差,進而導致特征提取效果不佳,而領(lǐng)域自適應算法又建立在特征提取的基礎(chǔ)之上,導致后續(xù)的遷移效果不佳.故本文經(jīng)實驗結(jié)果推斷后得出,在跨領(lǐng)域情感分類任務中,特征提取器的選擇和領(lǐng)域自適應算法的優(yōu)化缺一不可.

        另外,結(jié)合表3和表4進一步分析發(fā)現(xiàn),領(lǐng)域類型相似的遷移任務的分類準確率在每種領(lǐng)域自適應算法下,都具有相對較高的準確率.而不同類型的領(lǐng)域遷移任務,即使采取了對應的遷移策略,分類準確率也相對較低.例如,如表3所示,在2分類跨領(lǐng)域情感分析子任務中,廚房用具K和電子產(chǎn)品E都屬于工具類商品,書籍B屬于娛樂文化類商品.實驗結(jié)果顯示,E→K在SO上的準確率高于其他的遷移任務,并且經(jīng)過遷移后,對于任意遷移學習算法中的E→K任務,準確率都遠遠高于其余11個遷移任務.因此通過實驗結(jié)果可以推斷出,E和K屬于同一類商品,故領(lǐng)域差異更小、遷移過程更容易.然而屬于不同類型的遷移任務K→B在SO和各類遷移學習算法中的準確率都相對較低.同理,對于表4中3分類跨領(lǐng)域情感分析子任務,E和BT都屬于日常生活用品,M屬于休閑用品.E→BT任務同樣表現(xiàn)出更高的準確率,而BT→M不論在SO抑或在其他的遷移學習算法中,準確率都相對較低.由此推斷出,各領(lǐng)域間的原始領(lǐng)域差異對跨領(lǐng)域情感分類任務遷移性能的影響,即領(lǐng)域差異越大,跨領(lǐng)域情感分類任務遷移難度越大,準確率相對越低.然而該結(jié)論是相對主觀的推測,還需要客觀的領(lǐng)域差異度量結(jié)果加以驗證.因此4.2和4.3節(jié)將給出定量和定性的遷移性能結(jié)果,進一步證明本算法的有效性以及上述推論的可靠性.

        4.2 遷移性能分析結(jié)果

        Fig. 3 Proxy A-distanceon SO and DAA in 12 three- category cross-domain text sentiment analysis tasks圖312個3分類跨領(lǐng)域文本情感分析任務中SO與 DAA的Proxy A-distance

        由圖2和圖3實驗結(jié)果所示,所有任務的數(shù)據(jù)點皆處于邊界線右側(cè),且離邊界線偏移程度較大,因而證明了DAA算法具備良好的遷移性能.

        此外,表5和表6給出數(shù)據(jù)點的具體數(shù)值和領(lǐng)域差異減小值(discrepancy reduction values),以進一步從定量的角度驗證算法的遷移性能,若領(lǐng)域差異減小值為0,則說明算法的無遷移效果,反之領(lǐng)域差異減小值越大,則遷移效果越好.

        Table 5 Proxy A-distance and Discrepancy Reduction Valuesof SO and DAA in 12 Two-category Cross-domainText Sentiment Analysis Tasks表5 12個2分類跨領(lǐng)域文本情感分析任務中SO與DAA的Proxy A-distance和領(lǐng)域差異減小值

        Table 6 Proxy A-distance and Discrepancy Reduction Valuesof SO and DAA in 12 Three-category Cross-domainText Sentiment Analysis Tasks表6 12個3分類跨領(lǐng)域文本情感分析任務中SO與DAA的Proxy A-distance和領(lǐng)域差異減小值

        如表5和表6所示,即使對于領(lǐng)域差異較大的任務,DAA依然表現(xiàn)出了良好的遷移性能,如表5數(shù)據(jù)所示,在SO上領(lǐng)域差異較大的B→E任務,經(jīng)過DAA的遷移后,領(lǐng)域差異減少了1.070.同樣如表6所示,即使在源領(lǐng)域和目標領(lǐng)域?qū)儆诓煌念悇e、原始領(lǐng)域差異較大的任務BK→E中,領(lǐng)域差異在經(jīng)過協(xié)同優(yōu)化的領(lǐng)域自適應算法后,也有顯著降低.因此,經(jīng)過圖2、圖3和表5、表6的定量遷移實驗結(jié)果進一步證明,本文提出算法具備良好的遷移性能,可以有效地減小領(lǐng)域差異.

        另外結(jié)合4.1節(jié)中,各領(lǐng)域間的原始領(lǐng)域差異對跨領(lǐng)域情感分類任務遷移性能影響的推斷,此處基于領(lǐng)域差異度量結(jié)果,對推斷給出了更客觀的驗證結(jié)果.在表5中,本研究發(fā)現(xiàn)屬于同一領(lǐng)域類別、領(lǐng)域差異較小的E→K任務的Proxy A-distance在SO和DAA上低于其他跨領(lǐng)域任務,相反,屬于不同領(lǐng)域類別的K→B在所有任務的SO中取得了最大值.相應地,在表6中,E→BT的Proxy A-distance在所有任務的SO中為最小值,而BT→M為最大值.說明屬于同一類型的E和BT,領(lǐng)域差異較小,而屬于不同類型的BT和M的領(lǐng)域差異較大.因此,根據(jù)表5和表6的實驗結(jié)果得出,原始領(lǐng)域差異會對遷移性能產(chǎn)生一定影響.

        4.3 特征分布可視化結(jié)果

        本實驗繪制特征分布圖,從定性的角度分析DAA的遷移性能,如圖4和圖5所示.

        圖4為2分類跨領(lǐng)域情感分類任務的特征分布圖.其中紅色點和藍色點分別代表源領(lǐng)域和目標領(lǐng)域的積極情感類別數(shù)據(jù),黃色點和綠色點分別代表源領(lǐng)域和目標領(lǐng)域的消極情感類別數(shù)據(jù).M1代表特征提取模塊,M2代表領(lǐng)域?qū)R模塊,M3代表領(lǐng)域?qū)鼓K.每一行分別代表2分類的跨領(lǐng)域情感分類任務B→K,D→E和K→D.

        Fig. 4 The feature distribution maps on two-category cross-domain text sentiment analysis tasks圖4 2分類跨領(lǐng)域文本情感分析任務的特征分布圖

        Fig. 5 The feature distribution maps on three-category cross-domain text sentiment analysis tasks圖5 3分類跨領(lǐng)域文本情感分析任務的特征分布圖

        圖4(d)(h)(l)代表只采用特征提取模塊的特征分布情況,可見不同領(lǐng)域同類別的數(shù)據(jù)擬合效果不佳,且無明顯的分類邊界.圖4(c)(g)(k)代表采用特征提取模塊和領(lǐng)域?qū)R模塊的特征分布情況,相比圖4(d)(h)(l),其分類效果有明顯改善,但是仍然有部分點被錯分.圖4(b)(f)(j)代表采用特征提取模塊和領(lǐng)域?qū)鼓K的特征分布情況,可以看出分類效果較圖4(d)(h)(l)有明顯改善,但是領(lǐng)域間同類數(shù)據(jù)分布呈塊狀,擬合效果不佳.圖4(a)(e)(i)為融合DAA三個模塊的特征分布情況,該情況下遷移效果最佳,領(lǐng)域間同類數(shù)據(jù)均勻擬合,且類別之間有明顯的分類邊界.由此推斷本研究提出的領(lǐng)域?qū)R對抗算法面向2分類跨領(lǐng)域情感分類任務,具備較好的遷移性能和分類性能圖5為3分類跨領(lǐng)域情感分類任務的特征分布圖.其中紅色點和藍色點分別代表源領(lǐng)域和目標領(lǐng)域的積極情感類別數(shù)據(jù),黃色點和綠色點分別代表源領(lǐng)域和目標領(lǐng)域的消極情感類別數(shù)據(jù),紫紅色點和青色點代表源領(lǐng)域和目標領(lǐng)域的中性情感類別數(shù)據(jù).M1,M2,M3所對應的模塊與圖4相同.每一行分別代表3分類的跨領(lǐng)域情感分類任務E→BT,BK→M,E→BK.

        由圖5(d)(h)(l)可看出,只采用特征提取模塊而無遷移機制的情況下,數(shù)據(jù)點分布散亂,無分類邊界,分類效果和遷移效果不佳.圖5(c)(g)(k)和圖5(b)(f)(j)中,特征分布較為混亂.而圖5(a)(e)(i)相比之下呈現(xiàn)較為明顯的分類邊界,且同類數(shù)據(jù)點的擬合程度有所改善.由此證明DAA在3分類跨領(lǐng)域情感分類任務中,同樣具備有效的分類性能和遷移性能.

        5 總 結(jié)

        面向無監(jiān)督領(lǐng)域自適應任務,本研究提出了領(lǐng)域?qū)R對抗的無監(jiān)督跨領(lǐng)域文本情感分析算法DAA.該算法充分利用實際跨領(lǐng)域文本數(shù)據(jù)同時包含領(lǐng)域特定信息和領(lǐng)域不變信息的本征特點,以漸進式的遷移策略,逐層減小不同語義層的領(lǐng)域差異.并在高層特征提取層以協(xié)同優(yōu)化的領(lǐng)域自適應算法,分別在領(lǐng)域?qū)R模塊和領(lǐng)域?qū)鼓K,構(gòu)造領(lǐng)域一致性約束和領(lǐng)域不變性約束.經(jīng)由2個約束在訓練過程中迭代地協(xié)同優(yōu)化,實現(xiàn)跨領(lǐng)域文本數(shù)據(jù)的領(lǐng)域知識遷移.

        本研究在24個跨領(lǐng)域文本情感分析任務上驗證了算法的有效性.對比實驗結(jié)果顯示,本算法有效提升了現(xiàn)有無監(jiān)督跨領(lǐng)域文本情感分析算法的準確率.并結(jié)合領(lǐng)域差異度量的定量實驗和特征可視化的定性實驗,進一步證明算法的分類性能和遷移性能.此外,本文還對實驗結(jié)果進行更為細致的分析,深入探討原始領(lǐng)域差異和特征提取器的選擇,對跨領(lǐng)域文本情感分析算法的影響.

        本文針對無監(jiān)督跨領(lǐng)域文本情感分析任務進行了相關(guān)的研究和探討.但是在實際應用場景中,跨領(lǐng)域文本情感分析任務還面臨著各種各樣的挑戰(zhàn),如各領(lǐng)域的語言不同導致數(shù)據(jù)分布差異過大,領(lǐng)域間各類別數(shù)據(jù)不平衡導致源領(lǐng)域分類器向某一類別的數(shù)據(jù)偏移的問題.因此未來的研究工作將進一步考慮如何設(shè)計子空間映射能力更強的跨語言特征提取器,以及如何從類別標簽語義信息的角度對齊領(lǐng)域差異,以解決跨領(lǐng)域數(shù)據(jù)類別不平衡問題.

        作者貢獻聲明:賈熹濱提出研究問題和思路,提出實驗改進建議和論文修改思路;曾檬完善算法設(shè)計及實驗驗證,撰寫論文;米慶參與實驗改進和論文修訂;胡永利提出實驗方案及實驗改進建議.

        猜你喜歡
        分類特征文本
        分類算一算
        如何表達“特征”
        在808DA上文本顯示的改善
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        分類討論求坐標
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        国产欧美日韩一区二区三区在线| 一区二区在线视频免费蜜桃| 男女肉粗暴进来动态图| 特级做a爰片毛片免费看无码| 国内精品久久久久影院优| 男女发生关系视频网站| 中文字幕一区在线直播| 女局长白白嫩嫩大屁股| 日本五月天婷久久网站| 亚洲性色ai无码| 亚洲第一区二区精品三区在线| 色婷婷亚洲一区二区三区| 成人无码视频| 亚欧免费无码AⅤ在线观看 | 欧美人妻少妇精品久久黑人| 男人无码视频在线观看| 天堂av在线免费播放| 91视色国内揄拍国内精品人妻 | 痴汉电车中文字幕在线| 色偷偷av男人的天堂| 国产成人精品午夜福利免费APP| av手机天堂在线观看| 久久久久亚洲av无码a片| 中国熟妇人妻xxxxx| 国产女奸网站在线观看| 久久国产精品国语对白| 99无码熟妇丰满人妻啪啪| 亚洲av熟妇高潮30p| 亚洲视频在线播放免费视频| 国产女同va一区二区三区| 69sex久久精品国产麻豆| 精品免费人伦一区二区三区蜜桃| 偷拍美女一区二区三区视频| 日本熟妇人妻xxxx| 久久久久亚洲av无码专区| 胳膊肘上有白色的小疙瘩| 偷拍美女上厕所一区二区三区| 在线看片免费人成视频久网下载 | 亚洲熟妇久久国产精品| 伊人久久综在合线亚洲不卡| 美女被搞在线观看一区二区三区|