亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        EDA 文本增強技術在中英文語料上的差異性分析

        2021-11-15 15:31:48靳大尉王雯慧
        現代計算機 2021年27期
        關鍵詞:分類文本效果

        靳大尉,王雯慧

        (陸軍工程大學指揮控制工程學院,南京 210000)

        0 引言

        數據驅動的機器學習模型訓練中模型的精度與模型的復雜度往往成正比。但這種正比的前提是要有足夠多的訓練樣本數據,否則很容易造成欠擬合現象。在很多實際的項目中,難以有充足的數據來完成訓練任務,為了提升模型的泛化能力,要么尋找更多的數據,要么充分利用已有的數據通過數據增強技術來產生新樣本。

        在計算機視覺領域,已有旋轉、縮放、剪切等通用增強方法。文本數據增強實踐中,Jason Wei等人提出了一套簡單的用于自然語言處理的通用數據擴充技術EDA[1],并針對其在英文文本上的應用效果進行了研究。為了研究EDA技術在與英文文本差距較大的中文文本上的應用效果,本文選擇三種公開中文語料和文本分類任務,在中文數據集上實驗并驗證了EDA技術的增強效果,并分析了中英文文本語料上EDA增強技術的應用差異,提出了中文數據集中推薦的增強參數,同時驗證了EDA技術在以Bert為代表的預訓練語言模型上的應用效果。

        1 文本增強方法概述

        依據文本增強的原理不同,文本增強的技術可以分為面向原始文本的增強方法和面向文本表示的增強方法兩種。

        面向原始文本的增強方法主要是通過對原始文本中的字詞進行操作來進行增強。大部分研究都通過引入各種外部資源來提升增強效果,包括同義詞、外部噪聲等。除了典型的EDA技術,還包括基于復雜模型的增強方法,如條件BERT(CBERT)[2]和利用RL來選擇增強操作[3]。

        面向文本表示的增強方法是對原始文本的特征表示進行處理,比如利用在表示層注入隨機噪音等方法獲得增強后的文本表示。增強后的表示可以再進行解碼獲得增強文本或者直接用于訓練模型。這方面的代表包括Szegedy等人提出的利用標簽平滑(label smoothing)來提升模型泛化能力[4];Zhang等人提出的基于Mixup的文本增強方法[5]以及Malandrakis等人提出的受限變分自編碼器(CVAE)[6]等文本增強技術。

        相對于面向表示的文本增強方法,面向原始文本的增強方式通常是對句子內容進行微調,實現較為簡單,增強比例可自由調整,效率更高;能夠直接觀察增強后的數據內容,具有更好的可讀性和可解釋性。EDA方法的四種基本操作包括:同義詞替換(SR)、隨即插入(RI)、隨即交換(RS)以及隨機刪除(RD),較好的代表了原始文本增強方法“多、快、好、省”的特點。

        2 實驗設計與結果

        本實驗選擇了三種文本分類任務的數據集和兩種基本模型框架以及一種預訓練模型來研究EDA技術在中文文本上的應用效果,并與英文進行對比。

        2.1 數據集介紹

        本實驗使用了三類中文數據集,涵蓋短文本、長文本、二分類以及多分類數據,簡要介紹如下:

        (1)短文本二分類[7]。采用酒店評價數據集hotel,共7000多條酒店評論數據,分為正面、負面兩個類別,其中5000多條正向評論,2000多條負向評論;

        (2)短文本多分類[8]。采用今日頭條新聞標題數據集tnews,其中訓練數據53360條,驗證數據約10000條,測試數據約10000條,共分為15個類別,類別數據量相差較大;

        (3)長文本多分類[9]。采用復旦大學中文文本分類語料fudan,選取C19、C31、C34、C39四類文檔,分別包含2712、2436、3201、2507條數據。

        EDA方法對于英文小數據集的增強作用較為明顯,本文對于中文數據集采用了相同的方法,將數據劃分為不同大小的數據集進行研究,同時改變文本增強百分比、增強句數等參數進行實驗驗證。

        文本增強百分比參數代表一個句子中參與增強的字詞所占句子長度的百分比。例如,一個句子長度為100,增強百分比為2%,那么參與增強操作的詞最多不超過兩個。

        增強句數參數表示一句話進行增強操作后新形成的句子的數量。例如,設定增強句子數參數為9,那么一句話分別進行9次增強操作,形成9個新句子參與訓練。同時默認的增強操作包括:對句子的30%進行同義詞替換操作,進行隨機插入操作,插入比例為句子的20%,對句子的10%進行隨機交換操作,對15%的句子進行隨機刪除操作,百分比計算結果均向下取整。

        2.2 模型與文本分類任務選擇

        為了能夠反映文本增強技術對于模型結果的影響,不失一般性地采用簡單的RNN[10]、CNN[11]和基礎的Bert模型。RNN模型包括兩層RNN隱藏層以及兩層全連接層;CNN模型包括一層CNN層、一層最大池化層以及兩層全連接層。Bert模型采用基于Pytorch的Bert-base-chinese模型[12]。

        文本分類任務是自然語言處理中的一項基本任務,其評判規(guī)則較為明確,能較有效的衡量一個模型的準確率,從而反映出文本增強技術的作用效果。文本分類任務可以分為短文本分類和長文本分類任務,也可劃分為多分類任務和二分類任務。本文實驗任務涵蓋以上各種文本分類任務。

        2.3 EDA應用效果

        2.3.1 EDA技術應用效果概述

        為了能夠準確反映出EDA技術的效果,本文分別從三個數據集劃分抽樣出500、2000、5000條,組成不同大小的數據集,同時保留原始數據集大小,四種大小的數據集分別用tiny、small、standard、full set代表。分別利用隨機刪除、隨機插入、隨機交換以及同義詞替換操作對其原始文本進行增強,同時文本增強百分比從0逐步增加到1。分別利用增強后的數據集訓練RNN、CNN模型,通過預測模型的準確性衡量增強效果。最終將增強后的模型表現分別求平均,得出利用EDA技術訓練后的平均模型準確性。多次利用原始數據集訓練模型,分別得出其準確性求取平均,得到未經增強操作的模型準確性表現作為基準,與增強后的模型的平均表現對比,最終形成模型準確性數據見表1。

        表1 EDA增強后模型平均準確性及原始準確性

        表1中數值代表各模型訓練后的準確度,最后一行代表模型的準確度提升的平均值。表中的結果顯示,雖然RNN模型的表現不如CNN模型,但是EDA技術對兩個模型均有一定的提升效果,這種效果相差不大,對RNN模型的提升效果相較而言較好。采用EDA技術,對于所有大小的數據集,模型的準確性均有一定的提升,并且隨著數據量的增多,模型的提升效果逐漸減小。當數據集僅為500條時,EDA技術能夠有效的提高模型的表現,使得準確率平均提升了大約16.6%;當使用所有的數據集進行訓練時,模型平均準確率仍有超0.3%的提升。

        2.3.2 不同數據集大小下增強的性能比較

        為了更精準的驗證不同數據集大小下增強方法的效果,我們在三個數據集上進行隨機抽樣,分別抽取{1,5,10,20,30,40,50,60,70,80,90,100}不同百分比的數據子集作為訓練集,訓練了原始模型以及EDA技術增強后訓練所得的模型。對于多次實驗進行結果平均,圖1展示了最終實驗的結果。

        圖1 不同大小數據集下增強方法性能比較

        從圖1可以看出,使用EDA技術和不使用EDA技術訓練所得的模型準確率均出現由低至高的變化趨勢,最后兩者趨近統(tǒng)一,得到大致相同的最高準確性??傮w而言,使用增強技術能可以盡快到達準確度穩(wěn)定的階段,即僅使用較少的數據(20%~30%)進行模型訓練能夠獲得較高的準確度。注意到當采用5%~10%的數據的時候,利用原始數據訓練模型,模型會在hotel以及fudan數據集上出現模型的準確度的大幅“波動”。此現象在利用EDA技術增強后的數據集進行模型訓練時并未出現,說明EDA技術能夠增加小數據集上的模型表現穩(wěn)定性。

        2.3.3 不同增強方式下增強的性能比較

        為驗證不同增強方法的提升效果,從三類數據集中分別隨機抽取tiny、small、standand和full四個不同數量集合,選擇{5,10,20,30,40,50}的文本增強百分比,對基于四種增強操作增強后的模型進行了準確性測試。多次訓練模型并且評估模型準確性,進行平均后得到最終實驗結果,如圖2所示。

        圖2 不同增強方式性能提高比較

        如圖2,實驗結果證明,四種EDA操作都有利于提高模型的性能,同時對于小數據集的增強效果最為明顯,均能夠將模型準確率提升30%左右,對于大數據集效果較差,平均僅提升1.5%左右。

        具體增強操作上,同義詞替換SR操作增強效果較好,提升比例超過35%,隨機插入RI增強效果較差,提升比例僅為25%~30%左右。究其原因,同義詞替換操作在盡可能保留原始句子信息的情況下進行句子改寫,與原句之間的相似度較高;隨機插入操作在句子中引入了外部噪聲,即有可能較大的改變原句的意思,相似距離較大。隨即交換RS以及隨機刪除RD操作的提升比均在30%~35%之間,進行操作后句子的變化不如隨機插入,也對提升模型質量有一定作用。

        2.3.4 不同增強句數的性能比較

        每個原始句子所生成的增強句子的個數即數據集擴充的大小對實驗結果也會產生一定的影響。本文采用不同的增強句數參數,分別對應{1,2,4,8,16,32},比較模型的平均性能。利用CNN和RNN模型以及EDA技術進行了實驗,最后結果如圖3所示。

        圖3 不同增強數量的性能比

        由圖3可以看出,對于數據量較小的模型,EDA增強句數的大小對結果的影響顯著;對于較大的數據集,無論增強句數參數大小也無明顯的模型提升作用。所以增強的句數不是越多越好,但是對于小數據集可以適當的增多增強句子數。不準確的增強數據也會對模型表現造成一定的干擾,往往出現應用增強技術之后性能不升反降的情況。

        2.3.5 數據增強后分類標簽一致性判定

        文本數據增強后類標簽保持不變是有效增強的必要前提。我們通過增強操作后模型預測的標簽一致性來檢驗EDA操作是否顯著地改變了句子的意義。

        首先,不應用EDA技術在原始完整數據集上訓練了一個RNN。然后將EDA技術應用于測試集,每個原句生成9個新句子,采用數據集介紹中的默認增強操作。這些增強后的句子和原始的句子一起被送入RNN,統(tǒng)計增強后的句子標簽預測情況與原始句子標簽預測情況是否一致,最后以此檢驗增強操作是否會改變句子的原始標簽。

        以Hotel數據為例,測試集大小為671,增強后的數據有6039條。根據表2可以看出,EDA操作基本不改變增強句子的情感色彩,增強導致標簽更改的樣本的占比僅為1%。

        表2 EDA增強標簽一致性統(tǒng)計表

        3 EDA技術在中文預訓練模型的應用

        Jason Wei等人猜想EDA技術在該類預訓練語言模型上可能不會發(fā)揮作用,甚至出現反作用[1]。本文利用中文Bert預訓練語言模型[12],結合EDA技術驗證其對于該類模型是否能提升其下游任務的表現。

        最終實驗結果如表3和圖4中所示,EDA技術在預訓練語言模型的基礎上仍有其提升空間,能夠有效提升模型最終預測的表現,并且與基本模型對不同的數據集的作用規(guī)律基本表現一致。但因數據集過小的影響,使用Bert模型的分類效果普遍不及RNN或CNN模型。

        表3 EDA技術在預訓練語言模型上的表現

        圖4給出了通過對于不同操作在Bert模型上的提升,隨機插入操作與隨機刪除操作對于模型的影響基本一致,同義詞替換操作以及隨機交換操作基本一樣。前兩者主要是在句中加入噪音,后兩者涉及到語言學的部分變換,語言學的變化會導致部分的信息損失。同義詞替換操作以及隨機交換操作在增強比例到達0.2左右就開始下降,0.3時下降到最低點。當增強百分比繼續(xù)增加,損失效果出現抵消,提升比轉為上升趨勢。

        圖4 Bert模型上不同增強方式性能提高比較

        4 中英文數據集的不同對比

        中文文本與英文文本特點具有較大的不同,導致EDA技術在中英文數據集上的表現有差異也有相似。語言信息熵[13]相關理論指出,中文每個字提供的信息量大于英文數據量,字與字之間的關聯更小,這可能會導致增強技術的效果不同。

        如表4所示,不論中英文數據,EDA技術針對小數據集上訓練的分類模型準確性的提升作用更為明顯;EDA技術在中文數據集上的平均應用效果高于英文數據集上的效果;當數據集大小超過5000條之后,模型的提升作用基本不發(fā)生變化,中英文均趨于平緩。同時,在中文文本中,由于中文文本信息熵較大,應用EDA技術對于原始文本進行改變之后增加、改變或者刪除的信息量較大,模型的泛化效果得到提升,導致在中文文本上的增強作用強于英文文本,最好的增強結果可以達到英文增強效果的十倍。

        表4 中英文不同大小數據集EDA技術的平均提升度對比

        通過上文對于不同增強方式、增強比例以及增強句數對于模型準確性提升的影響的研究,可以得到中文數據集推薦的經驗增強參數,最終形成表5,其中文數據來源于Jason Wei等人的實驗結果[1],且均以在中文實驗設備上進行了驗證。

        表5 中英文推薦增強參數對比

        根據表5,中英文在不同數據量上增強比例與增強句子數對比,可以發(fā)現中英文數據集在小數據集上推薦的增強句子數均較大,之后隨著數據集的增大逐漸減小,中文減少的速度更快。

        文本增強技術通過改變句子的表述,擴充訓練數據集以提高模型訓練的效果,但是為了保證數據的真實有效不可過分改變句子的意思,所以本文推薦將句子的增強比控制在0.5之內。根據上文所述不同增強方式下增強的性能比較實驗中,各增強方式增強效果隨增廣比例的上升均出現一定的上升,同時數據增強后分類標簽基本保持一致。所以推薦的中文數據集增強比均為效果較好的0.5。

        中文文本上下文關聯性比英文文本小,當增強百分比較小時,增廣后的句子基本與原句保持一致,所含信息熵以及表述方式較為類似,無法較好起到擴充原數據集實現數據增強的效果,所以中文文本中的推薦增強比較英文數據集相比均取值較大。

        5 結語

        本文的研究結果表明,EDA技術包含的四項基本文本增強技術可以提升中文文本分類模型的準確率,在對文本增強的有效性上,具有中英文的適用性。EDA技術采用不同增強方式的增強效果不盡相同,但平均效果還是比較明顯的。由實驗可知,隨機刪除操作以及近義詞替換操作可能會損失原句的信息,建議搭配隨機交換與隨機插入操作進行信息彌補,以減少句子信息的損失做到有效的增強。

        此外,實驗證明EDA技術除了在基本的RNN、CNN語言模型上能夠有效的提升模型的表現,在Bert等預訓練語言模型上也有其用武之地。在數據集較大的情況下,Bert模型配合EDA技術能夠有更好的表現與提升效果。

        猜你喜歡
        分類文本效果
        按摩效果確有理論依據
        分類算一算
        在808DA上文本顯示的改善
        分類討論求坐標
        迅速制造慢門虛化效果
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數據分析中的分類討論
        抓住“瞬間性”效果
        中華詩詞(2018年11期)2018-03-26 06:41:34
        教你一招:數的分類
        模擬百種唇妝效果
        Coco薇(2016年8期)2016-10-09 02:11:50
        精品国产亚洲av高清大片| 欧美人与动牲交片免费| 48沈阳熟女高潮嗷嗷叫| 成年免费视频黄网站zxgk| 伊人久久五月丁香综合中文亚洲 | 亚洲一二三四区免费视频| 日本添下边视频全过程| 国产欧美精品一区二区三区四区 | 亚洲成在人线久久综合| 高清无码精品一区二区三区| 亚洲欧美日韩中文v在线| 久久久久久国产福利网站| 午夜精品一区二区三区视频免费看 | 疯狂做受xxxx高潮欧美日本| 风流少妇又紧又爽又丰满| 妺妺窝人体色www在线直播| 最新日韩精品视频免费在线观看| 99久久婷婷国产精品综合网站| 阴唇两边有点白是怎么回事 | 中文无码成人免费视频在线观看| 一本久久a久久精品vr综合| 人人爽人人爱| 午夜家庭影院| 国产男女猛烈无遮挡免费视频网址| 日韩精品久久伊人中文字幕| 全亚洲高清视频在线观看| 2019nv天堂香蕉在线观看| 97人妻精品一区二区三区| 欧美日韩一卡2卡三卡4卡 乱码欧美孕交 | 亚洲va欧美va国产综合| 国产成人综合久久久久久| 久久er这里都是精品23| 日本高清一区二区三区在线| 99精品国产综合久久麻豆| 国产精品无码aⅴ嫩草| 亚洲中文无码久久精品1| 无码一区二区三区在| 亚洲一区二区三区ay| 免费a级毛片无码a∨蜜芽试看| av片在线观看免费| 3亚洲日韩在线精品区|