亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于語義上下文感知的文本數(shù)據(jù)增強(qiáng)方法研究

2024-09-22 00:00:00張軍況澤李鈺彬

現(xiàn)代電子技術(shù) 2024年17期

摘" 要：在文本分類任務(wù)中，數(shù)據(jù)的質(zhì)量和數(shù)量對分類模型的性能有著重要影響，而在現(xiàn)實場景中獲取大規(guī)模標(biāo)記數(shù)據(jù)往往是昂貴和困難的。數(shù)據(jù)增強(qiáng)作為一種解決數(shù)據(jù)匱乏問題的低成本方法，已在各種深度學(xué)習(xí)和機(jī)器學(xué)習(xí)任務(wù)中取得了顯著效果。由于文本語言具有離散性，在語義保留的條件下進(jìn)行數(shù)據(jù)增強(qiáng)具有一定困難。因此，提出基于語義上下文感知的數(shù)據(jù)增強(qiáng)方法，采用由WordNet 3.0中的詞義定義（Gloss）和預(yù)訓(xùn)練模型BERT進(jìn)行整合的Gloss選擇模型，進(jìn)一步識別上下文中目標(biāo)詞（尤其是多義詞）的實際詞義；然后根據(jù)下一個句子預(yù)測策略，將目標(biāo)詞的實際詞義與被遮蓋目標(biāo)詞的句子結(jié)合為一個句子對，使用掩碼語言模型對句子對進(jìn)行預(yù)測采樣；最后計算語義文本相似度，并在三個基準(zhǔn)分類數(shù)據(jù)集上對文中方法進(jìn)行驗證。實驗結(jié)果表明，提出的方法在語義保留條件下，與選取的基線數(shù)據(jù)增強(qiáng)方法相比，在三個數(shù)據(jù)集的平均準(zhǔn)確率指標(biāo)上都有所提升，證明了文中方法的有效性。

關(guān)鍵詞：人工智能；自然語言處理；文本分類；數(shù)據(jù)增強(qiáng)； Gloss；低資源

中圖分類號： TN919?34； TP391" " " " " " " " " " "文獻(xiàn)標(biāo)識碼： A" " " " " " " " " " 文章編號： 1004?373X（2024）17?0159?07

Text data augmentation method based on semantic context awareness

ZHANG Jun， KUANG Ze， LI Yubin

（School of Information Engineering， East China University of Technology， Nanchang 330013， China）

Abstract： In text classification tasks， the quality and quantity of data have a significant impact on the performance of classification models. Usually， it is costly and difficult to obtain large?scaled labeled data in real scenarios. Data augmentation （DA）， as a low?cost method to cope with the data desert， has achieved significant results in various deep learning and machine learning tasks. Due to the discrete nature of text language， it is difficult to perform DA in case of semantic preservation. Therefore， a DA method based on semantic context awareness is proposed. The Gloss selection model integrated by the word sense definition （Gloss） in WordNet 3.0 and the pre?training model BERT is employed， so as to identify the actual word senses of the target words （especially polysemous words） in the context. According to the next sentence prediction strategy， the actual word senses of the target words and the sentences of the masked target words are combined into a sentence pair， which are subjected to prediction sampling with a masked language model （MLM）. The semantic text similarity is calculated. The proposed method is validated on three benchmark categorization datasets. The experimental results show that the average accuracy of the proposed method on the three datasets is improved to some extent in case of semantic preservation in comparison with the selected baseline data enhancement methods， which proves the effectiveness of the proposed method.

Keywords： artificial intelligence; natural language processing; text classification; data augmentation; Gloss; low resource

0" 引" 言

數(shù)據(jù)增強(qiáng)（Data Augmentation， DA）是一種廣泛使用的技術(shù)。尤其在低資源條件下，數(shù)據(jù)增強(qiáng)增加了訓(xùn)練數(shù)據(jù)的規(guī)模，這樣不僅可以防止模型過擬合，還能夠提高深度神經(jīng)網(wǎng)絡(luò)的魯棒性。最初，數(shù)據(jù)增強(qiáng)應(yīng)用于計算機(jī)視覺領(lǐng)域，并取得顯著成就。隨著該領(lǐng)域的技術(shù)進(jìn)步，數(shù)據(jù)增強(qiáng)的應(yīng)用范圍逐漸擴(kuò)展到其他領(lǐng)域，包括自然語言處理（Natural Language Processing， NLP）、語音識別、自動駕駛等。

在自然語言處理領(lǐng)域，研究人員提出了多種數(shù)據(jù)增強(qiáng)的方法。如文獻(xiàn)[1]提出的簡單數(shù)據(jù)增強(qiáng)方法（Easy Data Augmentation， EDA）對原句進(jìn)行隨機(jī)替換、交換、插入和刪除操作實現(xiàn)增強(qiáng)數(shù)據(jù)的多樣性。為了避免引入過多噪聲，文獻(xiàn)[2]提出了一種更簡單的數(shù)據(jù)增強(qiáng)方法（An Easier Data Augmentation， AEDA），將隨機(jī)插入token改為隨機(jī)插入標(biāo)點符號，在一定程度上緩解了噪聲引起的語義偏差問題。然而，隨機(jī)插入標(biāo)點符號是不確定性的，錯誤的斷句可能會改變原句所表達(dá)的意思，語義保留無法得到有效控制。

在處理復(fù)雜語義時，保持上下文語義一致是數(shù)據(jù)增強(qiáng)最基本的要求，數(shù)據(jù)生成的語義一致性對目標(biāo)任務(wù)至關(guān)重要[3]。針對這個問題，文獻(xiàn)[4]提出了上下文增強(qiáng)的方法，通過長短期記憶（Long Short?Term Memory， LSTM）[5]網(wǎng)絡(luò)語言模型預(yù)測替換單詞的概率分布，并根據(jù)概率分布對替換詞進(jìn)行采樣。由于技術(shù)的不斷發(fā)展，保持上下文語義一致的數(shù)據(jù)增強(qiáng)方法大多使用基于Transformer的預(yù)訓(xùn)練模型（Bidirectional Encoder Representations from Transformer， BERT）[6]。然而，在預(yù)訓(xùn)練過程中，某些token在類似上下文中出現(xiàn)的頻率高于其他token，這將導(dǎo)致模型對這些token產(chǎn)生偏好，易背離原始標(biāo)簽分類。對此，文獻(xiàn)[7]提出了CBERT模型，通過訓(xùn)練標(biāo)簽嵌入約束掩碼語言模型（Masked Language Model， MLM），以更有效地預(yù)測標(biāo)簽兼容的token。然而，CBERT的調(diào)整策略是專為BERT架構(gòu)設(shè)計的，特別是其對片段嵌入的重復(fù)使用，使其不易直接應(yīng)用于其他預(yù)訓(xùn)練語言模型。

一般來說，語義一致性和標(biāo)簽一致性的目標(biāo)是共存的，但是預(yù)訓(xùn)練模型所預(yù)測的結(jié)果可能導(dǎo)致語義發(fā)生變化。因此，生成數(shù)據(jù)時需同時考慮標(biāo)簽一致性與語義一致性。本文提出了基于語義上下文感知的數(shù)據(jù)增強(qiáng)方法（Semantic?Context?Aware， SCA），在文本數(shù)據(jù)增強(qiáng)領(lǐng)域引入Gloss進(jìn)行數(shù)據(jù)增強(qiáng)。Gloss的作用在于提供詞義的直觀理解或描述，能夠準(zhǔn)確把握一個詞或短語的含義。在上下文增強(qiáng)時，與傳統(tǒng)的MLM預(yù)測不同，SCA利用目標(biāo)詞在上下文所表示的Gloss和被遮蓋目標(biāo)詞的句子組成一個句子對，再通過MLM預(yù)測與目標(biāo)詞詞義相近的單詞。這樣可以保證替換單詞在上下文的語義一致性，并且該方法不需要引入標(biāo)簽嵌入，就能夠很好地控制生成樣本不偏離原本的標(biāo)簽。

1" 語義上下文感知數(shù)據(jù)增強(qiáng)方法

為了確保文本增強(qiáng)過程中生成的替代詞在語義上與原詞接近并適應(yīng)其語境，本文提出了一個基于語義上下文感知的數(shù)據(jù)增強(qiáng)方法，如圖1所示。

該方法在句子中選擇合適的目標(biāo)詞，首先針對目標(biāo)詞采用Gloss選擇模型[8]選擇符合上下文的詞義定義，然后結(jié)合MLM預(yù)測候選替代詞的概率分布，并通過概率分布對候選替換詞進(jìn)行采樣，最后利用語義文本相似度過濾不適合的替代詞。

1.1" 目標(biāo)詞選擇

給定樣本[S={w1，w2，…，wn}]，[S]表示文本序列，[wi]表示文本中第[i{1≤i≤n}]個單詞。由于語言的多樣性和復(fù)雜性，許多單詞在不同的情境下有不同的含義。在選擇目標(biāo)詞之前，配合使用停用詞表，遍歷樣本[S]中的所有單詞，保留詞性為名詞、動詞、形容詞和副詞的單詞，并去掉其他詞性的單詞。隨后檢查樣本[S]中的[wi]是否含有WordNet 3.0[9]中所提供該單詞的Glosses信息（如表1所示），如果樣本中所有單詞均不含有Glosses信息，則不采取任何操作；相反，如果樣本中存在多個帶有Glosses信息的單詞，將采用隨機(jī)選擇的方式來確定目標(biāo)詞[Wtarget]。

1.2" Gloss選擇

為了精確地揭示[Wtarget]在上下文的含義，本文采用了一種基于Context?Gloss Pair訓(xùn)練的模型，即文獻(xiàn)[8]提出的一種基于BERT預(yù)訓(xùn)練的Gloss選擇模型，它在WSD（Word Sense Disambiguation）任務(wù)上展現(xiàn)出了卓越的表現(xiàn)。該模型將SemCor語料庫中的注釋句子和 WordNet 3.0 中的Gloss結(jié)合起來，構(gòu)建了正向和負(fù)向上下文詞匯對。正向詞匯對包含一個代表目標(biāo)詞正確意義的詞匯，而反向詞匯對則包含一個否定的候選詞匯。通過在[Wtarget]前后標(biāo)注兩個“[TGT]”特殊符號，將具有相同上下文和目標(biāo)詞的上下文?詞匯對組合為一個訓(xùn)練實例，計算對應(yīng)的相關(guān)性得分，并通過Softmax層將同一組的相關(guān)性得分歸一化。此處使用交叉熵作為損失函數(shù)：

[L=-1Ni=1Nj=1mil（si， j）log（pij）] （1）

式中：[N]是批量大小；[mi]是第[i]個訓(xùn)練實例的候選詞匯的數(shù)量；[l（si， j）]是索引[j]與正向上下文詞匯對[si]的索引相同時的二進(jìn)制指示符；[pij]是第[i]個訓(xùn)練實例的第[j]個候選詞義的概率。[pij]的計算公式如下：

[pij=expScore（contexti， Glossij）k=1niexpScore（contexti， Glossik）] （2）

式中[Score（contexti， Glossij）]表示上下文?詞匯對相關(guān)性得分。

針對每個[Wtarget]，Gloss選擇模型以句子的上下文信息為依托，計算出Glosses與上下文的相關(guān)概率，如表2所示。在這一過程中，得分最高的Gloss被視為與[Wtarget]在當(dāng)前上下文中的含義最為吻合的解釋。

1.3" 目標(biāo)詞的候選替換詞預(yù)測

為了預(yù)測出最合適的替換詞，傳統(tǒng)語言模型是根據(jù)歷史信息預(yù)測序列中下一個單詞，但是傳統(tǒng)語言模型難以理解上下文中的復(fù)雜關(guān)系。BERT是一種用于預(yù)訓(xùn)練深度Transformer編碼器的自監(jiān)督方法，利用Transformer的雙向注意力機(jī)制學(xué)習(xí)單詞的上下文表示，這使得它可以同時考慮每個單詞左右兩側(cè)的上下文信息，從而捕捉更豐富的語言特征。受文獻(xiàn)[10]啟發(fā)，本文采用了一種NSP策略（如圖2所示）作為MLM預(yù)測輸入。由于得到目標(biāo)詞的Gloss是文本序列，因此將它作為輸入的第一個句子，被遮蓋目標(biāo)詞的句子作為輸入的第二個句子，將兩個句子結(jié)合成為一個句子對，最終通過MLM預(yù)測候選替換詞的概率分布，并對候選替換詞進(jìn)行采樣。

在數(shù)據(jù)預(yù)處理階段，由于原有基于WordPiece的分詞方式會把一個完整的詞切分成若干個子詞，因此這些被分開的子詞在訓(xùn)練過程中會被隨機(jī)遮蓋，但是這不利于完整單詞的預(yù)測。因此，本文使用了BERT的變體模型BERT?Large?Uncased（Whole Word Masking）[6]。該模型中，如果一個完整詞的部分WordPiece子詞被遮蓋，則同屬該詞的其他部分也會被遮蓋，可有效提升BERT遮蓋部分WordPiece分詞的性能。

1.4" 語義文本相似度計算（STS）

采樣后的候選詞[C={c1，c2，…，cn}]，[C]表示候選詞替換詞集合，[n]表示候選替換詞的數(shù)量（[n]=10），這里[n]的取值是根據(jù)大量實驗決定的。為了衡量候選詞[C]和[Wtarget]在同一上下文中的語義相似度，本文采用文獻(xiàn)[11]提出的Sentence?BERT（簡稱SBERT）框架，結(jié)合預(yù)訓(xùn)練模型all?MiniLM?L6?v2生成句子嵌入，然后計算句子嵌入之間的余弦相似度，以此來衡量文本之間的語義相似度。all?MiniLM?L6?v2是一個輕量級的模型，它提供了一個小而快的解決方案，而SBERT則提供了一個針對句子嵌入優(yōu)化的結(jié)構(gòu)。結(jié)合兩者可以在保持快速響應(yīng)的同時，提升語義理解的精度。

對于每一對句子，都是由原始句子SentenceA與帶有候選詞[C]的句子SentenceB組成。SentenceA和SentenceB的句子嵌入[wA]和[wB]的具體實現(xiàn)如式（3）和式（4）所示：

[wA=mean_pooling（model（SentenceA））] （3）

[wB=mean_pooling（model（SentenceB））] （4）

式中：model表示使用的all?MiniLM?L6?v2模型；mean_pooling表示平均池化操作。

得到句子對的嵌入后，利用式（5）進(jìn)行余弦相似度計算，余弦相似度是常用的計算語義文本相似度的方法。向量余弦相似度為1，表示兩個句子在語義上相似；為-1則表示兩個句子在語義上不相似。

[cosin_sim（wA，wB）=wA?wBwA×wB=i=1n（wA）i×（wB）ii=1n（wA）2i×i=1n（wB）2i] （5）

通過對比原始句子與候選句子之間的余弦相似度，確定與原始句子最為相似的候選句子，最終將與原始句子最相似的候選句子作為最終的增強(qiáng)樣本。

2" 實驗與分析

為了驗證SCA數(shù)據(jù)增強(qiáng)方法的有效性，本文設(shè)計了多組對比實驗，并對相關(guān)實驗結(jié)果進(jìn)行了分析。

2.1" 數(shù)據(jù)集

本文使用了如下三個文本分類數(shù)據(jù)集。

1） SST?2（斯坦福情感樹庫）[12]。它是一個用于電影評論情感分類的數(shù)據(jù)集，包含兩個標(biāo)簽（正面情感和負(fù)面情感）。

2） TREC[13]是一個細(xì)粒度問題分類數(shù)據(jù)集。它包含六種問題類型（Description， Entity， Human， Abbreviation， Location， Numeric）。

3） SNIPS（自然語言理解基準(zhǔn)）[14]數(shù)據(jù)集是一個包含16 000 多個眾包查詢的數(shù)據(jù)集，分布在7個不同復(fù)雜度的用戶意圖中（SearchCreativeWork， GetWeather， BookRestaurant， PlayMusic， AddToPlaylist， RateBook， SearchScreeningEvent），訓(xùn)練集包含13 084個話語，驗證集和測試集各包含700個話語，每個意圖有100個查詢。

2.2" 實驗設(shè)置

本文在訓(xùn)練集和驗證集的每次實驗，對每類隨機(jī)抽取10個示例以模擬低資源條件下的文本分類。為了評估數(shù)據(jù)增強(qiáng)方法，將生成的示例添加到每個任務(wù)在低資源條件下的訓(xùn)練數(shù)據(jù)中，并在完整測試集上評估其性能。為了避免隨機(jī)性帶來的誤差，本文在不同基線方法下的對比實驗中使用相同的數(shù)據(jù)集，并且所有實驗均重復(fù)15次。通過多次實驗，可以減少這些誤差的影響，并通過統(tǒng)計分析獲得更準(zhǔn)確的實驗數(shù)據(jù)。實驗結(jié)果按照完整測試集上的平均（STD）準(zhǔn)確率為準(zhǔn)。

在微調(diào)MLM階段，設(shè)置批次大小為16，學(xué)習(xí)率為4×10-5，迭代次數(shù)為10，樣本最大長度為128。

在微調(diào)分類器階段，由于BERT已經(jīng)在大量數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練，并且在分類任務(wù)上取得了先進(jìn)的性能，因此，本文選擇BERT模型中的“BERT?Base?Uncased”作為分類器，采用自適應(yīng)矩估計（Adaptive Moment Estimation， Adam）[15]算法進(jìn)行優(yōu)化。設(shè)置批次大小為16，學(xué)習(xí)率為4×10-5，樣本最大長度為64，對訓(xùn)練數(shù)據(jù)集進(jìn)行30次迭代訓(xùn)練，并在驗證集上選擇最好的模型進(jìn)行評估。

本文實驗環(huán)境選用NVIDIA RTX A5000 顯卡（顯存24 GB）作為算力加速部件，操作系統(tǒng)為Ubuntu 18.04.5 LTS，編程語言為Python 3.8.10。

2.3" 對比方法

EDA[1]是一種被廣泛使用的文本數(shù)據(jù)增強(qiáng)方法，包含四個簡單的操作：同義詞替換、隨機(jī)插入、隨機(jī)交換和隨機(jī)刪除。

AEDA[2]是一種更簡單的數(shù)據(jù)增強(qiáng)方法，在句子中隨機(jī)插入標(biāo)點符號實現(xiàn)數(shù)據(jù)增強(qiáng)。

反向翻譯[16]使用了文獻(xiàn)[17]預(yù)先訓(xùn)練好的EN?DE模型將初始樣本翻譯為另一種語言，再使用DE?EN模型將樣本翻譯為原來的語言。

CBERT[7]通過上下文和句子標(biāo)簽來預(yù)測一個標(biāo)簽兼容的單詞，在不破壞標(biāo)簽兼容性的情況下實現(xiàn)增強(qiáng)數(shù)據(jù)。

GPT2context[18]將標(biāo)簽和句子拼接成一個訓(xùn)練數(shù)據(jù)集：[y1]SEP[x1]EOS[y2]…[yn]SEP[xn]EOS。SEP表示類標(biāo)簽和句子之間的分隔標(biāo)記，EOS表示句子的結(jié)尾。通過添加[yi]SEP[w1…wk]作為生成數(shù)據(jù)的提示，持續(xù)生成數(shù)據(jù)，直到生成EOS標(biāo)記。其中[w1，w2，…，wk]是序列[xi]的前[k]個字。

BERTexpand[18]通過在給定類別的所有示例中預(yù)置類別標(biāo)簽來限制BERT。它是將類標(biāo)簽加入到模型的詞匯表中。

BERTprepend[18]與BERTexpand類似，但是它不將類標(biāo)簽加入到模型詞匯表中。

2.4" 實驗結(jié)果與分析

如表3所示，本文在低資源環(huán)境下，對比了不同數(shù)據(jù)增強(qiáng)方法在不同數(shù)據(jù)集中的分類準(zhǔn)確率。

為了更加直觀地呈現(xiàn)和比較各種方法的性能，本文根據(jù)表3的數(shù)據(jù)繪制了一個點線圖（見圖3），該圖展示了不同數(shù)據(jù)增強(qiáng)方法在三個數(shù)據(jù)集上相對于基線BERT模型（未使用數(shù)據(jù)增強(qiáng)，記為No DA）的準(zhǔn)確率差異。這種方式能夠清晰地觀察各方法在不同數(shù)據(jù)集上的表現(xiàn)差異。

從圖3中可以觀察到，各個方法在不同數(shù)據(jù)集上表現(xiàn)出了不同程度的效果。在TREC數(shù)據(jù)集上，本文的方法展現(xiàn)出了最顯著的性能提升。相比于基線BERT模型，準(zhǔn)確率提高了1.57%。盡管在SST?2和SNIPS這兩個數(shù)據(jù)集上，本文方法也實現(xiàn)了準(zhǔn)確率的提升，但提升幅度并非最大，這可能是因為數(shù)據(jù)結(jié)構(gòu)的差異。通過觀察，SNIPS中大部分句子不能作為一個獨立的句子，因為它沒有明確的主謂賓結(jié)構(gòu)，這使得句子的意思不完整，Gloss選擇模型很難判斷目標(biāo)詞的真實含義。SST?2包含較少的不完整句子，達(dá)到最次結(jié)果的原因可能和SNIPS類似。 TREC是一個問題類型的數(shù)據(jù)集，具有完整的句子結(jié)構(gòu)，并且達(dá)到了最優(yōu)結(jié)果。以上分析說明，句子完整結(jié)構(gòu)可能會影響模型的性能。然而本文方法的特點就是引入Gloss獲取目標(biāo)詞在上下文的真實語義，這極大地依賴句子結(jié)構(gòu)的完整性。

本文對比了不同增強(qiáng)方法在三個數(shù)據(jù)集的整體表現(xiàn)，并根據(jù)表3繪制了不同方法在三個數(shù)據(jù)集上的平均準(zhǔn)確率散點圖，如圖4所示?？梢园l(fā)現(xiàn)，在本研究中，所提出的數(shù)據(jù)增強(qiáng)方法相比于各種現(xiàn)有技術(shù)，在平均準(zhǔn)確率方面取得了顯著的提升。具體來看，與未使用數(shù)據(jù)增強(qiáng)的BERT（No DA）模型相比，本文方法將準(zhǔn)確率提高了1.704 1%。進(jìn)一步比較EDA及AEDA這兩種簡單但普遍應(yīng)用的增強(qiáng)策略，本文方法分別取得了0.514 9%和0.512 1%的準(zhǔn)確率提升。當(dāng)與BackTrans和CBERT增強(qiáng)技術(shù)對比時，本文方法同樣表現(xiàn)優(yōu)異，平均準(zhǔn)確率分別提升了1.055 2%和0.790 9%。與GPT2context、BERTexpand和BERTprepend相比，本文方法的平均準(zhǔn)確率分別提升3.144 5%、1.434 8%和1.336 2%。上述實驗結(jié)果表明，本文方法在提升模型準(zhǔn)確率方面表現(xiàn)良好。

2.5" 消融實驗

本文研究了STS對模型性能的影響，分別在3個數(shù)據(jù)集上進(jìn)行了消融實驗，實驗結(jié)果如表4所示。

由表4可以發(fā)現(xiàn)，在刪除STS后，本文模型在三個數(shù)據(jù)集上的準(zhǔn)確率均有下降。這表明STS對候選替換詞進(jìn)行篩選時，有效選擇了符合語義上下文的替換詞，這對分類模型性能的提升有著至關(guān)重要的影響。

3" 結(jié)" 語

在低資源條件下，為了提高模型的分類性能，本文提出了基于語義上下文感知的數(shù)據(jù)增強(qiáng)方法。該方法通過引入目標(biāo)詞的Gloss信息作為替換詞的基礎(chǔ)詞義，再結(jié)合被遮蓋目標(biāo)詞的句子形成一個能夠被BERT模型識別的句子對。這樣模型能夠根據(jù)Gloss信息和原句的上下文來預(yù)測單詞，保證了上下文語義一致性和數(shù)據(jù)的多樣性。結(jié)果表明，本文提出的方法在整體上是有效的。

在未來的工作中，將針對特定的任務(wù)或者模型進(jìn)一步優(yōu)化，提高模型在各個數(shù)據(jù)集上的分類性能。

注：本文通訊作者為況澤。

參考文獻(xiàn)

[1] WEI J W， ZOU K. EDA： Easy data augmentation techniques for boosting performance on text classification tasks [C]// Procee?dings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. New York： ACM， 2019： 6381?6387.

[2] KARIMI A， ROSSI L， PRATI A. AEDA： An easier data augmentation technique for text classification [C]// Findings of the Association for Computational Linguistics. [S.l.]： ACL， 2021： 2748?2754.

[3] ASH J T， ZHANG C C， KRISHNAMURTHY A， et al. Deep batch active learning by diverse， uncertain gradient lower bounds [EB/OL]. [2020?05?07]. https：//openreview.net/forum？id=ryghZJBKPS.

[4] KOBAYASHI S. Contextual augmentation： Data augmentation by words with paradigmatic relations [C]// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies. [S.l.]： ACL， 2018： 452?457.

[5] HOCHREITER S， SCHMIDHUBER J. Long short?term memory [J]. Neural computation， 1997， 9（8）： 1735?1780.

[6] DEVLIN J， CHANG M W， LEE K， et al. BERT： Pre?training of deep bidirectional transformers for language understanding [EB/OL]. [2018?10?30]. http：//arxiv.org/abs/1810.04805.

[7] WU X， Lü S W， ZANG L J， et al. Conditional BERT contextual augmentation [C]// Proceedings of 19th International Conference on Computational Science. Heidelberg： Springer， 2019： 84?95.

[8] YAP B P， KOH A， CHNG E S. Adapting BERT for word sense disambiguation with gloss selection objective and example sentences [C]// Findings of the Association for Computational Linguistics. [S.l.]： ACL， 2020： 41?46.

[9] MILLER G A. WordNet： A lexical database for English [J]. Communications of the ACM， 1995， 38（11）： 39?41.

[10] QIANG J P， LI Y， ZHU Y， et al. LSBert： A simple framework for lexical simplification [EB/OL]. [2021?10?28]. https：//arxiv.org/abs/2006.14939.

[11] REIMERS N， GUREVYCH I. Sentence?BERT： Sentence embeddings using Siamese BERT?networks [C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language. [S.l.]： ACL， 2019： 3980?3990.

[12] PANG B， LEE L. Seeing stars： Exploiting class relationships for sentiment categorization with respect to rating scales [C]// Proceedings of the Conference on 43rd Annual Meeting of the Association for Computational Linguistics. [S.l.]： ACL， 2005： 115?124.

[13] LI X， ROTH D. Learning question classifiers [EB/OL]. [2021?08?06]. https：//aclanthology.org/C02?1150/.

[14] COUCKE A， SAADE A， BALL A， et al. Snips voice platform： An embedded spoken language understanding system for private?by?design voice interfaces [EB/OL]. [2018?08?13]. http：//arxiv.org/abs/1805.10190.

[15] KINGMA D P， BA J. Adam： A method for stochastic optimization [EB/OL]. [2019?07?25]. http：//arxiv.org/abs/1412.6980.

[16] SHLEIFER S. Low resource text classification with ULMFit and backtranslation [EB/OL]. [2019?04?01]. http：//arxiv.org/abs/1903.09244.

[17] NG N， YEE K， BAEVSKI A， et al. Facebook FAIR′s WMT19 news translation task submission [C]// Proceedings of the Fourth Conference on Machine Translation. [S.l.]： ACL， 2019： 314?319.

[18] KUMAR V， CHOUDHARY A， CHO E. Data augmentation using pre?trained transformer models [EB/OL]. [2020?05?10]. https：//arxiv.org/abs/2003.02245.

[19] PELLICER L F A O， FERREIRA T M， COSTA A H R. Data augmentation techniques in natural language processing [J]. Applied soft computing， 2023， 132： 109803.