亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        增強(qiáng)提示學(xué)習(xí)的少樣本文本分類方法

        2024-01-30 03:07:22李睿凡魏志宇范元濤葉書勤張光衛(wèi)
        關(guān)鍵詞:優(yōu)化方法模型

        李睿凡 魏志宇 范元濤 葉書勤 張光衛(wèi)

        北京大學(xué)學(xué)報(bào)(自然科學(xué)版) 第60卷 第1期 2024年1月

        Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 60, No. 1 (Jan. 2024)

        10.13209/j.0479-8023.2023.071

        國家自然科學(xué)基金(62076032)資助

        2023–05–18;

        2023–08–30

        增強(qiáng)提示學(xué)習(xí)的少樣本文本分類方法

        李睿凡1,2,3,?魏志宇1范元濤1葉書勤1張光衛(wèi)2,4

        1.北京郵電大學(xué)人工智能學(xué)院, 北京 100876; 2.教育部信息網(wǎng)絡(luò)工程研究中心, 北京 100876; 3.交互技術(shù)與體驗(yàn)系統(tǒng)文化和旅游部重點(diǎn)實(shí)驗(yàn)室, 北京 100876; 4.北京郵電大學(xué)計(jì)算機(jī)學(xué)院, 北京 100876; ?E-mail: rfli@bupt.edu.cn

        針對(duì)少樣本文本分類任務(wù), 提出提示學(xué)習(xí)增強(qiáng)的分類算法(EPL4FTC)。該算法將文本分類任務(wù)轉(zhuǎn)換成基于自然語言推理的提示學(xué)習(xí)形式, 在利用預(yù)訓(xùn)練語言模型先驗(yàn)知識(shí)的基礎(chǔ)上實(shí)現(xiàn)隱式數(shù)據(jù)增強(qiáng), 并通過兩種粒度的損失進(jìn)行優(yōu)化。為捕獲下游任務(wù)中含有的類別信息, 采用三元組損失聯(lián)合優(yōu)化方法, 并引入掩碼語言模型任務(wù)作為正則項(xiàng), 提升模型的泛化能力。在公開的 4 個(gè)中文文本和 3 個(gè)英文文本分類數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)評(píng)估, 結(jié)果表明 EPL4FTC 方法的準(zhǔn)確度明顯優(yōu)于所對(duì)比的基線方法。

        預(yù)訓(xùn)練語言模型; 少樣本學(xué)習(xí); 文本分類; 提示學(xué)習(xí); 三元組損失

        文本分類[1]是自然語言處理領(lǐng)域的熱點(diǎn)研究?jī)?nèi)容之一, 已經(jīng)在多個(gè)場(chǎng)景得到充分的發(fā)展。例如, 在情感分析、新聞推薦和用戶畫像等場(chǎng)景中, 通常可以獲取海量的未標(biāo)注數(shù)據(jù), 因而需要大量的人工標(biāo)注工作。但是, 在諸如醫(yī)療和安全等一些特殊的工業(yè)應(yīng)用場(chǎng)景中, 通常較難獲取大量數(shù)據(jù)來滿足模型的訓(xùn)練, 使得基于數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)方法在少量數(shù)據(jù)情況下較難取得令人滿意的效果。為了使機(jī)器具有僅通過幾個(gè)簡(jiǎn)單樣本就能實(shí)現(xiàn)快速學(xué)習(xí)新事物的能力, Wang 等[2]提出少樣本學(xué)習(xí)的概念。少樣本學(xué)習(xí)的核心目標(biāo)是面對(duì)新的領(lǐng)域任務(wù), 利用先驗(yàn)知識(shí), 僅通過有限的訓(xùn)練樣本, 快速且準(zhǔn)確地完成對(duì)新領(lǐng)域任務(wù)的學(xué)習(xí)。

        近年來, 隨著預(yù)訓(xùn)練語言模型的發(fā)展, 尤其是以 BERT[3]為代表的通用預(yù)訓(xùn)練模型的提出, 使得基于預(yù)訓(xùn)練和微調(diào)的兩階段訓(xùn)練范式逐漸成為新的趨勢(shì), 并在大多數(shù)自然語言處理任務(wù)中取得優(yōu)異的成績(jī)。但是, 在微調(diào)階段, 模型的性能通常取決于任務(wù)的類型和有標(biāo)注訓(xùn)練數(shù)據(jù)的規(guī)模。這就使得當(dāng)模型面對(duì)僅含有少量訓(xùn)練樣本的下游任務(wù)時(shí), 往往性能表現(xiàn)不佳。針對(duì)預(yù)訓(xùn)練模型下的少樣本學(xué)習(xí)問題, 基于提示學(xué)習(xí)的方法提供了一種新穎有效的解決思路。基于提示學(xué)習(xí)的方法通過將下游任務(wù)的形式調(diào)整為與預(yù)訓(xùn)練任務(wù)形式一致, 充分發(fā)揮預(yù)訓(xùn)練模型中語言模型任務(wù)的優(yōu)勢(shì), 同時(shí)通過減小上下游任務(wù)訓(xùn)練方式不一致帶來的差異, 達(dá)到少樣本學(xué)習(xí)的目的。雖然基于提示學(xué)習(xí)的方法已取得不錯(cuò)的效果, 但仍然面臨以下兩方面的挑戰(zhàn): 1)在少樣本學(xué)習(xí)的場(chǎng)景中, 容易出現(xiàn)類別的數(shù)量遠(yuǎn)多于單一類別樣本量的現(xiàn)象, 使得模型在此類任務(wù)中的表現(xiàn)通常較差; 2)基于提示學(xué)習(xí)的方法大多依賴預(yù)訓(xùn)練語言模型中已經(jīng)學(xué)習(xí)到的先驗(yàn)知識(shí), 較少關(guān)注下游任務(wù)的類別表征信息。

        針對(duì)上述問題, 本文提出一種增強(qiáng)提示學(xué)習(xí)的少樣本文本分類算法 EPL4FTC(enhanced prompt learning for few-shot text classification)。該算法首先將下游任務(wù)轉(zhuǎn)換成基于自然語言推理的提示學(xué)習(xí)形式, 通過任務(wù)形式的轉(zhuǎn)換, 在有效地利用預(yù)訓(xùn)練語言模型中已學(xué)習(xí)到的先驗(yàn)知識(shí)的基礎(chǔ)上, 實(shí)現(xiàn)數(shù)據(jù)的隱式增強(qiáng), 并通過兩種粒度的損失進(jìn)行優(yōu)化。此外, 為捕獲下游任務(wù)中豐富的類別表征信息, 該算法通過三元組損失[4]進(jìn)行聯(lián)合優(yōu)化, 同時(shí)引入掩碼語言模型任務(wù)(MLM)作為正則項(xiàng), 預(yù)防過擬合或數(shù)據(jù)災(zāi)難性遺忘帶來的風(fēng)險(xiǎn), 進(jìn)一步提升模型的泛化能力。

        1 相關(guān)工作

        本文提出的方法主要與基于度量學(xué)習(xí)的方法和基于提示學(xué)習(xí)的方法密切相關(guān)。

        1.1 基于度量學(xué)習(xí)的方法

        Koch 等[5]提出由兩個(gè)結(jié)構(gòu)相同且部分共享權(quán)重的網(wǎng)絡(luò)構(gòu)成的孿生網(wǎng)絡(luò)模型, 通過歐式方法計(jì)算輸入樣本對(duì)的匹配程度來判斷它們是否屬于同一類別。Vinyals 等[6]提出一種匹配網(wǎng)絡(luò)模型, 通過記憶網(wǎng)絡(luò)和注意力機(jī)制, 實(shí)現(xiàn)對(duì)以往知識(shí)的記憶存儲(chǔ), 并快速學(xué)習(xí)新樣本的特征。Snell 等[7]提出原型網(wǎng)絡(luò)模型, 將不同類別的平均向量作為類別原型的向量表示, 最后在推理階段, 通過計(jì)算樣本到類別原型向量的距離, 實(shí)現(xiàn)對(duì)類別的預(yù)測(cè)。Sung 等[8]提出關(guān)系網(wǎng)絡(luò)模型, 該方法通過一個(gè)神經(jīng)網(wǎng)絡(luò)關(guān)系模塊, 實(shí)現(xiàn)自動(dòng)學(xué)習(xí)特征間的距離度量關(guān)系表示。Geng等[9]提出歸納網(wǎng)絡(luò)模型, 在關(guān)系網(wǎng)絡(luò)的基礎(chǔ)上, 引入動(dòng)態(tài)路由機(jī)制, 實(shí)現(xiàn)獲取支撐實(shí)例的類別向量表示, 并通過關(guān)系模塊計(jì)算查詢實(shí)例與支撐實(shí)例的關(guān)系得分來進(jìn)行分類。隨后, Geng 等[10]又提出動(dòng)態(tài)記憶歸納網(wǎng)絡(luò), 通過引入二階段訓(xùn)練范式, 在第一階段進(jìn)行有監(jiān)督的訓(xùn)練, 為第二階段的訓(xùn)練提供一個(gè)良好初始化的編碼器和記憶模塊, 同時(shí)利用動(dòng)態(tài)路由機(jī)制, 為少樣本學(xué)習(xí)提供更強(qiáng)大的靈活性, 讓模型更好地適應(yīng)訓(xùn)練數(shù)據(jù)。

        基于度量學(xué)習(xí)的方法采用傳統(tǒng)度量或深度度量等方法, 可以實(shí)現(xiàn)對(duì)類別的表征進(jìn)行表示。但是, 在不同的任務(wù)中, 不同的度量方法差異性較大, 這類方法無法適應(yīng)多樣化的實(shí)際問題。此外, 基于度量學(xué)習(xí)的方法過于依賴訓(xùn)練數(shù)據(jù), 當(dāng)數(shù)據(jù)較少時(shí), 不能很好地學(xué)習(xí)到類別的映射關(guān)系。

        1.2 基于提示學(xué)習(xí)的方法

        Schick 等[11–13]提出模式探索訓(xùn)練(pattern exp-loiting training, PET)方法, 用于少樣本學(xué)習(xí)。該方法通過定義并添加人工構(gòu)建的模板, 將文本分類任務(wù)轉(zhuǎn)換為完形填空任務(wù)。在訓(xùn)練過程中, PET 方法將分類標(biāo)簽轉(zhuǎn)換成標(biāo)簽描述形式, 并使用[MASK]進(jìn)行替換, 填入人工定義的模板當(dāng)中。通過語言模型還原[MASK]位置的詞, 最后使用標(biāo)簽映射策略完成文本分類任務(wù)。隨后, Liu 等[14]在 PET 的基礎(chǔ)上提出自適應(yīng) PET 模型, 將模板中需要模型預(yù)測(cè)的詞從有限候選詞變成整個(gè)詞表, 通過擴(kuò)大其搜索空間來增加模型的泛化性能, 并且通過正確標(biāo)簽反向預(yù)測(cè)原文中的字符, 進(jìn)一步提升模型的性能。Gao等[15]提出表現(xiàn)更好的少樣本微調(diào)語言模型(LM-BFF)。該模型首先通過 T5 模型[16]實(shí)現(xiàn)自動(dòng)化的生成最優(yōu)模板, 避免人工搜索模板這一繁雜的過程。接下來, 將提示示例通過上下文的形式添加到原始輸入中, 利用更豐富的文本信息完成語言模型的建模工作。Liu 等[17]提出提示微調(diào)(P-tuning)模型。該模型丟棄提示模板必須是自然語言的假說, 讓語言模型自動(dòng)學(xué)習(xí)適合當(dāng)前任務(wù)形式的最佳提示模板形式。在訓(xùn)練過程中, 使用預(yù)訓(xùn)練模型詞表中未使用的字符去學(xué)習(xí)模板的連續(xù)表示形式, 并且只學(xué)習(xí)更新模板對(duì)應(yīng)的參數(shù), 從而極大地減小模型需要學(xué)習(xí)的參數(shù)量。

        最近, Wang 等[18]提出少樣本學(xué)習(xí)的蘊(yùn)含 EFL模型。與將文本分類任務(wù)轉(zhuǎn)換為完形填空任務(wù)形式不同的是, EFL 是將文本分類任務(wù)轉(zhuǎn)換為文本蘊(yùn)含任務(wù)形式。在訓(xùn)練過程中, 對(duì)于每一個(gè)原始輸入, EFL 根據(jù)正確的標(biāo)簽描述生成新的正例, 并根據(jù)其余候選標(biāo)簽隨機(jī)生成若干新的負(fù)例。通過上述數(shù)據(jù)構(gòu)造方式, 實(shí)現(xiàn)原始輸入與正確的標(biāo)簽描述模板構(gòu)成蘊(yùn)含關(guān)系, 與其余候選標(biāo)簽則構(gòu)成非蘊(yùn)含關(guān)系。Jiang 等[19]提出兩種不同的模板集成方法: 一種是概率平均的集成方法, 通過訓(xùn)練集選擇若干性能最好的提示模板, 然后在推理階段, 將候選的若干提示模板的概率平均值作為最終預(yù)測(cè)結(jié)果; 另一種是優(yōu)化提示權(quán)重的集成方法, 對(duì)于每一種關(guān)系引入可學(xué)習(xí)權(quán)重, 最終輸出概率為前若干提示輸出概率的加權(quán)和。Hu 等[20]提出一種知識(shí)型的提示學(xué)習(xí)調(diào)優(yōu)方法, 使用外部知識(shí)庫擴(kuò)展標(biāo)簽詞空間, 提高標(biāo)簽詞的覆蓋率, 在零樣本和少樣本文本分類任務(wù)中證明了有知識(shí)調(diào)優(yōu)的有效性。Min 等[21]提出一種用于語言模型提示的噪聲通道方法, 證明使用計(jì)算給定標(biāo)簽輸入通道的噪聲通道的方法顯著優(yōu)于直接計(jì)算標(biāo)簽概率的方法。Zhang 等[22]提出同時(shí)使用基學(xué)習(xí)器和元學(xué)習(xí)器的提示學(xué)習(xí)方法, 證明度量學(xué)習(xí)可以幫助提示學(xué)習(xí)的方法更快地收斂。基于提示學(xué)習(xí)的方法是在大規(guī)模無監(jiān)督語料訓(xùn)練的預(yù)訓(xùn)練語言模型基礎(chǔ)上發(fā)展起來的, 旨在減小預(yù)訓(xùn)練任務(wù)和下游任務(wù)形式之間的巨大差異, 使下游任務(wù)形式盡可能與預(yù)訓(xùn)練任務(wù)形式保持一致。

        2 EPL4FTC算法

        本文提出的 EPL4FTC 模型由基于自然語言推理的提示學(xué)習(xí)模塊和度量?jī)?yōu)化模塊兩部分組成, 兩個(gè)模塊共享編碼層的參數(shù)。其中, 基于自然語言推理的提示學(xué)習(xí)模塊通過掩碼語言模型頭層計(jì)算輸入句子中[MASK]位置處推理詞的概率, 并通過單句級(jí)和句群級(jí)兩種粒度損失方法進(jìn)行模型優(yōu)化。度量?jī)?yōu)化模塊對(duì)訓(xùn)練樣本進(jìn)行隨機(jī)抽樣, 通過共享編碼層編碼后, 使用三元組損失計(jì)算錨點(diǎn)與正負(fù)例之間的損失, 最后對(duì)兩個(gè)模塊聯(lián)合學(xué)習(xí)。

        2.1 基于自然語言推理的提示學(xué)習(xí)模塊

        如圖 1 所示, 基于自然語言推理的提示學(xué)習(xí)模塊負(fù)責(zé)將文本分類任務(wù)轉(zhuǎn)換為基于自然語言推理形式的完型填空任務(wù)。具體做法是, 對(duì)于原始輸入文本, 我們通過模板映射, 將真實(shí)標(biāo)簽轉(zhuǎn)化為自然語言推理形式。其中, 推理詞使用預(yù)訓(xùn)練語言模型中[MASK]字符替代, 通過建模上下文間的關(guān)系, 推理出[MASK]位置上真實(shí)的推理詞。下面給出基于自然語言推理的提示學(xué)習(xí)方法的形式化表達(dá)。

        對(duì)于給定的輸入文本, 對(duì)應(yīng)的真實(shí)標(biāo)簽為, 需要推理判斷的標(biāo)簽描述為。通過函數(shù)prompt, 將輸入轉(zhuǎn)換為基于提示學(xué)習(xí)的新的輸入形式′:

        ′ =prompt(,,), (1)

        其中,表示通過 verbalize 映射, 將真實(shí)標(biāo)簽與需要推理判斷的標(biāo)簽描述的關(guān)系轉(zhuǎn)為邏輯推理詞, 可表示為

        = verbalize(,)。 (2)

        定義模板的一般形式為[′]=“[], [][]”。對(duì)于原始輸入, 將其填充到[]中, 將需要推理判斷的標(biāo)簽描述填充到[]中。接下來, 通過映射函數(shù)verbalize(,), 將輸入的真實(shí)標(biāo)簽描述與當(dāng)前填充需要推理判斷的標(biāo)簽描述轉(zhuǎn)換為當(dāng)前輸入的邏輯推理詞。其中, []將被預(yù)訓(xùn)練語言模型中的[MASK]字符替代, 邏輯推理關(guān)系詞將作為[]的真實(shí)標(biāo)簽參與模型的優(yōu)化。在推理階段, 通過映射函數(shù)prompt, 將輸入和所有的標(biāo)簽描述轉(zhuǎn)化為基于提示學(xué)習(xí)的′的形式。最后, 通過計(jì)算[]處的自然語言推理詞概率, 選取預(yù)測(cè)為蘊(yùn)含關(guān)系最大概率的標(biāo)簽描述對(duì)應(yīng)的真實(shí)標(biāo)簽作為最終預(yù)測(cè)結(jié)果。

        當(dāng)采用自然語言形式的邏輯推理詞時(shí), 使用自然語言中的“是”表示蘊(yùn)含推理關(guān)系, “不是”表示非蘊(yùn)含推理關(guān)系。進(jìn)一步地, 為了讓語言模型學(xué)到更通用的自然語言推理表示, 對(duì)推理詞采用連續(xù)式的提示模板形式。也即, 使用詞表中未使用過的字符“[U1]”代表蘊(yùn)含推理關(guān)系, “[U2]”代表非蘊(yùn)含推理關(guān)系。

        針對(duì)單樣本輸入形式以及通過數(shù)據(jù)增強(qiáng)形式擴(kuò)增負(fù)樣本形成的樣例集合形式, 設(shè)計(jì)兩種粒度的損失函數(shù)來優(yōu)化建模效果。

        1)單句級(jí)損失函數(shù)。如圖 2 所示, 對(duì)于每一個(gè)通過prompt映射函數(shù)構(gòu)成的新的輸入實(shí)例, 需要模型完成建模上下文信息, 預(yù)測(cè)推理出[MASK]位置處的真實(shí)推理詞, 并通過交叉熵進(jìn)行優(yōu)化。在給定輸入的情況下, 定義[MASK]處推理詞的概率分布如下:

        式(3)中, Z 表示候選推理詞集合, s(z|x)=MLM (z|fprompt(x))表示在[MASK]處對(duì)候選推理詞集合的語言模型得分。最后, 通過交叉熵?fù)p失計(jì)算單句級(jí)損失:

        圖2 單句級(jí)的優(yōu)化流程

        Ls= CE((|),)。 (4)

        2)句群級(jí)損失函數(shù)。單句級(jí)損失函數(shù)僅考慮對(duì)實(shí)例進(jìn)行優(yōu)化, 沒有考慮同一組正負(fù)樣本間的關(guān)系, 因此定義句群級(jí)損失函數(shù), 實(shí)現(xiàn)對(duì)一組正負(fù)樣本間的關(guān)系進(jìn)行優(yōu)化, 如圖 3 所示。具體地, 在對(duì)輸入的實(shí)例進(jìn)行數(shù)據(jù)構(gòu)造時(shí), 通過輸入實(shí)例與所對(duì)應(yīng)的類別生成一個(gè)正例, 將輸入實(shí)例與其他類別進(jìn)行數(shù)據(jù)構(gòu)造, 生成?1 個(gè)負(fù)例, 最終為每一條輸入樣本獲得個(gè)實(shí)例樣本。最后, 采用交叉熵?fù)p失對(duì)句群級(jí)進(jìn)行優(yōu)化:

        Lq= CE(((|)),entail), (5)

        其中,entail表示當(dāng)前樣例組中真實(shí)標(biāo)簽為蘊(yùn)含關(guān)系的位置索引,((|))表示語言模型對(duì)[MASK]處推理詞在蘊(yùn)含關(guān)系上的預(yù)測(cè)得分。最后, 基于自然語言推理的提示學(xué)習(xí)模塊的損失函數(shù)定義如下:

        圖3 句群級(jí)的優(yōu)化流程

        Lp= (1 ?)LsLq, (6)

        其中,為可調(diào)節(jié)的超參數(shù)。

        2.2 度量?jī)?yōu)化模塊

        提示學(xué)習(xí)利用預(yù)訓(xùn)練語言模型在預(yù)訓(xùn)練任務(wù)中學(xué)習(xí)到的先驗(yàn)知識(shí), 在下游任務(wù)中可以取得一個(gè)良好的性能。但是, 對(duì)文本分類任務(wù)而言, 類別特征的表示也至關(guān)重要。通過度量學(xué)習(xí), 將原始語義空間的實(shí)例映射到目標(biāo)任務(wù)中語義空間的表示, 使實(shí)例在目標(biāo)任務(wù)中的語義空間表示具有更強(qiáng)的區(qū)分 能力。

        度量?jī)?yōu)化模塊的目標(biāo)是使在語義空間中屬于同一類別的實(shí)例之間的距離更接近, 使不同類別實(shí)例之間的距離更遠(yuǎn)。通過三元組損失函數(shù)進(jìn)行有監(jiān)督的度量學(xué)習(xí), 使模型可以更好地學(xué)習(xí)不同類別間的距離關(guān)系信息[23]。此外, 使用帶間隔的損失函數(shù), 可以提升模型的泛化性能, 如式(7)所示。具體地, 在構(gòu)造三元組數(shù)據(jù)時(shí), 在某個(gè)類別中選定一個(gè)實(shí)例作為錨點(diǎn), 同類別的實(shí)例作為正例, 其他類別的實(shí)例作為負(fù)例。

        其中,(m,m)表示錨點(diǎn)與正例間的距離,(m,m)表示錨點(diǎn)與負(fù)例間的距離,表示設(shè)定的間隔值。

        此外, 在少樣本學(xué)習(xí)場(chǎng)景中, 用于訓(xùn)練的數(shù)據(jù)量通常十分有限。為了緩解災(zāi)難性遺忘的問題, 使用掩碼語言模型優(yōu)化目標(biāo)作為正則項(xiàng)進(jìn)行建模。因此, 度量?jī)?yōu)化模型的損失函數(shù)表示為

        Laux= (1 ?) LtmlLmlm, (8)

        式(8)中, Lmlm表示語言模型損失,表示相應(yīng)的權(quán)重參數(shù)。

        最后, 整體的損失函數(shù)由提示學(xué)習(xí)損失 Lp和度量?jī)?yōu)化損失 Laux的加權(quán)構(gòu)成:

        Ltotal= (1 ?)LpLaux, (9)

        其中,表示權(quán)重參數(shù)。

        2.3 模型訓(xùn)練與推理

        EPL4FTC 算法將文本分類任務(wù)轉(zhuǎn)化成自然語言推理任務(wù), 轉(zhuǎn)化后的任務(wù)是一個(gè)二分類任務(wù)。因此, 當(dāng)一個(gè)原始分類任務(wù)包括個(gè)類別時(shí), 該算法需要進(jìn)行次推理, 最后選擇預(yù)測(cè)概率最大的推理詞對(duì)應(yīng)的標(biāo)簽類別作為最終預(yù)測(cè)結(jié)果。為提升模型的泛化性能, 同時(shí)降低模型訓(xùn)練的成本, EPL4FTC算法通過負(fù)采樣的方式對(duì)下游任務(wù)進(jìn)行訓(xùn)練。對(duì)于一個(gè)包含多個(gè)類別的分類任務(wù), 將每一個(gè)實(shí)例與之對(duì)應(yīng)的類別作為正例, 同時(shí)隨機(jī)選擇個(gè)其他類別與當(dāng)前實(shí)例構(gòu)成負(fù)例。上述數(shù)據(jù)構(gòu)造方式不但能夠提升模型的性能, 而且與使用全部類別作為負(fù)例相比, 進(jìn)一步縮短了訓(xùn)練模型所需的時(shí)間。在模型推理階段, EPL4FTC 算法僅使用基于自然語言推理的提示學(xué)習(xí)模塊。具體地, 對(duì)于包含個(gè)標(biāo)簽的文本分類任務(wù), 對(duì)每一個(gè)實(shí)例生成包含自然語言推理提示模板的條新的輸入實(shí)例。通過模型預(yù)測(cè)每一個(gè)實(shí)例中[MASK]處所蘊(yùn)含推理詞的概率, 在個(gè)預(yù)測(cè)結(jié)果中選擇預(yù)測(cè)概率最大的推理詞對(duì)應(yīng)的標(biāo)簽作為當(dāng)前原始輸入實(shí)例的預(yù)測(cè)結(jié)果。

        3 實(shí)驗(yàn)與結(jié)果

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        1)中文數(shù)據(jù)集。本文使用少樣本評(píng)測(cè)數(shù)據(jù)集FewCLUE[24]中文本分類任務(wù)對(duì)應(yīng)的數(shù)據(jù)集, 在 4 個(gè)領(lǐng)域的評(píng)測(cè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。其中, EPRSTMT 為電商評(píng)論領(lǐng)域的情感分析任務(wù), 是典型的包含正向和負(fù)向情感的二分類任務(wù); CSLDCP 是科學(xué)文獻(xiàn)領(lǐng)域的長(zhǎng)文本多分類任務(wù), 包含 67 個(gè)類別; TNEWS是新聞標(biāo)題的短文本分類任務(wù), 包含教育、娛樂和文化等 15 個(gè)類別; IFLYTEK 是根據(jù) APP 應(yīng)用的長(zhǎng)文本主題描述信息, 對(duì)超過 100 多個(gè)應(yīng)用類別進(jìn)行分類的任務(wù)。

        2)英文數(shù)據(jù)集。本文采用 3 個(gè)英文文本分類數(shù)據(jù)集 AG News, TREC 和 Yelp Review 進(jìn)行評(píng)測(cè)。其中, AG News[25]是學(xué)術(shù)新聞搜索引擎從多個(gè)新聞來源中搜集的超過 100 萬篇文章構(gòu)成的數(shù)據(jù)集, 包含世界、體育、商業(yè)和科技 4 類新聞主題; TREC[26]數(shù)據(jù)集包含 6 個(gè)一級(jí)標(biāo)簽和 47 個(gè)二級(jí)標(biāo)簽; Yelp Review 數(shù)據(jù)集來自 Yelp 的用戶評(píng)論, 其標(biāo)簽是用戶對(duì)商品的星級(jí)打分, 共分為 5 級(jí)。用于評(píng)測(cè)的英文數(shù)據(jù)集從以上數(shù)據(jù)集中抽樣獲得。在 3 個(gè)原始英文數(shù)據(jù)集中分別隨機(jī)抽取 8 個(gè)、16 個(gè)和 32 個(gè)實(shí)例, 形成多個(gè)不同規(guī)模的數(shù)據(jù)集用于訓(xùn)練, 測(cè)試集為原始數(shù)據(jù)集中的測(cè)試集。

        3.2 基線方法

        1)基于微調(diào)的方法(Fine-tuning)[3]: 在預(yù)訓(xùn)練語言模型的基礎(chǔ)上, 為模型添加任務(wù)相關(guān)的分類器, 使模型可以處理下游任務(wù)。

        2)Zero-shot 方法[27]: 基于 Roberta 等自編碼預(yù)訓(xùn)練語言模型, 通過 MLM 進(jìn)行推理評(píng)測(cè)。

        3)Zero-shot (GPT)方法[17]: 基于 GPT 自回歸預(yù)訓(xùn)練語言模型[28], 通過從左至右的語言模型進(jìn)行推理評(píng)測(cè)。

        4)PET 方法[12]: 通過添加人工自定義模板, 將下游任務(wù)轉(zhuǎn)化成完成填空形式的任務(wù), 然后在候選標(biāo)簽列表中選擇合適的標(biāo)簽。

        5)ADAPET 方法[29]: 為模板搜索正確答案時(shí), 從有限候選詞變成整個(gè)詞表, 擴(kuò)大了模型的搜索空間。此外, 對(duì)正確標(biāo)簽反向預(yù)測(cè)原文中的詞, 實(shí)現(xiàn)模型性能的提升。

        6)LM-BFF 方法[15]: 將自動(dòng)化生成的離散化自然語言作為提示模板, 同時(shí)通過采樣的形式, 將實(shí)例以上下文的方式添加到每一個(gè)輸入中。

        7)P-tuningR 方法[17]: 有別于自然語言形式的提示模板, P-tuningR 采用 Roberta 作為預(yù)訓(xùn)練語言模型, 使模型自動(dòng)學(xué)習(xí)到最佳的連續(xù)式的非自然語言提示模板。

        8)EFL 方法[25]: 通過添加人工自定義模板, 將下游任務(wù)轉(zhuǎn)化成蘊(yùn)含任務(wù)形式, 并添加額外的二分類器, 實(shí)現(xiàn)對(duì)下游任務(wù)的微調(diào)。

        3.3 實(shí)現(xiàn)細(xì)節(jié)與評(píng)測(cè)指標(biāo)

        實(shí)驗(yàn)在配有 CUDA 環(huán)境的 Linux 操作系統(tǒng)中進(jìn)行, 并配置兩塊 GTX 1080Ti 顯卡。代碼使用基于PyTorch[30]框架的 HuggingFace 工具包來實(shí)現(xiàn)。對(duì)于中文數(shù)據(jù)集的評(píng)測(cè), 采用 12 層網(wǎng)絡(luò)結(jié)構(gòu)的中文RoBERTa-wwm-ext[31]預(yù)訓(xùn)練模型; 對(duì)于英文數(shù)據(jù)集的評(píng)測(cè), 采用 12 層結(jié)構(gòu)的 BERT-BASE 預(yù)訓(xùn)練模型。模型參數(shù)設(shè)置如下: 學(xué)習(xí)率為 10?5, 超參數(shù)設(shè)置為=0.7,=0.01,=0.02, 三元損失間隔=0.15, 并使用 AdamW[32]優(yōu)化器進(jìn)行模型參數(shù)的優(yōu)化。在少樣本學(xué)習(xí)問題中, 通常使用準(zhǔn)確率(Accu-racy)作為評(píng)測(cè)指標(biāo), 表示模型預(yù)測(cè)正確的樣本數(shù)量占所有樣本數(shù)量的比例。

        3.4 實(shí)驗(yàn)結(jié)果

        1)中文數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果。如表 1 所示, 基于微調(diào)的方法在小樣本學(xué)習(xí)場(chǎng)景中模型性能表現(xiàn)不佳。對(duì)于基于提示學(xué)習(xí)的方法, PET, LM-BFF, EFL, P-tuningR 以及 EPL4FTC 算法在小樣本學(xué)習(xí)場(chǎng)景中模型的準(zhǔn)確率都大幅度提高, 表明基于提示學(xué)習(xí)的方法具有強(qiáng)大的潛能。對(duì)比 EPL4FTC 算法與其他基于提示學(xué)習(xí)的方法(PET, ADAPET, LM-BFF, EFL和 P-tuning 等)可以看出, EPL4FTC 算法在 EPRS-TMT, CSLDCP 和 TNEWS 等數(shù)據(jù)集上取得優(yōu)異的成績(jī), 在 IFLYTEK 數(shù)據(jù)集上也取得與其他現(xiàn)有方法同等的性能。并且, EPL4FTC 算法在中文文本分類任務(wù)中的平均準(zhǔn)確率取得最高的成績(jī)。與轉(zhuǎn)換為完形填空任務(wù)形式的 PET 和 ADAPET 等方法相比, EPL4FTC 算法在利用預(yù)訓(xùn)練模型中學(xué)習(xí)到的通用知識(shí)的基礎(chǔ)上, 引入下游任務(wù)的類別信息, 實(shí)現(xiàn)更好的建模效果, 并且平均準(zhǔn)確率高出 3.9%。與轉(zhuǎn)化為文本蘊(yùn)含任務(wù)的 EFL 方法相比, EPL4FTC 算法沒有引入額外需要學(xué)習(xí)的大規(guī)模參數(shù), 并且與預(yù)訓(xùn)練語言模型的任務(wù)保持一致, 有效地減小了上下游任務(wù)間的差異, 最終平均準(zhǔn)確率高出 4.2%。與使用自動(dòng)構(gòu)建模板或非自然語言形式模板的 LM-BFF和 P-tuning 方法相比, EPL4FTC 算法無需繁瑣的模板構(gòu)建形式, 并且平均準(zhǔn)確率高出 1.6%。

        表1 中文少樣本數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

        說明: 粗體數(shù)字表示性能最佳, 下同。

        2)英文數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果。如表 2 所示, 對(duì)于不同的實(shí)例數(shù)量, Fine-tuning, PET, ADAPET, EFL, P-tuning 以及 EPL4FTC 算法都表現(xiàn)出隨著實(shí)例數(shù)量增多, 模型準(zhǔn)確率都明顯提升的趨勢(shì), 表明在基于深度模型的少樣本學(xué)習(xí)場(chǎng)景中, 訓(xùn)練數(shù)據(jù)的規(guī)模對(duì)模型性能有較大的影響。在實(shí)例數(shù)=8 時(shí), 雖然PET, ADAPET, EFL 和 P-tuning 等基于提示學(xué)習(xí)的方法比基于微調(diào)的方法在準(zhǔn)確率方面有很大幅度的提升, 但 EPL4FTC 算法表現(xiàn)出更加出眾的性能, 其準(zhǔn)確率遠(yuǎn)高于其他方法。這表明在實(shí)例較少的情況下, EPL4FTC 算法能夠有效地對(duì)下游任務(wù)進(jìn)行建模, 也進(jìn)一步證明了該算法的有效性。隨著實(shí)例數(shù)增加(=16 或 32), 雖然其他基于提示學(xué)習(xí)方法的性能也有所提升, 但相比于其他方法, EPL4FTC 算法的準(zhǔn)確率仍然保持較高的水平。即使在=32 的情況下, EPL4FTC 算法的性能也與現(xiàn)有模型保持在同一水平, 并且平均準(zhǔn)確率最佳。

        3.5 組件有效性分析

        3.5.1度量?jī)?yōu)化模塊有效性

        在基于度量學(xué)習(xí)的損失優(yōu)化方法對(duì)比實(shí)驗(yàn)中, 對(duì)比以下 3 種優(yōu)化方法: 1)將歐式距離和余弦相似度作為度量方法的二元交叉熵?fù)p失優(yōu)化方法; 2)對(duì)比損失優(yōu)化方法; 3)三元組損失優(yōu)化方法。

        在使用二元交叉熵?fù)p失作為損失優(yōu)化的實(shí)驗(yàn)中, 采用歐式距離作為度量方法。由于其度量值域范圍是[0, +∞), 為便于計(jì)算二元交叉熵?fù)p失, 將其映射到值域空間[0, 1)的范圍:

        其中,表示歐氏距離, 引入超參數(shù)是為了避免分母為 0。

        在使用基于余弦相似度的度量方法中, 其值域范圍是[?1, +1]。同理, 將其映射到值域空間[0, 1]的范圍:

        其中,表示余弦相似度。

        表2 英文少樣本數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)結(jié)果如表 3 所示??梢钥闯? 將歐式距離或余弦相似度作為度量方法的二元交叉熵?fù)p失優(yōu)化方法性能較差, 而對(duì)比損失優(yōu)化方法和三元組損失優(yōu)化方法的性能有較大的提升, 得益于后兩個(gè)方法中引入間隔的策略, 使模型有了一定的容錯(cuò)空間, 進(jìn)而提升了模型的泛化性能。對(duì)比 3 組不同的實(shí)例可以看出, 三元組損失優(yōu)化方法可以同時(shí)獲取更多的信息來幫助模型優(yōu)化, 從而提升模型性能。與對(duì)比損失優(yōu)化方法相比, 三元組損失優(yōu)化方法在不同任務(wù)中的平均準(zhǔn)確率有 1.4%的提升。

        對(duì)采用三元組損失的度量?jī)?yōu)化模塊進(jìn)行消融實(shí)驗(yàn), 結(jié)果如表 4 所示??梢钥闯? 將度量?jī)?yōu)化模塊完整地移除后, 模型的準(zhǔn)確率明顯下降, 在中文數(shù)據(jù)集中平均下降 1.6%, 在英文數(shù)據(jù)集中平均下降3.2%, 驗(yàn)證了度量?jī)?yōu)化模塊的有效性。度量?jī)?yōu)化模塊通過學(xué)習(xí)下游任務(wù)中的類別信息, 實(shí)現(xiàn)對(duì)模型性能的提升。進(jìn)一步, 在度量?jī)?yōu)化模塊中將 MLM 損失作為三元組損失的正則項(xiàng)引入。為了驗(yàn)證 MLM正則項(xiàng)的有效性, 實(shí)驗(yàn)中僅保留三元組損失, 并移除 MLM 損失正則項(xiàng)。從實(shí)驗(yàn)結(jié)果可以看出, 移除MLM 正則項(xiàng)后, 模型的準(zhǔn)確率在大部分任務(wù)中都明顯下降, 在中文 CSLDCP 任務(wù)中下降 2.1%, 在英文 TREC 任務(wù)中下降 5.8%, 證明了引入 MLM 損失作為正則項(xiàng)對(duì)模型性能提升的有效性。

        表3 中文數(shù)據(jù)集和英文數(shù)據(jù)集上不同損失優(yōu)化實(shí)驗(yàn)結(jié)果

        說明: BCE Loss (CS)代表將余弦相似度作為度量的二元交叉熵?fù)p失優(yōu)化方法, BCE Loss (ED)代表將歐式距離作為度量的二元交叉熵?fù)p失優(yōu)化方法, Contrastive Loss代表對(duì)比損失優(yōu)化方法, Triplet Loss代表三元組損失優(yōu)化方法。

        表4 中文數(shù)據(jù)集和英文數(shù)據(jù)集上度量?jī)?yōu)化模塊消融實(shí)驗(yàn)結(jié)果

        3.5.2句群級(jí)損失有效性

        基于自然語言推理的提示學(xué)習(xí)模塊中, 通過句群級(jí)損失實(shí)現(xiàn)對(duì)一組正負(fù)實(shí)例間的優(yōu)化。為了確定該損失優(yōu)化方法的有效性, 對(duì)其進(jìn)行消融實(shí)驗(yàn), 結(jié)果如表 5 所示。中文數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果顯示, 對(duì)于不同的任務(wù), 該方法對(duì)模型的性能都有明顯的提升, 特別是對(duì)于 IFLYTEK 任務(wù), 模型的性能有 3%的提升。相比于中文數(shù)據(jù)集, 在英文數(shù)據(jù)集實(shí)例數(shù)=8時(shí)的實(shí)驗(yàn)結(jié)果顯示, 該損失優(yōu)化方法對(duì)模型的準(zhǔn)確率具有更大的提升作用, 在 AG News 數(shù)據(jù)集上顯著提升 38.6%; 在 Yelp Review 數(shù)據(jù)集上也有 5.9%的提升。上述實(shí)驗(yàn)結(jié)果證明了句群級(jí)損失方法對(duì)組內(nèi)優(yōu)化的有效性, 它通過對(duì)比組內(nèi)正負(fù)間的實(shí)例, 可以學(xué)習(xí)到更好的知識(shí)表示。

        3.6 提示模板分析

        3.6.1推理詞形式的性能

        EPL4FTC 算法將文本分類任務(wù)轉(zhuǎn)換為基于自然語言推理形式的完型填空任務(wù), 同時(shí)受 P-tuning方法啟發(fā), 推理詞不僅可以是自然語言形式, 也可以是非自然語言形式。因此, 本文對(duì)這兩種形式的推理詞進(jìn)行性能評(píng)估。中、英文數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果(表 6)表明, 非自然語言形式的推理詞較為穩(wěn)定, 模型的性能較好。具體地, 對(duì)于形式簡(jiǎn)單、數(shù)據(jù)區(qū)分度高的任務(wù)(如 EPRSTMT 和 TREC 等), 自然語言形式的推理詞表現(xiàn)較為出眾; 對(duì)于類別數(shù)較多、復(fù)雜的任務(wù)(如 TNEWS, IFLYTEK 和 CSLDCP 等), 非自然語言形式的推理詞具備更好的性能。這是由于它可以從具體任務(wù)中自主地學(xué)習(xí)到更適合當(dāng)前模板的推理詞形式, 而不受自然語言形式的限制。也就是說, 對(duì)于非自然語言形式的推理詞, 可以從眾多的上下文信息中學(xué)習(xí)到推理詞的連續(xù)化表達(dá)形式, 有效地避免單一推理詞的影響。

        表5 中文數(shù)據(jù)集和英文數(shù)據(jù)集上句群級(jí)損失有效性分析

        表6 中文數(shù)據(jù)集和英文數(shù)據(jù)集上推理詞形式性能比較

        3.6.2提示模板的性能

        手工設(shè)計(jì)的提示模板會(huì)使模型的效果產(chǎn)生一定的波動(dòng), 因此本文評(píng)估手工設(shè)計(jì)模板對(duì)模型性能的影響, 實(shí)驗(yàn)結(jié)果如表 7 所示??梢钥闯? 模型性能受提示模板的影響較大。具體地, 在中文 TNEWS和英文 TREC 任務(wù)中對(duì)模板采用前綴式與后綴式的形式進(jìn)行評(píng)測(cè), 相比之下, 在中文數(shù)據(jù)集上模型的性能差異相對(duì)較小, 準(zhǔn)確率的最大值與最小值相差1.1%, 而在英文數(shù)據(jù)上模型的性能表現(xiàn)出較大的差異, 準(zhǔn)確率最大值與最小值相差 6.4%。上述實(shí)驗(yàn)結(jié)果表明, 提示模板對(duì)模型準(zhǔn)確率的影響與下游任務(wù)的具體形式有較大的關(guān)系, 可以通過優(yōu)化模板的形式來大幅度提升模型的性能。

        3.7 可視化分析

        為了評(píng)估引入度量?jī)?yōu)化模塊后提出的模型獲得任務(wù)類別信息的有效性, 本文采用 t-SNE 方法[33], 對(duì)中文 TNEWS 數(shù)據(jù)集通過隨機(jī)采樣進(jìn)行可視化分析。為了驗(yàn)證模型的編碼層是否有效地學(xué)習(xí)到任務(wù)中的類別信息, 將預(yù)訓(xùn)練模型中編碼層 CLS 位的輸出作為當(dāng)前整個(gè)實(shí)例的向量化表示。圖 4(a)展示編碼后的分布情況, 可以看出實(shí)例類別依然保持與pooler 層相似的分布情況。對(duì)于簡(jiǎn)單的新聞?lì)悇e(如股票、娛樂、電競(jìng)和汽車等), 實(shí)例類別依舊保持著較為緊湊的聚集現(xiàn)象; 對(duì)于較為抽象或涵蓋范圍較廣的新聞?lì)悇e(如文化和故事等), 雖然實(shí)例類別的分布較為分散, 但也存在一定程度的區(qū)域性。這表明CLS作為整個(gè)句子的編碼表示已經(jīng)學(xué)習(xí)到一定的實(shí)例類別信息。對(duì)實(shí)例類別分布的可視化分析結(jié)果表明, 度量?jī)?yōu)化模塊可以為模型提供更多額外的類別知識(shí)等信息。

        表7 準(zhǔn)確率受提示模板的影響

        圖4 實(shí)例向量的t-SNE分布可視化

        在度量?jī)?yōu)化模塊中, 采用三元組損失優(yōu)化類別間的距離。具體地, 將預(yù)訓(xùn)練模型中 pooler 層的輸出通過度量?jī)?yōu)化模塊進(jìn)行度量學(xué)習(xí)。圖 4(b)展示實(shí)例經(jīng)該模塊編碼輸出后的向量分布情況, 可以看出同一類別的實(shí)例間都較為緊湊, 同時(shí)不同類別的實(shí)例間也存在較為明顯的間隔距離, 說明模型至少在pooler 層中已經(jīng)學(xué)習(xí)到非常好的類別表示。

        4 結(jié)論

        本文提出一種基于提示學(xué)習(xí)和三元組損失優(yōu)化方法的少樣本文本分類的 EPL4FTC 算法, 面對(duì)僅含有少量實(shí)例的文本分類任務(wù), 該算法能夠有效地完成文本分類。

        本文利用提示學(xué)習(xí), 將文本分類任務(wù)轉(zhuǎn)換成自然語言推理形式, 通過提示學(xué)習(xí)激活預(yù)訓(xùn)練語言模型中已學(xué)習(xí)到的通用知識(shí), 并通過句子和句群兩種粒度的三元組損失優(yōu)化方法, 實(shí)現(xiàn)捕獲下游文本分類任務(wù)的類別表征, 提升文本分類的準(zhǔn)確性。同時(shí), 引入掩碼語言模型任務(wù)的訓(xùn)練目標(biāo)為正則項(xiàng), 提升模型的泛化性能。

        本研究完成在中、英文多個(gè)數(shù)據(jù)集上的實(shí) 驗(yàn), 結(jié)果表明文本分類的準(zhǔn)確率有所提升, 驗(yàn)證了EPL4FTC 算法的有效性。

        未來的工作中, 我們將嘗試將 EPL4FTC 算法應(yīng)用于其他主題的少樣本任務(wù)場(chǎng)景。此外, 對(duì)中英文之外其他語種的少樣本文本分類研究也是一個(gè)有趣的問題。

        [1] Minaee S, Kalchbrenner N, Cambria E, et al. Deep learning-based text classification: a comprehensive re-view. ACM Computing Surveys, 2021, 54(3): 1–40

        [2] Wang Y, Yao Q, Kwok J T, et al. Generalizing from a few examples: a survey on few-shot learning. ACM Computing Surveys, 2020, 53(3): 1–34

        [3] Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language under-standing // NAACL. Minneapolis, 2019: 4171–4186

        [4] Schroff F, Kalenichenko D, Philbin J. Facenet: a uni-fied embedding for face recognition and clustering // CVPR. Boston, 2015: 815–823

        [5] Koch G, Zemel R, Salakhutdinov R. Siamese neural networks for one-shot image recognition [D]. Toronto: University of Toronto, 2015

        [6] Vinyals O, Blundell C, Lillicrap T, et al. Matching networks for one shot learning // NIPS. Barcelona, 2016: 3637–3645

        [7] Snell J, Swersky K, Zemel R. Prototypical networks for few-shot learning // NIPS. Long Beach, 2017: 4080–4090

        [8] Sung F, Yang Y, Zhang L, et al. Learning to compare: relation network for few-shot learning // CVPR. Mon-treal, 2018: 1199–1208

        [9] Geng R, Li B, Li Y, et al. Induction networks for few-shot text classification // EMNLP-IJCNLP. Punta Cana, 2020: 3904–3913

        [10] Geng R, Li B, Li Y, et al. Dynamic memory induc- tion networks for few-shot text classification // ACL. Seattle, 2020: 1087–1094

        [11] Schick T, Schütze H. Few-shot text generation with pattern-exploiting training // EMNLP. Abu Dhabi, 2022: 390–402

        [12] Schick T, Schütze H. Exploiting cloze-questions for few-shot text classification and natural language infe-rence // EACL. Kyiv, 2021: 255–269

        [13] Schick T, Schütze H. It’s not just size that matters: small language models are also few-shot learners // NAACL. Mexico City, 2021: 2339–2352

        [14] Liu H, Tam D, Muqeeth M, et al. Few-shot parameter-efficient fine-tuning is better and cheaper than in-context learning // NeuIPS. New Orleans, 2022: 1950–1965

        [15] Gao T, Fisch A, Chen D. Making pre-trained langu- age models better few-shot learners // ACL. Bangkok, 2021: 3816–3830

        [16] Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 2020, 21: 1–67

        [17] Liu X, Zheng Y, Du Z, et al. GPT understands, too [EB/OL]. (2023–03–18) [2023–06–24]. https://doi.org/ 10.48550/arXiv.2103.10385

        [18] Wang S, Fang H, Khabsa M, et al. Entailment as few-shot learner [EB/OL]. (2021–04–29) [2023–06–18]. https://doi.org/10.48550/arXiv.2103.10385

        [19] Jiang Z, Xu F F, Araki J, et al. How can we know what language models know?. Transactions of the Asso-ciation for Computational Linguistics, 2020, 8: 423–438

        [20] Hu Shengding, Ding Ning, Wang Huadong, et al. knowledgeable prompt-tuning: incorporating knowle-dge into prompt verbalizer for text classification // ACL. Dublin, 2022: 2225–2240

        [21] Min S, Lewis M, Hajishirzi H, et al. Noisy channel language model prompting for few-shot text classi-fication // ACL. Dublin, 2022: 5316–5330

        [22] Zhang H, Zhang X, Huang H, et al. Prompt-based meta-learning for few-shot text classification // EMNLP. Abu Dhabi, 2022: 1342–1357

        [23] Weinberger K Q, Saul L K. Distance metric learning for large margin nearest neighbor classification. Jour-nal of Machine Learning Research, 2009, 10(1): 207–244

        [24] Xu L, Lu X, Yuan C, et al. Fewclue: a Chinese few-shot learning evaluation benchmark [EB/OL]. (2021–09–29) [2023–05–16]. https://doi.org/10.48550/arXiv. 2107.07498

        [25] Zhang X, Zhao J, LeCun Y. Character-level convolu-tional networks for text classification // NIPS. Mon-treal, 2015: 649–657

        [26] Li X, Roth D. Learning question classifiers // CO-LING. Taipei, 2002: 556–562

        [27] Liu Y, Ott M, Goyal N, et al. Roberta: a robustly optimized Bert pretraining approach [EB/OL]. (2019–07–26) [2023–04–19]. https://doi.org/10.48550/arXiv. 1907.11692

        [28] Radford A, Narasimhan K, Salimans T, et al. Impro-ving language understanding by generative pretrai-ning [EB/OL]. (2018–06–11) [2023–03–21]. https:// openai.com/research/language-unsupervised

        [29] Tam D, Menon R R, Bansal M, et al. Improving and simplifying pattern exploiting training // EMNLP. Punta Cana, 2021: 4980–4991

        [30] Paszke A, Gross S, Massa F, et al. Pytorch: an im-perative style, high-performance deep learning library // NeuIPS. Seattle, 2019: 8026–8037

        [31] Cui Y, Che W, Liu T, et al. Pre-training with whole word masking for Chinese Bert. IEEE/ACM Transac-tions on Audio, Speech, and Language Processing, 2021, 29: 3504–3514

        [32] Loshchilov I, Hutter F. Decoupled weight decay re-gularization [C/OL] // ICLR. (2019–05–06) [2023–03–26]. https://openreview.net/forum?id=Bkg6RiCqY7

        [33] Van der Maaten L, Hinton G. Visualizing data using t-SNE. Journal of Machine Learning Research, 2008, 9(11): 2579–2605

        Enhanced Prompt Learning for Few-shot Text Classification Method

        LI Ruifan1,2,3,?, WEI Zhiyu1, FAN Yuantao1, YE Shuqin1, ZHANG Guangwei2,4

        1. School of Artificial Intelligence, Beijing University of Posts and Telecommunications, Beijing 100876; 2. Engineering Research Center of Information Networks, Ministry of Education, Beijing 100876; 3. Key Laboratory of Interactive Technology and Experience System, Ministry of Culture and Tourism, Beijing 100876; 4. School of Computer Science, Beijing University of Posts and Telecommunications, Beijing 100876; ? E-mail: rfli@bupt.edu.cn

        An enhanced prompt learning method (EPL4FTC) for few-shot text classification task is proposed. This algorithm first converts the text classification task into the form of prompt learning based on natural language inference. Thus, the implicit data enhancement is achieved based on the prior knowledge of pre-training language models and the algorithm is optimized by two losses with different granularities. Moreover, to capture the category information of specific downstream tasks, the triple loss is used for joint optimization. The masked-language model is incorporated as a regularizer to improve the generalization ability. Through the evaluation on four Chinese and three English text classification datasets, the experimental results show that the classification accuracy of the proposed EPL4FTC is significantly better than the other compared baselines.

        pre-trained language model; few-shot learning; text classification; prompt learning; triplet loss

        猜你喜歡
        優(yōu)化方法模型
        一半模型
        超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
        民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        一道優(yōu)化題的幾何解法
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        巨胸喷奶水www视频网站| av网站在线观看入口| 亚洲女同同性一区二区| 成年人干逼视频水好多| 中文字幕在线亚洲三区| 免费a级毛片在线播放不收费| 久久婷婷五月综合97色一本一本 | 日本午夜一区二区视频| 国产成人亚洲综合无码DVD| 日韩亚洲中文图片小说| 久国产精品久久精品国产四虎 | 手机在线免费av资源网| 精品福利一区二区三区免费视频| 久久综合九色综合久99| 精品亚洲成在人线av无码| 性大片免费视频观看| 欧美自拍视频在线| 日韩精品欧美激情亚洲综合| 久久亚洲精品成人AV无码网址| 一本色道久久88综合| 午夜桃色视频在线观看| 国产免费观看久久黄av麻豆| 77777_亚洲午夜久久多人| 日本丰满人妻xxxxxhd| 国产视频导航| 女人一级特黄大片国产精品| 91久久精品一区二区喷水喷白浆| 日本高清一区二区三区在线观看| 国产裸体舞一区二区三区| 国产性一交一乱一伦一色一情| 久久精品亚洲精品毛片| 亚洲中文字幕永久网站| 淫片一区二区三区av| 色婷婷亚洲一区二区三区| 久久久久久av无码免费看大片| Y111111国产精品久久久| 国产一区二区三区视频免费在线 | 国产激情视频在线观看你懂的| 不卡一区二区视频日本| 日本牲交大片免费观看| 永久免费看免费无码视频|