亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合大語(yǔ)言模型知識(shí)的對(duì)比提示情感分析方法

        2023-11-23 13:29:50尹德春
        情報(bào)雜志 2023年11期
        關(guān)鍵詞:樣本性能文本

        嚴(yán) 豫 楊 笛 尹德春

        (中國(guó)人民公安大學(xué)信息網(wǎng)絡(luò)安全學(xué)院 北京 100034)

        0 引 言

        情感分析作為輿情研判的一項(xiàng)典型任務(wù)[1],主要挑戰(zhàn)在于分析需求多樣性,文本語(yǔ)義復(fù)雜性,研判時(shí)效性。對(duì)于輿情的情感分析,研究者最初使用基于詞典的方法進(jìn)行情感分類[2],這種方法依賴于預(yù)定義的情感詞典,難以處理多義詞、否定和修飾等語(yǔ)言現(xiàn)象且難以適應(yīng)不同的領(lǐng)域和語(yǔ)言環(huán)境。隨后,機(jī)器學(xué)習(xí)方法的引入,使得模型能夠從大量標(biāo)注語(yǔ)料中學(xué)習(xí)分類規(guī)則,有效克服了情感詞典方法的局限性。近年來(lái),基于大規(guī)模無(wú)標(biāo)注語(yǔ)料訓(xùn)練的預(yù)訓(xùn)練語(yǔ)言模型展現(xiàn)出良好的語(yǔ)言理解和遷移學(xué)習(xí)的能力[3]。基于預(yù)訓(xùn)練模型微調(diào)的學(xué)習(xí)范式逐漸成為解決自然語(yǔ)言下游任務(wù)的主流方法,然而,這種學(xué)習(xí)范式仍屬于監(jiān)督學(xué)習(xí)范疇,需要預(yù)先收集和標(biāo)注大量樣本以供機(jī)器學(xué)習(xí),由此所需要的時(shí)間和資源的花費(fèi)將是對(duì)公眾輿情分析的場(chǎng)景多樣性和時(shí)效性的約束。

        為縮減成本、提高自動(dòng)化水平,研究者已逐漸開始關(guān)注基于少樣本學(xué)習(xí)(Few Shot Learning)[4]的情感分析方法。基于提示的微調(diào)方法(Prompt Tuning)是一種典型的少樣本學(xué)習(xí)方法,該學(xué)習(xí)范式可以指導(dǎo)模型充分利用預(yù)訓(xùn)練階段學(xué)習(xí)的知識(shí),而非簡(jiǎn)單記憶特定任務(wù)的訓(xùn)練數(shù)據(jù)的規(guī)律,因此無(wú)需大規(guī)模參數(shù)更新即可取得良好效果。目前,基于提示的微調(diào)方法在單樣本或零樣本的情況下仍然無(wú)法保證結(jié)果的準(zhǔn)確性。

        針對(duì)現(xiàn)有研究的不足,提出一種引入大語(yǔ)言模型(Large Language Model)標(biāo)注初始樣本,并使用無(wú)監(jiān)督對(duì)比學(xué)習(xí)和無(wú)標(biāo)注數(shù)據(jù)實(shí)現(xiàn)自主迭代訓(xùn)練的提示學(xué)習(xí)方法。具體而言,該方法基于情感分類規(guī)則,使用大語(yǔ)言模型進(jìn)行樣本標(biāo)注;將噪聲化處理的同一樣本進(jìn)行對(duì)比訓(xùn)練來(lái)增強(qiáng)預(yù)訓(xùn)練模型對(duì)于數(shù)據(jù)一般模式和特征的認(rèn)識(shí);基于上述數(shù)據(jù)增強(qiáng)處理,構(gòu)建提示模板,利用提示學(xué)習(xí)機(jī)制,在無(wú)標(biāo)注數(shù)據(jù)上進(jìn)行迭代提示學(xué)習(xí)訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,基于大模型知識(shí)的弱監(jiān)督方法相較于以往的模型有明顯提升。

        1 相關(guān)工作

        1.1 情感分析

        情感分析,也稱為觀點(diǎn)挖掘,是確定文本所表達(dá)的情緒的過(guò)程,常被用于對(duì)在線平臺(tái)的言論分析,例如:社交媒體監(jiān)控[5-6]、電子商務(wù)產(chǎn)品評(píng)論[7]、抑郁癥檢測(cè)系統(tǒng)[8]。

        在公共安全領(lǐng)域,基于計(jì)算機(jī)方法的自動(dòng)化情感分析方法的作用主要體現(xiàn)在其能夠快速識(shí)別有害言論,掌握公眾情緒,維護(hù)數(shù)字環(huán)境的安全穩(wěn)定等方面。情感分析的方法主要可以分為基于詞典的方法和機(jī)器學(xué)習(xí)方法[2]。基于詞典的方法需基于預(yù)定義的情感詞典進(jìn)行單詞和短語(yǔ)打分[9],通常需要標(biāo)注大量的單詞,Cha等人[10]構(gòu)建了一個(gè)多語(yǔ)言的抑郁癥詞典用于檢測(cè)社交媒體中的抑郁癥患者,Ainapure等人[11]使用VADER和NRCLex實(shí)現(xiàn)了推特文本的情感分類。近年來(lái),深度學(xué)習(xí)在情感分析中表現(xiàn)出色。CNN[12],BiGRU[13],BiLSTM[11-14]等神經(jīng)網(wǎng)絡(luò)模型被引入到情感分析中。而基于預(yù)訓(xùn)練模型的遷移學(xué)習(xí)范式,則更進(jìn)一步推進(jìn)了情感分析的發(fā)展,該學(xué)習(xí)范式的模型能夠利用大規(guī)模無(wú)標(biāo)注語(yǔ)料庫(kù)中的信息,使得模型能夠更好地理解短文本、分析語(yǔ)句中更復(fù)雜的情感。

        1.2 少樣本學(xué)習(xí)

        為降低收集和標(biāo)注數(shù)據(jù)的資源成本,小樣本學(xué)習(xí)旨在從有限的標(biāo)注示例中學(xué)習(xí)特定任務(wù)的模式,從而減少對(duì)人為監(jiān)督的依賴。情感分析中的小樣本學(xué)習(xí)的主要策略是元學(xué)習(xí)(Meta-learning)、數(shù)據(jù)增強(qiáng)(Data Augmentation)和提示學(xué)習(xí)(Prompt Learning)。

        在元學(xué)習(xí)中,模型在類似的任務(wù)上進(jìn)行訓(xùn)練,使其能夠快速適應(yīng)新任務(wù)?;谕獠恐R(shí)和對(duì)比方法的面向方面的元學(xué)習(xí)框架[15]可以完成特定領(lǐng)域的任務(wù)。通過(guò)組合多種機(jī)器學(xué)習(xí)方法[16]的異質(zhì)堆疊集成模型在情感分析任務(wù)中也有較好的性能。

        數(shù)據(jù)增強(qiáng)通過(guò)轉(zhuǎn)換原始數(shù)據(jù)增加標(biāo)記數(shù)據(jù)集的大小,而無(wú)需額外的手動(dòng)注釋。多特征文本數(shù)據(jù)增強(qiáng)模型(M-DA)[17]構(gòu)造了一個(gè)多模態(tài)文本編碼數(shù)據(jù)增強(qiáng)網(wǎng)絡(luò)用于情感分析。R-drop[18]通過(guò)最小化帶有隨機(jī)丟棄層的兩個(gè)子模型的輸出分布之間的雙向KL散度,增強(qiáng)了模型在識(shí)別樣本時(shí)的一致性。

        在提示學(xué)習(xí)中,模型被引導(dǎo)使用其預(yù)訓(xùn)練的知識(shí),而不是簡(jiǎn)單地記憶特定任務(wù)的訓(xùn)練數(shù)據(jù)[19]?;谀J嚼玫挠?xùn)練方法[20]通過(guò)構(gòu)建語(yǔ)言問(wèn)答模板和建立標(biāo)簽與詞語(yǔ)的映射,基于生成性的問(wèn)答的框架,實(shí)現(xiàn)了情感分析。Gao等人[21]設(shè)計(jì)并實(shí)現(xiàn)了提示模板的自動(dòng)化生成,以避免由于不當(dāng)?shù)纳舷挛哪P退斐傻木植孔顑?yōu)。

        1.3 大語(yǔ)言模型

        隨著自然語(yǔ)言處理中預(yù)訓(xùn)練模型的發(fā)展,大型語(yǔ)言模型(Large Language Models)開始展現(xiàn)出卓越的性能[22]。Chat GPT是一款由OpenAI開發(fā)的經(jīng)過(guò)了人類反饋強(qiáng)化學(xué)習(xí)、指令微調(diào)等工序的大型語(yǔ)言模型,其作為一個(gè)通用的對(duì)話系統(tǒng),也可被用于具體的自然語(yǔ)言處理任務(wù),如文本分類,文本摘要,問(wèn)題回答等方面。Chat GPT已被證明在文本注釋任務(wù)中具有人類級(jí)的能力[23-26],這意味著使用大型語(yǔ)言模型進(jìn)行樣本增強(qiáng)是可行的。

        盡管在大語(yǔ)言模型在文本分類、樣本標(biāo)注領(lǐng)域下能夠取得較好的表現(xiàn),然而,單純依靠大語(yǔ)言模型實(shí)現(xiàn)對(duì)大規(guī)模的文本檢測(cè)仍然是不可行的,因?yàn)檫@將耗費(fèi)高昂的運(yùn)算成本,且使用在線模型進(jìn)行敏感的公共安全領(lǐng)域的文本分析是不合適的。因此,使用大語(yǔ)言模型進(jìn)行文本標(biāo)注,進(jìn)而訓(xùn)練小型的情感分析模型,仍然是少樣本分析情況下的可行方案。

        2 概念定義

        2.1 基于少樣本的情感分析

        少樣本學(xué)習(xí)(Few-shot Learning),是指僅用少量額外人工信息來(lái)調(diào)整模型以使其在新任務(wù)取得良好表現(xiàn)的過(guò)程,情感分析(Sentiment Analysis)可被視為二分類或多類文本分類任務(wù),其目標(biāo)為將給定文本歸類為某一個(gè)預(yù)定義情感類別。

        2.2 提示微調(diào)

        提示微調(diào)(Prompt Tuning),是基于語(yǔ)言模板對(duì)預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行微調(diào)的過(guò)程,以快速地使得模型適應(yīng)特定任務(wù)。不妨令M為預(yù)訓(xùn)練語(yǔ)言模型,而基于M的提示模板則是一個(gè)文本模式,它可以與待分類文本相結(jié)合,形成一個(gè)提示輸入。

        3 模型框架

        本文提出一種融合大語(yǔ)言模型信息的對(duì)比提示情感分析方法(Contrastive-based Prompt-tuning Sentiment Analysis method incorporating Large Language Modelknowledge,CPLLM-SA)。如圖1所示,該模型主要包括無(wú)監(jiān)督對(duì)比嵌入訓(xùn)練、大語(yǔ)言模型數(shù)據(jù)標(biāo)注、初代模型訓(xùn)練、無(wú)監(jiān)督迭代訓(xùn)練。

        圖1 融合大語(yǔ)言模型知識(shí)的對(duì)比提示情感分析方法整體框架圖

        (b) Acc指標(biāo)

        圖3 消融實(shí)驗(yàn)結(jié)果

        3.1 對(duì)比嵌入訓(xùn)練

        (1)

        3.2 輔助損失

        為了避免在提示微調(diào)過(guò)程中預(yù)訓(xùn)練模型的遺忘問(wèn)題,Schick等人[20]將輔助損失[28]引入到提示微調(diào)中,該損失函數(shù)同時(shí)考慮分類的交叉熵?fù)p失和預(yù)訓(xùn)練的語(yǔ)言建模損失,使得模型可以適應(yīng)特定任務(wù)同時(shí)保留其原始知識(shí)。輔助損失的計(jì)算方法如下:

        L=(1-α)·LCE+α·LMLM

        (2)

        其中,LCE是情感分析任務(wù)的交叉熵?fù)p失,LMLM是語(yǔ)言建模損失。α是一個(gè)小常數(shù),通常設(shè)為1e-4[20]。

        3.3 無(wú)標(biāo)注數(shù)據(jù)的自迭代訓(xùn)練

        在提示微調(diào)的情感分析任務(wù)中,通過(guò)進(jìn)一步利用未標(biāo)記的數(shù)據(jù)可提高模型在對(duì)應(yīng)任務(wù)上的性能。為此,CPLLM-SA參考iPET訓(xùn)練方法,在無(wú)標(biāo)注數(shù)據(jù)上實(shí)現(xiàn)了自迭代訓(xùn)練。

        每次迭代時(shí)樣本擴(kuò)充的過(guò)程如下:

        (3)

        第二步,使用文本i的最可能情緒類別所對(duì)應(yīng)的概率,作為它將被抽樣于下一輪次訓(xùn)練的概率:

        (4)

        其中pi表示第i個(gè)樣本被抽中用于下一輪的模型訓(xùn)練的概率,S是未標(biāo)記的數(shù)據(jù)集。

        第三步,對(duì)于每個(gè)類Ck,按照概率值降序排序取前w個(gè)樣本(w=max(w,|Ck|)),根據(jù)概率分布進(jìn)行放回抽樣,直到達(dá)到類k的所需的樣本量:

        Ck={X1,X2,…},Xi~Categoricalk(p1,p2,…,pw)

        (5)

        (6)

        3.4 基于大語(yǔ)言模型實(shí)現(xiàn)文本標(biāo)注

        在訓(xùn)練模型的第一代時(shí),訓(xùn)練數(shù)據(jù)可能很少甚至是不存在。在這種情況下,通過(guò)構(gòu)建適當(dāng)?shù)膯?wèn)答模板,利用大型語(yǔ)言模型來(lái)構(gòu)建一個(gè)初始的注釋數(shù)據(jù)集。使用多個(gè)大語(yǔ)言模型進(jìn)行文本注釋,并選擇從標(biāo)注結(jié)果一致的樣本作為初始訓(xùn)練數(shù)據(jù)集,且至多采用大語(yǔ)言模型注釋了100個(gè)樣本。根據(jù)數(shù)據(jù)集中包含人類標(biāo)注情況的不同,設(shè)計(jì)以下3組標(biāo)注方案:

        a.1-shot:為每個(gè)類別提供一個(gè)手動(dòng)標(biāo)記的訓(xùn)練樣本。并配以必要的說(shuō)明,使用大語(yǔ)言模型生成100個(gè)標(biāo)注樣本,選擇標(biāo)簽一致的樣本作為初始數(shù)據(jù)集。

        b.50-shot:在1-shot的基礎(chǔ)上,額外添加手工標(biāo)記的50個(gè)樣本。

        c.100-shot:手工標(biāo)記100個(gè)樣本作為初始訓(xùn)練集,不使用任何大語(yǔ)言模型。

        4 實(shí) 驗(yàn)

        為驗(yàn)證提出的少樣本輿情分析方法的有效性,以下進(jìn)行實(shí)證性研究,本部分通過(guò)將CPLLM-SA模型和基線模型進(jìn)行對(duì)比,以驗(yàn)證該模型的情感分析能力。

        4.1 數(shù)據(jù)集和提示模板

        挑選公開的推特?cái)?shù)據(jù)集TweetEval[29]中的兩項(xiàng)典型情感分析任務(wù)用于實(shí)驗(yàn)分析:仇恨言論檢測(cè)[30]和諷刺檢測(cè)[31]。對(duì)此兩項(xiàng)任務(wù),設(shè)計(jì)了相應(yīng)的提示模板,通過(guò)將樣本填入模板中,則可基于文本填詞的方式實(shí)現(xiàn)情感分析。

        采用直接提示和引入上下文的提示構(gòu)建提示模板:在直接提示下,模型需要直接理解文本和任務(wù),以進(jìn)行情感分析。引入上下文的提示則先提供簡(jiǎn)短的任務(wù)介紹,再進(jìn)行理解和分類。具體如下:

        4.1.1仇恨言論檢測(cè)

        a)直接提示:

        …有人在推特上發(fā)表了:'{文本}'。所以他是以一種建設(shè)性和尊重的方式說(shuō)話的嗎?{是,否}?!?/p>

        是:非仇恨(non-hate);否:仇恨(hate)。

        b)引入上下文的提示:

        …仇恨意味著針對(duì)他人或以蔑視的方式對(duì)待他們,非仇恨意味著以建設(shè)性和尊重的方式說(shuō)話。有人在推特上發(fā)表了:'{文本}'。所以他是以非仇恨的方式說(shuō)話的嗎?{是,否}?!?/p>

        是:非仇恨(non-hate);否:仇恨(hate)。

        4.1.2諷刺檢測(cè)

        a)直接提示:

        …有人在推特上發(fā)表了:'{文本}'。所以他是以非諷刺的方式說(shuō)話的嗎?{是,否}?!?/p>

        是:非諷刺(non-irony);否:諷刺(irony)。

        b)引入上下文的提示:

        …諷刺往往涉及說(shuō)一件事,而意思卻相反。非諷刺的特點(diǎn)是語(yǔ)氣直接,直截了當(dāng)。有人在推特上發(fā)表了:'{文本}'。所以他是以非諷刺的方式說(shuō)話?{是,否}。…

        是:非諷刺(non-irony);否:諷刺(irony)。

        4.2 評(píng)價(jià)指標(biāo)

        主要使用準(zhǔn)確率(Accuracy)進(jìn)行模型性能的評(píng)估,同時(shí),F1分?jǐn)?shù)(F1-Score)也被引入于評(píng)估大語(yǔ)言模型對(duì)于正負(fù)例不平衡的數(shù)據(jù)的標(biāo)注能力。對(duì)于情感分析,模型預(yù)測(cè)和實(shí)際情感的組合情況有:真正(True Positive, TP):模型預(yù)測(cè)為正,實(shí)際為正;假負(fù)(False Negative, FN):模型預(yù)測(cè)為負(fù),但實(shí)際為正的情況;真負(fù)(True Negative, TN):模型預(yù)測(cè)為負(fù),實(shí)際也為負(fù)的情況;假正(False Positive, FP):模型預(yù)測(cè)為正,但實(shí)際為負(fù)的情況。據(jù)此,則有:

        準(zhǔn)確率計(jì)算公式:

        (7)

        F1分?jǐn)?shù)計(jì)算公式:

        (8)

        4.3 基線模型

        選取以下基線方法在同等資源情況下與CPLLM-SA進(jìn)行比較:

        a) BERT[32]:基于transformer的雙向編碼器表征模型,其在各種自然語(yǔ)言處理任務(wù)中表現(xiàn)出強(qiáng)大的性能。

        b) RoBERTa[33]:BERT的優(yōu)化版本,改進(jìn)了預(yù)訓(xùn)練策略,并有更多的參數(shù)。實(shí)驗(yàn)選取RoBERTa-Base版本進(jìn)行對(duì)比。

        c) XLNet[34]:基于自回歸預(yù)方法的transformer模型,在幾個(gè)基準(zhǔn)測(cè)試上超過(guò)了BERT。

        d) PET-{BERT, GPT-2}[20]:一種提示學(xué)習(xí)方法,基于BERT/GPT-2模型的模式利用訓(xùn)練(Pattern-Exploiting Training)方法。

        e) iPET-{BERT, GPT-2}[20]:該方法為基于BERT/GPT-2模型的模式利用迭代訓(xùn)練(Iterative Pattern-Exploiting Training)方法,iPET通過(guò)在無(wú)標(biāo)注樣本上擴(kuò)展迭代訓(xùn)練實(shí)現(xiàn)預(yù)訓(xùn)練模型知識(shí)的充分利用。

        對(duì)于以上基線方法,相應(yīng)的可以得到的訓(xùn)練資源如下:

        a) 1-shot:為每個(gè)類別提供一個(gè)手動(dòng)標(biāo)記的訓(xùn)練樣本。

        b) 50-shot:共提供50個(gè)手動(dòng)標(biāo)記的訓(xùn)練樣本。

        c) 100-shot:共提供100個(gè)手動(dòng)標(biāo)記的訓(xùn)練樣本。

        使用以下大語(yǔ)言模型用于樣本標(biāo)注:

        a) GPT-3.5-Turbo:它在GPT-3的基礎(chǔ)上增加了額外的特性和參數(shù),是一種更強(qiáng)大的語(yǔ)言模型,能在開放式問(wèn)答任務(wù)中取得優(yōu)秀的表現(xiàn)。

        b) ChatGLM-6B[35]:這是一種基于通用語(yǔ)言模型(General Language Model)框架的開放領(lǐng)域雙語(yǔ)模型,擁有62億的參數(shù)。借助量化技術(shù),該模型可以在個(gè)人終端上部署和使用。

        最后,額外引入了text-Davinci-002模型作為樣本標(biāo)注的對(duì)照模型,該模型由GPT-3類模型經(jīng)指令微調(diào)而來(lái),在文本推理中表現(xiàn)出色。

        4.4 實(shí)驗(yàn)設(shè)置

        對(duì)于CPLLA-SA模型,對(duì)比性嵌入訓(xùn)練的溫度超參數(shù)和丟棄率分別設(shè)為0.05和0.1。輔助損失權(quán)重α設(shè)為1e-4。模型的最大參與比率β設(shè)為0.5,代際樣本增量乘數(shù)d設(shè)為5,迭代入選樣本量w設(shè)置為10。對(duì)于GPT-3.5-Turbo,溫度超參數(shù)設(shè)為0.2。ChatGLM模型是bit-4的量化版本,使用默認(rèn)參數(shù)設(shè)置。

        對(duì)于PET模型,將"reduction"設(shè)置為"mean",將"ipet_n_most_likely"設(shè)置為10。

        由于TweetEval為短文本分類數(shù)據(jù)集,因此將實(shí)驗(yàn)?zāi)P偷淖畲笪谋咀x取長(zhǎng)度設(shè)置為128,訓(xùn)練批次大小設(shè)為8,訓(xùn)練周期為3~6個(gè),具體取決于相應(yīng)周期下模型性能。提示微調(diào)的學(xué)習(xí)率為5e-5,常規(guī)微調(diào)的學(xué)習(xí)率為2e-5。

        實(shí)驗(yàn)平臺(tái)基于Windows 11系統(tǒng),使用python 3.9.12的深度學(xué)習(xí)庫(kù)torch 1.13.1+cu116和transformers 4.23.0實(shí)現(xiàn);計(jì)算機(jī)硬件配置為AMD Ryzen 7 5800H CPU、NVIDIA GeForce RTX 3070 Laptop GPU、1T固態(tài)硬盤和16GB內(nèi)存。

        4.5 實(shí)驗(yàn)結(jié)果分析

        基于TweetEval數(shù)據(jù)集,進(jìn)行仇恨言論檢測(cè)和諷刺檢測(cè),實(shí)驗(yàn)評(píng)價(jià)指標(biāo)采用準(zhǔn)確率,實(shí)驗(yàn)結(jié)果見表 1和表2,其中最優(yōu)結(jié)果使用粗體標(biāo)出,次優(yōu)結(jié)果使用下劃線標(biāo)出。

        表1 仇恨言論檢測(cè)結(jié)果

        表2 諷刺言論檢測(cè)結(jié)果

        根據(jù)對(duì)實(shí)驗(yàn)結(jié)果的觀察可知,在仇恨言論檢測(cè)實(shí)驗(yàn)中,CPLLM-SA模型相比最優(yōu)的基線方法iPET-BERT在1-shot訓(xùn)練規(guī)模下,準(zhǔn)確率提升了約11個(gè)百分點(diǎn);在50-shot和100-shot訓(xùn)練規(guī)模下,準(zhǔn)確率分別提升了約2.0和0.6個(gè)百分點(diǎn)。在諷刺言論檢測(cè)實(shí)驗(yàn)中,發(fā)現(xiàn)在1-shot的情況中,CPLLM-SA的表現(xiàn)不如iPET-GPT2方法,這說(shuō)明大語(yǔ)言模型對(duì)于含蓄表達(dá)短文本存在判斷缺陷。但隨著真實(shí)樣本量的增加,在50-shot和100-shot訓(xùn)練規(guī)模下,CPLLM-SA模型的表現(xiàn)也仍然是最優(yōu)的,準(zhǔn)確率分別比第二優(yōu)的模型提高了約3.6和2.0個(gè)百分點(diǎn)。

        通過(guò)觀察大語(yǔ)言模型標(biāo)注結(jié)果(圖 2),可見GPT-3.5-Turbo模型在標(biāo)注任務(wù)上的均顯著優(yōu)于其他兩個(gè)模型,證明了GPT-3.5-Turbo在樣本標(biāo)注方面的潛力。綜合來(lái)說(shuō),CPLLM-SA模型在實(shí)驗(yàn)中展現(xiàn)出了優(yōu)異的性能,證明了CPLLM-SA的有效性。

        (a) F1指標(biāo)

        對(duì)以上實(shí)驗(yàn)情況,分析如下:

        a.在低資源情況下,提示微調(diào)方法通常能取得最佳表現(xiàn)。這表明如果采用合適的提示微調(diào)方法引導(dǎo)模型學(xué)習(xí),這將能充分利用語(yǔ)言模型在預(yù)訓(xùn)練階段學(xué)習(xí)的知識(shí)來(lái)提升特定下游任務(wù)的表現(xiàn)。

        b.通過(guò)對(duì)自回歸模型(GPT2、XLNet)和自編碼模型(BERT、RoBERTa)的觀察,可以發(fā)現(xiàn),在使用相同微調(diào)策略的情況下,這兩種類型的模型在大部分情況下都有類似的表現(xiàn)。然而,可以觀察到的是,相比于iPET-BERT,iPET-GPT2在樣本數(shù)量極端少(1-shot)的情況下,通常能夠達(dá)到更高的性能,這表明自編碼模型的預(yù)訓(xùn)練階段所學(xué)習(xí)知識(shí)更容易被激發(fā)。

        c.迭代訓(xùn)練的提示微調(diào)模型(iPET-BERT,iPET-GPT2,CPLLM-SA)通常比非迭代提示微調(diào)模型(PET-BERT,PET-GPT2)表現(xiàn)得更好,這說(shuō)明引入相應(yīng)任務(wù)的無(wú)標(biāo)注樣本數(shù)據(jù)進(jìn)行擴(kuò)展學(xué)習(xí),能進(jìn)一步激發(fā)預(yù)訓(xùn)練模型的潛能。

        5 補(bǔ)充實(shí)驗(yàn)

        本部分對(duì)CPLLM-SA模型的運(yùn)行機(jī)理進(jìn)行進(jìn)一步探究,首先,通過(guò)消融實(shí)驗(yàn)分析各模塊的實(shí)用性;然后,通過(guò)迭代誤差實(shí)驗(yàn)分析無(wú)監(jiān)督迭代方法的有效性;最后,通過(guò)參數(shù)實(shí)驗(yàn),為模型的廣泛應(yīng)用提供實(shí)驗(yàn)依據(jù)。

        5.1 消融實(shí)驗(yàn)

        CPLLM-SA通過(guò)充分利用內(nèi)源和外源性的信息保證了模型在低資源情況下的表現(xiàn)。為驗(yàn)證模型各個(gè)模塊的有效性,設(shè)置以下消融實(shí)驗(yàn)以進(jìn)行對(duì)比分析:

        ①CPLLM-SA-NL:無(wú)大語(yǔ)言模型知識(shí)的CPLLM-SA,即該方法使用特定任務(wù)的極少量注釋數(shù)據(jù)進(jìn)行訓(xùn)練。

        ②CPLLM-SA-NI:無(wú)擴(kuò)充樣本迭代訓(xùn)練的CPLLM-SA,即該方法沒(méi)有利用多余的無(wú)標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練。

        ③CPLLM-SA-NC:無(wú)對(duì)比嵌入訓(xùn)練的CPLLM-SA,即該方法沒(méi)有針對(duì)性地對(duì)預(yù)訓(xùn)練模型進(jìn)行特定任務(wù)的編碼優(yōu)化。

        在仇恨言論檢測(cè)任務(wù)上進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見圖 3,未經(jīng)消融的CPLLM-SA模型在各不同的低資源情況(1-shot,50-shot,100-shot)下都取得了最佳結(jié)果,驗(yàn)證了大語(yǔ)言模型知識(shí)、迭代訓(xùn)練和對(duì)比嵌入訓(xùn)練三個(gè)模塊對(duì)于在低資源條件下情感分析的必要性。

        對(duì)消融實(shí)驗(yàn)結(jié)果的分析如下:

        a.CPLLM-SA-NL的性能在1-shot訓(xùn)練規(guī)模中表現(xiàn)最低,這表明在情感分析任務(wù)中,僅依靠小規(guī)模的標(biāo)注樣本是不足以得到充分的模型性能的。基于大語(yǔ)言模型進(jìn)行樣本標(biāo)注,能夠?yàn)榍楦蟹治瞿P吞峁└S富訓(xùn)練樣本,這對(duì)于極低資源情況下模型性能的提升至關(guān)重要。

        b.CPLLM-SA-NI在所有訓(xùn)練規(guī)模中都表現(xiàn)出比CPLLM-SA稍差的性能,這表明利用無(wú)標(biāo)注數(shù)據(jù)進(jìn)行迭代訓(xùn)練對(duì)于提升模型性能來(lái)說(shuō)是可行的。迭代訓(xùn)練能夠充分利用預(yù)訓(xùn)練模型中的知識(shí),并能提供給模型更豐富的訓(xùn)練數(shù)據(jù)。

        c.CPLLM-SA-NC的性能在1-shot訓(xùn)練規(guī)模中稍差于原模型,但在50-shot和100-shot訓(xùn)練規(guī)模中表現(xiàn)出與原模型相近的性能。這說(shuō)明在小規(guī)模的訓(xùn)練樣本中,對(duì)比嵌入訓(xùn)練能夠有效地增強(qiáng)數(shù)據(jù),提高模型的泛化能力。而隨著訓(xùn)練樣本的增加,數(shù)據(jù)的多樣性本身就增加了,因此對(duì)比嵌入訓(xùn)練的效果可能會(huì)相對(duì)減弱。

        5.2 迭代誤差實(shí)驗(yàn)

        在訓(xùn)練階段,CPLLM-SA基于模型集成的方式自主生成下一代所需的訓(xùn)練樣本,因此該無(wú)監(jiān)督過(guò)程可能存在誤差累計(jì)與傳遞。為驗(yàn)證迭代訓(xùn)練的意義和有效性,以下對(duì)CPLLM-SA在迭代過(guò)程各代模型的性能進(jìn)行分析,實(shí)驗(yàn)結(jié)果見圖4。

        (a) 仇恨檢測(cè)

        (b) 諷刺檢測(cè)

        由以上實(shí)驗(yàn)結(jié)果可知,隨著訓(xùn)練代際的增加,模型的整體性能呈現(xiàn)增加趨勢(shì),這表明迭代訓(xùn)練策略的有效性,而代際間模型的具體情況則與任務(wù)特點(diǎn)、初始標(biāo)注數(shù)據(jù)有關(guān)系。在仇恨言論檢測(cè)任務(wù)中,G3代模型在1-shot、50-shot和100-shot訓(xùn)練規(guī)模下都表現(xiàn)出了較好的性能,與G1代模型相比,性能有了顯著的提升。在諷刺檢測(cè)任務(wù)中,其在50-shot和100-shot的條件下,G3代相較于G1代取得了顯著的性能提升,而1-shot條件下模型在G1開始性能就基本不變,這說(shuō)明對(duì)于諷刺檢測(cè)任務(wù)來(lái)說(shuō),僅引入通用知識(shí)是不足以取得性能提升的,而更需要具體輿情背景信息作為支撐,由此模型才能更深入地挖掘語(yǔ)言背后的隱晦含義。

        5.3 參數(shù)實(shí)驗(yàn)

        對(duì)于無(wú)監(jiān)督方法來(lái)說(shuō),超參數(shù)的選擇與調(diào)整在很大程度上影響著模型的性能表現(xiàn)。本部分將探討迭代樣本入選量w、每代的訓(xùn)練輪次、提示模板的設(shè)置對(duì)于CPLLM-SA性能的影響,主要基于仇恨檢測(cè)進(jìn)行實(shí)驗(yàn)分析。

        5.3.1迭代樣本入選量

        迭代樣本入選量w決定了模型在生成新訓(xùn)練集用于下一代的模型訓(xùn)練時(shí),被選用于抽樣的樣本數(shù)量,樣本入選量w也代表用于樣本入選下輪訓(xùn)練所需的最低的置信度排名。以下對(duì)樣本入選量與模型性能的關(guān)系進(jìn)行研究,實(shí)驗(yàn)結(jié)果見圖5。

        圖5 不同迭代樣本入選量的實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)分析如下:

        第一步,通過(guò)分析初始標(biāo)注樣本量與迭代樣本入選量的關(guān)系,發(fā)現(xiàn)增加迭代入選樣本量,反而會(huì)造成模型性能的明顯下降。這是由于引入了低置信的樣本后,增加了訓(xùn)練數(shù)據(jù)的誤導(dǎo)性,導(dǎo)致誤差隨著迭代訓(xùn)練而擴(kuò)大。因此,在訓(xùn)練迭代時(shí),應(yīng)選擇置信度高的樣本用于迭代或針對(duì)低置信度樣本進(jìn)行人工樣本標(biāo)注。

        第二步,把握不足。此時(shí)應(yīng)當(dāng)擴(kuò)大樣本量,或者選用更具有針對(duì)性的包含特定領(lǐng)域知識(shí)的預(yù)訓(xùn)練模型。

        5.3.2每代訓(xùn)練輪次

        可以通過(guò)調(diào)整每代模型的訓(xùn)練輪次來(lái)保證模型性能,以下對(duì)每代模型的訓(xùn)練輪次進(jìn)行分析,實(shí)驗(yàn)結(jié)果見圖6。

        圖6 不同訓(xùn)練輪次的性能比較實(shí)驗(yàn)結(jié)果

        從實(shí)驗(yàn)結(jié)果來(lái)看,CPLLM-SA模型在不同訓(xùn)練輪次下的性能表現(xiàn)存在差異。在訓(xùn)練樣本較少的情況下(1-shot),過(guò)量的訓(xùn)練輪次容易導(dǎo)致模型發(fā)生過(guò)擬合現(xiàn)象,訓(xùn)練輪次應(yīng)該與樣本量相適應(yīng)。隨著訓(xùn)練樣本數(shù)量的增加,模型在一定的訓(xùn)練輪次下能夠達(dá)到較好的擬合狀態(tài),但隨著訓(xùn)練輪次的繼續(xù)增加,可能會(huì)出現(xiàn)輕微的過(guò)擬合。因此,在實(shí)際應(yīng)用中,需要根據(jù)訓(xùn)練樣本數(shù)量來(lái)選擇合適的訓(xùn)練輪次,以獲得較好的模型性能。

        5.3.3提示模板設(shè)置

        在訓(xùn)練階段,CPLLM-SA采用了兩種不同提示模板:直接提示,引入上下文的提示。表3與表4展示了在CPLLM-SA中兩種提示方法的表現(xiàn),其中最優(yōu)結(jié)果使用粗體標(biāo)出:

        表3 不同提示方法的性能比較(仇恨檢測(cè))

        表4 不同提示方法的性能比較(諷刺檢測(cè))

        通過(guò)觀察可以發(fā)現(xiàn),直接提示和引入上下文提示的效果在仇恨言論檢測(cè)和諷刺言論檢測(cè)任務(wù)中均存在差異:

        a.仇恨檢測(cè)任務(wù)中,直接提示的表現(xiàn)都優(yōu)于引入上下文的提示,這表明對(duì)于仇恨言論檢測(cè)這類任務(wù)來(lái)說(shuō),直接提示能更有效地引導(dǎo)模型進(jìn)行判斷,因?yàn)槌鸷扪哉摰奶攸c(diǎn)可能使得其更容易通過(guò)直接提示進(jìn)行識(shí)別。

        b.諷刺檢測(cè)任務(wù)中,直接提示的表現(xiàn)只在100-shot情況下為最優(yōu),這表明諷刺檢測(cè)這類任務(wù)需要更多的任務(wù)信息才能保證模型的分類效果。

        以上模型性能的差異表明提示方法的選擇應(yīng)參考任務(wù)特點(diǎn)和初始標(biāo)注樣本量。對(duì)于需要潛在信息的任務(wù),可以通過(guò)上下文學(xué)習(xí)的方法(In-context Learning)引入額外信息,而在數(shù)據(jù)充足且任務(wù)相對(duì)直觀的情況下,直接提示則更為有效。

        6 結(jié) 論

        本文對(duì)于在低資源情況下進(jìn)行輿情分析的方法進(jìn)行了研究,并提出了融合大模型知識(shí)的對(duì)比提示情感分析方法CPLMM-SA。通過(guò)大模型進(jìn)行樣本標(biāo)注并利用對(duì)比嵌入學(xué)習(xí)優(yōu)化編碼表征,基于提示學(xué)習(xí)方法在大量無(wú)標(biāo)注數(shù)據(jù)上實(shí)現(xiàn)無(wú)監(jiān)督迭代訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,CPLLM-SA在同等資源情況下的性能表現(xiàn)出色,具有較好的輿情分析能力。作為開源情報(bào)的重要組成部分,輿情分析具有具體性和多樣性,今后的工作將進(jìn)一步考慮引入在線知識(shí)圖譜,實(shí)現(xiàn)零樣本(0-shot)的快速情感分析。

        猜你喜歡
        樣本性能文本
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        在808DA上文本顯示的改善
        提供將近80 Gbps的帶寬性能 DisplayPort 2.0正式發(fā)布
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        推動(dòng)醫(yī)改的“直銷樣本”
        隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
        村企共贏的樣本
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        Al-Se雙元置換的基于LGPS的thio-LISICON的制備與性能表征
        強(qiáng)韌化PBT/PC共混物的制備與性能
        最新国产av网址大全| 欧美 丝袜 自拍 制服 另类| 少妇伦子伦情品无吗| 亚洲人交乣女bbw| 久久久久亚洲av无码专区首jn| 野外少妇愉情中文字幕| 亚洲七七久久综合桃花| 亚洲伊人成综合人影院| 国产在线91精品观看| 欧美精品无码一区二区三区| 女人被男人爽到呻吟的视频| 朝鲜女人大白屁股ass| 奇米狠狠色| 色欲AV成人无码精品无码| 亚洲国产丝袜美女在线| 国产成人精品久久二区二区91 | 亚洲最大成人网站| 日韩精品成人无码专区免费| 波多野吉衣av无码| 制服丝袜天堂国产日韩| 亚洲天堂免费成人av| 日韩精品中文字幕第二页| 成熟丰满熟妇av无码区| 永久免费av无码入口国语片| 揄拍成人国产精品视频| 国产美女免费国产| 国产午夜亚洲精品一级在线| 一区二区三区国产视频在线观看| 午夜一区二区三区观看| 日韩欧美aⅴ综合网站发布| 亚洲精品第一国产综合亚av| 中文亚洲爆乳av无码专区| 日韩精品人妻中文字幕有码| 凹凸世界视频a一二三| 青青草狠吊色在线视频| 中文天堂国产最新| 亚洲AV无码一区二区三区日日强| 99riav精品国产| 亚洲av第二区国产精品| 国产精品亚洲一区二区三区| 中文字幕一区二区三区精华液|