亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種半監(jiān)督學(xué)習(xí)的金融新聞文本分類(lèi)算法

        2022-03-23 02:09:28張曉龍支龍高劍苗仲辰林越峰項(xiàng)雅麗熊贇
        大數(shù)據(jù) 2022年2期
        關(guān)鍵詞:標(biāo)簽分類(lèi)樣本

        張曉龍,支龍,高劍,苗仲辰,林越峰,項(xiàng)雅麗,熊贇

        1. 復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海 210438;2. 上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室,上海 200438;3. 上海金融期貨信息技術(shù)有限公司,上海 200120

        0 引言

        文本分類(lèi)是一項(xiàng)常見(jiàn)的數(shù)據(jù)任務(wù),通過(guò)對(duì)金融領(lǐng)域的新聞、言論等文本數(shù)據(jù)的主題進(jìn)行識(shí)別,可以有效地給金融相關(guān)部門(mén)提供技術(shù)支持。然而在針對(duì)金融領(lǐng)域的實(shí)際業(yè)務(wù)開(kāi)發(fā)過(guò)程中,不免會(huì)遇到標(biāo)注數(shù)據(jù)缺乏、類(lèi)別標(biāo)簽不均衡等挑戰(zhàn)。由于金融領(lǐng)域本身的復(fù)雜性,這些數(shù)據(jù)往往包含了大量的專(zhuān)業(yè)術(shù)語(yǔ)和特定表達(dá)方式,因此領(lǐng)域相關(guān)的文本標(biāo)注需要由具備較高專(zhuān)業(yè)知識(shí)水平的人員完成,這使得金融語(yǔ)料的標(biāo)注代價(jià)昂貴,且效率低下。

        半監(jiān)督學(xué)習(xí)(semi-supervised learning,SSL)[1]是利用無(wú)標(biāo)簽數(shù)據(jù)解決這一問(wèn)題的具有代表性的一種方法,其中,基于一致性訓(xùn)練的半監(jiān)督學(xué)習(xí)方法已經(jīng)在圖像領(lǐng)域取得了良好的效果,受到研究者的廣泛關(guān)注[2-5]。與一致性訓(xùn)練相關(guān)的一類(lèi)研究方法是在訓(xùn)練的過(guò)程中對(duì)輸入樣本[6-8]或隱藏狀態(tài)[9]增加噪聲,并且保持模型的預(yù)測(cè)值不會(huì)因此發(fā)生改變。例如,Laine等人[3]提出的Pseudo-ensembles方法在訓(xùn)練過(guò)程中應(yīng)用高斯噪聲和dropout噪聲;Miyato等人[6]提出的虛擬對(duì)抗訓(xùn)練方法通過(guò)近似模型最敏感的輸入空間的變化方向來(lái)定義噪聲;Clark等人[8]提出的交叉視圖訓(xùn)練方法通過(guò)掩蓋部分輸入數(shù)據(jù)的方法引入噪聲。另一類(lèi)與一致性訓(xùn)練相關(guān)的研究方法是在模型參數(shù)空間上實(shí)現(xiàn)強(qiáng)制一致性,如插值一致性訓(xùn)練[9]、MixMatch[10]和無(wú)監(jiān)督數(shù)據(jù)增強(qiáng)(unsupervised data augmentation,UDA)[11]等方法。受到UDA方法的啟發(fā),本文將其引入金融文本分類(lèi)中,以應(yīng)對(duì)金融文本標(biāo)記不足的挑戰(zhàn)。但是UDA方法在對(duì)金融中文無(wú)標(biāo)簽文本進(jìn)行數(shù)據(jù)增強(qiáng)時(shí),存在增強(qiáng)后的中文文本質(zhì)量差的問(wèn)題,需要對(duì)金融中文無(wú)標(biāo)簽文本的數(shù)據(jù)增強(qiáng)方法進(jìn)行研究。針對(duì)金融新聞的文本分類(lèi)任務(wù),本文提出了一個(gè)基于半監(jiān)督學(xué)習(xí)的金融新聞文本分類(lèi)(semi-supervised learning financial news classification,SSF)算法。本文主要貢獻(xiàn)如下:

        ● 引入有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的一致性訓(xùn)練方法,在有標(biāo)簽數(shù)據(jù)較少的情況下,實(shí)現(xiàn)金融文本的分類(lèi)任務(wù);

        ● 針對(duì)不同的金融領(lǐng)域任務(wù),采用不同的訓(xùn)練信號(hào)退火(training signal annealing,TSA)收斂策略,降低模型過(guò)擬合的可能性;

        ● 在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的SSF算法相比主流文本分類(lèi)算法在有效性上有明顯提升。

        1 相關(guān)工作

        1.1 預(yù)訓(xùn)練和微調(diào)框架

        預(yù)訓(xùn)練和微調(diào)框架已被應(yīng)用于多種自然語(yǔ)言處理(natural language processing,NLP)任務(wù)中[12-14]。Howard等人[15]提出在大型通用語(yǔ)料庫(kù)上預(yù)先訓(xùn)練語(yǔ)言模型,再對(duì)目標(biāo)任務(wù)進(jìn)行微調(diào)(即預(yù)訓(xùn)練+微調(diào)框架的方式)。這種方法相對(duì)于需要大量的標(biāo)注數(shù)據(jù)的連續(xù)詞袋(continuous bag-of-words,CBOW)模型[16],即使使用少量標(biāo)記數(shù)據(jù),經(jīng)過(guò)預(yù)訓(xùn)練的模型也能表現(xiàn)出較優(yōu)的性能,并且基于注意力機(jī)制的預(yù)訓(xùn)練模型可更好地理解特征之間的相互關(guān)系。算法除了對(duì)結(jié)果的有效性有要求,對(duì)內(nèi)存占用、運(yùn)行速度也有一定的要求。本文在預(yù)訓(xùn)練模型方面采用ALBERT(a lite bert)[17]模型,ALBERT模型使用句子順序預(yù)測(cè)(sentence order prediction)代替下一個(gè)句子預(yù)測(cè)(next sentence prediction),提升了訓(xùn)練效率,并且采用參數(shù)因式分解以及跨層參數(shù)共享兩種技術(shù)降低資源消耗,相比于OpenAI GPT[18]和BERT[19]等規(guī)模較大的預(yù)訓(xùn)練模型,ALBERT模型的訓(xùn)練速度更快。

        1.2 一致性正則

        一致性正則可以被看作標(biāo)簽傳播的一種形式,在空間表示中,相似的訓(xùn)練樣本更有可能屬于同一類(lèi)別?;谶@個(gè)假設(shè),一致性正則通過(guò)某種機(jī)制可以將標(biāo)簽信息從樣本傳播到與其相鄰的樣本。一致性正則框架在圖像領(lǐng)域受到了廣泛關(guān)注[3,7,20-21]。現(xiàn)有的利用一致性進(jìn)行訓(xùn)練的模型雖然用到了數(shù)據(jù)增強(qiáng),但是它們僅僅應(yīng)用了較弱的數(shù)據(jù)增強(qiáng)方法,如隨機(jī)翻譯和裁剪。與本文工作更為相關(guān)的工作有MixMatch[10]和UDA[11],這些方法在半監(jiān)督學(xué)習(xí)領(lǐng)域都取得了成功。然而,這些方法在處理金融領(lǐng)域文本等含有較多專(zhuān)業(yè)術(shù)語(yǔ)的文本時(shí),存在數(shù)據(jù)增強(qiáng)后的文本質(zhì)量較差等問(wèn)題。本文充分利用了文本中單詞的權(quán)重信息,將訓(xùn)練集中其他句子的非關(guān)鍵詞替換為當(dāng)前句子的非關(guān)鍵詞,提出的SSF算法在金融領(lǐng)域文本的數(shù)據(jù)增強(qiáng)上取得了當(dāng)前最佳(state-of-the-art,SOTA)的效果。除此之外,本文提出的SSF算法在提升訓(xùn)練速度以及減少資源消耗上也有顯著效果。

        2 基于半監(jiān)督學(xué)習(xí)的金融新聞文本分類(lèi)

        將金融 文本記為x,y*是該文本的標(biāo)注類(lèi)別,?x是對(duì)無(wú)標(biāo)注數(shù)據(jù)的增強(qiáng)樣本。本節(jié)具體介紹SSF算法,SSF模型采用半監(jiān)督學(xué)習(xí)的一致性訓(xùn)練[7,20-21]的思路,從預(yù)訓(xùn)練模型和數(shù)據(jù)增強(qiáng)兩個(gè)角度對(duì)已有半監(jiān)督學(xué)習(xí)模型進(jìn)行優(yōu)化。在預(yù)訓(xùn)練模型選擇上,如第1.1節(jié)所述,ALEBRT預(yù)訓(xùn)練模型在訓(xùn)練過(guò)程中可以顯著降低資源消耗,并縮短訓(xùn)練時(shí)間。在數(shù)據(jù)增強(qiáng)方面,由于金融領(lǐng)域文本存在較多專(zhuān)業(yè)性術(shù)語(yǔ),隨機(jī)替換和回譯法等文本數(shù)據(jù)增強(qiáng)方法可能會(huì)替換掉文本中的專(zhuān)業(yè)術(shù)語(yǔ),使增強(qiáng)后的樣本與原樣本差別較大。本文采用的數(shù)據(jù)增強(qiáng)方法可以選擇性地替換樣本中的非關(guān)鍵詞。模型框架如圖1所示,圖1上半部分是有監(jiān)督學(xué)習(xí)部分,下半部分是無(wú)監(jiān)督學(xué)習(xí)部分。在有監(jiān)督學(xué)習(xí)部分,利用有標(biāo)簽數(shù)據(jù)在預(yù)訓(xùn)練模型上進(jìn)行微調(diào);在無(wú)監(jiān)督學(xué)習(xí)部分,不同于在無(wú)標(biāo)注數(shù)據(jù)注入噪聲的方法,通過(guò)將用于有監(jiān)督學(xué)習(xí)數(shù)據(jù)增強(qiáng)的方法遷移至無(wú)監(jiān)督學(xué)習(xí)來(lái)增強(qiáng)模型的魯棒性。

        下面針對(duì)模型的各個(gè)部分展開(kāi)敘述。

        2.1 有監(jiān)督學(xué)習(xí)

        如圖1上半部分所示,對(duì)于有標(biāo)簽金融文本x,模型將其送入預(yù)訓(xùn)練模型ALBERT得到文本的嵌入表示,再經(jīng)過(guò)全連接層得到文本的預(yù)測(cè)標(biāo)簽。這部分的損失函數(shù)是標(biāo)準(zhǔn)有監(jiān)督訓(xùn)練中預(yù)測(cè)標(biāo)簽和真實(shí)標(biāo)簽的交叉熵,記為:

        其中,PL為有標(biāo)簽數(shù)據(jù)的分布,f*(x)是預(yù)測(cè)函數(shù)。

        2.2 一致性訓(xùn)練

        如圖1下半部分所示,對(duì)于無(wú)標(biāo)注數(shù)據(jù)x,一方面,模型通過(guò)預(yù)訓(xùn)練模型ALBERT得到無(wú)標(biāo)簽文本的嵌入表示,計(jì)算其分布(y|x);另一方面,模型通過(guò)對(duì)無(wú)標(biāo)簽樣本進(jìn)行數(shù)據(jù)增強(qiáng),得到x?。x?經(jīng)過(guò)預(yù)訓(xùn)練模型得到嵌入表示,再計(jì)算該增強(qiáng)版本的分布pθ(y|x?)。模型最小化兩個(gè)分布之間的差異,使兩者盡可能相似,從而優(yōu)化模型的參數(shù)。模型保持增強(qiáng)樣本的預(yù)測(cè)值與無(wú)標(biāo)簽樣本的預(yù)測(cè)值一致,這使模型對(duì)噪聲不敏感,因此算法相對(duì)于輸入(或隱藏)空間的變化更平滑,更具魯棒性。其損失函數(shù)為兩個(gè)分布之間的交叉熵?fù)p失,形如:

        圖1 SSF算法框架

        其中,CE表示交叉熵?fù)p失函數(shù),UP表示無(wú)標(biāo)記數(shù)據(jù)的樣本分布,是一個(gè)數(shù)據(jù)增強(qiáng)函數(shù),是當(dāng)前訓(xùn)練參數(shù)θ的復(fù)制,反向傳播時(shí)不會(huì)更新。本文針對(duì)金融文本分類(lèi)任務(wù),考慮到文本中金融領(lǐng)域的關(guān)鍵詞對(duì)預(yù)測(cè)標(biāo)簽的影響較大,采用隨機(jī)替換和刪除可能會(huì)損失文本中的關(guān)鍵信息,因此采用了TF-IDF(term frequency-inverse document frequency)進(jìn)行同義詞替換,兼顧詞頻與新鮮度,替換一些常見(jiàn)詞,同時(shí)保留能提供更多信息的關(guān)鍵詞。

        2.3 TF-IDF文本數(shù)據(jù)增強(qiáng)

        數(shù)據(jù)增強(qiáng)方法能夠生成多樣且有效的樣本,文本數(shù)據(jù)增強(qiáng)方法可以被設(shè)計(jì)為保留關(guān)鍵詞,并用其他非關(guān)鍵性單詞替換句子中的非關(guān)鍵性單詞。本文將TF-IDF信息應(yīng)用到數(shù)據(jù)增強(qiáng)中。具體而言,IDF(w)是單詞w在整個(gè)語(yǔ)料庫(kù)中的IDF分?jǐn)?shù)。TF(w)是單詞w在每個(gè)句子中TF分?jǐn)?shù)。每個(gè)單詞的TF-IDF分?jǐn)?shù)計(jì)算如下:TF-IDF(w)= TF(w)×IDF(w)。假定在一個(gè)句子x中,最大的TF-IDF分?jǐn)?shù)為C=maxiTF-IDF(xi)。為了使句子中被替換的單詞與單詞的TF-IDF分?jǐn)?shù)負(fù)相關(guān),將單詞替換的概率設(shè)置為(min(p/C-TF-IDF(xi))/Z,1),其中,p是超參數(shù),用于控制數(shù)據(jù)增強(qiáng)的程度,Z=∑i(CTF-IDF(xi))/|Z|是平均分?jǐn)?shù),從整個(gè)詞匯表中抽取另一個(gè)單詞來(lái)替換原文中的單詞。直觀地講,采樣的單詞不應(yīng)當(dāng)是別的詞匯表中的關(guān)鍵詞,以防止更改句子的標(biāo)簽。為了衡量一個(gè)單詞是否是關(guān)鍵詞,計(jì)算整個(gè)語(yǔ)料庫(kù)中每個(gè)單詞的分?jǐn)?shù),即計(jì)算分?jǐn)?shù)S(w)=freq(w)IDF(w),freg(w)是單詞w在整個(gè)語(yǔ)料庫(kù)中出現(xiàn)的頻率。采樣單詞w的概率設(shè)置為,其中是歸一項(xiàng)。數(shù)據(jù)增強(qiáng)方法實(shí)例如圖2所示。

        圖2 TF-IDF數(shù)據(jù)增強(qiáng)示例

        2.4 半監(jiān)督學(xué)習(xí)

        SSF將有監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)結(jié)合起來(lái),其最終的損失函數(shù)為:

        其中,權(quán)重因子λ用于控制無(wú)監(jiān)督損失和有監(jiān)督損失的重要程度,一般情況下設(shè)置為1。同時(shí)無(wú)標(biāo)簽樣本的批次大小大于有標(biāo)簽樣本的批次大小。

        將有監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)結(jié)合后,SSF模型既利用了有限的有標(biāo)簽數(shù)據(jù),又利用無(wú)標(biāo)簽數(shù)據(jù)豐富了模型的表達(dá)能力。在有監(jiān)督訓(xùn)練、無(wú)監(jiān)督訓(xùn)練與增強(qiáng)樣本的訓(xùn)練過(guò)程中,三者的ALBERT模型一致,且參數(shù)共享,因此,有監(jiān)督訓(xùn)練過(guò)程與無(wú)監(jiān)督訓(xùn)練過(guò)程相輔相成。SSF框架通過(guò)引入TF-IDF數(shù)據(jù)增強(qiáng)方式,無(wú)標(biāo)簽樣本中的一致性損失項(xiàng)得到更嚴(yán)格的保證,并將模型的共享參數(shù)傳遞到有監(jiān)督訓(xùn)練部分,使整個(gè)模型更具有魯棒性。從另一個(gè)角度來(lái)看,將一致性損失降至最低會(huì)逐漸將標(biāo)簽信息從標(biāo)記的樣本傳播到未標(biāo)記的樣本,某種程度上這是在為某些無(wú)標(biāo)記數(shù)據(jù)打標(biāo)簽,提高了未標(biāo)記數(shù)據(jù)的利用率。

        2.5 針對(duì)樣本不均衡的模型設(shè)定

        本節(jié)旨在說(shuō)明SSF框架在處理文本半監(jiān)督問(wèn)題時(shí)遇到的問(wèn)題以及解決方法。

        (1)置信度閾值

        在無(wú)監(jiān)督訓(xùn)練過(guò)程中,要排除掉那些模型預(yù)測(cè)不確定的樣本。例如,在小批次訓(xùn)練過(guò)程中,過(guò)濾預(yù)測(cè)值小于輸出閾值的樣本,從而使余留樣本的預(yù)測(cè)標(biāo)簽更加接近真實(shí)值。

        (2)熵正則化[10]

        熵正則化已經(jīng)被證明在半監(jiān)督學(xué)習(xí)上具有很好的效果,SSF模型也采取熵正則化來(lái)進(jìn)行訓(xùn)練。如前文所述,無(wú)監(jiān)督損失項(xiàng)中的計(jì)算如下:

        其中,τ是超參數(shù),Zy是對(duì)樣本x預(yù)測(cè)的Logit值。

        (3)TSA

        在半監(jiān)督學(xué)習(xí)中,無(wú)標(biāo)簽數(shù)據(jù)量遠(yuǎn)遠(yuǎn)大于有標(biāo)簽數(shù)據(jù)量往往導(dǎo)致模型在少量的有標(biāo)簽樣本下過(guò)擬合,但在無(wú)標(biāo)簽樣本中卻尚未產(chǎn)生收斂。TSA方法可以解決這個(gè)問(wèn)題,即當(dāng)有標(biāo)簽數(shù)據(jù)過(guò)少時(shí),對(duì)預(yù)測(cè)值設(shè)定閾值,高于閾值的預(yù)測(cè)值不會(huì)參與反向傳播,從而確保模型不會(huì)因?yàn)闃?biāo)簽數(shù)據(jù)過(guò)少而產(chǎn)生過(guò)擬合。針對(duì)金融領(lǐng)域任務(wù)以及數(shù)據(jù)集的不同,采用不同的TSA策略,具體將在第3.4.2節(jié)中展開(kāi)說(shuō)明。

        3 實(shí)驗(yàn)分析

        本節(jié)通過(guò)實(shí)驗(yàn)驗(yàn)證SSF模型的有效性,分析討論實(shí)驗(yàn)中的場(chǎng)景數(shù)據(jù),以及相關(guān)的參數(shù)設(shè)置。

        3.1 數(shù)據(jù)集

        實(shí)驗(yàn)使用了3份來(lái)源于某金融機(jī)構(gòu)的金融領(lǐng)域文本數(shù)據(jù)集。按照主題可分為違規(guī)類(lèi)別數(shù)據(jù)集、期貨期權(quán)數(shù)據(jù)集和機(jī)構(gòu)相關(guān)數(shù)據(jù)集,各類(lèi)別數(shù)據(jù)的數(shù)量見(jiàn)表1~表3。將數(shù)據(jù)按照8:1:1的比例隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集以及測(cè)試集。這些數(shù)據(jù)集均存在不同程度的類(lèi)別不均衡,且針對(duì)某些業(yè)務(wù)場(chǎng)景的有標(biāo)簽樣本數(shù)目稀少。

        表1 違規(guī)類(lèi)別數(shù)據(jù)集

        表3 機(jī)構(gòu)相關(guān)數(shù)據(jù)集

        ● 違規(guī)類(lèi)別數(shù)據(jù)集:來(lái)源于某金融機(jī)構(gòu)從社交媒體平臺(tái)爬取的數(shù)據(jù)集,任務(wù)是預(yù)測(cè)一條文本是否違規(guī)以及違規(guī)類(lèi)別,違規(guī)類(lèi)別分別為惡意抹黑監(jiān)管機(jī)構(gòu)、非法薦股、誘導(dǎo)開(kāi)戶(hù)、煽動(dòng)維權(quán)詐騙。

        ● 期貨期權(quán)數(shù)據(jù)集:數(shù)據(jù)集來(lái)源于某新聞機(jī)構(gòu),任務(wù)類(lèi)型為分類(lèi)任務(wù),預(yù)測(cè)任務(wù)是判斷一條文本是否屬于某一主題。

        ● 機(jī)構(gòu)相關(guān)數(shù)據(jù)集:數(shù)據(jù)集來(lái)源于某金融機(jī)構(gòu),任務(wù)類(lèi)型為分類(lèi)任務(wù),預(yù)測(cè)任務(wù)是判斷一條文本的主體是哪個(gè)私募機(jī)構(gòu),其中,文本中可能包含多個(gè)私募機(jī)構(gòu)。

        3.2 對(duì)比算法

        為了測(cè)試本文提出的方法的有效性,將其與幾種主流的文本分類(lèi)模型進(jìn)行了比較,具體如下。

        ● GloVe[22]:GloVe模型將基于奇異值分解(singular value decomposition,SVD)的潛在語(yǔ)義分析(latent semantic analysis,LSA)算法和word2vec算法結(jié)合到一起,既使用了語(yǔ)料庫(kù)的全局統(tǒng)計(jì)特征,也使用了局部的上下文特征,得到文本詞向量后經(jīng)過(guò)邏輯回歸得到分類(lèi)結(jié)果。

        ● ELMo[23]:ELMo事先用語(yǔ)言模型在一個(gè)大的語(yǔ)料庫(kù)上學(xué)習(xí)好詞的表示,接著用下游任務(wù)中的無(wú)標(biāo)簽數(shù)據(jù)來(lái)微調(diào)預(yù)訓(xùn)練好的ELMo。相比GloVE,ELMo在多義詞的表示方面取得了改善,得到文本詞向量后經(jīng)過(guò)邏輯回歸得到分類(lèi)結(jié)果。

        ● FastText[24]:FastText模型架構(gòu)與word2vec中的CBOW很相似,不同之處是FastText預(yù)測(cè)的是標(biāo)簽,而CBOW預(yù)測(cè)的是中間詞,即兩者模型架構(gòu)相似,但是模型的任務(wù)不同。

        ● VAMPIRE[25]:VAMPIRE模型是一種基于預(yù)訓(xùn)練半監(jiān)督的文本分類(lèi)輕量型模型,旨在解決由大量數(shù)據(jù)和高昂計(jì)算力導(dǎo)致的資源不足問(wèn)題。

        ● BERT[19]:BERT代表Transformers的雙向編碼器。它被設(shè)計(jì)為通過(guò)對(duì)左右的上下文的聯(lián)合來(lái)預(yù)訓(xùn)練未標(biāo)記文本,從而得到深層的雙向表示。這里使用BERTbase-Chinese預(yù)訓(xùn)練模型,并在下游任務(wù)上進(jìn)行微調(diào)得到分類(lèi)結(jié)果。

        ● UDA[11]:UDA采用一致性訓(xùn)練框架,在文本分類(lèi)任務(wù)上,采用BERT預(yù)訓(xùn)練模型,在數(shù)據(jù)增強(qiáng)方面,基于WMT’14英法翻譯模型,通過(guò)回譯法對(duì)無(wú)標(biāo)簽數(shù)據(jù)產(chǎn)生噪聲進(jìn)行數(shù)據(jù)增強(qiáng)。

        3.3 實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)中將有標(biāo)簽數(shù)據(jù)集按照8:1:1劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。測(cè)試集實(shí)驗(yàn)結(jié)果見(jiàn)表4。

        從表4可以發(fā)現(xiàn),SSF模型在3個(gè)數(shù)據(jù)集上的精度和召回率均超過(guò)了先前的對(duì)比模型。與GloVe、ELMo和FastText文本分類(lèi)算法相比,采用一致性訓(xùn)練框架的VAMPIRE、UDA和SSF算法取得了較優(yōu)的表現(xiàn)。與VAMPIRE和BERT算法相比,SSF模型在精度和召回率上都取得了更好的結(jié)果,這表明引入無(wú)監(jiān)督數(shù)據(jù)增強(qiáng)方法可以帶來(lái)更好的性能。與UDA模型相比,SSF模型在精度和召回率上也取得了更好的表現(xiàn)??梢缘贸鼋Y(jié)論,相對(duì)于UDA中對(duì)無(wú)標(biāo)簽數(shù)據(jù)通過(guò)回譯法進(jìn)行數(shù)據(jù)增強(qiáng),SSF通過(guò)TF-IDF數(shù)據(jù)增強(qiáng)方法可以針對(duì)性地在中文金融新聞文本分類(lèi)上獲得更好的表現(xiàn)。

        表4 SSF模型及其基準(zhǔn)模型實(shí)驗(yàn)結(jié)果

        通過(guò)改變有標(biāo)簽文本的數(shù)量,將有標(biāo)簽數(shù)據(jù)的數(shù)量降為原來(lái)的50%,對(duì)比SSF算法與其他文本分類(lèi)算法的性能,實(shí)驗(yàn)結(jié)果見(jiàn)表5。

        表5 SSF模型及其基準(zhǔn)模型實(shí)驗(yàn)結(jié)果

        在這部分實(shí)驗(yàn)中,筆者針對(duì)有標(biāo)簽數(shù)據(jù)的數(shù)量進(jìn)行了調(diào)整。見(jiàn)表5,給定相同的無(wú)標(biāo)簽數(shù)據(jù),將有標(biāo)簽數(shù)據(jù)的數(shù)量減少50%,實(shí)驗(yàn)結(jié)果表明,本文所提文本分類(lèi)算法在F1值上都有下降。值得一提的是,SSF算法在更少的標(biāo)注數(shù)據(jù)上的表現(xiàn)大幅優(yōu)于其對(duì)比算法。

        通過(guò)上述在3個(gè)標(biāo)簽數(shù)量少的數(shù)據(jù)集上的實(shí)驗(yàn)可以得出,在金融領(lǐng)域中文文本分類(lèi)任務(wù)中,本文提出的SSF框架在有監(jiān)督數(shù)據(jù)樣本缺乏的場(chǎng)景下有更好的表現(xiàn)。

        3.4 消融實(shí)驗(yàn)分析

        本節(jié)從數(shù)據(jù)增強(qiáng)方面和模型閾值設(shè)置兩個(gè)方面開(kāi)展實(shí)驗(yàn)。

        3.4.1 數(shù)據(jù)增強(qiáng)維度的影響分析

        不采用數(shù)據(jù)增強(qiáng)機(jī)制時(shí)的SSF變種模型為SSF-w/o-aug,實(shí)驗(yàn)結(jié)果見(jiàn)表6。

        表6的結(jié)果顯示,數(shù)據(jù)增強(qiáng)機(jī)制在3個(gè)數(shù)據(jù)集上都為模型的性能帶來(lái)了提升。其中,在違規(guī)類(lèi)別數(shù)據(jù)集上,數(shù)據(jù)增強(qiáng)為模型帶來(lái)了1.74%的精度增值和2.28%的召回率增值;在期貨期權(quán)數(shù)據(jù)集上,數(shù)據(jù)增強(qiáng)機(jī)制為模型帶來(lái)了2.40%的精度增值和1.30%的召回率增值;在機(jī)構(gòu)相關(guān)數(shù)據(jù)集上,數(shù)據(jù)增強(qiáng)機(jī)制給模型帶來(lái)了2.21%的精度增值和2.09%的召回率增值。因?yàn)閿?shù)據(jù)增強(qiáng)機(jī)制可以幫助模型保留文本中的關(guān)鍵信息,所以它在含有專(zhuān)業(yè)詞匯較多的金融文本領(lǐng)域分類(lèi)效果更好。

        表6 去除數(shù)據(jù)增強(qiáng)時(shí)的實(shí)驗(yàn)結(jié)果

        3.4.2 模型閾值設(shè)置維度的影響分析

        考慮不同TSA策略對(duì)實(shí)驗(yàn)結(jié)果的影響,實(shí)驗(yàn)結(jié)果見(jiàn)表7。

        表7的結(jié)果顯示,在違規(guī)類(lèi)別數(shù)據(jù)集上,有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)的比例為1:109(表1),在無(wú)監(jiān)督訓(xùn)練時(shí)較快的收斂策略得到了較高的準(zhǔn)確率;而在期貨期權(quán)數(shù)據(jù)集上,有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)的比例約為1:14(表2),對(duì)數(shù)增長(zhǎng)的TSA策略取得了最佳的效果;在機(jī)構(gòu)相關(guān)數(shù)據(jù)集上,有標(biāo)簽和無(wú)標(biāo)簽的比例約為1:20(表3),采用線(xiàn)性增長(zhǎng)的TSA策略取得了最佳的效果。這表明在有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)比例不同時(shí),采用不同的TSA策略可以有效地避免模型過(guò)擬合。

        表2 期貨期權(quán)數(shù)據(jù)集

        表7 采用不同TSA策略的實(shí)驗(yàn)結(jié)果

        4 結(jié)束語(yǔ)

        本文圍繞金融領(lǐng)域的業(yè)務(wù)需求,針對(duì)中文金融領(lǐng)域數(shù)據(jù)集提出了SSF半監(jiān)督學(xué)習(xí)框架,通過(guò)使用針對(duì)性的數(shù)據(jù)增強(qiáng)方法對(duì)樣本中的無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行了數(shù)據(jù)增強(qiáng),在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文提出的SSF方法適用于金融領(lǐng)域下標(biāo)簽樣本少的文本分類(lèi)任務(wù),并且性能優(yōu)于先前的工作。由于硬件以及ALBERT預(yù)訓(xùn)練模型本身的限制,筆者在實(shí)驗(yàn)中采用的最大序列長(zhǎng)度為256,但是相關(guān)數(shù)據(jù)集的長(zhǎng)度一般為1000左右,需要指出,即使在如此有限的文本輸入上,SSF模型的表現(xiàn)能力也是較為理想的。但是,更好地處理長(zhǎng)文本信息使得模型感知到盡可能多的內(nèi)容,將有助于模型的效果提升,因此,長(zhǎng)文本數(shù)據(jù)上的模型優(yōu)化是進(jìn)一步的研究工作。

        猜你喜歡
        標(biāo)簽分類(lèi)樣本
        分類(lèi)算一算
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        分類(lèi)討論求坐標(biāo)
        無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車(chē)迷(2018年11期)2018-08-30 03:20:32
        推動(dòng)醫(yī)改的“直銷(xiāo)樣本”
        數(shù)據(jù)分析中的分類(lèi)討論
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        教你一招:數(shù)的分類(lèi)
        隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
        標(biāo)簽化傷害了誰(shuí)
        久久亚洲春色中文字幕久久久综合| 亚洲精品综合一区二区三| 精品人伦一区二区三区蜜桃91| 国产不卡在线视频观看| www婷婷av久久久影片| 一二区成人影院电影网| 亚洲综合激情五月丁香六月 | 亚洲娇小与黑人巨大交| 亚洲日韩中文字幕一区| 亚洲暴爽av天天爽日日碰| 可以免费在线看黄的网站| 91精品久久久久含羞草| 污污污国产免费网站| 久久精品中文字幕亚洲| 久久亚洲一区二区三区四区五| 中文字幕日本在线乱码| 国内嫩模自拍偷拍视频| 免费在线观看播放黄片视频| 亚洲av无码专区亚洲av伊甸园| 国产成人亚洲综合无码| 人妻少妇看A偷人无码电影| 精品亚洲乱码一区二区三区| 日本高清一区二区三区在线| 国产主播一区二区三区在线观看| 亚洲成人一区二区av| 在线一区二区三区国产精品| 丰满人妻一区二区三区免费视频| 情人伊人久久综合亚洲| 亚洲日韩∨a无码中文字幕| 99re免费在线视频| 在线免费观看亚洲毛片| 国产亚洲综合另类色专区| 免费a级毛片在线播放| 国产高跟黑色丝袜在线| 亚洲av无码av日韩av网站| 精品国产18禁久久久久久久| 美女黄频视频免费国产大全| 日韩成人高清不卡av| 亚洲最近中文字幕在线| 国语精品一区二区三区| 国产成人综合久久精品推|