亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種半監(jiān)督學(xué)習(xí)的金融新聞文本分類(lèi)算法

2022-03-23 02:09:28張曉龍支龍高劍苗仲辰林越峰項(xiàng)雅麗熊贇

大數(shù)據(jù) 2022年2期

張曉龍，支龍，高劍，苗仲辰，林越峰，項(xiàng)雅麗，熊贇

1. 復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院，上海 210438；2. 上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室，上海 200438；3. 上海金融期貨信息技術(shù)有限公司，上海 200120

0 引言

文本分類(lèi)是一項(xiàng)常見(jiàn)的數(shù)據(jù)任務(wù)，通過(guò)對(duì)金融領(lǐng)域的新聞、言論等文本數(shù)據(jù)的主題進(jìn)行識(shí)別，可以有效地給金融相關(guān)部門(mén)提供技術(shù)支持。然而在針對(duì)金融領(lǐng)域的實(shí)際業(yè)務(wù)開(kāi)發(fā)過(guò)程中，不免會(huì)遇到標(biāo)注數(shù)據(jù)缺乏、類(lèi)別標(biāo)簽不均衡等挑戰(zhàn)。由于金融領(lǐng)域本身的復(fù)雜性，這些數(shù)據(jù)往往包含了大量的專(zhuān)業(yè)術(shù)語(yǔ)和特定表達(dá)方式，因此領(lǐng)域相關(guān)的文本標(biāo)注需要由具備較高專(zhuān)業(yè)知識(shí)水平的人員完成，這使得金融語(yǔ)料的標(biāo)注代價(jià)昂貴，且效率低下。

半監(jiān)督學(xué)習(xí)（semi-supervised learning，SSL）[1]是利用無(wú)標(biāo)簽數(shù)據(jù)解決這一問(wèn)題的具有代表性的一種方法，其中，基于一致性訓(xùn)練的半監(jiān)督學(xué)習(xí)方法已經(jīng)在圖像領(lǐng)域取得了良好的效果，受到研究者的廣泛關(guān)注[2-5]。與一致性訓(xùn)練相關(guān)的一類(lèi)研究方法是在訓(xùn)練的過(guò)程中對(duì)輸入樣本[6-8]或隱藏狀態(tài)[9]增加噪聲，并且保持模型的預(yù)測(cè)值不會(huì)因此發(fā)生改變。例如，Laine等人[3]提出的Pseudo-ensembles方法在訓(xùn)練過(guò)程中應(yīng)用高斯噪聲和dropout噪聲；Miyato等人[6]提出的虛擬對(duì)抗訓(xùn)練方法通過(guò)近似模型最敏感的輸入空間的變化方向來(lái)定義噪聲；Clark等人[8]提出的交叉視圖訓(xùn)練方法通過(guò)掩蓋部分輸入數(shù)據(jù)的方法引入噪聲。另一類(lèi)與一致性訓(xùn)練相關(guān)的研究方法是在模型參數(shù)空間上實(shí)現(xiàn)強(qiáng)制一致性，如插值一致性訓(xùn)練[9]、MixMatch[10]和無(wú)監(jiān)督數(shù)據(jù)增強(qiáng)（unsupervised data augmentation，UDA）[11]等方法。受到UDA方法的啟發(fā)，本文將其引入金融文本分類(lèi)中，以應(yīng)對(duì)金融文本標(biāo)記不足的挑戰(zhàn)。但是UDA方法在對(duì)金融中文無(wú)標(biāo)簽文本進(jìn)行數(shù)據(jù)增強(qiáng)時(shí)，存在增強(qiáng)后的中文文本質(zhì)量差的問(wèn)題，需要對(duì)金融中文無(wú)標(biāo)簽文本的數(shù)據(jù)增強(qiáng)方法進(jìn)行研究。針對(duì)金融新聞的文本分類(lèi)任務(wù)，本文提出了一個(gè)基于半監(jiān)督學(xué)習(xí)的金融新聞文本分類(lèi)（semi-supervised learning financial news classification，SSF）算法。本文主要貢獻(xiàn)如下：

● 引入有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的一致性訓(xùn)練方法，在有標(biāo)簽數(shù)據(jù)較少的情況下，實(shí)現(xiàn)金融文本的分類(lèi)任務(wù)；

● 針對(duì)不同的金融領(lǐng)域任務(wù)，采用不同的訓(xùn)練信號(hào)退火（training signal annealing，TSA）收斂策略，降低模型過(guò)擬合的可能性；

● 在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，本文提出的SSF算法相比主流文本分類(lèi)算法在有效性上有明顯提升。

1 相關(guān)工作

1.1 預(yù)訓(xùn)練和微調(diào)框架

預(yù)訓(xùn)練和微調(diào)框架已被應(yīng)用于多種自然語(yǔ)言處理（natural language processing，NLP）任務(wù)中[12-14]。Howard等人[15]提出在大型通用語(yǔ)料庫(kù)上預(yù)先訓(xùn)練語(yǔ)言模型，再對(duì)目標(biāo)任務(wù)進(jìn)行微調(diào)（即預(yù)訓(xùn)練+微調(diào)框架的方式）。這種方法相對(duì)于需要大量的標(biāo)注數(shù)據(jù)的連續(xù)詞袋（continuous bag-of-words，CBOW）模型[16]，即使使用少量標(biāo)記數(shù)據(jù)，經(jīng)過(guò)預(yù)訓(xùn)練的模型也能表現(xiàn)出較優(yōu)的性能，并且基于注意力機(jī)制的預(yù)訓(xùn)練模型可更好地理解特征之間的相互關(guān)系。算法除了對(duì)結(jié)果的有效性有要求，對(duì)內(nèi)存占用、運(yùn)行速度也有一定的要求。本文在預(yù)訓(xùn)練模型方面采用ALBERT（a lite bert）[17]模型，ALBERT模型使用句子順序預(yù)測(cè)（sentence order prediction）代替下一個(gè)句子預(yù)測(cè)（next sentence prediction），提升了訓(xùn)練效率，并且采用參數(shù)因式分解以及跨層參數(shù)共享兩種技術(shù)降低資源消耗，相比于OpenAI GPT[18]和BERT[19]等規(guī)模較大的預(yù)訓(xùn)練模型，ALBERT模型的訓(xùn)練速度更快。

1.2 一致性正則

一致性正則可以被看作標(biāo)簽傳播的一種形式，在空間表示中，相似的訓(xùn)練樣本更有可能屬于同一類(lèi)別?；谶@個(gè)假設(shè)，一致性正則通過(guò)某種機(jī)制可以將標(biāo)簽信息從樣本傳播到與其相鄰的樣本。一致性正則框架在圖像領(lǐng)域受到了廣泛關(guān)注[3,7,20-21]。現(xiàn)有的利用一致性進(jìn)行訓(xùn)練的模型雖然用到了數(shù)據(jù)增強(qiáng)，但是它們僅僅應(yīng)用了較弱的數(shù)據(jù)增強(qiáng)方法，如隨機(jī)翻譯和裁剪。與本文工作更為相關(guān)的工作有MixMatch[10]和UDA[11]，這些方法在半監(jiān)督學(xué)習(xí)領(lǐng)域都取得了成功。然而，這些方法在處理金融領(lǐng)域文本等含有較多專(zhuān)業(yè)術(shù)語(yǔ)的文本時(shí)，存在數(shù)據(jù)增強(qiáng)后的文本質(zhì)量較差等問(wèn)題。本文充分利用了文本中單詞的權(quán)重信息，將訓(xùn)練集中其他句子的非關(guān)鍵詞替換為當(dāng)前句子的非關(guān)鍵詞，提出的SSF算法在金融領(lǐng)域文本的數(shù)據(jù)增強(qiáng)上取得了當(dāng)前最佳（state-of-the-art，SOTA）的效果。除此之外，本文提出的SSF算法在提升訓(xùn)練速度以及減少資源消耗上也有顯著效果。

2 基于半監(jiān)督學(xué)習(xí)的金融新聞文本分類(lèi)

將金融文本記為x，y*是該文本的標(biāo)注類(lèi)別，?x是對(duì)無(wú)標(biāo)注數(shù)據(jù)的增強(qiáng)樣本。本節(jié)具體介紹SSF算法，SSF模型采用半監(jiān)督學(xué)習(xí)的一致性訓(xùn)練[7,20-21]的思路，從預(yù)訓(xùn)練模型和數(shù)據(jù)增強(qiáng)兩個(gè)角度對(duì)已有半監(jiān)督學(xué)習(xí)模型進(jìn)行優(yōu)化。在預(yù)訓(xùn)練模型選擇上，如第1.1節(jié)所述，ALEBRT預(yù)訓(xùn)練模型在訓(xùn)練過(guò)程中可以顯著降低資源消耗，并縮短訓(xùn)練時(shí)間。在數(shù)據(jù)增強(qiáng)方面，由于金融領(lǐng)域文本存在較多專(zhuān)業(yè)性術(shù)語(yǔ)，隨機(jī)替換和回譯法等文本數(shù)據(jù)增強(qiáng)方法可能會(huì)替換掉文本中的專(zhuān)業(yè)術(shù)語(yǔ)，使增強(qiáng)后的樣本與原樣本差別較大。本文采用的數(shù)據(jù)增強(qiáng)方法可以選擇性地替換樣本中的非關(guān)鍵詞。模型框架如圖1所示，圖1上半部分是有監(jiān)督學(xué)習(xí)部分，下半部分是無(wú)監(jiān)督學(xué)習(xí)部分。在有監(jiān)督學(xué)習(xí)部分，利用有標(biāo)簽數(shù)據(jù)在預(yù)訓(xùn)練模型上進(jìn)行微調(diào)；在無(wú)監(jiān)督學(xué)習(xí)部分，不同于在無(wú)標(biāo)注數(shù)據(jù)注入噪聲的方法，通過(guò)將用于有監(jiān)督學(xué)習(xí)數(shù)據(jù)增強(qiáng)的方法遷移至無(wú)監(jiān)督學(xué)習(xí)來(lái)增強(qiáng)模型的魯棒性。

下面針對(duì)模型的各個(gè)部分展開(kāi)敘述。

2.1 有監(jiān)督學(xué)習(xí)

如圖1上半部分所示，對(duì)于有標(biāo)簽金融文本x，模型將其送入預(yù)訓(xùn)練模型ALBERT得到文本的嵌入表示，再經(jīng)過(guò)全連接層得到文本的預(yù)測(cè)標(biāo)簽。這部分的損失函數(shù)是標(biāo)準(zhǔn)有監(jiān)督訓(xùn)練中預(yù)測(cè)標(biāo)簽和真實(shí)標(biāo)簽的交叉熵，記為：

其中，PL為有標(biāo)簽數(shù)據(jù)的分布，f*(x)是預(yù)測(cè)函數(shù)。

2.2 一致性訓(xùn)練

如圖1下半部分所示，對(duì)于無(wú)標(biāo)注數(shù)據(jù)x，一方面，模型通過(guò)預(yù)訓(xùn)練模型ALBERT得到無(wú)標(biāo)簽文本的嵌入表示，計(jì)算其分布(y|x)；另一方面，模型通過(guò)對(duì)無(wú)標(biāo)簽樣本進(jìn)行數(shù)據(jù)增強(qiáng)，得到x?。x?經(jīng)過(guò)預(yù)訓(xùn)練模型得到嵌入表示，再計(jì)算該增強(qiáng)版本的分布pθ(y|x?)。模型最小化兩個(gè)分布之間的差異，使兩者盡可能相似，從而優(yōu)化模型的參數(shù)。模型保持增強(qiáng)樣本的預(yù)測(cè)值與無(wú)標(biāo)簽樣本的預(yù)測(cè)值一致，這使模型對(duì)噪聲不敏感，因此算法相對(duì)于輸入（或隱藏）空間的變化更平滑，更具魯棒性。其損失函數(shù)為兩個(gè)分布之間的交叉熵?fù)p失，形如：

圖1 SSF算法框架

其中，CE表示交叉熵?fù)p失函數(shù)，UP表示無(wú)標(biāo)記數(shù)據(jù)的樣本分布，是一個(gè)數(shù)據(jù)增強(qiáng)函數(shù)，是當(dāng)前訓(xùn)練參數(shù)θ的復(fù)制，反向傳播時(shí)不會(huì)更新。本文針對(duì)金融文本分類(lèi)任務(wù)，考慮到文本中金融領(lǐng)域的關(guān)鍵詞對(duì)預(yù)測(cè)標(biāo)簽的影響較大，采用隨機(jī)替換和刪除可能會(huì)損失文本中的關(guān)鍵信息，因此采用了TF-IDF（term frequency-inverse document frequency）進(jìn)行同義詞替換，兼顧詞頻與新鮮度，替換一些常見(jiàn)詞，同時(shí)保留能提供更多信息的關(guān)鍵詞。

2.3 TF-IDF文本數(shù)據(jù)增強(qiáng)

數(shù)據(jù)增強(qiáng)方法能夠生成多樣且有效的樣本，文本數(shù)據(jù)增強(qiáng)方法可以被設(shè)計(jì)為保留關(guān)鍵詞，并用其他非關(guān)鍵性單詞替換句子中的非關(guān)鍵性單詞。本文將TF-IDF信息應(yīng)用到數(shù)據(jù)增強(qiáng)中。具體而言，IDF(w)是單詞w在整個(gè)語(yǔ)料庫(kù)中的IDF分?jǐn)?shù)。TF(w)是單詞w在每個(gè)句子中TF分?jǐn)?shù)。每個(gè)單詞的TF-IDF分?jǐn)?shù)計(jì)算如下：TF-IDF(w)= TF(w)×IDF(w)。假定在一個(gè)句子x中，最大的TF-IDF分?jǐn)?shù)為C=maxiTF-IDF(xi)。為了使句子中被替換的單詞與單詞的TF-IDF分?jǐn)?shù)負(fù)相關(guān)，將單詞替換的概率設(shè)置為(min(p/C-TF-IDF(xi))/Z,1)，其中，p是超參數(shù)，用于控制數(shù)據(jù)增強(qiáng)的程度，Z=∑i(CTF-IDF(xi))/|Z|是平均分?jǐn)?shù)，從整個(gè)詞匯表中抽取另一個(gè)單詞來(lái)替換原文中的單詞。直觀地講，采樣的單詞不應(yīng)當(dāng)是別的詞匯表中的關(guān)鍵詞，以防止更改句子的標(biāo)簽。為了衡量一個(gè)單詞是否是關(guān)鍵詞，計(jì)算整個(gè)語(yǔ)料庫(kù)中每個(gè)單詞的分?jǐn)?shù)，即計(jì)算分?jǐn)?shù)S(w)=freq(w)IDF(w)，freg(w)是單詞w在整個(gè)語(yǔ)料庫(kù)中出現(xiàn)的頻率。采樣單詞w的概率設(shè)置為，其中是歸一項(xiàng)。數(shù)據(jù)增強(qiáng)方法實(shí)例如圖2所示。

圖2 TF-IDF數(shù)據(jù)增強(qiáng)示例

2.4 半監(jiān)督學(xué)習(xí)

SSF將有監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)結(jié)合起來(lái)，其最終的損失函數(shù)為：

其中，權(quán)重因子λ用于控制無(wú)監(jiān)督損失和有監(jiān)督損失的重要程度，一般情況下設(shè)置為1。同時(shí)無(wú)標(biāo)簽樣本的批次大小大于有標(biāo)簽樣本的批次大小。

將有監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)結(jié)合后，SSF模型既利用了有限的有標(biāo)簽數(shù)據(jù)，又利用無(wú)標(biāo)簽數(shù)據(jù)豐富了模型的表達(dá)能力。在有監(jiān)督訓(xùn)練、無(wú)監(jiān)督訓(xùn)練與增強(qiáng)樣本的訓(xùn)練過(guò)程中，三者的ALBERT模型一致，且參數(shù)共享，因此，有監(jiān)督訓(xùn)練過(guò)程與無(wú)監(jiān)督訓(xùn)練過(guò)程相輔相成。SSF框架通過(guò)引入TF-IDF數(shù)據(jù)增強(qiáng)方式，無(wú)標(biāo)簽樣本中的一致性損失項(xiàng)得到更嚴(yán)格的保證，并將模型的共享參數(shù)傳遞到有監(jiān)督訓(xùn)練部分，使整個(gè)模型更具有魯棒性。從另一個(gè)角度來(lái)看，將一致性損失降至最低會(huì)逐漸將標(biāo)簽信息從標(biāo)記的樣本傳播到未標(biāo)記的樣本，某種程度上這是在為某些無(wú)標(biāo)記數(shù)據(jù)打標(biāo)簽，提高了未標(biāo)記數(shù)據(jù)的利用率。

2.5 針對(duì)樣本不均衡的模型設(shè)定

本節(jié)旨在說(shuō)明SSF框架在處理文本半監(jiān)督問(wèn)題時(shí)遇到的問(wèn)題以及解決方法。

（1）置信度閾值

在無(wú)監(jiān)督訓(xùn)練過(guò)程中，要排除掉那些模型預(yù)測(cè)不確定的樣本。例如，在小批次訓(xùn)練過(guò)程中，過(guò)濾預(yù)測(cè)值小于輸出閾值的樣本，從而使余留樣本的預(yù)測(cè)標(biāo)簽更加接近真實(shí)值。

（2）熵正則化[10]

熵正則化已經(jīng)被證明在半監(jiān)督學(xué)習(xí)上具有很好的效果，SSF模型也采取熵正則化來(lái)進(jìn)行訓(xùn)練。如前文所述，無(wú)監(jiān)督損失項(xiàng)中的計(jì)算如下：

其中，τ是超參數(shù)，Zy是對(duì)樣本x預(yù)測(cè)的Logit值。

（3）TSA

在半監(jiān)督學(xué)習(xí)中，無(wú)標(biāo)簽數(shù)據(jù)量遠(yuǎn)遠(yuǎn)大于有標(biāo)簽數(shù)據(jù)量往往導(dǎo)致模型在少量的有標(biāo)簽樣本下過(guò)擬合，但在無(wú)標(biāo)簽樣本中卻尚未產(chǎn)生收斂。TSA方法可以解決這個(gè)問(wèn)題，即當(dāng)有標(biāo)簽數(shù)據(jù)過(guò)少時(shí)，對(duì)預(yù)測(cè)值設(shè)定閾值，高于閾值的預(yù)測(cè)值不會(huì)參與反向傳播，從而確保模型不會(huì)因?yàn)闃?biāo)簽數(shù)據(jù)過(guò)少而產(chǎn)生過(guò)擬合。針對(duì)金融領(lǐng)域任務(wù)以及數(shù)據(jù)集的不同，采用不同的TSA策略，具體將在第3.4.2節(jié)中展開(kāi)說(shuō)明。

3 實(shí)驗(yàn)分析

本節(jié)通過(guò)實(shí)驗(yàn)驗(yàn)證SSF模型的有效性，分析討論實(shí)驗(yàn)中的場(chǎng)景數(shù)據(jù)，以及相關(guān)的參數(shù)設(shè)置。

3.1 數(shù)據(jù)集

實(shí)驗(yàn)使用了3份來(lái)源于某金融機(jī)構(gòu)的金融領(lǐng)域文本數(shù)據(jù)集。按照主題可分為違規(guī)類(lèi)別數(shù)據(jù)集、期貨期權(quán)數(shù)據(jù)集和機(jī)構(gòu)相關(guān)數(shù)據(jù)集，各類(lèi)別數(shù)據(jù)的數(shù)量見(jiàn)表1～表3。將數(shù)據(jù)按照8:1:1的比例隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集以及測(cè)試集。這些數(shù)據(jù)集均存在不同程度的類(lèi)別不均衡，且針對(duì)某些業(yè)務(wù)場(chǎng)景的有標(biāo)簽樣本數(shù)目稀少。

表1 違規(guī)類(lèi)別數(shù)據(jù)集

表3 機(jī)構(gòu)相關(guān)數(shù)據(jù)集

● 違規(guī)類(lèi)別數(shù)據(jù)集：來(lái)源于某金融機(jī)構(gòu)從社交媒體平臺(tái)爬取的數(shù)據(jù)集，任務(wù)是預(yù)測(cè)一條文本是否違規(guī)以及違規(guī)類(lèi)別，違規(guī)類(lèi)別分別為惡意抹黑監(jiān)管機(jī)構(gòu)、非法薦股、誘導(dǎo)開(kāi)戶(hù)、煽動(dòng)維權(quán)詐騙。

● 期貨期權(quán)數(shù)據(jù)集：數(shù)據(jù)集來(lái)源于某新聞機(jī)構(gòu)，任務(wù)類(lèi)型為分類(lèi)任務(wù)，預(yù)測(cè)任務(wù)是判斷一條文本是否屬于某一主題。

● 機(jī)構(gòu)相關(guān)數(shù)據(jù)集：數(shù)據(jù)集來(lái)源于某金融機(jī)構(gòu)，任務(wù)類(lèi)型為分類(lèi)任務(wù)，預(yù)測(cè)任務(wù)是判斷一條文本的主體是哪個(gè)私募機(jī)構(gòu)，其中，文本中可能包含多個(gè)私募機(jī)構(gòu)。

3.2 對(duì)比算法

為了測(cè)試本文提出的方法的有效性，將其與幾種主流的文本分類(lèi)模型進(jìn)行了比較，具體如下。

● GloVe[22]：GloVe模型將基于奇異值分解（singular value decomposition，SVD）的潛在語(yǔ)義分析（latent semantic analysis，LSA）算法和word2vec算法結(jié)合到一起，既使用了語(yǔ)料庫(kù)的全局統(tǒng)計(jì)特征，也使用了局部的上下文特征，得到文本詞向量后經(jīng)過(guò)邏輯回歸得到分類(lèi)結(jié)果。

● ELMo[23]：ELMo事先用語(yǔ)言模型在一個(gè)大的語(yǔ)料庫(kù)上學(xué)習(xí)好詞的表示，接著用下游任務(wù)中的無(wú)標(biāo)簽數(shù)據(jù)來(lái)微調(diào)預(yù)訓(xùn)練好的ELMo。相比GloVE，ELMo在多義詞的表示方面取得了改善，得到文本詞向量后經(jīng)過(guò)邏輯回歸得到分類(lèi)結(jié)果。

● FastText[24]：FastText模型架構(gòu)與word2vec中的CBOW很相似，不同之處是FastText預(yù)測(cè)的是標(biāo)簽，而CBOW預(yù)測(cè)的是中間詞，即兩者模型架構(gòu)相似，但是模型的任務(wù)不同。

● VAMPIRE[25]：VAMPIRE模型是一種基于預(yù)訓(xùn)練半監(jiān)督的文本分類(lèi)輕量型模型，旨在解決由大量數(shù)據(jù)和高昂計(jì)算力導(dǎo)致的資源不足問(wèn)題。

● BERT[19]：BERT代表Transformers的雙向編碼器。它被設(shè)計(jì)為通過(guò)對(duì)左右的上下文的聯(lián)合來(lái)預(yù)訓(xùn)練未標(biāo)記文本，從而得到深層的雙向表示。這里使用BERTbase-Chinese預(yù)訓(xùn)練模型，并在下游任務(wù)上進(jìn)行微調(diào)得到分類(lèi)結(jié)果。

● UDA[11]：UDA采用一致性訓(xùn)練框架，在文本分類(lèi)任務(wù)上，采用BERT預(yù)訓(xùn)練模型，在數(shù)據(jù)增強(qiáng)方面，基于WMT’14英法翻譯模型，通過(guò)回譯法對(duì)無(wú)標(biāo)簽數(shù)據(jù)產(chǎn)生噪聲進(jìn)行數(shù)據(jù)增強(qiáng)。

3.3 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)中將有標(biāo)簽數(shù)據(jù)集按照8:1:1劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。測(cè)試集實(shí)驗(yàn)結(jié)果見(jiàn)表4。

從表4可以發(fā)現(xiàn)，SSF模型在3個(gè)數(shù)據(jù)集上的精度和召回率均超過(guò)了先前的對(duì)比模型。與GloVe、ELMo和FastText文本分類(lèi)算法相比，采用一致性訓(xùn)練框架的VAMPIRE、UDA和SSF算法取得了較優(yōu)的表現(xiàn)。與VAMPIRE和BERT算法相比，SSF模型在精度和召回率上都取得了更好的結(jié)果，這表明引入無(wú)監(jiān)督數(shù)據(jù)增強(qiáng)方法可以帶來(lái)更好的性能。與UDA模型相比，SSF模型在精度和召回率上也取得了更好的表現(xiàn)?？梢缘贸鼋Y(jié)論，相對(duì)于UDA中對(duì)無(wú)標(biāo)簽數(shù)據(jù)通過(guò)回譯法進(jìn)行數(shù)據(jù)增強(qiáng)，SSF通過(guò)TF-IDF數(shù)據(jù)增強(qiáng)方法可以針對(duì)性地在中文金融新聞文本分類(lèi)上獲得更好的表現(xiàn)。

表4 SSF模型及其基準(zhǔn)模型實(shí)驗(yàn)結(jié)果

通過(guò)改變有標(biāo)簽文本的數(shù)量，將有標(biāo)簽數(shù)據(jù)的數(shù)量降為原來(lái)的50%，對(duì)比SSF算法與其他文本分類(lèi)算法的性能，實(shí)驗(yàn)結(jié)果見(jiàn)表5。

表5 SSF模型及其基準(zhǔn)模型實(shí)驗(yàn)結(jié)果

在這部分實(shí)驗(yàn)中，筆者針對(duì)有標(biāo)簽數(shù)據(jù)的數(shù)量進(jìn)行了調(diào)整。見(jiàn)表5，給定相同的無(wú)標(biāo)簽數(shù)據(jù)，將有標(biāo)簽數(shù)據(jù)的數(shù)量減少50%，實(shí)驗(yàn)結(jié)果表明，本文所提文本分類(lèi)算法在F1值上都有下降。值得一提的是，SSF算法在更少的標(biāo)注數(shù)據(jù)上的表現(xiàn)大幅優(yōu)于其對(duì)比算法。

通過(guò)上述在3個(gè)標(biāo)簽數(shù)量少的數(shù)據(jù)集上的實(shí)驗(yàn)可以得出，在金融領(lǐng)域中文文本分類(lèi)任務(wù)中，本文提出的SSF框架在有監(jiān)督數(shù)據(jù)樣本缺乏的場(chǎng)景下有更好的表現(xiàn)。

3.4 消融實(shí)驗(yàn)分析

本節(jié)從數(shù)據(jù)增強(qiáng)方面和模型閾值設(shè)置兩個(gè)方面開(kāi)展實(shí)驗(yàn)。

3.4.1 數(shù)據(jù)增強(qiáng)維度的影響分析

不采用數(shù)據(jù)增強(qiáng)機(jī)制時(shí)的SSF變種模型為SSF-w/o-aug，實(shí)驗(yàn)結(jié)果見(jiàn)表6。

表6的結(jié)果顯示，數(shù)據(jù)增強(qiáng)機(jī)制在3個(gè)數(shù)據(jù)集上都為模型的性能帶來(lái)了提升。其中，在違規(guī)類(lèi)別數(shù)據(jù)集上，數(shù)據(jù)增強(qiáng)為模型帶來(lái)了1.74%的精度增值和2.28%的召回率增值；在期貨期權(quán)數(shù)據(jù)集上，數(shù)據(jù)增強(qiáng)機(jī)制為模型帶來(lái)了2.40%的精度增值和1.30%的召回率增值；在機(jī)構(gòu)相關(guān)數(shù)據(jù)集上，數(shù)據(jù)增強(qiáng)機(jī)制給模型帶來(lái)了2.21%的精度增值和2.09%的召回率增值。因?yàn)閿?shù)據(jù)增強(qiáng)機(jī)制可以幫助模型保留文本中的關(guān)鍵信息，所以它在含有專(zhuān)業(yè)詞匯較多的金融文本領(lǐng)域分類(lèi)效果更好。

表6 去除數(shù)據(jù)增強(qiáng)時(shí)的實(shí)驗(yàn)結(jié)果

3.4.2 模型閾值設(shè)置維度的影響分析

考慮不同TSA策略對(duì)實(shí)驗(yàn)結(jié)果的影響，實(shí)驗(yàn)結(jié)果見(jiàn)表7。

表7的結(jié)果顯示，在違規(guī)類(lèi)別數(shù)據(jù)集上，有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)的比例為1:109（表1），在無(wú)監(jiān)督訓(xùn)練時(shí)較快的收斂策略得到了較高的準(zhǔn)確率；而在期貨期權(quán)數(shù)據(jù)集上，有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)的比例約為1:14（表2），對(duì)數(shù)增長(zhǎng)的TSA策略取得了最佳的效果；在機(jī)構(gòu)相關(guān)數(shù)據(jù)集上，有標(biāo)簽和無(wú)標(biāo)簽的比例約為1:20（表3），采用線(xiàn)性增長(zhǎng)的TSA策略取得了最佳的效果。這表明在有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)比例不同時(shí)，采用不同的TSA策略可以有效地避免模型過(guò)擬合。

表2 期貨期權(quán)數(shù)據(jù)集

表7 采用不同TSA策略的實(shí)驗(yàn)結(jié)果

4 結(jié)束語(yǔ)

本文圍繞金融領(lǐng)域的業(yè)務(wù)需求，針對(duì)中文金融領(lǐng)域數(shù)據(jù)集提出了SSF半監(jiān)督學(xué)習(xí)框架，通過(guò)使用針對(duì)性的數(shù)據(jù)增強(qiáng)方法對(duì)樣本中的無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行了數(shù)據(jù)增強(qiáng)，在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)表明，本文提出的SSF方法適用于金融領(lǐng)域下標(biāo)簽樣本少的文本分類(lèi)任務(wù)，并且性能優(yōu)于先前的工作。由于硬件以及ALBERT預(yù)訓(xùn)練模型本身的限制，筆者在實(shí)驗(yàn)中采用的最大序列長(zhǎng)度為256，但是相關(guān)數(shù)據(jù)集的長(zhǎng)度一般為1000左右，需要指出，即使在如此有限的文本輸入上，SSF模型的表現(xiàn)能力也是較為理想的。但是，更好地處理長(zhǎng)文本信息使得模型感知到盡可能多的內(nèi)容，將有助于模型的效果提升，因此，長(zhǎng)文本數(shù)據(jù)上的模型優(yōu)化是進(jìn)一步的研究工作。