亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        用于金融文本挖掘的多任務(wù)學(xué)習(xí)預(yù)訓(xùn)練金融語言模型

        2021-08-17 00:51:44WayneLin
        計算機研究與發(fā)展 2021年8期
        關(guān)鍵詞:金融文本模型

        劉 壯 劉 暢 Wayne Lin 趙 軍

        1(東北財經(jīng)大學(xué)應(yīng)用金融與行為科學(xué)學(xué)院 遼寧大連 116025) 2(中國石油物資采購中心 沈陽 110031) 3(南加州大學(xué)計算機學(xué)院 美國加利福尼亞州洛杉磯 90007) 4(IBM研究院 北京 100101)

        海量的互聯(lián)網(wǎng)金融信息在金融市場中有著舉足輕重的地位,對網(wǎng)絡(luò)金融文本信息的挖掘工作具有很大的實際價值.隨著大數(shù)據(jù)時代的到來,金融大數(shù)據(jù)挖掘已成為行業(yè)熱點趨勢,面向金融的機器學(xué)習(xí)技術(shù)吸引了越來越多的關(guān)注.面對每日產(chǎn)生的數(shù)量驚人的金融文本數(shù)據(jù),如何從中提取有價值的信息已經(jīng)成為學(xué)術(shù)界和工業(yè)界一個非常有挑戰(zhàn)的研究.如果我們采取人工的方式來分析這些文本信息并從中獲得可行的見解幾乎是一項極其艱巨的任務(wù).機器學(xué)習(xí)技術(shù)的進步使金融科技中的金融文本挖掘模型成為可能.但是,在金融文本挖掘任務(wù)中,構(gòu)建有監(jiān)督訓(xùn)練數(shù)據(jù)代價非常高昂,因為這需要使用財務(wù)領(lǐng)域的專家知識.由于可用于金融文本挖掘任務(wù)的有標(biāo)簽訓(xùn)練數(shù)據(jù)量很少,因此大多數(shù)金融文本挖掘模型無法直接利用深度學(xué)習(xí)技術(shù).

        在本文中,我們創(chuàng)新地提出了F-BERT模型,通過利用自監(jiān)督學(xué)習(xí)和多任務(wù)學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)方法來解決該問題.當(dāng)前,金融科技中的金融文本挖掘模型主要是采取基于深度學(xué)習(xí)(deep learning)的自然語言處理(natural language processing)技術(shù).

        目前,自然語言處理主要使用基于深度神經(jīng)網(wǎng)絡(luò)的技術(shù),其發(fā)展主要有兩大里程碑工作.首先是2013年提出并不斷發(fā)展的以Word2Vec[1]為代表的詞向量技術(shù),例如Word2Vec,GloVe[2]等;第2個里程碑是在2018年底由谷歌提出的以BERT(bidir-ectional encoder representations from transformers)[3]為典型代表的預(yù)訓(xùn)練語言模型(pre-training language models)技術(shù),例如BERT,ELMO[4]等.其中,諸如Word2Vec,GloVe之類的詞編碼是從無監(jiān)督語料庫中提取知識的一種方式,已成為自然語言處理的主要進步之一.但是,由于在金融領(lǐng)域中包含了很多專業(yè)術(shù)語,因此這些簡單的詞向量方法不夠有效.另一方面,預(yù)先訓(xùn)練的語言模型技術(shù),例如BERT,ALBERT[5]等,采取在大規(guī)模無監(jiān)督數(shù)據(jù)(例如維基百科數(shù)據(jù)等)上進行了預(yù)先訓(xùn)練,經(jīng)過大規(guī)模語言模型預(yù)訓(xùn)練,BERT獲得了有效的上下文表示.與Word2Vec詞向量相比,BERT能夠充分利用深度預(yù)訓(xùn)練模型的參數(shù),可以更有效地學(xué)習(xí)上下文知識.但是,模型的預(yù)訓(xùn)練(例如BERT)主要使用基于簡單的預(yù)訓(xùn)練任務(wù)來對語言模型進行訓(xùn)練,從而使得模型具備掌握單詞或句子共現(xiàn)的能力.實際上,除了共現(xiàn)之外,還有其他詞匯、句法和語義信息需要在訓(xùn)練語料庫中進行檢查.尤其是對于金融文本數(shù)據(jù),例如,股票、債券類型和金融機構(gòu)名稱之類的命名實體包含唯一的詞匯信息.此外,諸如句子順序和句子之間的接近度之類的信息也使模型能夠?qū)W習(xí)語義感知表示.并且,BERT的預(yù)訓(xùn)練數(shù)據(jù)來自Books Corpus和英文維基百科,這些語料不一定和目標(biāo)任務(wù)的語言環(huán)境相近,如金融領(lǐng)域.因此,如果我們直接使用BERT進行金融文本挖掘,效果并不是很好.

        為了在大型金融訓(xùn)練語料庫中有效地捕獲語言知識和語義信息,我們構(gòu)建了涵蓋更多知識的4個自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練任務(wù),并通過對訓(xùn)練數(shù)據(jù)進行多任務(wù)學(xué)習(xí)來訓(xùn)練F-BERT.具體而言,我們創(chuàng)新地提出了F-BERT模型,在該模型架構(gòu)中,我們構(gòu)建了4個自監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練任務(wù),并同時對普通文本語料和金融領(lǐng)域文本語料進行了學(xué)習(xí),從而使得F-BERT可以更好地捕獲金融文本數(shù)據(jù)的語言知識和語義等信息.總結(jié)來說,本文的主要貢獻有5個方面:

        1) 利用深度學(xué)習(xí)領(lǐng)域的自監(jiān)督學(xué)習(xí)和多任務(wù)學(xué)習(xí)技術(shù),提出了一種基于BERT模型架構(gòu)的大規(guī)模語料上訓(xùn)練的開源金融預(yù)訓(xùn)練模型F-BERT.

        2) 構(gòu)建了4個自監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練任務(wù),可以通過多任務(wù)自監(jiān)督學(xué)習(xí)來進行同時預(yù)訓(xùn)練,通過該機制可以有效地捕獲大規(guī)模預(yù)訓(xùn)練語料中的金融語言知識和語義等信息.

        3) 分別在金融關(guān)系提取、金融情緒分類、金融智能問答任務(wù)上進行了金融任務(wù)實驗,驗證了F-BERT的有效性和魯棒性.實驗結(jié)果表明F-BERT模型在這3個有代表性的金融文本挖掘任務(wù)均取得了最佳準(zhǔn)確性,優(yōu)于所有當(dāng)前其他模型性能;另外,針對金融命名實體識別、金融短文本分類這2個實際金融科技任務(wù)也進行了實驗驗證,所提出的F-BERT模型均取得了最佳準(zhǔn)確性.

        4) 采取了一種混合精度訓(xùn)練方法,并在Horovod框架上進行F-BERT的分布式訓(xùn)練,既使得整個訓(xùn)練過程具有穩(wěn)定加速比,同時擁有較好的可擴展性.

        5) 在Github上進行了F-BERT的開源,包括其模型架構(gòu)、源代碼、超參數(shù)、訓(xùn)練模型,以及用于微調(diào)的源代碼.通過該開源代碼,F(xiàn)-BERT可用于各種其他下游金融文本挖掘任務(wù),對特定金融文本分析任務(wù)進行最少的修改即可幫助實現(xiàn)最新的性能.

        1 相關(guān)工作

        1.1 預(yù)訓(xùn)練模型

        預(yù)訓(xùn)練模型最早應(yīng)用于機器圖像和計算機視頻領(lǐng)域.在2012年的大規(guī)模圖像識別競賽ImageNet[6]中,當(dāng)時取得第一名成績的AlexNet[7]橫空出世,它采取了基于CNN[8]的卷積神經(jīng)網(wǎng)絡(luò)模型架構(gòu).此后,AlexNet被廣泛應(yīng)用在眾多的機器視覺任務(wù)中.雖然很多新模型并不是完全借鑒AlexNet模型架構(gòu)從頭開始訓(xùn)練,而是主要利用在ImageNet上訓(xùn)練得到的AlexNet模型的參數(shù)和神經(jīng)網(wǎng)絡(luò)架構(gòu),再進一步結(jié)合實際任務(wù)進行少量修改,然后在新的數(shù)據(jù)上訓(xùn)練和優(yōu)化.實驗結(jié)果表明,復(fù)用預(yù)訓(xùn)練模型可以顯著增加目標(biāo)任務(wù)的準(zhǔn)確度,也大大縮短了新模型的訓(xùn)練時間.

        預(yù)訓(xùn)練模型的一大優(yōu)勢是,可以利用在其他相似任務(wù)的大量數(shù)據(jù)上建立有效的模型再遷移到目標(biāo)任務(wù),從而解決了目標(biāo)任務(wù)(例如股票漲跌預(yù)測)訓(xùn)練數(shù)據(jù)不足的問題.另外,從垂直領(lǐng)域文檔(例如金融文本數(shù)據(jù)等)中提取有價值的信息正在變得越來越重要,深度學(xué)習(xí)促進了有效的垂直領(lǐng)域文本挖掘的研究發(fā)展.

        1.2 預(yù)訓(xùn)練語言模型BERT

        Google在2018年下半年發(fā)布了預(yù)訓(xùn)練語言模型BERT[3],在自然語言處理界具有開創(chuàng)時代的意義.接下來,BERT模型在十多個自然語言理解任務(wù)中全部取得了最佳模型準(zhǔn)確率,在多個公開自然語言處理競賽上取得大幅提升,甚至在常識推理、自動問答、情緒分析、關(guān)系抽取、命名實體識別等競賽均取得了超過了人類準(zhǔn)確率的成績.同時,在BERT模型的源碼發(fā)布之后,后續(xù)研究人員基于開源代碼和預(yù)訓(xùn)練模型進行了各種自然語言處理任務(wù),進一步大幅提升了各個NLP任務(wù)模型的成績.例如,在SQuAD[9-12]競賽排行榜上排名前20名的模型均選擇使用BERT模型,且最好成績超過人類水平;在CoQA[13-15]競賽排行榜上,排名前12名的模型也全部基于BERT模型,排名第一的模型也同樣取得了超過人類水平的成績.

        BERT本質(zhì)上也是一種多層Transformer[16]結(jié)構(gòu).它的輸入是一段文本中每個單詞的詞向量(分詞由Word Piece生成),輸出是每個單詞的BERT編碼.單詞的BERT編碼表示一般包含了該單詞及其上下文的信息.BERT模型采用了2個預(yù)訓(xùn)練任務(wù):雙向語言模型和判斷下一段文本.這2個任務(wù)均屬于無監(jiān)督學(xué)習(xí),即只需要文本語料庫,不需要任何人工標(biāo)注數(shù)據(jù).

        1) 掩碼機制

        BERT提出了掩碼機制.BERT在一段文本中隨機挑選15%的單詞,以掩碼符號[MASK]代替.然后,利用多層Transformer機制預(yù)測這些位置的單詞.由于輸入中沒有被掩去的單詞的任何信息,這些位置上的Transformer輸出可以用來預(yù)測對應(yīng)的單詞.因此BERT是一個雙向語言模型.但是,由于原文本中并不包含掩碼[MASK],從而使得預(yù)訓(xùn)練任務(wù)與真正目標(biāo)任務(wù)會出現(xiàn)不一致的情況.為了更好地緩解這個問題,BERT采取了在選取被掩單詞后以80%的概率替換成[MASK],同時以10%的概率替換成一個隨機單詞,以10%的概率保持原單詞的方法.最終實驗也證明該方法可以有效地提升目標(biāo)任務(wù)的準(zhǔn)確性.

        2) 判斷下一段文本機制

        BERT的第2個預(yù)訓(xùn)練任務(wù)是二分類問題:給定2段文本A,B,判斷B是否是原文中A的下一段文本.為了盡可能多地考慮上下文,文本A和B的長度總和最大為512個詞.訓(xùn)練中,50%的正例來自原文中緊挨著的2段文本,50%的負(fù)例來自2段無關(guān)聯(lián)的文本.由于Transformer結(jié)構(gòu)只接收一段文本輸入,BERT將A和B拼接起來,并加上起始符號[CLS]和分隔符[SEP].為了使模型區(qū)分文本A和B,還加入了段編碼,即給文本A和文本B中的單詞分配不同的編碼.設(shè)起始符[CLS]位置的BERT編碼為CLS,則模型預(yù)測文本B是文本A的下一段文本的概率.判斷下一段文本的預(yù)訓(xùn)練任務(wù)屬于分類問題,提高了預(yù)訓(xùn)練階段與微調(diào)階段任務(wù)的契合度.這也是BERT取得比其他預(yù)訓(xùn)練語言模型更優(yōu)秀結(jié)果的原因之一.

        3) BERT預(yù)訓(xùn)練

        BERT的預(yù)訓(xùn)練數(shù)據(jù)來自公開語料庫Books Corpus(共8億個詞)和英文維基百科(共25億個詞)[3].BERT公開的預(yù)訓(xùn)練模型有BASE與LARGE兩種.

        ① BERTBASE:12層Transformer,輸入和輸出維度為768,注意力含12個Head,共1.1億個參數(shù).

        ② BERTLARGE:24層Transformer,輸入和輸出維度為1 024,注意力含24個Head,共3.4億個參數(shù).

        其中,2個模型均訓(xùn)練了40輪.BERTBASE在4個Cloud TPU上訓(xùn)練,BERTLARGE在16個Cloud TPU上訓(xùn)練,均花費了4天左右的時間.特別地,相比于GPU來說,針對深度學(xué)習(xí)訓(xùn)練TPU能夠進行更好的硬件和算法的優(yōu)化.在4個GPU上訓(xùn)練BERTLARGE需要花費初略計算約100天時間.因此,BERT語言模型被提出時是當(dāng)時耗費計算資源最多且模型規(guī)模最大的自然語言預(yù)訓(xùn)練模型.

        2 F-BERT模型

        如圖1所示,我們利用深度學(xué)習(xí)領(lǐng)域的自監(jiān)督學(xué)習(xí)和多任務(wù)學(xué)習(xí)技術(shù),創(chuàng)新地提出了基于BERT模型架構(gòu)的垂直領(lǐng)域預(yù)訓(xùn)練語言模型:金融預(yù)訓(xùn)練語言模型,我們將其命名為F-BERT模型.F-BERT是同樣采取預(yù)訓(xùn)練(pre-training)加微調(diào)(fine-tuning)的兩階段架構(gòu).其中,在模型預(yù)訓(xùn)練階段,F(xiàn)-BERT與傳統(tǒng)的BERT預(yù)訓(xùn)練不同之處在于,與其使用少量的預(yù)訓(xùn)練目標(biāo)進行訓(xùn)練,不如考慮同時引入多種預(yù)訓(xùn)練任務(wù)來嘗試更好地幫助模型進行有效地學(xué)習(xí)訓(xùn)練.因為除了語言共現(xiàn)信息之外,在訓(xùn)練語料中實際上還涉及到多方面的語言知識,例如詞法、句法以及更高層次的語義和語用等知識.同時,也還包括金融實體等詞語概念的知識、文本語義相似度等語義知識.最重要的是,F(xiàn)-BERT會通過多任務(wù)學(xué)習(xí)來不斷地更新預(yù)訓(xùn)練模型.并且,與現(xiàn)有的預(yù)訓(xùn)練模型相比,F(xiàn)-BERT同時在通用語料庫和金融領(lǐng)域語料庫上進行訓(xùn)練.在微調(diào)階段,首先使用預(yù)訓(xùn)練的參數(shù)初始化F-BERT,然后使用特定于任務(wù)的監(jiān)督數(shù)據(jù)進行微調(diào)訓(xùn)練.

        Fig. 1 An illustration of the architecture for F-BERT圖1 F-BERT模型的預(yù)訓(xùn)練架構(gòu)

        本節(jié)將對F-BERT模型架構(gòu)進行詳細(xì)描述.

        2.1 編碼器

        在預(yù)訓(xùn)練的階段,我們使用Transformer編碼器,采取和BERT類似的編碼方法,即位置編碼(position embedding)、段編碼(segment embdding)和令牌編碼(token embedding),但除此之外我們額外設(shè)計了一個任務(wù)編碼(task embedding).針對不同的預(yù)訓(xùn)練任務(wù),我們使用任務(wù)編碼來精細(xì)化地建模不同類型的任務(wù).對于N個任務(wù),任務(wù)的ID范圍就是1~N,每個任務(wù)ID都會被映射到不同的編碼上,最終輸入編碼的輸入為:輸入編碼=位置編碼+段編碼+令牌編碼+任務(wù)編碼.具體如圖2所示.

        Fig. 2 Transformer encoder layer圖2 Transformer編碼層

        接下來,針對輸入編碼計算注意力,我們使用Transformer的多頭自注意力機制進行計算.它主要由查詢Query(使用Q來代替),鍵Key(使用K來代替)和值Value(使用V來代替)作為輸入,然后使用線性變換對Q,K,V進行投影,并且可以同步計算多次,即使用多頭h來表示h個不同的線性變化.最后再將全部的注意力值結(jié)果進行拼接,從而完成一次多頭注意力計算.對于單個Q,注意力功能的輸出是V的加權(quán)組合.為了簡化計算,在這里我們將自注意力取相同的Q,K,V值,并且注意力計算使用是縮放點積.具體注意力函數(shù)為

        其中,d表示Q,K,V向量維度.

        2.2 自監(jiān)督多任務(wù)學(xué)習(xí)預(yù)訓(xùn)練任務(wù)

        目前預(yù)訓(xùn)練階段主要是利用句子或詞的共現(xiàn)信號設(shè)計不同任務(wù)進行語言模型的預(yù)訓(xùn)練.例如,原始BERT模型構(gòu)建了2個預(yù)訓(xùn)練(遮蔽語言模型任務(wù)和下一句預(yù)測任務(wù));XLNet[9]模型利用全排列的語言模型進行自回歸方式的預(yù)訓(xùn)練.相比較之下,我們在F-BERT模型中堆疊了大量的預(yù)訓(xùn)練目標(biāo).就好像人類進行外語考試,在卷子上面有多種不同的題型,如果可以進行綜合訓(xùn)練,那么對整體學(xué)習(xí)提升一定有很大幫助.具體來說,在預(yù)訓(xùn)練階段,F(xiàn)-BERT構(gòu)造了4個自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練任務(wù),并通過多任務(wù)學(xué)習(xí)方式從訓(xùn)練文本語料中學(xué)習(xí)不同層面的知識.如圖1所示,這4個自監(jiān)督的預(yù)訓(xùn)練任務(wù)分別為:跨度替換預(yù)測預(yù)訓(xùn)練任務(wù)、大寫預(yù)測預(yù)訓(xùn)練任務(wù)、句子打亂重組預(yù)訓(xùn)練任務(wù),以及問答句子關(guān)系預(yù)訓(xùn)練任務(wù).

        1) 跨度替換預(yù)測預(yù)訓(xùn)練

        我們采取了一種分詞級別的預(yù)訓(xùn)練任務(wù),實現(xiàn)跨度替換預(yù)測預(yù)訓(xùn)練.BERT模型的輸入主要是以字為單位進行切分,這樣就不能夠更好地考慮到共現(xiàn)單詞和共現(xiàn)詞組間的關(guān)系,進一步導(dǎo)致不能充分學(xué)習(xí)其所包括對隱含先驗知識.針對金融領(lǐng)域文本語料該問題就會更進一步被放大,從而降低模型的學(xué)習(xí)效果.通過借鑒Mandar等人提出的SpanBERT[17]思想,我們對谷歌原生的BERT模型進行了2方面改進:①不再對單個隨機詞定義掩碼,而是定義了一種更好的跨度掩碼方案,即采取隨機對一定窗口范圍的鄰接詞來設(shè)計掩碼;②不再對分詞內(nèi)單個詞的表示過多依賴,而是定義一種分詞邊界表示來預(yù)測被添加掩碼的分詞內(nèi)容,從而實現(xiàn)跨度替換預(yù)測的訓(xùn)練目標(biāo),最終我們可以更充分地學(xué)習(xí)到領(lǐng)域性更強的金融領(lǐng)域文本知識,提升F-BERT模型性能.

        關(guān)于跨度替換預(yù)測預(yù)訓(xùn)練任務(wù),具體來說,首先,我們迭代地采樣文本序列,即針對每一個單詞序列X=(x1,x2,…,xn),通過定義一個掩碼比例閾值(例如整個序列的20%)來構(gòu)造一個序列子集Y.在F-BERT訓(xùn)練任務(wù)中,我們采取基于幾何分布來隨機選擇一定長度的文本.由于幾何分布(geometric distribution)是一種離散型概率分布,在它的第m次伯努利試驗中,試驗k次才得到第1次成功的機率,因此我們能夠均勻地(隨機地)得到分詞起點并可以得到一個較短的序列.為了獲得更佳的采樣長度分布,F(xiàn)-BERT模型中的幾何概率分布超參數(shù)P=0.18,最大長度上限T=16(超出部分按照丟棄處理),通過實驗我們得到的最佳平均序列長度是4.6.接下來,我們具體實現(xiàn)了該實現(xiàn)跨度替換預(yù)測預(yù)訓(xùn)練任務(wù).在F-BERT訓(xùn)練過程中,我們將跨度定義為取跨度前后邊界的4個詞,如果這些詞沒有在跨度范圍內(nèi),就使用這4個詞的向量再加上跨度中被遮蓋掉詞的向量來預(yù)測原來的單詞.具體實現(xiàn)就是使用一個2層的前饋神經(jīng)網(wǎng)絡(luò),并使用層正則化,其中的激活函數(shù)我們使用ReLU,從而將編碼向量和位置向量拼接起來:

        h=LayerNorm(ReLU(W1X)),
        f=LayerNorm(ReLU(W2h)).

        我們同樣使用交叉熵作為損失函數(shù),就是跨度替換預(yù)測預(yù)訓(xùn)練目標(biāo)的損失來用于模型訓(xùn)練.

        為了更直觀地理解跨度替換預(yù)測訓(xùn)練,圖3中給出一個具體例子,其中使用了跨度替換預(yù)測預(yù)訓(xùn)練任務(wù).假設(shè)輸入序列為“股價預(yù)測很困難”,以“很”字為例,我們首先隨機掩蓋一個連續(xù)的跨度(圖中的x4到x6),針對待預(yù)測字的位置信息和基于該跨度前后S個字的表示(這里S=2)來進行最終預(yù)測,這個過程就是跨度替換預(yù)測訓(xùn)練任務(wù),同理,最終的“測”和“困”也使用同樣的跨度替換方法來進行預(yù)測.在跨度替換預(yù)測過程中,對每個文本序列相當(dāng)于進行多次驗碼,因此任意字都會成為跨度替換預(yù)測連續(xù)內(nèi)容,這樣就實現(xiàn)了各個字的表示均會包含周圍跨度的信息,從而將跨度前后字的知識體現(xiàn)到跨度中的字的語義信息中.針對抽取類任務(wù)中(例如金融文本邊界檢測,跨度和起止位置的知識對模型而已非常重要),我們通過對預(yù)訓(xùn)練語料的不斷訓(xùn)練,最終就可以使得F-BERT模型在這樣的抽取類任務(wù)中取得很好的效果.

        Fig.3 An example of span boundary prediction task圖3 跨度替換預(yù)測預(yù)訓(xùn)練示例

        2) 大寫預(yù)測預(yù)訓(xùn)練任務(wù)

        大寫預(yù)測預(yù)訓(xùn)練任務(wù)主要是由F-BERT模型預(yù)測一個字母是不是大寫.這個對特定的任務(wù)例如命名實體識別比較有用,與句子中的其他單詞相比,大寫單詞通常具有某些特定的語義價值,尤其對于金融文本處理,其中包含很多專業(yè)命名實體,因此該任務(wù)可以發(fā)揮很大作用.同時,針對中文的訓(xùn)練語料,我們還額外定義了一個預(yù)測某個詞組是不是專有短語的縮寫訓(xùn)練任務(wù),這個針對中文的金融文本處理作用較大.

        3) 句子打亂重組預(yù)訓(xùn)練任務(wù)

        句子打亂重組預(yù)訓(xùn)練任務(wù)主要是進行順序還原,就是將輸入文本序列隨機打亂,然后通過該任務(wù)將其還原回來.受到ALBERT和T5[18]預(yù)訓(xùn)練任務(wù)的啟發(fā),我們提出一種更優(yōu)的重組任務(wù).具體來說,首先把一篇文章隨機分為n=1到k份,對于每種分法都有n!種組合,然后我們再讓模型去預(yù)測這篇文章是第幾種,本質(zhì)相當(dāng)于構(gòu)造了一個多分類的問題,通過該任務(wù)就能夠讓模型學(xué)到句子之間的順序關(guān)系.

        4) 問答句子關(guān)系預(yù)訓(xùn)練任務(wù)

        問答句子關(guān)系預(yù)訓(xùn)練任務(wù)主要是判斷2個句子是否屬于問答對.問答或者對話的數(shù)據(jù)對語義表示很重要,因為對于相同回答的提問一般都是具有類似語義的,通過修改段嵌入,使之能夠適用多輪問答或多輪對話的形式.具體:定義3個句子的組合[CLS]Sentence1[CLS]Sentence2[SEP]Sentence3[SEP]的格式,這種組合可以表示多輪問答和多輪對話,例如QRQ,QRR.在這里,Q表示“問題”文本,R表示“答案”文本.

        3 實驗分析

        本節(jié)我們首先給出預(yù)訓(xùn)練數(shù)據(jù)集的構(gòu)建;然后在多個金融任務(wù)上將F-BERT與最新的預(yù)訓(xùn)練模型進行了性能比較;最后進行了詳細(xì)的模型分析,包括預(yù)訓(xùn)練對模型性能的影響、少量預(yù)訓(xùn)練數(shù)據(jù)進行預(yù)訓(xùn)練分析和預(yù)訓(xùn)練語料庫的大小的討論等.

        3.1 預(yù)訓(xùn)練數(shù)據(jù)集

        為了更好地訓(xùn)練F-BERT模型,我們主要構(gòu)建了基于通用領(lǐng)域和金融領(lǐng)域2部分的訓(xùn)練語料.其中,通用領(lǐng)域訓(xùn)練數(shù)據(jù)集與BERT模型訓(xùn)練相似,使用來自Wikipedia和Book Corpus的英語語料庫.為了將F-BERT模型更好地應(yīng)用于金融文本,我們還構(gòu)建了金融領(lǐng)域訓(xùn)練數(shù)據(jù)集,通過在金融網(wǎng)站上爬取各種金融文本數(shù)據(jù),包括金融新聞和對話等.如表1所示,我們具體構(gòu)建了4個大小不同、領(lǐng)域不同的英語語料庫,總計超過40 GB大小的文本(約108.4億個詞):

        1) 通用英語訓(xùn)練語料庫Book Corpus和英語Wikipedia.即用于訓(xùn)練BERT的原始數(shù)據(jù),共計13 GB(約33.1億詞)文本.

        2) Financial Web金融文本數(shù)據(jù)集(共23 GB,約62.5億詞).主要是從Common Crawl News數(shù)據(jù)集中進行收集的,其中包含2012-01至2019-12期間的1 300萬條財經(jīng)新聞以及爬取自FINWEB網(wǎng)站的金融文章.

        3) Reddit Finance QA金融問答文本數(shù)據(jù)集(共4 GB,約12.8億詞).主要從Reddit網(wǎng)站上收集有關(guān)金融問題然后構(gòu)建一個問答訓(xùn)練語料.

        表1中報告了F-BERT全部預(yù)訓(xùn)練數(shù)據(jù)的統(tǒng)計信息.我們已經(jīng)建立并維護了一個開放的金融文本語料庫并進行了開源處理,任何人都可以訪問和利用該資料庫資源.

        Table 1 List of Pre-training Corpora Used for F-BERT

        3.2 分布式預(yù)訓(xùn)練

        F-BERT的預(yù)訓(xùn)練過程對整個計算力有著非常大的要求,我們主要采取基于AI Framework On YARN分布式框架來進行F-BERT預(yù)訓(xùn)練.該訓(xùn)練框架是使用Horovod[19]的分布式訓(xùn)練方案,整個架構(gòu)基于YARN實現(xiàn)的16張NVidia Tesla v100 GPU卡進行訓(xùn)練,框架在調(diào)度上非常靈活,同時還具有調(diào)度作業(yè)高伸縮性和高容錯力.Horovod是由Uber發(fā)布的開源深度學(xué)習(xí)工具,它是一個分布式深度學(xué)習(xí)框架.Horovod庫為分布式訓(xùn)練提供了幫助,可以使分布式深度學(xué)習(xí)更易于使用且訓(xùn)練更高效,該庫集成了百度Ring Allreduce和Facebook的一小時訓(xùn)練ImageNet論文的優(yōu)點.Uber官方發(fā)布的Horovod包括TensorFlow和Horovod兩種分布式方案,根據(jù)其架構(gòu)特點,GPU的數(shù)量越多,Horovod性能損失越小,要優(yōu)于分布式TensorFlow,甚至訓(xùn)練速度可以達(dá)到TensorFlow的2倍;同時,即使GPU卡數(shù)量達(dá)到幾十張,仍可以保證穩(wěn)定的加速比.我們使用混合精度的訓(xùn)練方式來訓(xùn)練F-BERT模型,以便可以更好地提高預(yù)訓(xùn)練效率.

        目前的神經(jīng)網(wǎng)絡(luò)模型,它們的訓(xùn)練過程基本都使用雙精度或單精度的數(shù)據(jù)類型.但由于顯存大小的限制,如果神經(jīng)網(wǎng)絡(luò)模型很深且比較復(fù)雜時通常會使得處理的batch較小.如果調(diào)整batch的大小,會降低數(shù)據(jù)的處理效率,訓(xùn)練速度會受到影響,并且一旦batch很小的話,也會造成模型訓(xùn)練不穩(wěn)定并影響模型整體性能.2018年,百度在ICLR提出了一種單精度和雙精度的混合精度訓(xùn)練,該方法可以減少顯存消耗并加速訓(xùn)練,通過在語言模型任務(wù)、語言識別任務(wù)和圖像檢測任務(wù)上進行了有效性驗證,均表現(xiàn)非常高效.通常而言,Nvidia的Pascal系列顯卡或新一代GPU架構(gòu)Volta系列在單精度和底精度計算方面都有非常好的支持,例如,NVIDIA Tesla P40硬件支持INT8計算加速,NVIDIA Tesla V10支持FP16計算加速,同時,就計算峰值而言,相比單精度浮點,低精度浮點計算的峰值要高得多.因此,本節(jié)提出的F-BERT,在實驗中采用了混合精度訓(xùn)練方式.具體而言,F(xiàn)-BERT采用的是FP16和FP32的混合精度訓(xùn)練.其中,模型的計算過程使用FP16精度進行加速,而權(quán)重參數(shù)會以FP32數(shù)據(jù)格式進行存儲、FP32格式進行參數(shù)更新,從而使得模型兼具了FP16的速度和FP32的穩(wěn)定性.因此,F(xiàn)-BERT的訓(xùn)練過程既減少了緩存的開銷也加速了訓(xùn)練,同時因為FP16的速度優(yōu)勢,使得F-BERT的整體預(yù)訓(xùn)練和推理都有了一定提升.另外,由于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練梯度一般會超過FP16的范圍,為了控制梯度使其在反向傳播過程中在其表示范圍內(nèi),在訓(xùn)練過程中,我們針對F-BERT特別使用了Loss Scaling策略控制來對損失的控制,對其梯度進行了放大的處理.

        3.3 微調(diào)任務(wù)

        微調(diào)(fine-tuning)是機器學(xué)習(xí)和深度學(xué)習(xí)中常用的一種調(diào)參方法.在實際中,考慮到數(shù)據(jù)不足夠大,通常很少且很難從頭開始重新進行神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練.通常采取的辦法是探索如何利用已有的神經(jīng)網(wǎng)絡(luò),然后在其基礎(chǔ)上結(jié)合具體任務(wù)特點進行進一步訓(xùn)練處理.通常,預(yù)訓(xùn)練語言模型BERT包括2個連續(xù)的步驟:一個是預(yù)訓(xùn)練階段(pre-training),另外一個是微調(diào)階段(fine-tuning).它首先在預(yù)訓(xùn)練階段對大型語料庫進行無監(jiān)督預(yù)訓(xùn)練,接下來在微調(diào)階段再對下游的自然語言處理任務(wù)進行有監(jiān)督微調(diào).與BERT相似,從頭開始在這些大型無監(jiān)督語料上訓(xùn)練F-BERT模型,并將其微調(diào)/應(yīng)用于各種下游有監(jiān)督的金融文本處理任務(wù).在這里,我們分別在金融關(guān)系提取、金融情緒分類、金融智能問答任務(wù)這3個有代表性的金融文本挖掘任務(wù)上進行了微調(diào)處理.

        1) 金融文本邊界檢測

        金融文本關(guān)系抽取常被稱作金融文本邊界檢測,它是金融文本挖掘的基本任務(wù).由于句子是自然語言的基本單位,檢測句子的開頭和結(jié)尾,或者句子邊界檢測是許多自然語言處理任務(wù)(例如詞性標(biāo)記、信息提取等)非?;A(chǔ)的一步.在金融領(lǐng)域,招股說明書等文獻中包含了投資方式等投資基金詳細(xì)信息,金融句子邊界檢測任務(wù),就是指如何將嘈雜的非結(jié)構(gòu)化文本轉(zhuǎn)換為半結(jié)構(gòu)化文本,從而實現(xiàn)通過檢測招股說明書的開始和結(jié)束邊界來提取句子的細(xì)分.2019年,IJCAI19會議發(fā)布了FinNLP金融檢測挑戰(zhàn)賽數(shù)據(jù)集FinSBD Shared Task[20-22].本節(jié)使用FinSBD Shared Task數(shù)據(jù)集作為金融句子邊界檢測任務(wù)的有監(jiān)督微調(diào)數(shù)據(jù).FinSBD-2019數(shù)據(jù)集包含已自動分段的金融文本,它的訓(xùn)練集和開發(fā)集中有953個不同的開始標(biāo)記和207個不同的結(jié)束標(biāo)記.

        2) 金融情緒分析

        金融情緒分析是金融科技中一項基本任務(wù),也是金融文本分析最基本的任務(wù)之一.金融情緒分析主要是指根據(jù)給定金融文本數(shù)據(jù),檢測文本的目標(biāo)情緒得分.本節(jié)使用2個金融情緒分析數(shù)據(jù),分別是Financial PhraseBank和金融情緒分析挑戰(zhàn)數(shù)據(jù)集(FiQA Task1)[23].Financial PhraseBank數(shù)據(jù)集包含了4 845個英語單詞,這些文本是從LexisNexis數(shù)據(jù)庫中發(fā)現(xiàn)的財經(jīng)新聞中隨機挑選的,然后由具有金融和商業(yè)背景的16個專家進行了標(biāo)注處理.金融情緒分析挑戰(zhàn)數(shù)據(jù)集(FiQA Task1)包括2種類型:金融新聞標(biāo)題和金融微博,分別帶有人工標(biāo)注的目標(biāo)實體和情感得分.其中,金融新聞標(biāo)題數(shù)據(jù)集總共包含529個帶標(biāo)注的標(biāo)題樣本(訓(xùn)練集為436個樣本,測試集為93個樣本),而金融微博包含總共774個帶標(biāo)注的帖子樣本(訓(xùn)練集為675個樣本,測試集為99個樣本).

        3) 金融智能問答

        金融智能問答是金融科技的一項具有挑戰(zhàn)的任務(wù),其目的是自動提供與給定短文本或文章相關(guān)的問題的答案.2018年,WWW18會議發(fā)布了2個金融文本處理數(shù)據(jù)集[23-24],分別是金融情緒分析挑戰(zhàn)數(shù)據(jù)集(FiQA Task1)、金融金融智能問答挑戰(zhàn)數(shù)據(jù)集(FiQA Task2).這里使用FiQA Task2的數(shù)據(jù)集作為金融金融智能問答任務(wù)的有監(jiān)督微調(diào)數(shù)據(jù).FiQA Task2數(shù)據(jù)集是通過抓取Stack Exchange網(wǎng)站在2009—2017年間所有涉及“投資”主題的帖子內(nèi)容人工構(gòu)建而成的.例如,類似這樣的問題“Why are big companies like Google or Apple not included in the Dow Jones Industrial Average (DJIA) index?”.最終FiQA Task2數(shù)據(jù)集包含了57 640個答案集,其中包含了17 110個“問題-答案”用于訓(xùn)練集和531個“問題-答案”用于測試集.

        3.4 實驗結(jié)果

        1) 金融文本邊界檢測任務(wù)

        在IJCAI19金融檢測挑戰(zhàn)賽數(shù)據(jù)集FinSBD Shared Task測試集上提交方法以進行評估,詳細(xì)內(nèi)容參見表2.在表2中我們可以看到,針對測試集上的準(zhǔn)確率,所提出的F-BERTLARGE和F-BERTBASE優(yōu)于模型發(fā)布時的其他方法,尤其取得最佳結(jié)果的F-BERTLARGE模型獲得了0.93的ES(end of sentence)得分,0.95的BS(beginning of sentence)得分和0.938的MEAN(平均值)分?jǐn)?shù),均為評估指標(biāo)的最佳成績.正如實驗結(jié)果所看到,對通用領(lǐng)域語料庫和金融領(lǐng)域語料庫進行預(yù)訓(xùn)練的F-BERT是非常有效的,在金融句子邊界檢測任務(wù)上獲得了顯著的模型性能提升.

        Table 2 Experimental Results on Test Set for the FinSBD Dataset

        2) 金融情緒分析任務(wù)

        從表3~4我們可以看到F-BERT模型和其他有競爭力的方法在Financial PhraseBank和金融情感分析數(shù)據(jù)集(FiQA Task1)上的性能.

        如表3~4所示,F(xiàn)-BERT模型(包括F-BERTLARGE和F-BERTBASE)的模型準(zhǔn)確率優(yōu)于基線模型分別在PhraseBank情感分析數(shù)據(jù)集和FiQA Task1情感分析數(shù)據(jù)集上取得的成果.其中,在Financial PhraseBank[29]上,最優(yōu)模型F-BERTLARGE獲得了0.90的準(zhǔn)確率和0.89的F1值.

        情感分析數(shù)據(jù)集FiQA Task1主要包括2種類型的數(shù)據(jù):金融新聞頭條和金融微博.FiQA Task1具體有2個評估指標(biāo)[27]:均方誤差(MSE)和R方(R2).在表4中,MSE(H)和MSE(P)分別表示金融微博的均方誤差和金融新聞頭條的均方誤差,同樣R2(H)和R2(P)分別表示為金融微博和金融新聞頭條的R方值.通過表4可以清晰看到,在FiQA Task1上,最優(yōu)模型F-BERTLARGE獲得了MSE(H)=0.30和R2(H)=064的值,以及MSE(P)=0.34和R2(P)=0.27的值.

        表3~4的實驗結(jié)果表明在Financial PhraseBank和FiQA Task1上,F(xiàn)-BERT的表現(xiàn)均明顯優(yōu)于提交時的所有其他方法,這證明了方法的有效性.考慮到使用眾多語言功能的最新模型的復(fù)雜性,目前的實驗結(jié)果令人鼓舞,這些結(jié)果突出了特定于金融領(lǐng)域的語料庫預(yù)訓(xùn)練設(shè)計的重要性.

        Table 3 Experimental Results on Test Set for the PhraseBank Financial Sentiment Analysis Dataset

        Table 4 Experimental Results on Test Set for the FiQA Task1 Financial Sentiment Analysis Dataset

        3) 金融智能問答任務(wù)

        表5展示了金融文本智能問答挑戰(zhàn)數(shù)據(jù)賽(FiQA Task2)上方法和其他基準(zhǔn)模型的性能對比.為了更好地進行金融智能問答模型的性能比較,F(xiàn)iQA Task2數(shù)據(jù)集主要定義了2個評估指標(biāo)[27]:歸一化貼現(xiàn)累積收益(nDCG)和平均倒數(shù)排名(MRR).從表5可以看到,我們的最佳模型F-BERTLARGE在測試集上可達(dá)到nDCG=0.60和MRR=0.52,同時F-BERTBASE達(dá)到了nDCG=0.51和MRR=0.41,其準(zhǔn)確率也高于其他的基準(zhǔn)模型.由于金融智能問答的數(shù)據(jù)一般都很小(只有幾十或者上百個訓(xùn)練樣本),由此可見,模型預(yù)訓(xùn)練模型在金融智能問答任務(wù)中可以起到非常重要的作用.

        Table 5 Experimental Results on Test Set for the FiQA Task2 Question Answering Dataset

        3.5 實驗分析與討論

        為了詳細(xì)分析架構(gòu)內(nèi)各組件對最終性能的影響,在本節(jié)中對架構(gòu)進行了詳細(xì)的模型分析,包括預(yù)訓(xùn)練對模型性能的影響、少量預(yù)訓(xùn)練數(shù)據(jù)進行預(yù)訓(xùn)練分析和預(yù)訓(xùn)練語料庫大小的討論.

        1) 預(yù)訓(xùn)練對模型性能的影響

        如表6所示,進一步測量了預(yù)訓(xùn)練對模型性能的影響.詳細(xì)比較了4個模型:沒有進一步的預(yù)訓(xùn)練,由Vanilla BERT和Vanilla F-BERT表示;對訓(xùn)練集進行進一步的預(yù)訓(xùn)練,使用BERT-task和F-BERT-task表示.在測試數(shù)據(jù)集上使用準(zhǔn)確率、精確率和召回率的得分對相應(yīng)模型進行評估.從表6可以明顯看出,F(xiàn)-BERT模型能帶來可觀的性能提升.盡管BERT任務(wù)在金融領(lǐng)域訓(xùn)練集上進行了進一步的預(yù)訓(xùn)練,但Vanilla F-BERT的性能優(yōu)于2個基于Vanilla BERT的模型Vanilla BERT和BERT-task,在準(zhǔn)確率上,比它們分別提高0.06和0.03.這表明F-BERT在預(yù)訓(xùn)練期間有效地利用了來自大量未標(biāo)記金融文本的領(lǐng)域特定知識.

        Table 6 Experimental Results on Test Set for the Financial Classification Dataset

        2) 少量預(yù)訓(xùn)練數(shù)據(jù)預(yù)訓(xùn)練分析

        預(yù)訓(xùn)練模型通常需要龐大的訓(xùn)練語料庫來進行訓(xùn)練,但是,在金融領(lǐng)域的許多應(yīng)用程序中,很難擁有大型的有標(biāo)注訓(xùn)練語料庫.因此,為進一步驗證F-BERT的優(yōu)勢,本文進行了一個模型實驗.實驗使用小型語料庫來分別對BERT和F-BERT進行預(yù)訓(xùn)練.具體地說,通過在整個金融訓(xùn)練數(shù)據(jù)集中隨機選擇1/8大小的文本數(shù)據(jù)作為訓(xùn)練語料庫.然后,基于自己模擬構(gòu)造的這個小語料庫,對所有模型進行預(yù)訓(xùn)練,并和1)中實驗的相同任務(wù)上進行測試,實驗結(jié)果詳見表7.

        Table 7 The Performance of BERT and F-BERT on Three Financial Tasks When They Are Trained on a Small Corpus

        從表7中的實驗數(shù)據(jù)我們可以看到,與之前的實驗相比,該實驗呈現(xiàn)了相同的趨勢,F(xiàn)-BERT模型在所有任務(wù)中始終勝過BERT.該實驗結(jié)果進一步證實,當(dāng)模型在不同大小的語料庫上訓(xùn)練時,F(xiàn)-BERT可提供穩(wěn)定的增強.如表7所示,這些實驗數(shù)據(jù)也表明,F(xiàn)-BERT模型可以在具體金融文本處理任務(wù)上提供更多幫助,例如金融機器閱讀理解任務(wù)、金融情感分析任務(wù)和金融句子邊界檢測任務(wù).總體而言,該實驗?zāi)M了在數(shù)據(jù)有限的情況下對金融文本進行預(yù)訓(xùn)練的情況,這是特定領(lǐng)域經(jīng)常遇到的問題,因此證明了F-BERT有潛力處理特定領(lǐng)域的小訓(xùn)練數(shù)據(jù)集問題.

        3) 預(yù)訓(xùn)練語料庫的大小及訓(xùn)練時長變化分析

        為了進一步評估針對不同大小的數(shù)據(jù)集F-BERT模型的表現(xiàn),我們針對預(yù)訓(xùn)練語料庫的規(guī)模大小進行了消融實驗.通過在3個具體下游金融任務(wù)上的性能改進變化,進一步驗證了在預(yù)訓(xùn)練階段數(shù)據(jù)大小和多樣性的重要性.表8詳細(xì)地展示了不同大小的數(shù)據(jù)集上F-BERT模型的性能變化.通過該實驗我們還觀察到,隨著訓(xùn)練時間的提升F-BERT并沒有過分?jǐn)M合數(shù)據(jù),模型同樣會從進一步訓(xùn)練中獲益.

        Table 8 The Performance of F-BERT on Different Traing Size and Steps of the Corpus

        3.6 真實業(yè)務(wù)數(shù)據(jù)的實驗

        我們利用真實線上業(yè)務(wù)數(shù)據(jù)對所提出的F-BERT模型有效性進行了進一步驗證.具體來說,我們從金融科技實際業(yè)務(wù)中抽象并人工構(gòu)建了2個典型的金融領(lǐng)域數(shù)據(jù)集:包括金融命名實體識別任務(wù)數(shù)據(jù)集和金融短文本分類任務(wù)數(shù)據(jù)集,然后分別針對金融命名實體識別和金融短文本分類這2個實際金融任務(wù)進行了實驗.

        1) 金融命名實體識別

        金融命名實體識別,是一種非常常見的金融業(yè)務(wù),此任務(wù)主要是對給定的金融文本,利用訓(xùn)練模型可以自動完成有特定意義的金融實體的識別,包括識別出金融機構(gòu)名、人名(例如高管、人名),以及其他專有實體名詞等.該任務(wù)也是關(guān)系抽取和實體提取的基礎(chǔ)任務(wù),也多用于金融大數(shù)據(jù)和金融知識圖譜相關(guān)任務(wù)中,是金融數(shù)據(jù)分析的一項非常基礎(chǔ)的任務(wù).在這里,我們對實際業(yè)務(wù)數(shù)據(jù)進行了簡化和脫敏處理,從真實數(shù)據(jù)中人工整理出一個金融命名實體識別數(shù)據(jù)集.該數(shù)據(jù)集共包含53 000條訓(xùn)練樣本,測試數(shù)據(jù)集45 000條,訓(xùn)練數(shù)據(jù)樣本8 000條.

        2) 金融短文本分類

        金融短文本分類是一種非常常見的金融業(yè)務(wù),此任務(wù)主要是幫助判斷該金融短文本屬于哪一類別,從而完成金融文本內(nèi)容對自動類別分類,最終對于不同的金融業(yè)務(wù)場景可以有不同的業(yè)務(wù)處理方案.在這里,我們對針對實際金融短文本分類進行了精簡處理,基于真實的業(yè)務(wù)數(shù)據(jù),我們構(gòu)造了一個包含6 600條樣本、6個類別的金融短文本分類數(shù)據(jù)集.該數(shù)據(jù)集的訓(xùn)練集和測試集分別有2 000條和2 850條.

        3) 實驗結(jié)果

        基于構(gòu)建的金融命名實體識別數(shù)據(jù)集、金融短文本分類數(shù)據(jù)集,我們將提出的F-BERT模型分別與BERT模型和RoBERTa-wwm-ext[6]模型、BERT-wwm[26]模型進行金融文本挖掘任務(wù)的實驗比較.表9和表10給出了最終的實驗對比結(jié)果.實驗過程中,我們針對這3個基準(zhǔn)模型(BERT,RoBERTa-wwm-ext,BERT-wwm)和F-BERT均設(shè)置成相同的學(xué)習(xí)率等超參數(shù),最終在F1值上平均可以提升3~4個百分點的準(zhǔn)確率.通過對真實業(yè)務(wù)數(shù)據(jù)的對比實驗,包括金融命名實體識別任務(wù)、金融類短文本類型分類任務(wù)的基線測試,我們可以清楚看到,F(xiàn)-BERT模型在相比于BERT等其他基線模型在金融文本發(fā)掘任務(wù)上有比較明顯的提升.

        Table 9 Experimental Results on Named Entity Recognition Task

        Table 10 Experimental Results on SMS Text Classification Task

        4 總 結(jié)

        在本文中,我們利用深度學(xué)習(xí)領(lǐng)域的自監(jiān)督學(xué)習(xí)和多任務(wù)學(xué)習(xí)技術(shù),創(chuàng)新地提出了一種基于BERT模型架構(gòu)的大規(guī)模語料上訓(xùn)練的開源金融預(yù)訓(xùn)練模型F-BERT.雖然BERT是為理解通用語言而構(gòu)建的,但F-BERT通過多任務(wù)自監(jiān)督學(xué)習(xí)進行同時預(yù)訓(xùn)練,有效地捕獲了大規(guī)模預(yù)訓(xùn)練語料中的金融領(lǐng)域知識和語義信息.我們通過最小限度地修改特定于具體金融任務(wù)的模型結(jié)構(gòu),F(xiàn)-BERT在多個金融文本數(shù)據(jù)挖掘任務(wù)(包括金融關(guān)系提取任務(wù)、金融情緒分類任務(wù)、金融智能問答任務(wù))上的性能均優(yōu)于當(dāng)前的最新模型.同時,我們還從金融科技線上業(yè)務(wù)中構(gòu)建了2類有代表性的金融大數(shù)據(jù)挖掘任務(wù),即:金融命名實體識別、金融短文本分類,在這2個實際金融科技任務(wù)進行了實驗,F(xiàn)-BERT模型同樣取得了最佳準(zhǔn)確性.

        將來的工作中,我們將進一步擴展F-BERT模型以進行消費者情緒分析和個性化理財智能投顧問題的研究.

        猜你喜歡
        金融文本模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        在808DA上文本顯示的改善
        何方平:我與金融相伴25年
        金橋(2018年12期)2019-01-29 02:47:36
        君唯康的金融夢
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        P2P金融解讀
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        国产另类人妖在线观看| 精品国产一区二区三区a| 午夜视频一区二区三区播放| 亚州国产av一区二区三区伊在| 国产99久久久久久免费看| 亚洲AV无码精品色欲av| 久久福利资源国产精品999| 99国产精品欲av麻豆在线观看| 久久综合九色综合97婷婷| 三年片免费观看大全有| 亚洲精品国产成人AV| 亚洲国产日韩综一区二区在性色 | 亚洲av色香蕉第一区二区三区| 中文字幕乱码亚洲无限码| 日本精品αv中文字幕| 中文毛片无遮挡高潮| 国产一区二区一级黄色片| 亚洲youwu永久无码精品| 国产精选污视频在线观看| 啪啪视频一区二区三区入囗| 杨幂国产精品一区二区| av一区二区在线网站| 久久久亚洲av成人网站| 在线国产小视频| 日韩精品少妇专区人妻系列| 91丝袜美腿亚洲一区二区| 国产精品特级毛片一区二区三区| 久久精品国产亚洲av成人| 人妻av一区二区三区高| 日本黑人亚洲一区二区| 老少配老妇老熟女中文普通话| 亚洲最新版无码AV| 亚洲国产精品av麻豆一区| 国产精品女同一区二区免费站| 特级无码毛片免费视频尤物| 国内久久婷婷精品人双人| 成人免费毛片立即播放| 亚洲av无码电影在线播放| 国产成人免费a在线视频| 中文字幕中乱码一区无线精品 | 亚洲国产精品一区二区毛片|