亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        預(yù)訓(xùn)練語言模型探究

        2022-09-28 10:48:58李景玉
        科技資訊 2022年19期
        關(guān)鍵詞:文本語言模型

        李景玉

        (北京電子科技職業(yè)學(xué)院電信工程學(xué)院 北京 100176)

        1950 年,圖靈發(fā)表了論文《計(jì)算機(jī)器與智能》,提出著名的圖靈測試,通過一個(gè)模仿游戲來測試機(jī)器是否能夠像人類一樣思考、對話,而讓測試者無法分辨在對面進(jìn)行對話的是人類還是機(jī)器。圖靈測試可以用來檢驗(yàn)機(jī)器是否像人類一樣智能,它也被稱為是人工智能的開端。從1950年至今,人工智能已經(jīng)有六十多年的發(fā)展歷程,被譽(yù)為“人工智能皇冠上的明珠”的自然語言處理技術(shù)更是在近幾年得到了飛速發(fā)展,自然語言處理相關(guān)應(yīng)用也是隨處可見,分別有基于機(jī)器翻譯的翻譯軟件、基于信息檢索的搜索引擎、基于問答系統(tǒng)的智能客服等。而自然語言處理的廣泛應(yīng)用離不開深度學(xué)習(xí)等技術(shù),可以說,深度學(xué)習(xí)等技術(shù)為自然語言處理帶來了一場革命,尤其是2017年Transformer 模型的提出,此后大規(guī)模預(yù)訓(xùn)練語言模型的誕生和使用,基于“預(yù)訓(xùn)練+精調(diào)”的模式儼然已經(jīng)成為了研究自然語言處理的新范式。

        1 預(yù)訓(xùn)練語言模型

        1.1 預(yù)訓(xùn)練語言模型概述

        語言模型(Language Model,LM)是指描述自然語言概率分布的模型,它在自然語言處理任務(wù)中一個(gè)非?;A(chǔ)和重要的。在自然語言處理的任務(wù)中,常用的說法是N 元語言模型,具體任務(wù)是指當(dāng)給定詞序列w1w2...wt-1時(shí),需要根據(jù)給定序列判斷下一個(gè)時(shí)刻t可能出現(xiàn)的詞語wt,也就是計(jì)算條件概率P(wt|w1w2...wt-1)。N 元語言模型推動了自然語言處理技術(shù)的發(fā)展,但它本身也有自己的局限性,N 元語言模型容易受到數(shù)據(jù)稀疏的影響,因此平滑技術(shù)往往必不可少。隨后出現(xiàn)的神經(jīng)網(wǎng)絡(luò)語言模型,通過引入神經(jīng)網(wǎng)絡(luò)架構(gòu)和詞向量,在一定程度上克服了這一局限,極大地緩解了數(shù)據(jù)稀疏的問題。這也是自然語言處理領(lǐng)域里面早期的預(yù)訓(xùn)練方法,隨著技術(shù)的革新,更多優(yōu)秀的預(yù)訓(xùn)練語言模型被挖掘出來。

        廣義上來講,預(yù)訓(xùn)練語言模型是指基于大規(guī)模數(shù)據(jù)訓(xùn)練的語言模型,具體包括靜態(tài)詞向量模型如Word2vec[1]、GloVe[2],動態(tài)詞向量模型如CoVe[3]、ELMo[4],基于深層Transformer 的表示模型如GPT[5]、BERT[6]。其實(shí),預(yù)訓(xùn)練這一做法最早源于計(jì)算機(jī)視覺領(lǐng)域,學(xué)者們會采用以ImageNet[7]為代表的大規(guī)模圖像數(shù)據(jù)對模型進(jìn)行一次預(yù)訓(xùn)練,再根據(jù)具體領(lǐng)域進(jìn)行參數(shù)精調(diào)。而預(yù)訓(xùn)練語言模型被更多人熟知和應(yīng)用,則是從以BERT為代表的基于大規(guī)模數(shù)據(jù)的預(yù)訓(xùn)練語言模型的提出開始的。

        1.2 使用預(yù)訓(xùn)練語言模型的優(yōu)勢

        預(yù)訓(xùn)練語言模型相較于傳統(tǒng)的文本表示模型,其具有大數(shù)據(jù)、大模型和大算力“三大”特點(diǎn)[8]。大數(shù)據(jù)是指預(yù)訓(xùn)練語言模型在訓(xùn)練時(shí)采用的數(shù)據(jù)規(guī)模較大,訓(xùn)練數(shù)據(jù)規(guī)模的增大能夠提供更多豐富的上下文信息,同時(shí)也能夠降低較差質(zhì)量的語料對預(yù)訓(xùn)練語言模型的影響;大模型是指預(yù)訓(xùn)練語言模型的參數(shù)量大,要求的并行程度高;大算力是指要實(shí)現(xiàn)基于大規(guī)模文本的預(yù)訓(xùn)練語言模型所必備的硬件條件,也就是被大家熟知的GPU算力。

        預(yù)訓(xùn)練語言模型的三大特點(diǎn)是預(yù)訓(xùn)練語言模型能夠得到廣泛使用的原因。一方面,大數(shù)據(jù)時(shí)代是信息爆炸的時(shí)代,傳統(tǒng)的自然語言處理方法、深度學(xué)習(xí)技術(shù)都過分依賴大規(guī)模的有標(biāo)注語料,而預(yù)訓(xùn)練語言模型的大規(guī)模數(shù)據(jù)可以采用無標(biāo)注語料,這恰好可以解決對大規(guī)模有標(biāo)注語料的依賴性問題。另一方面,預(yù)訓(xùn)練語言模型通過大算力來訓(xùn)練模型的大量參數(shù),大算力意味著對GPU算力有要求,大量參數(shù)意味著訓(xùn)練的時(shí)間會很長,高速GPU算力當(dāng)然可以有效減短訓(xùn)練時(shí)間,然而高速的GPU算力并不是每一個(gè)機(jī)構(gòu)或個(gè)人都能擁有的,通過采用權(quán)威機(jī)構(gòu)預(yù)訓(xùn)練的語言模型,可以直接進(jìn)行后續(xù)網(wǎng)絡(luò)構(gòu)建、參數(shù)調(diào)優(yōu)。

        預(yù)訓(xùn)練語言模型也沒有讓人失望,它的出現(xiàn)與發(fā)展幫助自然語言處理不斷突破,在自然語言處理的眾多方向或領(lǐng)域中都取得了大幅度提升。

        2 主流技術(shù)與方法

        近年來,隨著預(yù)訓(xùn)練語言模型的發(fā)展,在大規(guī)模無標(biāo)簽的語料上訓(xùn)練通用模型成為一種趨勢。人們利用已經(jīng)訓(xùn)練好的模型對文本中的語句進(jìn)行向量化的表示,再利用這些向量在具體的問題中進(jìn)行參數(shù)調(diào)優(yōu)、計(jì)算。目前,比較具有代表性的預(yù)訓(xùn)練語言模型包括GPT[5]、BERT[6],以及其他進(jìn)一步優(yōu)化的預(yù)訓(xùn)練語言模型。

        2.1 GPT

        GPT(Generative Pre-Training)[5]是由OpenAI 公司于2018年提出的一種生成式預(yù)訓(xùn)練模型,通過在大規(guī)模文本上訓(xùn)練深層的神經(jīng)網(wǎng)絡(luò)模型,來獲取更豐富的語義信息,從而提升自然語言處理任務(wù)的效果。GPT是一個(gè)基于深層Transformer 的單向語言模型,也就是說,GPT 只會采用目標(biāo)詞的上文來進(jìn)行計(jì)算。GPT 采用的是12 層深度神經(jīng)網(wǎng)絡(luò),在隨后的研究中,GPT 的升級版本GPT-2,則是采用48 層深度神經(jīng)網(wǎng)絡(luò),更大規(guī)模的語料庫,參數(shù)高達(dá)15億個(gè)[9]。

        2.2 BERT

        BERT(Bidirectional Encoder Representation from Transformers)[6]是Devlin 等人于2018 年提出的一種基于深層Transformer 的預(yù)訓(xùn)練語言模型,它可以利用大規(guī)模無標(biāo)注語料,獲取其中豐富的語義信息。BERT一經(jīng)問世,就在多個(gè)自然語言處理任務(wù)中表現(xiàn)優(yōu)異,刷新了當(dāng)時(shí)11項(xiàng)自然語言處理的任務(wù)記錄。

        BERT 模型是由多層Transformer 構(gòu)成的,可以分為兩個(gè)預(yù)訓(xùn)練任務(wù):一是掩碼語言模型,二是下一句預(yù)測任務(wù)。其中,掩碼語言模型是BERT 預(yù)訓(xùn)練語言模型的核心,它通過隨機(jī)掩碼的訓(xùn)練方式,讓機(jī)器獲得還原掩碼部分詞語的能力,這種方式類似“完形填空”。下一句預(yù)測任務(wù)則可以構(gòu)建兩段文本之間的關(guān)系。那么通過采用BERT模型,可以得到上下文語義表示,這時(shí)就可以根據(jù)下游任務(wù)進(jìn)行參數(shù)調(diào)整。

        2.3 其他預(yù)訓(xùn)練語言模型

        因?yàn)锽ERT 模型的優(yōu)異表現(xiàn),學(xué)者們也將視線逐漸投向BERT,并對BERT 進(jìn)行改進(jìn),比如K-BERT[10]、ALBERT[11]、ERNIE[12]等,而基于BERT模型的改進(jìn)模型的不斷誕生,也證實(shí)了BERT 模型本身的優(yōu)越性。目前,具有代表性的、被進(jìn)一步優(yōu)化的預(yù)訓(xùn)練語言模型有XLNet[13]、RoBERTa[14]、ALBERT[11]和ELCETRA[15]等。

        2.3.1 XLNet

        XLNet(Extra Long Net)[13]是一種基于Transformer-XL 的自回歸語言模型,也是GPT、BERT 模型的延伸。XLNet預(yù)訓(xùn)練語言模型的訓(xùn)練過程引入雙流自注意機(jī)制,同一個(gè)單詞具有兩種不同表示:內(nèi)容表示向量h和查詢表示向量g,同時(shí)XLNet 提出一種排列語言模型(Permutation Language Model),對句子的詞序列的建模順序做出更改,從而實(shí)現(xiàn)了雙向上下文的建模方式。

        2.3.2 RoBERTa

        RoBERTa(Robustly Optimized BERT Pre-training Approach)[14]是對BERT 的擴(kuò)展和延伸,在RoBERTa 中引入了動態(tài)掩碼技術(shù),舍棄了NSP任務(wù),同時(shí)采用了更大規(guī)模的語料進(jìn)行預(yù)訓(xùn)練,設(shè)置了更大的批次以及更長的預(yù)訓(xùn)練步數(shù),通過改進(jìn)BERT的每個(gè)細(xì)節(jié),并進(jìn)行詳盡的實(shí)驗(yàn),從而提升RoBERTa預(yù)訓(xùn)練語言模型在多個(gè)自然語言處理任務(wù)中的表現(xiàn)。

        2.3.3 ALBERT

        ALBERT(A Lite BERT)[11]針對BERT 模型在預(yù)訓(xùn)練時(shí)會占用大量計(jì)算資源以及訓(xùn)練速度較慢的問題,通過詞向量參數(shù)因式分解和跨層參數(shù)共享兩項(xiàng)技術(shù),來降低訓(xùn)練模型時(shí)的內(nèi)存消耗,同時(shí)提高ALBERT 模型的訓(xùn)練速度。

        2.3.4 ELCETRA

        ELCETRA(Efficiently Learning an Encoder that Classifies Token Replacements Accurately)[15]是由谷歌與斯坦福大學(xué)共同研發(fā)的預(yù)訓(xùn)練語言模型,因其小巧的模型體積以及良好的模型性能受到了廣泛關(guān)注。ELECTRA 的預(yù)訓(xùn)練框架是由生成器和判別器兩部分構(gòu)成的。生成器相當(dāng)于一個(gè)小的掩碼語言模型(Masked Language Model,MLM),能夠在[MASK]的位置預(yù)測原來的詞,判別器則采用替換詞檢測(Replaced Token Detection,RTD)代替任務(wù)代替了掩碼語言模型,來判斷生成器采樣后的句子中的每個(gè)詞是否被替換。

        3 預(yù)訓(xùn)練語言模型的應(yīng)用

        經(jīng)過大規(guī)模語料的預(yù)訓(xùn)練后,對預(yù)訓(xùn)練語言模型如何應(yīng)用在下游任務(wù)中,通常的做法是將預(yù)訓(xùn)練語言模型作為下游任務(wù)模型的基底,然后利用預(yù)訓(xùn)練語言模型得到文本對應(yīng)的上下文語義表示,再參與到下游任務(wù)中。也就是說,預(yù)訓(xùn)練語言模型在下游任務(wù)的訓(xùn)練中,會不斷地更新自身參數(shù)。這種預(yù)訓(xùn)練語言模型的應(yīng)用方法也被稱為模型精調(diào)。模型精調(diào)基于預(yù)訓(xùn)練語言模型的大量參數(shù),訓(xùn)練下游任務(wù)的模型,這樣可以使得預(yù)訓(xùn)練語言模型的大量參數(shù)與下游任務(wù)的匹配度提高。目前,以GPT[5]、BERT[6]、XLNet[13]等為代表的預(yù)訓(xùn)練語言模型,采用預(yù)訓(xùn)練加微調(diào)的自然語言處理基本流程已經(jīng)成為進(jìn)一步研究和發(fā)展的主導(dǎo)方向[16-18]。

        3.1 文本分類

        文本分類任務(wù)是自然語言處理任務(wù)中較為常見的一種任務(wù),以BERT 預(yù)訓(xùn)練語言模型為例,基于BERT完成單句文本分類任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,其由輸入層、編碼層和輸出層這3個(gè)部分構(gòu)成。

        圖1 基于BERT的文本分類任務(wù)網(wǎng)絡(luò)結(jié)構(gòu)

        輸入層的初始輸入為文本s 和句子開頭標(biāo)識[CLS]、結(jié)尾標(biāo)識[SEP],其中文本s根據(jù)詞表劃分后的字符串,記為ti,i ∈N,由此得到,文本s 可以表示成字符串的集合s={t1,t2,…,tN}。原始輸入文本記為X。

        X=[CLS],t1,t2,...,tn,[SEP]

        輸入文本X由字嵌入向量、分段嵌入向量、位置編碼向量組合而成后,得到BERT 輸入表示V。在BERT構(gòu)成的編碼層,輸入表示V 經(jīng)過由多層Transformer 構(gòu)成的編碼層后,得到BERT 模型的輸出向量Tn,n ∈N。與BERT 預(yù)訓(xùn)練階段的下一句預(yù)測任務(wù)類似,文本分類任務(wù)也使用[CLS]位進(jìn)行預(yù)測。因此,利用輸出向量Tn中的首位元素,經(jīng)過Softmax 操作后,得到對應(yīng)類別的概率分布。

        在具體應(yīng)用中,張宇豪[19]基于BERT 的base 版本完成新聞短文本分類,同時(shí)針對BERT 模型存在的問題,提出改進(jìn)的N-BERT 模型完成新聞短文本分類任務(wù)。針對短文本分類任務(wù),郭騰州[20]提出S-BERT 模型,即將BERT模型和支持向量機(jī)分類器進(jìn)行融合,從而有效提升短文本分類的效果。劉豪[21]將BERT 與GSDMM 融合完成聚類指導(dǎo)的短文本分類任務(wù)。陸曉蕾[22]基于BERT 預(yù)訓(xùn)練語言模型,構(gòu)建BERT-CNN 模型應(yīng)用于文檔分類任務(wù),并在專利文獻(xiàn)分類領(lǐng)域中取得一定進(jìn)展。

        3.2 閱讀理解

        機(jī)器閱讀理解(Machine Reading Comprehension,MRC)任務(wù)一直是自然語言處理眾多任務(wù)中的一個(gè)重要任務(wù)。近年來,因深度學(xué)習(xí)技術(shù)的發(fā)展,機(jī)器閱讀理解任務(wù)稱為自然語言處理領(lǐng)域熱門的研究方向之一。根據(jù)數(shù)據(jù)集的不同,也就是問題和答案的不同表現(xiàn)形式,機(jī)器閱讀理解可以被分成不同的任務(wù)形式:填空式、選擇式、抽取式、生成式、會話式、多跳推理。以抽取式閱讀理解為例,閱讀理解任務(wù)就是給定篇章P、問題Q,要求機(jī)器在讀取篇章P 和問題Q 后,能夠給出答案A,也就是在篇章P中抽取出部分文本片段作為答案A。以BERT 預(yù)訓(xùn)練語言模型為例,基于BERT 的抽取式閱讀理解模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,由輸入層、編碼層和輸出層這3個(gè)部分構(gòu)成。

        圖2 基于BERT的抽取式閱讀理解模型的網(wǎng)絡(luò)結(jié)構(gòu)

        在輸入層中,將經(jīng)過分詞后的問題Q、篇章P和特殊標(biāo)記拼接得到編碼層的輸入序列X,具體如下。

        Q=q1q2...qi

        P=p1p2...pj

        X=[CLS]q1q2...qi[SEP]p1p2...pj[SEP]

        其中,i表示分詞后問題序列的長度,j表示分詞后篇章文本的序列長度,[CLS]表示文本序列開始的特殊標(biāo)記,[SEP]表示文本序列之間的分隔標(biāo)記。

        輸入文本X由字嵌入向量、分段嵌入向量、位置編碼向量組合而成后,得到BERT 輸入表示V。經(jīng)過BERT編碼層后,可以得到上下文語義表示h。

        h=BERT(V)

        V=v1,v2,...,vn

        h ∈Rn×d

        其中,n表示輸入序列的長度,d表示BERT的隱含層維度。

        將得到的上下文語義表示h作為輸入,通過Softmax 函數(shù)預(yù)測答案起始位置概率Ps 和終止位置概率Pe。當(dāng)?shù)玫狡鹗嘉恢酶怕屎徒K止位置概率后,可以采用不同答案抽取方法得到最終答案。

        2016 年斯坦福大學(xué)發(fā)布公開數(shù)據(jù)集SQuAD[23],目前針對SQuAD2.0 數(shù)據(jù)集面向全世界學(xué)者推出機(jī)器閱讀理解榜單,大力地推動了機(jī)器閱讀理解技術(shù)的發(fā)展。目前面向中文的閱讀理解數(shù)據(jù)集主要有抽取式的閱讀理解數(shù)據(jù)集DuReader-robust[24]和CMRC2018[25]等,公開數(shù)據(jù)集極大地推動了中文閱讀理解技術(shù)的發(fā)展。CUI Y M 等人[26]基于RoBERTa 模型提出MacBERT 模型,在CMRC2018閱讀理解數(shù)據(jù)集上F1值達(dá)到60.2%。隨后,CUI Y M 等人[27]提出中文預(yù)訓(xùn)練模型BERTwwm 模型,該模型在CMRC2018 閱讀理解數(shù)據(jù)集上被證實(shí)性能優(yōu)于BERT 模型。賈欣[28]提出基于遷移學(xué)習(xí)的BERT-wwm-MLFA 模型,該模型被證實(shí)優(yōu)于BERT模型。CUI Y M 等人[29]提出跨語言閱讀理解模型Dual-BERT,該模型在CMRC2018 閱讀理解數(shù)據(jù)集上F1達(dá)到了90.2%。

        3.3 其他應(yīng)用

        除了自然語言處理的基礎(chǔ)任務(wù)文本分類和熱門任務(wù)機(jī)器閱讀理解,預(yù)訓(xùn)練語言模型在自然語言處理的其他任務(wù)中也表現(xiàn)優(yōu)異,極大地推動了自然語言處理技術(shù)的發(fā)展。比如:朱巖等人[30]將RoBERTa-WWM 模型應(yīng)用于命名實(shí)體識別;方萍等人[31]將改進(jìn)的BERT模型應(yīng)用于摘要抽??;ALAPARTHI S[32]將BERT 模型應(yīng)用于電影評論數(shù)據(jù)集的情感分析任務(wù)。

        4 結(jié)語

        近10 年來,深度學(xué)習(xí)技術(shù)的飛速發(fā)展,引發(fā)了自然語言處理領(lǐng)域的一系列變革。而預(yù)訓(xùn)練語言模型的出現(xiàn),使得構(gòu)建模型不用再過度依賴于有標(biāo)注的語料,預(yù)訓(xùn)練語言模型可以從大量無標(biāo)注文本中學(xué)習(xí)到豐富的語義信息,這無疑更快速地推動了自然語言處理領(lǐng)域的發(fā)展,并取得了一系列的突破。

        未來除了進(jìn)一步改進(jìn)單一語言的預(yù)訓(xùn)練語言模型,如何能夠更好地融合多種語言的預(yù)訓(xùn)練語言模型,以及如何能夠?qū)D像、視頻等多種模態(tài)的數(shù)據(jù)與自然語言融合,從而構(gòu)成多模態(tài)預(yù)訓(xùn)練語言模型,也將會成為學(xué)者們關(guān)注的熱點(diǎn)。

        猜你喜歡
        文本語言模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        語言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        讓語言描寫搖曳多姿
        累積動態(tài)分析下的同聲傳譯語言壓縮
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        亚洲成a人片在线观看无码3d| 国产肥熟女视频一区二区三区| 97成人精品在线视频| 狠狠色欧美亚洲狠狠色www| 亚洲午夜精品a片久久www慈禧| 四虎精品影视| 亚洲国产一区二区三区视频在线| 中文字幕综合一区二区三区| 亚洲欧美日韩另类精品一区| 国产精品天天狠天天看| 8090成人午夜精品无码| 久久久精品国产三级精品| 国产亚洲精品美女久久久m | 开心婷婷五月激情综合社区| AⅤ无码精品视频| 精品久久一区二区三区av制服| 18岁日韩内射颜射午夜久久成人| 狼色精品人妻在线视频| 日韩免费高清视频网站| 永久免费观看的黄网站在线| 亚洲精品美女久久777777| 精品无码国产污污污免费网站| 女人被躁到高潮嗷嗷叫| 国产在线一区二区av| 国产日产综合| 伊人22综合| 午夜婷婷国产麻豆精品| 极品少妇xxxx精品少妇偷拍| 色一情一乱一伦一区二区三区| 亚洲精品国产二区三区在线| 亚洲av在线观看播放| 亚洲国产精品成人综合色| 999国产精品亚洲77777| 日日噜噜夜夜久久密挑| 国产无套中出学生姝| 久久精品国产亚洲av蜜臀| 国产欧美亚洲另类第一页| 日本一区二区三区不卡在线| 国产精品99久久久久久猫咪| 激情五月天伊人久久| 在线高清亚洲精品二区|