亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的文本匹配研究綜述

        2021-08-06 05:24:16曹帥
        現(xiàn)代計(jì)算機(jī) 2021年16期
        關(guān)鍵詞:語(yǔ)義深度文本

        曹帥

        (四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)

        0 引言

        自然語(yǔ)言處理是人工智能領(lǐng)域的重要分支,其中包含了很多研究方向:文本分類、信息抽取、機(jī)器翻譯和問(wèn)答系統(tǒng)等。其中文本匹配是基礎(chǔ)并重要的研究方向,其在問(wèn)答系統(tǒng)、信息檢索和對(duì)話系統(tǒng)等很多領(lǐng)域都發(fā)揮著決定性的作用。文本匹配在不同場(chǎng)景下的含義略有不同,例如在內(nèi)容推薦上實(shí)質(zhì)的任務(wù)為長(zhǎng)文本之間的語(yǔ)義匹配,在這種情況通過(guò)使用主題模型,來(lái)獲取到兩個(gè)長(zhǎng)文本的主題分布,再通過(guò)衡量?jī)蓚€(gè)多項(xiàng)式分布的距離去衡量它們之間的相似度;又比如在檢索式問(wèn)答系統(tǒng)中,則是通過(guò)對(duì)比問(wèn)題和答案之間的相似度來(lái)召回最為相關(guān)的答案返回給用戶。

        文本匹配的發(fā)展經(jīng)歷著從傳統(tǒng)方法到深度神經(jīng)網(wǎng)絡(luò)方法的演變。傳統(tǒng)方法中主流的是BOW、TF-IDF、BM25等算法,它們?cè)谒阉饕娴脑碇惺褂幂^為廣泛。這些算法多為解決詞匯層面的匹配問(wèn)題,如BM25算法通過(guò)計(jì)算候選項(xiàng)對(duì)查詢字段的覆蓋程度來(lái)得到兩者之間的匹配得分,得分越高的網(wǎng)頁(yè)則匹配度越高。而類似TF-IDF這種方法,通過(guò)建立倒排索引可使查詢變得很快,但實(shí)際上解決的只是詞匯層面的相似度問(wèn)題。這些方法實(shí)則上有很大的局限,解決不了更深層的語(yǔ)義或知識(shí)缺陷。而之后出現(xiàn)的基于深度學(xué)習(xí)的方法則在一定程度上開始解決這些問(wèn)題。

        研究者將介紹目前在深度學(xué)習(xí)中主流的三種文本匹配算法:基于向量相似度計(jì)算的方法、基于深度神經(jīng)網(wǎng)絡(luò)匹配的方法和基于預(yù)訓(xùn)練模型匹配的方法。研究者會(huì)詳細(xì)闡述這三種方法的實(shí)現(xiàn)方式和原理,并對(duì)其各自的優(yōu)勢(shì)和局限性進(jìn)行簡(jiǎn)要的闡述。最后會(huì)在此基礎(chǔ)上總結(jié)目前亟待解決的問(wèn)題和未來(lái)的研究趨勢(shì)。

        1 基于向量相似度計(jì)算的算法

        傳統(tǒng)方式中文本與文本之間的相似度計(jì)算有多種方式:BOW、TF-IDF和N-Gram等,這些算法通過(guò)對(duì)句子分詞之后得到每個(gè)詞語(yǔ)或詞塊的表示,之后再對(duì)所有表示取平均獲取到整個(gè)句子的表示。假設(shè)兩個(gè)句子分別為p1和p2,則通過(guò)以上方式獲取到兩個(gè)句子的句向量,再對(duì)兩個(gè)向量求余弦相似度則獲取到兩個(gè)文本的相似度:

        如果在兩個(gè)句子中出現(xiàn)了同義詞,雖然它們字面不同,但其表達(dá)的意思是一樣的,傳統(tǒng)方法則不能解決這類問(wèn)題。詞嵌入最早是出現(xiàn)于Bengio在2003年提出的NNLM[1]中,其將原始的one-hot向量通過(guò)嵌入一個(gè)線性的投影矩陣映射到一個(gè)稠密的連續(xù)向量中,并且通過(guò)建立一個(gè)語(yǔ)言模型的任務(wù)來(lái)學(xué)習(xí)這個(gè)向量的權(quán)重,而這個(gè)向量也就可以看作詞向量。后面在2013年出現(xiàn)的Word2Vec[2]以及其他更多的NLP模型都運(yùn)用到了這種思想。在Word2Vec出現(xiàn)后,基于詞向量來(lái)做更多的NLP衍生任務(wù)也成為了一時(shí)的主流。Word2Vec中主要可以利用CBOW和Skip-Gram兩種模型來(lái)分別學(xué)習(xí)向量的權(quán)重,它們的本質(zhì)實(shí)質(zhì)上都是對(duì)NNLM模型的改進(jìn)。如圖1所示,如果是用一個(gè)詞語(yǔ)作為輸入,來(lái)預(yù)測(cè)它的周圍的上下文,那這個(gè)模型叫做Skip-Gram模型;而如果是一個(gè)詞語(yǔ)的上下文作為輸入,去預(yù)測(cè)這個(gè)詞語(yǔ)本身,則是CBOW模型。

        圖1 CBOW和Skip-Gram模型

        之前的NNLM模型其實(shí)存在比較嚴(yán)重的問(wèn)題,就是訓(xùn)練太慢了。即便是在百萬(wàn)量級(jí)的數(shù)據(jù)集上,借助了40個(gè)CPU訓(xùn)練,NNLM也需要數(shù)周才能給出一個(gè)稍微靠譜的結(jié)果。Word2Vec中引入了兩種優(yōu)化算法:層次Softmax和負(fù)采樣來(lái)加速訓(xùn)練,兩者的本質(zhì)分別是將N分類問(wèn)題轉(zhuǎn)變成log(N)次二分類和預(yù)測(cè)總體類別的一個(gè)子集。在詞嵌入領(lǐng)域,除了Word2Vec之外,還有基于共現(xiàn)矩陣分解的Glove[3]等詞嵌入方法。鑒于詞語(yǔ)是NLP任務(wù)中最細(xì)粒的表達(dá),所以詞向量的運(yùn)用很廣泛,不僅可以執(zhí)行詞語(yǔ)層面的任務(wù),也可以作為很多模型的輸入,執(zhí)行句子層面的任務(wù)。

        使用Word2Vec這種詞向量作為每個(gè)單詞的表示之后,能夠更好地解決之前所說(shuō)的同義詞問(wèn)題。這種對(duì)每個(gè)詞語(yǔ)取平均的方式是獲取句子向量的最簡(jiǎn)單方式,但實(shí)質(zhì)上其并沒(méi)有很好地解決句子主題含義相似的問(wèn)題,雖然兩個(gè)句子字面可能很相似,但主題意思卻完全相反。之后出現(xiàn)的很多研究人員提出了例如Sentence2vec和Doc2vec之類的方法,也有像Sentence-Bert[4]這樣結(jié)合孿生網(wǎng)絡(luò)和預(yù)訓(xùn)練模型獲取句子向量的方式。由于目前神經(jīng)網(wǎng)絡(luò)的參數(shù)越來(lái)越多,在每次推測(cè)的過(guò)程中通過(guò)神經(jīng)網(wǎng)絡(luò)會(huì)消耗很多時(shí)間,而在實(shí)時(shí)性要求很高的情況下例如搜索引擎,將候選項(xiàng)文本都轉(zhuǎn)化為向量存儲(chǔ)起來(lái),再做向量之間的相似度計(jì)算,并不會(huì)消耗很多的時(shí)間,所以怎么在這個(gè)方向提高效果是研究人員一直都在努力的方向。

        2 基于深度神經(jīng)網(wǎng)絡(luò)匹配的方法

        隨著深度學(xué)習(xí)在近幾年的蓬勃發(fā)展,很多研究開始致力于將深度神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于自然語(yǔ)言處理任務(wù)中。利用詞向量來(lái)進(jìn)行文本匹配計(jì)算,簡(jiǎn)潔且快速,但是其只是利用無(wú)標(biāo)注數(shù)據(jù)訓(xùn)練得到,在效果上和主題模型技術(shù)相差不大,本質(zhì)上都是基于共現(xiàn)信息的訓(xùn)練。為了解決短語(yǔ)、句子的語(yǔ)義表示問(wèn)題,和文本匹配上的非對(duì)稱問(wèn)題,陸續(xù)出現(xiàn)了很多基于神經(jīng)網(wǎng)絡(luò)的深度文本匹配模型。一般來(lái)說(shuō),它們主要分為兩種:表示型和交互型,下面將一一探討。

        2.1 表示型深度文本匹配模型

        表示型匹配模型更側(cè)重于對(duì)文本表示層的構(gòu)建,會(huì)在表示層就將文本轉(zhuǎn)化成一個(gè)唯一的整體表示向量,其思路基于孿生網(wǎng)絡(luò),會(huì)利用多層神經(jīng)網(wǎng)絡(luò)提取文本整體語(yǔ)義之后再進(jìn)行匹配。其中表示層編碼可使用常見的全連接神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)或者基于注意力機(jī)制的模型等,而匹配層交互計(jì)算也有多種方式:使用點(diǎn)積、余弦矩陣、高斯距離、全連接神經(jīng)網(wǎng)絡(luò)或者相似度矩陣等。一般會(huì)根據(jù)不同的任務(wù)類型和數(shù)據(jù)情況,選擇不同的方式。

        開創(chuàng)表示型匹配模型先河的是微軟所提出的DSSM[5],它的原理是通過(guò)搜索引擎中的問(wèn)題和標(biāo)題之間的海量點(diǎn)擊曝光日志,用深度神經(jīng)網(wǎng)絡(luò)將兩者表達(dá)為低維的語(yǔ)義向量之后,再利用余弦距離來(lái)計(jì)算兩個(gè)語(yǔ)義向量的相似度,最終訓(xùn)練出語(yǔ)義相似度的模型。這個(gè)模型不僅可以用來(lái)預(yù)測(cè)兩個(gè)句子的語(yǔ)義相似度,又可以獲得某個(gè)句子的低維語(yǔ)義向量表達(dá)。之后在DSSM的基礎(chǔ)上又出現(xiàn)了一系列的模型,例如CDSSM[6]、MV-LSTM[7]和ARC-I[8]等,這些模型大體上的結(jié)構(gòu)都是圖2所示,只是將表達(dá)層或者匹配層換成了更復(fù)雜、效果更好的模型結(jié)構(gòu)。

        圖2 表示型匹配模型

        在表示型模型上做研究,主要基于以下兩個(gè)方向:①加強(qiáng)編碼表示層的模型結(jié)構(gòu),獲取到更好的文本表示。②加強(qiáng)匹配層的計(jì)算方式。而基于第一點(diǎn)則出現(xiàn)了各種各樣的模型。表示型模型可以對(duì)文本預(yù)處理后,先構(gòu)建索引,這樣就可以大幅度地降低在推理時(shí)候的計(jì)算耗時(shí),但是其缺點(diǎn)也是顯而易見:因?yàn)樾枰獙?duì)兩個(gè)句子分別進(jìn)行編碼表示,這樣就會(huì)失去語(yǔ)義的焦點(diǎn),從而難以衡量?jī)蓚€(gè)句子之間的上下文重要性。

        2.2 交互型深度文本匹配模型

        如圖3所示,交互型模型和表達(dá)型模型是不同的思路,其擯棄了先編碼后匹配的思路,在輸入層就對(duì)文本先進(jìn)行匹配,并將匹配了的結(jié)果再進(jìn)行后續(xù)的建模。交互型模型的思想是先捕捉到兩個(gè)文本之間的匹配信息,將字詞之間的匹配信息再作為灰度圖,然后進(jìn)行后續(xù)的建模抽象,獲取到最后它們的相關(guān)性評(píng)價(jià)。其中交互層主要是通過(guò)以注意力機(jī)制為代表的結(jié)構(gòu)來(lái)對(duì)兩段文本進(jìn)行不同粒度的交互,然后再將各個(gè)粒度的匹配結(jié)果給聚合起來(lái),得到一個(gè)表示這種信息的特征矩陣。而這里可采用的注意力方式也有很多,根據(jù)不同的注意力機(jī)制可得到相應(yīng)的效果。之后的表示層則負(fù)責(zé)對(duì)得到的特征矩陣進(jìn)行抽象表征,也就是對(duì)兩個(gè)語(yǔ)句之間得到的匹配信息再進(jìn)行抽象。

        圖3 交互型匹配模型

        基于交互型的經(jīng)典匹配模型有:MatchPyramid[9]、DRMM[10]和ESIM[11]等。之后的一些基于注意力機(jī)制的模型,在將模型變得更深同時(shí)交互層變得更復(fù)雜外,其實(shí)很多模型都只是在一兩個(gè)數(shù)據(jù)集上搜索結(jié)構(gòu)將分?jǐn)?shù)提升了上去,導(dǎo)致這些模型在某個(gè)場(chǎng)景效果很好,但是到了另外的場(chǎng)景就效果不佳了。

        交互型的文本匹配模型很好地把握了語(yǔ)義焦點(diǎn),隨著更深的結(jié)構(gòu)和更復(fù)雜的交互出現(xiàn),也能捕捉到更深層的語(yǔ)義信息,能對(duì)上下文重要性更好的建模。但也像上文所說(shuō),其實(shí)在預(yù)訓(xùn)練模型出現(xiàn)的很多復(fù)雜的交互型匹配模型,雖然結(jié)構(gòu)復(fù)雜,也用到了很多復(fù)雜的注意力機(jī)制,但實(shí)質(zhì)上在很多普遍的場(chǎng)景下,其實(shí)最簡(jiǎn)單的基于卷積神經(jīng)網(wǎng)絡(luò)或者循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)就能得到可靠的結(jié)果。交互型模型的缺點(diǎn)是其忽視了句法、句間對(duì)照等全局性的信息,從而無(wú)法由局部信息刻畫出全局的匹配信息。

        3 基于預(yù)訓(xùn)練模型匹配的方法

        2018年谷歌公司所推出的BERT[12]模型大放異彩,在11項(xiàng)自然語(yǔ)言處理任務(wù)上都達(dá)到了最好的效果,并且遠(yuǎn)遠(yuǎn)地甩掉了之前的模型,從而將自然語(yǔ)言處理的研究帶入了預(yù)訓(xùn)練模型時(shí)代。自注意力機(jī)制提出后,加入了注意力機(jī)制的自然語(yǔ)言處理模型在很多任務(wù)都得到了提升,之后Vaswani等人提出的Transformer模型,用全注意力的結(jié)構(gòu)代替了傳統(tǒng)的LSTM,在翻譯任務(wù)上取到了更好的成績(jī)。而BERT模型就是基于Transformer的,它主要?jiǎng)?chuàng)新點(diǎn)都在預(yù)訓(xùn)練的方法上,即用了Masked LM和Next Sentence Prediction兩種方法去分別捕捉詞語(yǔ)和句子級(jí)別的表達(dá),并且在大規(guī)模的無(wú)監(jiān)督語(yǔ)料下進(jìn)行訓(xùn)練,從而得到訓(xùn)練好的模型。之后再利用預(yù)訓(xùn)練好的語(yǔ)言模型,在特定的場(chǎng)景和數(shù)據(jù)下去完成具體的NLP下游任務(wù),由于Next Sentence Prediction這個(gè)訓(xùn)練任務(wù)是句子與句子之間構(gòu)成的問(wèn)題,所以利用BERT來(lái)做文本匹配是有天然的優(yōu)勢(shì)。

        如圖4,利用BERT來(lái)完成文本匹配任務(wù)的話,首先是需要將在首部加入[CLS],在兩個(gè)句子之間加入[SEP]作為分隔。然后,對(duì)BERT最后一層輸出取[CLS]的向量并通過(guò)MLP即可完成多分類任務(wù)。使用預(yù)訓(xùn)練好的BERT模型在很多文本匹配任務(wù)例如MNLI、QQP、MRPC、QNLI等上都達(dá)到了SOTA效果。

        圖4 使用BERT進(jìn)行文本匹配

        預(yù)訓(xùn)練好的BERT模型也可以直接拿來(lái)取最后一層輸出作為句向量,但這樣的效果甚至不如詞向量,直接拿[CLS]特征的效果最差,可見BERT模型暫時(shí)只適合在特定的任務(wù)下微調(diào),之后使用微調(diào)后的BERT模型來(lái)預(yù)測(cè),這樣才能得到最佳的效果。后續(xù)出現(xiàn)的Sentence-BERT,利用孿生網(wǎng)絡(luò)的優(yōu)勢(shì),可以利用訓(xùn)練后的BERT取的效果較好的句子特征,但依然沒(méi)有直接使用微調(diào)后的BERT效果好。

        BERT是最新的自然語(yǔ)言處理SOTA模型,后續(xù)也出現(xiàn)了很多類似于BERT或者在BERT上改進(jìn)的預(yù)訓(xùn)練模型,其拋棄了傳統(tǒng)的RNN結(jié)構(gòu),全面使用Transformer,可以并行訓(xùn)練,加快了訓(xùn)練速度,同時(shí)也能捕捉到更長(zhǎng)距離的依賴信息。之前也出現(xiàn)過(guò)GPT[13]這樣的預(yù)訓(xùn)練模型,但BERT捕捉到了真正意義上的雙向上下文信息。當(dāng)然BERT也有一些缺陷:例如超多的參數(shù)和超深的網(wǎng)絡(luò),導(dǎo)致BERT在預(yù)測(cè)時(shí)候其實(shí)速度很慢,對(duì)于實(shí)時(shí)性要求較高的文本匹配任務(wù)稍顯吃力,BERT之后研究者們也在這方面做了很多工作。同時(shí)BERT在預(yù)訓(xùn)練中[MASK]標(biāo)記在實(shí)際預(yù)測(cè)中不會(huì)出現(xiàn),所以訓(xùn)練時(shí)用過(guò)多的[MASK]其實(shí)會(huì)影響到模型的實(shí)際表現(xiàn)。

        4 結(jié)語(yǔ)

        研究者探討了深度學(xué)習(xí)時(shí)代以來(lái)出現(xiàn)過(guò)的可用于文本匹配的算法。基于向量相似度計(jì)算的方法是最為高效的方式,在以毫秒級(jí)嚴(yán)格要求的工業(yè)界,也是最容易被廣泛運(yùn)用的一種方法。但是如何將語(yǔ)句的語(yǔ)義含義、主題意義等更深于字面的信息嵌入到向量表示中,目前看來(lái)還是一個(gè)大研究方向。而基于深度神經(jīng)網(wǎng)絡(luò)的匹配方法,不管是基于表示型還是基于匹配型,其簡(jiǎn)單的思想和復(fù)雜的結(jié)構(gòu)也對(duì)應(yīng)了自然語(yǔ)言處理的發(fā)展趨勢(shì),但是目前很多模型其實(shí)都只是在一兩個(gè)數(shù)據(jù)集上表現(xiàn)好,而在普遍的任務(wù)上泛化能力還不強(qiáng),同理復(fù)雜的參數(shù)也是讓想要應(yīng)用這些模型到實(shí)際應(yīng)用中的研究者望而卻步,實(shí)際上工業(yè)界用到最多的還是最先提出的基于DSSM的改進(jìn)模型,因?yàn)槠浜?jiǎn)單、速度快,而且在大規(guī)模數(shù)據(jù)上訓(xùn)練之后效果也還不錯(cuò)。

        隨著BERT模型的出現(xiàn),基于預(yù)訓(xùn)練模型的文本匹配算法也開始逐漸走上大舞臺(tái)。這些預(yù)訓(xùn)練模型由于在超大規(guī)模的無(wú)監(jiān)督語(yǔ)料上訓(xùn)練,同時(shí)擁有著千萬(wàn)級(jí)的學(xué)習(xí)參數(shù),所以效果也遠(yuǎn)遠(yuǎn)地超過(guò)了之前的一些模型。但同樣的問(wèn)題是如何將這些大模型運(yùn)用到實(shí)際生活中,也是一項(xiàng)很大的挑戰(zhàn)。所以最近,已經(jīng)有很多研究者開始不再糾結(jié)于去提高預(yù)訓(xùn)練模型的效果,而是研究如何蒸餾模型,讓小模型也能學(xué)到同樣多的知識(shí)。同時(shí),BERT之類的預(yù)訓(xùn)練模型雖然能夠利用已經(jīng)學(xué)到的東西,去判斷兩個(gè)文本間的匹配度,但是對(duì)于一些外部知識(shí)卻無(wú)法解決,所以一些研究者也開始嘗試將諸如知識(shí)圖譜之類的外部知識(shí)引入到預(yù)訓(xùn)練模型中。

        文本匹配是自然語(yǔ)言處理中的一項(xiàng)重要任務(wù),這三類算法也是研究者們?cè)谔剿鞯拈L(zhǎng)河中提出的重要代表而已,相信不久的將來(lái)將會(huì)有新的算法來(lái)將這項(xiàng)任務(wù)推到更高的高度。

        猜你喜歡
        語(yǔ)義深度文本
        深度理解一元一次方程
        語(yǔ)言與語(yǔ)義
        在808DA上文本顯示的改善
        深度觀察
        深度觀察
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        深度觀察
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        認(rèn)知范疇模糊與語(yǔ)義模糊
        无码电影在线观看一区二区三区| 男女下面进入的视频| 亚洲精品乱码久久久久蜜桃| 中文字幕人妻第一区| 久久国内精品自在自线图片 | 福利体验试看120秒| 亚洲线精品一区二区三区八戒| 免费无码黄网站在线观看| 亚洲精品女优中文字幕| 久久久麻豆精亚洲av麻花| 国产成人精品无码片区在线观看| 特级毛片a级毛片100免费播放 | 午夜无码片在线观看影院| 亚洲av日韩av综合aⅴxxx| 亚洲精品中文字幕二区| 日本免费一区二区久久久| 手机免费在线观看av网址| 久久青青草原精品国产app| 日日猛噜噜狠狠扒开双腿小说| 精品国产群3p在线观看| 国产一区二区丁香婷婷| 成人免费毛片立即播放| 精品综合一区二区三区| 亚洲国产成人久久综合| 三年片在线观看免费大全电影| 国产在线欧美日韩一区二区| 亚洲一区二区不卡日韩| 国产视频激情在线观看| 人妻 偷拍 无码 中文字幕| 真实国产老熟女粗口对白| 国产一毛片| 东京热日本道免费高清| 日韩精品在线免费视频| 亚洲精品一区二区| 四虎欧美国产精品| 精品中文字幕手机在线 | 精品天堂色吊丝一区二区| 成人性生交大片免费| 污污污污污污污网站污| 久久亚洲精品成人AV无码网址| 日本不卡一区二区三区在线视频|