王海峰/WANG Haifeng,孫宇/SUN Yu,吳華/WU Hua
(北京百度網(wǎng)訊科技有限公司,中國北京100193)
自然語言處理中的預(yù)訓練模型與語言模型的建立密切相關(guān)。語言模型是自然語言處理的一個重要分支。早期的語言模型能夠?qū)τ蓡卧~組成的文本序列進行概率建模,并計算句子的聯(lián)合概率。該模型技術(shù)被廣泛應(yīng)用于自然語言處理任務(wù)中,例如語音識別、機器翻譯等。
2003年,隨著深度學習技術(shù)的發(fā)展,Y.BENGIO等提出神經(jīng)網(wǎng)絡(luò)語言模型NNLM。該模型被用來學習詞的分布式表示以解決詞表示的維數(shù)災(zāi)難問題。2013年,詞表示訓練技術(shù)Word2Vec被提出。該技術(shù)可使用詞的上下文來對當前詞進行建模,從而學習單詞的分布式向量表示。隨后,一系列詞表示技術(shù)如雨后春筍般涌現(xiàn),例如基于詞匯共現(xiàn)矩陣的GloVe、基于字符級別N-Gram的FastText等。詞表示技術(shù)的提出是深度學習在自然語言處理方向應(yīng)用的一座里程碑。這種技術(shù)極大地加速了自然語言處理領(lǐng)域的發(fā)展進程。
由于Word2Vec詞表示技術(shù)僅能將語言中的詞語映射到一個靜態(tài)的、與上下文無關(guān)的語義表示空間上,因此該技術(shù)無法解決語言中的一詞多義問題。2018年,ELMo模型采用了雙向長短期記憶(LSTM)網(wǎng)絡(luò)對文本序列的上下文進行建模。該模型能夠?qū)㈦p向語言模型中的不同層表示進行融合,并計算上下文相關(guān)的詞表示,在一定程度上解決了一詞多義問題。緊接著,BERT模型使用雙向Transformer網(wǎng)絡(luò)對文本序列進行建模,并采用預(yù)訓練-微調(diào)方法一舉刷新眾多自然語言理解任務(wù)的基準紀錄。預(yù)訓練模型技術(shù)的成熟進一步推動了自然語言處理的發(fā)展。
與傳統(tǒng)監(jiān)督學習方法不同,基于自監(jiān)督學習方法的預(yù)訓練-微調(diào)首先對大規(guī)模無標注數(shù)據(jù)進行學習,然后再對小規(guī)模任務(wù)標注數(shù)據(jù)進行微調(diào),如圖1所示。由于能同時對未標注文本和標注文本進行學習,預(yù)訓練-微調(diào)方法取得了遠超傳統(tǒng)監(jiān)督學習的效果,并且顯著縮小了任務(wù)標注數(shù)據(jù)的規(guī)模。因此,預(yù)訓練-微調(diào)方法逐漸成為自然語言處理領(lǐng)域的應(yīng)用范式。近期,基于超大規(guī)模預(yù)訓練模型的預(yù)訓練-提示方法取得了能夠與預(yù)訓練-微調(diào)方法相媲美的效果,并逐漸成為自然語言處理領(lǐng)域的又一范式。該方法可將下游任務(wù)改造為自然語言表達形式,使下游任務(wù)的建模形式更接近預(yù)訓練模型的學習過程,從而挖掘出預(yù)訓練模型強大的零樣本和小樣本學習能力。
圖1 傳統(tǒng)監(jiān)督學習(上)與預(yù)訓練-微調(diào)(下)的對比
得益于深度學習技術(shù)和硬件算力的飛速發(fā)展,以BERT、GPT-3、ERNIE 3.0為代表的預(yù)訓練語言模型在自然語言理解、語言生成、機器翻譯、人機對話等領(lǐng)域取得了突破性進展。預(yù)訓練模型的出現(xiàn)使得人們對自然語言處理領(lǐng)域的研究重點從過去的結(jié)構(gòu)工程轉(zhuǎn)移到目標工程上,即從設(shè)計不同的網(wǎng)絡(luò)結(jié)構(gòu)并引入相應(yīng)的歸納偏置,轉(zhuǎn)移到基于統(tǒng)一的Transformer模型來設(shè)計啟發(fā)式的預(yù)訓練目標。預(yù)訓練模型憑借自監(jiān)督學習方法和預(yù)訓練-微調(diào)應(yīng)用方法,已逐步占據(jù)自然語言處理領(lǐng)域的主導地位。
當前的預(yù)訓練模型主要依賴大量無結(jié)構(gòu)化數(shù)據(jù)的學習。由于缺少外部知識指導,這些模型存在學習效率不高、模型效果不佳和知識推理能力受限等問題。因此,如何使用知識來增強預(yù)訓練模型的表示能力,是預(yù)訓練模型研究和應(yīng)用的難點之一。目前,主流的知識增強預(yù)訓練模型主要分為兩類。一類模型可通過弱監(jiān)督方法,對文本中蘊含的知識進行標注,然后設(shè)計知識類預(yù)訓練任務(wù),以便對文本中的知識進行學習。例如,ERNIE 1.0通過對數(shù)據(jù)中的短語和實體進行標注并掩碼,來學習文本中的知識。文獻[16]對實體知識進行替換,使語言模型能夠根據(jù)上下文信息對知識圖譜中的實體和關(guān)系進行推斷,從而加強對文本序列知識的學習。另一類模型可對構(gòu)建好的結(jié)構(gòu)化知識庫和無結(jié)構(gòu)化文本進行聯(lián)合預(yù)訓練學習,例如K-BERT、CoLAKE和ERNIE 3.0。通過對結(jié)構(gòu)化知識和海量無結(jié)構(gòu)化數(shù)據(jù)的聯(lián)合學習,知識增強的預(yù)訓練模型可以很好地提升知識記憶能力和推理能力。
根據(jù)融合知識的類型和作用,本文將預(yù)訓練模型分為3類:融合語言知識的預(yù)訓練模型、融合世界知識的預(yù)訓練模型和融合領(lǐng)域知識的預(yù)訓練模型。
語言知識是理解自然語言的基礎(chǔ),主要包含詞法知識、句法結(jié)構(gòu)知識、語義知識等。預(yù)訓練模型對語言知識的融合方法有兩種:一種是通過自動標記無標注文本中的語言知識來指導預(yù)訓練模型的學習,另外一種是融合人工構(gòu)建的語言知識庫。ERNIE-Gram通過構(gòu)建基于N-Gram的多粒度掩碼語言模型,可同時學習N-Gram內(nèi)部和N-Gram之間的語義關(guān)系,使模型能夠同時捕獲細粒度和粗粒度語言知識,顯著提升了模型的語義表示能力。除了融合語言粒度知識外,也有工作研究如何學習句子中的語義關(guān)系。通過在預(yù)訓練的過程中對指代消解進行建模,CorefBERT增強了模型對語義知識的學習能力。其中,“指代”是自然語言表達中的常見現(xiàn)象。基于在一段文本中多次出現(xiàn)的命名實體是同一個事物的假設(shè),CorefBERT提出提及指代預(yù)測算法。通過預(yù)測文本中被掩蓋的、重復出現(xiàn)的命名實體,該算法提升了模型對指代關(guān)系的建模能力。
上述方法主要對無標注數(shù)據(jù)中蘊含的人類知識進行標注,讓模型通過學習標注信息來融合語言知識。此外,也有研究將人工構(gòu)建的語言知識庫融合到預(yù)訓練模型中。其中,WordNet和HowNet是具有代表性的語言知識庫。這些知識庫含有豐富的語言知識。以WordNet為例,它將不同詞性的單詞各自組成一個同義詞集合。每個同義詞集合各表示一個基本的語義概念。WordNet利用語義關(guān)系將這些集合連接成網(wǎng)絡(luò)。其中,每個詞語均有對應(yīng)的解釋和例句。Sense-BERT融合了WordNet中的超義等概念知識。通過還原被掩蓋的詞并預(yù)測其對應(yīng)的超義,該模型可以顯式學習詞語在給定語境下的語義信息。SenseBERT在詞義消歧等任務(wù)上的效果取得了顯著提升。LIBERT利用WordNet中詞語與詞語間的同義關(guān)系和上下位關(guān)系設(shè)計了詞匯關(guān)系分類預(yù)訓練任務(wù)過程,增強了預(yù)訓練模型對語義信息的建模能力,在大部分自然語言處理任務(wù)上的效果均有提升。
人類在認識世界的過程中產(chǎn)生了大量的世界知識。其中,部分知識可以利用實體以及實體之間的關(guān)系進行描述,比如“安徒生”創(chuàng)作了“《夜鶯》”。研究者通過知識圖譜來表達這些世界知識。在知識圖譜中,實體表示網(wǎng)絡(luò)中的一個節(jié)點,實體間的關(guān)系則表示對應(yīng)節(jié)點間的邊。利用知識圖譜存儲世界知識,并讓模型顯式學習人類對世界的認知,是融合世界知識的預(yù)訓練模型采用的重要方法。KEPLER將預(yù)訓練上下文編碼器與知識模型相結(jié)合,使得預(yù)訓練模型不僅可以將圖譜三元組中的事實知識更好地融合到模型中,而且還可以通過豐富的實體描述,有效地學習實體和關(guān)系的知識表示。不同于KEPLER,有的模型將語言和知識進行統(tǒng)一表示。CoLAKE將文本序列視為一個全鏈接的詞圖,并以每個實體為錨點,將文本中實體所對應(yīng)的知識圖譜中的子圖進行連接,以構(gòu)成一個同時包含詞語、實體和關(guān)系的詞語-知識圖。通過學習詞語-知識圖,模型能夠同時融合訓練語料中的語言知識和圖譜中的世界知識。然而,CoLAKE主要側(cè)重實體在知識圖譜中的建模,卻忽視了實體在訓練語料中的表述。為此,ERNIE 3.0提出知識圖譜與文本平行預(yù)訓練的方法,使用文本來表述知識。ERNIE 3.0突破了異構(gòu)結(jié)構(gòu)化知識表示與無結(jié)構(gòu)文本表示難以統(tǒng)一建模的瓶頸。
人工智能行業(yè)應(yīng)用存在著豐富的、由眾多行業(yè)專家積累的專業(yè)知識。當前的預(yù)訓練模型主要依賴互聯(lián)網(wǎng)數(shù)據(jù)進行訓練。數(shù)據(jù)中缺乏行業(yè)相關(guān)的領(lǐng)域知識,導致預(yù)訓練模型在專業(yè)領(lǐng)域的自然語言處理任務(wù)上的表現(xiàn)不佳。以醫(yī)療領(lǐng)域為例,CBLUE的應(yīng)用表明,通用預(yù)訓練模型處理該類任務(wù)的效果差于人類。為了增強預(yù)訓練模型在專業(yè)領(lǐng)域的應(yīng)用效果,研究者們對如何將領(lǐng)域知識融入到預(yù)訓練模型進行了探索。BioBERT是一個生物醫(yī)學領(lǐng)域的預(yù)訓練模型。實驗表明,在生物醫(yī)學語料庫上的預(yù)訓練可以顯著提高模型在生物醫(yī)療領(lǐng)域任務(wù)上的性能。針對領(lǐng)域知識的預(yù)訓練方法,ERNIE-Health利用醫(yī)療實體掩碼算法對專業(yè)術(shù)語等實體知識進行學習。同時,通過醫(yī)療問答匹配任務(wù),該模型能對病狀描述與醫(yī)生專業(yè)治療方案的對應(yīng)關(guān)系進行學習,可獲得醫(yī)療實體知識之間的內(nèi)在聯(lián)系,在包含醫(yī)學信息抽取、醫(yī)學術(shù)語歸一化等中文醫(yī)療文本處理任務(wù)上的效果取得了顯著提升。進一步地,結(jié)合世界知識和領(lǐng)域知識的學習方法,BERT-MK基于醫(yī)療知識圖譜的子圖進行學習,提高了預(yù)訓練模型在醫(yī)療領(lǐng)域任務(wù)上的應(yīng)用效果。
為了充分地融合領(lǐng)域知識,以FLAN、ExT5和T0為代表的模型分別收集了60、107、171個領(lǐng)域的任務(wù)數(shù)據(jù),并針對每項任務(wù)設(shè)計了任務(wù)模板。將多種多樣的任務(wù)轉(zhuǎn)化為由文本至文本生成的統(tǒng)一格式,使模型在預(yù)訓練階段就能融合并使用多領(lǐng)域、多任務(wù)的知識,可顯著提高模型的通用能力與泛化性能。PPT延續(xù)了將多種任務(wù)通過模板轉(zhuǎn)化為統(tǒng)一格式的方式,在預(yù)訓練階段就可對連續(xù)提示詞進行領(lǐng)域知識的學習,提升了模型在訓練樣本匱乏的下游任務(wù)上的少樣本遷移能力。
知識增強預(yù)訓練模型通過融合多種類型的外部知識來顯著提升自身性能。然而,在學習知識的過程中,模型通常存在知識遺忘問題,即在學習新的知識后會忘記之前學過的知識。因此,如何解決知識遺忘問題顯得非常重要。為了避免知識遺忘,ERNIE 2.0構(gòu)建了持續(xù)預(yù)訓練的框架。在該框架下,每當引入新任務(wù)時,該框架可在學習該任務(wù)的同時仍記住之前學過的知識。此外,K-ADAPTER通過不同的適配器來學習世界知識和語言知識。在下游任務(wù)中,該方法能夠?qū)⒉煌m配器產(chǎn)生的特征表示進行拼接,并生成同時具有各種知識的表示,從而將多種知識同時應(yīng)用到任務(wù)中,有效解決了知識遺忘問題。
本文中,我們將以百度文心(ERNIE)知識增強預(yù)訓練模型為例,詳細闡述知識增強預(yù)訓練模型的模型結(jié)構(gòu)、知識融合方法,以及該模型在知識增強跨語言預(yù)訓練模型、知識增強跨模態(tài)預(yù)訓練模型上的擴展。文心是最早探索預(yù)訓練模型融入知識的工作之一,并在文獻[14]和文獻[34]等工作中逐步迭代。其中,最新的ERNIE 3.0 Titan模型使用2 600億個參數(shù),在海量的未標注文本數(shù)據(jù)和大規(guī)模知識圖譜中持續(xù)學習,突破了多源異構(gòu)數(shù)據(jù)難以統(tǒng)一表示與學習的瓶頸,在60余項任務(wù)上的表現(xiàn)是最好的。
文心使用了一種通用語義表示與任務(wù)語義表示相結(jié)合的模型框架,如圖2所示。該框架融合了自編碼和自回歸等不同的任務(wù)語義表示網(wǎng)絡(luò)。因此,文心既可以同時完成語言理解和語言生成任務(wù),又能進行無標注數(shù)據(jù)的零樣本學習和有標注數(shù)據(jù)的微調(diào)訓練。該模型結(jié)構(gòu)共包括兩層:第1層是通用語義表示網(wǎng)絡(luò),該網(wǎng)絡(luò)主要學習數(shù)據(jù)中的基礎(chǔ)知識和通用知識;第2層是任務(wù)語義表示網(wǎng)絡(luò),該網(wǎng)絡(luò)可基于通用語義表示來學習與任務(wù)相關(guān)的知識。不同任務(wù)語義表示網(wǎng)絡(luò)可通過自編碼結(jié)構(gòu)或者自回歸結(jié)構(gòu)來實現(xiàn)。底層共享有助于這些任務(wù)語義表示網(wǎng)絡(luò)實現(xiàn)交互和增強。在學習過程中,任務(wù)語義表示網(wǎng)絡(luò)只學習對應(yīng)類別的預(yù)訓練任務(wù),而通用語義表示網(wǎng)絡(luò)則學習所有的預(yù)訓練任務(wù)。
圖2 文心模型結(jié)構(gòu)
文心將Transformer作為基礎(chǔ)的模型結(jié)構(gòu),通過多層統(tǒng)一的自注意力機制,采用并行計算的方式來獲得詞與詞之間的關(guān)系權(quán)重,并根據(jù)所得到的權(quán)重來生成每個詞在整段語義單元的動態(tài)詞表示。為了增強模型對長距離語義知識的建模能力,文心引入了遞歸性記憶單元,并在此基礎(chǔ)上形成了一種增強記憶力機制,使模型能夠?qū)ΤL文本進行建模。
ERNIE 2.0擁有一種持續(xù)學習的預(yù)訓練框架,可增量學習海量數(shù)據(jù)中的知識,持續(xù)提升語義理解效果。如圖3所示,知識可通過預(yù)訓練任務(wù)的形式加入訓練框架。每當引入新的預(yù)訓練任務(wù)時,該框架可在學習新任務(wù)的同時學習之前的任務(wù)。新任務(wù)與舊任務(wù)之間通過多任務(wù)進行學習可避免知識遺忘?;谠摽蚣?,模型可以快速學習詞法、結(jié)構(gòu)、語義層面的語言知識、實體-關(guān)系世界知識等。模型的通用能力可得到大幅提升。ERNIE 2.0將這種學習方式與傳統(tǒng)的持續(xù)學習及多任務(wù)學習進行對比,結(jié)果證明了該方法的有效性。
圖3 文心模型中的持續(xù)學習語義理解框架
2.3.1 語言知識融合方法
ERNIE 1.0模型提出了知識增強的預(yù)訓練方法,即知識掩碼預(yù)訓練方法。該模型通過對海量數(shù)據(jù)中的字、詞、實體等不同語言單元和知識進行建模,來學習不同粒度語言知識的完整語義。圖4給出了傳統(tǒng)預(yù)訓練模型和ERNIE 1.0學習方法的對比。在預(yù)測還原過程中,傳統(tǒng)預(yù)訓練模型通過諸如“哈爾濱”“黑龍江”等短距離固定記憶對被掩碼的字進行還原,難以學習到“哈爾濱”“黑龍江”等命名實體的完整語義。而在ERNIE 1.0的學習過程中,只有學習到“哈爾濱”“黑龍江”等命名實體的關(guān)系,“哈爾濱”這一命名實體的屬性才能正確預(yù)測被掩蓋的知識。ERNIE 1.0本身可基于字特征輸入完成建模,在應(yīng)用時不需要依賴其他信息,具有很強的通用性和可擴展性。例如,在對紅色、綠色、藍色等表示顏色的詞語進行建模時,ERNIE 1.0通過相同字的語義組合可以學習詞之間的語義關(guān)系。
圖4 文心語言知識學習方法
在語義知識融合方面,短句中的連詞往往準確地表示了它們的細分邏輯語義關(guān)系。例如,在“因為人們的濫砍亂伐,所以今年以來洪澇不斷”中,“人們的濫砍亂伐”和“近年來洪澇不斷”就是因果關(guān)系;“盡管風雨交加,但是同學們還是堅持按時到校上課”中的“風雨交加”和“同學們還是堅持按時到校上課”之間就是轉(zhuǎn)折關(guān)系。為了能夠?qū)崿F(xiàn)短句間的邏輯關(guān)系建模,文心構(gòu)建了邏輯關(guān)系知識:首先將具有邏輯關(guān)系的句子挖掘出來,然后再將句子中的連詞去掉,最后讓模型進行無監(jiān)督的邏輯關(guān)系分類。
2.3.2 世界知識融合方法
ERNIE 3.0在引入蘊含豐富世界知識的大規(guī)模知識圖譜后,實現(xiàn)了海量無監(jiān)督文本與大規(guī)模知識圖譜的平行預(yù)訓練。以圖5為例,ERNIE 3.0在訓練過程中會將文本端信息和知識端信息同時輸入到模型中進行訓練。知識端信息會輸入圖譜中的三元組。例如,“安徒生”“作品”“《夜鶯》”三元組代表了《夜鶯》是安徒生的作品這一世界知識。文本端就會使用三元組中的“安徒生”和“《夜鶯》”在海量文本中檢索出與之相關(guān)的句子。ERNIE 3.0在訓練過程中使用聯(lián)合掩碼進行訓練。訓練過程主要包括兩個方面:在知識端方面,由于知識圖譜中的世界知識片段會被掩蓋,模型需要通過文本中的信息對知識端被掩蓋的信息進行推理;在文本端方面,由于無標注文本的語言知識片段也會被掩蓋,模型需要通過圖譜中的結(jié)構(gòu)化信息對文本端被掩蓋的信息進行還原。這種方式促進了結(jié)構(gòu)化的知識和無結(jié)構(gòu)文本之間的信息共享,大幅提升了模型對知識的記憶和推理能力。
圖5 文心中的文本與知識平行預(yù)訓練
與 CoLAKE、K-BERT、KG-BART、KnowBert等融入知識圖譜的工作原理不同,ERNIE 3.0利用知識圖譜中三元組文本表述和對應(yīng)的文本信息,在統(tǒng)一的空間同時對知識端和文本端進行平行學習。而先前的知識增強方法在融合知識與文本時使用了不同的編碼結(jié)構(gòu),使得知識與文本只能在不同的表示空間中被學習。大部分研究工作只強調(diào)知識對文本的增強,卻忽略文本對知識的作用,致使文本與知識的交互不充分。ERNIE 3.0增強了結(jié)構(gòu)化知識與無結(jié)構(gòu)文本間的雙向交互,提升了模型對知識的理解與推理能力。
文心所使用的一系列知識增強方法顯著提升了模型效果和學習效率,增強了知識推理能力。
知識增強預(yù)訓練模型顯著提升了下游任務(wù)效果。通過知識融合,相對于其他預(yù)訓練模型,ERNIE 3.0模型在包括情感分析、信息抽取、對話生成、數(shù)學計算、閱讀理解等21類54個自然語言理解和生成數(shù)據(jù)集上的效果是最好的。表1表明,在語義匹配、文本摘要等任務(wù)上,只用3%的參數(shù)量,知識增強預(yù)訓練模型就可以達到甚至超過百億參數(shù)非知識增強預(yù)訓練模型的效果。同時,百億參數(shù)的知識增強預(yù)訓練模型效果可以得到進一步提升。
表1 傳統(tǒng)模型與知識增強模型效果對比
知識增強預(yù)訓練模型的知識推理能力也得到了進一步提升。圖6給出了ERNIE 3.0 Titan模型和GPT-3模型在知識問答數(shù)據(jù)集上的對比效果。其中,ERNIE 3.0 Titan的準確率比GPT-3高8%。
圖6 GPT-3和ERNIE 3.0 Titan知識問答效果
在單語言理解與生成預(yù)訓練模型的基礎(chǔ)上,為了融合更多維度的知識,文心進一步衍生出知識增強跨語言模型和知識增強跨模態(tài)模型。
2.5.1 知識增強跨語言預(yù)訓練模型
不同語言中的語料蘊含了不同地區(qū)的人們在歷史發(fā)展過程中收集的不同知識。受限于語料的不完備性,模型從單一語言的語料中難以完全學到跨語言知識。因此,我們需要探索將多種語言數(shù)據(jù)中的知識進行融合的方法,以提升模型能力,解決單一語言數(shù)據(jù)的知識稀疏性問題。
知識增強跨語言預(yù)訓練模型實現(xiàn)了從多種語言數(shù)據(jù)中進行跨語言知識學習的目標。在預(yù)訓練過程中,ERNIEM會使用統(tǒng)一的模型同時對海量未標注的多語言數(shù)據(jù)進行建模,從而統(tǒng)一學習跨語言知識和跨語言語義表示。如圖7所示,對于DNA這一知識,不同語言的語料蘊含了不同的信息。因此,模型可以從不同語言中學到跨語言知識的不同側(cè)面。在跨語言預(yù)訓練模型使用某種語言的任務(wù)數(shù)據(jù)進行訓練后,其他語言的相同任務(wù)無須進行進一步訓練,即可實現(xiàn)跨語言遷移。這種跨語言遷移方式能夠解決低資源語言任務(wù)數(shù)據(jù)稀疏性問題,有助于實現(xiàn)任務(wù)知識在不同語言間的遷移。從單語語料中學習多語間的隱式語義對齊知識的方法,能夠突破雙語平行語料規(guī)模對跨語言模型的限制。ERNIE-M對96種語言進行統(tǒng)一建模,并在5項跨語言任務(wù)中取得了最好的效果。
圖7 知識增強跨語言模型ERNIE-M
2.5.2 知識增強跨模態(tài)模型
跨模態(tài)表示學習的目標是,通過對齊語料學習跨模態(tài)的通用聯(lián)合表示,將各個模態(tài)之間的語義對齊信號融合到聯(lián)合表示中,從而提升下游任務(wù)效果。目前的視覺-語言跨模態(tài)預(yù)訓練方法,例如ViLBERT等,在預(yù)訓練過程中無法區(qū)分普通詞和與場景相關(guān)的詞,學到的聯(lián)合表示也無法實現(xiàn)模態(tài)間細粒度語義(如物體、物體屬性、物體間關(guān)系)的對齊。
ERNIE-ViL將包含細粒度語義信息的場景圖先驗知識融入視覺-語言跨模態(tài)預(yù)訓練過程中,如圖8所示?;趫鼍皥D的結(jié)構(gòu)化知識,ERNIE-ViL創(chuàng)建物體預(yù)測、屬性預(yù)測、關(guān)系預(yù)測3個預(yù)訓練任務(wù),在預(yù)訓練過程中更加關(guān)注細粒度語義的跨模態(tài)對齊,從而可以學習到能夠刻畫更好跨模態(tài)語義對齊信息的聯(lián)合表示,并提升自身在視覺問答、視覺常識推理、引用表達式理解、跨模態(tài)文本-圖像檢索等5個多模態(tài)典型任務(wù)上的應(yīng)用效果。
圖8 跨模態(tài)知識增強模型ERNIE-ViL
隨著預(yù)訓練技術(shù)的快速發(fā)展,知識增強預(yù)訓練模型有著非常廣闊的應(yīng)用場景,例如搜索引擎、推薦系統(tǒng)、智能創(chuàng)作、人機對話、文檔分析、金融風控、智慧醫(yī)療等。這里,我們將從搜索引擎、人機對話、行業(yè)領(lǐng)域應(yīng)用3個方面,詳細闡述知識增強預(yù)訓練模型的應(yīng)用。
搜索引擎通過對網(wǎng)頁內(nèi)容和用戶查詢請求進行分析和理解,讓用戶可以在海量的互聯(lián)網(wǎng)數(shù)據(jù)中查詢到所需的信息。通用的預(yù)訓練模型很好地提升了搜索引擎效果,例如:谷歌在BERT問世一年之際宣布將預(yù)訓練模型應(yīng)用到搜索引擎中,并稱BERT比以往任何技術(shù)都能更好地理解用戶搜索意圖;微軟將Turing-NLG模型應(yīng)用在必應(yīng)搜索方案中,使得搜索引擎在搜索框內(nèi)即可輔助用戶完成查詢詞的輸入;在中文搜索引擎中,百度將知識增強的文心模型運用到搜索引擎的不同檢索階段,包括端到端的大規(guī)模語義索引系統(tǒng)、精細化語義相關(guān)性建模、智能問答等。得益于基于大規(guī)模文本和大規(guī)模知識的自監(jiān)督訓練,文心模型可以幫助搜索引擎更加準確地理解網(wǎng)頁內(nèi)容和用戶查詢語句,從而提升搜索結(jié)果的準確性。傳統(tǒng)的搜索引擎通過文章中的詞語建立倒排索引,并通過統(tǒng)計相同詞語的個數(shù)等方式來計算查詢詞與網(wǎng)頁的相關(guān)性。這種方式只能為用戶返回字面上匹配的內(nèi)容?;谥R增強預(yù)訓練模型的搜索引擎,通過查詢請求和網(wǎng)頁內(nèi)容的統(tǒng)一語義表示,實現(xiàn)了基于語義理解與匹配的搜索,使搜索效果顯著提升。
除了應(yīng)用于搜索引擎的檢索階段和排序階段之外,文心知識增強模型也能對用戶搜索查詢的意圖進行分析與識別。用戶搜索意圖識別的準確性將直接影響用戶使用搜索引擎的滿意度。傳統(tǒng)的用戶意圖識別方法多基于監(jiān)督學習方法,受限于標注數(shù)據(jù)的覆蓋度,對冷門知識信息搜索查詢的識別準確率并不高。而基于文心的用戶搜索意圖識別方法,能夠?qū)W習大量的數(shù)據(jù)和知識,具備更強的泛化性,使得冷門知識信息搜索意圖準確率比傳統(tǒng)方法高12%。
讓機器像人一樣有邏輯、有知識、有情感地與人對話,是人機交互的重要發(fā)展方向之一。知識增強的對話預(yù)訓練模型通過對海量無標注數(shù)據(jù)和大規(guī)模知識的學習,使人機對話系統(tǒng)可以更容易模仿人與人的交互方式,讓人使用更加自然的方式與機器交流。典型的應(yīng)用包括智能音箱、智能客服、智能車載等。
文心系列模型包含了基于知識增強的對話預(yù)訓練模型PLATO?;赑LATO模型,我們探索了知識內(nèi)化和知識外用兩種知識增強技術(shù),如圖9所示。知識內(nèi)化是指,在訓練階段,模型將知識信息內(nèi)化到模型參數(shù)中。通過多階段的模型訓練方式來引入大規(guī)模通用領(lǐng)域問答知識,可使PLATO融入生成問答能力,進而將問答準確率從3.2%提升至90%。知識外用是指,在推理階段,模型動態(tài)地引入外部知識以指導回復生成。這兩種方式能夠有效提升PLATO多輪對話的內(nèi)容豐富度和主題連貫性。
圖9 知識增強的對話預(yù)訓練模型
知識增強預(yù)訓練模型在醫(yī)療、金融、媒體等人工智能行業(yè)中表現(xiàn)出極大的應(yīng)用價值。
在醫(yī)療行業(yè)中,中國的醫(yī)療衛(wèi)生事業(yè)存在醫(yī)療資源不平衡、醫(yī)生人力短缺等問題?;谥R增強預(yù)訓練模型構(gòu)建的臨床醫(yī)療輔助技術(shù)是解決這些問題的關(guān)鍵技術(shù)之一。知識增強的醫(yī)療語義理解與圖推理模型,可實現(xiàn)醫(yī)學知識的計算,并通過患者場景化子圖推斷,實現(xiàn)可循證的醫(yī)學決策。該技術(shù)突破了以往數(shù)據(jù)驅(qū)動的深度學習技術(shù)不可解釋的局限,大幅提升了推理決策效果,具備貼合醫(yī)學臨床診療思維的優(yōu)點,改善了臨床輔助決策和智能診前助手等場景應(yīng)用效果,提高了醫(yī)護人員臨床工作效率。
在金融行業(yè)中,知識增強的文心模型被用于金融文本分析,提高了企業(yè)對金融信息的處理與決策效率。金融行業(yè)需要處理大量的文本信息,例如企業(yè)新聞、行業(yè)報道、招股書、財報、合同等。在傳統(tǒng)模式下,金融從業(yè)人員很難從海量文本中獲得有效信息。而基于文心模型構(gòu)建的金融知識計算引擎能夠幫助他們從海量的金融文本中快速查找到有用的關(guān)鍵信息。例如,文心模型能夠?qū)ΡkU合同中的條款文本進行解析,可實現(xiàn)39個維度的關(guān)鍵信息抽取,使單份合同的處理時間從30 min降低到1 min,能顯著提升金融從業(yè)人員的工作效率和決策能力。
在媒體行業(yè)中,知識增強的文心模型對語言、知識和創(chuàng)作成果進行持續(xù)學習,能夠?qū)崿F(xiàn)智能輔助創(chuàng)作。在文章撰寫的過程中,基于文心模型的智能創(chuàng)作引擎會對全網(wǎng)熱點資訊進行系統(tǒng)分析與計算,為撰稿人提供素材推薦、智能糾錯、標題生成、用詞潤色、文章審校等全方位的幫助。除了自動創(chuàng)作文本外,知識增強的跨模態(tài)文心模型實現(xiàn)了以文生圖。文心模型可根據(jù)文章的文字內(nèi)容輸出具有原創(chuàng)性和藝術(shù)性的圖片,并將其作為文章的配圖使用,進一步豐富內(nèi)容創(chuàng)作。在知識增強預(yù)訓練模型的幫助下,智能創(chuàng)作平臺將人類從重復勞動中解放出來,有效提升了內(nèi)容生產(chǎn)的效率和效果。
本文系統(tǒng)闡述了知識增強預(yù)訓練模型的發(fā)展脈絡(luò),分析了現(xiàn)有知識增強預(yù)訓練模型對語言知識、世界知識、領(lǐng)域知識等知識的融合方法,重點介紹了文心知識增強預(yù)訓練模型的原理、方法和應(yīng)用效果。通過搜索引擎、人機對話、行業(yè)應(yīng)用3個方面詳細介紹了知識增強預(yù)訓練模型的應(yīng)用。
知識增強預(yù)訓練模型已經(jīng)取得長足發(fā)展,但諸多研究方向依然面臨巨大挑戰(zhàn)。例如,由于知識的稀疏性,現(xiàn)有知識增強預(yù)訓練模型依舊難以解決邏輯、常識等問題;由于模型是基于深度神經(jīng)網(wǎng)絡(luò)方法來建立的,模型的可解釋性、可靠性和可控性仍然較差。因此,如何使模型更具常識性,如何提升模型的可解釋性和可靠性,以及如何將跨模態(tài)知識、符號化知識與深度學習進行深度融合,都是知識增強預(yù)訓練模型未來發(fā)展的重要方向。