亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        知識指導(dǎo)的預(yù)訓(xùn)練語言模型

        2022-05-20 09:10:52韓旭HANXu張正彥ZHANGZhengyan劉知遠LIUZhiyuan
        中興通訊技術(shù) 2022年2期
        關(guān)鍵詞:符號文本語言

        韓旭/HAN Xu,張正彥/ZHANG Zhengyan,劉知遠/LIU Zhiyuan

        (清華大學(xué),中國北京100084)

        1 知識的重要作用

        20世紀90年代前,研究人員將大量的精力投入到語法理論和專家系統(tǒng)的研究中。無論是語法理論中的語言規(guī)則還是專家系統(tǒng)中的知識庫,其背后的核心思想均為使用符號體系來表示語言理解所需的各類知識。這些離散稀疏的符號系統(tǒng)有利于抽象豐富的人類知識,并通過人為設(shè)計的精密規(guī)則實現(xiàn)語言理解中的知識推理。

        近些年來,陸續(xù)構(gòu)建的大型知識圖譜(知識庫),諸如Wikidata、YAGO和DBpedia,就采用了結(jié)構(gòu)化的符號形式來存儲海量的世界知識,并在語言理解中發(fā)揮重要作用。近些年的研究也證明,大規(guī)模知識圖譜中的豐富知識可以有力驅(qū)動一系列人工智能和自然語言處理的應(yīng)用,例如問答系統(tǒng)、對話系統(tǒng)、文本檢索和推薦系統(tǒng)。

        符號知識的一大痛點在于難以發(fā)揮機器所擅長的數(shù)值計算優(yōu)勢。此外,早期的語法規(guī)則與專家系統(tǒng)在泛化性上也存在問題。這就需要一套基于數(shù)值計算且具有一定泛化性的知識表示框架。統(tǒng)計學(xué)習(xí)也由此被應(yīng)用于自然語言處理任務(wù)中。20世紀90年代后,支持向量機、決策樹、條件隨機場的諸多經(jīng)典統(tǒng)計模型被廣泛應(yīng)用,在各類自然語言處理任務(wù)上取得了一系列突破。這些統(tǒng)計方法用模型參數(shù)來隱式地表示各類知識,并基于概率計算來進行推理。相對于符號知識的“人類友好”,這種連續(xù)數(shù)值化的模型知識更加“機器友好”。

        統(tǒng)計模型拉開了從符號知識到模型知識的序幕,開啟了用數(shù)值表示知識的新紀元,但統(tǒng)計模型本身的性能是十分有限的。近年來,神經(jīng)網(wǎng)絡(luò)蓬勃發(fā)展,它為數(shù)值化的知識表示及語義理解提供了更強大的工具。淺層神經(jīng)網(wǎng)絡(luò)首先被應(yīng)用于知識表示中。分布式詞向量表示旨在利用低維連續(xù)向量來表示詞匯相關(guān)的語言知識,并通過海量無標簽文本的自監(jiān)督學(xué)習(xí)來學(xué)習(xí)詞向量。得益于分布式詞向量中蘊含的豐富語言知識,詞的向量化表示已經(jīng)成為當前完成各類自然語言處理任務(wù)的標準范式,也有效地填補符號知識與數(shù)值計算間的鴻溝。

        隨著神經(jīng)網(wǎng)絡(luò)的深度與參數(shù)量的增加,大規(guī)模預(yù)訓(xùn)練語言模型(PLM)被提出,這推動了一系列自然語言處理任務(wù)的發(fā)展。預(yù)訓(xùn)練語言模型的主要特點在于其兩階段的構(gòu)建方法:第1階段,與分布式詞向量表示類似,在海量無標簽文本上進行自監(jiān)督學(xué)習(xí),以學(xué)習(xí)通用的語言特征和規(guī)則(即預(yù)訓(xùn)練);第2階段,將預(yù)訓(xùn)練模型在具體的自然語言處理任務(wù)上進行小規(guī)模、有標注數(shù)據(jù)的二次訓(xùn)練(即微調(diào)),以快速提升模型在這些任務(wù)中的性能,最終形成可部署應(yīng)用的模型。研究表明,在自監(jiān)督學(xué)習(xí)過程中,預(yù)訓(xùn)練語言模型可以捕捉到豐富的詞法知識、句法知識、語義知識、世界知識,并通過龐大的參數(shù)將這些知識存儲起來。這樣一來,微調(diào)模型的參數(shù)可以有效地將模型知識遷移到具體的任務(wù)上。

        圖1顯示了自然語言處理技術(shù)的發(fā)展脈絡(luò),清晰地表明了各個時期知識是如何表示的,以及是如何被運用于語言理解的。在使用上,符號知識與模型知識也各有優(yōu)勢。盡管預(yù)訓(xùn)練語言模型已經(jīng)在當前諸多自然語言處理任務(wù)上取得了很好的效果,但大量數(shù)據(jù)驅(qū)動下的預(yù)訓(xùn)練語言模型依然在可解釋性、魯棒性上存在不足。數(shù)據(jù)驅(qū)動的預(yù)訓(xùn)練語言模型具有善于學(xué)習(xí)的語義特征,同時符號表示的結(jié)構(gòu)化知識有著善于認知推理的特征。綜合發(fā)揮以上兩個優(yōu)勢,形成知識指導(dǎo)的預(yù)訓(xùn)練語言模型,對于揭示自然語言處理機理,實現(xiàn)智能語言理解,具有重要的理論意義與實用價值。

        圖1 自然語言處理技術(shù)發(fā)展脈絡(luò)[11]

        2 知識指導(dǎo)的預(yù)訓(xùn)練語言模型范式

        對于如何將知識有效地應(yīng)用在預(yù)訓(xùn)練語言模型中,我們已在文獻[11]中做了簡要介紹。本文中我們進一步擴展并提出了知識指導(dǎo)的預(yù)訓(xùn)練語言模型。如圖2所示,一般來講,預(yù)訓(xùn)練語言模型有4個要素:模型輸入、模型架構(gòu)、訓(xùn)練目標和參數(shù)空間。

        圖2 知識指導(dǎo)的預(yù)訓(xùn)練語言模型范式[11]

        ?對模型輸入而言,知識是輸入的重要補充,為文本中的關(guān)鍵詞句提供更加有效的語義解釋和語義特征;

        ?對模型架構(gòu)而言,知識可以引入先驗指導(dǎo)模型內(nèi)部的特征處理流程,進而提升模型性能;

        ?在訓(xùn)練目標上,知識可用于構(gòu)造新的訓(xùn)練任務(wù),提供更加豐富的訓(xùn)練目標,促進預(yù)訓(xùn)練語言模型能力的多樣化;

        ?在參數(shù)空間里,相比于隨機初始化,用引入知識的方式來約束參數(shù)空間可以提供一個更好的參數(shù)空間初始點,有利于加速收斂,優(yōu)化出更好的模型參數(shù)。

        正如圖2所示,知識可被應(yīng)用于其中任意一部分,以起到強化預(yù)訓(xùn)練模型性能的作用。接下來,我們將介紹這個框架的具體內(nèi)容。在圖中,我們給出了結(jié)構(gòu)風(fēng)險函數(shù)在知識指導(dǎo)前后的變化。其中,x、y是樣本的輸入輸出,k是引入的知識信息或者知識驅(qū)動的模塊,f是預(yù)訓(xùn)練語言模型本身,F(xiàn)、K分別是參數(shù)空間、知識約束的參數(shù)空間。

        2.1 知識增強

        在語言表達過程中,人們習(xí)慣省略一些眾所周知的背景知識。這并不影響人類對語言的理解,卻不利于機器對語言的理解。知識增強旨在將這部分背景知識顯式地作為補充輸入,豐富上下文信息,以幫助模型更好地進行文本理解。

        知識增強的方式主要有兩種。第一種是直接將知識轉(zhuǎn)換成文本形式,并拼接到已有文本中作為輸入。最簡單的做法就是將相關(guān)的結(jié)構(gòu)化圖譜信息轉(zhuǎn)換為文本內(nèi)容。在此過程中,如何找到和輸入相關(guān)的知識就是一個主要挑戰(zhàn)?;谛畔z索的預(yù)訓(xùn)練語言模型是一個有效的解決方案,例如REALM和RAG。其預(yù)訓(xùn)練一個文本檢索器,用于構(gòu)建輸入文本和背景知識文本的關(guān)聯(lián),使用時再將檢索到的知識文本與輸入文本拼接起來,給模型提供更加豐富的信息。

        知識增強的另一種方式則是通過設(shè)計特定的知識融合模塊,將文本的表示向量和相關(guān)知識向量融合在一起。這與上述文本拼接有明顯不同:知識不再以符號形式進行表達,而是被蘊含在模型參數(shù)中。ELMo是該方向的代表性工作。由于ELMo是一個在超大規(guī)模語料上訓(xùn)練的語言模型,其表示向量可以提供豐富的語言知識,解決一詞多義等問題。人們通常使用ELMo來代替?zhèn)鹘y(tǒng)詞向量,以提升模型的基本文本理解能力。更進一步地,不少工作將知識圖譜中的實體與關(guān)系表示為向量,并將這些向量輸入到預(yù)訓(xùn)練語言模型以進行知識融合,這也是非常有效的知識增強方法。

        2.2 知識支撐

        知識支撐可以利用大量已有的知識來構(gòu)建更好的結(jié)構(gòu)先驗。具體而言,在模型底層,知識支撐可以作為一種數(shù)據(jù)預(yù)處理模塊;而在模型頂層,知識支撐可以指導(dǎo)模型的預(yù)測。

        知識記憶網(wǎng)絡(luò)是數(shù)據(jù)預(yù)處理模塊的代表技術(shù)。根據(jù)輸入特征,底層的網(wǎng)絡(luò)結(jié)構(gòu)會動態(tài)調(diào)整,以連接對應(yīng)的記憶區(qū)域,從而將記憶模塊中的知識注入到模型的推理計算中。在此過程中,知識的表示形式通常為低維稠密向量,也就是所謂的模型知識。采用了記憶機制的預(yù)訓(xùn)練語言模型在多跳推理、長文本處理等需要長距離語義關(guān)系處理的任務(wù)上有顯著效果。

        當知識支撐作為頂層的預(yù)測指導(dǎo)模塊時,其目標是借助知識的先驗信息,構(gòu)建答案之間的關(guān)聯(lián),更好地對備選答案進行篩選。在此過程中,知識的表示形式通常是符號化、層次化的。結(jié)構(gòu)化知識庫支撐的語言模型是該方向具有代表性的研究工作。在生成句子的過程中,語言模型可以利用知識庫信息生成更加適合當前語境的詞。

        2.3 知識約束

        對于知識約束,我們既可以基于已有輸入數(shù)據(jù)并結(jié)合相關(guān)知識來構(gòu)建訓(xùn)練目標,也可以直接使用外部知識來構(gòu)建新數(shù)據(jù)和新目標。

        知識蒸餾是一種代表性的知識約束方法,也是知識結(jié)合已有輸入數(shù)據(jù)來構(gòu)建訓(xùn)練目標的典型案例。知識蒸餾能夠利用大模型對已有數(shù)據(jù)進行預(yù)測,從而提供新的監(jiān)督信號,幫助小模型學(xué)習(xí)取得更好的效果。具體而言,知識蒸餾要求小模型的中間計算結(jié)果和大模型的中間計算結(jié)果盡可能保持一致,包括隱層表示以及預(yù)測的標簽分布。相比于單一的人工標注標簽,知識蒸餾能提供更加豐富的模型知識信息。知識蒸餾已被廣泛用于預(yù)訓(xùn)練語言模型以提升其計算效率與模型表現(xiàn)。

        遠程監(jiān)督是另一種具有代表性的知識約束方法,能夠根據(jù)已有知識圖譜和無監(jiān)督文本自動生成大量新訓(xùn)練數(shù)據(jù)。遠程監(jiān)督在信息抽取領(lǐng)域獲得廣泛應(yīng)用,大大降低了數(shù)據(jù)標注成本,顯著提升了模型性能。我們給出了一個遠程監(jiān)督的簡單示例:給定知識圖譜中的三元組(包含頭實體、尾實體及其關(guān)系),找出同時包含頭尾實體的文本,并將其標注為該關(guān)系類型的樣例?;谏鲜鰡l(fā)式規(guī)則,我們可以自動獲取大量知識相關(guān)的文本分類數(shù)據(jù)來訓(xùn)練預(yù)訓(xùn)練語言模型。盡管這種自動標注方式存在噪音,如標注的樣例可能并不反映頭尾實體間的標注關(guān)系,但不少工作表明,遠程監(jiān)督數(shù)據(jù)依然能夠有效地幫助模型的訓(xùn)練。這些使用遠程監(jiān)督數(shù)據(jù)增強的預(yù)訓(xùn)練語言模型被驗證具有強大的實體關(guān)系理解能力。

        2.4 知識遷移

        知識遷移的目的在于利用知識進行參數(shù)空間的約束,以降低參數(shù)空間的搜索代價,提升最終模型的性能。知識遷移技術(shù)已被廣泛應(yīng)用于自然語言處理。遷移學(xué)習(xí)和自監(jiān)督學(xué)習(xí)都是知識遷移的重要研究方向。各種預(yù)訓(xùn)練語言模型的微調(diào)階段本身就是一種知識遷移,旨在將預(yù)訓(xùn)練階段獲取的豐富模型知識遷移到具體任務(wù)上。

        對于預(yù)訓(xùn)練過程而言,最近的一些工作嘗試以已有的預(yù)訓(xùn)練語言模型為基底來訓(xùn)練新的預(yù)訓(xùn)練模型。部分工作側(cè)重于利用較小的預(yù)訓(xùn)練語言模型的模型知識,來降低大規(guī)模預(yù)訓(xùn)練模型的訓(xùn)練代價;而另一些工作則基于已有預(yù)訓(xùn)練語言模型的通用知識,來指導(dǎo)更多垂直領(lǐng)域的知識。

        無論是對于預(yù)訓(xùn)練語言模型的預(yù)訓(xùn)練還是下游任務(wù)適配,充分遷移已有的模型知識相較于毫無基礎(chǔ)的重新學(xué)習(xí),在計算效率和模型效果上均有顯著優(yōu)勢。

        總之,我們從預(yù)訓(xùn)練語言模型的模型輸入、模型架構(gòu)、訓(xùn)練目標和參數(shù)空間4個方面入手,構(gòu)建了全面的知識指導(dǎo)的預(yù)訓(xùn)練語言模型框架。在該框架下,符號知識和模型知識均可以得到充分利用,有效提升預(yù)訓(xùn)練模型的學(xué)習(xí)能力和模型表現(xiàn)。

        3 預(yù)訓(xùn)練語言模型的知識激發(fā)

        在上一章節(jié)中,我們關(guān)注的是如何將知識注入預(yù)訓(xùn)練語言模型之中。在這一章節(jié)中,我們將簡單介紹如何激發(fā)預(yù)訓(xùn)練模型中的知識。這對于應(yīng)用知識指導(dǎo)的預(yù)訓(xùn)練語言模型具有重要意義。

        預(yù)訓(xùn)練語言模型能夠通過微調(diào)顯著提升下游任務(wù)性能,卻仍然面臨著兩個重要挑戰(zhàn):(1)預(yù)訓(xùn)練和微調(diào)之間的任務(wù)形式存在較大差別,預(yù)訓(xùn)練只考慮語言建模,但下游任務(wù)目標形式可能各有不同,這種差別會顯著影響知識遷移的效能。(2)隨著預(yù)訓(xùn)練模型參數(shù)規(guī)模迅速增加,即使進行模型微調(diào),也需要大量技術(shù)資源。為了解決這些問題,最近學(xué)術(shù)界提出了一種新的微調(diào)技術(shù),即提示學(xué)習(xí)(Prompt Tuning)。該技術(shù)能夠有效利用大規(guī)模的模型知識,日益獲得廣泛關(guān)注。

        提示學(xué)習(xí)的目的是將下游任務(wù)轉(zhuǎn)化為類似于預(yù)訓(xùn)練目標的填空任務(wù)。采用相同的優(yōu)化目標有利于在下游任務(wù)中更好地激發(fā)預(yù)訓(xùn)練模型中的知識。以情感分類的提示學(xué)習(xí)為例(圖3),模型的輸入由兩部分組成:輸入數(shù)據(jù)以及提示學(xué)習(xí)所需的提示模板?;谠撦斎?,預(yù)訓(xùn)練語言模型在一組標簽詞中選擇概率最高的詞進行填空,再將預(yù)測的詞映射到相應(yīng)的分類標簽上。圖3中,提示模板為“It was[Mask]”,“[Mask]”代表需要進行填空的位置。標簽詞為“great”和“terrible”,“great”對應(yīng)正向情感,“terrible”對應(yīng)負向情感。提示微調(diào)也在一系列自然語言處理任務(wù)上取得了成效,包括文本分類、序列標注、文本生成等任務(wù)。

        圖3 預(yù)訓(xùn)練、微調(diào)、提示學(xué)習(xí)示意圖

        為了在下游任務(wù)上取得成功,提示模板和標簽詞(提示語)需要進行精細的設(shè)計和選擇。為了避免費力而復(fù)雜的提示語設(shè)計,自動搜索高質(zhì)量的提示語成為目前工作的一個重點:研究者探索使用梯度優(yōu)化來搜索最佳提示語,或使用生成模型來提供多個候選提示語,然后逐一評估其有效性,以選擇最佳提示語。目前,自動搜索提示語的成本仍然很高,這限制了這些自動方法的使用場景。為此,也有研究者提出用邏輯規(guī)則指導(dǎo)提示學(xué)習(xí)。這種方法將先驗知識編碼到提示語中,降低搜索以及訓(xùn)練難度,使模型知識可以更好地為下游任務(wù)服務(wù)。為了避免復(fù)雜的提示設(shè)計,一些工作采用了可學(xué)習(xí)的提示向量來驅(qū)動預(yù)訓(xùn)練語言模型進行提示微調(diào),無須變動預(yù)訓(xùn)練模型的任何參數(shù),只須調(diào)整提示向量即可。

        不少知識探測工作表明,通過設(shè)計提示模板,預(yù)訓(xùn)練語言模型甚至可以補全結(jié)構(gòu)化知識信息。上述研究表明,除了知識模型的性質(zhì)外,預(yù)訓(xùn)練語言模型也有一定的符號知識特性。輸入提示能充分激發(fā)出預(yù)訓(xùn)練語言模型中各個層面豐富的知識信息,以解決具體問題。預(yù)訓(xùn)練語言模型在推動自然語言處理中模型知識的使用方面有著重要作用。從某種程度上而言,預(yù)訓(xùn)練模型也將影響自然語言處理中符號知識的使用范式。盡管預(yù)訓(xùn)練語言模型仍需符號知識進行強化,但其本身也是一種符號知識的優(yōu)秀載體,有利于符號知識與模型知識的融合與統(tǒng)一。

        4 結(jié)束語

        在文章中,我們圍繞知識對于自然語言處理的重要性、知識指導(dǎo)的預(yù)訓(xùn)練范式、預(yù)訓(xùn)練語言模型的知識激發(fā)3個方面,介紹了知識指導(dǎo)的預(yù)訓(xùn)練語言模型的相關(guān)技術(shù)。在各個方向上,盡管目前均已獲得一些成果,但仍有許多尚未解決的重要問題。這需要研究者進一步努力,以取得突破。

        清華大學(xué)姚遠、李涓子和孫茂松在文章的撰寫過程中,給出了寶貴的建議,在此表示感謝。

        猜你喜歡
        符號文本語言
        學(xué)符號,比多少
        幼兒園(2021年6期)2021-07-28 07:42:14
        語言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        “+”“-”符號的由來
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        讓語言描寫搖曳多姿
        變符號
        累積動態(tài)分析下的同聲傳譯語言壓縮
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        我有我語言
        粗大的内捧猛烈进出看视频| 青青自拍视频成人免费观看| 日韩一二三四区在线观看| 最新欧美精品一区二区三区| 日本公与熄乱理在线播放| 久久中文字幕无码一区二区| 亚洲日本一区二区在线观看 | 日韩激情av不卡在线| 亚洲 另类 小说 国产精品| 野狼第一精品社区| 国产极品美女高潮抽搐免费网站| 国产精品很黄很色很爽的网站| 漂亮人妻被强了完整版| 亚洲精品suv精品一区二区| 国产欧美日韩午夜在线观看| 精品在线视频免费在线观看视频 | 18禁裸体动漫美女无遮挡网站| 麻麻张开腿让我爽了一夜| 亚洲国产精品500在线观看| 国产精品后入内射日本在线观看| 日韩内射美女片在线观看网站| 国产大学生粉嫩无套流白浆| 国产成年无码aⅴ片在线观看| 亚洲精品中文字幕一二三| 极品少妇hdxx麻豆hdxx| 国产又黄又猛又粗又爽的a片动漫| 亚洲中文字幕精品久久久久久直播| 国产老熟女伦老熟妇露脸| 内射合集对白在线| 一本一本久久a久久精品| 精品一区二区中文字幕| 丰满少妇按摩被扣逼高潮| 国产精品va无码一区二区| 神马不卡一区二区三级| 精品亚洲一区二区三洲| 国产精品免费av片在线观看| 国产成人无码一二三区视频| 色综合久久五月天久久久| 亚洲人妻调教中文字幕| 欧美野外疯狂做受xxxx高潮| 精品一二区|