江洋洋,金 伯,張寶昌
1.北京航空航天大學(xué) 圖書館,北京100191
2.北京建筑大學(xué) 國(guó)際化發(fā)展研究院,北京100044
3.北京航空航天大學(xué) 自動(dòng)化科學(xué)與電氣工程學(xué)院,北京100191
4.北京航空航天大學(xué) 人工智能研究院,北京100191
自然語(yǔ)言處理(Natural Language Processing,NLP)是一種以理論為基礎(chǔ)的自動(dòng)分析和表示人類語(yǔ)言的計(jì)算技術(shù)[1]。自然語(yǔ)言處理涉及許多研究和應(yīng)用技術(shù)[2-8],如語(yǔ)言建模、文本分類、機(jī)器翻譯、自動(dòng)問(wèn)答、自動(dòng)文摘等。近年來(lái),由于深度學(xué)習(xí)(Deep Learning,DL)擁有強(qiáng)大的特征提取和學(xué)習(xí)能力,已逐漸成為自然語(yǔ)言處理領(lǐng)域中的主流技術(shù)。深度學(xué)習(xí)的概念最早是由Hinton 等人[9]在2006年提出的,是一門用于學(xué)習(xí)和利用“深度”人工神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)技術(shù),主要算法模型包括卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)和遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Networks,RNN)[10]。作為人工智能領(lǐng)域中最熱門的研究方向,深度學(xué)習(xí)的迅速發(fā)展受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注[11]。
自然語(yǔ)言處理被稱為人工智能皇冠上的明珠,代表了人工智能的最終目標(biāo)[11]。因此如何使用深度學(xué)習(xí)技術(shù)推動(dòng)自然語(yǔ)言處理領(lǐng)域的發(fā)展是當(dāng)前的研究熱點(diǎn)和難點(diǎn)。與此同時(shí),國(guó)內(nèi)外學(xué)者高度關(guān)注該領(lǐng)域,并展開了大量的研究工作。盡管已有的深度學(xué)習(xí)算法模型如CNN、RNN 等在自然語(yǔ)言處理領(lǐng)域已經(jīng)有較為廣泛的應(yīng)用,但還沒(méi)有重大突破。可以說(shuō)深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域(DL-NLP)的研究目前仍處于起步階段,因此圍繞DL-NLP的研究還有很長(zhǎng)的路要走,以及一系列的問(wèn)題需要解決。
以往的文獻(xiàn)綜述往往局限于從自身角度出發(fā)進(jìn)行定性分析,未能從更加客觀的“第三人”視角進(jìn)行全面的定量研究?;诖?,本文采用定量與定性相結(jié)合的方法,一方面利用文獻(xiàn)計(jì)量學(xué)方法與可視化工具,梳理和分析DL-NLP的主要研究國(guó)家、機(jī)構(gòu)、主題演變、發(fā)展路徑與發(fā)展趨勢(shì);另一方面閱讀領(lǐng)域內(nèi)的重要文獻(xiàn),深入挖掘DL-NLP 的研究趨勢(shì)、存在的主要問(wèn)題或發(fā)展瓶頸,并給出相應(yīng)的解決辦法與思路,為DL-NLP 的后續(xù)研究與發(fā)展提供參考與幫助。
科學(xué)知識(shí)圖譜能夠通過(guò)可視化的手段來(lái)呈現(xiàn)科學(xué)知識(shí)的結(jié)構(gòu)、規(guī)律和分布情況[12]。目前用于可視化分析的軟件有很多且各具優(yōu)勢(shì),本研究主要采用目前主流的分析軟件VOSviewer[13]和CiteSpace[12]進(jìn)行可視化繪圖。在本研究中,VOSviewer用來(lái)理清文獻(xiàn)信息在復(fù)雜網(wǎng)絡(luò)(如合作機(jī)構(gòu)、關(guān)鍵詞等)中的關(guān)系。CiteSpace 的文獻(xiàn)共被引分析功能可以在知識(shí)網(wǎng)絡(luò)中捕捉文獻(xiàn)聚類和關(guān)鍵文獻(xiàn)節(jié)點(diǎn),從而對(duì)該領(lǐng)域的發(fā)展路徑和發(fā)展趨勢(shì)有更加精確和清晰的認(rèn)識(shí)。
本研究所使用的文獻(xiàn)數(shù)據(jù)來(lái)自Web of Science 核心合集中的SCIE(Science Citation Index Expanded)和SSCI(Social Sciences Citation Index)數(shù)據(jù)庫(kù)。SCIE 和SSCI 是文獻(xiàn)計(jì)量分析中最常用的數(shù)據(jù)庫(kù)[14-15]。這兩個(gè)數(shù)據(jù)庫(kù)比其他數(shù)據(jù)庫(kù)涵蓋更多的科學(xué)和權(quán)威出版物??紤]到DL-NLP研究涵蓋許多分支內(nèi)容[7,16-18],為提高查全率,將檢索條件設(shè)置為:TS=(“deep-learn*”O(jiān)R“convolutional neural network*”O(jiān)R“recurrent neural network*”O(jiān)R“CNN*”O(jiān)R“RNN*”O(jiān)R“l(fā)ong short-term memory network*”O(jiān)R“LSTM”O(jiān)R“recursive neural network*”)AND(“natural language process*”O(jiān)R“natural language*”O(jiān)R“NLP”O(jiān)R“part-of-speech tagging”O(jiān)R“POS”O(jiān)R“syntactic analysis”O(jiān)R“sentiment analysis”O(jiān)R“opinion extraction”O(jiān)R“opinion mining”O(jiān)R“sentiment mining”O(jiān)R“subjectivity analysis”O(jiān)R“machine translation”O(jiān)R“text categorization”O(jiān)R“information retrieval”O(jiān)R“information extraction”O(jiān)R“word sense disambiguation”O(jiān)R“syntax analysis”O(jiān)R“text mining”O(jiān)R“l(fā)anguage modeling”O(jiān)R“automatic summarization”O(jiān)R“question answering system*”O(jiān)R“dialogue system”O(jiān)R“text classification”O(jiān)R“automatic speech recognition”O(jiān)R“single turn dialogue”O(jiān)R“named entity recognition”O(jiān)R“word segmentation”O(jiān)R“dependency parsing”O(jiān)R“semantic parsing”O(jiān)R“multi-turn dialogue”O(jiān)R“sentiment classification”),時(shí)間跨度定義為2000—2021 年。檢索日期為2021 年4 月13 日。共檢索文獻(xiàn)3 236 篇。對(duì)所得文獻(xiàn)進(jìn)行篩選,剔除新聞、社論、書評(píng)等無(wú)關(guān)文獻(xiàn)后,得到有效文獻(xiàn)3 054篇。
圖1描繪了DL-NLP文獻(xiàn)的年度發(fā)文分布。自2000年以來(lái),DL-NLP相關(guān)文獻(xiàn)在隨后的十幾年中增長(zhǎng)非常緩慢,直到2014 年,特別是2016 年以后,越來(lái)越多的學(xué)者開始在這一領(lǐng)域展開研究,文獻(xiàn)數(shù)量呈指數(shù)級(jí)增長(zhǎng)。
圖1 DL-NLP研究文獻(xiàn)年度分布趨勢(shì)Fig.1 Annual distribution trend of DL-NLP research literatures
增速如此之快的原因有很多:首先,2010年后,計(jì)算機(jī)運(yùn)算能力的大幅提升支撐了深度學(xué)習(xí)算法的研究。其次,2013 至2014 年,CNN、RNN(循環(huán))、RNN(遞歸)作為深度學(xué)習(xí)最主要的算法模型,開始在自然語(yǔ)言處理領(lǐng)域廣泛使用,并且推動(dòng)了自然語(yǔ)言處理的快速發(fā)展。在這之后,每年發(fā)表的文獻(xiàn)數(shù)量逐漸增加。2016年,美國(guó)人工智能投資開始爆發(fā),收并購(gòu)案例持續(xù)增加,許多主研自然語(yǔ)言處理的人工智能企業(yè)如Wit.ai、DNNresearch、Maluuba、VocalIQ 等被微軟、蘋果、英特爾、谷歌等巨頭企業(yè)密集收購(gòu)[19],文獻(xiàn)在這一年之后呈指數(shù)級(jí)增長(zhǎng)。作為世界最重要的兩大經(jīng)濟(jì)體,中美兩國(guó)也在這兩年相繼發(fā)布白皮書,推動(dòng)了中美兩國(guó)的DL-NLP研究熱潮與發(fā)展。2017年,在美國(guó)人工智能各領(lǐng)域企業(yè)數(shù)量統(tǒng)計(jì)中,自然語(yǔ)言處理企業(yè)數(shù)量為252 家,排名第一[20]。從文獻(xiàn)增長(zhǎng)曲線和發(fā)展空間可以推斷,2021年DL-NLP研究文獻(xiàn)將會(huì)繼續(xù)增加。根據(jù)Markets and Markets 的研究,自然語(yǔ)言處理的市場(chǎng)規(guī)模預(yù)計(jì)將從2019 年的102 億美元增長(zhǎng)至2024年的264億美元。DL-NLP受到了越來(lái)越多的關(guān)注,預(yù)示著這一領(lǐng)域?qū)⒗^續(xù)成為未來(lái)的研究熱點(diǎn)。
近年來(lái),DL-NLP 領(lǐng)域的研究發(fā)展迅速。如圖2 所示,越來(lái)越多的國(guó)家參與了DL-NLP 的研究,其中美國(guó)和中國(guó)的學(xué)者發(fā)表的文獻(xiàn)數(shù)量最多。
圖2 國(guó)家/地區(qū)文獻(xiàn)數(shù)量地理可視化分布圖Fig.2 Geographic visualization distribution map of national/regional literature quantity
表1為發(fā)文數(shù)量排名前10的國(guó)家??梢钥闯?,中國(guó)和美國(guó)在文獻(xiàn)數(shù)量、被引頻次和國(guó)際合作數(shù)量上都遠(yuǎn)遠(yuǎn)高于其他國(guó)家。說(shuō)明中國(guó)和美國(guó)對(duì)該領(lǐng)域的合作態(tài)度最為積極和包容。此外,也要注意到由于中國(guó)的文獻(xiàn)數(shù)量大幅超過(guò)美國(guó),因此國(guó)際合作率遠(yuǎn)低于美國(guó)。
表1 文獻(xiàn)數(shù)量排名前10的國(guó)家Table 1 Top 10 countries in number of documents
共有來(lái)自2 574個(gè)機(jī)構(gòu)的研究人員在DL-NLP領(lǐng)域發(fā)表了文獻(xiàn),表2 列出了文獻(xiàn)數(shù)量排名前10 的機(jī)構(gòu),包括9 個(gè)中國(guó)機(jī)構(gòu)和1 個(gè)新加坡機(jī)構(gòu)。其中,發(fā)表文獻(xiàn)最多的機(jī)構(gòu)是中國(guó)科學(xué)院、中國(guó)科學(xué)院大學(xué)和哈爾濱工業(yè)大學(xué)。在被引頻次方面,南洋理工大學(xué)、中國(guó)科學(xué)院和哈爾濱工業(yè)大學(xué)位列前三,均遠(yuǎn)高于其他機(jī)構(gòu)。在合作情況方面,中國(guó)科學(xué)院無(wú)論是合作強(qiáng)度還是合作數(shù)量均遠(yuǎn)高于其他機(jī)構(gòu)??偟膩?lái)說(shuō),中國(guó)科學(xué)院與其他機(jī)構(gòu)的合作態(tài)度是最積極的,合作力度也最強(qiáng)。而南洋理工大學(xué)雖然文獻(xiàn)數(shù)量遠(yuǎn)不及中國(guó)科學(xué)院,但是由于被引頻次最高,在該領(lǐng)域產(chǎn)生了巨大的影響力??梢哉f(shuō),這兩個(gè)機(jī)構(gòu)都為該領(lǐng)域的發(fā)展做出了很大的貢獻(xiàn)。
表2 文獻(xiàn)數(shù)量排名前10的機(jī)構(gòu)Table 2 Top 10 institutions in number of documents
圖3顯示了機(jī)構(gòu)的合作網(wǎng)絡(luò)(每個(gè)機(jī)構(gòu)的最少文獻(xiàn)數(shù)量為8)。節(jié)點(diǎn)大小表示文獻(xiàn)的數(shù)量,節(jié)點(diǎn)顏色表示平均發(fā)表年份。值得注意的是,許多機(jī)構(gòu)在該領(lǐng)域發(fā)表的論文數(shù)量差距并不明顯。總體而言,美國(guó)、歐洲等國(guó)家的機(jī)構(gòu)起步較早,中國(guó)機(jī)構(gòu)在該領(lǐng)域起步較晚。
圖3 機(jī)構(gòu)合作網(wǎng)絡(luò)圖Fig.3 Collaborative network of institutions
通過(guò)數(shù)據(jù)統(tǒng)計(jì),DL-NLP 的文獻(xiàn)發(fā)表在591 種期刊上,這些期刊主要分布在計(jì)算機(jī)科學(xué)、工程學(xué)、電子通信、醫(yī)學(xué)、化學(xué)、物理、材料科學(xué)、信息科學(xué)與圖書館科學(xué)、數(shù)學(xué)等學(xué)科。發(fā)表論文最多的前10種期刊如表3所示(多個(gè)分區(qū)的取最高分區(qū))。31.925%的文獻(xiàn)(975篇)發(fā)表在前10種期刊上。這些期刊的2020年影響因子在2.679 到8.038 之間,其中,Knowledge Based Systems的影響因子最高,而Applied Sciences Basel最低。由JCR分區(qū)可見,Q1區(qū)的期刊占70%,Q2區(qū)的期刊占30%。通過(guò)對(duì)期刊分布的分析,有助于找到核心期刊。
表3 發(fā)文量最多的前10種期刊Table 3 Top 10 journals with the largest number of publications
本研究共涉及6 650個(gè)關(guān)鍵詞,其中5 402個(gè)關(guān)鍵詞僅出現(xiàn)1次,占81.23%。圖4顯示了關(guān)鍵詞的共現(xiàn)網(wǎng)絡(luò)(共現(xiàn)閾值為8)。根據(jù)圖4,深度學(xué)習(xí)、自然語(yǔ)言處理、卷積神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)、循環(huán)神經(jīng)網(wǎng)絡(luò)、情緒分析、長(zhǎng)短期記憶網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制為高頻關(guān)鍵詞,這些關(guān)鍵詞的平均發(fā)表年份為2018 至2019 年。此外,特征提取、語(yǔ)義學(xué)、BERT(Bidirectional Encoder Representations from Transformers)、預(yù)測(cè)模型、上下文建模、誤碼率、邏輯門、自適應(yīng)模型等可能是DL-NLP 領(lǐng)域的新興研究熱點(diǎn),平均發(fā)表年份為2020年。
圖4 關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖Fig.4 Keywords co-occurrence network map
3.6.1 重點(diǎn)文獻(xiàn)選擇
共被引知識(shí)圖譜展示了共被引知識(shí)單元的游離與重組,并在重組中形成新的知識(shí)單元的過(guò)程。CiteSpace通過(guò)共被引文獻(xiàn)聚類的形成、積累和擴(kuò)散,形成了從知識(shí)基礎(chǔ)(intellecture base)映射到研究前沿(research front)的概念模型。該過(guò)程展示了文獻(xiàn)的引用和共被引足跡[21-22]。通過(guò)CiteSpace 繪制科學(xué)美觀的共被引知識(shí)圖譜可以準(zhǔn)確捕捉關(guān)鍵文獻(xiàn)節(jié)點(diǎn)和引文聚類。知識(shí)圖譜的科學(xué)性和效果評(píng)價(jià)的基礎(chǔ)依賴于網(wǎng)絡(luò)結(jié)構(gòu)和聚類銳度給出的兩個(gè)指標(biāo),即聚類模塊值(MQ)和平均輪廓值(MS)。一般來(lái)說(shuō),當(dāng)MQ>0.3 時(shí),表示聚類結(jié)構(gòu)顯著,當(dāng)MS>0.7 時(shí),認(rèn)為聚類是令人信服的[22]。
過(guò)多的數(shù)據(jù)量使得圖譜過(guò)于復(fù)雜,無(wú)法找到關(guān)鍵文獻(xiàn),因此去除冗余文獻(xiàn)信息十分必要。用CiteSpace 軟件對(duì)3 054 篇文獻(xiàn)數(shù)據(jù)反復(fù)繪制知識(shí)圖譜,調(diào)整多種數(shù)據(jù)過(guò)濾策略,最終將閾值設(shè)置為TopN=20,Year per slice=1,Thresholding(2,2,20;15,15,20;15,15,20),Pathfinder(pruning the merged network),得到MQ 和MS值更理想的圖進(jìn)行共被引分析。
CiteSpace 通過(guò)中介中心性(Centrality)測(cè)度和衡量文獻(xiàn)節(jié)點(diǎn)的重要程度。關(guān)鍵文獻(xiàn)節(jié)點(diǎn)(Centrality>0.1)用紫色圈標(biāo)記(圖5),此類文獻(xiàn)通常出現(xiàn)在關(guān)鍵路徑的轉(zhuǎn)折點(diǎn),并且對(duì)DL-NLP知識(shí)領(lǐng)域的發(fā)展起到了積極的作用。此外,盡管一些高頻引文沒(méi)有用紫色圈標(biāo)記,但它們加快了知識(shí)領(lǐng)域的延伸和擴(kuò)展。因此,重點(diǎn)文獻(xiàn)的選擇標(biāo)準(zhǔn)基于高中介中心性和高被引頻次兩點(diǎn)。
3.6.2 DL-NLP研究軌跡
利用CiteSpace提供的聚類生成和標(biāo)記功能對(duì)文獻(xiàn)信息進(jìn)行聚類,采用對(duì)數(shù)極大似然率算法提取聚類標(biāo)簽詞,將DL-NLP 知識(shí)域劃分為10 個(gè)知識(shí)聚類,如圖5所示(MQ=0.819 9,MS=0.939 2)。此外,為了描繪知識(shí)聚類的歷史跨度及其之間的關(guān)系,繪制了時(shí)間軸視圖(圖6)。
圖5 共被引網(wǎng)絡(luò)聚類圖Fig.5 Cluster visualization mapping of co-citation network
圖6 共被引網(wǎng)絡(luò)時(shí)間軸視圖Fig.6 Timeline visualization mapping of co-citation network
知識(shí)基礎(chǔ)和研究前沿之間具有二元時(shí)間對(duì)偶性(time-variant duality),因此知識(shí)基礎(chǔ)對(duì)研究前沿的相關(guān)性和歷史演變起著決定性作用。表4列出了10個(gè)聚類的參數(shù),按照平均年份整合可以發(fā)現(xiàn),DL-NLP 研究的主題演化路徑依次為2013年(條件隨機(jī)場(chǎng))、2014年(圖像描述、任務(wù)分析)、2015年(視覺情感分析、文本分類、注意力機(jī)制、方面級(jí)情感分析)、2016年(情感分析、命名實(shí)體識(shí)別)、2017年(遷移學(xué)習(xí))。
表4 共被引網(wǎng)絡(luò)聚類參數(shù)Table 4 Clustering parameters of co-citation network
通過(guò)詳細(xì)閱讀隱藏在不同聚類中的重點(diǎn)文獻(xiàn),DLNLP 研究的發(fā)展路徑和趨勢(shì)浮出水面。由表5 可以發(fā)現(xiàn),分布式表示的實(shí)現(xiàn)構(gòu)成了DL-NLP 的基礎(chǔ),此后CNN開始應(yīng)用于NLP領(lǐng)域。CNN能夠有效地在上下文中挖掘語(yǔ)義信息,但是無(wú)法對(duì)遠(yuǎn)距離上下文信息進(jìn)行建模,也無(wú)法處理詞匯的順序信息。與CNN 不同,RNN(循環(huán))可以處理詞匯的順序信息,并且具有靈活的計(jì)算步驟,可以提供更好的建模能力。由于RNN 容易出現(xiàn)梯度消失的問(wèn)題,對(duì)其進(jìn)行改進(jìn)的長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)開始流行。此外,由于計(jì)算能力有限導(dǎo)致信息超載問(wèn)題嚴(yán)重,注意力機(jī)制作為一種資源分配方案,通過(guò)將計(jì)算資源分配給更重要的任務(wù),有效緩解了這一問(wèn)題。由于語(yǔ)言是具有層級(jí)結(jié)構(gòu)的,而CNN 和RNN(循環(huán))都將語(yǔ)言視為一個(gè)序列。因此,RNN(遞歸)網(wǎng)絡(luò)作為RNN(循環(huán))的推廣,以樹形結(jié)構(gòu)替代序列來(lái)表示語(yǔ)言,有效解決了數(shù)據(jù)結(jié)構(gòu)的表征問(wèn)題。此后,由于一些資源貧乏的語(yǔ)言缺乏充足的語(yǔ)言數(shù)據(jù),深度學(xué)習(xí)模型無(wú)法從中學(xué)習(xí)總結(jié)到有用的規(guī)律,預(yù)訓(xùn)練模型被用來(lái)解決這一問(wèn)題[7]。BERT作為一款重要的預(yù)訓(xùn)練模型,采用了Transformer的架構(gòu),一經(jīng)推出便席卷整個(gè)自然語(yǔ)言處理領(lǐng)域,在11 種自然語(yǔ)言處理任務(wù)中取得最佳性能,帶來(lái)了革命性的進(jìn)步。此后,以BERT 為基礎(chǔ)的改進(jìn)模型相繼被提出,大大推動(dòng)了自然語(yǔ)言處理領(lǐng)域的進(jìn)步。
通過(guò)表5 可以發(fā)現(xiàn),目前DL-NLP 研究側(cè)重網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化改進(jìn)。雖然深度學(xué)習(xí)模型已經(jīng)廣泛應(yīng)用在自然語(yǔ)言處理任務(wù)中,但是由于存儲(chǔ)空間和計(jì)算資源的限制,模型在移動(dòng)端和嵌入式系統(tǒng)上的存儲(chǔ)與計(jì)算仍然面臨巨大挑戰(zhàn)。因此,在保持模型性能不變的基礎(chǔ)上,近一步減少模型的參數(shù)量和復(fù)雜度,即模型輕量化,是DL-NLP的研究趨勢(shì)。模型輕量化主要是對(duì)算法層的壓縮與加速,包括模型剪枝、結(jié)構(gòu)優(yōu)化設(shè)計(jì)、知識(shí)蒸餾、量化等。
表5 DL-NLP發(fā)展路徑和趨勢(shì)Table 5 Development path and trend of DL-NLP
模型剪枝主要分為權(quán)重剪枝[65-66]、通道剪枝[67-68]、核剪枝[69-71]和神經(jīng)元剪枝[72-73]。Liu 等人[74]通過(guò)將ReLU 引入Winograd域,獲得激活函數(shù)(Activations)在Winograd域的動(dòng)態(tài)稀疏度,通過(guò)對(duì)權(quán)重進(jìn)行剪枝,獲得權(quán)重在Winograd 域的靜態(tài)稀疏度,將網(wǎng)絡(luò)剪枝與Winograd 變換相結(jié)合,有效實(shí)現(xiàn)了稀疏加速。Gordon等人[75]發(fā)現(xiàn)低水平修剪不會(huì)對(duì)預(yù)訓(xùn)練損失及遷移至其他任務(wù)產(chǎn)生影響,中水平修剪和高水平修剪會(huì)增加預(yù)訓(xùn)練損失,阻止預(yù)訓(xùn)練遷移至其他任務(wù)。因此,在不影響性能的前提下,在預(yù)訓(xùn)練階段僅對(duì)BERT 進(jìn)行單次修剪即可。McCarley等人[76]通過(guò)結(jié)構(gòu)化剪枝模型的參數(shù),來(lái)壓縮基于BERT和RoBERTa的問(wèn)答系統(tǒng),具體包括結(jié)合修剪了Transformer 的attention heads 數(shù)量和前饋層的中間寬度,此外減少了嵌入維度。Guo等人[77]提出了一種專為大規(guī)模語(yǔ)言表征模型設(shè)計(jì)的修剪方法,即重新加權(quán)近似度修剪(Reweighted Proximal Pruning,RPP)方法。實(shí)驗(yàn)表明,通過(guò)RPP修剪后的BERT模型針對(duì)多個(gè)預(yù)訓(xùn)練任務(wù)和微調(diào)任務(wù)都保持了較高的準(zhǔn)確性。
結(jié)構(gòu)優(yōu)化設(shè)計(jì)包括矩陣分解、權(quán)值共享、分組卷積[78-81]和分解卷積[82-83]等。目前,自然語(yǔ)言處理領(lǐng)域主要應(yīng)用的是前兩種方法。Vaswani等人[54]使用Transformer架構(gòu)探討了跨層共享參數(shù)的想法。Dehghani 等人[84]表明跨層參數(shù)共享在語(yǔ)言建模等方面比標(biāo)準(zhǔn)Transformer有更好的表現(xiàn)。Hao 等人[85]將參數(shù)共享的Transformer與標(biāo)準(zhǔn)Transformer 相結(jié)合,在多個(gè)任務(wù)中證明了該方法的有效性。Hieu 等人[86]提出了神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(Efficient Neural Architecture Search,ENAS),通過(guò)對(duì)所有子模型進(jìn)行權(quán)值共享,避免從零開始訓(xùn)練,從而達(dá)到提升速度的目的。Lan等人[63]采用矩陣分解和權(quán)值共享對(duì)BERT 模型進(jìn)行了結(jié)構(gòu)優(yōu)化設(shè)計(jì),提出了ALBERT模型。將嵌入層的參數(shù)量V×H分解為V×E+E×H,壓縮E/H倍。此外,將Transformer的每一層參數(shù)進(jìn)行共享,參數(shù)量減少為原來(lái)的1/N(N=層數(shù))。ALBERT在降低內(nèi)存消耗的同時(shí)提高了BERT 的訓(xùn)練速度。Wang 等人[87]提出了一種基于自適應(yīng)矩陣分解的方法,將權(quán)重矩陣分解為兩個(gè)小矩陣,并設(shè)置兩個(gè)矩陣之間的對(duì)角線掩碼,通過(guò)在訓(xùn)練過(guò)程中使用正則化選擇待移除的權(quán)重。
知識(shí)蒸餾的概念最初由Bucilua 等人[88]提出。之后,Hinton 等人[89]提出了知識(shí)蒸餾的壓縮框架,通過(guò)將復(fù)雜、學(xué)習(xí)能力強(qiáng)的教師模型學(xué)到的特征表示蒸餾出來(lái),傳遞給參數(shù)量小、學(xué)習(xí)能力弱的學(xué)生模型,即將大型教師模型的信息轉(zhuǎn)移到較小的學(xué)生模型中[90]。Zhao 等人[91]引入了一種新的知識(shí)蒸餾技術(shù),用于訓(xùn)練具有明顯較小的詞匯量、較低的嵌入和隱藏狀態(tài)維度的學(xué)生模型。通過(guò)同時(shí)訓(xùn)練教師和學(xué)生模型,獲得學(xué)生模型詞匯的最佳單詞嵌入,結(jié)合共享投影矩陣,將分層知識(shí)從教師模型傳遞至學(xué)生模型。Victor等人[92]在預(yù)訓(xùn)練階段使用了知識(shí)蒸餾,提出了DistilBERT 模型。DistilBERT 中的教師網(wǎng)絡(luò)與BERT 一致,學(xué)生網(wǎng)絡(luò)去掉了標(biāo)記嵌入(token embedding)和變量作用域(pooler)。在Transformer 編碼器的基礎(chǔ)上,將網(wǎng)絡(luò)層數(shù)減半,并且使用教師網(wǎng)絡(luò)的參數(shù)對(duì)學(xué)生網(wǎng)絡(luò)進(jìn)行初始化。Jiao 等人[93]提出了針對(duì)Transformer結(jié)構(gòu)的知識(shí)蒸餾,以及針對(duì)預(yù)訓(xùn)練和微調(diào)的知識(shí)蒸餾,并提出了TinyBERT 模型。蒸餾過(guò)程中的損失函數(shù)包括嵌入層的損失、Transformer 層的注意力損失、隱藏狀態(tài)損失和預(yù)測(cè)層損失。其學(xué)生網(wǎng)絡(luò)不僅學(xué)習(xí)教師網(wǎng)絡(luò)的預(yù)測(cè)概率,還學(xué)習(xí)嵌入層和Transformer 層的特性。Subhabrata 等人[94]提出了兩種知識(shí)蒸餾方式:硬蒸餾(hard distillation)和軟蒸餾(soft distillation)。硬蒸餾是指通過(guò)微調(diào)教師模型,對(duì)大量無(wú)標(biāo)記數(shù)據(jù)進(jìn)行標(biāo)注,用這些補(bǔ)充數(shù)據(jù)對(duì)學(xué)生模型進(jìn)行監(jiān)督學(xué)習(xí)。軟蒸餾是指用教師模型在未標(biāo)記數(shù)據(jù)上生成的結(jié)果和內(nèi)部表示對(duì)學(xué)生模型進(jìn)行不同蒸餾方式的訓(xùn)練。實(shí)驗(yàn)證明基于RNN 的簡(jiǎn)單學(xué)生模型在經(jīng)過(guò)硬蒸餾的情況下,可以再次通過(guò)軟蒸餾以及教師模型的中間表示法獲得性能提升。
量化是指通過(guò)降低權(quán)重所需要的比特?cái)?shù),將神經(jīng)網(wǎng)絡(luò)的浮點(diǎn)運(yùn)算轉(zhuǎn)換為定點(diǎn)運(yùn)算[90,95]。Han等人[96]采用了剪枝、量化和哈夫曼編碼的方式,實(shí)現(xiàn)了模型的大幅壓縮。Jacob 等人[97]介紹了一種訓(xùn)練線性量化CNN 的方法,該方法使用整數(shù)算法替代浮點(diǎn)算法,在提高速度的同時(shí)只需占用很少的內(nèi)存。Ofir等人[98]在BERT模型的微調(diào)階段執(zhí)行了量化感知訓(xùn)練,將全連接層和嵌入層的權(quán)值量化成8 bit,以最小的精度損失將BERT 模型壓縮了80%。此外,生成的量化模型如果針對(duì)8位支持硬件進(jìn)行優(yōu)化,可以加快推理速度。Shen等人[99]采用兩種量化方式來(lái)壓縮網(wǎng)絡(luò)。一種是基于Hessian信息的混合精度量化。由于BERT的Hessian行為存在極大不同,該研究提出一種基于最大特征值均值和方差的敏感度度量指標(biāo),以實(shí)現(xiàn)更好的混合精度量化。另一種是分組量化,將每個(gè)矩陣分解為不同的組,每個(gè)組擁有獨(dú)立的量化范圍和查找表。該方法在緩解準(zhǔn)確率下降的同時(shí),不會(huì)導(dǎo)致硬件復(fù)雜度顯著上升。
DL-NLP 存在的主要問(wèn)題或發(fā)展瓶頸包含方法與應(yīng)用兩個(gè)層面。下面分別對(duì)這兩個(gè)層面進(jìn)行分析,并給出相應(yīng)的解決辦法與思路供大家參考。
3.8.1 方法層面
DL-NLP 在方法層面主要存在五個(gè)問(wèn)題,分別是缺乏理論基礎(chǔ),模型缺乏可解釋性,對(duì)大量數(shù)據(jù)的需求,對(duì)強(qiáng)大計(jì)算資源的依賴,以及難以處理長(zhǎng)尾問(wèn)題。
(1)缺乏理論基礎(chǔ)
目前DL-NLP的理論基礎(chǔ)還不夠完善、深入。由于每種模型本身都有很多超參數(shù),將這些超參數(shù)進(jìn)行組合,工作量巨大,幾乎不可能單靠實(shí)驗(yàn)來(lái)驗(yàn)證完成。而且沒(méi)有理論基礎(chǔ)支撐,就無(wú)法證明僅通過(guò)實(shí)驗(yàn)驗(yàn)證的模型是最有效的方法,因此加強(qiáng)DL-NLP的深度思考和理論研究十分必要。由于DL-NLP 的理論基礎(chǔ)包括優(yōu)化理論、線性代數(shù)、數(shù)理統(tǒng)計(jì)、概率論、逼近理論等多種學(xué)科內(nèi)容,而主流的DL-NLP 研究人員數(shù)學(xué)基礎(chǔ)較為薄弱,重新學(xué)習(xí)的成本過(guò)高。因此,鼓勵(lì)數(shù)學(xué)專業(yè)或?qū)Q欣碚摰难芯咳藛T參與DL-NLP的理論研究,加強(qiáng)與這些專業(yè)人士的深入合作是解決這一問(wèn)題的主要思路。
(2)模型缺乏可解釋性
由于模型缺乏可解釋性或解釋效果不佳,且缺乏統(tǒng)一的評(píng)價(jià)指標(biāo)等,直接導(dǎo)致模型的可信度和安全性降低[100]。目前已有的模型解釋性研究,如從模型內(nèi)部進(jìn)行可視化[101-102],對(duì)不同特征進(jìn)行統(tǒng)計(jì)分析[103-108],利用具有可解釋性的模型,如線性模型、決策樹模型等,通過(guò)將黑盒的DL-NLP模型遷移到可解釋的模型中,通過(guò)可解釋模型內(nèi)部的參數(shù)或者特征統(tǒng)計(jì)信息來(lái)解釋該黑盒模型[109-110]等可以作為解決思路。此外,建立模型可解釋性的統(tǒng)一評(píng)價(jià)指標(biāo),利用先進(jìn)認(rèn)知理論模仿人腦,設(shè)計(jì)可解釋的DL-NLP模型[111],建立實(shí)時(shí)可交互的智能人機(jī)系統(tǒng)[112]等也為未來(lái)的研究提供了思路。
(3)對(duì)大量數(shù)據(jù)的需求
由于深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜且參數(shù)繁多,需要大量的訓(xùn)練數(shù)據(jù)作為支撐,但是絕大多數(shù)自然語(yǔ)言處理任務(wù)沒(méi)有足夠的數(shù)據(jù)。雖然遷移學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)和少樣本學(xué)習(xí)等方法可以減少對(duì)數(shù)據(jù)的依賴,但是性能上依然無(wú)法與監(jiān)督學(xué)習(xí)相比。目前的解決思路是,相關(guān)政府部門、研究機(jī)構(gòu)和企業(yè)等,在保障數(shù)據(jù)質(zhì)量和安全性的基礎(chǔ)上,共享海量的有監(jiān)督數(shù)據(jù)[3]。優(yōu)化深度學(xué)習(xí)算法,將傳統(tǒng)的機(jī)器學(xué)習(xí)與深度學(xué)習(xí)方法相結(jié)合是另一種解決思路。此外,通過(guò)將自然語(yǔ)言的本質(zhì)抽象化,構(gòu)建高質(zhì)量的大規(guī)模有監(jiān)督數(shù)據(jù)集也是解決的辦法之一。
(4)對(duì)強(qiáng)大計(jì)算資源的依賴
由于DL-NLP過(guò)于依賴計(jì)算資源的增加,模型框架越大,需要訓(xùn)練和測(cè)試網(wǎng)絡(luò)的矩陣運(yùn)算就越多,計(jì)算和能量消耗巨大。因此DL-NLP對(duì)計(jì)算能力的巨大需求限制了性能的提高程度。Ryan等人[113]提出了一種基于哈希法(Hashing)的新技術(shù),結(jié)合自適應(yīng)隨機(jī)失活(Adaptive Dropout)和最大內(nèi)積搜索(Maximum Inner Product Search,MIPS)的隨機(jī)化哈希,大幅減少了訓(xùn)練和測(cè)試神經(jīng)網(wǎng)絡(luò)所需的計(jì)算量。此外,一些硬件加速器和異構(gòu)計(jì)算平臺(tái),如谷歌的張量處理單元(Tensor Processing Unit,TPU)、專用集成電路(Application Specific Integrated Circuit,ASIC)、現(xiàn)場(chǎng)可編程門陣列(Field Programmable Gate Array,F(xiàn)PGA)、阿里云異構(gòu)計(jì)算平臺(tái)等緩解了計(jì)算機(jī)的工作量,提升了計(jì)算速度。與此同時(shí),利用神經(jīng)體系結(jié)構(gòu)搜索和元學(xué)習(xí)提高計(jì)算效率,通過(guò)網(wǎng)絡(luò)壓縮和加速技術(shù)降低計(jì)算復(fù)雜性[114]也是解決的思路。
(5)難以處理長(zhǎng)尾問(wèn)題
由于低資源型語(yǔ)言沒(méi)有大量數(shù)據(jù)可使用,通常存在長(zhǎng)尾問(wèn)題。目前,解決長(zhǎng)尾的方法主要有以下幾種:一是通過(guò)半監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)提升數(shù)據(jù)的學(xué)習(xí)表現(xiàn)[115]。二是通過(guò)對(duì)不同類別樣本進(jìn)行過(guò)采樣和欠采樣來(lái)平衡數(shù)據(jù)集分布。三是嘗試將標(biāo)簽集的更多信息放入模型中,從補(bǔ)充信息的角度讓模型有更多的信息可以去學(xué)習(xí)。四是通過(guò)忽略稀有類別的梯度,即均衡化損失的方法來(lái)解決稀有類別的長(zhǎng)尾問(wèn)題[116]。五是給標(biāo)簽設(shè)置不一樣的權(quán)值。六是利用專門解決少樣本問(wèn)題的學(xué)習(xí)方法,如元學(xué)習(xí)、度量學(xué)習(xí)、遷移學(xué)習(xí)等。此外,也可根據(jù)實(shí)際情況綜合使用以上策略。
3.8.2 應(yīng)用層面
目前,在自然語(yǔ)言處理的各個(gè)任務(wù)中,通常只報(bào)告最佳性能,很少提及平均水平、變化情況及最差性能[7]。如果模型產(chǎn)生高度可變的結(jié)果,可信度必然大打折扣。盡管越來(lái)越多的隨機(jī)參數(shù)減少了性能的變化,但總會(huì)存在一些差異,因此未來(lái)的改進(jìn)方向是在研究報(bào)告中不僅提及最佳性能,還應(yīng)涵蓋平均性能、變化情況和最差性能等。此外,建立統(tǒng)一量化的模型評(píng)價(jià)標(biāo)準(zhǔn),從更加綜合、客觀的角度評(píng)估模型的實(shí)際性能水平也是未來(lái)主要的改進(jìn)方向。
在文本分類任務(wù)中,雖然許多模型已經(jīng)顯示了其在文本分類中的有效性(如DCNN、TextCNN、VDCNN、DenseNet、TopicRNN、Tree-LSTM、MT-LSTM、OpenGPT、BERT、XLNet、UniLM、FastText、DAN、doc2vec、CapsNets、NSE、GNN、SGC、S2Net、C-LSTM、DSCNN、SAN 等[117]),但仍有許多改進(jìn)的方向值得探索。比如一些小的噪聲樣本可能導(dǎo)致決策置信度發(fā)生實(shí)質(zhì)性變化,甚至導(dǎo)致決策逆轉(zhuǎn),目前無(wú)法指示模型像人類一樣從語(yǔ)義層面“理解”文本,需要在實(shí)踐中驗(yàn)證模型的魯棒性和語(yǔ)義表示能力。此外,對(duì)于上下文無(wú)關(guān)單詞向量的傳輸策略研究仍處于起步階段[118]。
在機(jī)器翻譯任務(wù)中,DL-NLP 的研究主要集中在英文和中文上。英語(yǔ)更是絕大多數(shù)任務(wù)的輸入或輸出語(yǔ)言,而這忽略了整個(gè)語(yǔ)言系統(tǒng)以及使用這些語(yǔ)言的人[7]。全世界有數(shù)千種語(yǔ)言,其中1 000多萬(wàn)人使用著至少80種語(yǔ)言,許多語(yǔ)言的復(fù)雜性無(wú)法用常用的任何語(yǔ)言來(lái)表達(dá)。因此,未來(lái)主要的改進(jìn)方向是對(duì)這些少數(shù)語(yǔ)種的語(yǔ)言進(jìn)行收集和數(shù)據(jù)驗(yàn)證,利用這些數(shù)據(jù)測(cè)試DL-NLP模型的性能。
在語(yǔ)言建模任務(wù)中,詞匯表示通常需要通過(guò)學(xué)習(xí)大量的語(yǔ)料庫(kù)得到,如何通過(guò)少量樣本發(fā)現(xiàn)新詞和低頻詞是未來(lái)的研究方向。
在信息抽取任務(wù)中,如何更加準(zhǔn)確地對(duì)多源異構(gòu)信息進(jìn)行關(guān)系和事件的抽取等是未來(lái)值得探索的方向。
在自動(dòng)文摘任務(wù)中,準(zhǔn)確表達(dá)要點(diǎn)信息及評(píng)估信息單元的重要性也是未來(lái)的改進(jìn)方向。
目前DL-NLP 的絕大多數(shù)研究人員將研究重點(diǎn)都放在開發(fā)新的模型及模型的優(yōu)化組合上,鮮少有人重視模型訓(xùn)練前的理論研究,導(dǎo)致許多深度學(xué)習(xí)模型在自然語(yǔ)言處理任務(wù)中的性能提升非常緩慢。因此將更多的精力放在方法研究上也是未來(lái)的改進(jìn)方向。
由于深度學(xué)習(xí)還無(wú)法處理符號(hào)數(shù)據(jù),而自然語(yǔ)言處理的大量知識(shí)是以符號(hào)的形式存在的,如何利用、組合符號(hào)數(shù)據(jù)和向量數(shù)據(jù)也是未來(lái)的研究方向。
此外,自然語(yǔ)言處理中有許多復(fù)雜的任務(wù),單靠深度學(xué)習(xí)是不容易實(shí)現(xiàn)的。例如,多回合對(duì)話任務(wù)涉及語(yǔ)言生成、語(yǔ)言理解、對(duì)話管理、推理和知識(shí)庫(kù)訪問(wèn)等多種技術(shù),超出了深度學(xué)習(xí)的范疇。將深度學(xué)習(xí)和其他技術(shù)(如機(jī)器學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等)相結(jié)合[10]可能是未來(lái)主要的改進(jìn)方向。
本研究是對(duì)國(guó)際有關(guān)DL-NLP 的文獻(xiàn)進(jìn)行定量與定性的結(jié)合分析。通過(guò)繪制科學(xué)的知識(shí)圖譜,從國(guó)家、機(jī)構(gòu)、期刊、關(guān)鍵詞、參考文獻(xiàn)等多個(gè)角度展示了DL-NLP的研究現(xiàn)狀。此外,通過(guò)深入挖掘領(lǐng)域內(nèi)的重要文獻(xiàn),總結(jié)了DL-NLP 的發(fā)展趨勢(shì)以及存在的主要問(wèn)題或發(fā)展瓶頸,并給出相應(yīng)的解決辦法與思路。隨著技術(shù)的不斷推進(jìn),學(xué)者們需要保持推陳出新的科研態(tài)度,在不斷拓展研究范圍的同時(shí),延伸各領(lǐng)域內(nèi)的研究深度。
最后,對(duì)于如何跟蹤DL-NLP研究的相關(guān)成果給出建議,為DL-NLP 的后續(xù)研究與發(fā)展提供啟示與方向:(1)可以基于關(guān)鍵詞進(jìn)行數(shù)據(jù)檢索與收集。(2)所提供的期刊可以作為追蹤文獻(xiàn)的渠道。(3)通過(guò)跟蹤一個(gè)機(jī)構(gòu)的文獻(xiàn)以及機(jī)構(gòu)之間的合作,進(jìn)一步挖掘信息。(4)通過(guò)查看關(guān)鍵詞共現(xiàn)的時(shí)間趨勢(shì),關(guān)注新出現(xiàn)的研究熱點(diǎn)。