深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域的研究進(jìn)展

2021-11-26 07:21:28江洋洋張寶昌

計(jì)算機(jī)工程與應(yīng)用 2021年22期

關(guān)鍵詞：聚類文獻(xiàn)模型

江洋洋，金伯，張寶昌

1.北京航空航天大學(xué) 圖書館，北京100191

2.北京建筑大學(xué) 國(guó)際化發(fā)展研究院，北京100044

3.北京航空航天大學(xué) 自動(dòng)化科學(xué)與電氣工程學(xué)院，北京100191

4.北京航空航天大學(xué) 人工智能研究院，北京100191

自然語(yǔ)言處理（Natural Language Processing，NLP）是一種以理論為基礎(chǔ)的自動(dòng)分析和表示人類語(yǔ)言的計(jì)算技術(shù)[1]。自然語(yǔ)言處理涉及許多研究和應(yīng)用技術(shù)[2-8]，如語(yǔ)言建模、文本分類、機(jī)器翻譯、自動(dòng)問(wèn)答、自動(dòng)文摘等。近年來(lái)，由于深度學(xué)習(xí)（Deep Learning，DL）擁有強(qiáng)大的特征提取和學(xué)習(xí)能力，已逐漸成為自然語(yǔ)言處理領(lǐng)域中的主流技術(shù)。深度學(xué)習(xí)的概念最早是由Hinton 等人[9]在2006年提出的，是一門用于學(xué)習(xí)和利用“深度”人工神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)技術(shù)，主要算法模型包括卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks，CNN）、循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Networks，RNN）和遞歸神經(jīng)網(wǎng)絡(luò)（Recursive Neural Networks，RNN）[10]。作為人工智能領(lǐng)域中最熱門的研究方向，深度學(xué)習(xí)的迅速發(fā)展受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注[11]。

自然語(yǔ)言處理被稱為人工智能皇冠上的明珠，代表了人工智能的最終目標(biāo)[11]。因此如何使用深度學(xué)習(xí)技術(shù)推動(dòng)自然語(yǔ)言處理領(lǐng)域的發(fā)展是當(dāng)前的研究熱點(diǎn)和難點(diǎn)。與此同時(shí)，國(guó)內(nèi)外學(xué)者高度關(guān)注該領(lǐng)域，并展開了大量的研究工作。盡管已有的深度學(xué)習(xí)算法模型如CNN、RNN 等在自然語(yǔ)言處理領(lǐng)域已經(jīng)有較為廣泛的應(yīng)用，但還沒(méi)有重大突破。可以說(shuō)深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域（DL-NLP）的研究目前仍處于起步階段，因此圍繞DL-NLP的研究還有很長(zhǎng)的路要走，以及一系列的問(wèn)題需要解決。

以往的文獻(xiàn)綜述往往局限于從自身角度出發(fā)進(jìn)行定性分析，未能從更加客觀的“第三人”視角進(jìn)行全面的定量研究?；诖?，本文采用定量與定性相結(jié)合的方法，一方面利用文獻(xiàn)計(jì)量學(xué)方法與可視化工具，梳理和分析DL-NLP的主要研究國(guó)家、機(jī)構(gòu)、主題演變、發(fā)展路徑與發(fā)展趨勢(shì)；另一方面閱讀領(lǐng)域內(nèi)的重要文獻(xiàn)，深入挖掘DL-NLP 的研究趨勢(shì)、存在的主要問(wèn)題或發(fā)展瓶頸，并給出相應(yīng)的解決辦法與思路，為DL-NLP 的后續(xù)研究與發(fā)展提供參考與幫助。

1 研究工具

科學(xué)知識(shí)圖譜能夠通過(guò)可視化的手段來(lái)呈現(xiàn)科學(xué)知識(shí)的結(jié)構(gòu)、規(guī)律和分布情況[12]。目前用于可視化分析的軟件有很多且各具優(yōu)勢(shì)，本研究主要采用目前主流的分析軟件VOSviewer[13]和CiteSpace[12]進(jìn)行可視化繪圖。在本研究中，VOSviewer用來(lái)理清文獻(xiàn)信息在復(fù)雜網(wǎng)絡(luò)（如合作機(jī)構(gòu)、關(guān)鍵詞等）中的關(guān)系。CiteSpace 的文獻(xiàn)共被引分析功能可以在知識(shí)網(wǎng)絡(luò)中捕捉文獻(xiàn)聚類和關(guān)鍵文獻(xiàn)節(jié)點(diǎn)，從而對(duì)該領(lǐng)域的發(fā)展路徑和發(fā)展趨勢(shì)有更加精確和清晰的認(rèn)識(shí)。

2 數(shù)據(jù)來(lái)源

本研究所使用的文獻(xiàn)數(shù)據(jù)來(lái)自Web of Science 核心合集中的SCIE（Science Citation Index Expanded）和SSCI（Social Sciences Citation Index）數(shù)據(jù)庫(kù)。SCIE 和SSCI 是文獻(xiàn)計(jì)量分析中最常用的數(shù)據(jù)庫(kù)[14-15]。這兩個(gè)數(shù)據(jù)庫(kù)比其他數(shù)據(jù)庫(kù)涵蓋更多的科學(xué)和權(quán)威出版物?？紤]到DL-NLP研究涵蓋許多分支內(nèi)容[7，16-18]，為提高查全率，將檢索條件設(shè)置為：TS=（“deep-learn*”O(jiān)R“convolutional neural network*”O(jiān)R“recurrent neural network*”O(jiān)R“CNN*”O(jiān)R“RNN*”O(jiān)R“l(fā)ong short-term memory network*”O(jiān)R“LSTM”O(jiān)R“recursive neural network*”）AND（“natural language process*”O(jiān)R“natural language*”O(jiān)R“NLP”O(jiān)R“part-of-speech tagging”O(jiān)R“POS”O(jiān)R“syntactic analysis”O(jiān)R“sentiment analysis”O(jiān)R“opinion extraction”O(jiān)R“opinion mining”O(jiān)R“sentiment mining”O(jiān)R“subjectivity analysis”O(jiān)R“machine translation”O(jiān)R“text categorization”O(jiān)R“information retrieval”O(jiān)R“information extraction”O(jiān)R“word sense disambiguation”O(jiān)R“syntax analysis”O(jiān)R“text mining”O(jiān)R“l(fā)anguage modeling”O(jiān)R“automatic summarization”O(jiān)R“question answering system*”O(jiān)R“dialogue system”O(jiān)R“text classification”O(jiān)R“automatic speech recognition”O(jiān)R“single turn dialogue”O(jiān)R“named entity recognition”O(jiān)R“word segmentation”O(jiān)R“dependency parsing”O(jiān)R“semantic parsing”O(jiān)R“multi-turn dialogue”O(jiān)R“sentiment classification”），時(shí)間跨度定義為2000—2021 年。檢索日期為2021 年4 月13 日。共檢索文獻(xiàn)3 236 篇。對(duì)所得文獻(xiàn)進(jìn)行篩選，剔除新聞、社論、書評(píng)等無(wú)關(guān)文獻(xiàn)后，得到有效文獻(xiàn)3 054篇。

3 文獻(xiàn)計(jì)量與分析

3.1 年度分布

圖1描繪了DL-NLP文獻(xiàn)的年度發(fā)文分布。自2000年以來(lái)，DL-NLP相關(guān)文獻(xiàn)在隨后的十幾年中增長(zhǎng)非常緩慢，直到2014 年，特別是2016 年以后，越來(lái)越多的學(xué)者開始在這一領(lǐng)域展開研究，文獻(xiàn)數(shù)量呈指數(shù)級(jí)增長(zhǎng)。

圖1 DL-NLP研究文獻(xiàn)年度分布趨勢(shì)Fig.1 Annual distribution trend of DL-NLP research literatures

增速如此之快的原因有很多：首先，2010年后，計(jì)算機(jī)運(yùn)算能力的大幅提升支撐了深度學(xué)習(xí)算法的研究。其次，2013 至2014 年，CNN、RNN（循環(huán)）、RNN（遞歸）作為深度學(xué)習(xí)最主要的算法模型，開始在自然語(yǔ)言處理領(lǐng)域廣泛使用，并且推動(dòng)了自然語(yǔ)言處理的快速發(fā)展。在這之后，每年發(fā)表的文獻(xiàn)數(shù)量逐漸增加。2016年，美國(guó)人工智能投資開始爆發(fā)，收并購(gòu)案例持續(xù)增加，許多主研自然語(yǔ)言處理的人工智能企業(yè)如Wit.ai、DNNresearch、Maluuba、VocalIQ 等被微軟、蘋果、英特爾、谷歌等巨頭企業(yè)密集收購(gòu)[19]，文獻(xiàn)在這一年之后呈指數(shù)級(jí)增長(zhǎng)。作為世界最重要的兩大經(jīng)濟(jì)體，中美兩國(guó)也在這兩年相繼發(fā)布白皮書，推動(dòng)了中美兩國(guó)的DL-NLP研究熱潮與發(fā)展。2017年，在美國(guó)人工智能各領(lǐng)域企業(yè)數(shù)量統(tǒng)計(jì)中，自然語(yǔ)言處理企業(yè)數(shù)量為252 家，排名第一[20]。從文獻(xiàn)增長(zhǎng)曲線和發(fā)展空間可以推斷，2021年DL-NLP研究文獻(xiàn)將會(huì)繼續(xù)增加。根據(jù)Markets and Markets 的研究，自然語(yǔ)言處理的市場(chǎng)規(guī)模預(yù)計(jì)將從2019 年的102 億美元增長(zhǎng)至2024年的264億美元。DL-NLP受到了越來(lái)越多的關(guān)注，預(yù)示著這一領(lǐng)域?qū)⒗^續(xù)成為未來(lái)的研究熱點(diǎn)。

3.2 國(guó)家分布

近年來(lái)，DL-NLP 領(lǐng)域的研究發(fā)展迅速。如圖2 所示，越來(lái)越多的國(guó)家參與了DL-NLP 的研究，其中美國(guó)和中國(guó)的學(xué)者發(fā)表的文獻(xiàn)數(shù)量最多。

圖2 國(guó)家/地區(qū)文獻(xiàn)數(shù)量地理可視化分布圖Fig.2 Geographic visualization distribution map of national/regional literature quantity

表1為發(fā)文數(shù)量排名前10的國(guó)家?？梢钥闯?，中國(guó)和美國(guó)在文獻(xiàn)數(shù)量、被引頻次和國(guó)際合作數(shù)量上都遠(yuǎn)遠(yuǎn)高于其他國(guó)家。說(shuō)明中國(guó)和美國(guó)對(duì)該領(lǐng)域的合作態(tài)度最為積極和包容。此外，也要注意到由于中國(guó)的文獻(xiàn)數(shù)量大幅超過(guò)美國(guó)，因此國(guó)際合作率遠(yuǎn)低于美國(guó)。

表1 文獻(xiàn)數(shù)量排名前10的國(guó)家Table 1 Top 10 countries in number of documents

3.3 機(jī)構(gòu)分布

共有來(lái)自2 574個(gè)機(jī)構(gòu)的研究人員在DL-NLP領(lǐng)域發(fā)表了文獻(xiàn)，表2 列出了文獻(xiàn)數(shù)量排名前10 的機(jī)構(gòu)，包括9 個(gè)中國(guó)機(jī)構(gòu)和1 個(gè)新加坡機(jī)構(gòu)。其中，發(fā)表文獻(xiàn)最多的機(jī)構(gòu)是中國(guó)科學(xué)院、中國(guó)科學(xué)院大學(xué)和哈爾濱工業(yè)大學(xué)。在被引頻次方面，南洋理工大學(xué)、中國(guó)科學(xué)院和哈爾濱工業(yè)大學(xué)位列前三，均遠(yuǎn)高于其他機(jī)構(gòu)。在合作情況方面，中國(guó)科學(xué)院無(wú)論是合作強(qiáng)度還是合作數(shù)量均遠(yuǎn)高于其他機(jī)構(gòu)?？偟膩?lái)說(shuō)，中國(guó)科學(xué)院與其他機(jī)構(gòu)的合作態(tài)度是最積極的，合作力度也最強(qiáng)。而南洋理工大學(xué)雖然文獻(xiàn)數(shù)量遠(yuǎn)不及中國(guó)科學(xué)院，但是由于被引頻次最高，在該領(lǐng)域產(chǎn)生了巨大的影響力?？梢哉f(shuō)，這兩個(gè)機(jī)構(gòu)都為該領(lǐng)域的發(fā)展做出了很大的貢獻(xiàn)。

表2 文獻(xiàn)數(shù)量排名前10的機(jī)構(gòu)Table 2 Top 10 institutions in number of documents

圖3顯示了機(jī)構(gòu)的合作網(wǎng)絡(luò)（每個(gè)機(jī)構(gòu)的最少文獻(xiàn)數(shù)量為8）。節(jié)點(diǎn)大小表示文獻(xiàn)的數(shù)量，節(jié)點(diǎn)顏色表示平均發(fā)表年份。值得注意的是，許多機(jī)構(gòu)在該領(lǐng)域發(fā)表的論文數(shù)量差距并不明顯。總體而言，美國(guó)、歐洲等國(guó)家的機(jī)構(gòu)起步較早，中國(guó)機(jī)構(gòu)在該領(lǐng)域起步較晚。

圖3 機(jī)構(gòu)合作網(wǎng)絡(luò)圖Fig.3 Collaborative network of institutions

3.4 期刊分布

通過(guò)數(shù)據(jù)統(tǒng)計(jì)，DL-NLP 的文獻(xiàn)發(fā)表在591 種期刊上，這些期刊主要分布在計(jì)算機(jī)科學(xué)、工程學(xué)、電子通信、醫(yī)學(xué)、化學(xué)、物理、材料科學(xué)、信息科學(xué)與圖書館科學(xué)、數(shù)學(xué)等學(xué)科。發(fā)表論文最多的前10種期刊如表3所示（多個(gè)分區(qū)的取最高分區(qū)）。31.925%的文獻(xiàn)（975篇）發(fā)表在前10種期刊上。這些期刊的2020年影響因子在2.679 到8.038 之間，其中，Knowledge Based Systems的影響因子最高，而Applied Sciences Basel最低。由JCR分區(qū)可見，Q1區(qū)的期刊占70%，Q2區(qū)的期刊占30%。通過(guò)對(duì)期刊分布的分析，有助于找到核心期刊。

表3 發(fā)文量最多的前10種期刊Table 3 Top 10 journals with the largest number of publications

3.5 關(guān)鍵詞共現(xiàn)

本研究共涉及6 650個(gè)關(guān)鍵詞，其中5 402個(gè)關(guān)鍵詞僅出現(xiàn)1次，占81.23%。圖4顯示了關(guān)鍵詞的共現(xiàn)網(wǎng)絡(luò)（共現(xiàn)閾值為8）。根據(jù)圖4，深度學(xué)習(xí)、自然語(yǔ)言處理、卷積神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)、循環(huán)神經(jīng)網(wǎng)絡(luò)、情緒分析、長(zhǎng)短期記憶網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制為高頻關(guān)鍵詞，這些關(guān)鍵詞的平均發(fā)表年份為2018 至2019 年。此外，特征提取、語(yǔ)義學(xué)、BERT（Bidirectional Encoder Representations from Transformers）、預(yù)測(cè)模型、上下文建模、誤碼率、邏輯門、自適應(yīng)模型等可能是DL-NLP 領(lǐng)域的新興研究熱點(diǎn)，平均發(fā)表年份為2020年。

圖4 關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖Fig.4 Keywords co-occurrence network map

3.6 參考文獻(xiàn)共被引

3.6.1 重點(diǎn)文獻(xiàn)選擇

共被引知識(shí)圖譜展示了共被引知識(shí)單元的游離與重組，并在重組中形成新的知識(shí)單元的過(guò)程。CiteSpace通過(guò)共被引文獻(xiàn)聚類的形成、積累和擴(kuò)散，形成了從知識(shí)基礎(chǔ)（intellecture base）映射到研究前沿（research front）的概念模型。該過(guò)程展示了文獻(xiàn)的引用和共被引足跡[21-22]。通過(guò)CiteSpace 繪制科學(xué)美觀的共被引知識(shí)圖譜可以準(zhǔn)確捕捉關(guān)鍵文獻(xiàn)節(jié)點(diǎn)和引文聚類。知識(shí)圖譜的科學(xué)性和效果評(píng)價(jià)的基礎(chǔ)依賴于網(wǎng)絡(luò)結(jié)構(gòu)和聚類銳度給出的兩個(gè)指標(biāo)，即聚類模塊值（MQ）和平均輪廓值（MS）。一般來(lái)說(shuō)，當(dāng)MQ＞0.3 時(shí)，表示聚類結(jié)構(gòu)顯著，當(dāng)MS＞0.7 時(shí)，認(rèn)為聚類是令人信服的[22]。

過(guò)多的數(shù)據(jù)量使得圖譜過(guò)于復(fù)雜，無(wú)法找到關(guān)鍵文獻(xiàn)，因此去除冗余文獻(xiàn)信息十分必要。用CiteSpace 軟件對(duì)3 054 篇文獻(xiàn)數(shù)據(jù)反復(fù)繪制知識(shí)圖譜，調(diào)整多種數(shù)據(jù)過(guò)濾策略，最終將閾值設(shè)置為TopN=20，Year per slice=1，Thresholding（2，2，20；15，15，20；15，15，20），Pathfinder（pruning the merged network），得到MQ 和MS值更理想的圖進(jìn)行共被引分析。

CiteSpace 通過(guò)中介中心性（Centrality）測(cè)度和衡量文獻(xiàn)節(jié)點(diǎn)的重要程度。關(guān)鍵文獻(xiàn)節(jié)點(diǎn)(Centrality＞0.1)用紫色圈標(biāo)記（圖5），此類文獻(xiàn)通常出現(xiàn)在關(guān)鍵路徑的轉(zhuǎn)折點(diǎn)，并且對(duì)DL-NLP知識(shí)領(lǐng)域的發(fā)展起到了積極的作用。此外，盡管一些高頻引文沒(méi)有用紫色圈標(biāo)記，但它們加快了知識(shí)領(lǐng)域的延伸和擴(kuò)展。因此，重點(diǎn)文獻(xiàn)的選擇標(biāo)準(zhǔn)基于高中介中心性和高被引頻次兩點(diǎn)。

3.6.2 DL-NLP研究軌跡

利用CiteSpace提供的聚類生成和標(biāo)記功能對(duì)文獻(xiàn)信息進(jìn)行聚類，采用對(duì)數(shù)極大似然率算法提取聚類標(biāo)簽詞，將DL-NLP 知識(shí)域劃分為10 個(gè)知識(shí)聚類，如圖5所示(MQ＝0.819 9,MS＝0.939 2)。此外，為了描繪知識(shí)聚類的歷史跨度及其之間的關(guān)系，繪制了時(shí)間軸視圖（圖6）。

圖5 共被引網(wǎng)絡(luò)聚類圖Fig.5 Cluster visualization mapping of co-citation network

圖6 共被引網(wǎng)絡(luò)時(shí)間軸視圖Fig.6 Timeline visualization mapping of co-citation network

知識(shí)基礎(chǔ)和研究前沿之間具有二元時(shí)間對(duì)偶性（time-variant duality），因此知識(shí)基礎(chǔ)對(duì)研究前沿的相關(guān)性和歷史演變起著決定性作用。表4列出了10個(gè)聚類的參數(shù)，按照平均年份整合可以發(fā)現(xiàn)，DL-NLP 研究的主題演化路徑依次為2013年（條件隨機(jī)場(chǎng)）、2014年（圖像描述、任務(wù)分析）、2015年（視覺情感分析、文本分類、注意力機(jī)制、方面級(jí)情感分析）、2016年（情感分析、命名實(shí)體識(shí)別）、2017年（遷移學(xué)習(xí)）。

表4 共被引網(wǎng)絡(luò)聚類參數(shù)Table 4 Clustering parameters of co-citation network

通過(guò)詳細(xì)閱讀隱藏在不同聚類中的重點(diǎn)文獻(xiàn)，DLNLP 研究的發(fā)展路徑和趨勢(shì)浮出水面。由表5 可以發(fā)現(xiàn)，分布式表示的實(shí)現(xiàn)構(gòu)成了DL-NLP 的基礎(chǔ)，此后CNN開始應(yīng)用于NLP領(lǐng)域。CNN能夠有效地在上下文中挖掘語(yǔ)義信息，但是無(wú)法對(duì)遠(yuǎn)距離上下文信息進(jìn)行建模，也無(wú)法處理詞匯的順序信息。與CNN 不同，RNN（循環(huán)）可以處理詞匯的順序信息，并且具有靈活的計(jì)算步驟，可以提供更好的建模能力。由于RNN 容易出現(xiàn)梯度消失的問(wèn)題，對(duì)其進(jìn)行改進(jìn)的長(zhǎng)短期記憶網(wǎng)絡(luò)（Long Short-Term Memory，LSTM）開始流行。此外，由于計(jì)算能力有限導(dǎo)致信息超載問(wèn)題嚴(yán)重，注意力機(jī)制作為一種資源分配方案，通過(guò)將計(jì)算資源分配給更重要的任務(wù)，有效緩解了這一問(wèn)題。由于語(yǔ)言是具有層級(jí)結(jié)構(gòu)的，而CNN 和RNN（循環(huán)）都將語(yǔ)言視為一個(gè)序列。因此，RNN（遞歸）網(wǎng)絡(luò)作為RNN（循環(huán)）的推廣，以樹形結(jié)構(gòu)替代序列來(lái)表示語(yǔ)言，有效解決了數(shù)據(jù)結(jié)構(gòu)的表征問(wèn)題。此后，由于一些資源貧乏的語(yǔ)言缺乏充足的語(yǔ)言數(shù)據(jù)，深度學(xué)習(xí)模型無(wú)法從中學(xué)習(xí)總結(jié)到有用的規(guī)律，預(yù)訓(xùn)練模型被用來(lái)解決這一問(wèn)題[7]。BERT作為一款重要的預(yù)訓(xùn)練模型，采用了Transformer的架構(gòu)，一經(jīng)推出便席卷整個(gè)自然語(yǔ)言處理領(lǐng)域，在11 種自然語(yǔ)言處理任務(wù)中取得最佳性能，帶來(lái)了革命性的進(jìn)步。此后，以BERT 為基礎(chǔ)的改進(jìn)模型相繼被提出，大大推動(dòng)了自然語(yǔ)言處理領(lǐng)域的進(jìn)步。

3.7 輕量化方法

通過(guò)表5 可以發(fā)現(xiàn)，目前DL-NLP 研究側(cè)重網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化改進(jìn)。雖然深度學(xué)習(xí)模型已經(jīng)廣泛應(yīng)用在自然語(yǔ)言處理任務(wù)中，但是由于存儲(chǔ)空間和計(jì)算資源的限制，模型在移動(dòng)端和嵌入式系統(tǒng)上的存儲(chǔ)與計(jì)算仍然面臨巨大挑戰(zhàn)。因此，在保持模型性能不變的基礎(chǔ)上，近一步減少模型的參數(shù)量和復(fù)雜度，即模型輕量化，是DL-NLP的研究趨勢(shì)。模型輕量化主要是對(duì)算法層的壓縮與加速，包括模型剪枝、結(jié)構(gòu)優(yōu)化設(shè)計(jì)、知識(shí)蒸餾、量化等。

表5 DL-NLP發(fā)展路徑和趨勢(shì)Table 5 Development path and trend of DL-NLP

模型剪枝主要分為權(quán)重剪枝[65-66]、通道剪枝[67-68]、核剪枝[69-71]和神經(jīng)元剪枝[72-73]。Liu 等人[74]通過(guò)將ReLU 引入Winograd域，獲得激活函數(shù)（Activations）在Winograd域的動(dòng)態(tài)稀疏度，通過(guò)對(duì)權(quán)重進(jìn)行剪枝，獲得權(quán)重在Winograd 域的靜態(tài)稀疏度，將網(wǎng)絡(luò)剪枝與Winograd 變換相結(jié)合，有效實(shí)現(xiàn)了稀疏加速。Gordon等人[75]發(fā)現(xiàn)低水平修剪不會(huì)對(duì)預(yù)訓(xùn)練損失及遷移至其他任務(wù)產(chǎn)生影響，中水平修剪和高水平修剪會(huì)增加預(yù)訓(xùn)練損失，阻止預(yù)訓(xùn)練遷移至其他任務(wù)。因此，在不影響性能的前提下，在預(yù)訓(xùn)練階段僅對(duì)BERT 進(jìn)行單次修剪即可。McCarley等人[76]通過(guò)結(jié)構(gòu)化剪枝模型的參數(shù)，來(lái)壓縮基于BERT和RoBERTa的問(wèn)答系統(tǒng)，具體包括結(jié)合修剪了Transformer 的attention heads 數(shù)量和前饋層的中間寬度，此外減少了嵌入維度。Guo等人[77]提出了一種專為大規(guī)模語(yǔ)言表征模型設(shè)計(jì)的修剪方法，即重新加權(quán)近似度修剪（Reweighted Proximal Pruning，RPP）方法。實(shí)驗(yàn)表明，通過(guò)RPP修剪后的BERT模型針對(duì)多個(gè)預(yù)訓(xùn)練任務(wù)和微調(diào)任務(wù)都保持了較高的準(zhǔn)確性。

結(jié)構(gòu)優(yōu)化設(shè)計(jì)包括矩陣分解、權(quán)值共享、分組卷積[78-81]和分解卷積[82-83]等。目前，自然語(yǔ)言處理領(lǐng)域主要應(yīng)用的是前兩種方法。Vaswani等人[54]使用Transformer架構(gòu)探討了跨層共享參數(shù)的想法。Dehghani 等人[84]表明跨層參數(shù)共享在語(yǔ)言建模等方面比標(biāo)準(zhǔn)Transformer有更好的表現(xiàn)。Hao 等人[85]將參數(shù)共享的Transformer與標(biāo)準(zhǔn)Transformer 相結(jié)合，在多個(gè)任務(wù)中證明了該方法的有效性。Hieu 等人[86]提出了神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索（Efficient Neural Architecture Search，ENAS），通過(guò)對(duì)所有子模型進(jìn)行權(quán)值共享，避免從零開始訓(xùn)練，從而達(dá)到提升速度的目的。Lan等人[63]采用矩陣分解和權(quán)值共享對(duì)BERT 模型進(jìn)行了結(jié)構(gòu)優(yōu)化設(shè)計(jì)，提出了ALBERT模型。將嵌入層的參數(shù)量V×H分解為V×E＋E×H，壓縮E/H倍。此外，將Transformer的每一層參數(shù)進(jìn)行共享，參數(shù)量減少為原來(lái)的1/N(N＝層數(shù))。ALBERT在降低內(nèi)存消耗的同時(shí)提高了BERT 的訓(xùn)練速度。Wang 等人[87]提出了一種基于自適應(yīng)矩陣分解的方法，將權(quán)重矩陣分解為兩個(gè)小矩陣，并設(shè)置兩個(gè)矩陣之間的對(duì)角線掩碼，通過(guò)在訓(xùn)練過(guò)程中使用正則化選擇待移除的權(quán)重。

知識(shí)蒸餾的概念最初由Bucilua 等人[88]提出。之后，Hinton 等人[89]提出了知識(shí)蒸餾的壓縮框架，通過(guò)將復(fù)雜、學(xué)習(xí)能力強(qiáng)的教師模型學(xué)到的特征表示蒸餾出來(lái)，傳遞給參數(shù)量小、學(xué)習(xí)能力弱的學(xué)生模型，即將大型教師模型的信息轉(zhuǎn)移到較小的學(xué)生模型中[90]。Zhao 等人[91]引入了一種新的知識(shí)蒸餾技術(shù)，用于訓(xùn)練具有明顯較小的詞匯量、較低的嵌入和隱藏狀態(tài)維度的學(xué)生模型。通過(guò)同時(shí)訓(xùn)練教師和學(xué)生模型，獲得學(xué)生模型詞匯的最佳單詞嵌入，結(jié)合共享投影矩陣，將分層知識(shí)從教師模型傳遞至學(xué)生模型。Victor等人[92]在預(yù)訓(xùn)練階段使用了知識(shí)蒸餾，提出了DistilBERT 模型。DistilBERT 中的教師網(wǎng)絡(luò)與BERT 一致，學(xué)生網(wǎng)絡(luò)去掉了標(biāo)記嵌入（token embedding）和變量作用域（pooler）。在Transformer 編碼器的基礎(chǔ)上，將網(wǎng)絡(luò)層數(shù)減半，并且使用教師網(wǎng)絡(luò)的參數(shù)對(duì)學(xué)生網(wǎng)絡(luò)進(jìn)行初始化。Jiao 等人[93]提出了針對(duì)Transformer結(jié)構(gòu)的知識(shí)蒸餾，以及針對(duì)預(yù)訓(xùn)練和微調(diào)的知識(shí)蒸餾，并提出了TinyBERT 模型。蒸餾過(guò)程中的損失函數(shù)包括嵌入層的損失、Transformer 層的注意力損失、隱藏狀態(tài)損失和預(yù)測(cè)層損失。其學(xué)生網(wǎng)絡(luò)不僅學(xué)習(xí)教師網(wǎng)絡(luò)的預(yù)測(cè)概率，還學(xué)習(xí)嵌入層和Transformer 層的特性。Subhabrata 等人[94]提出了兩種知識(shí)蒸餾方式：硬蒸餾（hard distillation）和軟蒸餾（soft distillation）。硬蒸餾是指通過(guò)微調(diào)教師模型，對(duì)大量無(wú)標(biāo)記數(shù)據(jù)進(jìn)行標(biāo)注，用這些補(bǔ)充數(shù)據(jù)對(duì)學(xué)生模型進(jìn)行監(jiān)督學(xué)習(xí)。軟蒸餾是指用教師模型在未標(biāo)記數(shù)據(jù)上生成的結(jié)果和內(nèi)部表示對(duì)學(xué)生模型進(jìn)行不同蒸餾方式的訓(xùn)練。實(shí)驗(yàn)證明基于RNN 的簡(jiǎn)單學(xué)生模型在經(jīng)過(guò)硬蒸餾的情況下，可以再次通過(guò)軟蒸餾以及教師模型的中間表示法獲得性能提升。

量化是指通過(guò)降低權(quán)重所需要的比特?cái)?shù)，將神經(jīng)網(wǎng)絡(luò)的浮點(diǎn)運(yùn)算轉(zhuǎn)換為定點(diǎn)運(yùn)算[90，95]。Han等人[96]采用了剪枝、量化和哈夫曼編碼的方式，實(shí)現(xiàn)了模型的大幅壓縮。Jacob 等人[97]介紹了一種訓(xùn)練線性量化CNN 的方法，該方法使用整數(shù)算法替代浮點(diǎn)算法，在提高速度的同時(shí)只需占用很少的內(nèi)存。Ofir等人[98]在BERT模型的微調(diào)階段執(zhí)行了量化感知訓(xùn)練，將全連接層和嵌入層的權(quán)值量化成8 bit，以最小的精度損失將BERT 模型壓縮了80%。此外，生成的量化模型如果針對(duì)8位支持硬件進(jìn)行優(yōu)化，可以加快推理速度。Shen等人[99]采用兩種量化方式來(lái)壓縮網(wǎng)絡(luò)。一種是基于Hessian信息的混合精度量化。由于BERT的Hessian行為存在極大不同，該研究提出一種基于最大特征值均值和方差的敏感度度量指標(biāo)，以實(shí)現(xiàn)更好的混合精度量化。另一種是分組量化，將每個(gè)矩陣分解為不同的組，每個(gè)組擁有獨(dú)立的量化范圍和查找表。該方法在緩解準(zhǔn)確率下降的同時(shí)，不會(huì)導(dǎo)致硬件復(fù)雜度顯著上升。

3.8 主要問(wèn)題

DL-NLP 存在的主要問(wèn)題或發(fā)展瓶頸包含方法與應(yīng)用兩個(gè)層面。下面分別對(duì)這兩個(gè)層面進(jìn)行分析，并給出相應(yīng)的解決辦法與思路供大家參考。

3.8.1 方法層面

DL-NLP 在方法層面主要存在五個(gè)問(wèn)題，分別是缺乏理論基礎(chǔ)，模型缺乏可解釋性，對(duì)大量數(shù)據(jù)的需求，對(duì)強(qiáng)大計(jì)算資源的依賴，以及難以處理長(zhǎng)尾問(wèn)題。

（1）缺乏理論基礎(chǔ)

目前DL-NLP的理論基礎(chǔ)還不夠完善、深入。由于每種模型本身都有很多超參數(shù)，將這些超參數(shù)進(jìn)行組合，工作量巨大，幾乎不可能單靠實(shí)驗(yàn)來(lái)驗(yàn)證完成。而且沒(méi)有理論基礎(chǔ)支撐，就無(wú)法證明僅通過(guò)實(shí)驗(yàn)驗(yàn)證的模型是最有效的方法，因此加強(qiáng)DL-NLP的深度思考和理論研究十分必要。由于DL-NLP 的理論基礎(chǔ)包括優(yōu)化理論、線性代數(shù)、數(shù)理統(tǒng)計(jì)、概率論、逼近理論等多種學(xué)科內(nèi)容，而主流的DL-NLP 研究人員數(shù)學(xué)基礎(chǔ)較為薄弱，重新學(xué)習(xí)的成本過(guò)高。因此，鼓勵(lì)數(shù)學(xué)專業(yè)或?qū)Ｑ欣碚摰难芯咳藛T參與DL-NLP的理論研究，加強(qiáng)與這些專業(yè)人士的深入合作是解決這一問(wèn)題的主要思路。

（2）模型缺乏可解釋性

由于模型缺乏可解釋性或解釋效果不佳，且缺乏統(tǒng)一的評(píng)價(jià)指標(biāo)等，直接導(dǎo)致模型的可信度和安全性降低[100]。目前已有的模型解釋性研究，如從模型內(nèi)部進(jìn)行可視化[101-102]，對(duì)不同特征進(jìn)行統(tǒng)計(jì)分析[103-108]，利用具有可解釋性的模型，如線性模型、決策樹模型等，通過(guò)將黑盒的DL-NLP模型遷移到可解釋的模型中，通過(guò)可解釋模型內(nèi)部的參數(shù)或者特征統(tǒng)計(jì)信息來(lái)解釋該黑盒模型[109-110]等可以作為解決思路。此外，建立模型可解釋性的統(tǒng)一評(píng)價(jià)指標(biāo)，利用先進(jìn)認(rèn)知理論模仿人腦，設(shè)計(jì)可解釋的DL-NLP模型[111]，建立實(shí)時(shí)可交互的智能人機(jī)系統(tǒng)[112]等也為未來(lái)的研究提供了思路。

（3）對(duì)大量數(shù)據(jù)的需求

由于深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜且參數(shù)繁多，需要大量的訓(xùn)練數(shù)據(jù)作為支撐，但是絕大多數(shù)自然語(yǔ)言處理任務(wù)沒(méi)有足夠的數(shù)據(jù)。雖然遷移學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)和少樣本學(xué)習(xí)等方法可以減少對(duì)數(shù)據(jù)的依賴，但是性能上依然無(wú)法與監(jiān)督學(xué)習(xí)相比。目前的解決思路是，相關(guān)政府部門、研究機(jī)構(gòu)和企業(yè)等，在保障數(shù)據(jù)質(zhì)量和安全性的基礎(chǔ)上，共享海量的有監(jiān)督數(shù)據(jù)[3]。優(yōu)化深度學(xué)習(xí)算法，將傳統(tǒng)的機(jī)器學(xué)習(xí)與深度學(xué)習(xí)方法相結(jié)合是另一種解決思路。此外，通過(guò)將自然語(yǔ)言的本質(zhì)抽象化，構(gòu)建高質(zhì)量的大規(guī)模有監(jiān)督數(shù)據(jù)集也是解決的辦法之一。

（4）對(duì)強(qiáng)大計(jì)算資源的依賴

由于DL-NLP過(guò)于依賴計(jì)算資源的增加，模型框架越大，需要訓(xùn)練和測(cè)試網(wǎng)絡(luò)的矩陣運(yùn)算就越多，計(jì)算和能量消耗巨大。因此DL-NLP對(duì)計(jì)算能力的巨大需求限制了性能的提高程度。Ryan等人[113]提出了一種基于哈希法（Hashing）的新技術(shù)，結(jié)合自適應(yīng)隨機(jī)失活（Adaptive Dropout）和最大內(nèi)積搜索（Maximum Inner Product Search，MIPS）的隨機(jī)化哈希，大幅減少了訓(xùn)練和測(cè)試神經(jīng)網(wǎng)絡(luò)所需的計(jì)算量。此外，一些硬件加速器和異構(gòu)計(jì)算平臺(tái)，如谷歌的張量處理單元（Tensor Processing Unit，TPU）、專用集成電路（Application Specific Integrated Circuit，ASIC）、現(xiàn)場(chǎng)可編程門陣列（Field Programmable Gate Array，F(xiàn)PGA）、阿里云異構(gòu)計(jì)算平臺(tái)等緩解了計(jì)算機(jī)的工作量，提升了計(jì)算速度。與此同時(shí)，利用神經(jīng)體系結(jié)構(gòu)搜索和元學(xué)習(xí)提高計(jì)算效率，通過(guò)網(wǎng)絡(luò)壓縮和加速技術(shù)降低計(jì)算復(fù)雜性[114]也是解決的思路。

（5）難以處理長(zhǎng)尾問(wèn)題

由于低資源型語(yǔ)言沒(méi)有大量數(shù)據(jù)可使用，通常存在長(zhǎng)尾問(wèn)題。目前，解決長(zhǎng)尾的方法主要有以下幾種：一是通過(guò)半監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)提升數(shù)據(jù)的學(xué)習(xí)表現(xiàn)[115]。二是通過(guò)對(duì)不同類別樣本進(jìn)行過(guò)采樣和欠采樣來(lái)平衡數(shù)據(jù)集分布。三是嘗試將標(biāo)簽集的更多信息放入模型中，從補(bǔ)充信息的角度讓模型有更多的信息可以去學(xué)習(xí)。四是通過(guò)忽略稀有類別的梯度，即均衡化損失的方法來(lái)解決稀有類別的長(zhǎng)尾問(wèn)題[116]。五是給標(biāo)簽設(shè)置不一樣的權(quán)值。六是利用專門解決少樣本問(wèn)題的學(xué)習(xí)方法，如元學(xué)習(xí)、度量學(xué)習(xí)、遷移學(xué)習(xí)等。此外，也可根據(jù)實(shí)際情況綜合使用以上策略。

3.8.2 應(yīng)用層面

目前，在自然語(yǔ)言處理的各個(gè)任務(wù)中，通常只報(bào)告最佳性能，很少提及平均水平、變化情況及最差性能[7]。如果模型產(chǎn)生高度可變的結(jié)果，可信度必然大打折扣。盡管越來(lái)越多的隨機(jī)參數(shù)減少了性能的變化，但總會(huì)存在一些差異，因此未來(lái)的改進(jìn)方向是在研究報(bào)告中不僅提及最佳性能，還應(yīng)涵蓋平均性能、變化情況和最差性能等。此外，建立統(tǒng)一量化的模型評(píng)價(jià)標(biāo)準(zhǔn)，從更加綜合、客觀的角度評(píng)估模型的實(shí)際性能水平也是未來(lái)主要的改進(jìn)方向。

在文本分類任務(wù)中，雖然許多模型已經(jīng)顯示了其在文本分類中的有效性（如DCNN、TextCNN、VDCNN、DenseNet、TopicRNN、Tree-LSTM、MT-LSTM、OpenGPT、BERT、XLNet、UniLM、FastText、DAN、doc2vec、CapsNets、NSE、GNN、SGC、S2Net、C-LSTM、DSCNN、SAN 等[117]），但仍有許多改進(jìn)的方向值得探索。比如一些小的噪聲樣本可能導(dǎo)致決策置信度發(fā)生實(shí)質(zhì)性變化，甚至導(dǎo)致決策逆轉(zhuǎn)，目前無(wú)法指示模型像人類一樣從語(yǔ)義層面“理解”文本，需要在實(shí)踐中驗(yàn)證模型的魯棒性和語(yǔ)義表示能力。此外，對(duì)于上下文無(wú)關(guān)單詞向量的傳輸策略研究仍處于起步階段[118]。

在機(jī)器翻譯任務(wù)中，DL-NLP 的研究主要集中在英文和中文上。英語(yǔ)更是絕大多數(shù)任務(wù)的輸入或輸出語(yǔ)言，而這忽略了整個(gè)語(yǔ)言系統(tǒng)以及使用這些語(yǔ)言的人[7]。全世界有數(shù)千種語(yǔ)言，其中1 000多萬(wàn)人使用著至少80種語(yǔ)言，許多語(yǔ)言的復(fù)雜性無(wú)法用常用的任何語(yǔ)言來(lái)表達(dá)。因此，未來(lái)主要的改進(jìn)方向是對(duì)這些少數(shù)語(yǔ)種的語(yǔ)言進(jìn)行收集和數(shù)據(jù)驗(yàn)證，利用這些數(shù)據(jù)測(cè)試DL-NLP模型的性能。

在語(yǔ)言建模任務(wù)中，詞匯表示通常需要通過(guò)學(xué)習(xí)大量的語(yǔ)料庫(kù)得到，如何通過(guò)少量樣本發(fā)現(xiàn)新詞和低頻詞是未來(lái)的研究方向。

在信息抽取任務(wù)中，如何更加準(zhǔn)確地對(duì)多源異構(gòu)信息進(jìn)行關(guān)系和事件的抽取等是未來(lái)值得探索的方向。

在自動(dòng)文摘任務(wù)中，準(zhǔn)確表達(dá)要點(diǎn)信息及評(píng)估信息單元的重要性也是未來(lái)的改進(jìn)方向。

目前DL-NLP 的絕大多數(shù)研究人員將研究重點(diǎn)都放在開發(fā)新的模型及模型的優(yōu)化組合上，鮮少有人重視模型訓(xùn)練前的理論研究，導(dǎo)致許多深度學(xué)習(xí)模型在自然語(yǔ)言處理任務(wù)中的性能提升非常緩慢。因此將更多的精力放在方法研究上也是未來(lái)的改進(jìn)方向。

由于深度學(xué)習(xí)還無(wú)法處理符號(hào)數(shù)據(jù)，而自然語(yǔ)言處理的大量知識(shí)是以符號(hào)的形式存在的，如何利用、組合符號(hào)數(shù)據(jù)和向量數(shù)據(jù)也是未來(lái)的研究方向。

此外，自然語(yǔ)言處理中有許多復(fù)雜的任務(wù)，單靠深度學(xué)習(xí)是不容易實(shí)現(xiàn)的。例如，多回合對(duì)話任務(wù)涉及語(yǔ)言生成、語(yǔ)言理解、對(duì)話管理、推理和知識(shí)庫(kù)訪問(wèn)等多種技術(shù)，超出了深度學(xué)習(xí)的范疇。將深度學(xué)習(xí)和其他技術(shù)（如機(jī)器學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等）相結(jié)合[10]可能是未來(lái)主要的改進(jìn)方向。

4 結(jié)束語(yǔ)

本研究是對(duì)國(guó)際有關(guān)DL-NLP 的文獻(xiàn)進(jìn)行定量與定性的結(jié)合分析。通過(guò)繪制科學(xué)的知識(shí)圖譜，從國(guó)家、機(jī)構(gòu)、期刊、關(guān)鍵詞、參考文獻(xiàn)等多個(gè)角度展示了DL-NLP的研究現(xiàn)狀。此外，通過(guò)深入挖掘領(lǐng)域內(nèi)的重要文獻(xiàn)，總結(jié)了DL-NLP 的發(fā)展趨勢(shì)以及存在的主要問(wèn)題或發(fā)展瓶頸，并給出相應(yīng)的解決辦法與思路。隨著技術(shù)的不斷推進(jìn)，學(xué)者們需要保持推陳出新的科研態(tài)度，在不斷拓展研究范圍的同時(shí)，延伸各領(lǐng)域內(nèi)的研究深度。

最后，對(duì)于如何跟蹤DL-NLP研究的相關(guān)成果給出建議，為DL-NLP 的后續(xù)研究與發(fā)展提供啟示與方向：（1）可以基于關(guān)鍵詞進(jìn)行數(shù)據(jù)檢索與收集。（2）所提供的期刊可以作為追蹤文獻(xiàn)的渠道。（3）通過(guò)跟蹤一個(gè)機(jī)構(gòu)的文獻(xiàn)以及機(jī)構(gòu)之間的合作，進(jìn)一步挖掘信息。（4）通過(guò)查看關(guān)鍵詞共現(xiàn)的時(shí)間趨勢(shì)，關(guān)注新出現(xiàn)的研究熱點(diǎn)。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放