潘衛(wèi)軍, 蔣培元, 李煜琨, 王騰, 陳寬明
(中國民用航空飛行學(xué)院空中交通管理學(xué)院, 廣漢 618307)
國際民航組織指出,2025年以后,空中交通流量預(yù)計將以每年3%~6%的速度增長[1],因此,對空中交通管制員(air traffic controllers, ATCO)的需求也將逐年增加??罩薪煌ü苤茊T通過甚高頻無線電向飛行員發(fā)出管制指令來實現(xiàn)對空中交通的管理。根據(jù)空中交通管制(air traffic control, ATC)中安全和可靠性規(guī)定,收到指令的飛行員必須要對管制指令進行正確快速的復(fù)誦以確保飛行員正確理解了管制員發(fā)出的指令[2]。對于管制人員而言,ATCO需要完成相應(yīng)的基礎(chǔ)課程以及模擬設(shè)備方面的實訓(xùn)才能獲得在真實ATC場景下的工作資質(zhì)。中國管制模擬機培訓(xùn)設(shè)置了兩個席位,管制培訓(xùn)席位以及飛行員席位。完成一次管制員培訓(xùn),需要一名專職人員來控制飛行員席位實現(xiàn)管制指令的復(fù)誦和響應(yīng),這會產(chǎn)生額外的培訓(xùn)成本(包括設(shè)備和人員成本)。針對此問題,人工智能技術(shù)的發(fā)展和應(yīng)用為解決此問題提供了可能[3-5]。在外國,研究人員的側(cè)重點主要是使用深度學(xué)習(xí)技術(shù)來構(gòu)建智能系統(tǒng)來輔助ATCO工作。歐盟(European Union, EU)為了減少ATCO的工作量,將語音識別技術(shù)應(yīng)用于空中交通管制中以減少ATCO的工作量[6],提高工作效率[7-8]。Helmke等[9]通過人工智能技術(shù)實現(xiàn)了管制員輔助決策系統(tǒng)的構(gòu)建,緩解ATCO人員的工作壓力。然而,這些智能系統(tǒng)對語音識別系統(tǒng)的識別準(zhǔn)確率要求較高。一般而言,其識別的詞錯誤率要低于5%才能滿足實際應(yīng)用需求[10]。相較于外國,中國學(xué)者主要從管制員培訓(xùn)環(huán)節(jié)出發(fā),致力于使用人工智能技術(shù)提高管制員的培訓(xùn)效率和專業(yè)水平,從源頭降低錯誤的產(chǎn)生。陳亞青等[11]基于統(tǒng)計學(xué)習(xí)技術(shù),采用模版匹配的方法構(gòu)建了一套模擬機長培訓(xùn)系統(tǒng)來替代機長席位,為自動飛行員研究打下了基礎(chǔ)。鐘如秀[12]基于科大訊飛語音識別引擎實現(xiàn)了智能管制模擬機自動飛行員系統(tǒng)的設(shè)計,結(jié)果表明:該系統(tǒng)可以替代模擬機中的飛行員席位,能較好地提升管制學(xué)員培訓(xùn)質(zhì)量。為了促進使用計算機代替人工飛行員席位進行指令應(yīng)答,黎蘭[13]提出了改進的序列到序列(sequence-to-sequence, Seq2Seq)陸空通話對話模型,實驗結(jié)果表明,復(fù)誦指令生成的準(zhǔn)確率可以達到93%。Zhang等[14]采用多任務(wù)學(xué)習(xí)來優(yōu)化深度神經(jīng)網(wǎng)絡(luò)模型,實現(xiàn)了管制復(fù)誦指令的生成,其復(fù)誦準(zhǔn)確率為97.19%。然而,上述研究采用的模型較為傳統(tǒng),其模型性能在當(dāng)前已經(jīng)進入了瓶頸階段,進一步打破瓶頸,推動本領(lǐng)域發(fā)展迫在眉睫。鑒于此,構(gòu)建高性能深度學(xué)習(xí)模型來實現(xiàn)自動飛行員復(fù)誦指令的生成,針對中外研究的不足,通過對基于Transformer以及Seq2Seq架構(gòu)的大規(guī)模預(yù)訓(xùn)練語言模型進行微調(diào),實現(xiàn)飛行員復(fù)誦指令的生成。基于此,為保證模型復(fù)雜度處于一定范圍同時提高模型準(zhǔn)確率,使用集成學(xué)習(xí)策略來改進模型,實現(xiàn)模型性能的提升。最后,為促進本領(lǐng)域相關(guān)工作進展,提出一種新的評價標(biāo)準(zhǔn)來衡量復(fù)誦指令生成的質(zhì)量,該評價標(biāo)準(zhǔn)可在模型的改進方面為研究者提供有價值的參考。
當(dāng)前,ATCO培訓(xùn)主要依賴于管制模擬機,具體的培訓(xùn)流程如圖1所示。在管制員模擬機培訓(xùn)中,采用智能計算機程序來取代飛行員席位,也即使用智能計算機程序來實現(xiàn)飛行員復(fù)誦指令的生成并對指令進行響應(yīng),可以有效降低培訓(xùn)成本,提高培訓(xùn)效率。如果將該程序集成到管制員培訓(xùn)系統(tǒng)中還可以克服培訓(xùn)地點這一限制,能夠應(yīng)對實際出勤的困境,提高ATCO培訓(xùn)設(shè)備的利用能力。使用人工智能技術(shù)來實現(xiàn)自動飛行員復(fù)誦指令的生成以及響應(yīng)其核心技術(shù)包括:語音識別(automatic speech recognition, ASR)、管制指令理解(controlling instruction understanding, CIU)、信息抽取(information extraction, IE)、飛行員復(fù)誦生成(pilot repetition generation, PRG)、語音合成(text to speech, TTS)以及人機交互技術(shù)[15]。其技術(shù)框架流程圖如圖2所示。
圖2 自動飛行員復(fù)誦指令生成技術(shù)流程圖Fig.2 Automatic pilot repetitive instruction generation technology workflow diagram
為了研究自動飛行員系統(tǒng),首先要對飛行員復(fù)誦指令進行深入了解。飛行員復(fù)誦指令的一般特征為:①復(fù)誦指令文本長度一般小于管制指令文本長度,對于強制性管制指令,其復(fù)誦指令要與管制指令含義保持一致;②持續(xù)性對話次數(shù)少(符合人機對話中屬于單輪對話特點)?;谏鲜鎏攸c,可將飛行員復(fù)誦指令生成從人機對話任務(wù)轉(zhuǎn)化為文本摘要生成任務(wù)來處理。當(dāng)前階段,文本摘要技術(shù)按摘要生成方法分為提取式摘要和生成式摘要[16]。提取式摘要根據(jù)詞語的重要性來提取關(guān)鍵詞,形成摘要。但它只考慮詞語的詞頻,而不考慮句子的語義信息,這導(dǎo)致生成的句子連貫性較差。生成式摘要則通過釋義和同義替換來總結(jié)句子的重要信息,與提取摘要相比,生成摘要具有更好的表示能力,能夠理解句子的上下文語義。在自動文本摘要的任務(wù)中,由于輸入和輸出都是文本序列,這要求模型要更加關(guān)注生成句子的語義信息和句子連貫性之間的關(guān)系[17]。
長期以來,由于基于統(tǒng)計學(xué)的方法在文本表示、理解和生成能力方面的局限性,自動文本摘要的發(fā)展緩慢[18]。隨著神經(jīng)網(wǎng)絡(luò)理論和技術(shù)的不斷改進,深度學(xué)習(xí)在許多任務(wù)上實現(xiàn)了最優(yōu)的效果[19-22],尤其是基于編碼器-解碼器架構(gòu)的自動文本摘要模型出現(xiàn)之后,基于深度學(xué)習(xí)的自動文本摘要迎來了新的發(fā)展[23]。在當(dāng)前的背景下,隨著序列到序列框架的進步,生成式模型往往優(yōu)于提取式模型[24]。
對于生成式摘要的研究大多是關(guān)于序列到序列的編碼器-解碼器結(jié)構(gòu),通過添加各種注意機制、指針生成機制和覆蓋機制,或者用卷積神經(jīng)網(wǎng)絡(luò)代替循環(huán)神經(jīng)網(wǎng)絡(luò)來解決摘要生成過程中的各種問題。Rush等[25]第一次在Seq2Seq模型上使用注意力機制來解決標(biāo)題生成問題。為了進一步提高模型的性能,Nallapati 等[26]提出了指針生成器模型來成功處理詞匯量不足(out of vocabulary, OOV)的單詞。該模型之后又通過使用覆蓋機制[27]進行了改進。由于先前的Seq2Seq架構(gòu)中的編碼器、解碼器是由卷積神經(jīng)網(wǎng)絡(luò)或遞歸神經(jīng)網(wǎng)絡(luò)來充當(dāng),因此這些架構(gòu)的特征提取能力遠不如Transformer模型?;谧宰⒁饬軜?gòu)的Transformer的出現(xiàn),開啟了自然語言處理的新紀(jì)元,它確保模型能夠?qū)W習(xí)到更深的語言邏輯和單詞的語義信息。相應(yīng)的模型如BERT (bidirectional encoder representations from transformers) 模型[28]及其變體Roberta (a robustly optimized BERT pretraining approach)模型、GPT-2 (generative pre-trained transformer 2) 模型[29]、BART (bidirectional and auto-regressive transformers) 模型、T5 (text-to-text transfer transformer) 模型等。BERT使用單詞的上下文來預(yù)測單詞,而GPT-2通過前文的單詞來預(yù)測下文的單詞。因此,BERT適合于自然語言理解任務(wù),GPT-2更適合于自然語言生成(natural language generation, NLG)任務(wù)。受啟發(fā)于BERT和GPT-2,BART模型融合二者優(yōu)點,這使得它比BERT更適合文本生成的場景,相比GPT-2也多了雙向上下文語境信息,在生成任務(wù)上取得了最優(yōu)的效果[30]。Google Brain團隊設(shè)計出一個基于prompt策略的預(yù)訓(xùn)練語言模型T5[31],該策略通過引導(dǎo)模型在預(yù)訓(xùn)練階段學(xué)到的特定任務(wù)相關(guān)知識,來降低微調(diào)的難度,減少訓(xùn)練時間,使得模型性能得更好的發(fā)揮。
(1)隨著深度學(xué)習(xí)模型參數(shù)的增加,對于監(jiān)督學(xué)習(xí),需要用大量的數(shù)據(jù)訓(xùn)練性能優(yōu)越的模型。在空中交通管制領(lǐng)域,由于數(shù)據(jù)的保密性,數(shù)據(jù)的獲取非常困難。此外,獲得的原始ATC語音數(shù)據(jù)必須經(jīng)過專業(yè)人員標(biāo)記后才能使用,使得標(biāo)注的成本變的昂貴。這使得深度學(xué)習(xí)技術(shù)在該領(lǐng)域的應(yīng)用和發(fā)展帶來了很大的挑戰(zhàn)。
(2)飛行員復(fù)誦指令生成任務(wù)既屬于摘要生成任務(wù)又屬于對話響應(yīng)生成,如何構(gòu)建合適的模型來適應(yīng)飛行員復(fù)誦指令生成任務(wù)是一個難點。
(3)當(dāng)前常用的評估文本生成質(zhì)量的方法不能很好地適應(yīng)飛行員復(fù)誦指令生成任務(wù),急需構(gòu)建一種用于評價飛行員復(fù)誦指令生成質(zhì)量的標(biāo)準(zhǔn)。
(4)在空中交通管制工作中,安全是最重要的考量。因此,評估模型性能的首要標(biāo)準(zhǔn)是模型的準(zhǔn)確率。盡管當(dāng)前基于Transformer架構(gòu)的大規(guī)模預(yù)訓(xùn)練語言模型在許多領(lǐng)域都表現(xiàn)出色,但在管制領(lǐng)域的應(yīng)用中,其性能仍然無法滿足實際需求。因此,如何進一步提升模型的性能,且不增加模型的復(fù)雜度是需要解決的關(guān)鍵問題。
針對2.1節(jié)(1),采用遷移學(xué)習(xí)的方法,先將模型在其他領(lǐng)域數(shù)據(jù)上進行訓(xùn)練再應(yīng)用到本領(lǐng)域進行微調(diào)來達到復(fù)誦指令生成的目的。針對2.1節(jié)(2),NLG任務(wù)中又包含神經(jīng)機器翻譯(neural machine translation, NMT)、文本摘要和對話響應(yīng)生成[32],這三項任務(wù)的共同點在于輸入和輸出都是文本序列,除此之外,相互間又有區(qū)別。文本摘要和機器翻譯的區(qū)別在于,在文本摘要中,生成的摘要通常非常短,不受原文長度的影響。此外,摘要生成的一個關(guān)鍵點是以有損失的方式壓縮源文本并保留關(guān)鍵概念,這與機器翻譯要求的無損相違背[33]。對話響應(yīng)生成和文本摘要的區(qū)別在于,對話響應(yīng)生成的文本上下具有邏輯性,對于生成結(jié)果的質(zhì)量,目前沒有統(tǒng)一的評判標(biāo)準(zhǔn)[34]。文本摘要中的原文本和生成的摘要文本在語義上要求一致的且摘要長度一般小于源文本的長度[35]。飛行員復(fù)誦指令文本生成是一種特殊的NLG任務(wù),既屬于對話響應(yīng)生成任務(wù)、又屬于文本生成任務(wù)。對于一些詢問性指令(如收到請回答),其復(fù)誦指令的性質(zhì)屬于對話,前后文具有邏輯關(guān)系;但大多數(shù)管制指令屬于強制性指令,其復(fù)誦指令的性質(zhì)屬于摘要生成任務(wù),前后文含義保持一致?;谏鲜鲲w行員復(fù)誦指令文本生成任務(wù)的特點,采用摘要生成任務(wù)中的預(yù)訓(xùn)練模型進行微調(diào)的策略來進行飛行員復(fù)誦指令的生成是合適的。針對2.1節(jié)(3),為實現(xiàn)詳細的對生成結(jié)果進行評價,首先構(gòu)建了管制指令文本詞典,借助分詞工具,對生成的指令文本按粗細粒度信息進行了分割,用于后續(xù)指標(biāo)的計算??紤]到管制指令的特殊性,提出了一種新的評價標(biāo)準(zhǔn)來評估生成的復(fù)誦指令文本的質(zhì)量,該標(biāo)準(zhǔn)比傳統(tǒng)的ROUGE(recall-oriented understudy for gisting evaluation)評價標(biāo)準(zhǔn)能更加精確地反映模型的性能。針對2.1節(jié)(4),為了實現(xiàn)不增加模型復(fù)雜度同時提高模型的性能,采用了機器學(xué)習(xí)中的集成學(xué)習(xí)策略。選取4個基礎(chǔ)模型構(gòu)建集成學(xué)習(xí)模型,將管制指令數(shù)據(jù)集調(diào)整為4個數(shù)量不變但內(nèi)容不同的訓(xùn)練集,每個基礎(chǔ)模型在不同類別的訓(xùn)練集上進行訓(xùn)練以確保各基礎(chǔ)模型能夠?qū)W習(xí)到不同的文本處理能力。將訓(xùn)練好的4個模型進行裝袋,最終輸出結(jié)果采用基于準(zhǔn)確率的加權(quán)投票策略。實現(xiàn)了利用多個模型的優(yōu)勢,提高模型的準(zhǔn)確率同時避免模型復(fù)雜度增加的目的。
集成學(xué)習(xí)是一種機器學(xué)習(xí)方法,旨在通過結(jié)合多個模型的預(yù)測結(jié)果來提高預(yù)測準(zhǔn)確度和泛化能力。該方法使用各種投票機制融合不同基礎(chǔ)模型的預(yù)測結(jié)果,從而得到比單個基礎(chǔ)模型更準(zhǔn)確且模型復(fù)雜度不增加的集成模型[36]。圖3展示了模型復(fù)雜度和誤差之間的關(guān)系??梢钥闯?在開始階段模型的總誤差一直在下降,直到達到底部,然后隨著模型復(fù)雜度的增加而迅速上升。
圖3 學(xué)習(xí)曲線和模型復(fù)雜之間的關(guān)系Fig.3 Direct relationship between learning curve and model complexity
目前,基于Transformer架構(gòu)的預(yù)訓(xùn)練語言模型參數(shù)量已達到億的級別,模型的復(fù)雜度達到了較高水平。因此,進一步提高基礎(chǔ)模型的復(fù)雜度并性價比不高。集成學(xué)習(xí)的目標(biāo)是將不同的模型算法無縫集成到一個統(tǒng)一的框架中,以便有效利用每種算法的互補信息,提高性能的同時確保了模型的復(fù)雜度處于穩(wěn)定水平[37]。常用的集成分類方法包括Bagging、AdaBoost、隨機森林、隨機子空間和梯度增強[38-40]。在飛行員復(fù)誦指令生成任務(wù)中,使用Bagging集成分類方法進行集成學(xué)習(xí)模型的構(gòu)建。圖4說明了典型的Bagging集成分類模型的主要思想,該模型由兩個步驟組成:①使用多個弱分類器生成結(jié)果;②將多個結(jié)果集成到一致性函數(shù)中,以使用投票方案獲得最終結(jié)果。其中投票可以是簡單的多數(shù)表決,也可以是加權(quán)投票。這里采用基于準(zhǔn)確率的加權(quán)投票方式,對每個基礎(chǔ)模型的預(yù)測結(jié)果按照它們的準(zhǔn)確率權(quán)重進行加權(quán)投票。
圖4 集成學(xué)習(xí)模型架構(gòu)Fig.4 Integrated learning model architecture
對于飛行員復(fù)誦指令生成任務(wù)而言,對于強制性復(fù)誦指令是有標(biāo)準(zhǔn)答案的,因此可以將復(fù)誦結(jié)果看作字符串,從分類問題的角度進行投票處理。具體投票過程如下。
(1)
式(1)中:k=0,1,2,3分別為字符串str0、str1、str2、str3類別,這4個類別的內(nèi)容可以相同;(yi=k)為指示函數(shù),當(dāng)yi=k時為1,否則為0;wi為第i個分類器的權(quán)重,其計算公式為
(2)
式(2)中:Accui為第i個分類器的準(zhǔn)確率。
本實驗依托國家重點研發(fā)計劃項目中構(gòu)建的真實陸空通話數(shù)據(jù)集,其中數(shù)據(jù)中包含少量管制指令對應(yīng)的飛行員復(fù)誦文本。飛行員復(fù)誦文本為實驗室人員,基于《空中交通無線電通話用語》(MH/T 4014—2003)標(biāo)注。最終,得到經(jīng)預(yù)處理后的指令文本數(shù)據(jù)共11 049對,并將數(shù)據(jù)集劃分為3個子集,其中8 949對用于訓(xùn)練,995對用于驗證,1 105對用于測試。其數(shù)據(jù)涵蓋塔臺、進近及區(qū)調(diào)對話,能較好地反映ATC領(lǐng)域中的陸空通話數(shù)據(jù)分布。表1為摘錄數(shù)據(jù)集中的部分?jǐn)?shù)據(jù)實例。
ROUGE通過計算生成摘要和參考摘要之間的重疊單元(如n-grams、單詞序列和單詞對)來衡量摘要質(zhì)量[41],該評價標(biāo)準(zhǔn)已經(jīng)被廣泛用于自動摘要生成任務(wù)的評估中。其中,ROUGE-1和ROUGE-2作為評估信息性的手段,最長ROUGE-L作為評估流暢性的手段[42]。ROUGE-1和ROUGE-2得分已被證明是最符合人類的判斷評估指標(biāo)。
ROUGE-N的計算公式為
(3)
式(3)中:下標(biāo)N常取1、2;n為n-grams的長度;Ref為參考摘要的集合;S為參考摘要中的n-gram集合;式(3)中,分子表示生成摘要中的n-grams在參考摘要中出現(xiàn)的次數(shù)之和,分母表示參考摘要中的n-grams的總數(shù);Co,match(gn) 為生成摘要和對應(yīng)的參考摘要中同時出現(xiàn)的n-gram的最大數(shù)量;Co(gn) 為參考摘要中的n-gram 數(shù)量。
ROUGE-L的計算公式為
(4)
(5)
(6)
式中:LCS為最長公共子序列;len為序列的長度;C為標(biāo)準(zhǔn)序列;S為生成序列;RLCS為召回率;PLCS為精確率;FLCS為ROUGE-L值;β為用于衡量召回率和精確率之間重要性的參數(shù),一般β會設(shè)置為較大的值,此時FLCS會更加關(guān)注RLCS,β取1,表示準(zhǔn)確率和召回率被同等看待。
由于本領(lǐng)域的特殊性,復(fù)誦指令必須完全正確才能記作一條合格的復(fù)誦指令。飛行員復(fù)誦指令要求在不丟失關(guān)鍵信息的情況下,根據(jù)ATC規(guī)則對管制指令進行響應(yīng)。根據(jù)ATC規(guī)則[43],ATCO的指令必須以飛機識別號(aircraft identification, ACID)開始,以明確所通信航空器,而飛行員的指令則要以其ACID結(jié)束,以區(qū)分ATCO的指令。基于上述復(fù)誦指令的特點,僅使用ROUGE評價標(biāo)準(zhǔn)來衡量模型,不能全面的評價模型的性能。如在管制指令數(shù)據(jù)集中,管制員下達指令:東方五四兩四, 由于沖突,加速上到六千九。參考復(fù)誦指令為:加速上到六千九,東方五四兩四。分詞工具分詞后:東方五四兩四/由于/沖突/加速/上/到/六千九;加速/上/到/六千九/東方五四兩四。 當(dāng)模型生成結(jié)果為“加速/上/到/六千九/由于/沖突/東方五四兩四”時,使用ROUGE-N及ROUGE-L評價方法計算結(jié)果分別如表2、表3所示。但從飛行員復(fù)誦指令評價標(biāo)準(zhǔn)的角度來說,該復(fù)誦指令是正確的復(fù)誦。
表2 示例的ROUGE-1、ROUGE-2計算結(jié)果Table 2 Example ROUGE-1 and ROUGE-2 calculation results
表3 示例的ROUGE-LTable 3 Example ROUGE-L
由表2、表3結(jié)果可知,雖然ROUGE指標(biāo)一定程度上可以反映模型性能,但不能更加精細化反映模型性能。因此,針對管制指令文本的特點以及復(fù)誦標(biāo)準(zhǔn),引入針對本領(lǐng)域的一種新的評價標(biāo)準(zhǔn),關(guān)鍵詞評價標(biāo)準(zhǔn),其評價指標(biāo)包括:呼號準(zhǔn)確率(call sign accuracy, CSA)、動作指令準(zhǔn)確率 (action instruction accuracy, AIA)、參數(shù)準(zhǔn)確率(parameter accuracy, PA)。最后,計算總準(zhǔn)確率(total accuracy, TA)。只有當(dāng)一個指令具有所有3個正確的子因子時,該復(fù)誦指令才能被視為正確的指令。具體指標(biāo)的定義及計算公式如下。
(1)呼號由航空公司簡稱和航班號組成,呼號準(zhǔn)確率計算公式為
(7)
(2)動作指令為ATC指令中的包含動作,如上升、下降、保持等,動作指令準(zhǔn)確率計算公式為
(8)
(3)參數(shù)是指ATC指令的關(guān)鍵要素包括速度、高度、航向和航路點等指令動作的關(guān)鍵補充信息,參數(shù)準(zhǔn)確率計算公式為
(9)
式中:N為待測樣本的數(shù)量;g(i)、q(i) 、h(i)分別為呼號、動作指令和指令參數(shù)的特征函數(shù),可表示為
(10)
式(10)中:predi=truthi是指示函數(shù)的條件,其中,predi為生成的第i條復(fù)誦指令中,呼號、動作參數(shù)的值;truthi為參考復(fù)誦指令中,呼號、動作參數(shù)的值,當(dāng)二者完全對應(yīng)匹配時,指示函數(shù)值為1,否則為0。
(4)總準(zhǔn)確率為有效復(fù)誦指令占總的復(fù)誦指令的比值。只有當(dāng)所有呼號、參數(shù)和指令動作都與基本事實相同時,該復(fù)誦指令才是有效的??倻?zhǔn)確率的計算公式為
(11)
式(11)中:T(i)為總精確度的特征函數(shù),其計算公式為
(12)
為便于針對管制指令進行ROUGE評價以及關(guān)鍵詞評價,基于收集的某地區(qū)空管局標(biāo)注后的語音數(shù)據(jù),參考《空中交通無線電通話用語》,使用Jieba分詞工具構(gòu)建了中文陸空通話分詞詞典?;诠苤浦噶畹慕Y(jié)構(gòu)特點,構(gòu)建的詞典包含:航空公司簡稱、數(shù)字、字母、高度、速度、航向、航路點、專有名詞等內(nèi)容,共計詞匯量14 756個。其詞匯實例分析如表4所示。
表4 詞典實例分析Table 4 Analysis of dictionary case
實驗室環(huán)境及配置如下:操作系統(tǒng)為Windows10,CPU采用E5-2680 V4@2.40 GHz,GPU為RTX 2080Ti,深度學(xué)習(xí)框架為Pytorch。各基礎(chǔ)模型超參數(shù)設(shè)置如表5所示。
表5 基礎(chǔ)模型超參數(shù)Table 5 Basic model hyperparameters
采用預(yù)訓(xùn)練加微調(diào)的策略來實現(xiàn)飛行員復(fù)誦指令的生成。使用10折交叉驗證來評估各基礎(chǔ)模型性能,各微調(diào)模型實驗結(jié)果如表6、表7所示,集成學(xué)習(xí)模型試驗結(jié)果如表8、表9所示。為了進一步增強對基于注意力機制模型的理解,選擇一些測試樣本來展示模型在生成任務(wù)過程中的注意力分布,圖5、圖6展示了T5模型在預(yù)測過程中的注意力分布??梢钥闯?模型能夠較好地輸出標(biāo)準(zhǔn)答案。
表6 各模型在管制指令文本數(shù)據(jù)集上的ROUGE得分Table 6 ROUGE scores of each model on the control instruction text data set
表7 各模型在管制指令文本數(shù)據(jù)集上的關(guān)鍵詞準(zhǔn)確率得分Table 7 Key word accuracy score of each model in control instruction text data set
表8 集成學(xué)習(xí)模型在管制指令文本數(shù)據(jù)集上的ROUGE得分Table 8 ROUGE scores of the integrated learning model on the regulatory instruction text dataset
表9 集成學(xué)習(xí)模型在管制指令文本數(shù)據(jù)集上的關(guān)鍵詞準(zhǔn)確率得分Table 9 Keyword accuracy scores of the integrated learning model on the regulatory instruction text dataset
垂直軸表示輸入的ATC指令文本;水平軸表示標(biāo)準(zhǔn)復(fù)誦結(jié)果;每一行色塊表示對應(yīng)步數(shù)的輸出在標(biāo)準(zhǔn)結(jié)果詞上的關(guān)聯(lián)程度,顏色越亮,關(guān)聯(lián)越深圖5 高度調(diào)整指令注意力分布熱力圖Fig.5 Highly adjusted instruction attention distribution heatmap
由表6、表7可知,GPT-2模型在任務(wù)中表現(xiàn)最差,可能原因是GPT-2在進行預(yù)測時使用的是具有掩碼的注意力機制,這導(dǎo)致模型產(chǎn)生輸出時沒有將后文的有用信息考慮進來,使得模型在處理輸入與輸出含義一致的文本生成任務(wù)時時效果不佳。而Roberta、T5、BART、Nezha模型則表現(xiàn)相當(dāng),這說明了提供雙向信息有助于提高復(fù)誦生成的準(zhǔn)確率。由表8、表9可知,基于加權(quán)的投票策略的集成學(xué)習(xí)模型性能優(yōu)于不考慮權(quán)重僅考慮得票數(shù)的集成模型。
(1)通過將機器學(xué)習(xí)中集成學(xué)習(xí)策略應(yīng)用于深度學(xué)習(xí)中,實現(xiàn)了高質(zhì)量的飛行員復(fù)誦指令生成。在管制指令文本數(shù)據(jù)集上,所采用的方法在飛行員復(fù)誦指令生成任務(wù)中取得了最先進的效果,模型在基于關(guān)鍵詞的評價指標(biāo)中,整體準(zhǔn)確率達到0.987,并且對呼號復(fù)誦的準(zhǔn)確率達到0.998。
(2)使用10折交叉驗證對5個基礎(chǔ)模型進行了性能評估。結(jié)果表明,基于Transformer解碼器構(gòu)建的預(yù)訓(xùn)練模型GPT-2在復(fù)誦指令生成任務(wù)中存在生成的結(jié)果隨機性過大的缺點,其可能原因是GPT-2在預(yù)測時使用了具有掩碼的注意力機制,導(dǎo)致模型在產(chǎn)生輸出時不會考慮下文信息,因此在進行輸入與輸出含義一致的文本生成時表現(xiàn)出較差的性能。此外,基于Transformer架構(gòu)的預(yù)訓(xùn)練語言模型NEZHA、Roberta、T5與基于Seq2Seq架構(gòu)的預(yù)訓(xùn)練語言BART相比,都表現(xiàn)出較好的性能。表明這4個預(yù)訓(xùn)練語言模型能夠很好地適應(yīng)輸入與輸出含義一致的文本生成任務(wù)。
(3)目前,文本生成結(jié)果的評價標(biāo)準(zhǔn)主要基于ROUGE-N,ROUGE-L,然而,在ATC領(lǐng)域使用這種標(biāo)準(zhǔn)會導(dǎo)致評價結(jié)果的偏差,并且無法精細反映模型的性能。因此,針對管制指令的特點,提出一套基于關(guān)鍵詞的評價指標(biāo)體系。通過建立管制指令詞典,實現(xiàn)對管制指令文本的分詞,來對管制指令文本進行粗細顆粒度劃分,最后對各關(guān)鍵詞指標(biāo)進行計算。結(jié)果表明,基于關(guān)鍵詞的評價指標(biāo)體系能夠克服ROUGE評價方法中存在評價偏差,更全面地反映模型性能。
盡管目前的模型能夠準(zhǔn)確地完成對管制指令的復(fù)誦,但是在回答一些非復(fù)誦的指令時,模型仍然不夠出色,這主要是由于數(shù)據(jù)多樣性少以及模型本身存在的局限性導(dǎo)致。后續(xù)可對多模態(tài)數(shù)據(jù)融合技術(shù)以及構(gòu)建復(fù)誦對話管理模塊進行研究,以實現(xiàn)更好地非強制性復(fù)誦指令的生成。