李 蓉, 房安琪
(西安機電信息技術研究所, 陜西 西安 710065)
在現(xiàn)代高科技戰(zhàn)爭中, 為降低大規(guī)模殺傷武器的毀傷效能, 各個國家不斷將重要軍事目標如導彈發(fā)射井、 指揮中心、 飛機掩體轉移到地下或者深山中, 并配備加固防護層。 常規(guī)殺傷爆破彈藥僅能在目標表面起爆, 無法進行有效打擊[1]。根據(jù)統(tǒng)計, 等同當量炸藥在目標內(nèi)部最佳位置起爆與位于目標表層起爆相比, 能量耦合效率可提高20倍~50倍[2]。 為了有效打擊這種重要軍事對象, 必須使彈藥具備相當?shù)那謴啬芰? 能夠深入目標內(nèi)部起爆, 以形成更大的毀壞和殺傷力[3]。硬目標侵徹彈作為這類堅固目標的克星, 可通過加速度傳感器采集的過載信息實時感知彈丸在碰撞目標、 侵入目標、 穿透目標、 鉆出目標的一系列歷程, 確認彈丸相對于目標的準確位置, 完成最佳炸點識別和起爆任務, 實現(xiàn)高效毀傷[4]。
硬目標侵徹彈加速度曲線如圖1所示, 當戰(zhàn)斗部以一定速度v0侵徹靶板時, 侵徹阻力使戰(zhàn)斗部開始做減速運動, 減加速度曲線a(t)主要分為4個階段[5]: 在0~ta期間, 彈丸頭部與靶板初步接觸, 由于侵入深度小, 錐形彈頭與靶板平面相交的橫截面較小, 侵徹阻力小, 因而減加速度也較小。 隨著侵徹深度的增加, 彈丸頭部與靶板平面相交的橫截面不斷增大, 當該橫截面的直徑與彈徑相等時, 侵徹阻力接近最大值, 如b點所示。當侵徹深度繼續(xù)增加時, 侵徹阻力的增加只是由于彈丸外表面與靶體的接觸面積增大而增大了摩擦力, 因此, 減加速度的增大也是有限的, 即b點的加速度接近最大加速度am。 侵徹過程引起的靶體崩落和碎裂使侵徹阻力迅速下降, 減加速度在達到最大值后很快下降, 如c點所示。 隨著侵徹程度的加深, 克服侵徹阻力消耗的能量越大, 使彈丸的運動速度逐漸降低, 當彈丸速度變?yōu)榱銜r,侵徹阻力也變?yōu)榱? 減加速度隨之消失, 如d點所示。
圖1 彈丸侵徹的加速度時間歷程Fig.1 Acceleration time history of projectile penetration
硬目標侵徹彈的主要起爆方式是計層起爆[6],該起爆方式打擊精度高, 打擊靈活性大[7]。 目前的計層起爆算法均根據(jù)侵徹過載信號進行計算與測試, 過載信號是侵徹引信精確計層起爆控制必不可少的數(shù)據(jù)支撐[8]。 由于侵徹試驗成本高昂,在靶場使用測試彈進行目標毀傷獲得的真實信號數(shù)量非常有限, 只能通過仿真或模擬試驗獲取過載數(shù)據(jù)。 然而, 隨著動能侵徹戰(zhàn)斗部速度的不斷提高, 引信也承受著更高程度的沖擊過載。 彈丸在高速侵徹多層目標過程中, 作用在彈體上瞬間變化的沖擊力激發(fā)了應力波, 該應力波沿著彈長方向來回傳播和反射, 使得彈體侵徹每層靶板時加速度傳感器采集到的過載信號中疊加了這些震蕩信息的高頻分量。 彈體在相鄰兩層靶板間行進過程中, 應力波仍在振蕩, 尚未衰減完畢, 導致相鄰兩目標層之間的過載彼此粘連[9]。 而這種信號彼此粘連的現(xiàn)象難以通過計算機仿真進行還原,導致模擬結果與實測數(shù)據(jù)有較大出入。 因此, 如何生成有效的過載信號成為深度學習在硬目標侵徹引信應用中的關鍵。 本文嘗試將神經(jīng)網(wǎng)絡引入過載信號的生成中, 希望生成更加可靠的數(shù)據(jù),以供硬目標侵徹引信的層識別算法進行計算與測試。
深度生成模型是概率統(tǒng)計和深度學習中非常重要的模型, 可以生成一系列可觀測數(shù)據(jù), 在計算機視覺、 自然語言處理等領域應用十分廣泛[10]。
生成對抗網(wǎng)絡(Generative Adversarial Network,GAN)是Goodfellow 等[11]在2014年提出的一種無監(jiān)督生成式模型, 該模型受啟發(fā)于二人零和博弈理論, 由生成器和判別器組成, 結構如圖2所示, 生成器主要用來學習真實樣本的分布,從而讓生成的數(shù)據(jù)更加真實, 以騙過判別器; 判別器則需要對接收的數(shù)據(jù)進行真假判別。 在訓練過程中, 生成器不斷使生成的數(shù)據(jù)更加真實, 判別器則努力識別數(shù)據(jù)的真假, 即二人相互博弈的過程。 隨著時間推移, 生成器和判別器不斷對抗,最終達到動態(tài)平衡: 生成器生成的數(shù)據(jù)接近真實樣本分布, 而判別器無法識別出數(shù)據(jù)的真假, 對于給定數(shù)據(jù), 判別器預測為真的概率基本接近0.5(相當于隨機猜測)[12]。
圖2 GAN模型結構Fig.2 Model structure of GAN
GAN的目標函數(shù)定義為
原始GAN由于其無監(jiān)督過于自由的學習模式, 導致在訓練過程中經(jīng)常出現(xiàn)學習不穩(wěn)定、 不可控等問題。 從表征學習角度看,GAN 的生成器在輸入噪聲信號z時沒有增加任何限制, 而是以一種高度混合的方式使用,導致z的任何一個維度均沒有明確的特征表示[13]。因此,在數(shù)據(jù)生成中, 無法得知什么樣的噪聲信號可以用來生成什么樣的數(shù)據(jù)。
為了彌補上述GAN 模型的弊端,Chen等[14]提出了InfoGAN模型, 結構如圖3所示。
圖3 InfoGAN模型結構Fig.3 Model structure of InfoGAN
將輸入的噪聲信號分解為不可壓縮的隨機噪聲z和可解釋的隱含變量c以表示數(shù)據(jù)的潛在特征。 以MNIST手寫數(shù)字數(shù)據(jù)集為例, 隱變量c包含離散部分和連續(xù)部分, 離散部分取值為0~9的隨機變量(表示數(shù)字), 連續(xù)部分包含2個連續(xù)型的隨機變量(分別表示傾斜度和粗細度)。InfoGAN的核心思想是最大化輸入噪聲變量的固定子集與觀測值之間的互信息, 從而使其與觀測值之間產(chǎn)生因果關系, 當因果關系達到一定程度時,固定子集就可以“控制”生成觀測值中的重要特征。
近幾年, 注意力機制被廣泛使用在自然語言處理、 計算機視覺、 語音識別等各種不同類型的任務中, 是深度學習技術最值得關注與深入了解的核心技術之一[15]。 注意力模型能夠實現(xiàn)信息處理資源的高效分配[16], 例如, 當神經(jīng)網(wǎng)絡模型需要尋找圖片中的小狗信息時, 會更多注意符合小狗特征的主要區(qū)域, 而忽略其他不相關的次要區(qū)域, 如圖4所示。注意力機制以高權重聚焦重要信息, 以低權重忽略無關信息, 并且據(jù)此不斷調(diào)整權重, 使其在不同的情況下也可以選取重要的信息。 因此, 注意力機制具有更高的可擴展性和魯棒性[17]。
圖4 注意力機制Fig.4 Attention mechanism
注意力機制早在20世紀90年代就已經(jīng)被提出[18], 研究者們不斷分析比較注意力機制的應用領域, 一直以提高效率且克服CNN、RNN等算法的局限性為目的進行探索, 嘗試提出新的算法結構。2017年,Google團隊提出了基于自注意力機制的Transformer[19]模型, 首次拋棄以往Encoder-Decoder必須結合RNN 或CNN 的固有模式, 使用自注意力結構完全替代LSTM 網(wǎng)絡, 在提高并行率的同時取得了非常亮眼的成績。 隨后提出的 Transformer 改進模型如 GPT[20],BERT[21]等更是力壓RNN 經(jīng)典模型橫掃自然語言處理榜單, 使得注意力機制得到真正成功的應用, 成為NLP領域的主流模型[22]。 與此同時, 計算機視覺領域也借鑒Transformer的思想相繼提出DETR[23],ViT[24],IPT[24]等自注意力模型,將各大圖像任務的成績推向新一輪高峰, 迎來了各學界對Transformer的研究狂潮。
Transformer模型由編碼器和譯碼器構成, 編碼器負責把輸入序列進行位置編碼后映射為隱藏層, 然后解碼器再把隱藏層映射為輸出序列, 如圖5所示。 編碼器分為4個部分, 第1部分將輸入數(shù)據(jù)轉換為向量, 并對其進行位置編碼, 記錄數(shù)據(jù)之間順序的相關性, 具體操作如式(2)所示。 相較于RNN的順序輸入,Transformer無需將數(shù)據(jù)一一輸入, 而是直接并行送入, 并存儲好數(shù)據(jù)之間的位置關系, 大大提高了計算速度, 減少了存儲空間。
圖5 Transformer模型結構[19]Fig.5 Model structure of Transformer[19]
第2部分是Multi-Head Attention, 其計算以縮放點積注意力為基礎, 對輸入的Query,Key,Value做如式(3)的操作, 獲取數(shù)據(jù)內(nèi)部之間的相關性, 彌補了CNN方法中數(shù)據(jù)缺少關聯(lián)性的缺點。
第3部分是Add&Norm, 即殘差連接和層歸一化。 神經(jīng)網(wǎng)絡在映射關系的轉換過程中, 往往存在計算產(chǎn)生的殘差, 而殘差的存在會隨著網(wǎng)絡層數(shù)的增加越來越不精確, 因此, 通過第3部分的Add&Norm 可以有效提高模型的學習能力, 加快收斂速度。
第4部分是由2個全連接層組成的Feed Forward, 將學習得到的數(shù)據(jù)進行非線性映射, 如式(4)所示, 增大強的部分, 減小弱的部分, 最后進行標準化, 使學習結果更加精準和具有代表性。
2016年,Olaf Ronneberger等[25]針對醫(yī)學圖像分割任務提出了U-Net結構, 采用長短跳躍連接將網(wǎng)絡的第i層拼接到第n-i層, 將淺層卷積核提取的局部特征通過Channel維度連接到深層卷積核提取的抽象特征中, 使神經(jīng)網(wǎng)絡可以同時學習到高級和低級特征, 極大改善了模型生成數(shù)據(jù)的效果, 且在醫(yī)學圖像這種小規(guī)模數(shù)據(jù)集中表現(xiàn)非常突出。
2021年,Chen等[26]將風靡學術界的Transformer與U-Net相結合, 提出TransUNet模型,結構如圖6所示, 該模型兼具Transformer和UNet的優(yōu)點, 同時克服了CNN 處理遠距離關系的局限性, 又能很好的彌補Transformer只專注于全局而缺失詳細定位信息的精確特征。
圖6 TransUNet模型結構[25]Fig.6 Model structure of TransUNet[25]
過載信號雖然是一維序列, 但與NLP領域中的數(shù)據(jù)在輸入長度方面有極大差別, 這是因為過載信號的長度通常在6 000以上, 而自然語言處理的數(shù)據(jù)集為單詞或句子, 一般不會超過1 000。 因此, 不能簡單移植NLP領域中表現(xiàn)非凡的Transformer模型, 否則會因序列過長而產(chǎn)生爆炸性的計算成本。 另一方面, 過載信號與CV領域的數(shù)據(jù)在長度方面有所相似, 但在維度方面又有較大差異, 也無法直接使用圖像任務的處理方法。 因此,本文針對侵徹多層過載信號的特殊屬性設計生成器, 如圖7所示, 該生成器借鑒TransUNet架構,由4組上/下采樣模塊和1組深度特征提取模塊構成。 其中, 下采樣模塊包含3個卷積層, 前2個卷積層步幅為1, 用于提取樣本的細節(jié)特征, 增強生成數(shù)據(jù)的細膩程度, 第3個卷積層步幅為2, 將數(shù)據(jù)壓縮為原始尺寸的一半, 擴大網(wǎng)絡感知域, 用于提取更加抽象的高級特征, 容忍某些特征的微小位移, 實現(xiàn)尺度不變性, 提高網(wǎng)絡的泛化能力。模塊中每層卷積核大小均為3×3, 使用Same填充, 在每個卷積層后添加Batch Normalization批標準化操作, 加速模型的收斂速度, 同時加入Dropout, 增加生成數(shù)據(jù)的隨機性與多樣化, 使用LeakyReLU 函數(shù)激活。
圖7 生成器模型Fig.7 Generator mode
下采樣結束后, 數(shù)據(jù)將被送入深度特征提取模塊, 結構如圖8所示。 二維數(shù)據(jù)首先進入Flatten層線性映射為一維序列, 然后與可學習的位置編碼相融合, 接著通過3個Transformer Encoder進行深度特征學習。 其中,Transformer Encoder由Multi-Head Attention模塊和MLP模塊交替構成, 每個模塊之前使用層歸一化(Layer Norm)避免梯度消失或爆炸, 每個模塊之后使用Dropout和殘差連接, 加強特征之間的傳遞。
圖8 深度特征提取模塊Fig.8 Depth feature extraction modul
深度特征提取結束后,數(shù)據(jù)最終被送入上采樣模塊, 其結構與下采樣模塊相似, 不同之處在于上采樣模塊的第3層為轉置卷積層, 用于恢復特征圖尺寸。 區(qū)別于二維圖像生成任務, 過載數(shù)據(jù)的生成樣本是一維向量, 因此, 生成器的輸出層為全連接層, 將卷積層輸出的三維數(shù)據(jù)重塑為8 192×1的一維序列, 并使用Tanh函數(shù)激活。 最后, 將尺寸相同的下采樣模塊和上采樣模塊進行跳躍連接, 共享不同層之間學習到的特征信息。
判別器作為鑒別數(shù)據(jù)真假的二分類器, 不像生成器那樣精細, 因此, 使用較為簡單的注意力機制以降低生成對抗式網(wǎng)絡的整體復雜度。 判別器結構如圖9所示, 參考Transformer模型并做了一些簡化, 其中,Attention模塊使用縮放點積注意力。
圖9 判別器模型Fig.9 Discriminator model
式中:Pr為真實過載信號的概率分布;Pg為生成過載信號的概率分布;Π(Pr,Pg)為Pr與Pg聯(lián)合概率分布的集合;γ(x,y)為在Pr中出現(xiàn)x的同時在Pg中出現(xiàn)y的概率。 在這個聯(lián)合分布下可以求得所有x與y距離的期望E, 存在某個聯(lián)合分布使該期望最小, 而這個期望的下確界(infimum)就是真實過載信號與生成過載信號的最優(yōu)Wasserstein距離。 為使神經(jīng)網(wǎng)絡模型可以優(yōu)化迭代到最優(yōu)Wasserstein距離,WGAN-GP 損失采用梯度懲罰方法, 只要梯度的范式大于1就會產(chǎn)生損失,
對于上述懲罰項中的采樣分布P^x,其范圍是真實過載信號概率分布中間的分布。 具體操作為對真實過載信號分布和生成過載信號分布各進行1次采樣, 然后在這2個采樣點的連線處再做1次隨機采樣得到懲罰項Lgp。
本文使用靶場實測侵徹彈穿透2層~14層硬目標的加速度信號作為數(shù)據(jù)集, 單個樣本為8 192×1的序列, 標簽共12個, 分別對應上述的12種層數(shù)。
由于不同工況下不同靶板的過載幅值差別很大, 若直接使用原始數(shù)據(jù)訓練可能導致模型在學習過程中出現(xiàn)不穩(wěn)定、 不收斂等問題, 因此, 本文首先對每個過載數(shù)據(jù)做均衡預處理
本文使用Py Torch平臺進行訓練與測試, 將隨機噪聲輸入生成器, 通過下采樣壓縮維度, 減少過載信號超長序列的計算量。 然后對其進行深度特征提取, 再利用上采樣逐步恢復原始序列長度, 生成侵徹多層過載數(shù)據(jù), 將該生成數(shù)據(jù)與經(jīng)過均衡和歸一化處理的真實過載信號同時輸入判別器, 輸出真假判別。 使用WGAN-GP損失計算Wasserstein距離, 將生成過載信號與真實過載信號的相似程度反饋給生成器, 實現(xiàn)生成器與判別器的相互迭代優(yōu)化。 每次訓練結束后, 調(diào)整模型的超參數(shù), 優(yōu)化算法, 實驗確定最優(yōu)值, 并在此基礎上嘗試不同重復次數(shù)的跳躍連接與卷積核個數(shù),尋找最適合生成侵徹過載數(shù)據(jù)的神經(jīng)網(wǎng)絡。
訓練結束后確定的超參數(shù)如表1所示, 其中G和D前綴分別表示生成器和判別器,initial_learning_rate、decay_steps、decay_rate為指數(shù)衰減學習速率的初始學習速率、 衰減步長和衰減速率。
表1 超參數(shù)設置Tab.1 Hyperparameter setting
過載信號生成結果如圖10所示, 出于保密性考慮, 本節(jié)過載信號的生成效果與4.3驗證分析僅以三層過載信號為例進行展示, 均經(jīng)過歸一化處理, 且不標注具體速度, 而是分為低速、 中速和高速3種描述。
圖10 過載信號生成結果Fig.10 Overload signal generation results
過載信號的本質是減加速度信號, 對過載進行一次積分運算便得到速度變化曲線, 如圖11所示。 通過對比可以看出生成信號與真實信號的速度隨時間變化趨勢一致, 且在細節(jié)處又各有不同,在保證有效性的同時豐富了過載信號的多樣性。
圖11 速度變化曲線Fig.11 Velocity curve
歸一化相關系數(shù)主要用于描述2個波形之間的相似程度, 定義如式(9)所示,
歸一化相關系數(shù)的取值范圍為-1≤ρ≤1,當信號與自身進行相關計算時值為1。對生成信號與真實信號速度曲線的相關性進行定量分析, 結果如表2所示, 可以看到兩者相關系數(shù)均在0.9以上, 呈高度正相關。
表2 生成信號與真實信號速度曲線的相關系數(shù)Tab.2 Correlation coefficientbetween generated signal and real signal velocity curve
過載信號作為隨機振動信號在時域內(nèi)的波形千變?nèi)f化, 但在頻域范圍內(nèi), 其主要頻率組成是相對穩(wěn)定的。 針對時域信號使用快速傅里葉變換(FFT)得到生成信號與真實信號的頻譜圖, 如圖12所示, 通過對比可以看出, 生成信號與真實信號的頻譜波形相似, 優(yōu)勢頻率均分布在0~0.1區(qū)間內(nèi), 符合過載信號的頻域特性。 另外, 侵徹計層算法需要實時處理過載數(shù)據(jù), 而生成信號與真實信號頻點間隔的一致性可以保證生成過載信號在侵徹過程未結束時其特征與真實過載信號的特征一致, 如表3所示(表中數(shù)據(jù)均經(jīng)過歸一化處理), 其中, 頻點間隔為中心頻率與一次諧波的距離。 可以看出生成信號與真實信號的中心頻率偏差范圍僅為±0.001, 一次諧波的偏差范圍為±0.005, 頻點間隔偏差范圍為±0.005。 因此, 生成過載信號無論是用于侵徹計層算法的實時處理還是事后分析都可以保證其有效性。
表3 生成信號與真實信號的主要頻率成分Tab.3 Main frequency components of generated signal and real signal
圖12 生成信號與真實信號的頻譜Fig.12 Spectrum of generated signal and real signal
本文針對侵徹多層過載數(shù)據(jù)量不足的問題,結合InfoGAN模型, 提出基于TransUnet的侵徹多層過載信號生成方法。 對于過載數(shù)據(jù)這種超長序列的特殊屬性, 生成器使用Transformer Encoder和U-Net的融合結構, 使模型具有強大的特征提取和信息共享的能力, 且在過載信號這類小規(guī)模數(shù)據(jù)集中表現(xiàn)優(yōu)異。 判別器使用較為簡單的注意力模型, 以降低整體模型的復雜度。 最后分析驗證了生成過載信號在不同速度與不同層數(shù)的有效性, 可在一定程度上為解決侵徹多層過載信號的缺乏問題提供新的啟示。