國電電力寧夏新能源開發(fā)有限公司 郝益波
在日益數(shù)字化、智能化的時代,語音虛擬機器人在許多領域都可找到自己的位置。并且隨著電力智能化行業(yè)的發(fā)展,語音虛擬機器人也被應用于智能控制方面,但是與任何具有重大影響的可行性技術變革一樣,語音智控也會迫在眉睫的受到來自外界的惡意指令影響。尤其是在自動語音識別(ASR)方向,黑客可利用外部代理設備發(fā)送隱藏的語音指令或是信號來干涉語音虛擬機器人的正常運行。
為了對抗和攔截這種惡意的信號指令,本文將惡意信號噪聲添加到原始聲音樣本中,并利用改進的深度殘差收縮網(wǎng)絡(Deep Residual Shrinkage Networks,DRSN)結合連結主義時間分類CTC (Connectionist Temporal Classification)對惡意指令進行實時檢測,為滿足實時性的需求本文引入了剪枝優(yōu)化方案,目的是為了減少網(wǎng)絡節(jié)點和硬件資源的消耗,同時也要兼顧保證準確率性能指標的波動在可接受的范圍之內。
隨著“雙碳計劃”進行的如火如荼,各大新能源發(fā)電企業(yè)及運營企業(yè)在新能源集控系統(tǒng)領域深耕多年,新能源集控系統(tǒng)已取得了長足發(fā)展。集控系統(tǒng)的講解多年來一直以人工講解為主,風機遠程控制也是以值長的密碼、指紋等方式進行,系統(tǒng)的控制及交互還在以傳統(tǒng)方式實現(xiàn)。為克服現(xiàn)有技術中關于新能源集控系統(tǒng)講解方式落后、交互方式及控制方式效率低的缺陷,達到對集控系統(tǒng)智能安全交互與智能控制的效果。在語音控制[1]的過程需兼顧防止惡意指令的侵入,電力控制的安全不能出現(xiàn)紕漏,因此在智控過程中需時刻監(jiān)控聲源信號的輸入以確??刂七^程中的安全。
語音識別系統(tǒng)的攻擊在電力領域是較致命的。一些研究人員在惡意語音信號生成方面做了一些研究,可被借鑒于智慧電力的語音智控方面。Carlini等人(2016年)率先解決語音界面的安全問題,并引入了所謂的隱藏語音命令[2],證明了針對原始ASR系統(tǒng)的攻擊,僅基于隱馬爾可夫模型(HMM)是可行的。他們使用反向特征提取來創(chuàng)建模糊的對抗性惡意樣本[3],這些樣本聽起來像是隱藏在噪聲中高度失真的語音,人類很難理解。
深度殘差收縮網(wǎng)絡是基于深度殘差網(wǎng)絡的一種改進版本,在深度殘差網(wǎng)絡的基礎上該算法引入了軟閾值化的子網(wǎng)絡,主要思想是在算法特征學習的過程中自動剔除多余的噪音數(shù)據(jù),其算法原理如下:殘差模塊是構成深度殘差網(wǎng)絡的基本單元,其中還有兩個標準化機制,作用是在模型訓練過程中加快網(wǎng)絡的收斂速率、改善梯度彌散和提高網(wǎng)絡的泛化能力等。深度殘差收縮網(wǎng)絡面向的是帶有噪音信號的數(shù)據(jù),可將噪聲數(shù)據(jù)理解為惡意對抗聲音信號,這里所降低的就是與原始聲音無關的噪聲數(shù)據(jù)。
軟閾值化。深度殘差網(wǎng)絡具備降噪功能的核心理念就是引入軟閾值化,作用是將輸入的數(shù)據(jù)朝零的方向開始壓縮,該算法思想被廣泛應用于信號降噪過程中。深度殘差收縮在模型的訓練過程中反向傳播,不僅可在卷積層間逐級反饋,也可在恒等映射層進行反向傳播,更方便地訓練出更優(yōu)質的模型。
修剪神經(jīng)網(wǎng)絡的意義在于不降低其性能的情況下去除權重。本文所使用的網(wǎng)絡模型是深度收縮殘差網(wǎng)絡,為使網(wǎng)絡模型更適用于電力生產(chǎn)過程中的及時性需求。大多數(shù)情況下剪枝操作都會或多或少的對模型的準確率性能有所影響,這需后期的經(jīng)驗對模型進行微調,剪枝策略和閾值設置對剪枝效果也有一定的影響。
自動語音識別一般可看作一個序列到另一個序列的問題:系統(tǒng)必須學習如何從語音中提取聲學特征X作為輸入序列、從而生成單詞Y的輸出序列,這個過程也被稱為轉錄[4]。ASR模型本質上是概率性的,旨在計算后驗分布p(Y|X),等價于在給定語音特征序列X的前提下求最可能得到的序列Y。相反端到端ASR旨在將這種基于模塊的方法簡化為深度學習框架內的單一網(wǎng)絡架構,在端到端模型中多個模塊合并在一個深度網(wǎng)絡中聯(lián)合訓練,該網(wǎng)絡實現(xiàn)了聲信號到輸出標簽序列的實際映射。
CTC是一種避免輸入和輸出序列之間的對齊方法,因此它是無對齊的。本質上它利用馬爾可夫猜想通過動態(tài)規(guī)劃有效地解決了順序問題,通過計算不同的路徑來計算所有可能的硬對齊,然后通過聚集硬對齊來實現(xiàn)軟對齊,當枚舉硬對齊時CTC假設輸出標簽是相互獨立的。
2.2.1 利用殘差收縮網(wǎng)絡模型進行檢測
將語音樣本轉化為聲紋特征圖譜,聲紋特征圖譜是由聲音的強度、波長等信息組成的,具有唯一性可測量性等特征。本文將含1萬份惡意指令的音頻和1萬份正常音頻轉化聲紋特征圖譜,再將其輸入到已經(jīng)構建好的深度殘差收縮網(wǎng)絡中進行訓練,得到經(jīng)過剪枝后的訓練模型。與利用殘差網(wǎng)絡訓練的模型相比,該模型所用的數(shù)據(jù)是成對存在的,分別是訓練的時序數(shù)據(jù)和標簽數(shù)據(jù),目的就是找到一個時序分類器將樣本進行分類。CTC的放置位置在雙向遞歸網(wǎng)絡的后面作為序列預測的損失來源,CTC會在學習過程中選擇一條好的路徑。
2.2.2 實驗過程及結果
本實驗利用改進的殘差網(wǎng)絡收縮算法,選取參雜惡意信號音頻和正常音頻進行預訓練,在訓練過程中采取學習率衰減的辦法來進行訓練,再進行稀疏訓練。在后續(xù)訓練過程中需不斷調整壓縮率和學習率,實現(xiàn)模型壓縮效率和模型性能指標間的平衡。稀疏訓練結束后就是剪枝操作,對數(shù)據(jù)通道進行剪枝,本文利用剪枝腳本進行剪枝的實驗,該腳本融合了通道剪枝的策略減去了65%的通道,模型由之前的262.2M壓縮到91.77M,模型性能由原來的0.94降低到0.92,降低幅度在可接受范圍內。
本文在深度收縮殘差網(wǎng)絡中引入CTC子網(wǎng)絡,并在該基礎上做出量相關的改進,從而提高了模型的性能,另外還對訓練好的模型進行剪枝相關操作以滿足電力智控行業(yè)的實時性要求。實驗表明該方法在電力智控行業(yè)防范惡意語音侵入方面有一定效果:選取深度殘差收縮網(wǎng)絡作為語音輸入識別主體算法的原因,是為利用該算法的注意力機制摒棄語音輸入過程中的噪聲,提高語音數(shù)據(jù)的質量;為適應電力行業(yè)對智控的實時性,提出利用剪枝優(yōu)化的方法對模型進行通道剪枝以縮小模型的體積。模型體積減小的優(yōu)勢不僅在于響應更為及時,也可遷移到移動設備端進行檢測。
無論在電力智能語控還是其他方面,都需做到對入侵信息動態(tài)監(jiān)視,基于策略的攔截在面對大量紛繁數(shù)據(jù)時會顯得力不從心,因此保護系統(tǒng)不被侵入在電力系統(tǒng)的安全運行中意義重大。作為新一代信息技術高度集成和綜合應用,人工智能既符合互聯(lián)網(wǎng)技術的發(fā)展潮流,又滿足當下的實用需求。