史柏迪 莊曙東 蔡 鳴 江志偉
(1.河海大學(xué)機(jī)電工程學(xué)院 常州 213022)(2.南京航空航天大學(xué)江蘇省精密儀器重點(diǎn)實(shí)驗(yàn)室 南京 210093)(3.梅特勒-托利多測(cè)量技術(shù)有限公司 常州 213022)
在日益增長(zhǎng)的物流需求和人工勞動(dòng)力缺口矛盾面前[1~2],自動(dòng)化動(dòng)態(tài)稱(chēng)重技術(shù)是物流業(yè)發(fā)展的必然之路。動(dòng)態(tài)物流秤對(duì)于物體重量實(shí)時(shí)測(cè)量大多依賴(lài)于壓感式壓力傳感器,作為典型機(jī)電復(fù)合系統(tǒng),傳感器受到多因素干擾,例如秤體傳動(dòng)電機(jī)產(chǎn)生的振動(dòng)干擾[3]、貨物在上秤時(shí)對(duì)壓力傳感器的沖擊[4~5]當(dāng)其與傳感器固有頻率一致時(shí)極易導(dǎo)致共振現(xiàn)象直接導(dǎo)致采樣信號(hào)大量缺失;此外在實(shí)際工程運(yùn)用中因電流與電壓的不穩(wěn)定,更是加劇傳感器電信號(hào)丟失的情況。在當(dāng)前大數(shù)據(jù)模式的發(fā)展[6]之下各行業(yè)均以數(shù)據(jù)的精確性與完整性作為行業(yè)發(fā)展的生命線。
缺失信號(hào)的補(bǔ)償與重構(gòu)一直為當(dāng)前國(guó)內(nèi)外學(xué)者研究的重點(diǎn)?;诮y(tǒng)計(jì)學(xué)原理[7]的加權(quán)法、刪除法、補(bǔ)插法因過(guò)程簡(jiǎn)單,算法時(shí)間與空間復(fù)雜度低,當(dāng)前單片機(jī)、FPGA 等簡(jiǎn)易嵌入式開(kāi)發(fā)設(shè)備中有著廣泛的使用。M. V. Gashnikov[8]在2019 基于決策規(guī)則與樣條插值算法提出一種缺失信號(hào)重構(gòu)算法;Hussain[9]在2020 基于改進(jìn)的EM 算法,對(duì)單邊Lipschitz系統(tǒng)缺失信號(hào)進(jìn)行了精確補(bǔ)償。張麗君[10]在其學(xué)位論文之中,研究了高階插值算法在缺失信號(hào)重構(gòu)之中的可行性,且發(fā)現(xiàn)當(dāng)信號(hào)缺失比例小于25%時(shí),插值與線性回歸算法精度較高?;诰€性回歸原理建立的補(bǔ)償模型基于凸優(yōu)化[11]原則可解得全局參數(shù)最優(yōu)解,模型簡(jiǎn)單可靠。
當(dāng)信號(hào)為多維變量或原信號(hào)缺失比例較大時(shí),線性模型重構(gòu)精度較低。近年隨著機(jī)器學(xué)習(xí)算法的興起,為缺失信號(hào)重構(gòu)提供了更多可行的方案。雖機(jī)器學(xué)習(xí)算法類(lèi)模型求解過(guò)程復(fù)雜,大多數(shù)情況下需要依賴(lài)群體啟發(fā)式算法[12]求解局部最優(yōu)解,但其強(qiáng)大的多元非線性擬合能力,對(duì)高缺失比信號(hào)的重構(gòu)提供了可靠方案。L Kong[13]在2013 年提出一種基于壓縮感知重構(gòu)大量缺失數(shù)據(jù)的新方法。2015 年劉功生[14]在軸承傳感器數(shù)據(jù)缺失的情況下基于隱馬爾可夫模型,獲取狀態(tài)轉(zhuǎn)移概率方程,實(shí)現(xiàn)了對(duì)缺失信號(hào)的補(bǔ)償,與軸承故障的精確判斷。Fenggang Wang[15]在2019提出一種基于稀疏學(xué)習(xí)與自回歸AR 模型的缺失序列重構(gòu)模型;2019 張婷婷[16]基于BP神經(jīng)網(wǎng)絡(luò)算法建立的重構(gòu)模型當(dāng)信號(hào)缺失率高達(dá)60%時(shí)依舊可有效重構(gòu)信號(hào)。
上述機(jī)器學(xué)習(xí)模型本質(zhì)上均為監(jiān)督類(lèi)模型,通過(guò)完備樣本基于特定算法進(jìn)行超參數(shù)更新從而有效學(xué)習(xí)樣本特征降低信號(hào)重建誤差。但上述模型當(dāng)缺失信號(hào)比大于70%,特征過(guò)分殘缺時(shí)重建精度均不大于60%,直接基于現(xiàn)有殘余特征進(jìn)行信號(hào)重構(gòu),模型極易達(dá)到性能上限實(shí)際重構(gòu)精度難以達(dá)到實(shí)際使用需求。本文通過(guò)引入與壓力高度相關(guān)的加速度信號(hào)特征,基于加速度信號(hào)使用GMM 無(wú)監(jiān)督聚類(lèi)尋找相似簇樣本,隨后使用高相關(guān)性樣本進(jìn)行殘缺信號(hào)信號(hào)精確重構(gòu),從增加信號(hào)特征信息的角度來(lái)提高殘缺信號(hào)重構(gòu)精度。本模型分析對(duì)象為某公司的TW155 型動(dòng)態(tài)物流秤,目前廣泛運(yùn)用于各大物流公司的計(jì)重收費(fèi)系統(tǒng),分析對(duì)象具有普遍性。
基于載重(M)、帶速(V)與傳感器采樣頻率(Hz)設(shè)計(jì)了三因素四水平的標(biāo)準(zhǔn)正交試驗(yàn)表1,為后期聚類(lèi)與回歸提供可靠樣本集。
表中,為避免單一測(cè)量結(jié)果的隨機(jī)干擾,各試驗(yàn)序號(hào)下進(jìn)行100次測(cè)試,共計(jì)獲取1600組樣本數(shù)據(jù)。測(cè)試系統(tǒng)由前級(jí)、測(cè)量測(cè)與中間級(jí)三部分組成,貨物上秤觸發(fā)光電傳感器時(shí),壓力與振動(dòng)傳感器開(kāi)始采集數(shù)據(jù),其采樣頻率為[366,720]Hz。因采樣頻率與帶速不同,貨物上秤采樣信號(hào)長(zhǎng)度各因素組合下各不相同,均取離開(kāi)光電信號(hào)前150 個(gè)點(diǎn)作為采樣信號(hào)。傳感器安裝于圖1(b)所示位置。各組樣本其數(shù)據(jù)格式如式(1):
圖1 測(cè)試系統(tǒng)
式中,i為樣本索引(1 ≤i≤1600);a為加速度矩陣向量分別為x、y、z 軸方向,n為壓力傳感器矩陣向量,s為信號(hào)長(zhǎng)度本模型中即為150。
由式(1)可知原始數(shù)據(jù)為[1600×7×144]的高維矩陣,即樣本數(shù)目(n)為1600,特征指標(biāo)為7,指標(biāo)數(shù)目為144。數(shù)據(jù)維度較大,相關(guān)性難以直接進(jìn)行,將各樣本其基于特征取平均值將原始數(shù)據(jù)降維為[1400×7],使用式(2)對(duì)其進(jìn)行標(biāo)準(zhǔn)化處理。
式中,nor 為標(biāo)準(zhǔn)化數(shù)據(jù);i 為樣本索引,j 為指標(biāo)索引。μj為第j 個(gè)特征均值,sj為其標(biāo)準(zhǔn)差?;谑剑?)計(jì)算可得任意兩個(gè)指標(biāo)之間的相關(guān)系數(shù)。
式中,rij為指標(biāo)i 與j 之間的相關(guān)系數(shù),計(jì)算可得其相關(guān)性矩陣表2。
表2 指標(biāo)相關(guān)性矩陣
易知當(dāng)i=j 時(shí),相關(guān)系數(shù)為1;且滿足輪換相等性即rij=rji。三軸加速度與壓力信號(hào)兩兩之間相關(guān)系數(shù)均大于0.8,呈現(xiàn)出高度一致性。
此外將三軸加速度與壓力信號(hào)基于式(4)進(jìn)行合成化處理可得合成加速度a及平均壓力信號(hào)n。
皮爾遜相關(guān)系數(shù)式(5)對(duì)兩個(gè)數(shù)據(jù)的位置以及尺度并不敏感,無(wú)需進(jìn)行歸一與標(biāo)準(zhǔn)化處理。被廣泛運(yùn)用于兩個(gè)信號(hào)之間相關(guān)性檢驗(yàn)。
式中,ai,ni為第i個(gè)采樣點(diǎn)的合成加速度與壓力值;μay 與μn分別為合成加速度a 與平均壓力信號(hào)n 的均值,計(jì)算得其皮爾遜相關(guān)系數(shù)為0.94。
相關(guān)系數(shù)與皮爾遜相關(guān)性檢驗(yàn)表明:在TW155物流秤動(dòng)態(tài)測(cè)量過(guò)程中振動(dòng)與壓力信號(hào)呈現(xiàn)高度相關(guān)性。當(dāng)壓力信號(hào)高度缺失時(shí),可用聚類(lèi)算法基于現(xiàn)有加速度信號(hào)從表1 完備數(shù)據(jù)組中,尋找高度相關(guān)樣本簇,實(shí)現(xiàn)對(duì)壓力信號(hào)實(shí)現(xiàn)精確補(bǔ)償。傳統(tǒng)k-means[17]、LVQ[18]等聚類(lèi)算法基于原型向量來(lái)建立樣本聚類(lèi)結(jié)構(gòu),高斯聚類(lèi)[19]基于高維多元高斯分布式(6)來(lái)對(duì)聚類(lèi)數(shù)據(jù)的原型進(jìn)行表達(dá)。
式中,μ為均值向量矩陣。R 為相關(guān)系數(shù)矩陣其計(jì)算方式與式(3)相同;n 為特征維數(shù)。易知在加速度信號(hào)x 完備的情況下,高斯分布完全由μ、R 參數(shù)決定,將式(6)簡(jiǎn)寫(xiě)為p(x|μ,R),可定義混合分布式(7):
式中,該分布由k 個(gè)混合成分組成,μi、Ri為該混合成分所對(duì)應(yīng)參數(shù);a 為混合系數(shù)。令隨機(jī)變量zj為第j 的樣本xj的高斯混合成分,其參數(shù)μi、Ri基于該迭代輪次t 樣本計(jì)算可得,混合系數(shù)ai的求解則基于貝葉斯定理可得其后驗(yàn)概率分布式(8):
式中,計(jì)算得xj在第i 個(gè)高斯混合分布下的后驗(yàn)貝葉斯概率,為簡(jiǎn)化求解過(guò)程,將其記為γij。在上述條件之下高斯聚類(lèi)將樣本集D 劃分為k 個(gè)簇C={C1,C2,…,Ck},各樣本xj由式(9)確定:
由上述式(6)~(9)可知,高斯混合使用高斯概率分布來(lái)對(duì)模型進(jìn)行劃分,對(duì)于參數(shù)μ、R、a可得其極大似然估計(jì)函數(shù)式(10)。
式(10)采用最大期望算法(EM)進(jìn)行迭代求解可獲得較好精度,在文獻(xiàn)[20]已經(jīng)給出詳細(xì)求解流程,結(jié)合式(6)~(10)得GMM算法流程:
GMM算法流程
Input:sample set D;Gaussian mixture fraction k
Processing:
1.Initialization {(a,μ,R)i|1 ≤i≤k}
2:for t= 1,2,…,T do
3:for j= 1,2,…,m do
5: end for
6:for i= 1,2,…,k do
7: Calculateai,μi,Ribase on EM algorithm
9: end for
10:update {(a,μ,R)i|1 ≤i≤k}
11:end for
12:Ci=?(1 ≤i≤k)
13:for j=1,2,…,m do
15:end for
Output:C={C1,C2,…,Ck}
表中,D 為表1 獲取的加速度樣本集;高斯混合成分?jǐn)?shù)目k 即為聚類(lèi)數(shù)目,m 為樣本數(shù)目;T 為迭代次數(shù);最終輸出為劃分完成的聚類(lèi)樣本C;選用輪廓系數(shù)式(11)作為模型與后續(xù)重構(gòu)聚類(lèi)評(píng)價(jià)指標(biāo)。
式中,a(i)為樣本i 到同簇其他所有樣本的平均距離即為簇內(nèi)不相似度;b(i)為樣本i 到其他簇Cj內(nèi)所有樣本的平均距離即為簇外不想似度;s(i)約接近1 則該樣本聚類(lèi)合理;此外定義S 為所有樣本的平均輪廓系數(shù),用來(lái)度量模型整體性能。
經(jīng)過(guò)枚舉k 發(fā)現(xiàn)當(dāng)其取值為15 時(shí),輪廓系數(shù)S在區(qū)間[0,1]達(dá)到極大值為0.8476,圖2為對(duì)表1中完備樣本劃分為15類(lèi)時(shí)基樣本聚類(lèi)結(jié)果圖。
圖2 聚類(lèi)效果(k=15)
圖中,x,y,z 三軸加速度為防止因數(shù)值波動(dòng)造成聚類(lèi)誤差表1中各類(lèi)樣本均進(jìn)行了歸一化處理。
當(dāng)壓力信號(hào)n 出現(xiàn)缺失時(shí),使用加速度信號(hào)a輸入上述GMM 模型即可找到其相似樣本完備簇C,通過(guò)提取其壓力樣本特征來(lái)重構(gòu)殘缺信號(hào)。
GMM 模型中完備樣本數(shù)目為1600,神經(jīng)網(wǎng)絡(luò)模型雖擬合性能良好,但當(dāng)樣本容量較小時(shí),即使引入正則化依舊限極易產(chǎn)生過(guò)擬合現(xiàn)象,造成重構(gòu)精度較差。支持向量機(jī)通過(guò)核方法將低維不可分?jǐn)?shù)據(jù)映射至高維空間,此外基于交叉驗(yàn)證原則求解決策邊界在小樣本容量下?lián)碛袠O強(qiáng)的魯棒性與泛化性。SVM 模型中核函數(shù)k(xi,yi);正則化系數(shù)C,相關(guān)系數(shù)co(poly 與sigmoid 核函數(shù)時(shí)生效),多項(xiàng)式最大項(xiàng)次n;軟間隔系數(shù)to1;作為超參數(shù)其初始值設(shè)置直接影響模型后續(xù)精度。
SVM模型超參數(shù)的確認(rèn),作為浮點(diǎn)數(shù)與整數(shù)混合規(guī)劃問(wèn)題,無(wú)法基于凸優(yōu)化原則獲得最優(yōu)解。使用GA 算法尋找局部最優(yōu)解。核函數(shù)k(xi,yi)采用排列編碼進(jìn)行選擇其對(duì)應(yīng)關(guān)系表3;C 搜索區(qū)間為[0,1],co 搜索區(qū)間為[0,10],tol 設(shè)置為[10-3,10-1],上述浮點(diǎn)數(shù)均采用格雷編碼。最大項(xiàng)次,使用整數(shù)編碼。
表3 核函數(shù)對(duì)應(yīng)表
表中,高斯核中σ?guī)捜?,多項(xiàng)式與Sigmoid核中d與β為上述超參數(shù)n,該參數(shù)在其他內(nèi)核函數(shù)中為無(wú)效參數(shù)。設(shè)置種群數(shù)目N 為50,進(jìn)化次數(shù)T為100;特征維度D為5,交叉閾值CR為0.1。
本GA-SVM 模型的SVM 模塊使用sklearn 工具箱進(jìn)行搭建,GA模塊基于如下步驟進(jìn)行:
1)尋找簇樣本?;诖貥?gòu)信號(hào)的加速度a,使用GMM 算法尋找其壓力信號(hào)所屬簇C,并將其改寫(xiě)為待重構(gòu)的n 記為輸入特征X,原始完備樣本簇中壓力信號(hào)Y作為輸出。
2)初始化參數(shù)。種群NP 由N 個(gè)二進(jìn)制編碼的個(gè)體pop={k,C,co,tol,n}組成。
3)迭代準(zhǔn)備?;诜N群NP,使用sklearn 建立對(duì)應(yīng)SVM 模型,并計(jì)算種群初始適應(yīng)度y,對(duì)最優(yōu)適應(yīng)度個(gè)體pb進(jìn)行記錄。
4)遺傳進(jìn)化。對(duì)種群NP基于精英策略進(jìn)行選擇(賭盤(pán)法)、交叉、變異式(11),同時(shí)將滿足精度的個(gè)體加入下輪循環(huán),不滿足精度的個(gè)體進(jìn)行剔除。
5)迭代終止。當(dāng)?shù)螖?shù)達(dá)到上限T 時(shí),輸出NP中最優(yōu)個(gè)體,并基于此參數(shù)建立SVM模型。
6)模型訓(xùn)練。基于五折交叉驗(yàn)證原則使用樣本使用樣本(X,Y)對(duì)SVM模型進(jìn)行訓(xùn)練。
7)信號(hào)重構(gòu)。使用殘缺壓力信號(hào)a 輸入SVM模型,對(duì)殘缺信號(hào)進(jìn)行重構(gòu)輸出。
選用平均均方誤差作為性能評(píng)價(jià)指標(biāo),圖3 為缺失比例為0.6時(shí)的GA尋優(yōu)誤差波動(dòng)。
圖3 GA參數(shù)尋優(yōu)
圖中,當(dāng)?shù)螖?shù)達(dá)到40 時(shí),模型已經(jīng)收斂。對(duì)100次的最優(yōu)參數(shù)pb按字典形式進(jìn)行導(dǎo)出:
式中,當(dāng)缺失比例為0.6 時(shí),查表3 選用rbf 高斯內(nèi)核,相關(guān)系數(shù)co,最大項(xiàng)次n 均為無(wú)用系數(shù)。選用0.1 為分位點(diǎn),當(dāng)缺失比例為0.7、0.8 與0.9 時(shí),可得類(lèi)似誤差曲線。SVM 模型超參數(shù)確認(rèn)后使用SMO算法訓(xùn)練,在5 折交叉驗(yàn)證原則下訓(xùn)練誤差收斂或驗(yàn)證集誤差發(fā)散時(shí)迭代終止。
測(cè)試集樣本使用三級(jí)傳動(dòng)系統(tǒng)圖1 產(chǎn)生,對(duì)圓盤(pán)狀43.137kg 貨物在帶速90(m/min),采樣頻率400(Hz)下進(jìn)行100 次壓力信號(hào)測(cè)定,后使用random 函數(shù)對(duì)采樣的150 個(gè)數(shù)據(jù)點(diǎn)隨機(jī)依次剔除60%、70%、80%、90%壓力信號(hào)數(shù)據(jù)點(diǎn)。使用未經(jīng)聚類(lèi)的GA-SVM、GA-BP 進(jìn)行性能對(duì),測(cè)試計(jì)算機(jī)配置為 CPU:i7-9750H、RAM:16GB、GPU:GTX1660Ti。選用運(yùn)算時(shí)間(s)、平均絕對(duì)誤差式(13)、最大誤差項(xiàng)式(14)及校正決定系數(shù)式(15)評(píng)價(jià)信號(hào)重構(gòu)修復(fù)后與原信號(hào)的相似度。
式(13)~(15)中,n 為樣本數(shù)目,i 為其索引;k 為一個(gè)樣本所包含的信號(hào)點(diǎn)數(shù),j 為信號(hào)點(diǎn)索引;f 為模型的重構(gòu)輸出y 為壓力傳感器真實(shí)觀測(cè)量;調(diào)整絕對(duì)系數(shù)通過(guò)加權(quán)考慮輸入特征數(shù)p,有效避免決定系數(shù)R2對(duì)樣本數(shù)目n的波動(dòng)敏感的問(wèn)題。表4為各模型的性能度量。
表4 模型性能測(cè)試
表中,GA-BP 為雙隱層結(jié)構(gòu),神經(jīng)元數(shù)目依次為150、60,使用Adam 優(yōu)化器進(jìn)行訓(xùn)練;經(jīng)過(guò)樣本聚類(lèi)處理的GA-SVM 相對(duì)GA-SVM、GA-BP 模型平均絕對(duì)誤差與最大誤差顯著降低,且調(diào)整絕對(duì)系數(shù)最大有著最好的擬合精度。GA-BP模型基于pytorch 框架搭建,使用了cuda 進(jìn)行GPU 并行加速運(yùn)算,時(shí)間復(fù)雜度最低。但因受限于樣本數(shù)目,信號(hào)重構(gòu)修復(fù)精度并不理想。當(dāng)信號(hào)缺失率低于80%時(shí),對(duì)原測(cè)試集信號(hào)平均解釋度為0.956,誤差可控于5%。圖4 為當(dāng)缺失比例為90%時(shí),各模型實(shí)際重構(gòu)修復(fù)效果。
圖4 信號(hào)重構(gòu)效果
圖中,可知當(dāng)信號(hào)缺失率為90%時(shí)通過(guò)引入高度相關(guān)的振動(dòng)加速度信號(hào)各模型均可還原原始信號(hào)基本走向趨勢(shì)。結(jié)合表4,GMM-GA-SVM 模型尋找高相關(guān)樣本聚類(lèi)后建模,相對(duì)使用樣本集直接建??梢垣@得更好的擬合精度。
1)當(dāng)信號(hào)缺失率高于60%時(shí),因特征高度缺失擬合回歸算法直接重構(gòu)信號(hào)誤差較大,可基于皮爾遜相關(guān)性檢測(cè)尋找與原始信號(hào)高度相關(guān)的信號(hào)源,使用特征工程提高信號(hào)重構(gòu)精度。
2)模型重構(gòu)精度不僅受限于算法、樣本容量,還與樣本相關(guān)性直接相關(guān)。直接使用大量訓(xùn)練集樣本訓(xùn)練模型雖可提高模型的泛化性能力,但相對(duì)于特定待修復(fù)信號(hào)直接引入泛化性誤差。本文中基于GMM算法聚類(lèi)選擇高度相關(guān)樣本作為樣本集對(duì)特定樣本重構(gòu)精度提升顯著。
3)GA-BP模型因pytorch框架引入GPU并行運(yùn)算cuda 接口,時(shí)間復(fù)雜度顯著降低。希望后續(xù)算法工具箱可大量普及,對(duì)提高運(yùn)算效率意義重大。