葛 宇,杜春暉,李亞杰,張連連
(河北建筑工程學(xué)院 電氣工程學(xué)院,河北 張家口 075000)
隨著各種物聯(lián)網(wǎng)智能設(shè)備、各種傳感器的普及,云計算硬件性價比的提升、運算與運行速度的提升及存儲成本的降低,數(shù)據(jù)存儲、清洗、挖掘及分析等數(shù)據(jù)處理手段的優(yōu)化,特別是分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop 的出現(xiàn),Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)的誕生,MapReduce 的成熟,Spark、Storm、Impala等各種技術(shù)進入人們視野,為海量數(shù)據(jù)存儲、海量數(shù)據(jù)并行計算提供了支撐,新技術(shù)的發(fā)展為大數(shù)據(jù)帶來了曙光[1-4]。
隨著數(shù)據(jù)采集終端設(shè)備各種傳感器的數(shù)量劇增,由多維傳感器產(chǎn)生的數(shù)據(jù)規(guī)模急劇膨脹,包括金融、交通、能源、零售、電信、餐飲等各行業(yè)累積的數(shù)據(jù)量迅速增多,數(shù)據(jù)類型也越來越豐富、復(fù)雜,傳統(tǒng)的數(shù)據(jù)管理系統(tǒng)、數(shù)據(jù)處理模式已無法滿足新業(yè)務(wù)的需求[5-7]。如:來自大量傳感器的多維數(shù)據(jù);來自智能終端拍照、拍視頻多媒體數(shù)據(jù);微博、微信數(shù)據(jù);科學(xué)研究多結(jié)構(gòu)數(shù)據(jù)等,積累了海量數(shù)據(jù)。Twitter 平均每天發(fā)布超過5 000 萬條消息,Google 平均每天需要處理將近30 PB 的數(shù)據(jù),全球網(wǎng)民一天在Facebook 上總共花費234 億分鐘,移動互聯(lián)網(wǎng)要處理的數(shù)據(jù)高達44 PB,全球每秒平均發(fā)送近300 萬封電子郵件,平均每天上傳3 萬個小時的視頻至YouTube,互聯(lián)網(wǎng)每天產(chǎn)生的數(shù)據(jù)總量,足以刻滿6.5 億張DVD[8-9]。
以電子郵件為例,如果一分鐘讀一篇郵件,那么一天產(chǎn)生的郵件足夠一個人晝夜不停地閱覽6 年,由此可見數(shù)據(jù)量之大,前所未有。這些包羅萬象的、海量的數(shù)據(jù),不僅僅數(shù)據(jù)量大,而且種類繁多,既包括結(jié)構(gòu)化的數(shù)據(jù)庫系統(tǒng)數(shù)據(jù),更多的是非結(jié)構(gòu)化的報表、圖片、視頻、圖像及音頻數(shù)據(jù),這些海量數(shù)據(jù)可能是多余的數(shù)據(jù)、割裂的數(shù)據(jù)、片面的數(shù)據(jù),數(shù)據(jù)來源廣、維度多、類型雜。需要進行數(shù)據(jù)融合技術(shù)如數(shù)據(jù)的組合、整合及聚合等方法更全面、客觀地反映客觀事物,以輔助人們正確決策[10-14]。
將多維傳感器產(chǎn)生的數(shù)據(jù)進行數(shù)據(jù)融合,能夠產(chǎn)生比單一信息源更精確、更完全、更可靠的數(shù)據(jù)。數(shù)據(jù)融合分為預(yù)處理和數(shù)據(jù)融合兩步。
1)外部校正,去除外部地形、天氣、氣壓、風(fēng)速等外部噪聲引起的對結(jié)果數(shù)據(jù)的影響,外部校正的目的主要在于去除外部隨機因素對測量數(shù)據(jù)結(jié)果一致性的影響。
2)內(nèi)部校正,去除由于各個傳感器靈敏度、分辨率等自身參數(shù)差異引起的對結(jié)果數(shù)據(jù)的影響,內(nèi)部校正的目的主要在于消除由不同傳感器得到的數(shù)據(jù)差異。
根據(jù)不同的數(shù)據(jù)融合目的及數(shù)據(jù)融合所處層次,選擇恰當(dāng)?shù)臄?shù)據(jù)融合算法,將提取的特征或多維數(shù)據(jù)進行合成,得到比單一傳感器更準確的表示或估計。
數(shù)據(jù)融合一般包括以下6 個步驟:連接多源數(shù)據(jù)庫獲取數(shù)據(jù)、對所獲數(shù)據(jù)進行研究與理解、對數(shù)據(jù)進行清洗和梳理、數(shù)據(jù)轉(zhuǎn)換與建立結(jié)構(gòu)、多維數(shù)據(jù)組合、建立分析數(shù)據(jù)集。數(shù)據(jù)融合的一般步驟如圖1 所示。
根據(jù)數(shù)據(jù)融合前后數(shù)據(jù)的信息含量進行分類,可將數(shù)據(jù)融合分為有損融合和無損融合。無損融合中去除冗余數(shù)據(jù),所有數(shù)據(jù)細節(jié)均被保留。有損融合則通過減少存儲數(shù)據(jù)量、降低數(shù)據(jù)分辨率等方式,壓縮數(shù)據(jù)量減少傳輸量,但前提是融合后的數(shù)據(jù)保留所需的全部信息。
根據(jù)數(shù)據(jù)融合的操作對象級別從高到低分為:決策級融合、特征級融合及數(shù)據(jù)級融合。
圖1 數(shù)據(jù)融合的一般步驟
1)數(shù)據(jù)級融合
操作對象是最前端的數(shù)據(jù),對傳感器采集到的原始數(shù)據(jù)進行處理,是最底層的融合。在圖像目標識別時,該級別的融合是對原始圖像像素進行融合。該融合處理的數(shù)據(jù)量特別大,數(shù)據(jù)處理代價高,處理時間長,實時性及抗干擾性差。由于處理的是傳感器的一手數(shù)據(jù),由于傳感器采集數(shù)據(jù)的不穩(wěn)定性、不確定性,要求該數(shù)據(jù)融合具有一定的糾錯能力。
常用的數(shù)據(jù)級數(shù)據(jù)融合方法有:小波變換法、代數(shù)法、坎斯-托馬斯變換(Kauth-Thomas Transformation,K-T)等。
2)特征級的數(shù)據(jù)融合
特征級數(shù)據(jù)融合面向監(jiān)測對象特征的融合,從傳感器采集到的原始數(shù)據(jù)中提取特征信息,用以反映事物的屬性,以便進行綜合分析和處理,是數(shù)據(jù)融合的中間環(huán)節(jié)。
特征級數(shù)據(jù)融合一般流程為:首先對數(shù)據(jù)進行預(yù)處理,然后對數(shù)據(jù)進行特征提取,再對特征提取后的數(shù)據(jù)進行特征級融合,最后對融合后的數(shù)據(jù)屬性進行說明。特征級數(shù)據(jù)融合的一般流程如圖2 所示。
圖2 特征級數(shù)據(jù)融合的一般步驟
3)決策級數(shù)據(jù)融合
在底層兩級數(shù)據(jù)融合的基礎(chǔ)上,對數(shù)據(jù)進行特征提取、數(shù)據(jù)分類及邏輯運算,為管理者決策提供輔助。所需的決策是最高級的數(shù)據(jù)融合。該級別數(shù)據(jù)融合的特點是容錯性、實時性好,當(dāng)一個或幾個傳感器失效時,仍能做出決策。
決策級數(shù)據(jù)融合一般流程為:對數(shù)據(jù)進行預(yù)處理,然后對數(shù)據(jù)進行特征提取,再對特征進行屬性說明,對屬性進行融合,最后對融合屬性進行說明。決策級數(shù)據(jù)融合的一般流程如圖3 所示。
圖3 決策級數(shù)據(jù)融合的一般步驟
深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)類似,是在觀察數(shù)據(jù)和標簽之間的聯(lián)合分布基礎(chǔ)之上的概率生成模型。網(wǎng)絡(luò)中存在隱含層,隱含層間的神經(jīng)元采用全連接,隱含層內(nèi)的神經(jīng)元之間沒有形成連接。最上面兩層中包括標簽神經(jīng)元,兩層之間為無向連接,稱其為聯(lián)合記憶層。除了聯(lián)合記憶層之外,其余各層為有向連接,自上而下為生成模型,自下而上為判定模型。DBN 是機器學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),模型通過訓(xùn)練得到各個神經(jīng)元之間的權(quán)值,從而讓整個網(wǎng)絡(luò)得到最大概率的訓(xùn)練數(shù)據(jù)。DBN 的使用范圍廣、網(wǎng)絡(luò)擴展性強,是常用的學(xué)習(xí)算法之一,經(jīng)常用于語言識別、圖像識別等領(lǐng)域,可用于監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)。
DBN 結(jié)構(gòu)如圖4 所示。DBN 最上層為聯(lián)合記憶層,下面是隱含層,隱含層下是受限玻爾茲曼機(Restricted Boltzmann Machine,RBM),RBM 是1986 年由斯摩棱斯基發(fā)明的基于數(shù)據(jù)集學(xué)習(xí)概率分布的神經(jīng)網(wǎng)絡(luò)模型。訓(xùn)練DBN 是一層一層進行訓(xùn)練的,在每一層中,采用數(shù)據(jù)向量推斷隱含層,然后再把這一隱含層作為下一層的數(shù)據(jù)向量。訓(xùn)練RBM 的過程,實際上是尋找最佳權(quán)值的過程。
圖4 DBN 結(jié)構(gòu)
DBN 算法訓(xùn)練過程如下,首先訓(xùn)練第一個RBM,固定第一個RBM 的權(quán)重、偏移量,并將其隱形神經(jīng)元的狀態(tài)作為第二個RBM 的輸入。然后訓(xùn)練第二個RBM,并將第二個RBM 與第一個RBM 堆疊。接下來,對其進行多次循環(huán)訓(xùn)練,連同代表標簽的神經(jīng)元一起訓(xùn)練,響應(yīng)的神經(jīng)元打開設(shè)置為1,否則設(shè)置為0。DBN 的訓(xùn)練過程如圖5 所示。
圖5 DBN 訓(xùn)練過程
實驗中采用Matlab Deep Learn Toolbox 對收集的隨機數(shù)據(jù)進行數(shù)據(jù)融合,實驗初始化DBN 參數(shù),并訓(xùn)練DBN 網(wǎng)絡(luò),實驗的主要參數(shù)如表1 所示。程序運行結(jié)果如圖6 所示。
實驗中,隱含層層數(shù)為100 層,節(jié)點數(shù)量為100 個,權(quán)重矩陣為784×100 的矩陣,學(xué)習(xí)速率為2,動量為0.5,樣本數(shù)為100,迭代1 次。通過Matlab Deep Learn Toolbox 得到平均重建誤差為65.779 8。各個時段耗費時間圖如圖7 所示,各個時段耗時參數(shù)表如表2 所示。
表1 實驗主要參數(shù)表
圖6 程序運行結(jié)果
圖7 各時段耗費時間圖
表2 各個時段耗時參數(shù)表
本文在大數(shù)據(jù)背景下,論述了多維傳感器數(shù)據(jù)融合原理及基本步驟,并分析了數(shù)據(jù)融合的分類及常用數(shù)據(jù)融合方法。隨后重點闡述了DBN 算法的結(jié)構(gòu)及訓(xùn)練過程,并通過DBN 算法對隨機采集的多維傳感器數(shù)據(jù)集進行實驗,通過實驗對算法的有效性進行了驗證,對算法進行了評估。