摘要: 針對多源異構型數據來源復雜、 結構特殊, 導致其融合難度較大的問題, 為提升數據融合效率與準確性, 提出一種基于模糊數學的多源異構數據融合模型. 首先, 利
用聯邦加權平均融合策略, 整合從各傳感器傳輸至數據級融合層中的元數據, 得到數據級融合結果; 其次, 結合主成分分析法與典型相關分析法, 提取出由網絡本體語言統(tǒng)一后數據的特征
, 完成特征級數據融合; 再次, 根據模糊數學理論建立、 更新模糊規(guī)則庫, 通過決策融合算法, 得到決策級融合結果; 最后, 將上述不同層級的數據融合結果結合建立數據融合模型, 得到最
終的數據融合結果. 實驗結果表明, 該方法的最大協方差值和絕對誤差值不超過0.15, 最短融合時間僅為12.6 ms. 該方法的融合精度和穩(wěn)定性較好, 時效性與抗擾性均具有顯著的優(yōu)越性.
關鍵詞: 模糊數學; 典型相關分析法; 模糊規(guī)則; 多源異構數據; 數據融合
中圖分類號: TP391" 文獻標志碼: A" 文章編號: 1671-5489(2024)03-0691-06
Multi\|source Heterogeneous Data Fusion ModelBased on Fuzzy Mathematics
LI Xin1,2, LIANG Yongling2
(1. Shenyang Institute of Computing Technology, University of Chinese Academy of Sciences, Shenyang 110168, China;
2. Criminal Investigation Police University of China, Shenyang 110854, China)
收稿日期: 2023-05-15.
第一作者簡介: 李" 鑫(1985—), 男, 漢族, 碩士, 講師, 從事大數據挖掘、 計算機應用和公安情報分析的研究, E-mail: xjxylx@126.com.
基金項目: 國家重點研發(fā)計劃“公共安全風險防控與應急技術裝備”專項基金(批準號: 21405).
Abstract: Aiming at the problem that"" multi-source heterogeneous data had the complex sources and unique structure, resulting in a greater difficulty
in its fusion. In order to improve the efficiency and accuracy of data fusion, we proposed a multi-source heterogeneous data fusion model based on fuzzy mathematics. Firstly, by utilizing a federated weighted
average fusion strategy, the metadata transmitted from various sensors to the data level fusion layer was integrated to obtain the data level fusion results. Secondly, combined with the principal component analysis
method and canonical correlation analysis method, the features of data unified by Web Ontology Language were extracted to complete the" feature level data fusion. Thirdly, a fuzzy rule library
established and updated based on fuzzy mathematics theory was used to obtain decision level fusion results through decision fusion algorithms. Finally, we combined the data fusion results of
above different levels to establish a data fusion model, and obtained the final data fusion result. The experimental results show that the maximum covariance value and absolute error value of
the proposed method do not exceed 0.15, and the shortest fusion time is only 12.6 ms. The fusion accuracy and stability of this method
are good, and both timeliness and anti-interference have significant advantages.
Keywords: fuzzy mathematics; typical correlation analysis method; fuzzy rule; multi\|source heterogeneous data; data fusion
隨著互聯網信息技術與云計算技術的不斷升級換代, 使目前社會已全面進入大數據時代[1]. 在傳感技術與物聯網的共同催化下, 數據感知技術已打破了以往的界限, 改變著人們的
生活方式、 行業(yè)的運作模式及科研的探討方向[2]. 隨著感知數據規(guī)模越來越大, 格式、 內容、 關系逐漸呈現出多樣化的發(fā)展趨勢, 增長動態(tài)化、 分布范圍廣、 來源差異明
顯、 結構不等價等特征愈加顯著[3-5]. 在數據處理的不同階段中, 以感知數據為支撐的融合操作尤為關鍵. 該處理過
程不僅是數據質量與決策制定的有效保證, 也是完成數據分析與挖掘的前提. 數據融合技術能賦予數據更高的應用價值, 是信息社會發(fā)展方向的決定性因素.
作為數據處理方向的研究熱點, 數據融合方法受到廣泛關注. 如夏偉等[6]面向電力行業(yè), 采用最小二乘法、 Lagrange插值法、 聯合Kalman濾波法
, 融合了配電網中的多源異構數據; 張巧靈等[7]和莫慧凌等[8]以互聯網絡為研究對象, 分別采用混合型神經網絡與Tucker分解理論設計了數據融合算法.
多源異構型數據因其來源復雜、 結構特殊, 需要綜合性更強、 魯棒性更高的融合技術. 模糊數學是解決模糊性問題的主流方法. 因此, 將模糊數學作為理論基礎, 可應對
存在模糊現象的多源異構數據融合應用場景. 基于模糊數學理論建立模糊規(guī)則庫, 抽象且準確地描述
出多源異構數據間特殊的邏輯規(guī)則, 可減緩數據來源、 結構等沖突. 利用主成分分析法提取數據特征, 降低特征維度, 可使數據在保留有用信息的同時, 仍具有強關聯性.
1" 多源異構數據融合
多源異構數據具有數據來源差異明顯、 結構不等價等特征. 為使數據間的連通與反饋更優(yōu), 更好地補償模糊信息導致的魯棒性能衰減, 可通過數據級融合、 特征級融合和決策級融合
方法, 利用不同的融合層次, 從多角度全方位地完成多源異構數據的融合[9-11]. 圖1為多源異構數據融合流程.
由圖1可見, 帶有傳感器物理特性的元數據傳輸至數據級融合層后, 憑借聯邦加權平均融合策略的自適應搜尋能力, 找到不同傳感器的最佳加權值. 通過最小化多源異構數據
的總均方誤差值, 取得最好的數據級融合效果.
采用網絡本體語言(ontology wed language, OWL)的知識表示方法[12], 統(tǒng)一、 規(guī)范化地描述完成數據級融合后的結構化數據文件, 以便于建立數據間的強
關聯性. 根據主成分分析法提取的數據屬性特征, 利用基于典型相關分析法的融合策略, 完成特征級融合層的融合操作.
將特征級融合層的融合結果作為決策級融合層的輸入, 基于模糊數學理論建立模糊規(guī)則庫, 抽象且準確地描述多源異構數據間特殊的邏輯規(guī)則, 緩解數據來源、 結構等沖突, 避免發(fā)
生異常現象. 為確保模糊規(guī)則可用且非過擬合, 利用支持度與置信度指標進行評估, 更新模糊規(guī)則庫. 通過提出的決策融合算法, 獲取融合結果.
1.1" 數據級融合
首先, 基于改進的聯邦加權平均算法[13], 建立數據級融合策略. 假設傳感器數量為n, 采集到的元數據集合為{x1,x2,…,xn}, 各數
據的對應權重集合為{ω1,ω2,…,ωn}. 若X是數據集{x1,x2,…,xn}的無偏估計值, 則傳感器元數據的總均方誤差為
ΔS2=∑ni=1, j=1, i≠j[ωi(X-xi)2-ωj(X-xj)2],(1)
其中ωi,ωj為元數據xi,xj的對應權重.
其次, 通過多元函數極值求解法, 獲取各傳感器的最佳加權因子:
ω′i=ωi(X-xi)2-ωj(X-xj)2ΔS2.(2)
最后, 結合第i個傳感器的歷史數據均值x′i及最小化均方誤差ΔS2min=min ΔS2, 得到數據融合結果:
=∑ni=1ω′i(xi+x′i)ΔS2min.(3)
1.2" 特征級融合
利用主成分分析法提取數據特征, 降低特征維度, 使數據在保留有用信息的同時, 仍具有強關聯性. 基于方差最大化準則, 利用主成分分析法, 線性組合由數據p維特征
向量所組成的特征矩陣(y1,y2,…,yp), 取得數據初始特征的p個主成分:
fp=∑pk=1akpyp," k∈p,(4)
其中akp是特征矩陣的系數, 各系數的平方和值為1.
針對提取出的數據特征(即p個主成分), 以典型相關分析法為基礎, 設計出特征級數據融合策略. 假設數據第k個和第l個主成分yk,yl
在空間中的投影分別是y′k,y′l(即典型相關變量), 對應的向量為
α,β, 則投影與向量滿足下列關系:
y′k=αfpyk,
y′l=βfpyl," k,l∈p.(5)
通過典型相關分析, 令特征投影y′k與y′l間擁有最強的關聯
性, 以此得到主成分yk,yl的全部典型相關特征. 若兩成分的典型特征分量為d
yk和dyl, 則通過下列融合策略的數學表達式即可完成數據的特征級融合, 得到融合結果:
=dykykdylyl.(6)
1.3" 決策級融合
基于模糊數學理論, 找到融合特征中決策代表性最強的部分, 生成模糊規(guī)則, 定義多源異構數據的權限區(qū)域, 并指定有效的決策者[14]. 模糊規(guī)則的生
成條件是: 如果強代表性的決策部分A中有數據特征向量, 則該部分中決策者D做出正確決策的概率為AD. 概率計算公式為
AD=P(CD)∑nM=1PADM,(7)
其中P(CD)表示決策者D正確標記C類規(guī)則的次數, PADM表示M位決策者在決策部分A中給出正確決策的次數.
利用支持度和置信度評估在部分區(qū)域內是否存在大規(guī)模數據和高概率數據, 保證規(guī)則的可用性, 避免過擬合現象. 根據評估結果刪除多余的不可用規(guī)則, 更新模糊規(guī)則庫[15\|16]. 將向量
φ賦予對應規(guī)則的數據源, 則規(guī)則庫中的第h條規(guī)則為φPMh. 由此推導出該規(guī)則對應數據源權值的計算公式為
wCh=ADφPMh.(8)
令規(guī)則庫權重均值為各類別權值, 則擁有最高權值的類即得到最終決策信息. 決策級融合結果為
=∑nh=1(wCh-w)wCh-wgt;0,(9)
其中w表示規(guī)則庫權重均值, wCh表示第h條規(guī)則所屬類別Ch的權重.
最后將多源異構數據的數據級、 特征級和決策級融合結果進行整合, 建立數據融合模型[17\|19], 得到最終的多源異構數據融合結果為
U=∑ni,j=1(++)ij.(10)
2" 實驗與結果分析
2.1" 實驗數據
利用Python仿真軟件和隨機數發(fā)生器, 得到9組含有3個隨機數的數組, 用作多個傳感器的模擬采集數據. 將3組數據分別作為溫度傳感器、 壓力傳感器、 液體流量傳感器的
監(jiān)測數據, 得到3個傳感器的多源異構數據集合, 作為實驗所需數據集. 數據集信息列于表1. 為驗證模型的可行性和優(yōu)越性, 分別采用基于聯合Kalman濾波、 基于時間序列
、 基于聯邦學習3種數據融合方法與本文方法進行對比.
2.2" 數據融合準確度
采用協方差值檢驗數據融合準確度, 不同數據融合方法的數據融合準確度測試結果如圖2所示.
由圖2可見, 基于聯合Kalman濾波、 基于時間序列、 基于聯邦學習3種數據融合方法的融合協方差最大值分別是0.69,0.80,0.67, 而本文方法的協方差最大
值不超過0.15. 且3種對比方法的波動幅度較大, 其中最不穩(wěn)定的是聯合Kalman濾波融合法, 而本文方法的變化幅度較小. 實驗結果表明, 本文方法在融合精度和穩(wěn)定性方面性能良好.
2.3" 數據融合效率
不同方法的數據融合效率對比結果如圖3所示. 由圖3可見, 前4次采樣結束時, 4種融合方法的處理時長偏差較小, 之后差距逐漸明顯.
在9次采樣中, 基于聯合Kalman濾波、 基于時間序列、 基于聯邦學習3種數據融合方法的平均融合時間分別是33.14,33.62,36.08 ms, 且隨著數據規(guī)模、
冗余數據量及沖突的增加, 融合時間越來越長. 而本文方法極大縮短了多源異構數據的融合處理時間, 具有較優(yōu)的融合速度. 最長融合時間僅為20.04 ms, 最短融合時
間僅為12.6 ms, 表明其數據融合效率較高.
2.4" 數據融合抗擾性
在實際使用中, 傳感器會出現失效問題, 因此, 在壓力傳感器的實驗數據中添加固定的偏置量, 通過絕對誤差對數據融合效果進行評價, 側面檢驗各種融合方法對失效情況的抗
干擾能力, 結果如圖4所示. 由圖4可見, 本文方法每次采樣數據融合后的絕對誤差數值均低于對比方法. 因為該方
法基于模糊數學理論建立模糊規(guī)則庫, 準確地描述了多源異構數據間特殊的邏輯規(guī)則, 即使傳感器失效, 仍能高質量地完成數據融合.
綜上所述, 針對海量多源異構數據的融合處理難題, 本文將模糊數學理論應用于多源異構數據融合處理中. 實驗結果表明: 該方法的協方差最大值不超過0.15, 說明其數據融合
精度較高; 最長融合時間僅為20.04 ms, 最短融合時間僅為12.6 ms, 說明數據融合效率較高. 實驗結果驗證了本文方法的實際應用效果, 說明其具有可行性.
參考文獻
[1]" 宋濤, 李秀華, 李輝, 等. 大數據時代下車聯網安全加密認證技術研究綜述 [J]. 計算機科學, 2022, 49(4): 340-353.
(SONG T, LI X H, LI H, et al. Overview of Research on Security Encryption Authentication Technology of IoV in Big Data Era [J]. Computer Science, 2022, 49(4): 340-353.)
[2]" 陳廣, 宋志偉, 陳少兵, 等. 數據感知技術在電力物資供應鏈數據質量管理中的應用 [J]. 科技管理研究, 2021, 41(18): 182-191. (CHEN G, SONG Z
W, CHEN S B, et al. Application of Data Perception Technology in Data Quality Management of Power Material Supply Chain [J].
Science and Technology Management Research, 2021, 41(18): 182-191.)
[3]" 曾麗, 曾玉林. 基于節(jié)點信譽度的傳感器數據安全融合方法 [J]. 計算機仿真, 2021, 38(7): 290-293. (ZENG L, ZENG Y L. Sensor Data
Security Fusion Method Based on Node Reputation [J]. Computer Simulation, 2021, 38(7): 290-293.)
[4]" 許小媛, 李海波, 黃黎. 云存儲多異構文件聯合延遲尾概率凸優(yōu)化分析 [J]. 計算機工程與應用, 2021, 57(5): 88-94. (
XU X Y, LI H B, HUANG L. Convex Optimization Analysis of Joint Delay Tail Probability of Multi-heterogeneous Files in Cloud Storage [J]. Computer Engineering and Applications, 2021, 57(5): 88-94.)
[5]" 孟嘉, 厲文婕, 于廣榮, 等. 面向效用最大化的數據中心動態(tài)資源分配 [J]. 計算機應用研究, 2021, 38(6): 1728-1733. (
MENG J, LI W J, YU G R, et al. Maximizing Utilities in Data Center with Dynamic Resource Allocation [J]. Application Research of Computers, 2021, 38(6): 1728-1733.)
[6]" 夏偉, 蔡文婷, 劉陽, 等. 基于聯合Kalman濾波的配電網多源異構數據融合 [J]. 電力系統(tǒng)保護與控制, 2022, 50(10): 180-187. (
XIA W, CAI W T, LIU Y, et al. Multi-source Heterogeneous Data Fu
sion of a Distribution Network Based on a Joint Kalman Filter [J]. Power System Protection and Control, 2022, 50(10): 180-187.)
[7]" 張巧靈, 高淑萍, 何迪, 等. 基于時間序列的混合神經網絡數據融合算法 [J]. 應用數學和力學, 2021, 42(1): 82-91. (
ZHANG Q L, GAO S P, HE D, et al. A Hybrid Neural Network Data Fusion Algorithm Based on Time Series [J]. Applied Mathematics and Mechanics, 2021, 42(1): 82-91.)
[8]" 莫慧凌, 鄭海峰, 高敏, 等. 基于聯邦學習的多源異構數據融合算法 [J]. 計算機研究與發(fā)展, 2022, 59(2): 478-487. (
MO H L, ZHENG H F, GAO M, et al. Multi-source Heterogeneous Data Fusion Based on Federated Learning [J]. Journal of Computer Research and Dev
elopment, 2022, 59(2): 478-487.)
[9]" HAN Y, BAO W X, ZHANG X W, et al. Hyperspectral and Mult
ispectral Data Fusion via Nonlocal Low-Rank Learning [J]. Journal of Applied Remote Sensing, 2022, 16(1): 016508-1-016508-18.
[10]" LIU Y, ZHANG Y. A Weighted Evidence Combination Method for Multisensor Data Fusion [J]. Journal of Internet Technology, 2022, 23(3): 553-560.
[11]" RAIMONDI D, SIMM J, ARANY A, et al. A Novel Method fo
r Data Fusion over Entity-Relation Graphs and Its Application to Protein-Protein Interaction Prediction [J]. Bioinformatics, 2021, 37(16): 2275-2281.
[12]" 唐成華, 侯夢迪, 高慶澤, 等. 多類軟件本體的惡意軟件語義描述模型 [J]. 小型微型計算機系統(tǒng), 2021, 42(11): 2433-2439. (
TANG C H, HOU M D, GAO Q Z, et al. Malware Semantic Description Model Based on Multi-class Software Ontology [J]. Journal of Chinese Computer Systems, 2021, 42(11): 2433-2439.)
[13]" 羅長銀, 王君宇, 陳學斌, 等. 改進的聯邦加權平均算法 [J]. 計算機應用, 2022, 42(4): 1131-1136. (
LUO C Y, WANG J Y, CHEN X B, et al. Improved Federated Weighted Average Algorithm [J]. Journal of Computer Applications, 2022, 42(4): 1131-1136.)
[14]" 曹文欣, 趙文, 路博, 等. 基于模糊數學的STS管幕結構的連接參數優(yōu)化 [J]. 東北大學學報(自然科學版), 2022, 43(2): 258-265. (
CAO W X, ZHAO W, LU B, et al. Optimization of Connection Parameters
of Steel Tube Slab Structures Based on Fuzzy Mathematics [J]. Journal of Northeastern University (Natural Science), 2022, 43(2): 258-265.)
[15]" 王璐, 李根梓, 戴亞飛, 等. 基于模糊集合的評審決策信息融合 [J]. 物理化學學報, 2023, 39(3): 104\|108.
(WANG L, LI G Z, DAI Y F, et al. On Information Fusion by Fuzzy Sets for Decision Making in Peer Review [J]. Acta Physico\|Chimica Sinica, 2023, 39(3): 104\|108.)
[16]" 楊陽, 王鵬江, 吉曉冬, 等. 基于模糊數學的掘進機截割頭轉速分檔預測方法 [J]. 煤炭工程, 2022, 54(2): 172\|176.
(YANG Y, WANG P J, JI X D, et al. Prediction for Roadheader Cutting Head Speed of Different Gears Based on Fuzzy Mathematics [J]. Coal Engineering, 2022, 54(2): 172\|176.)
[17]" 馬亞彤, 王松, 劉英芳. 融合多模態(tài)數據的人體動作識別方法研究 [J]. 計算機工程, 2022, 48(9): 180\|188.
(MA Y T, WANG S, LIU Y F. Research on Human Action Recognition Method by Fusing Multimodal Data [J]. Computer Engineering, 2022, 48(9): 180\|188.)
[18]" 郝剛, 金濤. 基于多尺度數據融合的鋰電池健康狀態(tài)評估 [J]. 江蘇大學學報(自然科學版), 2023, 44(5): 524\|529.
(HAO G, JIN T. Lithium Battery Health Evaluation Based on Multi\|scale Data Fusion [J]. Journal of Jiangsu University (Natural Science Edition), 2023, 44(5): 524\|529.)
[19]" 徐偉華, 黃旭東, 蔡可. 基于粒計算的多源信息融合方法綜述 [J]. 數據采集與處理, 2023, 38(2): 245\|261.
(XU W H, HUANG X D, CAI K. Review of Multi\|source Information Fusion Methods Based on Granular Computing [J]. Journal of Data Acquisition and Processing, 2023, 38(2): 245\|261.)
(責任編輯: 韓" 嘯)