摘 要:由于同一概念在不同數(shù)據(jù)源中具有不同的表示方式,導(dǎo)致在多源異構(gòu)信息智能融合場景中,不僅信息融合時(shí)效性差,而且信息融合誤差也較大,因此本文提出基于數(shù)字孿生的多源異構(gòu)信息智能融合方法。對多源異構(gòu)信息進(jìn)行消冗處理,簡化原始信息;利用數(shù)字孿生技術(shù)構(gòu)建多源異構(gòu)信息元數(shù)據(jù)模型,實(shí)現(xiàn)信息源物理模型與虛擬模型數(shù)據(jù)交互;采用模糊信息融合技術(shù)對信息進(jìn)行融合,實(shí)現(xiàn)多源異構(gòu)信息智能融合。試驗(yàn)證明,在本文設(shè)計(jì)方法下,信息融合時(shí)延<15ms,信息融合誤差<0.1,具有良好的時(shí)效性與準(zhǔn)確性,在多源異構(gòu)信息智能融合方面具有良好的應(yīng)用前景。
關(guān)鍵詞:數(shù)字孿生;多源異構(gòu)信息;消冗處理;元數(shù)據(jù);模糊信息融合技術(shù)
中圖分類號:TP 391" " 文獻(xiàn)標(biāo)志碼:A
多源異構(gòu)信息融合技術(shù)能夠集成不同來源、不同類型的信息,對復(fù)雜系統(tǒng)進(jìn)行全面感知和準(zhǔn)確判斷。該技術(shù)在多個(gè)領(lǐng)域具有廣泛的應(yīng)用前景,例如軍事指揮、智能交通、公共安全和智能制造等。特別是在大數(shù)據(jù)、人工智能和機(jī)器學(xué)習(xí)等技術(shù)的推動下,多源異構(gòu)信息融合技術(shù)取得了顯著進(jìn)展,成為解決復(fù)雜系統(tǒng)問題的重要手段。
文獻(xiàn)[1]提出了基于大數(shù)據(jù)挖掘的融合方法,采用大數(shù)據(jù)挖掘技術(shù),將不同源頭的數(shù)據(jù)進(jìn)行關(guān)聯(lián)、分析和融合。文獻(xiàn)[2]提出了基于MES的融合方法,采用數(shù)據(jù)采集、處理、分析和集成等步驟,將來自不同設(shè)備、系統(tǒng)和平臺的多源異構(gòu)信息融合到MES系統(tǒng),利用MES系統(tǒng)對多源異構(gòu)數(shù)據(jù)進(jìn)行集成融合。
目前,盡管多源異構(gòu)信息融合技術(shù)在取得了顯著進(jìn)展,但是仍然存在一些不足之處,在實(shí)際應(yīng)用中時(shí)效性和融合精度較差,無法取得預(yù)期的信息智能融合效果,因此本文提出基于數(shù)字孿生的多源異構(gòu)信息智能融合方法。
1 多源異構(gòu)信息冗余處理
多源異構(gòu)信息主要來源于多個(gè)無線傳感器。實(shí)時(shí)數(shù)據(jù)采集與傳輸是一個(gè)復(fù)雜的過程,首先,數(shù)據(jù)源具有多樣性的特點(diǎn),包括不同類型的傳感器,例如溫度傳感器、壓力傳感器和振動傳感器等,它們各自采集的數(shù)據(jù)在格式、精度和測量范圍等方面存在差異。其次,數(shù)據(jù)源還具有高頻采集特性,即傳感器會在短時(shí)間內(nèi)多次采集數(shù)據(jù)。這2個(gè)因素共同作用,不可避免地會產(chǎn)生龐大的信息冗余現(xiàn)象。
信息冗余現(xiàn)象會產(chǎn)生較多問題。一方面,該現(xiàn)象顯著增加了數(shù)據(jù)處理的負(fù)擔(dān)。在處理數(shù)據(jù)過程中需要消耗更多的計(jì)算資源(例如內(nèi)存、CPU時(shí)間等)來存儲和處理這些冗余數(shù)據(jù)。例如,在一個(gè)數(shù)據(jù)中心,如果存在大量冗余數(shù)據(jù),那么服務(wù)器需要花費(fèi)更多的時(shí)間來對這些數(shù)據(jù)進(jìn)行讀寫操作,從而降低了整體數(shù)據(jù)處理速度。另一方面,該現(xiàn)象還可能影響后續(xù)數(shù)據(jù)分析的準(zhǔn)確性和效率。冗余數(shù)據(jù)可能會掩蓋真實(shí)的數(shù)據(jù)特征,使數(shù)據(jù)分析模型無法準(zhǔn)確識別數(shù)據(jù)中的有用信息,從而影響分析結(jié)果的準(zhǔn)確性。同時(shí),處理冗余數(shù)據(jù)也會消耗額外的時(shí)間,降低數(shù)據(jù)分析的效率。
因此,在對多源數(shù)據(jù)進(jìn)行融合前,必須對數(shù)據(jù)冗余進(jìn)行處理,以提高數(shù)據(jù)質(zhì)量,減輕數(shù)據(jù)處理負(fù)擔(dān),提升后續(xù)數(shù)據(jù)分析的準(zhǔn)確性和效率。多源異構(gòu)數(shù)據(jù)以數(shù)據(jù)流形式存在,如公式(1)所示。
式中:X為多源異構(gòu)數(shù)據(jù)流;TID為數(shù)據(jù)流的唯一編碼;SID為傳感器編號;EID為數(shù)據(jù)集合;JNG為數(shù)據(jù)讀取時(shí)間[3]。
為了統(tǒng)一處理多源異構(gòu)信息,本文引入泛化的數(shù)據(jù)模型,將狀態(tài)信息統(tǒng)一標(biāo)識為“state”,將時(shí)間信息統(tǒng)一標(biāo)識為“time”,每一臺傳感器的輸出用三元組表示,如公式(2)所示。
利用以上公式簡化原始數(shù)據(jù),如果無線傳感器在特定時(shí)間段(t~t+1)內(nèi)產(chǎn)生的連續(xù)數(shù)據(jù)的狀態(tài)沒有發(fā)生變化,那么除了起始時(shí)刻和結(jié)束時(shí)刻的數(shù)據(jù)外,其余數(shù)據(jù)均被視為冗余數(shù)據(jù)[4]。利用數(shù)據(jù)檢索功能定位到當(dāng)前的狀態(tài)信息“state”,將該狀態(tài)與前一狀態(tài)進(jìn)行比較,并結(jié)合時(shí)間戳的差異進(jìn)行判斷。如果2個(gè)狀態(tài)相同或時(shí)間差小于預(yù)設(shè)的最小時(shí)間采集粒度,那么認(rèn)定該數(shù)據(jù)為冗余數(shù)據(jù)并刪除;否則,更新數(shù)據(jù)記錄,保留新的狀態(tài)信息,以此消除多源異構(gòu)數(shù)據(jù)中的冗余數(shù)據(jù)。
2 基于數(shù)字孿生的元數(shù)據(jù)模型構(gòu)建
在多源異構(gòu)信息智能融合問題中,基于數(shù)字孿生構(gòu)建元數(shù)據(jù)模型具有多方面的重要意義。首先,數(shù)字孿生提供了一個(gè)高度仿真的虛擬模型。多源異構(gòu)信息來源廣泛,格式、語義等各不相同。利用數(shù)字孿生構(gòu)建元數(shù)據(jù)模型,能夠?qū)ξ锢韺?shí)體或系統(tǒng)進(jìn)行精確映射。例如在工業(yè)場景中,不同設(shè)備的運(yùn)行數(shù)據(jù)、傳感器采集的數(shù)據(jù)等多源信息復(fù)雜多樣,數(shù)字孿生的虛擬模型能夠以統(tǒng)一的方式呈現(xiàn)這些設(shè)備及其運(yùn)行狀態(tài),為元數(shù)據(jù)模型提供準(zhǔn)確的參照框架,從而更好地整合多源異構(gòu)信息。其次,數(shù)字孿生有助于統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)。多源異構(gòu)數(shù)據(jù)在數(shù)據(jù)結(jié)構(gòu)、編碼方式等方面存在差異,給融合帶來巨大挑戰(zhàn)。基于數(shù)字孿生構(gòu)建的元數(shù)據(jù)模型可以定義統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn),對不同來源的數(shù)據(jù)進(jìn)行規(guī)范化描述。例如在智慧城市建設(shè)中,可以利用數(shù)字孿生的元數(shù)據(jù)模型,將來自交通、環(huán)境和能源等不同領(lǐng)域的數(shù)據(jù)按照統(tǒng)一標(biāo)準(zhǔn)進(jìn)行描述,使數(shù)據(jù)融合更順暢。
本節(jié)研究也能夠提高數(shù)據(jù)的可理解性和互操作性。基于數(shù)字孿生構(gòu)建的元數(shù)據(jù)模型能清晰展示數(shù)據(jù)間的關(guān)系和數(shù)據(jù)背后的物理意義。例如在智能醫(yī)療領(lǐng)域,基于數(shù)字孿生構(gòu)建的元數(shù)據(jù)模型可以讓醫(yī)療人員和數(shù)據(jù)處理人員更好地理解不同醫(yī)療設(shè)備產(chǎn)生的數(shù)據(jù)和患者的病歷信息等多源異構(gòu)信息,實(shí)現(xiàn)數(shù)據(jù)的互操作性,從而推動醫(yī)療決策的智能化發(fā)展。隨著物理實(shí)體或系統(tǒng)變化,多源異構(gòu)信息也在不斷更新?;跀?shù)字孿生的元數(shù)據(jù)模型可以實(shí)時(shí)反映這些變化,及時(shí)更新元數(shù)據(jù),保證數(shù)據(jù)融合的有效性和準(zhǔn)確性。
利用冗余處理后的多源異構(gòu)數(shù)據(jù)構(gòu)建元數(shù)據(jù)數(shù)字模型,該數(shù)字模型為虛擬化的多傳感器設(shè)備集成模型,能夠與多傳感器物理模型相對應(yīng),具備傳感器功能。利用數(shù)字孿生技術(shù)提取多源異構(gòu)信息特征分量x,如公式(3)所示。
式中:η為多源異構(gòu)信息標(biāo)準(zhǔn)差;μ(X)為多源異構(gòu)信息增益;maxμ(X)、minμ(X)分別為多源異構(gòu)信息增益最大值、最小值[5]。
提取多源異構(gòu)信息的特征分量能夠有效映射出這些信息中的內(nèi)在特性與差異。多源異構(gòu)信息來源廣泛,其內(nèi)在特性復(fù)雜多樣,例如它可能來自不同類型的傳感器(包括溫度傳感器、壓力傳感器和振動傳感器等)或者不同的信息系統(tǒng)(包括企業(yè)的生產(chǎn)管理系統(tǒng)、質(zhì)量管理系統(tǒng)和物流管理系統(tǒng)等)。這些不同來源的信息在數(shù)據(jù)格式、語義表達(dá)、數(shù)據(jù)量以及數(shù)據(jù)產(chǎn)生的頻率等方面存在顯著差異。特征分量提取能夠?qū)⑦@些復(fù)雜的多源異構(gòu)信息進(jìn)行剖析,挖掘出隱藏在其中的本質(zhì)特性,并清晰地展現(xiàn)出它們之間的差異。
為了能夠準(zhǔn)確衡量多源異構(gòu)信息的整合度,需要結(jié)合多源異構(gòu)信息特征分量引入多源異構(gòu)信息分布結(jié)構(gòu)。多源異構(gòu)信息分布結(jié)構(gòu)可以從多個(gè)維度來描述這些信息的分布情況,包括信息在不同數(shù)據(jù)源間的分布、在不同數(shù)據(jù)類型間的分布以及在不同時(shí)間和空間尺度上的分布等。將多源異構(gòu)信息特征分量與這種分布結(jié)構(gòu)相結(jié)合,能夠更全面、深入地了解多源異構(gòu)信息在整合過程中的各種狀態(tài)。例如,分析信息分布結(jié)構(gòu)中的數(shù)據(jù)密度、數(shù)據(jù)關(guān)聯(lián)性等要素,并結(jié)合已經(jīng)提取出的特征分量,可以判斷不同來源的信息在整合過程中是否能夠很好地融合在一起,是否存在信息孤島或者信息沖突等問題,從而為提高多源異構(gòu)信息的整合度提供有力依據(jù)。變量CV(多源異構(gòu)信息分布結(jié)構(gòu))如公式(4)所示。
式中:x0為多源異構(gòu)信息特征分量初始值;x*為多源異構(gòu)信息特征分量理想值。
在此基礎(chǔ)上,利用標(biāo)準(zhǔn)差分析,得到多源異構(gòu)信息的相似變異度,揭示信息分布的相似性與差異性,利用變量CV,計(jì)算多源異構(gòu)信息相似度概率密度S,如公式(5)所示。
式中:δ為多源異構(gòu)信息的相似變異度[6]。
根據(jù)多源異構(gòu)信息相似度概率密度,將原始數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的時(shí)序數(shù)據(jù),根據(jù)多源異構(gòu)信息相似度概率密度S得到多源異構(gòu)信息的孿生分量λ,如公式(6)所示。
式中:Ki為第i條信息傳感器物理模型;?為元數(shù)據(jù)[7]。
根據(jù)信息孿生分量λ,構(gòu)建多源異構(gòu)信息元數(shù)據(jù)模型H(X),如公式(7)所示。
式中:k為關(guān)系;a為約束。
3 多源異構(gòu)信息融合
利用構(gòu)建好的信息元數(shù)據(jù)模型進(jìn)行多源異構(gòu)數(shù)據(jù)融合,該信息融合過程實(shí)際上是對多源異構(gòu)信息進(jìn)行深度挖掘的過程,并最終得到概率決策。該決策在實(shí)際應(yīng)用場景中具有重要的指導(dǎo)意義。首先,需要利用關(guān)聯(lián)分布系數(shù)來獲取多源異構(gòu)信息的關(guān)聯(lián)分布特征。關(guān)聯(lián)分布特征是多源異構(gòu)信息中各個(gè)元素間關(guān)系的一種量化體現(xiàn)。在多源異構(gòu)數(shù)據(jù)中,不同來源的數(shù)據(jù)可能具有不同的結(jié)構(gòu)、格式和語義,但是它們之間通暢具有潛在的關(guān)聯(lián)。關(guān)聯(lián)分布系數(shù)能夠幫助揭示這些隱藏在數(shù)據(jù)背后的關(guān)聯(lián)關(guān)系,從而準(zhǔn)確地獲取關(guān)聯(lián)分布特征。其次,必須充分考慮模型中各要素間的內(nèi)在聯(lián)系與相互影響。在信息元數(shù)據(jù)模型中,各個(gè)要素并非孤立存在,它們之間相互交織、相互作用。例如,一個(gè)要素的變化可能會引起其他相關(guān)要素的連鎖反應(yīng)。這種內(nèi)在聯(lián)系和相互影響是信息融合過程中不可忽視的重要因素,可以為信息融合提供堅(jiān)實(shí)的理論基礎(chǔ)。只有深入理解這些要素間的關(guān)系,才能更好地進(jìn)行多源異構(gòu)信息融合,從而提高概率決策的準(zhǔn)確性和可靠性。多源異構(gòu)信息關(guān)聯(lián)分布特征f如公式(8)所示。
式中:lambda為關(guān)聯(lián)分布系數(shù);z為變量[8]。
結(jié)合多源異構(gòu)信息關(guān)聯(lián)分布特征f,提取信息包絡(luò)特征量,計(jì)算多源異構(gòu)信息可靠性分量g,如公式(9)所示。
式中:ξ為解析因子。
利用提取的所有信息的可靠性分量,構(gòu)建可靠性特征子集,并進(jìn)行特征篩選,得到滿足特定需求的值函數(shù)。該函數(shù)反映了數(shù)據(jù)的內(nèi)在屬性,揭示了數(shù)據(jù)間的潛在關(guān)系。利用模糊信息融合技術(shù),將上述所有信息進(jìn)行有機(jī)整合,得到最終的多源異構(gòu)數(shù)據(jù)融合結(jié)果V,如公式(10)所示。
式中:Z為值函數(shù);ρ為模糊規(guī)則。
至此完成基于數(shù)字孿生的多源異構(gòu)信息智能融合。
4 試驗(yàn)論證
4.1 試驗(yàn)數(shù)據(jù)集和環(huán)境
為了驗(yàn)證基于數(shù)字孿生的多源異構(gòu)信息智能融合方法的有效性與可行性,本文將KHFAKJHFA、IHFAIHGFA這2個(gè)數(shù)據(jù)集作為測試數(shù)據(jù),2個(gè)數(shù)據(jù)包的參數(shù)見表1。
利用本文設(shè)計(jì)方法對2個(gè)多源異構(gòu)數(shù)據(jù)集中的信息進(jìn)行智能融合,試驗(yàn)環(huán)境為Windows XP 1.63操作系統(tǒng),Inter Core i8處理器,16GB硬盤和8G內(nèi)存,采用0.62版本Python編輯。利用公式(1)~公式(9)處理、分析和融合數(shù)據(jù)集中的信息。為了使本文研究具有一定的參考性與學(xué)術(shù)性價(jià)值,將本文方法與文獻(xiàn)[1]提出的基于大數(shù)據(jù)挖掘的融合方法和文獻(xiàn)[2]提出的基于MES的融合方法進(jìn)行比較,比較指標(biāo)選擇融合時(shí)延和誤差(時(shí)延=輸入信息時(shí)間-融合輸出時(shí)間,誤差=融合值-理想值/理想值),時(shí)延越短,表示多源異構(gòu)信息融合時(shí)效性越好;誤差越小,說明多源異構(gòu)信息融合精度越高。
4.2 試驗(yàn)結(jié)果與討論
試驗(yàn)利用KHFAKJHFA數(shù)據(jù)集對3種方法進(jìn)行融合時(shí)延檢驗(yàn),將數(shù)據(jù)集中多源異構(gòu)信息等分為8份,記錄每份多源異構(gòu)信息融合時(shí)延,見表2。利用IHFAIHGFA數(shù)據(jù)集對3種方法進(jìn)行融合誤差檢驗(yàn),在每次信息融合中依次增加信息量0.2GB,記錄不同信息量下的多源異構(gòu)信息融合誤差,見表3。
從表2可以看出,在多源異構(gòu)信息智能融合場景中,文獻(xiàn)[2]方法信息融合時(shí)延最長,>100ms,本文方法信息融合時(shí)延最短,<15ms,證明本文方法在時(shí)效性方面表現(xiàn)最佳。從表3可以看出,本文設(shè)計(jì)方法信息融合誤差最小,<0.1,文獻(xiàn)[1]方法的信息融合誤差最大,>0.3,證明本文方法在準(zhǔn)確性方面也表現(xiàn)最佳。
綜上所述,本文設(shè)計(jì)方法時(shí)效性與準(zhǔn)確性良好,可以對多源異構(gòu)信息進(jìn)行精準(zhǔn)、實(shí)時(shí)融合。本文提出的多源異構(gòu)信息智能融合方法之所以能夠?qū)崿F(xiàn)更短的時(shí)延和更小的信息融合誤差,是因?yàn)樗捎昧藬?shù)字孿生技術(shù)來構(gòu)建多源異構(gòu)信息的元數(shù)據(jù)模型。該模型不僅能夠模擬信息源的物理特性,而且能在虛擬環(huán)境中實(shí)現(xiàn)數(shù)據(jù)的高效交互。對多源異構(gòu)信息進(jìn)行消冗處理,可以簡化原始信息,減少冗余數(shù)據(jù)對融合過程的干擾,從而提高融合效率。同時(shí),利用模糊信息融合技術(shù),能夠更好地處理不同數(shù)據(jù)源中概念表示的差異性,使融合結(jié)果更準(zhǔn)確、一致。這些措施共同作用,能夠使信息融合過程更高效,減少時(shí)延,并降低由數(shù)據(jù)差異導(dǎo)致的融合誤差。
5 結(jié)語
本文深入探討了基于數(shù)字孿生的多源異構(gòu)信息智能融合方法。引入先進(jìn)的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等人工智能技術(shù),成功實(shí)現(xiàn)了多源異構(gòu)信息的有效整合和智能分析,為數(shù)字孿生體提供了強(qiáng)大的數(shù)據(jù)支撐和決策支持。然而,基于數(shù)字孿生的多源異構(gòu)信息智能融合方法的研究仍面臨很多挑戰(zhàn)。例如,由于數(shù)據(jù)源具有多樣性和復(fù)雜性,因此數(shù)據(jù)預(yù)處理和特征提取過程比較困難;融合算法的選擇和優(yōu)化需要充分考慮不同應(yīng)用場景的特定需求;結(jié)果評估的準(zhǔn)確性和可解釋性也需要進(jìn)一步提升。
參考文獻(xiàn)
[1]劉雪飛,林子釗,田啟東,等.基于大數(shù)據(jù)挖掘的電力多源異構(gòu)信息融合技術(shù)研究[J].制造業(yè)自動化,2023,45(9):75-78.
[2]楊俊,肖楠,劉典勇.基于MES的多源異構(gòu)信息集成與共享系統(tǒng)[J].電子設(shè)計(jì)工程,2022,30(18):77-81.
[3]翟羽佳,許佳,李曉.面向突發(fā)重大公共衛(wèi)生事件的多源異構(gòu)應(yīng)急信息融合模型研究[J].圖書與情報(bào),2021(5):9-20.
[4]于卓,孫軼杰,呂榮水,等.面向大型制造企業(yè)的MES多源異構(gòu)信息集成架構(gòu)[J].長江信息通信,2023,36(10):76-78.
[5]彭樂樂,張亞飛,張瑋東,等.多源異構(gòu)信息融合光伏組件輸出特性動態(tài)建模[J].太陽能學(xué)報(bào),2023,44(3):425-434.
[6]姚祖威,劉宇,郭俊啟,等.基于因子圖的自主導(dǎo)航多源異構(gòu)信息融合算法[J].電子測量技術(shù),2021,44(1):130-134.
[7]孫楊,李懷東.基于數(shù)字孿生技術(shù)的變電全要素信息融合方法[J].信息技術(shù),2023,47(3):144-149.
[8]閆雪鋒,趙楠.復(fù)雜產(chǎn)品數(shù)字孿生的多維信息統(tǒng)一融合設(shè)計(jì)研究[J].機(jī)械設(shè)計(jì)與制造工程,2020,49(3):92-97.