摘 要:物聯(lián)網(wǎng)已經(jīng)滲透到各個領(lǐng)域,并對各領(lǐng)域數(shù)據(jù)進(jìn)行自動采集和應(yīng)用。但異構(gòu)數(shù)據(jù)的存儲和融合一直是物聯(lián)網(wǎng)的技術(shù)難題,使數(shù)據(jù)信息不能被理解,阻礙傳感器的應(yīng)用。因此設(shè)計高質(zhì)量的數(shù)據(jù)融合算法,具有重大實際應(yīng)用價值。本課題擬通過語義,根據(jù)物聯(lián)網(wǎng)傳感器數(shù)據(jù)融合的理論分析與本體建模的方法,以及傳感器本體和語義融合的一般方法,提出基于多傳感器的語義數(shù)據(jù)融合方法,促進(jìn)語義在物聯(lián)網(wǎng)多傳感器數(shù)據(jù)融合中的應(yīng)用,為物聯(lián)網(wǎng)系統(tǒng)的智能控制和決策分析打下基礎(chǔ),加快物聯(lián)網(wǎng)在各領(lǐng)域的快速發(fā)展和深入應(yīng)用,有一定的經(jīng)濟(jì)和社會效益。
關(guān)鍵詞:物聯(lián)網(wǎng);多傳感器;語義融合;本體
中圖分類號:TP202
物聯(lián)網(wǎng)是計算機(jī)科學(xué)發(fā)展的產(chǎn)物,滲透到各個領(lǐng)域,工業(yè)、醫(yī)療、軍事、家庭等多領(lǐng)域,對各領(lǐng)域的各環(huán)節(jié)進(jìn)行信息數(shù)據(jù)的自動化采集、處理、決策分析、預(yù)警等控制活動。負(fù)責(zé)信息數(shù)據(jù)采集的設(shè)備主要是傳感器。傳感器節(jié)點是信息采集、處理和傳輸?shù)幕A(chǔ)。每個傳感器都是一個信息源,對于信息系統(tǒng)來說,數(shù)據(jù)是海量的,并呈指數(shù)級別增長,產(chǎn)生和存儲這些數(shù)據(jù)的軟硬件環(huán)境有很大的差別,因此采集到的數(shù)據(jù)內(nèi)容和格式都不相同,使得數(shù)據(jù)的利用和共享成為難題,而處理這些數(shù)據(jù)需要面臨的主要技術(shù)問題就是異構(gòu)的數(shù)據(jù)源問題[1]。因此,設(shè)計高質(zhì)量的傳感器數(shù)據(jù)融合[2-4]方法,是多傳感器數(shù)據(jù)的核心問題。
異構(gòu)的數(shù)據(jù)源問題[5]包含四個級別:系統(tǒng)、結(jié)構(gòu)、語法和語義。對于系統(tǒng)和結(jié)構(gòu)上的異構(gòu)問題,解決方案是使用XML語言消除異構(gòu),但是語義上的異構(gòu)問題,使用本體是最有效的。本文的研究思路是:針對物聯(lián)網(wǎng)中多傳感器采集數(shù)據(jù)的格式不同問題,提出基于本體進(jìn)行語義融合的方法,以達(dá)到多傳感器數(shù)據(jù)有效利用、決策控制等目的。
1 本體(Ontology)
1.1 本體知識簡介
在人工智能界,Neches等人將本體定義為“給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語和關(guān)系,以及利用這些術(shù)語和關(guān)系構(gòu)成的規(guī)定這些詞匯外延的規(guī)則的定義”。文獻(xiàn)[6]指出:“本體包含有明確定義的詞匯表,定義概念間關(guān)系,同一個本體的所有使用者都遵循這些定義規(guī)則。”因此本體能夠在領(lǐng)域內(nèi)部描述概念和概念間關(guān)系,而且具有確定的屬性,促進(jìn)人機(jī)交流。
1.2 混合本體
由于本體是可以共享的,首先查找現(xiàn)有本體資源,是否有可直接使用的本體。如果不能直接使用,那么利用混合本體方法[7],為每個傳感器創(chuàng)建本體。常見的基于本體集成模型有單一本體法、多本體法、混合本體法?;诨旌媳倔w的信息集成方法,是消除數(shù)據(jù)結(jié)構(gòu)上異構(gòu)的有效方法。
1.3 本體開發(fā)工具
本文在選擇本體創(chuàng)建和實例化的工具是protégé,版本4.1。Protégé也是目前開發(fā)人員在創(chuàng)建本體模型與本體化應(yīng)用程序時使用的一款開源軟件。
這款軟件主要優(yōu)點有:
(1)采用圖形化界面,對類、屬性、類間關(guān)系等的編輯非常容易。
(2)protégé軟件結(jié)構(gòu)有很好的擴(kuò)展性。因此,其功能很強(qiáng)大,能夠編輯本體,也能將本體信息存入數(shù)據(jù)庫,并能夠?qū)崿F(xiàn)查詢推理功能。
2 基于融合規(guī)則的語義數(shù)據(jù)融合方法
2.1 傳統(tǒng)的數(shù)據(jù)融合算法
多傳感器數(shù)據(jù)融合的過程是綜合處理信息的過程,提取出多個傳感器的數(shù)據(jù)信息,根據(jù)一定的規(guī)則重新組合,得到對被測對象的一致性測量結(jié)果,融合后的數(shù)據(jù)更加可靠、準(zhǔn)確,是決策分析和預(yù)警的重要依據(jù)。多傳感器數(shù)據(jù)融合,關(guān)鍵是信息形式更加復(fù)雜的異構(gòu)數(shù)據(jù)源問題。數(shù)據(jù)融合的主要算法有:基于權(quán)系數(shù)的融合方法,基于參數(shù)估計的信息融合方法,基于D-S證據(jù)理論的融合方法,基于Kalman濾波的融合方法,基于模糊神經(jīng)網(wǎng)絡(luò)的融合方法,基于粗糙集理論的融合方法,聚類分析法等多種方法。每種融合算法的依據(jù)理論不同,其優(yōu)劣勢也不同,D.S證據(jù)推理和表決法的理論還不夠成熟,神經(jīng)網(wǎng)絡(luò)和模糊邏輯應(yīng)用難度較高。
2.2 語義數(shù)據(jù)融合的核心問題描述
語義數(shù)據(jù)融合方法[8-10],利用本體在領(lǐng)域內(nèi)進(jìn)行概念級建模,促進(jìn)資源描述、信息共享和整合,有效消除海量異構(gòu)設(shè)備產(chǎn)生的異構(gòu)數(shù)據(jù)源問題。本體是針對語義內(nèi)容,實現(xiàn)語義標(biāo)注、語義檢索等概念匹配的統(tǒng)一數(shù)據(jù)集。本文使用本體描述領(lǐng)域內(nèi)多傳感器資源,確定資源中概念的定義,消除二義性,便于計算機(jī)理解。
語義數(shù)據(jù)融合的核心問題有:
2.2.1 異構(gòu)數(shù)據(jù)間語義沖突。語義沖突的結(jié)構(gòu)包含模式層和數(shù)據(jù)層的沖突。模式層沖突是不同數(shù)據(jù)源中對相同概念采用不同邏輯結(jié)構(gòu)造成的沖突。數(shù)據(jù)層沖突是對相同概念的表示不同造成的沖突。每種型號的傳感器產(chǎn)生的數(shù)據(jù)內(nèi)容和格式都有區(qū)別,數(shù)據(jù)的精度也不同,這對數(shù)據(jù)融合造成一定的難度。事實證明,傳統(tǒng)的數(shù)據(jù)融合方法并沒有很好地解決這個問題。
2.2.2 融合后的數(shù)據(jù)可靠性差。融合后的數(shù)據(jù)依然存在語義沖突和冗余。不能有效地用于決策分析、決策處理等。
2.3 基于混合本體的語義數(shù)據(jù)融合方法
本文中混合本體的作用主要表現(xiàn)在兩方面:
2.3.1 從全局角度規(guī)范化領(lǐng)域內(nèi)多傳感器資源的概念和術(shù)語,各傳感器本體中的概念參照全局本體,從而使概念具有一致性,有效解決語義沖突問題,為領(lǐng)域內(nèi)和領(lǐng)域間的實際應(yīng)用起到共享本體作用。
2.3.2 通過混合本體的分析、處理,既理清了多傳感器領(lǐng)域知識的結(jié)構(gòu),又提高數(shù)據(jù)的可靠性,分析并提取出不安全數(shù)據(jù),從而為后續(xù)決策分析、處理和事故預(yù)警等問題打好基礎(chǔ)。而且多傳感器本體可以重用,從而避免重復(fù)的多傳感器領(lǐng)域知識分析。
本文利用混合本體為每個傳感器創(chuàng)建本體,結(jié)合一定的算法,將提出一種基于異構(gòu)多傳感器數(shù)據(jù)的語義數(shù)據(jù)融合的方法?;诨旌媳倔w的數(shù)據(jù)融合方法不僅從數(shù)據(jù)的整體層面,也從局部角度處理數(shù)據(jù),使處理后的數(shù)據(jù)更加可靠。具體步驟如下:
(1)收集多傳感器數(shù)據(jù)到網(wǎng)關(guān)。收集多傳感器數(shù)據(jù)到網(wǎng)關(guān),本質(zhì)上是從串口讀取、收集、發(fā)送數(shù)據(jù)到網(wǎng)關(guān)的過程。通過各傳感器收集環(huán)境感知的數(shù)據(jù),將數(shù)據(jù)精度處理并保持一致。這部分知識是數(shù)據(jù)融合過程中已經(jīng)具備的前提,不多做闡述。
(2)描述異構(gòu)多傳感器數(shù)據(jù)資源。分析多傳感器數(shù)據(jù),結(jié)合本體知識,描述多傳感器資源的本體概念,描述概念屬性,和概念間關(guān)系。本文涉及的傳感器有Arduino傳感器和物聯(lián)網(wǎng)實驗室的傳感器試驗箱,這兩種傳感器采集到的數(shù)據(jù)內(nèi)容和格式都不相同。以溫度傳感器為例,Arduino傳感器采集到的數(shù)據(jù)是數(shù)值,而教學(xué)用的傳感器試驗箱中溫度傳感器采集到的數(shù)據(jù)有時間和溫度值。傳感器資源的描述如下,以溫度傳感器為例,有傳感器數(shù)據(jù),溫度傳感器,采集時間(包含月、日、時、分、秒),采集區(qū)域,傳感器數(shù)值屬性。
(3)創(chuàng)建多傳感器的混合本體數(shù)據(jù)模型及其實例化。以混合本體為基礎(chǔ)與傳感器本體模型相結(jié)合,構(gòu)建基于混合本體的多傳感器數(shù)據(jù)模型。全局本體描述的是傳感器的概念集合,局部本體描述的是各傳感器數(shù)據(jù)庫中的概念及其具體內(nèi)容,局部本體中的概念與全局本體中相應(yīng)的概念之間存在映射關(guān)系。傳感器本體創(chuàng)建的步驟是:
1)抽取領(lǐng)域詞匯。研究領(lǐng)域知識、學(xué)習(xí)領(lǐng)域資料,定義領(lǐng)域本體的關(guān)鍵概念詞匯,以及概念間關(guān)系。定義類之間的繼承關(guān)系,以及概念的屬性關(guān)系。抽取領(lǐng)域內(nèi)的核心詞匯,需要結(jié)合領(lǐng)域和應(yīng)用實際反復(fù)推敲,確定概念間的層次關(guān)系,以備用。
2)確定類屬性及其屬性值的取值范圍和類型。根據(jù)領(lǐng)域本體詞匯,定義本體概念的屬性,確定屬性取值類型和取值范圍。
3)創(chuàng)建類的實例。定義本體資源屬性取值后,需要創(chuàng)建本體實例。分析并選擇一個類,確定屬性的取值。最后確定本體概念、類以及類間關(guān)系的一致性,重復(fù)檢測正確性。
(4)基于混合本體的數(shù)據(jù)融合算法。傳感器類型、采集時間和采集區(qū)域?qū)傩阅軌蛭ㄒ粯?biāo)識傳感器,稱為傳感器的關(guān)鍵屬性。基于混合本體的數(shù)據(jù)融合算法:首先比較傳感器的類型屬性。如果相等,則繼續(xù)比較傳感器的區(qū)域?qū)傩?。如果不等,則直接向網(wǎng)關(guān)輸出。再比較傳感器區(qū)域?qū)傩?,如果不相同,則根據(jù)傳感器類型屬性進(jìn)行數(shù)據(jù)合并后,直接輸出,如果相同,則說明是等價實例。繼續(xù)比較采集時間,采集時間若相同,則需要根據(jù)融合規(guī)則,進(jìn)行數(shù)據(jù)融合。如果采集時間不同,說明采集時間稍早的數(shù)據(jù)是過時冗余的數(shù)據(jù),做刪除處理。
(5)基于融合規(guī)則輸出結(jié)果到網(wǎng)關(guān)。融合規(guī)則包含:
1)平均原則:將多個相同類型傳感器的數(shù)據(jù)進(jìn)行取均值運算,最終返回均值。
2)加權(quán)平均原則:將多個相同類型傳感器的數(shù)據(jù)進(jìn)行加權(quán)均值運算,并返回結(jié)果。
3)統(tǒng)計原則:統(tǒng)計數(shù)據(jù),將出現(xiàn)頻率高的值作為返回結(jié)果。
4)最值原則:取數(shù)據(jù)中的最大值或是最小值作為返回結(jié)果。
5)隨機(jī)原則:在多個相同類型傳感器的數(shù)據(jù)中隨機(jī)取一個數(shù)值作為結(jié)果返回。
本文建議:如果有敏感數(shù)據(jù)產(chǎn)生,即不安全數(shù)據(jù),那么基于統(tǒng)計原則必須輸出不安全的數(shù)據(jù)信息,如果采集到的數(shù)據(jù)在安全范圍內(nèi),那么以上融合規(guī)則都可以使用。
3 結(jié)束語
本文基于混合本體提出的語義數(shù)據(jù)融合方法,基本達(dá)到研究的預(yù)期目標(biāo)?;诒倔w的語義數(shù)據(jù)融合方法,解決了語義沖突問題,使融合的數(shù)據(jù)更加可靠。語義數(shù)據(jù)融合,為自動化分析、處理多傳感器數(shù)據(jù)打下基礎(chǔ),后續(xù)研究可以結(jié)合jena推理機(jī),書寫推理規(guī)則,對融合后的傳感器數(shù)據(jù)進(jìn)行推理,特別是對環(huán)境安全的決策分析、控制和預(yù)警活動有重要意義。
語義技術(shù)應(yīng)用于物聯(lián)網(wǎng)領(lǐng)域的數(shù)據(jù)融合研究,已經(jīng)具備一定的理論基礎(chǔ)。本文提出基于語義的數(shù)據(jù)融合方法,促進(jìn)語義在物聯(lián)網(wǎng)中的應(yīng)用。
參考文獻(xiàn):
[1]朱敏.基于物聯(lián)網(wǎng)的異構(gòu)數(shù)據(jù)融合算法的研究[J].計算機(jī)光盤軟件與應(yīng)用,2014(08).
[2]嚴(yán)鳳斌,高起蛟,楊彭遠(yuǎn).基于混合本體的異構(gòu)數(shù)據(jù)集成方法研究[J].信息技術(shù),2010(12).
[3]姜延吉.多傳感器數(shù)據(jù)融合關(guān)鍵技術(shù)研究[D].哈爾濱工程大學(xué),2010(04).
[4]王欣.多傳感器數(shù)據(jù)融合問題的研究[D].吉林大學(xué),2006(04).
[5]張軍艷,羅軍,趙應(yīng)秋.基于本體的語義異構(gòu)數(shù)據(jù)集成方法研究[J].信息技術(shù),2012(08).
[6]趙健.基于領(lǐng)域本體的RDF檢索模型研究[D].吉林大學(xué),2009(04).
[7]嚴(yán)鳳斌,高起蛟,楊彭遠(yuǎn).基于混合本體的異構(gòu)數(shù)據(jù)集成方法研究[J].計算機(jī)應(yīng)用,2010(12).
[8]房立芳.基于本體的異構(gòu)數(shù)據(jù)集成與融合方法研究[D].中國科學(xué)技術(shù)大學(xué),2010(05).
[9]李程貴.一種基于語義融合的智能家居系統(tǒng)的研究與實現(xiàn)[D].吉林大學(xué),2012(06).
[10]劉波,齊德昱,林偉偉.基于本體的語義數(shù)據(jù)融合方法[J].華南理工大學(xué)學(xué)報(自然科學(xué)版),2009(01).
[11]黃漫國,樊尚春,鄭德智.多傳感器數(shù)據(jù)融合技術(shù)研究進(jìn)展[J].傳感器與微系統(tǒng),2010(03).
作者簡介:孫麗麗(1981-),女,吉林德惠人,物聯(lián)網(wǎng)與網(wǎng)絡(luò)工程教研室,研究方向:物聯(lián)網(wǎng)。
作者單位:三明學(xué)院信息工程學(xué)院物聯(lián)網(wǎng)應(yīng)用福建省高校工程研究中心,福建三明 365004
基金項目:三明市科技局重點項目(項目編號:2011-G-4);福建省自然科學(xué)基金資助項目(項目編號:2012J01283);福建省教育廳省屬高??蒲袑m椨媱潱椖烤幪枺篔K2012051)。