徐 超,林友勇,李少利
(中電海康集團研究院,浙江 杭州 310012)
本文從物聯(lián)基礎(chǔ)設(shè)施產(chǎn)生的數(shù)據(jù)出發(fā),研究物聯(lián)數(shù)據(jù)的分類和建模形式,形成了以物模型、事件模型、感知數(shù)據(jù)模型為核心的物聯(lián)數(shù)據(jù)建模分析框架。本文還著重分析了物聯(lián)感知數(shù)值模型的幾種細(xì)分類型,提出了其相關(guān)的分析、挖掘方法,并討論了序列模型以及時序圖模型在文本、語音、視頻等感知數(shù)據(jù)類型上的拓展應(yīng)用??偟膩碚f,本文的主要貢獻包括如下幾點:
第一,梳理了物聯(lián)基礎(chǔ)設(shè)施的數(shù)據(jù)分類體系,提出了一套較為完整的物聯(lián)數(shù)據(jù)建模及分析框架;
第二,著重對數(shù)值型物聯(lián)感知數(shù)據(jù)建模進行了分析,并討論了這些模型在文本、語音、視頻等感知數(shù)據(jù)結(jié)構(gòu)上的拓展應(yīng)用。
物聯(lián)網(wǎng)的消息模型由設(shè)備協(xié)議模型構(gòu)建,主要實現(xiàn)將實體世界的設(shè)備數(shù)字化,并在云端構(gòu)建該設(shè)備的數(shù)據(jù)模型。設(shè)備協(xié)議模型主要描述感知設(shè)備是什么、能做什么、可以提供什么樣的感知數(shù)據(jù)、能夠產(chǎn)生的事件信息等。因此,根據(jù)設(shè)備協(xié)議的承載內(nèi)容,概括為設(shè)備屬性、感知(即報文數(shù)據(jù))、狀態(tài)及事件這四種消息模型,以用于描述感知設(shè)備的屬性、報文數(shù)據(jù)及控制指令的結(jié)構(gòu)信息。針對上述4種物聯(lián)網(wǎng)消息模型,我們可以把物聯(lián)基礎(chǔ)設(shè)施中涉及到的物聯(lián)數(shù)據(jù)歸納為如下幾種:
(1)物體數(shù)據(jù):即設(shè)備本身的數(shù)據(jù),也就是描述設(shè)備的屬性、狀態(tài)、能力等的數(shù)據(jù);
(2)感知數(shù)據(jù):即設(shè)備產(chǎn)生的數(shù)據(jù),也就是由設(shè)備感知到的數(shù)據(jù),也稱為報文數(shù)據(jù),一般可以分為數(shù)值、圖片、視頻、語音、文本(人、物交互產(chǎn)生)等幾種類型;
(3)事件數(shù)據(jù):即控制指令的結(jié)構(gòu)化信息數(shù)據(jù)。
物體數(shù)據(jù)涉及到物聯(lián)設(shè)施的標(biāo)準(zhǔn)化、規(guī)范化問題,一般是按照國內(nèi)外的物體語義標(biāo)準(zhǔn)進行設(shè)計,小企業(yè)等都很難制定相關(guān)的標(biāo)準(zhǔn)以建立自己的標(biāo)準(zhǔn)化生態(tài)。而事件數(shù)據(jù)是基于本體數(shù)據(jù)形成的一種物體能力控制的指令信息,其處理過程涉及到事件順序的推理和因果分析,目前缺乏做得比較深入的企業(yè),一般是通過一些規(guī)則引擎來實現(xiàn)數(shù)據(jù)流轉(zhuǎn)和簡單的業(yè)務(wù)聯(lián)動。感知數(shù)據(jù)是目前我們關(guān)注最多的一種,因為它比較容易處理并且更容易獲取直接的數(shù)據(jù)收益,一般所說的物聯(lián)網(wǎng)數(shù)據(jù)處理基本都是指的這種數(shù)據(jù)類型。這些數(shù)據(jù)的挖掘分析一般包括獲取、清理、查詢、壓縮、存儲、分析、預(yù)測等步驟,業(yè)界也在逐步利用機器學(xué)習(xí)和人工智能等技術(shù)來處理這些數(shù)據(jù),以獲取更智能化的效果。目前的問題是,沒有一個有效的框架能融合上述三種數(shù)據(jù)類型,實現(xiàn)真正的由物聯(lián)到數(shù)聯(lián),再到智聯(lián)的過程。因此,本文提出了一個統(tǒng)一的物聯(lián)數(shù)據(jù)模型建??蚣?,并對其中的感知數(shù)據(jù)模塊進行了詳細(xì)分析。
基于上節(jié)提出的物體、感知、事件三種數(shù)據(jù)類型,提出一個統(tǒng)一的物聯(lián)語義知識庫模型框架,并對框架的每個模型進行詳細(xì)的說明。
圖1 物聯(lián)數(shù)據(jù)建模分析框架模塊圖
本框架主要由6個模塊組成,分別是物模型、事件模型、感知數(shù)據(jù)模型、業(yè)務(wù)知識庫模型、互聯(lián)網(wǎng)知識庫模型和物聯(lián)語義知識庫模型;針對感知數(shù)據(jù)模型,又分為單維時序模型、多維時序模型以及時序網(wǎng)絡(luò)模型。其中,物模型、事件模型和感知數(shù)據(jù)模型是不可或缺的核心模塊;業(yè)務(wù)知識庫模型和互聯(lián)網(wǎng)知識庫模型是對整個模型的補充;物聯(lián)語義知識庫模型是以上幾個模型的融合,是一個大型的知識圖譜語義模型。在一個由“云-邊-端”構(gòu)成的物聯(lián)網(wǎng)系統(tǒng)架構(gòu)中,一般來說,物模型、事件模型以及實時感知數(shù)據(jù)模型是部署在邊緣側(cè),為實時的數(shù)據(jù)處理提供推理分析,而歷史感知數(shù)據(jù)模型和物聯(lián)語義知識庫模型一般部署在云端,負(fù)責(zé)離線數(shù)據(jù)的融合、針對歷史數(shù)據(jù)的預(yù)測等。下面詳細(xì)介紹各個模塊。
物模型基于語義物聯(lián)網(wǎng)的標(biāo)準(zhǔn)對物體進行描述,建立物體的本體模型,并提供標(biāo)準(zhǔn)化的物體解析體系以及物體集成管理方法,核心內(nèi)容包括如下幾個方面:
(1)物聯(lián)本體建模:解決物體是什么的問題
對物聯(lián)基礎(chǔ)設(shè)施及物聯(lián)基礎(chǔ)設(shè)施產(chǎn)生的數(shù)據(jù)進行標(biāo)準(zhǔn)化歸納、整理,形成一套完整的數(shù)據(jù)目錄(元數(shù)據(jù)),在此基礎(chǔ)上抽象出一套適合物聯(lián)基礎(chǔ)設(shè)施服務(wù)場景的本體。
(2)物聯(lián)解析體系:解決物體接入、發(fā)現(xiàn)的問題
物體發(fā)現(xiàn)主要是對新接入物體的物名、能力、位置等核心要素進行解析,以達(dá)到物體識別的功能,只有物聯(lián)知識庫識別到物體,才能正確地使用物體的能力,具體包括物名標(biāo)識解析、能力標(biāo)識解析、位置標(biāo)識解析等。
(3)物體使能體系:解決物體怎么用的問題
負(fù)責(zé)物體的管理與集成,對外提供統(tǒng)一接口的能力服務(wù),具體包括物體接入管理、能力管理、能力集成管理等。
事件模型是基于物體的能力體系,為數(shù)據(jù)的流轉(zhuǎn)、邏輯因果推理提供描述方法及解析等。物體與其他交互物(包括人、物等)發(fā)生一定動作時會產(chǎn)生一個基于主體、時間、位置等的事件,事件的發(fā)生存在一定的順序關(guān)系,在物模型的基礎(chǔ)上,事件之間建立相應(yīng)的事理圖譜(知識圖譜的一種類型),基于事理圖譜也可以進行推理和分析,具體主要完成如下幾塊的內(nèi)容:
第一,數(shù)據(jù)流轉(zhuǎn):針對環(huán)境狀態(tài)和物體能力,對獲取的數(shù)據(jù)進行合理的分配;
第二,因果推理:針對異常事件或動作,進行有效的因果推理,獲取合理的分析結(jié)果。
感知數(shù)據(jù)模型主要是針對感知設(shè)備產(chǎn)生的數(shù)據(jù)建立分析、預(yù)測等模型。物聯(lián)感知數(shù)據(jù)具有時空性、關(guān)聯(lián)性、質(zhì)量差、海量和非結(jié)構(gòu)性等特點??臻g時效性是物聯(lián)感知數(shù)據(jù)的固有屬性,所有原始數(shù)據(jù)在缺省狀態(tài)下都具有時間、空間和設(shè)備戳,即表示在特定時間、地點在特定設(shè)備上收集的。針對這些數(shù)據(jù)特點,下面主要針對數(shù)值型的感知數(shù)據(jù)進行分類:
(1)單傳感器節(jié)點,單維時序模型
單傳感器節(jié)點獲取單個維度的感知數(shù)據(jù),并且感知數(shù)據(jù)隨著時間演變,傳統(tǒng)的時序數(shù)據(jù)分析都是針對單維屬性進行的,也就是只考慮歷史數(shù)據(jù)的影響。
圖2 單傳感器節(jié)點單維時序模型
(2)單感知數(shù)據(jù)節(jié)點,多維時序模型
單傳感器節(jié)點同時獲取多個維度的感知數(shù)據(jù),并且這些維度存在一定的相關(guān)性,感知數(shù)據(jù)也隨著時間演變,可以看做是多維或多元時間序列。
圖3 單感知數(shù)據(jù)節(jié)點多維時序模型
(3)多感知數(shù)據(jù)節(jié)點時序圖模型
大量的傳感器被部署在各個地方連續(xù)地、協(xié)同地監(jiān)測周圍的環(huán)境,如空氣質(zhì)量。這些檢測器生成很多時空序列數(shù)據(jù),之間有著空間相關(guān)性。預(yù)測這些時空數(shù)據(jù)很有挑戰(zhàn),因為預(yù)測受很多因素影響,比如動態(tài)的時空關(guān)聯(lián)和其他因素。傳感器的讀數(shù)取決于歷史的記錄數(shù)據(jù)和鄰近傳感器的讀數(shù),而這些影響的權(quán)重是隨著位置和時間不斷變化的。因此,在物聯(lián)網(wǎng)應(yīng)用建模時,應(yīng)當(dāng)充分考慮并表達(dá)物理個體之間的關(guān)系特別是直接的關(guān)系。各個物理個體除以上論述的實時收集的時空數(shù)據(jù)之外,也應(yīng)充分表達(dá)它們之間的連結(jié)關(guān)系。在一些應(yīng)用中,這些連結(jié)關(guān)系也會隨著時空的轉(zhuǎn)換而發(fā)生變化(例如智能交通中車輛之間的關(guān)系)。模型本身應(yīng)有充分的能力來表達(dá)直接關(guān)系,以方便推理間接關(guān)系。
因此,針對多傳感器節(jié)點獲取的感知數(shù)據(jù)(可以是上述的單維或多維情況)可以構(gòu)成時空網(wǎng)絡(luò),是指同一時刻多個多傳感器節(jié)點相互影響,構(gòu)成了一個靜態(tài)圖結(jié)構(gòu),而不同時刻的圖數(shù)據(jù)結(jié)構(gòu),就構(gòu)成了時序圖,時序圖顯示了各感知數(shù)據(jù)間相互影響、動態(tài)演變的過程。
圖4 多感知數(shù)據(jù)節(jié)點時序圖模型
在物聯(lián)應(yīng)用中,各個物理對象不是獨立存在的,它們之間存在復(fù)雜多樣的關(guān)聯(lián)。其中一些關(guān)聯(lián)是直接的,另一些是間接隱含的。例如:在智能電網(wǎng)中,不同用電戶在物理電網(wǎng)上的相對位置會影響他們之間的關(guān)系和關(guān)聯(lián)程度;在交通運輸中,路網(wǎng)上游、中游和下游的車流量是與路網(wǎng)的網(wǎng)絡(luò)結(jié)構(gòu)以及道路的距離長度緊密相關(guān)的;在環(huán)境監(jiān)測中,不同污染源的相對位置和相對獨立性,都會對監(jiān)測系統(tǒng)的設(shè)計與實現(xiàn)帶來影響。以路網(wǎng)中追捕逃犯車輛為例,路網(wǎng)中的各種傳感器(物模型)獲取每個感知節(jié)點的人流、車流情況,并對未來某個時間段利用時序模型進行預(yù)測(時序網(wǎng)絡(luò)模型:如圖5路網(wǎng)中的上下游在人流、車流的感知上存在一定的滯后性,也就是相關(guān)性),路網(wǎng)中的路卡設(shè)備可以根據(jù)預(yù)測的結(jié)果實時對路網(wǎng)進行截斷 (事件模型),同時根據(jù)預(yù)測結(jié)果合理分配警力資源的數(shù)量、所需占據(jù)的有利位置(業(yè)務(wù)知識庫模型)等。
這些物聯(lián)應(yīng)用都是建立在數(shù)聯(lián)的基礎(chǔ)之上,因此,在物模型、事件模型、時序模型、時序圖模型的基礎(chǔ)上,還需要在云端建立一個龐大的知識庫模型。該知識庫模型融合多源異構(gòu)、多模態(tài)的數(shù)據(jù),并對這些數(shù)據(jù)進行統(tǒng)一的表示學(xué)習(xí),在某個相空間中建立統(tǒng)一的語義表示模型。通過打通物模型圖譜、事理圖譜、時序網(wǎng)絡(luò)圖譜、業(yè)務(wù)數(shù)據(jù)圖譜、互聯(lián)網(wǎng)圖譜,融合各圖譜之間的語義知識,獲得對各種數(shù)據(jù)的進一步認(rèn)識,挖掘其價值。
圖5 路網(wǎng)中的逃犯追捕場景簡單演示
從2.3可知,數(shù)值型感知數(shù)據(jù)可以建模為單元時間序列、多元時間序列以及時序圖,其中所涉及到的圖網(wǎng)絡(luò)模型、序列模型、時序圖模型也可以在其他類型的感知數(shù)據(jù)中得到拓展應(yīng)用。其中,序列模型一般解決數(shù)值、語音、文本等數(shù)據(jù)問題,圖模型或時序圖模型解決圖片、視頻等數(shù)據(jù)問題,但還得根據(jù)具體的數(shù)據(jù)建模具體分析。下面主要針對時序模型以及時序圖模型在預(yù)測上的方法進行詳細(xì)介紹。
指僅根據(jù)歷史時間序列的趨勢發(fā)展來預(yù)測未來時間序列的趨勢發(fā)展的方法,此類方法通過建立適當(dāng)?shù)臄?shù)學(xué)模型擬合歷史時間趨勢曲線,根據(jù)所建模型預(yù)測未來時間序列的趨勢曲線,常見模型包括ARIMA、VAR、ARCH等[5-7]。單維時間序列方法所依賴的數(shù)據(jù)較簡單,只需要歷史時間序列趨勢曲線便可構(gòu)建模型,因此可適用于多種場景,模型較為通用。但是,ARIMA不能對非線性關(guān)系進行建模,也不能對序列以外的其他因素進行建模,VAR雖然屬于多維時間序列模型,但也不能對非線性進行建模,而且它們都不能對多個節(jié)點序列之間的關(guān)系進行建模。
為提高預(yù)測的精度,機器學(xué)習(xí)算法被引入時序預(yù)測,此類方法根據(jù)具體的應(yīng)用場景,選取可能影響預(yù)測值的特征,將這些特征引入模型,應(yīng)用機器學(xué)習(xí)的分類/回歸模型來進行預(yù)測。為提取特征,機器學(xué)習(xí)方法需要多個維度的數(shù)據(jù),預(yù)測精度較高,建立的模型較為復(fù)雜,但是模型往往不夠通用,針對不同應(yīng)用場景需要重新提取特征,建立模型。現(xiàn)實預(yù)測中,機器學(xué)習(xí)方法往往結(jié)合傳統(tǒng)單維時序預(yù)測法來運用?;跈C器學(xué)習(xí)的時間預(yù)測方法一般適用于多維時間序列分析,如 SVR[8]等,而像RNN、LSTM、GRU[9-11]等序列分析方法,也可以用于單維時間序列分析。
為了考慮節(jié)點之間的網(wǎng)絡(luò)關(guān)系,考慮各個節(jié)點的關(guān)系影響,時序圖方法也被用來解決該類問題。時序圖模型是指基于時間快照的圖模型,即每個時刻所有節(jié)點的關(guān)系都是一個固定的靜態(tài)圖,或者干脆只考慮其簡接關(guān)系即隱含的、可學(xué)習(xí)的關(guān)系。這些模型與上面的多元時間序列分析方法不同,需要通過模型直接學(xué)習(xí)空間關(guān)系而不是手動抽取結(jié)構(gòu)特征,所以這種方法需要結(jié)合空間卷積或圖結(jié)構(gòu)的學(xué)習(xí)方法,比如卷積網(wǎng)絡(luò) (CNN)、圖神經(jīng)網(wǎng)絡(luò)(GCN)等。隨著圖神經(jīng)網(wǎng)絡(luò)的爆火,目前已經(jīng)在車流預(yù)測上取得了一定的效果,涌現(xiàn)了STGCN、DCRNN[12-13]等時空序列模型。
物聯(lián)感知數(shù)據(jù)不僅包括傳感器獲得的數(shù)值數(shù)據(jù),還包括圖片、視頻、語音、文本(人、物交互產(chǎn)生)等幾種類型。如果我們對本文提到的復(fù)雜系統(tǒng)以及內(nèi)部的數(shù)據(jù)節(jié)點進行合理的映射,就基本可以對上述所有數(shù)據(jù)進行建模。例如,對于單維或多維序列模型,可以解決數(shù)值、語音、文本等數(shù)據(jù)建模、預(yù)測問題,例如車流/人流預(yù)測、文本翻譯等,對于時序圖模型可以解決圖片、視頻等數(shù)據(jù)建模、預(yù)測問題,例如物體識別、場景識別、人物姿態(tài)識別等,并且時序圖建模還可以應(yīng)用于復(fù)雜物理系統(tǒng)的狀態(tài)預(yù)測和推理,例如自動駕駛、司機動作理解等。
近年來,物聯(lián)數(shù)據(jù)分析已成為數(shù)據(jù)挖掘領(lǐng)域的研究熱點,在國內(nèi)外獲得了廣泛關(guān)注,本文從物聯(lián)基礎(chǔ)設(shè)施產(chǎn)生的數(shù)據(jù)種類出發(fā),建立了基于物模型、事件模型、感知數(shù)據(jù)模型為核心的物聯(lián)數(shù)據(jù)建模分析框架,并著重分析了數(shù)值型感知數(shù)據(jù)的分析方法。清晰定義的建模理論框架將會給該研究領(lǐng)域帶來理論上的指導(dǎo),一方面可更好地理解物聯(lián)數(shù)據(jù)種類及其具備的特點,另一方面也有助于物聯(lián)數(shù)據(jù)研究者提出更有效的分析技術(shù)。