謝小川,周紹軍,黎 力,黎 明
(1.四川師范大學 教師教育學院,四川 成都 610068;2.四川水利職業(yè)技術學院 信息工程系, 四川 崇州 611231;3.同濟大學 軟件學院,上海 201804; 4.四川師范大學 計算機科學學院,四川 成都 610101)
智慧城市期望用智能系統(tǒng)應對城市有限空間和資源的合理配置,使之達到能效的最大化或最優(yōu)化[1,2]。而智慧城市對數(shù)據(jù)感知應用越來越復雜,需要大量的計算資源和極高的數(shù)據(jù)質量要求,又由于智慧城市存在大量終端設備,這些設備可能因各種原由導致感知數(shù)據(jù)異常,如粗大誤差導致超出可接受誤差范圍的數(shù)據(jù)、外部干擾導致數(shù)據(jù)畸形和終端設備故障導致數(shù)據(jù)受損等。智慧城市異常數(shù)據(jù)是指少量的、與眾不同的和超出可接受誤差等的數(shù)據(jù),如數(shù)據(jù)的位置關系、函數(shù)關系、規(guī)則關系和序列關系等超出規(guī)定范圍;其產(chǎn)生于完全不同的機制,具有一定的隨機性和必然性。異常數(shù)據(jù)嚴重影響智慧城市的數(shù)據(jù)質量,導致感知數(shù)據(jù)不精準而帶來經(jīng)濟、人力和物力等的浪費,嚴重時導致生命財產(chǎn)的重大損失[3]。因此,必須有效檢測智慧城市感知端的異常數(shù)據(jù)并及時進行處理,對優(yōu)化整合各種資源、合理進行城市規(guī)劃,構筑賞心悅目和適居宜居的現(xiàn)代化城市,對提高城市安全可靠性、促進城市可持續(xù)發(fā)展和增強城市活力等,具有重要意義。
截至目前,很多研究者對智慧城市進行了探索和研究,得到很多成果,如大規(guī)模協(xié)調物聯(lián)網(wǎng)服務打造智慧城市[4]和新型數(shù)據(jù)驅動智慧城市及可持續(xù)發(fā)展解決方案[5]等。而研究者們對數(shù)據(jù)異常檢測方面,主要分為數(shù)據(jù)局部和全局的異常檢測,基于數(shù)據(jù)異常檢測所采用的策略和方法,可分為基于模型、基于聚類、基于距離、基于密度等[6],但基于密度的局部異常檢測研究較多,如文獻[7];亦有研究者對異常數(shù)據(jù)檢測進行了多方面的研究,如對物聯(lián)網(wǎng)數(shù)據(jù)質量[8]、異常數(shù)據(jù)檢測方法[9]、電子鼻模糊C均值異常檢測[10]、邊緣智能數(shù)據(jù)檢測[11]、加密數(shù)據(jù)集隱私保護異常檢測[12]和地質數(shù)據(jù)異常檢測[13]等。還有的研究者對醫(yī)療、環(huán)境和智能電網(wǎng)等異常數(shù)據(jù)檢測進行了研究,如文獻[14]對智能電網(wǎng)負荷預測的異常數(shù)據(jù)進行了研究,又如文獻[15]對工業(yè)時序數(shù)據(jù)異常檢測進行了研究??傊瑥默F(xiàn)有文獻成果看,大數(shù)據(jù)分析領域對數(shù)據(jù)異常進行了大量研究工作,取得了一定的數(shù)據(jù)異常檢測方法和算法,為進一步研究提供了有益的參考,但這些對數(shù)據(jù)異常檢測的研究,主要針對各種數(shù)據(jù)分析中的異常數(shù)據(jù),按照類型、質量和數(shù)據(jù)屬性等進行研究,未針對智慧城市數(shù)據(jù)感知進行異常數(shù)據(jù)檢測研究。
綜上,依據(jù)智慧城市對數(shù)據(jù)感知應用的特點和要求,利用時序關聯(lián)方法,對感知數(shù)據(jù)的異常值進行感知端和邊緣端的檢測,以降低服務端數(shù)據(jù)負荷、減少數(shù)據(jù)傳輸延遲和提高數(shù)據(jù)可靠性等。
依據(jù)物聯(lián)網(wǎng)、邊緣計算、云計算和大數(shù)據(jù)等技術,與可持續(xù)理念結合,得到如圖1所示具有邊緣計算的智慧城市框架[16]。框架共分為6層,由底層到高層依次為可持續(xù)城市規(guī)劃與智慧城市設計的類型與設計理念層、數(shù)據(jù)感知層、邊緣處理層、網(wǎng)絡傳輸層、大數(shù)據(jù)分析層和應用層。
類型與設計理念層利用物聯(lián)網(wǎng)和大數(shù)據(jù)分析等現(xiàn)代信息通信技術實現(xiàn)對城市規(guī)劃和智慧城市設計的管理,使其與可持續(xù)城市形態(tài)的類型和設計理念相結合,形成緊湊性、多樣性和土地合理利用等形態(tài)學觀點,可持續(xù)發(fā)展的交通、生態(tài)環(huán)境和能源的規(guī)劃與設計等理念,構成在可持續(xù)城市形態(tài)背景下實現(xiàn)城市可持續(xù)發(fā)展所需的關鍵策略和理念。
數(shù)據(jù)感知層主要是感知與城市相關的城市數(shù)據(jù)。城市數(shù)據(jù)由各種城市實體和專用物聯(lián)網(wǎng)感知與采集系統(tǒng)產(chǎn)生。數(shù)據(jù)在感知與采集后,形成海量城市數(shù)據(jù),利用邊緣處理層的計算資源,對感知數(shù)據(jù)在感知邊緣進行處理,以提高智慧城市實時性和降低數(shù)據(jù)通信時間等[17]。在網(wǎng)絡傳輸層時,通過ZigBee、WiFi、LPWAN、WiMAX、3G/4G/5G/LTE等移動通信、現(xiàn)場總線和以太網(wǎng)等,將邊緣處理層的城市數(shù)據(jù),傳輸?shù)缴弦粚舆M行時間與空間的標記、收集、存儲與檢索等。
大數(shù)據(jù)分析層,將來自網(wǎng)絡傳輸層的城市數(shù)據(jù),通過異構多協(xié)議網(wǎng)絡聚合器進行匯聚后,傳輸?shù)綄S玫臄?shù)據(jù)庫、數(shù)據(jù)倉庫和公共數(shù)據(jù)倉庫[18]。應用層通過數(shù)據(jù)處理與分析層的應用接口,進行具體的城市規(guī)劃與智慧城市建設,如進行城市的學校、衛(wèi)生、安全監(jiān)控、火災探測、產(chǎn)業(yè)、交通、道路和住房等具體的規(guī)劃。
依據(jù)邊緣計算理論,結合智慧城市的特征和要求,對圖1所示的邊緣出來層進一步抽象,并提升邊緣服務水平和能力,以使邊緣服務增強[19]。如圖2所示為邊緣服務增強現(xiàn)實框架。
圖2中,邊緣設備部分的每個設備可工作于相同的環(huán)境,但邊緣設備使用單處理器內核,各設備擁有的輸入輸出接口、處理器類型和存儲容量存在差異,且各設備的數(shù)據(jù)亦存在差異。圖2中,每個容器內的f表示異常數(shù)據(jù)檢測算法及任務分解,且由下向上依次為智慧城市各種應用,如智能家居和智能停車場等;各智慧城市應用的智能感知層和邊緣層(包括邊緣網(wǎng)關和邊緣服務層),然后是邊緣服務增強現(xiàn)實層和遠端云計算-大數(shù)據(jù)中心等。
邊緣服務增強現(xiàn)實置于邊緣服務器或邊緣網(wǎng)關,依據(jù)其在智慧城市中所處的重要性和服務關鍵與否來確定。
如圖2所示,邊緣服務增強現(xiàn)實封裝成容器,每個容器包含匹配階段、管道傳輸階段和執(zhí)行階段。期中匹配階段通過服務標識,編排一組需要進行管道流水處理的任務;管道傳輸階段將所選的任務依據(jù)功能進行適當?shù)牧魉€管道處理并傳輸?shù)较乱粋€階段;執(zhí)行階段是將管道啟動到終止后的任務,即管道流水線處理任務的結果發(fā)送到后端,如圖1的大數(shù)據(jù)分析層和應用層等。
依據(jù)感知節(jié)點(senor node,SN)的數(shù)據(jù)、時序等,與SN的鏈路延遲、網(wǎng)絡吞吐率和存儲使用率等序列進行關聯(lián),以便對不同時序的數(shù)據(jù)進行異常波動檢測。
圖1 邊緣計算智慧城市物聯(lián)網(wǎng)、大數(shù)據(jù)分析框架
圖2 邊緣服務增強現(xiàn)實框架
定義1 假設智慧城市中的系統(tǒng)SN,位于感知層感知網(wǎng)絡中,且定義該網(wǎng)絡為時序數(shù)據(jù)的無權圖G(V,E), 其中V表示網(wǎng)絡中SN集合, |V|=n表示節(jié)點數(shù);E為網(wǎng)絡中邊的集合,如圖2中感知層SN到匯聚節(jié)點或匯聚節(jié)點到匯聚節(jié)點的虛擬連線,表示感知節(jié)點間的連接關系。
(1)
Sm(tj) 表示感知網(wǎng)絡中所有節(jié)點在tj時刻的時序關聯(lián)數(shù)據(jù)。
本文所研究的問題是時序窗口Tw的時序關聯(lián)數(shù)據(jù)集合Sm={Sm(t1),Sm(t2),…,Sm(tw)}, 進行時序關聯(lián),時序關聯(lián)數(shù)據(jù)和原始感知數(shù)據(jù)進行檢測,檢測是否存在異常時序關聯(lián)數(shù)據(jù)。
本文邊緣計算的異常數(shù)據(jù)檢測流程中,先對智慧城市各系統(tǒng)感知數(shù)據(jù)進行時序關聯(lián),而得到時序關聯(lián)的原始數(shù)據(jù)集Sm={Sm(t1),Sm(t2),…,Sm(tw)}, 如圖3所示。圖3中,處理流程模塊為時序原始數(shù)據(jù)生成模塊、時序關聯(lián)分析模塊、異常數(shù)據(jù)檢測與分離模塊和異常數(shù)據(jù)與正常數(shù)據(jù)輸出模塊[20]。
圖3 異常檢測流程
在時序原始數(shù)據(jù)模塊,依據(jù)給定的關聯(lián)規(guī)則,將每個SN感知數(shù)據(jù),與SN鏈路延遲、所處網(wǎng)絡的吞吐率及SN內部存儲使用率進行關聯(lián),生成時序關聯(lián)的原始數(shù)據(jù)。將時序關聯(lián)的原始數(shù)據(jù)輸入下一個模塊,進行時序關聯(lián)分析,生成精簡的時序關聯(lián)數(shù)據(jù)集;然后利用本文設計的異常數(shù)據(jù)檢測算法,對精簡的時序關聯(lián)數(shù)據(jù)集進行異常數(shù)據(jù)檢測,得到檢測分離的異常數(shù)據(jù)和正常數(shù)據(jù)。
智慧城市各系統(tǒng)的感知時序,由SN感知和采集的一系列連續(xù)的數(shù)據(jù)點構成。對單個SN而言,其感知和采集的數(shù)據(jù)添加時間特性,即在時刻tj時節(jié)點vi的時序數(shù)據(jù)為
(2)
由式(2)可知,智慧城市感知層的某個SN的感知數(shù)據(jù)添加時間量后,構成四元組的時間信息[21]。而式(2)描述單個SN感知數(shù)據(jù)與時間量的關系,增加了復雜度;為減少數(shù)據(jù)的復雜度,對式(2)進行抽象和簡化,得到
(3)
S={s1,s2,…,sL}
(4)
定義2 在具有相同時間點集合的兩條時序Si和Sj, 設tcorr(Si,Sj) 為定義在Si和Sj上的關聯(lián)度的計算函數(shù),則序列Si和Sj間的關聯(lián)度判定可定義為:
(1)若|tcorr(Si,Sj)|∈[θh,1], 則序列Si和Sj強關聯(lián);
(2)若|tcorr(Si,Sj)|∈[θl,θh), 則序列Si和Sj弱關聯(lián);
(3)若|tcorr(Si,Sj)|∈[0,θl), 則序列Si和Sj無關聯(lián);
其中:θl、θh為序列Si和Sj間關聯(lián)度設定的最小值和最大值。
定義3 若具有相同時間點集合的兩條時序Si和Sj存在微小時間滯后性,即對Si和Sj有ti (5) 定義4 若智慧城市一個系統(tǒng)的感知層數(shù)據(jù)集為S, 包含n個k維特征空間的感知數(shù)據(jù),假設a是指定的一組屬性,則定義A為包含屬性a的p維數(shù)據(jù)集,即 A={A1,A2,…,Ap} (6) 由此,設集合S={S1,S2,…,Sp} 中的Si={s1,s2,…,sn} 為Si的n個數(shù)據(jù)點集,則si={si1,si2,…,sip} 和sij(i=1,2,…,n;j=1,2,…,p) 為屬性Aj上的si值,且稱sij為一維數(shù)據(jù)點。在給定Aj上對Si的sij值,其稀疏密度為 (7) (8) SDVij值大小表示sij所在區(qū)域的稀密情況,若SDVij值高則表示sij所在區(qū)域為稀疏區(qū),否則為稠密區(qū)。因此,利用式(2)~式(8),即可將智慧城市感知層數(shù)據(jù)與時間進行關聯(lián),并得到感知數(shù)據(jù)的稀疏情況。 算法1: 時序關聯(lián)分析算法 //input: 原始數(shù)據(jù)集S, 數(shù)據(jù)維度p, 稀疏度閾值ε, //output: 精簡時序關聯(lián)數(shù)據(jù)集RDS { n=|S|;k=sqrt(n); for (i=0;i { 對S進行排序, 賦值給Si; for(j=0;j { 按照式(7)計算SDVij; SDVij賦值給稀疏度矩陣SDM[i][j]; } } for(i=0;i { for(j=0;j { if (SDM[i][j]<ε) SDMm[i][j]=1; elseSDMm[i][j]=0; } } IrrP←φ;//IrrP無關聯(lián)屬性 for(i=0;i { IrrP←Irrp∪Si; elseRDS←RDS∪Si; } UdP←φ;//無關聯(lián)數(shù)據(jù)點 for(j=0;j { UdP←UdP∪Sj; } returnRDS←RDS-UdP; } 算法1依據(jù)圖3中的時序關聯(lián)分析進行設計,其時間復雜度為O(m×n)。 算法1中,SDM[i][j] 為數(shù)據(jù)的稀疏度矩陣,SDMm[i][j] 為數(shù)據(jù)稀疏度密度矩陣,算法1的輸出為生成的精簡時序關聯(lián)數(shù)據(jù)集RDS。 利用算法1求得原始數(shù)據(jù)的精簡時序關聯(lián)數(shù)據(jù)集,輸入到異常數(shù)據(jù)檢測部分進行異常數(shù)據(jù)檢測處理。對精簡時序關聯(lián)數(shù)據(jù)集按圖3方案,先對精簡時序關聯(lián)數(shù)據(jù)集進行時序關聯(lián)對齊和時序缺失填充的預處理,然后進行時序關聯(lián)計算,再次進行時序關聯(lián)圖構建、時序關聯(lián)團構建和時序關聯(lián)團間構建等檢測,將檢測結果輸入異常檢測模型,得到異常數(shù)據(jù)集和正常數(shù)據(jù)集。 對每個精簡時序數(shù)據(jù)集進行逆向逐段聚集均值(reverse piecewise aggregate approximation,RPAA)處理,以實現(xiàn)對數(shù)據(jù)集的縮減,并便于對各時序數(shù)據(jù)集的屬性進行提取[22]。 定義5 若k近鄰si的最近鄰總數(shù)為k, 且其k正則最近鄰(k-regular nearest neighbor,k-RNN)和k-共享最近鄰(k-shared nearest neighbor,k-SNN)有零個、一個或多個,則定義在給定knn(si)、k-RNN(si)和k-SNN(si)時的si擴展鄰域為 EF(si)=knn(si)∪k-RNN(si)∪k-SNN(si) (9) 式中:i=1,2,…,k。 定義6 若k近鄰si的最近鄰總數(shù)為k, 其擴展領域為EF(si), 則其k近鄰擴展核密度函數(shù)ρ(si) 定義為 (10) 由定義5和定義6,得到評估si密度與局部k近鄰間的差異度為 (11) 式中:i=1,2,…,k,j=1,2,…,n。 定義7 對無向圖G(V,E) 依據(jù)定義1,初始化時序相關圖,即Gr=(V,E), 設置關聯(lián)差異度DDF(si) 值αr大于等于兩個頂點之間的無向邊,并對所有頂點進行遍歷,則所構建的圖為時序關聯(lián)圖,其構建流程定義為: (1)用定義4對Gr=(V,E) 每個頂點初始化關聯(lián)系數(shù)矩陣,設置關聯(lián)程度閾值αr; (2)i從1到k,j從i+1到k, 若DDF(si)≥αr, 則Gr中加入邊eij=(vi,vj); (3)得到Gr即為時序關聯(lián)圖。 定義8 在給定時序關聯(lián)圖Gr=(V,E),C是滿足定義4的頂點集合,即C={v1,v2,…,vk}, 當k≥2時,若C滿足: (1)?si∈C,有si∈V(Gr); (2)?si∈C,有dg(si)≥|C|/2, 即C中每個頂點的度大于等于該團內頂點數(shù)的一半; (3)給定αr, ?si,sj∈C, 有w(eij)≥αr; (4)C是Gr上滿足條件(1)、條件(2)的最大頂點集,即sj∈S且sj?C使得C∪sj成立的sj不存在;則稱C是Gr上的一個時序關聯(lián)團。 定理1 圖Gr可表示為若干個時序關聯(lián)團的集合,即Gr={C1,C2,…,Cm}, 則Ci(i=1,2,…,m) 滿足: 定理2Ci,Cj為相鄰兩個時序關聯(lián)團,Ci,Cj存在一定相互影響,則Ci,Cj滿足: (1)存在給定的影響控制因子θ∈(0,1]; (2)影響系數(shù)為 (12) icof(Ci,Cj) 表示時序關聯(lián)團Ci對Cj的影響程度。 構建完時序關聯(lián)圖和時序關聯(lián)團等后,利用前面的定義和定理,對精簡時序關聯(lián)數(shù)據(jù)集RDS進行異常數(shù)據(jù)檢測。在智慧城市感知層數(shù)據(jù)集中,異常數(shù)據(jù)以較低概率出現(xiàn)在單維或多維時序數(shù)據(jù)集上,并異常方式將會持續(xù)一定時間,而不是少量離散型異常數(shù)據(jù)。檢測時,采用算法1得到的精簡時序數(shù)據(jù)集作為輸入數(shù)據(jù)集,以時序段進行逐段異常檢測分析。對智慧城市感知層的Si傳感器組的時間段Ti的k維時序,利用算法2進行異常數(shù)據(jù)檢測,輸出異常時序關聯(lián)數(shù)據(jù)集Otsad(s)。 算法2:異常檢測算法 //input:精簡數(shù)據(jù)集RDS,維度p,差異度閾值αr,時序關聯(lián)圖模型Gr,控制因子θ,影響系數(shù)閾值conicof //output:異常數(shù)據(jù)集合Otsad(s) { Otsad(si)←φ; 初始化圖Gr; for eachsi∈RDSdo knn(si)=獲取外部點(EF(si),si); k-RNN(si)=獲取內部點(EF(si),si); k-SNN(si)=φ; for eachsj∈knn(si) do k-RNN(sj)=獲取內部點(EF(si),si); k-SNN(si)=knn(sj)∪k-RNN(si); end for end for for eachsi∈RDSdo 根據(jù)式(11)計算每個si的偏離度; DDF(si)←sort(DDF(si),‘降序’); end for forCi∈C(Gr) do { ifDDF(Ci)≥αr&&Ci的度=0 && len(Ci)?2 then 將Ci中序列做單維時序異常檢測,將異常則加入Otsad(s); continue; ifCi={v}是單點時序相關團 &&DDF(Ci)<αrthen 將v加入V; else { ificof(Ci,Cj) { 初始化圖Ga,令|V(Ga)|←len(Ci),len(Cj); forvi,vj∈Ci,Cj&&eij∈E(Ga) do ifw(eij)<αrthenGa←e(vi,vj);//Gb記錄異常邊 Ga添加度為非0的頂點v; ifGa是二分圖thenOtsad(s)<--求解其最小覆蓋; elseOtsad(s)<--求得異常序列; Otsad(s)←Ci,CjOtsad(s);//時序相關團內異常的點 } } forCi,Cj∈C(Gr) do //時序相關團間異常檢測 ifw(eij)<αrthen Gr←e(Ci,Cj); } Gr加入沒有度的團C; ifGr是二分圖then Otsad(s)<--求解其最小覆蓋; elseOtsad(s)<--求得異常序列; returnOtsad(s); 算法2進行異常時序關聯(lián)數(shù)據(jù)檢測時,其主要時間消耗于精簡時序數(shù)據(jù)集RDS的偏離度計算、時序關聯(lián)圖構建和求解最小覆蓋與計算異常時序關聯(lián)數(shù)據(jù)。若給定的RDS數(shù)據(jù)集為k維n個數(shù)據(jù),則計算每個si的偏離度的時間復雜度為O(n2); 時序關聯(lián)圖構建與計算的時間復雜度為O(n×k), 而求解最小覆蓋與計算異常時序關聯(lián)數(shù)據(jù)的最壞情況時間復雜度為O(n3)。 本文求解最小覆蓋時使用匈牙利算法,求解和計算異常時序關聯(lián)數(shù)據(jù)時使用禁忌搜索算法。 依據(jù)圖1和圖2架構,利用本單位現(xiàn)有數(shù)據(jù)感知設備和資源,搭建如圖4所示的實驗數(shù)據(jù)環(huán)境,來代表智慧城市感知層和邊緣處理層。 圖4 實驗數(shù)據(jù)采集 圖4中,3臺PC機的功能為邊緣服務器,使用16 GB內存、主頻2.9 GHz的英特爾酷睿i7-10700處理器的PC機,并與帶ZigBee網(wǎng)關的3臺設備通過USB轉JTAG連接,3臺PC機間通過以太網(wǎng)相互連接以實現(xiàn)邊緣服務間的通信。8臺感知設備通過ZigBee與網(wǎng)關進行通信。 實驗用8種傳感器的8個設備感知數(shù)據(jù),每個傳感器每秒采集8次數(shù)據(jù),每個數(shù)據(jù)占1字節(jié),30天不間斷采集數(shù)據(jù),實驗設備所數(shù)據(jù)量共計1.236 GB。數(shù)據(jù)所包括的時間序列為127列,經(jīng)本文算法1預處理后,得到97列總計117.3萬個時間點上的數(shù)據(jù)。邊緣服務器使用聯(lián)想Think-pad16 GB內存、主頻1.8 GHz的英特爾酷睿i7-10510u處理器上運行。 定義9 若DoC={doc1,doc2,…,docn} 為數(shù)據(jù)對象集,DcS為集合DoC的一個分類,設Cf(doci)(1≤i≤n) 是基準確定的doci的分類,Cnum(doci) 是DcS中doci的分類號,對于兩個對象doci和docj, 則分類的正確性定義為 (13) 由定義9,得到數(shù)據(jù)處理的準確率為 (14) 同樣得到召回率為 (15) 利用式(14)和式(15)的準確率和召回率,表示本文算法和參比算法的指標。 實驗時,本實驗選取時間長度為4000的數(shù)據(jù)作為一個測試數(shù)據(jù)組。對117.3萬個時間點上的127列時序數(shù)據(jù),使用近400組數(shù)據(jù),通過算法2得到長度大于800的異常數(shù)據(jù)總數(shù)大約為1800個。如表1所示,為實驗時某時刻感知到的時序數(shù)據(jù)集,應用本文算法,可得到氣壓傳感器、溫度傳感器和光照傳感器的異常數(shù)據(jù)點如表1中灰色所示,而在此時刻濕度傳感器感知數(shù)據(jù)無異常。 表1 實驗時某時刻感知數(shù)據(jù)集 先進行不同k值和不同維度p,相同數(shù)據(jù)量下的運行時間實驗,得到如圖5所示的曲線。 圖5(a)所示,k值從10變到40的運行時間與數(shù)據(jù)量曲線。通過隨機選取維度對數(shù)據(jù)進行處理,以得到數(shù)據(jù)的異常值;主要做了三維的感知數(shù)據(jù),通過算法1和RPAA處理,得到算法2的輸入數(shù)據(jù),然后用算法2進行處理,得到不同k值的算法2運行時間曲線。從圖5(a)可知,k值越大,隨著數(shù)據(jù)量的增加,其運行時間趨近于線性增加。算法2的性能與數(shù)據(jù)維度的關系,如圖5(b)所示,在數(shù)據(jù)量較小時,算法2的運行時間比較短,當維度增加時,算法運行時間隨著數(shù)據(jù)量的增加而急劇增加,故數(shù)據(jù)維度嚴重影響算法2的效率。 圖5 不同k值和不同p維度值的運行時間曲線 對相同數(shù)據(jù)量的不同維度進行仿真實驗,得到如圖6所示的準確率和召回率對比曲線,其中圖6(a)是準確率對比曲線、圖6(b)是召回率對比曲線。從圖6可知,文獻[20]和文獻[23]的算法,當數(shù)據(jù)量和維度均增加時,其準確率和召回率均有明顯下降,而本文算法準確率保持在0.8到0.9之間,且起伏較小。因此,隨著序列數(shù)據(jù)的增加,本文算法的準確率和召回率比較穩(wěn)定,這反映多維時序關聯(lián)的異常數(shù)據(jù)檢測算法具有較高的異常檢測性能。 圖7為異常數(shù)據(jù)量對本文算法與參比算法的影響曲線。隨著數(shù)據(jù)中異常數(shù)據(jù)的增加,各算法均存在一定程度的性能下降。本文算法在準確率方面,如圖7(a)所示,其變化分為維持在0.7到0.93之間,但總趨勢為下降,只是下降比較緩慢;參比算法而言,其準確率下降比較快。圖7(b)為各算法在召回率受異常數(shù)據(jù)的影響程度曲線,從曲線可以看出,本文算法維持在0.77到0.91之間,總體趨勢隨著異常數(shù)據(jù)增加而緩慢下降;參比算法中,文獻[20]、文獻[23]算法下降趨勢比較明顯,文獻[22]算法雖然下降趨勢不是很明顯,但召回率較本文算法低。這就說明本文設計的算法在異常數(shù)據(jù)增加的條件下,仍然能保持較高的準確率和召回率,其檢測結果能夠保持穩(wěn)定。 圖6 數(shù)據(jù)維度變化對性能的影響曲線 圖7 異常數(shù)據(jù)量對算法性能影響曲線 測試通過使用不同數(shù)據(jù)規(guī)模分析各算法性能變化趨勢,如圖8所示。從圖8(a)可知,本文算法在數(shù)據(jù)量較小時,其準確率維持在0.9上下,當數(shù)據(jù)量增加時,準確率呈現(xiàn)緩慢下降趨勢;而參比算法,在數(shù)據(jù)量增加時,其準確率下降比較明顯。從圖8(b)可知,本文算法在數(shù)據(jù)量較小時,召回率呈現(xiàn)微弱的上升趨勢,當數(shù)據(jù)量達到0.5 GB以后,就呈現(xiàn)下降趨勢;參比算法在數(shù)據(jù)量較小時,呈現(xiàn)起伏變換,而當數(shù)據(jù)量達到0.4 GB以后,召回率就明顯下降。 圖8 數(shù)據(jù)量對算法性能的影響曲線 通過上述仿真對比實驗,當數(shù)據(jù)集的維度、數(shù)據(jù)量和異常數(shù)據(jù)量等增加時,本文算法較參比算法而言,具有穩(wěn)定性和準確率、召回率優(yōu)于參比算法,驗證本文提出的智慧城市邊緣數(shù)據(jù)異常檢測算法具有有效性。另一方面,當待分析數(shù)據(jù)增加時,雖然異常數(shù)據(jù)總量也要增加,但本文算法的仿真結果可靠,對異常數(shù)據(jù)檢測具有較高的準確率和較好的召回率。 針對智慧城市感知邊緣存在感知數(shù)據(jù)異常問題,提出了基于時序的邊緣檢測異常數(shù)據(jù)算法。首先對解決該問題的基于邊緣計算的智慧城市物聯(lián)網(wǎng)、大數(shù)據(jù)分析框架進行了設計,同時設計了邊緣服務增強現(xiàn)實框架。其次,對智慧城市邊緣檢測異常數(shù)據(jù)問題進行了定義,設計了檢測流程和時序關聯(lián)計算算法,提出了基于時序關聯(lián)的智慧城市邊緣檢測異常數(shù)據(jù)算法。然后,對提出的算法,利用感知設備采集數(shù)據(jù),在采集數(shù)據(jù)集上進行了大量實驗與仿真,表明本文提出的算法在解決時序關聯(lián)數(shù)據(jù)異常檢測的準確率和召回率方面,較參比算法而言,具有一定的優(yōu)越性。2.4 檢測算法
3 實驗與仿真
3.1 實驗數(shù)據(jù)
3.2 仿真比較
4 結束語