亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于城市計算的分布式異常數(shù)據(jù)分級過濾算法

        2021-10-11 13:37:48王誓偉徐曉斌梁中軍
        計算機集成制造系統(tǒng) 2021年9期
        關(guān)鍵詞:實驗

        王誓偉,徐曉斌,梁中軍

        (1.北京工業(yè)大學(xué) 未來網(wǎng)絡(luò)科技創(chuàng)新中心,北京 100124;2.國家氣象信息中心 北京 100081)

        0 引言

        城市計算是計算機科學(xué)中以城市為背景,與城市規(guī)劃、交通、能源、環(huán)境、社會學(xué)和經(jīng)濟等學(xué)科融合的領(lǐng)域,通過不斷獲取、整合和分析城市中多種異構(gòu)大數(shù)據(jù)來解決城市所面臨的挑戰(zhàn)[1]。文獻[1-2]闡述了物聯(lián)網(wǎng)在城市交通、環(huán)境監(jiān)測等多個領(lǐng)域的廣泛應(yīng)用,同時也指出了在數(shù)據(jù)采集過程中,存在著設(shè)備類型繁多、設(shè)備所處物理環(huán)境惡劣、數(shù)據(jù)傳輸渠道復(fù)雜的問題。文獻[3]討論了傳感器網(wǎng)絡(luò)中廣泛存在的安全問題,傳感器網(wǎng)絡(luò)一般不具備特殊的物理保護,使得大部分密鑰管理方案或協(xié)議不能被嫁接到傳感器網(wǎng)絡(luò)中,開發(fā)新的安全解決方案需要時間,為攻擊者向網(wǎng)絡(luò)中注入虛假數(shù)據(jù)提供了可乘之機。另外,即使是在無人為破壞的情況下,物聯(lián)網(wǎng)設(shè)備數(shù)據(jù)傳輸?shù)倪^程中,也會面臨數(shù)據(jù)異常的問題[4-5]。這些虛假或異常的數(shù)據(jù)一方面會嚴重影響采集數(shù)據(jù)的質(zhì)量,導(dǎo)致數(shù)據(jù)分析系統(tǒng)分析不準確,進而導(dǎo)致決策失誤。另一方面,它們會占用城市計算寶貴的網(wǎng)絡(luò)和計算資源,嚴重影響城市計算系統(tǒng)的效率。因此城市數(shù)據(jù)安全已經(jīng)成為了城市計算中的一個重要命題[6]。

        城市計算的能力是寶貴有限的,因此對其進行合理的資源分配顯得尤為重要,移動邊緣計算將云計算中心的功能下沉到邊緣云,使得云計算中心更靠近資源需求方,在面對數(shù)據(jù)吞吐量較大的場景,使用分布式的處理方法可以有效地降低網(wǎng)絡(luò)整體的傳輸延遲,提高系統(tǒng)的處理效率[7-8]。

        目前城市異常數(shù)據(jù)處理在城市計算的很多方面都有了廣泛的應(yīng)用:文獻[9]對紐約市1.6億條出租車出行記錄進行異常數(shù)據(jù)分析;文獻[10]對大規(guī)模交通數(shù)據(jù)進行異常數(shù)據(jù)檢測;文獻[11]在無線傳感器網(wǎng)絡(luò)中對異常數(shù)據(jù)進行監(jiān)測,文獻[9-10]探索了關(guān)于城市單一應(yīng)用的異常數(shù)據(jù)處理問題;文獻[11]探索了在局部傳感器網(wǎng)絡(luò)中異常數(shù)據(jù)處理問題。但是單一應(yīng)用場景數(shù)據(jù)解決方案可能會依賴于應(yīng)用數(shù)據(jù)的獨特特性,導(dǎo)致方法不具有通用性。同時,局部網(wǎng)絡(luò)中的異常數(shù)據(jù)解決方法也無法滿足城市規(guī)模級的“多數(shù)據(jù),多任務(wù)”的場景,因此本文提出一種面向城市級的異構(gòu)數(shù)據(jù)分布式異常過濾算法。

        本文面向應(yīng)用層,設(shè)計了一種適用于異構(gòu)數(shù)據(jù)的提取協(xié)議,在該協(xié)議中,每一個數(shù)據(jù)源設(shè)備都將所有數(shù)據(jù)同時發(fā)送到網(wǎng)絡(luò)中,不同的應(yīng)用根據(jù)實際需要,通過設(shè)定偏移字段的數(shù)值,得到所需類型數(shù)據(jù),實現(xiàn)異構(gòu)數(shù)據(jù)的快速獲取;基于移動邊緣計算架構(gòu),設(shè)計了一種分布式的異常數(shù)據(jù)分級過濾算法,使用模糊集合對每類數(shù)據(jù)進行表示,計算出異常數(shù)據(jù)的隸屬函數(shù);單個節(jié)點通過設(shè)定可疑數(shù)據(jù)與異常數(shù)據(jù)閾值,過濾掉異常數(shù)據(jù),并標記可疑數(shù)據(jù);應(yīng)用收到多個節(jié)點的數(shù)據(jù)后,基于多個節(jié)點的數(shù)據(jù)對可疑數(shù)據(jù)進一步分析,過濾掉異常數(shù)據(jù)。

        1 相關(guān)工作

        異常過濾算法的重點是實現(xiàn)對異常點的識別。關(guān)于識別異常點,文獻[12]建立了屬性的特征空間,通過計算數(shù)據(jù)點的離群距離來判斷數(shù)據(jù)點的異常程度。該方法具有良好的檢測效果和廣泛的適用性,但該算法時間復(fù)雜度過高,實時識別能力較弱,且不能滿足實時分布式場景的需要。文獻[13-14]提出一種在動態(tài)混合屬性數(shù)據(jù)集中進行分布式離群值檢測的可調(diào)算法。文獻[15-16]通過密度聚類的方法對異常點進行捕獲,但基于聚類的方法會局限于聚類簇的選擇和個數(shù),另外,聚類模型也只適用于特定的數(shù)據(jù)類型。文獻[17]提出一種基于高斯統(tǒng)計的異常點識別算法,但是只基于統(tǒng)計的方法,過度依賴于先驗知識,不能很好地處理未先驗的情況。

        為解決上述問題,并考慮到數(shù)據(jù)具有時空相關(guān)性,提出一種部署于感知節(jié)點之上,基于高斯隸屬度的分布式異常過濾的算法。該算法通過對數(shù)據(jù)隸屬度和數(shù)據(jù)差值變化隸屬度進行分析,共同初步過濾異常無效的信息。同時,利用移動邊緣計算,聯(lián)合多節(jié)點對異常數(shù)據(jù)作進一步的過濾運算,從更高維的層面分析數(shù)據(jù)異常問題,進一步提高過濾水平。結(jié)合提出的過濾算法,設(shè)計了一種匹配的城市數(shù)據(jù)類型的數(shù)據(jù)提取協(xié)議。

        2 面向城市計算的異構(gòu)數(shù)據(jù)提取協(xié)議

        在智慧城市中存在著各式各樣的數(shù)據(jù)類型,由于不同的數(shù)據(jù)類型具有不同的數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)處理分析系統(tǒng)針對不同的數(shù)據(jù)結(jié)構(gòu)進行數(shù)據(jù)提取的過程中,會嚴重降低系統(tǒng)的性能。因此,本文設(shè)計了一種通用的異構(gòu)數(shù)據(jù)提取協(xié)議,并基于這種協(xié)議,定義了一種新的數(shù)據(jù)包數(shù)據(jù)結(jié)構(gòu),通過引入編解碼器將數(shù)據(jù)中心數(shù)據(jù)預(yù)處理及數(shù)據(jù)提取的過程下放到邊緣計算中,以降低云數(shù)據(jù)中心的數(shù)據(jù)處理負擔,提高數(shù)據(jù)中心數(shù)據(jù)分析的性能和效率。

        2.1 城市計算中的異構(gòu)數(shù)據(jù)定義

        在城市計算中,終端設(shè)備及其獲取到的數(shù)據(jù)類型繁多,因此可以對傳輸報文進行統(tǒng)一制定,以減少系統(tǒng)處理識別的壓力。

        假設(shè)城市計算中可能包含的數(shù)據(jù)類型有n類,則每種設(shè)備可以獲取其中的m(m≤n)類數(shù)據(jù),因此,城市數(shù)據(jù)所具有的種類數(shù)量的信息熵即為所需要的數(shù)據(jù)類型編碼的長度。

        本文使用定長編碼的方式對n種數(shù)據(jù)類型進行編碼,根據(jù)定義1求得編碼長度L。從二進制數(shù)字0開始以自增的形式與城市數(shù)據(jù)類型一一對應(yīng)起來,對每一種數(shù)據(jù)類型形成獨有ID編碼。

        定義1城市數(shù)據(jù)所具有的種類數(shù)量的信息熵:

        L=log2n。

        (1)

        對于數(shù)據(jù)內(nèi)容,由于城市數(shù)據(jù)內(nèi)容長度不一,因此本文采用硬編碼的方式,在感知節(jié)點對每類數(shù)據(jù)直接設(shè)定好數(shù)據(jù)長度。

        2.2 數(shù)據(jù)包結(jié)構(gòu)

        數(shù)據(jù)包內(nèi)容如表1所示,其中數(shù)據(jù)類型ID,數(shù)據(jù)內(nèi)容是需要匹配加進數(shù)據(jù)包的。數(shù)據(jù)包生成后將以二進制流的方式上傳。

        表 1 數(shù)據(jù)包字段

        2.3 數(shù)據(jù)提取方法

        城市計算中可能有很多種應(yīng)用,每類應(yīng)用都需要若干種數(shù)據(jù)。每個應(yīng)用需要記錄數(shù)據(jù)源的設(shè)備ID,以及該設(shè)備ID下每一個數(shù)據(jù)類型內(nèi)的數(shù)據(jù)內(nèi)容。

        數(shù)據(jù)提取過程如圖1所示。編解碼器(codecs)提供了對數(shù)據(jù)流的轉(zhuǎn)換和分析能力,編解碼器使用數(shù)據(jù)切片的方式對數(shù)據(jù)流進行分析,將異構(gòu)數(shù)據(jù)流分解為多類數(shù)據(jù)片段,從而提取其中的城市數(shù)據(jù)信息。

        3 異常數(shù)據(jù)過濾算法

        在過濾大規(guī)模城市數(shù)據(jù)的過程中,需要每一個終端設(shè)備都具有初步獨立過濾數(shù)據(jù)的能力。為解決終端設(shè)備獨立過濾的問題,本文提出基于高斯隸屬分析的數(shù)據(jù)過濾方案。本算法通過計算城市數(shù)據(jù)的高斯隸屬度和數(shù)據(jù)差值變化高斯隸屬度,聯(lián)合考慮以求得數(shù)據(jù)的聯(lián)合隸屬度。數(shù)據(jù)高斯隸屬度從數(shù)據(jù)分布的角度描述了數(shù)據(jù)對應(yīng)于整體的隸屬程度,數(shù)據(jù)差值變化高斯隸屬度從數(shù)據(jù)差值變化分布的角度探討了連續(xù)數(shù)據(jù)在數(shù)據(jù)變化時的可能性。數(shù)據(jù)的聯(lián)合隸屬度反映了其對于整體數(shù)據(jù)的可信關(guān)系、隸屬關(guān)系。隸屬度越高,則數(shù)據(jù)可信度越高。同時,本文又結(jié)合數(shù)據(jù)具有時空相關(guān)性提出了基于移動邊緣云的異常數(shù)據(jù)過濾,進一步提高了數(shù)據(jù)挖掘分析的能力。

        3.1 單節(jié)點異常數(shù)據(jù)隸屬度分析

        在實際應(yīng)用中許多物理量的概率分布都可以使用高斯分布或近似高斯分布進行描述[17],城市物理數(shù)據(jù)也不例外。根據(jù)概率學(xué)原理,高斯分布的描述如定義2所示。

        定義2如果隨機變量X的概率密度函數(shù)為:

        (2)

        式中:u和σ為常數(shù),σ>0,則X服從高斯分布,記X~N(u,σ2),稱X為正態(tài)隨機變量。

        對于滿足X~N(u,σ2)的城市數(shù)據(jù),可以先對城市數(shù)據(jù)進行預(yù)處理,計算出其整體的數(shù)據(jù)分布概率密度函數(shù)P(x),并根據(jù)定義3求出其數(shù)據(jù)高斯隸屬度Y(x)。

        定義3該定義描述了從概率密度函數(shù)到數(shù)據(jù)高斯隸屬度的映射關(guān)系:

        (3)

        式中:P(x)是城市數(shù)據(jù)所對應(yīng)的高斯分布的概率密度函數(shù),σ是其對應(yīng)高斯分布的方差。在定義中,數(shù)據(jù)值如果偏離歷史分布太遠,就會導(dǎo)致其獲得較小的數(shù)據(jù)高斯隸屬度。

        類似地,根據(jù)數(shù)據(jù)變化的差值,也可以建立起數(shù)據(jù)差值變化的高斯分布,從而得到數(shù)據(jù)差值高斯隸屬度D(x)。

        數(shù)據(jù)的聯(lián)合隸屬度為A(x),A(x)=Y(x)×D(x),A(x)∈[0,1]。對于數(shù)據(jù)的聯(lián)合隸屬度,可以通過定義異常隸屬度門限Tat,可疑隸屬度門限Tst,對數(shù)據(jù)進行進一步地區(qū)分、標記、過濾。對于A(x)∈[0,Tat)的數(shù)據(jù)將它標記為異常數(shù)據(jù),實行過濾,對于A(x)∈[Tat,Tst)的數(shù)據(jù)將它標記為可疑數(shù)據(jù);對于A(x)∈[Tst,1]的數(shù)據(jù)將它標記為合理數(shù)據(jù)。

        數(shù)據(jù)過濾流程如圖2所示,數(shù)據(jù)通過過濾器后,被區(qū)分為異常數(shù)據(jù)、可疑數(shù)據(jù)、合理數(shù)據(jù)。上傳可疑數(shù)據(jù)和合理數(shù)據(jù),在本地直接過濾掉異常數(shù)據(jù)。

        3.2 基于移動邊緣云的異常數(shù)據(jù)過濾

        基于高斯隸屬度的過濾算法,只能很好地解決在正常數(shù)據(jù)范圍的數(shù)據(jù)過濾問題。但如果出現(xiàn)特殊情況,移動邊緣計算可以幫助城市計算從更高維度的角度考慮數(shù)據(jù)異常的問題,應(yīng)用場景如圖2所示。

        在移動邊緣計算層,可以通過對多個節(jié)點的數(shù)據(jù)進行聯(lián)合分析,進而挖掘數(shù)據(jù)異常的潛在可能。如果很多節(jié)點上傳的數(shù)據(jù)都可疑,則可以認為是環(huán)境異常變化導(dǎo)致的。例如突然降溫,所有節(jié)點采集到的溫度數(shù)據(jù)都會驟降,那么這樣的數(shù)據(jù)屬于正常數(shù)據(jù)。通過設(shè)置可疑節(jié)點數(shù)量門限d,當匯報可疑變化的節(jié)點數(shù)量大于可疑數(shù)量門限,則認為數(shù)據(jù)的可疑變化屬于正常變化;若小于這一門限,則認為數(shù)據(jù)的可疑變化屬于異常變化,進行過濾。

        4 仿真實驗及分析

        基于本文的算法設(shè)計,本章主要完成仿真實驗并測試算法的性能。本文設(shè)計了兩個實驗,來評價本文提出的異常數(shù)據(jù)算法的性能,通過移動邊緣云的分布式實時數(shù)據(jù)過濾算法對異常數(shù)據(jù)進行識別及過濾。仿真實驗環(huán)境為:MATLAB R2017a開發(fā),處理器Intel(R)Core(TM) i5-4690MQ,內(nèi)存8 GB,操作系統(tǒng)為Windows 10。

        4.1 實驗數(shù)據(jù)

        實驗將在真實數(shù)據(jù)集上進行設(shè)計,實驗的數(shù)據(jù)集是由伯克利英特爾實驗室部署的54個傳感器所生成的,原始的數(shù)據(jù)集中包括時間、溫度、濕度、光照和傳感器的電壓等數(shù)據(jù)字段。本文將在此基礎(chǔ)上構(gòu)建邊緣計算場景,每6個節(jié)點接入同一個邊緣服務(wù)器,通過邊緣服務(wù)器過濾異常并匯總給云服務(wù)器。在仿真實驗中,為了提高數(shù)據(jù)的過濾效率,本文提取數(shù)據(jù)比較集中的溫度數(shù)據(jù)作為仿真實驗數(shù)據(jù)集,并對節(jié)點1~節(jié)點6這6個節(jié)點所屬邊緣服務(wù)器中的異常數(shù)據(jù)過濾結(jié)果進行驗證。

        4.2 實驗分析

        在本文提出算法的實驗中,設(shè)置異常隸屬度門限Tat=0.005,可疑隸屬度門限Tst=0.01,并設(shè)置可疑節(jié)點數(shù)量門限d=2。如圖3所示為原始數(shù)據(jù)分布情況,可以看到,某些節(jié)點的數(shù)據(jù)具有較大的波動,數(shù)據(jù)異常情況比較明顯。其中,異常數(shù)據(jù)的分布比較集中,且變化范圍也比較大。其中,圖4所示為經(jīng)過算法過濾后的數(shù)據(jù)。通過對比圖3和圖4發(fā)現(xiàn),經(jīng)過算法處理,數(shù)據(jù)具有較好的過濾效果。

        在四分位點異常過濾算法實驗中,將異常數(shù)據(jù)定義為在四分位數(shù)范圍之外的點,表示為:

        x>Q3+k(IQR)∪x

        (4)

        其中:IQR=Q3-Q1,k=1.5,Q1,Q3分別為第一和第三四分位數(shù)。將滿足條件的數(shù)據(jù)定義為異常數(shù)據(jù)點,但是,從實驗結(jié)果來看,如圖5所示,確定的異常值的比例雖然比較準確,但是,對于一些異常數(shù)據(jù)比較集中的節(jié)點來說,這種異常過濾的方法不能準確實現(xiàn)過濾。

        此外,也利用孤立森林的方法來進行異常數(shù)據(jù)過濾。在孤立森林的算法中,將異常值的比例設(shè)置為0.005(在四分位異常過濾的算法中,實驗結(jié)果較準確地確定了異常數(shù)據(jù)的比例,在本實驗中,采用四分位算法中確定的異常數(shù)據(jù)的比例作為本算法的異常值數(shù)據(jù)的比例),實驗結(jié)果如圖6所示??梢园l(fā)現(xiàn),在節(jié)點1、節(jié)點4以及節(jié)點5中,孤立森林算法將一些認為是正常數(shù)據(jù)的點判定為了異常數(shù)據(jù),而在節(jié)點6中,存在比較集中的異常數(shù)據(jù),但是算法卻沒有將其判定為異常數(shù)據(jù),這顯然是不合理的。

        通過異常檢測實驗結(jié)果可以得出,在真實物理環(huán)境數(shù)據(jù)中,針對不同節(jié)點的數(shù)據(jù)集,算法可以比較準確地過濾異常數(shù)據(jù),并且更具健壯性。由圖5可知,在節(jié)點1、節(jié)點3、節(jié)點6這3個節(jié)點中,異常數(shù)據(jù)的比例是很小的,甚至可以記為不存在異常數(shù)據(jù),因此算法也沒有對數(shù)據(jù)集進行過濾,但是從孤立森林的算法實驗結(jié)果中可以看到,因為指定了異常數(shù)據(jù)的比例,算法一定會判定一些數(shù)據(jù)為異常數(shù)據(jù),但是在實際應(yīng)用中來看,這些數(shù)據(jù)是其實是正常數(shù)據(jù)。

        在實驗中,異常數(shù)據(jù)檢測完成后,通過線性填充的方法對檢測為異常值的數(shù)據(jù)進行填充,這種方法相對簡單,而且能夠平滑掉異常數(shù)據(jù),往往能夠替代像溫度數(shù)據(jù)這樣變化不明顯,且變化連續(xù)的數(shù)據(jù)。

        仿真實驗驗證了該算法具有較好的過濾異常數(shù)據(jù)的能力,且更具有健壯性。

        5 結(jié)束語

        本文提出基于聯(lián)合高斯隸屬分析的數(shù)據(jù)過濾方法。通過計算數(shù)據(jù)的聯(lián)合高斯隸屬度,對數(shù)據(jù)進行初步過濾。同時,本文基于移動邊緣計算,提出了多節(jié)點聯(lián)合過濾的方法,進一步提高了數(shù)據(jù)挖掘分析的準確性。通過仿真對比實驗驗證了該算法具有較好的過濾異常數(shù)據(jù)的能力,并且針對不同的真實物理數(shù)據(jù)集,算法更具健壯性。但算法也存在一些局限,如需要足夠多的先驗信息,算法的時間復(fù)雜度相對來說較高,另外需要人工指定隸屬度門限以及可疑節(jié)點數(shù)量門限,可能針對不同的數(shù)據(jù)集,需要不斷優(yōu)化。因此,在未來的研究中,將進一步優(yōu)化算法的復(fù)雜度,針對不同的數(shù)據(jù)集,設(shè)計算法可以自動確定隸屬度門限以及可疑節(jié)點數(shù)量門限。

        猜你喜歡
        實驗
        我做了一項小實驗
        記住“三個字”,寫好小實驗
        我做了一項小實驗
        我做了一項小實驗
        記一次有趣的實驗
        有趣的實驗
        小主人報(2022年4期)2022-08-09 08:52:06
        微型實驗里看“燃燒”
        做個怪怪長實驗
        NO與NO2相互轉(zhuǎn)化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        亚洲高清乱码午夜电影网| 在线一区二区三区免费视频观看| 白白色视频这里只有精品| 色婷婷五月综合激情中文字幕| 青青草原综合久久大伊人| 国产福利小视频在线观看| 精品黄色一区二区三区| 精品高朝久久久久9999| 国产综合久久久久| 偷亚洲偷国产欧美高清| 中文字幕日本五十路熟女| 久久天天躁狠狠躁夜夜av浪潮| 熟女人妇交换俱乐部| 亚洲成a∨人片在线观看无码| 日产精品毛片av一区二区三区| 夫妻免费无码v看片| 国产精品麻豆欧美日韩ww| 亚洲中文无码精品久久不卡| 日韩极品在线观看视频| 国内最真实的xxxx人伦| 国产亚洲精品aaaa片app| 国产日韩亚洲中文字幕| 精品人妻一区二区三区在线观看| 粗大猛烈进出高潮视频| 亚洲熟妇一区无码| 伊人狼人激情综合影院| 久久久久久久亚洲av无码| 亚洲中文有码字幕青青| 太大太粗太爽免费视频| 亚洲一区二区三区精品| 精品国产一区av天美传媒| 久久久久久中文字幕有精品| 五月综合丁香婷婷久久| 人妻丰满av无码中文字幕 | 精品2021露脸国产偷人在视频 | 亚洲av色av成人噜噜噜| 妇女bbbb插插插视频| 99福利网| 日韩三级一区二区三区四区| 国产精品无码无卡无需播放器| 精品一区二区三区在线观看视频|