李沛林
(云南省互聯(lián)網(wǎng)應急中心,云南昆明 650011)
作為獲取地表信息的一種手段,遙感通信以其宏觀、綜合、動態(tài)、快速等特點,成為現(xiàn)代資源科學研究中最為有效的高新技術之一[1]。對資源與環(huán)境的調(diào)查與監(jiān)測具有重要意義,越來越多的傳感器積累了豐富的遙感數(shù)據(jù)。在海量數(shù)據(jù)中,如何準確、快速地提取有用信息,是一個亟待解決的問題。聚類分析是數(shù)據(jù)挖掘的重要內(nèi)容,其強調(diào)數(shù)據(jù)需按照相似性和差異性分組,從而使得同一組的數(shù)據(jù)非常相似[2]。常規(guī)分析系統(tǒng)是根據(jù)采集的細粒度遙感通信數(shù)據(jù),分析遙感通信信息屬性[3]。該方法分析的數(shù)據(jù)源信息比較豐富,可以充分利用這些信息來挖掘具體的場景信息,但不能用于動態(tài)遙感場景,也就是說,缺乏數(shù)據(jù)源信息的場景。統(tǒng)計信息網(wǎng)格聚類分析系統(tǒng)具有較高的擴展性,但由于計算量大,降低了聚類分析的精度。針對這一問題,設計了一個基于遙感通信信息屬性的大型數(shù)據(jù)聚類分析系統(tǒng)。在遙感通信信息平臺數(shù)據(jù)的基礎上,結(jié)合聚類算法對聚類結(jié)果進行精度計算,并對其參考價值進行分析。
基于遙感通信信息屬性的大數(shù)據(jù)聚類分析系統(tǒng)以聚類目標函數(shù)為設計基礎,是一種混合屬性大數(shù)據(jù)集分析系統(tǒng),且分析性能較強。特別是在海量數(shù)據(jù)分析方面,比傳統(tǒng)分析系統(tǒng)性能優(yōu)越[4]。遙感通信信息屬性大數(shù)據(jù)聚類分析系統(tǒng)通過靈活部署的獨立設備,適用于獨立子系統(tǒng)應用程序[5]。在聚類目標函數(shù)中,大數(shù)據(jù)混合屬性分析系統(tǒng)的硬件部分如圖1所示。
圖1 硬件結(jié)構(gòu)設計
如圖1 所示,聚類系統(tǒng)的硬件具有完整的開放平臺,能夠高效地處理原始數(shù)據(jù),并將處理結(jié)果輸出給分析模塊,在一定程度上具有較強的系統(tǒng)處理能力,并能對數(shù)據(jù)矩陣和相似度矩陣進行分析[6]。統(tǒng)一的計算機端口用于硬件外部,以提高擴展能力,每組程序中均有兩個輸入接口,一個輸入接口的作用是輸入?yún)?shù)或者原始數(shù)據(jù);另一個輸入接口的作用是承載輸出組輸入的數(shù)據(jù)結(jié)果[7]。雖然硬件部分使用了統(tǒng)一的接口,但在內(nèi)部具有不一致的功能。
網(wǎng)絡爬蟲模塊可以控制網(wǎng)絡爬蟲程序,在該程序中獲取網(wǎng)絡流量記錄,并自動整理、記錄信息,通過對列出的URL 文檔進行預處理,同時設定URL 文檔網(wǎng)址,然后將該網(wǎng)址編輯到網(wǎng)絡爬蟲模塊中[8-9]。在選擇爬取方式時,需要多線程的爬取方式,一定程度上會比單線程爬取方式更便捷,且速度更快[10]。
URL 設置的資源定位器是網(wǎng)絡爬蟲模塊中統(tǒng)一的資源定位器,可以表示傳輸協(xié)議和服務模式[11]。在網(wǎng)絡爬蟲模塊中,緩存滿后,直接讀取URL 文件;當緩存隊列為空時,在緩存隊列中列出已讀URL 文件,完成網(wǎng)絡爬蟲模塊的所有流程。
數(shù)據(jù)處理模塊主要是對數(shù)據(jù)進行處理,數(shù)據(jù)的代表性、全面性、相關性以及獨立性在處理時都要考慮到,所以有必要對數(shù)據(jù)做一些基本的處理,此時數(shù)據(jù)處理模塊會發(fā)揮較大作用。該數(shù)據(jù)處理模塊處理的數(shù)據(jù)質(zhì)量較高,可直接應用于分析。
1.2.1 清洗模塊
清洗程序可以在具有混合屬性的大數(shù)據(jù)集上去除噪音和不完全數(shù)據(jù),對清洗過程的5 個部分進行詳細說明:
1)準備
對信息系統(tǒng)進行需求分析,通過對信息環(huán)境的分析,確定數(shù)據(jù)清除需求以及數(shù)據(jù)清除任務的信息環(huán)境特征;在清洗模塊任務定義中,明確數(shù)據(jù)清除任務的目標,確定合適的數(shù)據(jù)清除方法,完成清洗基本配置以及數(shù)據(jù)接口配置,實現(xiàn)資料整理工作,并歸檔[12-13]。
2)檢測
對數(shù)據(jù)質(zhì)量問題如重復記錄、不完整記錄、邏輯錯誤、異常數(shù)據(jù)等進行了檢測,對檢測結(jié)果進行統(tǒng)計,得到綜合數(shù)據(jù)質(zhì)量信息,并對相關信息進行整理、歸檔和存儲。
3)定位
定位的主要內(nèi)容包括數(shù)據(jù)跟蹤與分析以及數(shù)據(jù)質(zhì)量問題定位;根據(jù)測試結(jié)果對數(shù)據(jù)質(zhì)量進行評價,分析問題數(shù)據(jù)和業(yè)務影響,分析數(shù)據(jù)質(zhì)量問題產(chǎn)生的原因;確定數(shù)據(jù)質(zhì)量問題的性質(zhì)和位置,制定數(shù)據(jù)修改方案,并存檔相關信息[14]。
4)修正
在數(shù)據(jù)校正過程中,通過定位分析,解決了實例級數(shù)據(jù)質(zhì)量問題,包括有問題的數(shù)據(jù)標記、無效數(shù)據(jù)刪除、重復記錄合并、缺失數(shù)據(jù)估計和填充等,并解決了數(shù)據(jù)譜系管理問題[15]。
5)驗證
驗證步驟主要是確定修改后的數(shù)據(jù)是否符合任務目標,如果結(jié)果與任務目標不符,則進一步進行分析并糾正,甚至返回“準備狀態(tài)”以調(diào)整相應的前期工作。
1.2.2 集成模塊
通過檢測,集成器能夠整合各種形式的數(shù)據(jù),發(fā)現(xiàn)冗余數(shù)據(jù)。
資料整合就是把來自多個分散資料來源的資料,以邏輯或物理方式整合成統(tǒng)一的資料集合。而數(shù)據(jù)集成的核心任務就是集成相互關聯(lián)、分布異構(gòu)的數(shù)據(jù)源,使得用戶能以透明的方式訪問它們[16]。這種系統(tǒng)被稱為數(shù)據(jù)集成系統(tǒng),它為用戶提供了統(tǒng)一的數(shù)據(jù)源訪問接口,執(zhí)行用戶對數(shù)據(jù)源的訪問請求。
1.2.3 轉(zhuǎn)換模塊
轉(zhuǎn)換模塊負責將不同單元的數(shù)據(jù)轉(zhuǎn)換成同一個單元,對不規(guī)則數(shù)據(jù)進行規(guī)范處理,同時還負責對不同的數(shù)據(jù)進行降維處理。
大數(shù)據(jù)集成分析模塊可以對混合屬性圖像中的大數(shù)據(jù)集進行多角度屬性分析。
混合屬性大數(shù)據(jù)分析模塊中包含了多個分析組件。斷鏈分析組件能夠及時發(fā)現(xiàn)失效鏈路,并向中心單元反饋5XX 系統(tǒng)的所有4XX 錯誤請求和內(nèi)部操作錯誤。其中路由器能準確地定位異常鏈路,查找故障原因,及時確定IP 地址,與DNS 協(xié)同工作,實現(xiàn)網(wǎng)絡資源優(yōu)化。
聚類數(shù)目k對聚類結(jié)果有很大的影響,可以客觀地確定平均輪廓系數(shù),用平均輪廓系數(shù)來衡量聚類數(shù)量和聚類結(jié)果質(zhì)量,當平均輪廓系數(shù)較大時,群集質(zhì)量較好,群集數(shù)量k最合理。確定聚類個數(shù)k時,可以在2 到之間的整數(shù)中進行選取。遙感通信信息屬性大數(shù)據(jù)聚類算法的步驟為:
步驟1:計算不同聚類之間的樣本點輪廓系數(shù)。
依據(jù)聚類之間的平均距離,評估聚類結(jié)果。每一個類都以等高線圖來表示,等高線結(jié)合了類內(nèi)部和類之間的差異。聚類的相對質(zhì)量可以通過輪廓線得到直觀反映,基于樣本點的類不相似度和類間不相似度,可求出樣本點的輪廓系數(shù),如式(1)所示。
其中,ai表示大數(shù)據(jù)類內(nèi)不相似度;bt表示大數(shù)據(jù)類間不相似度。樣本點的輪廓系數(shù)介于-1 和1之間,在樣本點接近1 的時候,樣本點被合理地聚集在一起,在樣本點接近-1 的時候,樣本點應該聚集在另一類中。輪廓系數(shù)是評價聚類效果的指標,可用來選擇合適的聚類數(shù)。
步驟2:通過輪廓系數(shù)計算每個數(shù)據(jù)的熵值。
按熵值大小排序,選擇前k個數(shù)據(jù)作為聚類中心,并進行聚類分析。
步驟3:對來自非聚類中心的數(shù)據(jù)進行分類,并與各聚類中心的相似度進行比較,選取相似度最高的聚類結(jié)果作為最終的聚類結(jié)果。
通過直接利用樣本的梯度值更新聚類中心點而不記錄和更新其數(shù)目,將k-means 算法與隨機梯度下降算法相結(jié)合,把損失函數(shù)定義為樣本到最近中心點距離的平方,如式(2)所示:
其中,x表示從遙感通信信息屬性大數(shù)據(jù)中隨機挑選的樣本數(shù)據(jù);w*表示距離該樣本數(shù)據(jù)最近的聚類中心。將損失函數(shù)降到最小化,并趨近于0,隨機梯度下降公式如下所示:
其中,lr表示學習率,通過該公式對損失函數(shù)參數(shù)進行更新,直到收斂。當損失函數(shù)變化值小于設定閾值時,則說明聚類中心變化值較小,聚類類型判斷為收斂類型。
該數(shù)據(jù)分析程序主要是分析掃描日志中混合屬性的大數(shù)據(jù)集,收集掃描入口記錄的統(tǒng)計數(shù)據(jù),判斷是否存在完全匹配的域名記錄,并將不同的數(shù)據(jù)列在不同的域名庫中,給出了分析結(jié)果。
該系統(tǒng)中的網(wǎng)絡爬行器、數(shù)據(jù)處理程序和數(shù)據(jù)分析程序是一個協(xié)同工作關系,3個程序可同時運行,并向硬件發(fā)出指令,各過程沒有任何關系,即使一個程序出了問題,其他的程序也能正常工作。
在標準彩色圖像中隨機選取某一藍色影像區(qū)域,依據(jù)遙感通信信息大數(shù)據(jù)屬性,可識別其為大海,以此采集到的數(shù)據(jù)如表1 所示。
表1 實驗數(shù)據(jù)采集表
根據(jù)上述實驗數(shù)據(jù)分析結(jié)果,分別使用基于采集到遙感通信細粒度數(shù)據(jù)聚類分析系統(tǒng)、統(tǒng)計信息網(wǎng)格聚類分析系統(tǒng)和遙感通信信息屬性大數(shù)據(jù)聚類分析系統(tǒng)對大數(shù)據(jù)聚類分析結(jié)果精準度進行對比分析,結(jié)果如圖2 所示。
圖2 不同系統(tǒng)遙感通信信息數(shù)據(jù)聚類結(jié)果
由圖2 可知,使用基于采集到遙感通信細粒度數(shù)據(jù)聚類分析系統(tǒng)的數(shù)據(jù)大都聚類在通信終端地址為0025***D5AE 和5C45***FCB7 處;使用統(tǒng)計信息網(wǎng)格聚類分析系統(tǒng)的數(shù)據(jù)大都聚類在通信終端地址為5C45***ECB7 處;使用遙感通信信息屬性大數(shù)據(jù)聚類分析系統(tǒng)與實際聚類結(jié)果一致,都聚類在通信終端地址為5C45***FCB7 處。由此可知,使用該系統(tǒng)的聚類結(jié)果較為精準。
設計的遙感通信信息屬性大數(shù)據(jù)聚類分析系統(tǒng)不僅能夠從數(shù)據(jù)來源角度對數(shù)據(jù)展開分析,還能對數(shù)據(jù)進行清洗和處理,設計的分析系統(tǒng)硬件具有多個模塊分工協(xié)作的功能,能夠確保系統(tǒng)正常運行。相比于傳統(tǒng)系統(tǒng),該系統(tǒng)能夠精準分析大數(shù)據(jù)聚類效果。
設計的分析系統(tǒng)實現(xiàn)了基本功能,但仍有一些地方需要完善,選擇實驗數(shù)據(jù)時應結(jié)合實際應用,建立數(shù)據(jù)倉庫挖掘相關聚類規(guī)則。