亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

遙感通信信息屬性大數(shù)據(jù)聚類分析系統(tǒng)

2021-08-15 11:36:40李沛林

電子設計工程 2021年15期

李沛林

（云南省互聯(lián)網(wǎng)應急中心，云南昆明 650011）

作為獲取地表信息的一種手段，遙感通信以其宏觀、綜合、動態(tài)、快速等特點，成為現(xiàn)代資源科學研究中最為有效的高新技術之一[1]。對資源與環(huán)境的調(diào)查與監(jiān)測具有重要意義，越來越多的傳感器積累了豐富的遙感數(shù)據(jù)。在海量數(shù)據(jù)中，如何準確、快速地提取有用信息，是一個亟待解決的問題。聚類分析是數(shù)據(jù)挖掘的重要內(nèi)容，其強調(diào)數(shù)據(jù)需按照相似性和差異性分組，從而使得同一組的數(shù)據(jù)非常相似[2]。常規(guī)分析系統(tǒng)是根據(jù)采集的細粒度遙感通信數(shù)據(jù)，分析遙感通信信息屬性[3]。該方法分析的數(shù)據(jù)源信息比較豐富，可以充分利用這些信息來挖掘具體的場景信息，但不能用于動態(tài)遙感場景，也就是說，缺乏數(shù)據(jù)源信息的場景。統(tǒng)計信息網(wǎng)格聚類分析系統(tǒng)具有較高的擴展性，但由于計算量大，降低了聚類分析的精度。針對這一問題，設計了一個基于遙感通信信息屬性的大型數(shù)據(jù)聚類分析系統(tǒng)。在遙感通信信息平臺數(shù)據(jù)的基礎上，結(jié)合聚類算法對聚類結(jié)果進行精度計算，并對其參考價值進行分析。

1 系統(tǒng)硬件設計

基于遙感通信信息屬性的大數(shù)據(jù)聚類分析系統(tǒng)以聚類目標函數(shù)為設計基礎，是一種混合屬性大數(shù)據(jù)集分析系統(tǒng)，且分析性能較強。特別是在海量數(shù)據(jù)分析方面，比傳統(tǒng)分析系統(tǒng)性能優(yōu)越[4]。遙感通信信息屬性大數(shù)據(jù)聚類分析系統(tǒng)通過靈活部署的獨立設備，適用于獨立子系統(tǒng)應用程序[5]。在聚類目標函數(shù)中，大數(shù)據(jù)混合屬性分析系統(tǒng)的硬件部分如圖1所示。

圖1 硬件結(jié)構(gòu)設計

如圖1 所示，聚類系統(tǒng)的硬件具有完整的開放平臺，能夠高效地處理原始數(shù)據(jù)，并將處理結(jié)果輸出給分析模塊，在一定程度上具有較強的系統(tǒng)處理能力，并能對數(shù)據(jù)矩陣和相似度矩陣進行分析[6]。統(tǒng)一的計算機端口用于硬件外部，以提高擴展能力，每組程序中均有兩個輸入接口，一個輸入接口的作用是輸入?yún)?shù)或者原始數(shù)據(jù)；另一個輸入接口的作用是承載輸出組輸入的數(shù)據(jù)結(jié)果[7]。雖然硬件部分使用了統(tǒng)一的接口，但在內(nèi)部具有不一致的功能。

1.1 網(wǎng)絡爬蟲模塊

網(wǎng)絡爬蟲模塊可以控制網(wǎng)絡爬蟲程序，在該程序中獲取網(wǎng)絡流量記錄，并自動整理、記錄信息，通過對列出的URL 文檔進行預處理，同時設定URL 文檔網(wǎng)址，然后將該網(wǎng)址編輯到網(wǎng)絡爬蟲模塊中[8-9]。在選擇爬取方式時，需要多線程的爬取方式，一定程度上會比單線程爬取方式更便捷，且速度更快[10]。

URL 設置的資源定位器是網(wǎng)絡爬蟲模塊中統(tǒng)一的資源定位器，可以表示傳輸協(xié)議和服務模式[11]。在網(wǎng)絡爬蟲模塊中，緩存滿后，直接讀取URL 文件；當緩存隊列為空時，在緩存隊列中列出已讀URL 文件，完成網(wǎng)絡爬蟲模塊的所有流程。

1.2 數(shù)據(jù)處理模塊

數(shù)據(jù)處理模塊主要是對數(shù)據(jù)進行處理，數(shù)據(jù)的代表性、全面性、相關性以及獨立性在處理時都要考慮到，所以有必要對數(shù)據(jù)做一些基本的處理，此時數(shù)據(jù)處理模塊會發(fā)揮較大作用。該數(shù)據(jù)處理模塊處理的數(shù)據(jù)質(zhì)量較高，可直接應用于分析。

1.2.1 清洗模塊

清洗程序可以在具有混合屬性的大數(shù)據(jù)集上去除噪音和不完全數(shù)據(jù)，對清洗過程的5 個部分進行詳細說明：

1）準備

對信息系統(tǒng)進行需求分析，通過對信息環(huán)境的分析，確定數(shù)據(jù)清除需求以及數(shù)據(jù)清除任務的信息環(huán)境特征；在清洗模塊任務定義中，明確數(shù)據(jù)清除任務的目標，確定合適的數(shù)據(jù)清除方法，完成清洗基本配置以及數(shù)據(jù)接口配置，實現(xiàn)資料整理工作，并歸檔[12-13]。

2）檢測

對數(shù)據(jù)質(zhì)量問題如重復記錄、不完整記錄、邏輯錯誤、異常數(shù)據(jù)等進行了檢測，對檢測結(jié)果進行統(tǒng)計，得到綜合數(shù)據(jù)質(zhì)量信息，并對相關信息進行整理、歸檔和存儲。

3）定位

定位的主要內(nèi)容包括數(shù)據(jù)跟蹤與分析以及數(shù)據(jù)質(zhì)量問題定位；根據(jù)測試結(jié)果對數(shù)據(jù)質(zhì)量進行評價，分析問題數(shù)據(jù)和業(yè)務影響，分析數(shù)據(jù)質(zhì)量問題產(chǎn)生的原因；確定數(shù)據(jù)質(zhì)量問題的性質(zhì)和位置，制定數(shù)據(jù)修改方案，并存檔相關信息[14]。

4）修正

在數(shù)據(jù)校正過程中，通過定位分析，解決了實例級數(shù)據(jù)質(zhì)量問題，包括有問題的數(shù)據(jù)標記、無效數(shù)據(jù)刪除、重復記錄合并、缺失數(shù)據(jù)估計和填充等，并解決了數(shù)據(jù)譜系管理問題[15]。

5）驗證

驗證步驟主要是確定修改后的數(shù)據(jù)是否符合任務目標，如果結(jié)果與任務目標不符，則進一步進行分析并糾正，甚至返回“準備狀態(tài)”以調(diào)整相應的前期工作。

1.2.2 集成模塊

通過檢測，集成器能夠整合各種形式的數(shù)據(jù)，發(fā)現(xiàn)冗余數(shù)據(jù)。

資料整合就是把來自多個分散資料來源的資料，以邏輯或物理方式整合成統(tǒng)一的資料集合。而數(shù)據(jù)集成的核心任務就是集成相互關聯(lián)、分布異構(gòu)的數(shù)據(jù)源，使得用戶能以透明的方式訪問它們[16]。這種系統(tǒng)被稱為數(shù)據(jù)集成系統(tǒng)，它為用戶提供了統(tǒng)一的數(shù)據(jù)源訪問接口，執(zhí)行用戶對數(shù)據(jù)源的訪問請求。

1.2.3 轉(zhuǎn)換模塊

轉(zhuǎn)換模塊負責將不同單元的數(shù)據(jù)轉(zhuǎn)換成同一個單元，對不規(guī)則數(shù)據(jù)進行規(guī)范處理，同時還負責對不同的數(shù)據(jù)進行降維處理。

1.3 大數(shù)據(jù)集成分析模塊

大數(shù)據(jù)集成分析模塊可以對混合屬性圖像中的大數(shù)據(jù)集進行多角度屬性分析。

混合屬性大數(shù)據(jù)分析模塊中包含了多個分析組件。斷鏈分析組件能夠及時發(fā)現(xiàn)失效鏈路，并向中心單元反饋5XX 系統(tǒng)的所有4XX 錯誤請求和內(nèi)部操作錯誤。其中路由器能準確地定位異常鏈路，查找故障原因，及時確定IP 地址，與DNS 協(xié)同工作，實現(xiàn)網(wǎng)絡資源優(yōu)化。

2 軟件部分設計

2.1 聚類算法

聚類數(shù)目k對聚類結(jié)果有很大的影響，可以客觀地確定平均輪廓系數(shù)，用平均輪廓系數(shù)來衡量聚類數(shù)量和聚類結(jié)果質(zhì)量，當平均輪廓系數(shù)較大時，群集質(zhì)量較好，群集數(shù)量k最合理。確定聚類個數(shù)k時，可以在2 到之間的整數(shù)中進行選取。遙感通信信息屬性大數(shù)據(jù)聚類算法的步驟為：

步驟1：計算不同聚類之間的樣本點輪廓系數(shù)。

依據(jù)聚類之間的平均距離，評估聚類結(jié)果。每一個類都以等高線圖來表示，等高線結(jié)合了類內(nèi)部和類之間的差異。聚類的相對質(zhì)量可以通過輪廓線得到直觀反映，基于樣本點的類不相似度和類間不相似度，可求出樣本點的輪廓系數(shù)，如式（1）所示。

其中，ai表示大數(shù)據(jù)類內(nèi)不相似度；bt表示大數(shù)據(jù)類間不相似度。樣本點的輪廓系數(shù)介于-1 和1之間，在樣本點接近1 的時候，樣本點被合理地聚集在一起，在樣本點接近-1 的時候，樣本點應該聚集在另一類中。輪廓系數(shù)是評價聚類效果的指標，可用來選擇合適的聚類數(shù)。

步驟2：通過輪廓系數(shù)計算每個數(shù)據(jù)的熵值。

按熵值大小排序，選擇前k個數(shù)據(jù)作為聚類中心，并進行聚類分析。

步驟3：對來自非聚類中心的數(shù)據(jù)進行分類，并與各聚類中心的相似度進行比較，選取相似度最高的聚類結(jié)果作為最終的聚類結(jié)果。

通過直接利用樣本的梯度值更新聚類中心點而不記錄和更新其數(shù)目，將k-means 算法與隨機梯度下降算法相結(jié)合，把損失函數(shù)定義為樣本到最近中心點距離的平方，如式（2）所示：

其中，x表示從遙感通信信息屬性大數(shù)據(jù)中隨機挑選的樣本數(shù)據(jù)；w*表示距離該樣本數(shù)據(jù)最近的聚類中心。將損失函數(shù)降到最小化，并趨近于0，隨機梯度下降公式如下所示：

其中，lr表示學習率，通過該公式對損失函數(shù)參數(shù)進行更新，直到收斂。當損失函數(shù)變化值小于設定閾值時，則說明聚類中心變化值較小，聚類類型判斷為收斂類型。

2.2 數(shù)據(jù)分析流程設計

該數(shù)據(jù)分析程序主要是分析掃描日志中混合屬性的大數(shù)據(jù)集，收集掃描入口記錄的統(tǒng)計數(shù)據(jù)，判斷是否存在完全匹配的域名記錄，并將不同的數(shù)據(jù)列在不同的域名庫中，給出了分析結(jié)果。

該系統(tǒng)中的網(wǎng)絡爬行器、數(shù)據(jù)處理程序和數(shù)據(jù)分析程序是一個協(xié)同工作關系，3個程序可同時運行，并向硬件發(fā)出指令，各過程沒有任何關系，即使一個程序出了問題，其他的程序也能正常工作。

3 實驗分析

3.1 實驗數(shù)據(jù)采集

在標準彩色圖像中隨機選取某一藍色影像區(qū)域，依據(jù)遙感通信信息大數(shù)據(jù)屬性，可識別其為大海，以此采集到的數(shù)據(jù)如表1 所示。

表1 實驗數(shù)據(jù)采集表

3.2 實驗結(jié)果與分析

根據(jù)上述實驗數(shù)據(jù)分析結(jié)果，分別使用基于采集到遙感通信細粒度數(shù)據(jù)聚類分析系統(tǒng)、統(tǒng)計信息網(wǎng)格聚類分析系統(tǒng)和遙感通信信息屬性大數(shù)據(jù)聚類分析系統(tǒng)對大數(shù)據(jù)聚類分析結(jié)果精準度進行對比分析，結(jié)果如圖2 所示。

圖2 不同系統(tǒng)遙感通信信息數(shù)據(jù)聚類結(jié)果

由圖2 可知，使用基于采集到遙感通信細粒度數(shù)據(jù)聚類分析系統(tǒng)的數(shù)據(jù)大都聚類在通信終端地址為0025***D5AE 和5C45***FCB7 處；使用統(tǒng)計信息網(wǎng)格聚類分析系統(tǒng)的數(shù)據(jù)大都聚類在通信終端地址為5C45***ECB7 處；使用遙感通信信息屬性大數(shù)據(jù)聚類分析系統(tǒng)與實際聚類結(jié)果一致，都聚類在通信終端地址為5C45***FCB7 處。由此可知，使用該系統(tǒng)的聚類結(jié)果較為精準。

4 結(jié)束語

設計的遙感通信信息屬性大數(shù)據(jù)聚類分析系統(tǒng)不僅能夠從數(shù)據(jù)來源角度對數(shù)據(jù)展開分析，還能對數(shù)據(jù)進行清洗和處理，設計的分析系統(tǒng)硬件具有多個模塊分工協(xié)作的功能，能夠確保系統(tǒng)正常運行。相比于傳統(tǒng)系統(tǒng)，該系統(tǒng)能夠精準分析大數(shù)據(jù)聚類效果。

設計的分析系統(tǒng)實現(xiàn)了基本功能，但仍有一些地方需要完善，選擇實驗數(shù)據(jù)時應結(jié)合實際應用，建立數(shù)據(jù)倉庫挖掘相關聚類規(guī)則。