亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        遙感通信信息屬性大數(shù)據(jù)聚類分析系統(tǒng)

        2021-08-15 11:36:40李沛林
        電子設計工程 2021年15期
        關鍵詞:分析信息系統(tǒng)

        李沛林

        (云南省互聯(lián)網(wǎng)應急中心,云南昆明 650011)

        作為獲取地表信息的一種手段,遙感通信以其宏觀、綜合、動態(tài)、快速等特點,成為現(xiàn)代資源科學研究中最為有效的高新技術之一[1]。對資源與環(huán)境的調(diào)查與監(jiān)測具有重要意義,越來越多的傳感器積累了豐富的遙感數(shù)據(jù)。在海量數(shù)據(jù)中,如何準確、快速地提取有用信息,是一個亟待解決的問題。聚類分析是數(shù)據(jù)挖掘的重要內(nèi)容,其強調(diào)數(shù)據(jù)需按照相似性和差異性分組,從而使得同一組的數(shù)據(jù)非常相似[2]。常規(guī)分析系統(tǒng)是根據(jù)采集的細粒度遙感通信數(shù)據(jù),分析遙感通信信息屬性[3]。該方法分析的數(shù)據(jù)源信息比較豐富,可以充分利用這些信息來挖掘具體的場景信息,但不能用于動態(tài)遙感場景,也就是說,缺乏數(shù)據(jù)源信息的場景。統(tǒng)計信息網(wǎng)格聚類分析系統(tǒng)具有較高的擴展性,但由于計算量大,降低了聚類分析的精度。針對這一問題,設計了一個基于遙感通信信息屬性的大型數(shù)據(jù)聚類分析系統(tǒng)。在遙感通信信息平臺數(shù)據(jù)的基礎上,結(jié)合聚類算法對聚類結(jié)果進行精度計算,并對其參考價值進行分析。

        1 系統(tǒng)硬件設計

        基于遙感通信信息屬性的大數(shù)據(jù)聚類分析系統(tǒng)以聚類目標函數(shù)為設計基礎,是一種混合屬性大數(shù)據(jù)集分析系統(tǒng),且分析性能較強。特別是在海量數(shù)據(jù)分析方面,比傳統(tǒng)分析系統(tǒng)性能優(yōu)越[4]。遙感通信信息屬性大數(shù)據(jù)聚類分析系統(tǒng)通過靈活部署的獨立設備,適用于獨立子系統(tǒng)應用程序[5]。在聚類目標函數(shù)中,大數(shù)據(jù)混合屬性分析系統(tǒng)的硬件部分如圖1所示。

        圖1 硬件結(jié)構(gòu)設計

        如圖1 所示,聚類系統(tǒng)的硬件具有完整的開放平臺,能夠高效地處理原始數(shù)據(jù),并將處理結(jié)果輸出給分析模塊,在一定程度上具有較強的系統(tǒng)處理能力,并能對數(shù)據(jù)矩陣和相似度矩陣進行分析[6]。統(tǒng)一的計算機端口用于硬件外部,以提高擴展能力,每組程序中均有兩個輸入接口,一個輸入接口的作用是輸入?yún)?shù)或者原始數(shù)據(jù);另一個輸入接口的作用是承載輸出組輸入的數(shù)據(jù)結(jié)果[7]。雖然硬件部分使用了統(tǒng)一的接口,但在內(nèi)部具有不一致的功能。

        1.1 網(wǎng)絡爬蟲模塊

        網(wǎng)絡爬蟲模塊可以控制網(wǎng)絡爬蟲程序,在該程序中獲取網(wǎng)絡流量記錄,并自動整理、記錄信息,通過對列出的URL 文檔進行預處理,同時設定URL 文檔網(wǎng)址,然后將該網(wǎng)址編輯到網(wǎng)絡爬蟲模塊中[8-9]。在選擇爬取方式時,需要多線程的爬取方式,一定程度上會比單線程爬取方式更便捷,且速度更快[10]。

        URL 設置的資源定位器是網(wǎng)絡爬蟲模塊中統(tǒng)一的資源定位器,可以表示傳輸協(xié)議和服務模式[11]。在網(wǎng)絡爬蟲模塊中,緩存滿后,直接讀取URL 文件;當緩存隊列為空時,在緩存隊列中列出已讀URL 文件,完成網(wǎng)絡爬蟲模塊的所有流程。

        1.2 數(shù)據(jù)處理模塊

        數(shù)據(jù)處理模塊主要是對數(shù)據(jù)進行處理,數(shù)據(jù)的代表性、全面性、相關性以及獨立性在處理時都要考慮到,所以有必要對數(shù)據(jù)做一些基本的處理,此時數(shù)據(jù)處理模塊會發(fā)揮較大作用。該數(shù)據(jù)處理模塊處理的數(shù)據(jù)質(zhì)量較高,可直接應用于分析。

        1.2.1 清洗模塊

        清洗程序可以在具有混合屬性的大數(shù)據(jù)集上去除噪音和不完全數(shù)據(jù),對清洗過程的5 個部分進行詳細說明:

        1)準備

        對信息系統(tǒng)進行需求分析,通過對信息環(huán)境的分析,確定數(shù)據(jù)清除需求以及數(shù)據(jù)清除任務的信息環(huán)境特征;在清洗模塊任務定義中,明確數(shù)據(jù)清除任務的目標,確定合適的數(shù)據(jù)清除方法,完成清洗基本配置以及數(shù)據(jù)接口配置,實現(xiàn)資料整理工作,并歸檔[12-13]。

        2)檢測

        對數(shù)據(jù)質(zhì)量問題如重復記錄、不完整記錄、邏輯錯誤、異常數(shù)據(jù)等進行了檢測,對檢測結(jié)果進行統(tǒng)計,得到綜合數(shù)據(jù)質(zhì)量信息,并對相關信息進行整理、歸檔和存儲。

        3)定位

        定位的主要內(nèi)容包括數(shù)據(jù)跟蹤與分析以及數(shù)據(jù)質(zhì)量問題定位;根據(jù)測試結(jié)果對數(shù)據(jù)質(zhì)量進行評價,分析問題數(shù)據(jù)和業(yè)務影響,分析數(shù)據(jù)質(zhì)量問題產(chǎn)生的原因;確定數(shù)據(jù)質(zhì)量問題的性質(zhì)和位置,制定數(shù)據(jù)修改方案,并存檔相關信息[14]。

        4)修正

        在數(shù)據(jù)校正過程中,通過定位分析,解決了實例級數(shù)據(jù)質(zhì)量問題,包括有問題的數(shù)據(jù)標記、無效數(shù)據(jù)刪除、重復記錄合并、缺失數(shù)據(jù)估計和填充等,并解決了數(shù)據(jù)譜系管理問題[15]。

        5)驗證

        驗證步驟主要是確定修改后的數(shù)據(jù)是否符合任務目標,如果結(jié)果與任務目標不符,則進一步進行分析并糾正,甚至返回“準備狀態(tài)”以調(diào)整相應的前期工作。

        1.2.2 集成模塊

        通過檢測,集成器能夠整合各種形式的數(shù)據(jù),發(fā)現(xiàn)冗余數(shù)據(jù)。

        資料整合就是把來自多個分散資料來源的資料,以邏輯或物理方式整合成統(tǒng)一的資料集合。而數(shù)據(jù)集成的核心任務就是集成相互關聯(lián)、分布異構(gòu)的數(shù)據(jù)源,使得用戶能以透明的方式訪問它們[16]。這種系統(tǒng)被稱為數(shù)據(jù)集成系統(tǒng),它為用戶提供了統(tǒng)一的數(shù)據(jù)源訪問接口,執(zhí)行用戶對數(shù)據(jù)源的訪問請求。

        1.2.3 轉(zhuǎn)換模塊

        轉(zhuǎn)換模塊負責將不同單元的數(shù)據(jù)轉(zhuǎn)換成同一個單元,對不規(guī)則數(shù)據(jù)進行規(guī)范處理,同時還負責對不同的數(shù)據(jù)進行降維處理。

        1.3 大數(shù)據(jù)集成分析模塊

        大數(shù)據(jù)集成分析模塊可以對混合屬性圖像中的大數(shù)據(jù)集進行多角度屬性分析。

        混合屬性大數(shù)據(jù)分析模塊中包含了多個分析組件。斷鏈分析組件能夠及時發(fā)現(xiàn)失效鏈路,并向中心單元反饋5XX 系統(tǒng)的所有4XX 錯誤請求和內(nèi)部操作錯誤。其中路由器能準確地定位異常鏈路,查找故障原因,及時確定IP 地址,與DNS 協(xié)同工作,實現(xiàn)網(wǎng)絡資源優(yōu)化。

        2 軟件部分設計

        2.1 聚類算法

        聚類數(shù)目k對聚類結(jié)果有很大的影響,可以客觀地確定平均輪廓系數(shù),用平均輪廓系數(shù)來衡量聚類數(shù)量和聚類結(jié)果質(zhì)量,當平均輪廓系數(shù)較大時,群集質(zhì)量較好,群集數(shù)量k最合理。確定聚類個數(shù)k時,可以在2 到之間的整數(shù)中進行選取。遙感通信信息屬性大數(shù)據(jù)聚類算法的步驟為:

        步驟1:計算不同聚類之間的樣本點輪廓系數(shù)。

        依據(jù)聚類之間的平均距離,評估聚類結(jié)果。每一個類都以等高線圖來表示,等高線結(jié)合了類內(nèi)部和類之間的差異。聚類的相對質(zhì)量可以通過輪廓線得到直觀反映,基于樣本點的類不相似度和類間不相似度,可求出樣本點的輪廓系數(shù),如式(1)所示。

        其中,ai表示大數(shù)據(jù)類內(nèi)不相似度;bt表示大數(shù)據(jù)類間不相似度。樣本點的輪廓系數(shù)介于-1 和1之間,在樣本點接近1 的時候,樣本點被合理地聚集在一起,在樣本點接近-1 的時候,樣本點應該聚集在另一類中。輪廓系數(shù)是評價聚類效果的指標,可用來選擇合適的聚類數(shù)。

        步驟2:通過輪廓系數(shù)計算每個數(shù)據(jù)的熵值。

        按熵值大小排序,選擇前k個數(shù)據(jù)作為聚類中心,并進行聚類分析。

        步驟3:對來自非聚類中心的數(shù)據(jù)進行分類,并與各聚類中心的相似度進行比較,選取相似度最高的聚類結(jié)果作為最終的聚類結(jié)果。

        通過直接利用樣本的梯度值更新聚類中心點而不記錄和更新其數(shù)目,將k-means 算法與隨機梯度下降算法相結(jié)合,把損失函數(shù)定義為樣本到最近中心點距離的平方,如式(2)所示:

        其中,x表示從遙感通信信息屬性大數(shù)據(jù)中隨機挑選的樣本數(shù)據(jù);w*表示距離該樣本數(shù)據(jù)最近的聚類中心。將損失函數(shù)降到最小化,并趨近于0,隨機梯度下降公式如下所示:

        其中,lr表示學習率,通過該公式對損失函數(shù)參數(shù)進行更新,直到收斂。當損失函數(shù)變化值小于設定閾值時,則說明聚類中心變化值較小,聚類類型判斷為收斂類型。

        2.2 數(shù)據(jù)分析流程設計

        該數(shù)據(jù)分析程序主要是分析掃描日志中混合屬性的大數(shù)據(jù)集,收集掃描入口記錄的統(tǒng)計數(shù)據(jù),判斷是否存在完全匹配的域名記錄,并將不同的數(shù)據(jù)列在不同的域名庫中,給出了分析結(jié)果。

        該系統(tǒng)中的網(wǎng)絡爬行器、數(shù)據(jù)處理程序和數(shù)據(jù)分析程序是一個協(xié)同工作關系,3個程序可同時運行,并向硬件發(fā)出指令,各過程沒有任何關系,即使一個程序出了問題,其他的程序也能正常工作。

        3 實驗分析

        3.1 實驗數(shù)據(jù)采集

        在標準彩色圖像中隨機選取某一藍色影像區(qū)域,依據(jù)遙感通信信息大數(shù)據(jù)屬性,可識別其為大海,以此采集到的數(shù)據(jù)如表1 所示。

        表1 實驗數(shù)據(jù)采集表

        3.2 實驗結(jié)果與分析

        根據(jù)上述實驗數(shù)據(jù)分析結(jié)果,分別使用基于采集到遙感通信細粒度數(shù)據(jù)聚類分析系統(tǒng)、統(tǒng)計信息網(wǎng)格聚類分析系統(tǒng)和遙感通信信息屬性大數(shù)據(jù)聚類分析系統(tǒng)對大數(shù)據(jù)聚類分析結(jié)果精準度進行對比分析,結(jié)果如圖2 所示。

        圖2 不同系統(tǒng)遙感通信信息數(shù)據(jù)聚類結(jié)果

        由圖2 可知,使用基于采集到遙感通信細粒度數(shù)據(jù)聚類分析系統(tǒng)的數(shù)據(jù)大都聚類在通信終端地址為0025***D5AE 和5C45***FCB7 處;使用統(tǒng)計信息網(wǎng)格聚類分析系統(tǒng)的數(shù)據(jù)大都聚類在通信終端地址為5C45***ECB7 處;使用遙感通信信息屬性大數(shù)據(jù)聚類分析系統(tǒng)與實際聚類結(jié)果一致,都聚類在通信終端地址為5C45***FCB7 處。由此可知,使用該系統(tǒng)的聚類結(jié)果較為精準。

        4 結(jié)束語

        設計的遙感通信信息屬性大數(shù)據(jù)聚類分析系統(tǒng)不僅能夠從數(shù)據(jù)來源角度對數(shù)據(jù)展開分析,還能對數(shù)據(jù)進行清洗和處理,設計的分析系統(tǒng)硬件具有多個模塊分工協(xié)作的功能,能夠確保系統(tǒng)正常運行。相比于傳統(tǒng)系統(tǒng),該系統(tǒng)能夠精準分析大數(shù)據(jù)聚類效果。

        設計的分析系統(tǒng)實現(xiàn)了基本功能,但仍有一些地方需要完善,選擇實驗數(shù)據(jù)時應結(jié)合實際應用,建立數(shù)據(jù)倉庫挖掘相關聚類規(guī)則。

        猜你喜歡
        分析信息系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無人機系統(tǒng)
        隱蔽失效適航要求符合性驗證分析
        ZC系列無人機遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        免费看av网站在线亚洲| 国产免费专区| 亚洲AV成人综合五月天在线观看| 蜜桃av在线播放视频| 欧美怡春院一区二区三区| 日本理伦片午夜理伦片| 91亚洲国产成人aⅴ毛片大全 | 国产亚洲av综合人人澡精品| 护士的小嫩嫩好紧好爽| 日本免费大片一区二区| 性无码免费一区二区三区在线| 日韩中文字幕欧美亚洲第一区| 搡老女人老妇女老熟妇69| 亚洲天堂一区二区偷拍| 国产精品www夜色视频| 国际无码精品| 高清av一区二区三区在线| 亚洲天堂av中文字幕在线观看| 一本色道久久88精品综合| 狠狠色噜噜狠狠狠97影音先锋| 激情视频在线观看免费播放| 少妇高潮太爽了在线看| av潮喷大喷水系列无码| 天天av天天爽无码中文| 亚洲一区二区国产精品视频| 一区二区三区人妻av| 看av免费毛片手机播放| 亚洲乱码一区二区三区成人小说| 少妇久久一区二区三区| 伊人大杳焦在线| 亚洲男人av香蕉爽爽爽爽| 天堂av在线一区二区| 亚洲人成综合第一网站| 国产人妻精品一区二区三区| 亚洲国产精品中文字幕日韩| 有码视频一区二区三区| 亚洲熟妇久久精品| 日韩高清亚洲日韩精品一区| 一本大道加勒比东京热| 色和尚色视频在线看网站| 亚洲国产精品无码专区影院|