李田英
基于大數(shù)據(jù)分析的網(wǎng)絡資源缺失信息碎片智能識別方法
李田英
商丘醫(yī)學高等專科學?,F(xiàn)代教育技術中心, 河南 商丘 476100
針對傳統(tǒng)網(wǎng)絡資源缺失信息碎片識別方法中識別準確度較低、完成時間較長、能量消耗較大等問題,提出一種基于大數(shù)據(jù)分析的網(wǎng)絡資源缺失信息碎片識別方法。通過對網(wǎng)絡資源信息分析,利用非線性時間序列對網(wǎng)絡資源不完整信息進行相空間重建,引入關聯(lián)維數(shù)對網(wǎng)絡資源不完整信息特征提取;考慮到不完整信息特征中缺失信息碎片對信息類別的貢獻度,利用信息熵來衡量缺失信息碎片之間的差異,利用以BP神經(jīng)網(wǎng)絡為基礎的集成分類器對缺失信息碎片分類,完成缺失信息碎片識別。結(jié)果表明,所提方法識別準確度較高、完成時間較短、能量消耗較小。
大數(shù)據(jù)分析; 網(wǎng)絡資源; 缺失信息; 智能識別
計算機網(wǎng)絡技術的快速發(fā)展,大量的網(wǎng)絡資源迅速增長,大數(shù)據(jù)分析技術應運而生,成為網(wǎng)絡資源獲取、處理、分析或可視化的有效手段[1]。從網(wǎng)絡資源大數(shù)據(jù)中發(fā)現(xiàn),實際應用的大部分數(shù)據(jù)分布是不完整的,在進行不完整網(wǎng)絡資源信息識別時,常會遇到信息碎片問題,這些信息碎片通常被放置在網(wǎng)絡存儲介質(zhì)的隱蔽位置,且內(nèi)部信息已遭到損壞[2,3],現(xiàn)階段應用的碎片智能識別方法普遍存在著識別準確度較低、完成時間較長、能量消耗較大等問題。在此背景下,如何有效提高網(wǎng)絡資源信息缺失信息識別精度和效率,成為當今社會亟待解決的問題[4,5]。文獻[6]提出一種基于譜回歸特征降維后神經(jīng)網(wǎng)絡資源信息的識別方法。該方法對網(wǎng)絡資源信息進行特征提取,將提取后的結(jié)果進行降維處理,把降維后的網(wǎng)絡資源信息輸入到BP神經(jīng)網(wǎng)絡分類器中進行識別。該方法具有較高的識別準確度,但是識別完成時間較長。文獻[7]提出一種基于含缺失信息屬性值的數(shù)據(jù)識別方法。該方法根據(jù)不同缺失信息屬性設計出不同的檢測方法,利用相應的檢測方法對缺失信息進行修復和補充,完成對缺失信息有效識別。該方法識別完成時間較短,但是識別準確度較低。針對上述問題,提出一種基于大數(shù)據(jù)分析的網(wǎng)絡資源缺失信息碎片識別方法。實驗結(jié)果表明,所提方法識別準確度較高、完成時間較短、能量消耗較小。
通過對網(wǎng)絡資源信息進行分析,利用非線性時間序列對網(wǎng)絡資源不完整信息進行相空間重建,引入關聯(lián)維數(shù)對網(wǎng)絡資源不完整信息特征進行提取,具體過程如下所述:
網(wǎng)絡資源不完整信息一般都是沒有明顯規(guī)律和順序的,利用關聯(lián)維數(shù)對其進行分析,實現(xiàn)網(wǎng)絡資源不完整信息特征提取。
假設,不完整網(wǎng)絡資源信息一維時間序列為{1,2,…,q},利用下式給出不完整信息重建的相空間表達式:
式中,代表網(wǎng)絡資源信息重建時延,代表網(wǎng)絡資源信息維數(shù)。
關聯(lián)維數(shù)是不完整網(wǎng)絡資源信息在多維空間中疏密程度的表現(xiàn),代表網(wǎng)絡資源不完整信息樣本之間的關聯(lián)程度。對網(wǎng)絡資源不完整信息進行相空間重構(gòu),得到一個相空間矢量,將網(wǎng)絡資源不完整信息的任意兩個矢量的最大分量看作成兩者之間的距離,利用公式(2)對其進行描述:
假設兩者之間的距離低于設定正整數(shù)的矢量被叫作關聯(lián)矢量,不完整網(wǎng)絡資源信息重建相空間中存在著個信息點,獲取不完整信息相關矢量對數(shù),將所有存在相關矢量對數(shù)的這種情況當作關聯(lián)積分:
式中,代表Heaviside函數(shù),利用公式(4)給出該函數(shù)的表達式:
式中,代表不完整網(wǎng)絡資源信息關聯(lián)維數(shù)。選擇合理的,使可以用來表示網(wǎng)絡資源不完整信息混沌吸引子的相似結(jié)構(gòu),則近似值為:
標準差是網(wǎng)絡資源不完整信息樣本點的分散程度。當不完整網(wǎng)絡資源信息樣本在標準差較大的情況下,不同的資源信息樣本與實際值差別較大,則在空間中分布不集中,相應的關聯(lián)維數(shù)不高。結(jié)合此特性利用下式對網(wǎng)絡資源不完整信息特征進行提取:
以網(wǎng)絡資源不完整信息特征提取為依據(jù),考慮到不完整信息特征中樣本缺失信息對信息類別的貢獻度,利用信息熵來衡量缺失信息之間的差異,以BP神經(jīng)網(wǎng)絡為基礎的集成分類器對缺失信息進行分類,完成識別。具體過程如下:根據(jù)不完整信息特征中樣本缺失信息集進行劃分,得到多個互相之間沒有任何關系的缺失信息子集,為了更大限度的利用原始的網(wǎng)絡資源信息,需要把缺失信息樣本存入相對應的網(wǎng)絡資源信息中。
其中,碎片子集1的缺失信息為1,2中缺失信息集為2,3中缺失信息集為3。在此基礎上,根據(jù)信息熵計算網(wǎng)絡資源信息權值為:
利用網(wǎng)絡資源信息權值的集成結(jié)果實現(xiàn)對網(wǎng)絡資源缺失信息碎片進行分類識別。
為了驗證所提基于大數(shù)據(jù)分析的網(wǎng)絡資源缺失信息碎片識別方法的綜合性能,設計如下實驗。實驗操作系統(tǒng)為Windows7,內(nèi)存48 g。為保證實驗結(jié)果的有效性,將所提方法(方法1)與基于譜回歸特征降維后神經(jīng)網(wǎng)絡資源信息的識別方法(方法2)和基于含缺失信息屬性值的數(shù)據(jù)識別方法(方法3)。對比3種方法的識別準確度(%)實驗,實驗結(jié)果如表1所示。
表1 不同方法識別準確度對比
分析表1可知,3種方法都隨著網(wǎng)絡資源缺失信息數(shù)量的不斷增加,識別準確度會有不同程度的降低。當缺失信息數(shù)量為5個時,方法2和方法3的識別準確度與所提方法識別準確度之間分別相差1.86%和3.66%。當缺失信息數(shù)量為35個時,方法2和方法3的識別準確度與所提方法識別準確度之間分別相差1.70%和4.21%。但所提方法的識別準確度最高,一直保持在99%以上。對3種方法進行網(wǎng)絡資源缺失信息識別完成時間比較,結(jié)果如圖1所示。
圖1 不同方法識別完成時間對比圖
分析圖1可知,隨著缺失信息數(shù)量增加,3種方法識別完成的時間增減增加。當網(wǎng)絡資源缺失信息數(shù)量從0個增加到400個時,所提方法識別完成時間一直在33 s~37 s之間浮動,方法2的識別完成時間一直在35 s~50 s之間浮動,方法3的識別完成時間一直在44 s~58 s之間浮動。相比之下所提方法的識別完成時間最短。對比3種方法進行缺失信息識別的能量消耗情況如表2所示。
表2 不同方法識別能量消耗對比
表2可知,隨著網(wǎng)絡資源缺失信息數(shù)量的不斷增加,3種方法的識別能量消耗也隨之增加。當缺失信息數(shù)量從8個增加到48個時,識別能量消耗相差414 J;方法2識別能量消耗相差529 J;方法3識別能量消耗相差821 J。實驗結(jié)果表明,所提方法識別能量消耗最低,具有一定的應用價值。
針對網(wǎng)絡資源中存在的信息碎片缺失的問題,提出一種基于大數(shù)據(jù)分析的網(wǎng)絡資源缺失信息碎片識別方法。該方法與傳統(tǒng)方法相比較,具有較高的識別準確度,并且識別的完成時間相對較短,能量消耗較小,可廣泛應用于各個領域。
[1] 王志鵬,王星,田元榮,等.基于壓縮感知的輻射源信號數(shù)據(jù)級融合識別方法[J].兵工學報,2017,38(8):1547-1554
[2] 王鋒,武龍,吳東升,等.脈沖風洞天平短時振蕩測力數(shù)據(jù)穩(wěn)態(tài)值提取的優(yōu)化識別方法[J].振動與沖擊,2018,37(8):153-157
[3] 邱建青,杜春霖,周婷,等.多變量數(shù)據(jù)缺失機制的識別方法[J].中國衛(wèi)生統(tǒng)計,2017,34(6):1002-1005
[4] 陶江玥,劉麗娟,龐勇,等.基于機載激光雷達和高光譜數(shù)據(jù)的樹種識別方法[J].浙江農(nóng)林大學學報,2018,35(2):314-323
[5] 陳虹君,羅福強,趙力衡,等.大數(shù)據(jù)下網(wǎng)絡資源信息丟失優(yōu)化識別仿真[J].計算機仿真,2017,34(9):358-361
[6] 鄔戰(zhàn)軍,牛敏,許冰,等.基于譜回歸特征降維與后向傳播神經(jīng)網(wǎng)絡的識別方法研究[J].電子與信息學報,2016,38(4):978-984
[7] 高科,刁興春,曹建軍.含缺失屬性值的問題數(shù)據(jù)檢測與修復[J].計算機工程與設計,2016,37(3):643-649
An Intelligent Identification Method for Missing Information Fragments of Network Resources Based on Big Data Analysis
LI Tian-ying
476100,
Aiming at the traditional network resource missing information fragment identification method, there are generally problems such as low recognition accuracy, long completion time and large energy consumption. This paper proposes a method for identifying missing information fragments of network resources based on information entropy and integrated classification. By analyzing the network resource information, the nonlinear spatial time series is used to reconstruct the incomplete information of the network resources, and the correlation dimension is introduced to extract the incomplete information features of the network resources, taking into account the information of the missing information in the incomplete information features. The contribution of categories, using information entropy to measure the difference between missing information, the BP neural network-based integrated classifier classifies the missing information and completes the identification. The experimental results show that the proposed method has higher recognition accuracy, shorter completion time and less energy consumption.
Big data analysis; network resource; missing information; intelligent identification
TP311.13
A
1000-2324(2019)05-0870-03
10.3969/j.issn.1000-2324.2019.05.029
2018-09-25
2018-10-08
2015年河南省醫(yī)學教育研究項目:依托網(wǎng)絡專題教育社區(qū)的醫(yī)學超聲診斷技術教學模式改革的探索(Wjlx2015170)
李田英(1982-),女,碩士,講師,主要研究方向為計算機科學與技術及網(wǎng)絡安全. E-mail:lty_1218@126.com