馬杰
關(guān)鍵詞: 網(wǎng)絡(luò)大數(shù)據(jù); 信息處理平臺; 信息采集; 信息處理器; 時(shí)域特征; 頻域特征
中圖分類號: TN711?34; TP311.13 ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼: A ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2018)24?0075?04
Design and implementation of network big data information processing platform
MA Jie
(Experimental Center of Nanjing Audit University, Nanjing 211815, China)
Abstract: Since the network big data information processing platform based on orthogonal decomposition adopts a single network data feature extraction method, which may result in poor effect of data information processing, a network big data information processing platform based on Web is designed. The system architecture of the designed platform is composed of the service layer, function layer and platform layer. The network big data information acquisition module is constructed by using the Ethernet control chip CP2200 and the microcontroller C8051F340. In the platform layer, the network big data information is collected by the network big data information acquisition module. The network big data information processor taking the network processor IXP2400 as its core is used to realize information processing of network big data. In the function layer, the time domain feature extraction algorithm is used to extract the artificial data instantaneous energy, and its mean square value, zero?crossing rate and high zero?crossing frame ratio in network big data. The frequency domain feature extraction algorithm is used to extract the Mel?frequency cepstral coefficient and linear prediction coefficient in the artificial data, so as to provide a reliable analysis basis for the follow?up information processing. The test results show that the designed platform for network big data information processing has high stability, low resource occupancy rate and good operation effect.
Keywords: network big data; information processing platform; information acquisition; information processor; time domain feature; frequency domain feature
21世紀(jì),計(jì)算機(jī)技術(shù)與網(wǎng)絡(luò)技術(shù)越發(fā)成熟,海量的網(wǎng)絡(luò)大數(shù)據(jù)具有大容量、多樣性和分散的特性[1],使用者查找、利用網(wǎng)絡(luò)數(shù)據(jù)信息的障礙大幅提升。因此,通過網(wǎng)絡(luò)大數(shù)據(jù)信息處理平臺,確保使用者能夠方便快捷地得到網(wǎng)絡(luò)數(shù)據(jù)信息資源變得尤為重要。傳統(tǒng)基于正交分解的網(wǎng)絡(luò)大數(shù)據(jù)信息處理平臺將平臺中的處理功能分解為松耦合的多個功能正交的模塊,在網(wǎng)絡(luò)數(shù)據(jù)信息特征提取過程中采用單一的網(wǎng)絡(luò)數(shù)據(jù)特征提取方法,導(dǎo)致數(shù)據(jù)信息處理效果較差[2]。為了解決這個問題,本文設(shè)計(jì)基于Web的網(wǎng)絡(luò)大數(shù)據(jù)信息處理平臺,采用多種數(shù)據(jù)信息特征提取方法,提升網(wǎng)絡(luò)大數(shù)據(jù)信息處理精度的同時(shí),具有穩(wěn)定性高、資源占用率低、速度快的優(yōu)勢。
1.1 ?平臺體系架構(gòu)設(shè)計(jì)
基于Web的網(wǎng)絡(luò)大數(shù)據(jù)信息處理平臺體系架構(gòu)如圖1所示,主要包括:
1) 服務(wù)層?;赪eb的網(wǎng)絡(luò)大數(shù)據(jù)服務(wù):構(gòu)建基于Web的大數(shù)據(jù)處理環(huán)境;基于Open API的大數(shù)據(jù)服務(wù):分析網(wǎng)絡(luò)大數(shù)據(jù)處理開放接口和開放流程,構(gòu)建基于Open AIP的大數(shù)據(jù)處理模式。
2) 功能層。網(wǎng)絡(luò)大數(shù)據(jù)信息挖掘:構(gòu)建高可擴(kuò)展的大數(shù)據(jù)處理與挖掘算法庫,實(shí)現(xiàn)PB級數(shù)據(jù)挖掘;網(wǎng)絡(luò)大數(shù)據(jù)管理:保障網(wǎng)絡(luò)大數(shù)據(jù)處理過程內(nèi)的信息安全;網(wǎng)絡(luò)大數(shù)據(jù)存儲:實(shí)現(xiàn)網(wǎng)絡(luò)大數(shù)據(jù)處理結(jié)果的人機(jī)交互、可視化功能;網(wǎng)絡(luò)大數(shù)據(jù)采集:構(gòu)建基于單片機(jī)的工作流執(zhí)行引擎實(shí)現(xiàn)網(wǎng)絡(luò)大數(shù)據(jù)的高效采集。
3) 平臺層。網(wǎng)絡(luò)大數(shù)據(jù)處理系統(tǒng):進(jìn)行大數(shù)據(jù)采集、存儲、管理等大數(shù)據(jù)處理工作[3];智能數(shù)據(jù)中心調(diào)度引擎模塊:整合各數(shù)據(jù)庫的存儲及計(jì)算等資源。
1.2 ?網(wǎng)絡(luò)大數(shù)據(jù)信息采集模塊設(shè)計(jì)
平臺層中網(wǎng)絡(luò)大數(shù)據(jù)信息采集模塊通過以太網(wǎng)管制芯片CP2200和單片機(jī)C8051F340實(shí)現(xiàn)網(wǎng)絡(luò)大數(shù)據(jù)信息的采集[4]。利用REGIN引腳將電源輸出的5 V電壓傳輸?shù)絾纹瑱C(jī)C8051F340的電壓調(diào)節(jié)器內(nèi),將5 V電壓轉(zhuǎn)化為3 V電壓,并利用VDD引腳將轉(zhuǎn)化后的3 V電壓發(fā)送至其他3 V器件內(nèi)。利用P3,P4口和其他的I/O引腳能夠?qū)崿F(xiàn)C8051F340單片機(jī)與CP2200芯片之間的數(shù)據(jù)信息交流。將經(jīng)過調(diào)整電路調(diào)整后的Web中被測信號通過單片機(jī)的P25引腳傳輸至能夠?qū)崿F(xiàn)信號與數(shù)據(jù)之間轉(zhuǎn)換的A/D轉(zhuǎn)換器內(nèi),利用網(wǎng)絡(luò)接口將得到的網(wǎng)絡(luò)數(shù)據(jù)傳輸給網(wǎng)絡(luò)處理器,實(shí)現(xiàn)網(wǎng)絡(luò)大數(shù)據(jù)信息的采集。
1.3 ?網(wǎng)絡(luò)大數(shù)據(jù)信息處理器設(shè)計(jì)
以IXP2400網(wǎng)絡(luò)處理器為核心,在硬件結(jié)構(gòu)上,利用共享數(shù)據(jù)線程和微引擎間的事件信號實(shí)現(xiàn)對網(wǎng)絡(luò)大數(shù)據(jù)信息的處理[5]。圖2為IXP2400硬件結(jié)構(gòu)。
通過圖2可知,控制處理器具有可編程的功能,通過其編程功能能夠確定控制處理器處理獲取的網(wǎng)絡(luò)數(shù)據(jù)信息的工作模式[6]。在控制處理器的控制下,將數(shù)據(jù)信息處理程序載入存儲區(qū),利用數(shù)據(jù)信息處理程序?qū)崿F(xiàn)網(wǎng)絡(luò)處理器對網(wǎng)絡(luò)大數(shù)據(jù)的信息處理。利用控制處理器與存儲模塊之間的連接將獲取的網(wǎng)絡(luò)大數(shù)據(jù)信息處理結(jié)果傳輸?shù)酵獠看鎯δK內(nèi)實(shí)施存儲。
1.4 ?軟件設(shè)計(jì)
由于網(wǎng)絡(luò)大數(shù)據(jù)的多樣性,平臺軟件設(shè)計(jì)中采用多種特征提取方法進(jìn)行網(wǎng)絡(luò)大數(shù)據(jù)信息特征提取,提升平臺網(wǎng)絡(luò)大數(shù)據(jù)信息處理的精度[7]。平臺針對人為數(shù)據(jù)分別從時(shí)域特征和頻域特征兩方面進(jìn)行網(wǎng)絡(luò)大數(shù)據(jù)信息特征的提取。
1.4.1 ?時(shí)域特征提取算法
網(wǎng)絡(luò)大數(shù)據(jù)中,人為數(shù)據(jù)的時(shí)域特征分為三種,即:瞬時(shí)能量及其均方值、過零率和高過零幀比[8]。
1) 通常情況下,在對網(wǎng)絡(luò)大數(shù)據(jù)中的人為數(shù)據(jù)進(jìn)行瞬時(shí)能量特征提取時(shí),時(shí)間與人為數(shù)據(jù)升降的參考能量值[Q0]是根據(jù)人為數(shù)據(jù)中各幀(人為數(shù)據(jù)單位)的對照點(diǎn)幅值[f]的平方和確定的,描述公式為:
[Q0=r=0R-1f2r] ? (1)
式中:r表示當(dāng)前人為數(shù)據(jù)量;[R]表示對照點(diǎn)數(shù)值。
通過式(1)可獲取人為數(shù)據(jù)的瞬時(shí)能量EUQ,即:
[EUQ=Q0R] ?(2)
2) 指定時(shí)間區(qū)域中,人為數(shù)據(jù)正負(fù)幅值的變更次數(shù)即過零率,基于式(2)通過式(3)對其進(jìn)行描述:
[H0=12R-2EUQr=0R-1tirfr-tirfr-1] (3)
式中,[tir]表示指定參數(shù),若[tir]的變量不小于0,那么[tir]為1,相反,則[tir]為-1。[fr]及[fr-1]分別表示當(dāng)前以及前一時(shí)刻人為數(shù)據(jù)的幅值。
3) 指定時(shí)間區(qū)域中,過零率瞬時(shí)值大于平均值的幀比例,即高過零幀比PWSDD,基于式(2)以式(4)對其進(jìn)行描述:
[PWSDD=12Un=0U-1EUQ1+tirH0u-1.5pjH0] ?(4)
式中:U,[H0u],[pjH0]分別表示人為數(shù)據(jù)內(nèi)全部片段幀、幀數(shù)為[n]的過零率以及過零率的平均值。
1.4.2 ?頻域特征提取算法
對網(wǎng)絡(luò)大數(shù)據(jù)中的人為數(shù)據(jù)內(nèi)的梅爾頻率倒譜系數(shù)及線性預(yù)測系數(shù)進(jìn)行提取即頻域特征提取[9]。以[xc]代表得到的幀的時(shí)域信號對其實(shí)施傅里葉變換。[xd]為通過變換取得的離散頻譜,以式(5)對其進(jìn)行表示:
[xd=c=0C-1xce-2πcpdC, 0≤d≤C] ? ? ? ? (5)
式中:[C],[f],[k],[c]分別表示傅里葉變換點(diǎn)數(shù)、頻率、次序以及幀數(shù);[d]為自然數(shù)。以[X2d]對通過[xd]得到的離散頻譜平方值進(jìn)行描述,那么處理輸出對數(shù)能量[gv]為:
[gv=Inc=0C-1xc2Wvd, 0<m<V] (6)
式中:[Wv],[V],[v]分別表示經(jīng)過處理后得到的輸出能量值、處理次數(shù)、處理順序。
通過式(6)和式(7)得到梅爾頻率倒譜系數(shù)[yc]:
[yc=c=0C-1gvcosπcv-5V, 0<c<V] (7)
利用式(8)能夠獲取線性預(yù)測系數(shù)[ξi]:
[Od=i=ivξiOd-i, d=0,1,2,…,k] (8)
式中:k,[Od],[i]分別表示線性預(yù)測的階層、實(shí)數(shù)序列數(shù)量為[d]組合的能量以及實(shí)數(shù)序列的排序數(shù)。其中,[i]為自然數(shù)。
通過式(7)和式(8)實(shí)現(xiàn)網(wǎng)絡(luò)大數(shù)據(jù)中人為數(shù)據(jù)中梅爾頻率倒譜系數(shù)及線性預(yù)測系數(shù)的提取,進(jìn)而實(shí)現(xiàn)人為數(shù)據(jù)頻域特征有效提取。
實(shí)驗(yàn)對本文設(shè)計(jì)的基于Web的網(wǎng)絡(luò)大數(shù)據(jù)信息處理平臺的穩(wěn)定性進(jìn)行測試。針對不同信息量,使用本文平臺和基于正交分解的網(wǎng)絡(luò)大數(shù)據(jù)信息處理平臺分別進(jìn)行處理,并對不同平臺的處理結(jié)果進(jìn)行對比,對比結(jié)果見表1和表2。其中,Y值表示不同平臺對網(wǎng)絡(luò)大數(shù)據(jù)信息處理水平的預(yù)測值[10]。實(shí)驗(yàn)處理的大數(shù)據(jù)對象為人為數(shù)據(jù)。
對表1和表2進(jìn)行分析可知,使用本文平臺對不同信息量的網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行處理得到的準(zhǔn)確率、召回率以及Y值隨著信息量的不斷增長均呈線性平緩提升,并且都高于使用基于正交分解的網(wǎng)絡(luò)大數(shù)據(jù)信息處理平臺獲取的結(jié)果。實(shí)驗(yàn)結(jié)果說明本文平臺的穩(wěn)定性較好。
實(shí)驗(yàn)為測試本文平臺的資源占用率,分別從大數(shù)據(jù)采集,數(shù)據(jù)信息分類等不同方面對本文平臺和基于正交分解的網(wǎng)絡(luò)大數(shù)據(jù)信息處理平臺的CUP占用率以及內(nèi)存占用率進(jìn)行對比,結(jié)果如表3所示。
通過表3分析得到,使用本文平臺進(jìn)行網(wǎng)絡(luò)大數(shù)據(jù)信息處理時(shí),CPU占用率在9%~18%之間,內(nèi)存占用率在10%~20%之間。而基于正交分解的網(wǎng)絡(luò)大數(shù)據(jù)信息處理平臺的CUP占用率在66%~71%之間,內(nèi)存占用率在30%~44%之間,說明本文平臺的資源占用率較低。
實(shí)驗(yàn)為驗(yàn)證本文平臺的信息處理效率,在相同的實(shí)驗(yàn)環(huán)境中,用本文平臺和基于正交分解的網(wǎng)絡(luò)大數(shù)據(jù)信息處理平臺對信息處理中的兩個步驟所用時(shí)間進(jìn)行對比,結(jié)果如表4所示。
由表4能夠得到,使用本文平臺進(jìn)行網(wǎng)絡(luò)大數(shù)據(jù)信息處理所使用的時(shí)間均小于使用基于正交分解的網(wǎng)絡(luò)大數(shù)據(jù)信息處理平臺進(jìn)行信息處理所用的時(shí)間,說明本文平臺進(jìn)行網(wǎng)絡(luò)大數(shù)據(jù)信息處理的效率較高。
本文設(shè)計(jì)的基于Web的網(wǎng)絡(luò)大數(shù)據(jù)信息處理平臺,能夠解決基于正交分解的網(wǎng)絡(luò)大數(shù)據(jù)信息處理平臺中存在的數(shù)據(jù)信息處理效果差的問題,實(shí)現(xiàn)網(wǎng)絡(luò)大數(shù)據(jù)信息的高精度處理,并且具有穩(wěn)定性好、資源占用率低、速度快的優(yōu)勢,能夠?qū)崿F(xiàn)平臺設(shè)計(jì)的最初目的,在網(wǎng)絡(luò)大數(shù)據(jù)信息處理工作中發(fā)揮重要作用。
參考文獻(xiàn)
[1] 張科星.網(wǎng)絡(luò)大數(shù)據(jù)平臺中的特征數(shù)據(jù)分類系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2017,40(8):25?28.
ZHANG Kexing. Design and implementation of feature data classification system in network big data platform [J]. Modern electronics technique, 2017, 40(8): 25?28.
[2] 向小佳,趙曉芳,劉洋,等.一種正交分解大數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)方法及實(shí)現(xiàn)[J].計(jì)算機(jī)研究與發(fā)展,2017,54(5):1097?1108.
XIANG Xiaojia, ZHAO Xiaofang, LIU Yang, et al. An orthogonal decomposition based design method and implementation for big data processing system [J]. Journal of computer research and development, 2017, 54(5): 1097?1108.
[3] 趙光遠(yuǎn),秦豐林,郭曉東.基于P2P的網(wǎng)絡(luò)測量云平臺的設(shè)計(jì)與實(shí)現(xiàn)[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2017,52(12):104?110.
ZHAO Guangyuan, QIN Fenglin, GUO Xiaodong. Design and implementation of P2P?based network measurement cloud platform [J]. Journal of Shandong University (Natural science), 2017, 52(12): 104?110.
[4] 姜臘林,楊嘉佳,姜磊,等.高速網(wǎng)絡(luò)流采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用,2014,34(11):3201?3205.
JIANG Lalin, YANG Jiajia, JIANG Lei, et al. Design and implementation of high?speed network traffic capture system [J]. Journal of computer applications, 2014, 34(11): 3201?3205.
[5] 沈宇,王祺.基于大數(shù)據(jù)的煤礦安全監(jiān)管聯(lián)網(wǎng)平臺設(shè)計(jì)與實(shí)現(xiàn)[J].礦業(yè)安全與環(huán)保,2016,43(6):21?24.
SHEN Yu, WANG Qi. Design and implementation of coal mine safety supervision networking platform based on big data [J]. Mining safety & environmental protection, 2016, 43(6): 21?24.
[6] 王磊,王西點(diǎn),程楠.基于大數(shù)據(jù)技術(shù)的智能化無線網(wǎng)絡(luò)優(yōu)化體系[J].電信科學(xué),2015,31(12):167?171.
WANG Lei, WANG Xidian, CHENG Nan. Intelligent system of wireless network optimization based on big data technology [J]. Telecommunications science, 2015, 31(12): 167?171.
[7] 張倩.高校檔案物聯(lián)網(wǎng)大數(shù)據(jù)處理平臺的構(gòu)建方案研究[J].檔案與建設(shè),2016,33(2):39?43.
ZHANG Qian. Research on the construction scheme of IoT big data archival processing platform in colleges and universities [J]. Archives & construction, 2016, 33(2): 39?43.
[8] WANG Z, CHEN D, LI L. Design and implementation of personalized information customization system based on Hadoop cloud platform [J]. Journal of Jilin University (Information science edition), 2016, 34(2): 271?277.
[9] 劉香蘭.煤礦安全生產(chǎn)大數(shù)據(jù)分析與管理平臺設(shè)計(jì)研究[J].煤炭工程,2017,49(6):32?35.
LIU Xianglan. Design and research of big data analysis and management platform for coal mine safety production [J]. Coal engineering, 2017, 49(6): 32?35.
[10] 張晶.大數(shù)據(jù)平臺下數(shù)據(jù)庫訪問信息安全管理仿真[J].計(jì)算機(jī)仿真,2017,34(7):436?440.
ZHANG Jing. Simulation of database access information security management under big data platform [J]. Computer simulation, 2017, 34(7): 436?440.