孫亮,賀瑩
[摘? ? 要]通過分析數(shù)據(jù)融合處理平臺和網(wǎng)絡架構(gòu),分析了多元線性回歸數(shù)據(jù)融合的事件統(tǒng)計方法,在保證數(shù)據(jù)的一致性、完成性和準確性的前提下,構(gòu)建從數(shù)據(jù)模型設計、數(shù)據(jù)開發(fā)、運維全生命周期的數(shù)據(jù)管控平臺,并以業(yè)務數(shù)據(jù)為核心構(gòu)建數(shù)據(jù)資源共享中心的數(shù)據(jù)體系,建立數(shù)據(jù)融合處理分析仿真平臺,對相關(guān)數(shù)據(jù)進行融合分析,可為其他業(yè)務數(shù)據(jù)的融合處理和統(tǒng)一管理提供技術(shù)思路。
[關(guān)鍵詞]數(shù)據(jù)融合;多元線性回歸;網(wǎng)絡事件
[中圖分類號]TP393 [文獻標志碼]A [文章編號]2095–6487(2022)02–0–03
Research on a big Data Fusion Processing Method
Sun Liang,He Ying
[Abstract]By analyzing the data fusion processing platform and network architecture, the event statistics method of multiple linear regression data fusion is analyzed. On the premise of ensuring the consistency, completeness and accuracy of the data, the construction from data model design, data development, operation Maintain a data management and control platform for the entire life cycle, and build a data system of data resource sharing center with business data as the core, and establish a data fusion processing analysis simulation platform to perform fusion analysis on related data, which can be used for fusion processing and unification of other business data. Management provides technical ideas.
[Keywords]data fusion; multiple linear regression; network event
多源異構(gòu)網(wǎng)絡信息數(shù)據(jù)融合主要是基于多種(同類或異類)信息源和數(shù)據(jù)源,根據(jù)某種特定標準在空間和時間上進行數(shù)據(jù)或信息的整合處理分析,獲取多源數(shù)據(jù)信息的內(nèi)容精準描述和深度分析,同時要保證本系統(tǒng)的安全穩(wěn)定運行。從多源數(shù)據(jù)融合的層次來說,多源數(shù)據(jù)融合處理的訓練模型通常從數(shù)據(jù)、特征、決策三個層次上進行數(shù)據(jù)的融合處理分析。
多源數(shù)據(jù)信息的融合處理系統(tǒng)一般都可以分為集中式數(shù)據(jù)融合、分布式數(shù)據(jù)融合和集中式/分布式混合融合。在實際工程項目中,面對不同的實際問題,可根據(jù)信息源數(shù)據(jù)特征的差異和關(guān)系,可單獨采用多層次多層級的數(shù)據(jù)融合方法,也可采用組合式數(shù)據(jù)融合處理方法,以保證數(shù)據(jù)融合處理的高效和能力最優(yōu)。當前,基于多源異構(gòu)網(wǎng)絡數(shù)據(jù)相融合的數(shù)據(jù)種類多、數(shù)量大,需要將各類數(shù)據(jù)進行統(tǒng)一存儲,按照分布式的數(shù)據(jù)采集,集中式的數(shù)據(jù)管理原則進行高價值情報信息的分析、挖掘和利用。
本文將通過建立數(shù)據(jù)標準體系和數(shù)據(jù)質(zhì)量體系,保證數(shù)據(jù)的一致性、完成性和準確性,并建立數(shù)據(jù)開發(fā)平臺,提供高效的數(shù)據(jù)分析、抽取能力,構(gòu)建從數(shù)據(jù)模型設計、數(shù)據(jù)開發(fā)、運維、使用一體化全生命周期的數(shù)據(jù)管控平臺,并以業(yè)務數(shù)據(jù)為核心構(gòu)建數(shù)據(jù)資源共享中心的數(shù)據(jù)體系,從而對數(shù)據(jù)進行各種維度的有效組織和管理,形成全局的數(shù)據(jù)架構(gòu)。
1 系統(tǒng)概述
采用分布式架構(gòu)建立數(shù)據(jù)資源共享管理系統(tǒng),來完成數(shù)據(jù)交互功能的同時,能有效地實現(xiàn)數(shù)據(jù)服務高可用和高性能,分布式節(jié)點之間對業(yè)務數(shù)據(jù)進行讀寫的并行處理。對各類數(shù)據(jù)進行存儲管理,以保證系統(tǒng)對各類相關(guān)業(yè)務數(shù)據(jù)的服務,可實現(xiàn)對億級在庫數(shù)據(jù)的秒級全文檢索及相關(guān)系統(tǒng)的互聯(lián)互通[1-3]。
數(shù)據(jù)是信息系統(tǒng)的核心,集中、高效、高可擴展的存儲環(huán)境是實現(xiàn)數(shù)據(jù)資源保存、共享、開發(fā)利用的基礎(chǔ)設施。存儲備份系統(tǒng)不僅要滿足大容量數(shù)據(jù)存儲和快速響應的需要,還要保障數(shù)據(jù)的安全性和一致性,因此需要通過建立集中、高效的存儲備份系統(tǒng),實現(xiàn)系統(tǒng)在不間斷運行情況下的數(shù)據(jù)保存和意外情況下的數(shù)據(jù)恢復。
按照存儲數(shù)據(jù)的類型劃分,每個存儲節(jié)點主要包含結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)兩類數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)主要包括業(yè)務數(shù)據(jù)、公共信息庫中的拷貝數(shù)據(jù)、組織機構(gòu)及人員信息、權(quán)限信息等公共配置信息等;非結(jié)構(gòu)化數(shù)據(jù)主要包括工作文書、文書審批表、各種圖片、掃描件等附件等。本文綜合考慮數(shù)據(jù)類型、業(yè)務應用模式和數(shù)據(jù)規(guī)模等多方面的因素,以及數(shù)據(jù)備份恢復和導入導出等系統(tǒng)維護性需求,結(jié)構(gòu)化數(shù)據(jù)通過數(shù)據(jù)庫進行存儲,非結(jié)構(gòu)化數(shù)據(jù)通過文件系統(tǒng)進行存儲,結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的關(guān)聯(lián)通過在數(shù)據(jù)庫中保存文件地址的映射來實現(xiàn)。
2 系統(tǒng)架構(gòu)
數(shù)據(jù)資源共享管理系統(tǒng)基于Hadoop的數(shù)據(jù)基礎(chǔ)軟件,Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細節(jié)的情況下開發(fā)分布式程序,充分利用集群的威力進行高速運算和存儲,具有可靠、高效、可伸縮的特點。
Hadoop的核心是YARN,HDFS和MapReduce。HDFS是分布式文件存儲系統(tǒng),用于存儲海量數(shù)據(jù);MapReduce是并行處理框架,實現(xiàn)任務分解和調(diào)度。Hadoop可以用來搭建大型數(shù)據(jù)倉庫,對海量數(shù)據(jù)進行存儲、分析、處理和統(tǒng)計等業(yè)務,功能十分強大。
基于Hadoop的數(shù)據(jù)融處理系統(tǒng)架構(gòu)的設計原則就是要滿足大數(shù)據(jù)輸入、存儲、處理和分析等需求,該系統(tǒng)主要分為基礎(chǔ)支撐層、數(shù)據(jù)處理與分析層和應用系統(tǒng)層。其中,基礎(chǔ)支撐層主要由Hadoop系統(tǒng)組件和其他數(shù)據(jù)預處理工具組成,在完成數(shù)據(jù)存儲、計算和網(wǎng)絡傳輸?shù)热蝿找酝猓€提供基于分布式架構(gòu)的流計算、在線/離線批處理以及圖形計算等服務;數(shù)據(jù)處理與分析層由多個數(shù)據(jù)處理和分析功能模塊組成,在完成基本數(shù)據(jù)抽取與統(tǒng)計分析任務的基礎(chǔ)上,還具備結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化以及組合化數(shù)據(jù)轉(zhuǎn)換處理分析、信息內(nèi)容深度理解與挖掘等能力,該層核心功能主要包括自然語言處理、圖像視頻內(nèi)容深度理解、數(shù)字文本深度挖掘關(guān)聯(lián)與分析等,數(shù)據(jù)處理與分析層對于數(shù)據(jù)處理的能力大小將很大程度影響應用系統(tǒng)層數(shù)據(jù)統(tǒng)計分析與綜合結(jié)果展示的準確性和全面性;應用系統(tǒng)層由SSH框架和綜合結(jié)果可視化展示工具組成,該層的任務主要是對數(shù)據(jù)處理與分析層輸出的處理分析結(jié)果的進一步分析。整個系統(tǒng)框架的構(gòu)建主要是基于各類開源的組件和插件,Hadoop分布式文件系統(tǒng)為本系統(tǒng)提供存儲能力,本系統(tǒng)支持Oracle、MySQL等結(jié)構(gòu)化數(shù)據(jù)的存儲,核心計算功能模塊主要包括MapReduce、Storm、Spark以及定制化分布式視頻處理引擎,基于SSH框架構(gòu)建可視化功能模塊,并支持按照需求靈活配置。
3 數(shù)據(jù)融合處理分析
數(shù)據(jù)融合處理涉及到系統(tǒng)端到端的各個環(huán)節(jié),包括數(shù)據(jù)接入、數(shù)據(jù)預處理、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)可視化等。其中,數(shù)據(jù)接入是基于規(guī)范化的傳輸協(xié)議和數(shù)據(jù)格式,從不同應用和數(shù)據(jù)源(如互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等)進行離線或?qū)崟r的數(shù)據(jù)采集、傳輸、分發(fā);數(shù)據(jù)預處理是對數(shù)據(jù)進行整理、清洗、轉(zhuǎn)換等,以便支撐后續(xù)數(shù)據(jù)處理、查詢、分析等進一步應用;數(shù)據(jù)存儲基于HDFS 分布式文件系統(tǒng)對海量半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲,支撐內(nèi)容檢索、深度挖掘、綜合分析等大數(shù)據(jù)分析應用;數(shù)據(jù)處理是根據(jù)業(yè)務實際情況進行數(shù)據(jù)離線處理、實時處理,并利用機器學習算法對大規(guī)模數(shù)據(jù)進行深度挖掘分析;數(shù)據(jù)可視化借助圖表、2D/3D 視圖等多種方式,直觀反映出數(shù)據(jù)各維度指標的變化趨勢,用以支撐用戶分析、監(jiān)控和數(shù)據(jù)價值挖掘。
數(shù)據(jù)采集主要實現(xiàn)多源、多方式、多類別的大數(shù)據(jù)采集、匯聚、去重等功能;數(shù)據(jù)存儲主要實現(xiàn)關(guān)系型和非關(guān)系型數(shù)據(jù)的統(tǒng)一管理,包括壓縮、分布式存儲、加密等;數(shù)據(jù)分析服務主要實現(xiàn)大數(shù)據(jù)環(huán)境下統(tǒng)一數(shù)據(jù)訪問接口設置,通過Java、Ruby、Python、PHP、Node.js、Perl等開發(fā)語言與框架以及平臺提供的API訪問數(shù)據(jù)資源。
多源異構(gòu)數(shù)據(jù)采集是系統(tǒng)核心模塊,包括數(shù)據(jù)采集、抽取、清洗、轉(zhuǎn)換、加載、資源管理、更新管理、審核、融合和數(shù)據(jù)目錄服務等功能;通過XML服務接口、分布式文件讀取、關(guān)系數(shù)據(jù)庫同步抽取等多種方式,將元數(shù)據(jù)抽取到大數(shù)據(jù)分析平臺,并經(jīng)過數(shù)據(jù)預處理操作,完成數(shù)據(jù)ETL(清洗、轉(zhuǎn)換、加載)等流程,將采集到的數(shù)據(jù)進行數(shù)據(jù)規(guī)范化,形成清潔大數(shù)據(jù)池供各個終端用戶通過API等形式調(diào)用。
數(shù)據(jù)處理平臺包括外網(wǎng)區(qū)、用戶訪問區(qū)、輔助安全區(qū)、信息系統(tǒng)區(qū)、大數(shù)據(jù)集群、云計算集群、運維管理區(qū)等:外網(wǎng)區(qū)由多臺高性能路由器/核心交換機連接外網(wǎng)運營商,并且構(gòu)成骨干網(wǎng);內(nèi)網(wǎng)的數(shù)據(jù)中心網(wǎng)絡采用最新的數(shù)據(jù)中心以太網(wǎng)技術(shù),支持10G的網(wǎng)內(nèi)服務器之間的高速數(shù)據(jù)傳輸;用戶訪問區(qū)是所有人員公用的網(wǎng)絡區(qū)域,可以通過上網(wǎng)賬號和密碼使用無線網(wǎng)絡或者企業(yè)網(wǎng)接入訪問數(shù)據(jù)處理平臺;輔助安全區(qū)包括流量控制、防拒絕服務攻擊(DDOS)、入侵檢測(IDS)、入侵防護系統(tǒng)(IPS)、 虛擬專用網(wǎng)(SSL VPN)、漏洞掃描、數(shù)據(jù)庫安全審計系統(tǒng)等。
通過整合多源異構(gòu)數(shù)據(jù)庫,構(gòu)建海量數(shù)據(jù)優(yōu)化存儲系統(tǒng);支持ORACLE、SQL Server、MySQL等大型的主流數(shù)據(jù)庫;支持Windows、Linux等操作系統(tǒng);采用Web Service技術(shù)、利用XML作為系統(tǒng)接口的數(shù)據(jù)交換標準,進行信息資源整合;利用SSL安全協(xié)議保護登陸過程的賬號、密碼等信息。
此外,數(shù)據(jù)安全防護是整個系統(tǒng)非常重要的功能模塊,決定了整個系統(tǒng)數(shù)據(jù)的安全運維和穩(wěn)定分析。數(shù)據(jù)庫系統(tǒng)及其數(shù)據(jù)是系統(tǒng)中的核心資產(chǎn),面對目前數(shù)據(jù)庫和應用系統(tǒng)在邏輯和技術(shù)上層出不窮的安全漏洞,以及管理層制定的監(jiān)督管理制度缺乏有效執(zhí)行保障的現(xiàn)狀,本系統(tǒng)通過建立高可靠性的安全時空數(shù)據(jù)庫架構(gòu),從根本上杜絕任何技術(shù)手段或違規(guī)操作對數(shù)據(jù)的非法獲取和篡改。系統(tǒng)具有海量時空多媒體信息的集群管理、分布式查詢與處理功能的跨平臺,分布式、高安全的數(shù)據(jù)庫管理系統(tǒng)平臺軟件,主要功能包括:關(guān)系型數(shù)據(jù)庫功能;空間數(shù)據(jù)管理功能;多媒體數(shù)據(jù)管理功能;數(shù)據(jù)集群管理功能;高安全數(shù)據(jù)管理功能(支持數(shù)據(jù)庫管理員、安全管理員和審計管理員的分立管理,多策略訪問控制,細粒度的審計功能,強用戶身份安全驗證機制,隱蔽信道通信監(jiān)測和加密通信等)。
4 基于多元線性回歸數(shù)據(jù)融合的事件統(tǒng)計分析
在數(shù)據(jù)融合處理計算平臺和網(wǎng)絡平臺搭建的基礎(chǔ)上,基于多元線性回歸模型對大規(guī)模業(yè)務數(shù)據(jù)進行融合處理,并在此基礎(chǔ)上對某事件進行統(tǒng)計分析。
多元線性回歸模型是反映自變量與因變量之間“緊密性”的關(guān)系。因此,在分析數(shù)據(jù)的基礎(chǔ)上,采用多元線性回歸的方法來衡量數(shù)據(jù)變化的趨勢走向。假設影響因變量y的自變量個數(shù)為N,自變量記為x1,x2,…,xn,則自變量與因變量是線性關(guān)系:
Y=β0+β1x1+β2x2+…+βnxn+ε
其中,β1,β2,…,βn是回歸系數(shù);ε是與x1,x2,…,xn無關(guān)的未知參數(shù),取值范圍為(0,σ2)。同時,在事件B出現(xiàn)的前提下,事件A出現(xiàn)的概率等于A和B都出現(xiàn)的概率除以B出現(xiàn)的概率,具體如下:
其中,P(A|B)是后驗概率;P(A)是先驗概率;P(B|A)/P(B)是一個調(diào)整因子,是在已知某些觀測所得到的結(jié)果。在預估先驗概率的前提下,再加入觀測結(jié)果,通過觀測結(jié)果來增強或者削弱先驗概率,由此得到更接近事實的后驗概率。
多源異構(gòu)網(wǎng)絡安全狀態(tài)數(shù)據(jù)差異性很大,可能是實時數(shù)據(jù),也可能是非實時數(shù)據(jù);可能是連續(xù)數(shù)據(jù),也可能是離散數(shù)據(jù);可能是互相支持的數(shù)據(jù),也可能是互相矛盾的數(shù)據(jù)。在多元線性回歸模型構(gòu)建基礎(chǔ)上進行數(shù)據(jù)融合,充分利用多源異構(gòu)網(wǎng)絡安全狀態(tài)數(shù)據(jù),將其冗余或互補的數(shù)據(jù)依據(jù)某種準則進行融合,以獲得對待識別安全事件的一致性描述或解釋,使得數(shù)據(jù)融合系統(tǒng)得到的實際輸出比依靠任何單一數(shù)據(jù)源構(gòu)成的系統(tǒng)獲得更優(yōu)越的性能。
5 仿真結(jié)果
通過計算機模擬數(shù)據(jù)融合處理計算平臺和網(wǎng)絡平臺,并結(jié)合基于多元線性回歸數(shù)據(jù)融合的事件統(tǒng)計分析方法,對某互聯(lián)網(wǎng)事件進行分析和結(jié)果呈現(xiàn)。在該數(shù)據(jù)呈現(xiàn)中,擬定呈現(xiàn)一種數(shù)據(jù),即以分區(qū)某專業(yè)內(nèi)數(shù)據(jù)產(chǎn)生時間為導向的數(shù)據(jù)量展示。擬用以時間為導向的柱狀圖來展示該專業(yè)內(nèi)的數(shù)據(jù)變化情況。最終呈現(xiàn)效果如圖1所示。
從上面數(shù)據(jù)變化展示圖中可以直觀地看到某網(wǎng)絡事件隨時間的變化規(guī)律,以及在什么時間段事件的發(fā)酵率最大,可為下一步針對該事件進行溯源分析和未來事件發(fā)展趨勢預測提供支撐。
6 結(jié)論
通過分析數(shù)據(jù)融合處理平臺和網(wǎng)絡架構(gòu),分析了多元線性回歸數(shù)據(jù)融合的事件統(tǒng)計方法,在保證數(shù)據(jù)的一致性、完成性和準確性的前提下,構(gòu)建從數(shù)據(jù)模型設計、數(shù)據(jù)開發(fā)、運維、使用一體化全生命周期的數(shù)據(jù)管控平臺,并以業(yè)務數(shù)據(jù)為核心構(gòu)建數(shù)據(jù)資源共享中心的數(shù)據(jù)體系,并建立數(shù)據(jù)融合處理分析仿真平臺。針對某網(wǎng)絡事件,對事件相關(guān)數(shù)據(jù)進行融合分析,可為其他業(yè)務數(shù)據(jù)的融合處理和統(tǒng)一管理提供技術(shù)思路。
參考文獻
[1] 肖璐雯.大數(shù)據(jù)形勢下的廣播電視安全播出技術(shù)[J].科技資訊,2020,18(11):2.
[2] 陳青嬌.大數(shù)據(jù)時代高校檔案管理工作創(chuàng)新[J].中國管理信息化,2020,23(12):2.
[3] 李明.多源信息融合技術(shù)發(fā)展簡述[J].艦船電子工程,2017,37(6):5-9.