李雙琴 謝銳 曹文琛 鄒妍 劉鳳嶼
摘? 要: 現(xiàn)有大數(shù)據(jù)流整合系統(tǒng)采用統(tǒng)一隨機采樣策略,當(dāng)整合環(huán)境存在干擾時會出現(xiàn)嚴(yán)重的數(shù)據(jù)丟失現(xiàn)象,為解決上述問題,引入多維分層采樣策略,分別從硬件和軟件兩個方面實現(xiàn)對時間維度型大數(shù)據(jù)流整合系統(tǒng)的優(yōu)化設(shè)計。在硬件方面主要改裝微處理器、存儲器以及數(shù)據(jù)分類器等元件,提高硬件系統(tǒng)的運行穩(wěn)定性。在此基礎(chǔ)上,搭建多時間維度數(shù)據(jù)分層模型,并通過大數(shù)據(jù)流業(yè)務(wù)系統(tǒng)數(shù)據(jù)實現(xiàn)數(shù)據(jù)探查,并以多維分層的聚類算法為底層邏輯,檢測數(shù)據(jù)質(zhì)量。最終將質(zhì)量檢測合格的數(shù)據(jù)流整合在一起,從而實現(xiàn)系統(tǒng)的數(shù)據(jù)流整合功能。通過系統(tǒng)測試得出如下結(jié)論:在復(fù)雜環(huán)境下,基于多維分層采樣的時間維度型大數(shù)據(jù)流整合系統(tǒng)的丟失數(shù)據(jù)量為1.25 MB,與傳統(tǒng)整合系統(tǒng)相比減少了15 MB。
關(guān)鍵詞: 數(shù)據(jù)流整合; 多維分層采樣; 數(shù)據(jù)采集; 數(shù)據(jù)質(zhì)量檢測; 模型搭建; 系統(tǒng)設(shè)計
中圖分類號: TN02?34? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼: A? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)05?0133?04
Design of time dimension big data flow integration system
based on multi?dimensional hierarchical sampling
LI Shuangqin1, 2, XIE Rui2, CAO Wenchen2, ZOU Yan2, LIU Fengyu3
(1. China University of Petroleum, Beijing 102249, China;
2. Technical Centre of Southwest Pipeline Branch, PetroChina Company Limited, Chengdu 610037, China;
3. Beijing Raysdata Co., Ltd., Beijing 100102, China)
Abstract: The unified random sampling strategy is adopted in the existing big data flow integration system, which will cause serious data loss when interference occurs to the integration environment. Therefore, a multi?dimensional hierarchical sampling strategy is introduced to achieve the optimal design of the time dimension big data flow integration system in two aspects of hardware and software. In terms of hardware, components such as the microprocessor, the memory and the data classifier are modified to improve the running stability of the hardware system. On this basis, the data hierarchical model with multiple time dimensions is built, the data exploration is realized by business system data of big data flow, and the multi?dimensional hierarchical clustering algorithm is used as the underlying logic to detect data quality. Finally, the data flow with qualified quality is integrated together to realize the function of system data flow integration. It is concluded from the system test that, in complex environment, the data loss of the time dimension big data flow integration system based on multi?dimensional hierarchical sampling is 1.25 MB, which is 15 MB less than that of the traditional integration system.
Keywords: data flow integration; multi?dimensional hierarchical sampling; data acquisition; data quality detection; modeling; system design
0? 引? 言
大數(shù)據(jù)是現(xiàn)階段互聯(lián)網(wǎng)網(wǎng)絡(luò)中的重要數(shù)據(jù)形式之一,主要指的是需要新處理模式才能具有更強決策力、洞察力和流程優(yōu)化能力的海量、高增長率以及多樣化的信息資產(chǎn)。通過網(wǎng)絡(luò)中大數(shù)據(jù)信息的應(yīng)用提升了互聯(lián)網(wǎng)的運行效率,從而優(yōu)化信息調(diào)用的效率。網(wǎng)絡(luò)大數(shù)據(jù)主要是由多個數(shù)據(jù)流組成的,數(shù)據(jù)流的定義為只能以事先規(guī)定好的順序被讀取的數(shù)據(jù)序列,按照數(shù)據(jù)流的傳輸類型可以將其分為輸入流、輸出流、緩沖區(qū)、時間維度型等多個類型[1]。其中,時間維度型的數(shù)據(jù)流是以時間作為描述、表達(dá)變量的度量尺度,可以將互聯(lián)網(wǎng)中的數(shù)據(jù)流用時間來表示,同時,也可以通過時間順序排列對應(yīng)的數(shù)據(jù)流。為了實現(xiàn)對大數(shù)據(jù)的有效管理和高效應(yīng)用,需要以不同的分類條件對網(wǎng)絡(luò)中的大數(shù)據(jù)流進(jìn)行整合處理。數(shù)據(jù)整合主要是將不同數(shù)據(jù)源或數(shù)據(jù)類型的數(shù)據(jù)流收集、整理、清洗、轉(zhuǎn)換后加載到一個新的數(shù)據(jù)源中,為網(wǎng)絡(luò)用戶提供統(tǒng)一數(shù)據(jù)視圖的數(shù)據(jù)集成方式。數(shù)據(jù)整合具有擴展性強、管控能力強的特點,通過相關(guān)整合工具的處理,可以將兩個甚至更多的應(yīng)用數(shù)據(jù)流合并在一起,創(chuàng)建出具有更多功能和數(shù)據(jù)量的結(jié)果[2]。為了保證數(shù)據(jù)整合操作的實現(xiàn)功能,設(shè)計對應(yīng)的時間維度型大數(shù)據(jù)流整合系統(tǒng)。
針對時間維度型大數(shù)據(jù)流整合系統(tǒng)的設(shè)計與研究,國內(nèi)外具有不同的見解,也產(chǎn)生了不同的研究成果。然而通過對應(yīng)用反饋的分析發(fā)現(xiàn)傳統(tǒng)的大數(shù)據(jù)流整合系統(tǒng)在性能和功能方面均存在一定的問題,主要是在復(fù)雜信號環(huán)境下數(shù)據(jù)的整合結(jié)果容錯率會大大降低,得出的整合結(jié)果會丟失一部分?jǐn)?shù)據(jù)。為了解決傳統(tǒng)大數(shù)據(jù)流整合系統(tǒng)中存在的問題,在現(xiàn)有系統(tǒng)的基礎(chǔ)上引入多維分層采樣技術(shù)[3]。多維分層采樣技術(shù)是將不同類型的數(shù)據(jù)流進(jìn)行分層處理,為保證分層的完整性,選擇多維分層方式,使用這種采樣技術(shù)可以保證大數(shù)據(jù)流采集結(jié)果的完整性和準(zhǔn)確性。通過多維分層采樣技術(shù)的引用,提高時間維度型大數(shù)據(jù)流整合系統(tǒng)數(shù)據(jù)整合結(jié)果的完整性,同時,提升該系統(tǒng)的抗干擾性,從而解決傳統(tǒng)數(shù)據(jù)整合系統(tǒng)中存在的問題,實現(xiàn)此次系統(tǒng)設(shè)計的目的。
1? 時間維度型大數(shù)據(jù)流整合硬件系統(tǒng)設(shè)計
利用多維分層采樣技術(shù),分別從硬件和軟件兩個角度實現(xiàn)時間維度型大數(shù)據(jù)流整合系統(tǒng)的優(yōu)化設(shè)計。由于傳統(tǒng)的大數(shù)據(jù)流整合硬件系統(tǒng)中使用的硬件設(shè)備是引發(fā)系統(tǒng)不穩(wěn)定的因素之一,因此,首先需要改裝使用的硬件設(shè)備,硬件系統(tǒng)的改裝結(jié)構(gòu)如圖1所示。
改裝大數(shù)據(jù)流整合硬件系統(tǒng)中的微處理器、存儲器以及數(shù)據(jù)分類器等元件,實現(xiàn)硬件系統(tǒng)的優(yōu)化設(shè)計。
1.1? 微處理器
微處理器是數(shù)據(jù)流整合系統(tǒng)中軟件功能實現(xiàn)的主要環(huán)境,可以通過微處理器的邏輯運算實現(xiàn)數(shù)據(jù)的處理與管理功能[4]。微處理器的硬件結(jié)構(gòu)為一片或多片大規(guī)模集成電路組成的中央處理器,在整合系統(tǒng)工作的過程中可以完成數(shù)據(jù)采集、處理和執(zhí)行命令等指令,微處理器的處理結(jié)果可以與外界存儲器以及邏輯部件進(jìn)行數(shù)據(jù)交換與傳輸,是系統(tǒng)運行的主要運算控制部分。
1.2? 存儲器
存儲器是大數(shù)據(jù)流整合硬件系統(tǒng)中最為重要的硬件設(shè)備,主要用來存儲初始數(shù)據(jù)流信息、邏輯運算產(chǎn)生的數(shù)據(jù)以及數(shù)據(jù)流的整合結(jié)果信息。傳統(tǒng)的時間維度型大數(shù)據(jù)流整合系統(tǒng)選用的存儲器為服務(wù)器內(nèi)置的存儲器,分為ROM和RAM,這種內(nèi)置存儲器受到空間的限制無法存儲大數(shù)據(jù)量的信息,因此當(dāng)傳統(tǒng)存儲器出現(xiàn)溢出效應(yīng)時,會自動刪除歷史數(shù)據(jù)信息,或者通過人為接入外部存儲器[5]。由于系統(tǒng)的整合功能處于實時運行的狀態(tài),因此在外部存儲器接入的過程中就會出現(xiàn)數(shù)據(jù)丟失的情況,為了解決上述問題改裝內(nèi)置存儲器。存儲器的擴充分為兩個方面:一個為存儲空間的擴大;另一個為存儲程序的備份。在傳統(tǒng)內(nèi)嵌存儲器的基礎(chǔ)上連接一個SD閃存卡和一個微硬盤,選擇的兩個存儲器實體占地空間小,易于安裝在內(nèi)置存儲器上。兩個設(shè)備的存儲空間分別為2 GB和20 TB,其中,微硬盤可以實現(xiàn)硬件存儲空間的擴大,而SD閃存卡具有掉電后數(shù)據(jù)不丟失的特點,因此可以作為備份存儲器。
1.3? 數(shù)據(jù)分類器
由于優(yōu)化設(shè)計的大數(shù)據(jù)流整合系統(tǒng)引入了多維分層采樣技術(shù),需要在硬件系統(tǒng)中為其配置相應(yīng)的實現(xiàn)環(huán)境,即為數(shù)據(jù)分類器[6]。按照多維分層采樣技術(shù)的應(yīng)用要求,改裝傳統(tǒng)的數(shù)據(jù)分類器,使用時間維度作為數(shù)據(jù)分類的標(biāo)準(zhǔn)。
2? 時間維度型大數(shù)據(jù)流整合軟件系統(tǒng)設(shè)計
在硬件系統(tǒng)設(shè)計并安裝完成的情況下,實現(xiàn)時間維度型大數(shù)據(jù)流整合軟件系統(tǒng)的設(shè)計。軟件系統(tǒng)的設(shè)計主要分為三個方面,分別為系統(tǒng)的UI界面設(shè)計、數(shù)據(jù)庫設(shè)計以及功能模塊的設(shè)計。其中,UI界面的設(shè)計目的是在滿足操作邏輯和界面美觀度的同時,實現(xiàn)人機交互功能,用戶使用已注冊的賬號和密碼登錄系統(tǒng)中,通過發(fā)送相關(guān)申請的方式實現(xiàn)對時間維度型大數(shù)據(jù)流的操作。
2.1? 創(chuàng)建系統(tǒng)數(shù)據(jù)庫
系統(tǒng)數(shù)據(jù)庫的創(chuàng)建環(huán)境為SQL,在該環(huán)境下創(chuàng)建四個數(shù)據(jù)包分別命名為backup,initial,logic和integration,分別用來存儲備份數(shù)據(jù)、初始數(shù)據(jù)、邏輯數(shù)據(jù)、整合數(shù)據(jù)結(jié)果[7]。其中,backup數(shù)據(jù)包的更新速度需要人為設(shè)置,一般情況下設(shè)置為5 min,而另外的三個數(shù)據(jù)包中的數(shù)據(jù)按照系統(tǒng)實際的運行情況實時傳輸與存儲。最終將系統(tǒng)數(shù)據(jù)庫以圖2中顯示的方式存儲到硬件系統(tǒng)的存儲器中。
2.2? 數(shù)據(jù)流整合功能設(shè)計
在系統(tǒng)數(shù)據(jù)庫的支持下,分別通過時間維度數(shù)據(jù)分層、多維分層數(shù)據(jù)采樣、數(shù)據(jù)流質(zhì)量檢測與處理以及數(shù)據(jù)流的聚類整合四個步驟,實現(xiàn)時間維度型大數(shù)據(jù)流的整合功能。
2.2.1? 搭建多時間維度數(shù)據(jù)分層模型
將多時間維度數(shù)據(jù)分層模型搭建在數(shù)據(jù)分類器中,從軟件的角度執(zhí)行對初始數(shù)據(jù)流的分類處理。搭建的數(shù)據(jù)分層模型如圖3所示。
將初始數(shù)據(jù)從圖3中的數(shù)據(jù)層輸入到層次模型當(dāng)中,以時間維度為分類原則,通過模型層次的逐層篩選與分類處理,從而得出數(shù)據(jù)流的層次劃分結(jié)果[8]??偟膩碇v,可以將整個劃分過程分為類判別和分類處理兩個階段,通過多時間維度數(shù)據(jù)分層模型的處理,實現(xiàn)初始數(shù)據(jù)流的轉(zhuǎn)換,得出用時間維度來表示的數(shù)據(jù)流。
2.2.2? 采集與探查數(shù)據(jù)流樣本
分別從一維、二維和三維三個方面實現(xiàn)對初始數(shù)據(jù)流樣本的探查與采集,在開始采集之前需要對其進(jìn)行預(yù)處理[9]。預(yù)處理主要是去除初始數(shù)據(jù)流中的噪聲部分,盡量反映數(shù)據(jù)源的特征,避免采集到的數(shù)據(jù)與現(xiàn)實樣本存在差異。接著按照圖4中的采樣方式獲得數(shù)據(jù)流樣本。
為了保證數(shù)據(jù)流處理過程中的穩(wěn)定性,避免出現(xiàn)數(shù)據(jù)丟包的情況,將數(shù)據(jù)信號轉(zhuǎn)換為頻率信號。假設(shè)采樣時間型大數(shù)據(jù)流的結(jié)果用[s0,s1,s2,…,sn]來表示,當(dāng)新的整合數(shù)據(jù)流到達(dá)時得到一個新的數(shù)據(jù)流序列,表示為[u0,u1,u2,…,un],則數(shù)據(jù)流序列[u]的轉(zhuǎn)換可以通過式(1)計算:
[un=1Ni=1N-1N?sn-s0-uNe2πhN] (1)
式中:[N]為數(shù)據(jù)流中的總數(shù)據(jù)量;[h]為整合數(shù)據(jù)流轉(zhuǎn)換的向量值。采樣數(shù)據(jù)流經(jīng)過轉(zhuǎn)換變換后保留了信號數(shù)據(jù)中的主要能量。
2.2.3? 檢測大數(shù)據(jù)流質(zhì)量
以多維分層的聚類算法為底層邏輯檢測大數(shù)據(jù)流的質(zhì)量,數(shù)據(jù)質(zhì)量檢查的內(nèi)容包括數(shù)字精度、屬性精度、完整性與正確性、邏輯一致性、平面精度、數(shù)據(jù)格式以及數(shù)據(jù)分層完整性等[10]。按照圖5中的檢測流程得出關(guān)于大數(shù)據(jù)流質(zhì)量的檢測結(jié)果。
參考大數(shù)據(jù)流質(zhì)量檢測結(jié)果,首先判斷采樣的時間型數(shù)據(jù)流是否符合整合標(biāo)準(zhǔn),設(shè)置質(zhì)量檢測的門限值為[η0]和[η],其中[η0]為最低門限值,[η]為高階門限值[11]。若檢測結(jié)果小于[η0],則放棄對該數(shù)據(jù)流的處理,重新采樣;若檢測結(jié)果的取值在[η0]和[η]之間,證明采樣數(shù)據(jù)流中存在未清除的噪聲點或孤立點,需要進(jìn)行進(jìn)一步去除處理;若檢測結(jié)果大于[η],證明數(shù)據(jù)流質(zhì)量合格可以直接進(jìn)入聚類整合階段。
2.2.4? 聚類整合時間維度型大數(shù)據(jù)流
綜合質(zhì)量合格的時間型大數(shù)據(jù)流,得出聚類整合結(jié)果,具體的整合集成過程如圖6所示。
按照圖6中的實現(xiàn)過程,首先確定整合的聚類點,一般情況下選擇第一個輸入的數(shù)據(jù)流為起始點。接著計算最優(yōu)整合數(shù)量,計算公式為:
[C=arg maxk∈k1,k2,…,knavgBIPk] (2)
式中:[C]表示平均BIP值最大時對應(yīng)的聚類數(shù);BIP為反映單個數(shù)據(jù)流對象聚類有效性的指標(biāo);[k]為輸入的時間型大數(shù)據(jù)流的數(shù)量;[avgBIPk]為數(shù)據(jù)流被整合為[k]類時的平均BIP值[12]。設(shè)數(shù)據(jù)流整合的條件為:
[k=β?C] (3)
式中[β]為整合系統(tǒng),其取值與分類層次的數(shù)量有關(guān)。那么當(dāng)參數(shù)[k]滿足式(3)中的條件時,即得到了時間型大數(shù)據(jù)流的最佳整合數(shù)。
3? 系統(tǒng)測試
將設(shè)計完成的基于多維分層采樣的時間維度型大數(shù)據(jù)流整合系統(tǒng)調(diào)整到主界面狀態(tài),如圖7所示。
當(dāng)系統(tǒng)可以輸出圖7中的狀態(tài)時,即可證明系統(tǒng)處于正常運行狀態(tài)。為了驗證該系統(tǒng)的性能,設(shè)置傳統(tǒng)的大數(shù)據(jù)流整合系統(tǒng)作為系統(tǒng)測試實驗中的對比系統(tǒng)。連接系統(tǒng)硬件設(shè)備,并配置相應(yīng)的網(wǎng)絡(luò)環(huán)境,準(zhǔn)備相同的大數(shù)據(jù)流,為了避免系統(tǒng)運行的偶然性,將大數(shù)據(jù)流分為多個組別,每個組別的平均整合數(shù)據(jù)量為120 MB。在正常環(huán)境下將數(shù)據(jù)流傳輸?shù)较到y(tǒng)當(dāng)中,統(tǒng)計輸出的整合數(shù)據(jù)結(jié)果,記為[Q1]和[Q2]。接著在正常測試環(huán)境下,加入噪聲干擾因素,按照上述步驟重復(fù)操作,統(tǒng)計結(jié)果記為[Q3]和[Q4]。將得出的數(shù)據(jù)流整合結(jié)果輸入到數(shù)據(jù)分析軟件中,對比在不同測試環(huán)境下,整合前后的數(shù)據(jù)量變化情況,對比結(jié)果如圖8所示。
從圖8中的分析結(jié)果來看,經(jīng)過時間維度型大數(shù)據(jù)流整合系統(tǒng)的處理,數(shù)量均存在一定程度上的減少,并且[Q1]和[Q2]的數(shù)據(jù)量均為110 MB。但[Q3]和[Q4]的統(tǒng)計差距較大,通過計算,[Q3]的平均數(shù)據(jù)量為93.45 MB,丟失16.55 MB數(shù)據(jù)流;而[Q4]的平均數(shù)據(jù)量為108.75 MB,丟失1.25 MB數(shù)據(jù)流,相比之下,數(shù)據(jù)丟失量降低了15 MB。由此可以得出結(jié)論:設(shè)計的基于多維分層采樣的時間維度型大數(shù)據(jù)流整合系統(tǒng)在復(fù)雜的運行環(huán)境下,依舊可以準(zhǔn)確實現(xiàn)數(shù)據(jù)流的整合功能,通過系統(tǒng)測試證明優(yōu)化數(shù)據(jù)流整合系統(tǒng)有效地解決了傳統(tǒng)數(shù)據(jù)流整合系統(tǒng)中存在的問題。
4? 結(jié)? 語
通過基于多維分層采樣的時間維度型大數(shù)據(jù)流整合系統(tǒng)的優(yōu)化,提高了系統(tǒng)運行的穩(wěn)定性,將其應(yīng)用到實際的工作當(dāng)中可提升數(shù)據(jù)調(diào)用的效率,同時也可以作為數(shù)據(jù)基礎(chǔ)用來檢測網(wǎng)絡(luò)異常。然而經(jīng)過系統(tǒng)測試結(jié)果可以看出,該系統(tǒng)依舊存在一定程度上的丟包情況,因此在未來的研究工作中需要針對這一方面進(jìn)行進(jìn)一步的優(yōu)化。
參考文獻(xiàn)
[1] 史英杰,杜方,尤亞東.MSOLA:基于多維分層采樣的大數(shù)據(jù)在線聚集技術(shù)[J].計算機應(yīng)用研究,2018,35(2):375?380.
[2] 王飛,顏波,禹晉云.基于大數(shù)據(jù)的電力多維度分析系統(tǒng)設(shè)計與實現(xiàn)[J].電力信息與通信技術(shù),2017,40(4):34?39.
[3] 張治,戚業(yè)國.基于大數(shù)據(jù)的多源多維綜合素質(zhì)評價模型的構(gòu)建[J].中國電化教育,2017,37(9):69?77.
[4] 翁彬月,黃今慧.基于網(wǎng)絡(luò)大數(shù)據(jù)分析的可視化技術(shù)[J].信息與電腦(理論版),2017,11(23):158?159.
[5] 張凱.基于Eucalyptus的大數(shù)據(jù)多維安全平臺架構(gòu)設(shè)計[J].科技傳播,2018,12(16):113?114.
[6] 丁繼紅,劉華中.大數(shù)據(jù)環(huán)境下基于多維關(guān)聯(lián)分析的學(xué)習(xí)資源精準(zhǔn)推薦[J].電化教育研究,2018,22(2):53?59.
[7] 張莉娜,吳偉,程旭明,等.基于電力大數(shù)據(jù)的多維聚合技術(shù)研究[J].數(shù)字技術(shù)與應(yīng)用,2017,16(8):40?41.
[8] 雷軍,葉航軍,武澤勝,等.基于開源生態(tài)系統(tǒng)的大數(shù)據(jù)平臺研究[J].計算機研究與發(fā)展,2017,54(1):80?93.
[9] 曾康銘,吳杏.多層概率決策的網(wǎng)絡(luò)大數(shù)據(jù)協(xié)作融合算法[J].電子技術(shù)應(yīng)用,2018,44(6):139?143.
[10] 單文軍,羅霄,李文華.一種基于FPGA的PCM檢查器的實現(xiàn)[J].電子設(shè)計工程,2018,26(9):185?188.
[11] 眭冠男.多維分析技術(shù)在大數(shù)據(jù)環(huán)境下的發(fā)展[J].電腦知識與技術(shù):學(xué)術(shù)交流,2018,14(4):4?5.
[12] 劉先花.基于群體協(xié)同智能聚類的大數(shù)據(jù)存儲系統(tǒng)設(shè)計[J].現(xiàn)代電子技術(shù),2017,40(23):130?133.