(甘肅鋼鐵職業(yè)技術(shù)學(xué)院,甘肅 嘉峪關(guān) 735100)
大數(shù)據(jù)、挖掘分析對(duì)于企業(yè)的發(fā)展具有不可替代的作用,尤其是互聯(lián)網(wǎng)、高科技密集型型企業(yè),數(shù)據(jù)為企業(yè)的經(jīng)營狀況、未來發(fā)展方向以及市場應(yīng)用提供了強(qiáng)有力的保障。因此,企業(yè)的數(shù)據(jù)積累過程,需要對(duì)數(shù)據(jù)進(jìn)行充分的挖掘,剔除不相干數(shù)據(jù),保留有價(jià)值數(shù)據(jù)[1]。
在數(shù)據(jù)采集、建模中,需要對(duì)不同類型的數(shù)據(jù)結(jié)構(gòu)進(jìn)行數(shù)據(jù)化處理,然后加載運(yùn)輸?shù)綄?duì)應(yīng)的數(shù)據(jù)庫中,此過程簡稱為ETL(Extraction Transformation Loading)。ETL作為數(shù)據(jù)提煉過程核心環(huán)節(jié),據(jù)文獻(xiàn)表述,ETL占用時(shí)間比例是數(shù)據(jù)開發(fā)整理過程的60%~80%。因此,ETL過程的效率高低,對(duì)于數(shù)據(jù)庫的完善和數(shù)據(jù)的預(yù)處理都具有積極的影響作用。本文基于大數(shù)據(jù)時(shí)代來進(jìn)行數(shù)據(jù)同步設(shè)計(jì)與實(shí)現(xiàn),以期為大數(shù)據(jù)、數(shù)據(jù)挖掘普及應(yīng)用提供應(yīng)用路徑。
數(shù)據(jù)同步基本要素可包括數(shù)據(jù)同步協(xié)議、時(shí)間戳以及沖突協(xié)議。其中數(shù)據(jù)同步協(xié)議運(yùn)行機(jī)制使借助日志記錄來進(jìn)行數(shù)據(jù)變動(dòng)的保存和記錄,一定程度上擔(dān)負(fù)了信息交換過程中出現(xiàn)的錯(cuò)誤,如信息數(shù)據(jù)表的修正和完善,時(shí)間戳主要功能是保證同步數(shù)據(jù)的連續(xù)性,主要關(guān)聯(lián)對(duì)象是同各同步類型的數(shù)據(jù)庫表,同步時(shí)間戳分為兩種:即Last時(shí)間戳和Next時(shí)間戳。
大數(shù)據(jù)時(shí)代,我們時(shí)刻被不同類型數(shù)據(jù)“包圍”,如網(wǎng)站活動(dòng)軌跡、數(shù)學(xué)數(shù)據(jù)、力學(xué)數(shù)據(jù)、計(jì)算機(jī)數(shù)據(jù),等等,但總的歸納起來,數(shù)據(jù)主數(shù)據(jù)基礎(chǔ)量大且數(shù)據(jù)結(jié)構(gòu)化類型繁多。以HDFS為典型數(shù)據(jù)代表分布式文件系統(tǒng)成為數(shù)據(jù)處理的迫切需要。此外,企業(yè)在進(jìn)行數(shù)據(jù)處理過程種,常規(guī)的做法是基于不同類型的數(shù)據(jù)源結(jié)構(gòu),通過數(shù)據(jù)交互實(shí)現(xiàn)數(shù)據(jù)結(jié)構(gòu)的轉(zhuǎn)化,然后基于企業(yè)系統(tǒng)江數(shù)據(jù)轉(zhuǎn)接至HDFS,借助MapReduce實(shí)現(xiàn)數(shù)據(jù)的處理分析、挖掘并輸送至目標(biāo)庫中。綜上所述,大數(shù)據(jù)的ETL系統(tǒng)可以達(dá)到以上標(biāo)準(zhǔn)要求[2]。
元數(shù)據(jù)ETL體系結(jié)構(gòu)可實(shí)現(xiàn)對(duì)數(shù)據(jù)的模塊化管理,以往的ETL結(jié)構(gòu)缺乏對(duì)數(shù)據(jù)質(zhì)量的高效管理,無法基于元數(shù)據(jù)對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)測。本文設(shè)計(jì)的ETL體系結(jié)構(gòu)課實(shí)現(xiàn)對(duì)數(shù)據(jù)質(zhì)量的全過程管控和評(píng)測,具體如圖1所示。
從圖1中可以得出,ETL體系中主要涉及以下模塊:數(shù)據(jù)模塊、流程管理部分以及源數(shù)據(jù)部分等。數(shù)據(jù)模塊是實(shí)現(xiàn)系統(tǒng)的基礎(chǔ),主要作用是數(shù)據(jù)過程控制以及數(shù)據(jù)化處理;流程管理主要實(shí)現(xiàn)數(shù)據(jù)流程化并根據(jù)系統(tǒng)以及源數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理;源數(shù)據(jù)部分主要作用是數(shù)據(jù)結(jié)構(gòu)化闡述,根據(jù)數(shù)據(jù)源結(jié)構(gòu)來進(jìn)行數(shù)據(jù)層面的修正和完善并進(jìn)行轉(zhuǎn)移處理;轉(zhuǎn)化部分根據(jù)數(shù)據(jù)定義法則來進(jìn)行數(shù)據(jù)模塊化轉(zhuǎn)移;數(shù)據(jù)訪問部分主要甄別數(shù)據(jù)并為其提供數(shù)據(jù)對(duì)接接口[3]。
為了保證系統(tǒng)在異常狀態(tài)下,明確故障發(fā)生的原因和類型,借助Common Response類來進(jìn)行框架中返回的響應(yīng)信息的同步處理。Common Response類主要的響應(yīng)信息為message屬性、response Content屬性以及代表響應(yīng)狀態(tài)碼的status屬性。
同步服務(wù)器是基于JAVA實(shí)現(xiàn)數(shù)據(jù)的可視化展示,各個(gè)系統(tǒng)之間相互獨(dú)立有有一定的聯(lián)系。作為數(shù)據(jù)同步模塊的核心環(huán)節(jié),服務(wù)器主要包含4個(gè)部分,具體如圖2所示。
圖中顯示RSA連接器模塊和數(shù)據(jù)同步是交互作用,因此RSA連接器模塊功能作用在于數(shù)據(jù)加密、數(shù)據(jù)同步延申,數(shù)據(jù)同步模塊是基于Synclets系統(tǒng)來實(shí)現(xiàn)邏輯的轉(zhuǎn)變,主要的功能是對(duì)數(shù)據(jù)進(jìn)行流程化管理。
本文搭建的測試環(huán)境基于Windows8專業(yè)版,同步服務(wù)器軟件是Funambol,為研究方便本文選取主要功能進(jìn)行測試檢測。
為保證各個(gè)系統(tǒng)測試可靠性和準(zhǔn)確性,以Java來實(shí)現(xiàn)數(shù)據(jù)同步終端的測試和實(shí)現(xiàn)。數(shù)據(jù)同步的性能測試主要是針對(duì)數(shù)據(jù)交互過程中所消耗的時(shí)間來進(jìn)行評(píng)測,主要包括以下參量,如時(shí)間歷程、數(shù)據(jù)處理過程時(shí)效等。本文所搭建的網(wǎng)絡(luò)環(huán)境采用局域網(wǎng),通過同步服務(wù)軟硬端實(shí)現(xiàn)數(shù)據(jù)的高效傳輸[4]。
本文所測試的實(shí)例基于PC終端,利用RSA算法在不同的環(huán)境下來對(duì)數(shù)據(jù)同步進(jìn)行過程監(jiān)測。測試結(jié)果如圖3所示。從圖3可以看出,通過對(duì)300個(gè)評(píng)測對(duì)象進(jìn)行數(shù)據(jù)同步耗費(fèi)時(shí)間對(duì)比發(fā)展,所耗費(fèi)的時(shí)間均在7s以下,因此采用RSA算法對(duì)數(shù)據(jù)項(xiàng)加密的數(shù)據(jù)同步過程符合規(guī)則標(biāo)準(zhǔn)要求,此外由于于系統(tǒng)同步服務(wù)器在配置高于PC客戶端,耗時(shí)會(huì)少于解密操作發(fā)生在PC客戶端的情況,由于同步發(fā)送300個(gè)評(píng)測對(duì)象的時(shí)間少于同步接受、更新以及修正;因此基于非數(shù)據(jù)迭代過程,此程序并不直接參與至數(shù)據(jù)同步中,因此兩者的數(shù)據(jù)同步機(jī)制大體一致[5-6]。
本文基于大數(shù)據(jù)時(shí)代來進(jìn)行數(shù)據(jù)同步設(shè)計(jì)與實(shí)現(xiàn),首先基于數(shù)據(jù)質(zhì)量需求分析進(jìn)行了 ETL體系結(jié)構(gòu)設(shè)計(jì),在模塊化設(shè)計(jì)的基礎(chǔ)上實(shí)現(xiàn)了同步訪問模型與錯(cuò)誤處理模型實(shí)現(xiàn)、同步服務(wù)器匹配以及數(shù)據(jù)庫設(shè)計(jì)。最后選擇合適的測試實(shí)例對(duì)系統(tǒng)進(jìn)行測試分析、功能分析,結(jié)果顯示目前所搭建的系統(tǒng)支持處理非數(shù)據(jù)結(jié)構(gòu)的不足,拓展了數(shù)據(jù)處理的廣度,為大數(shù)據(jù)、數(shù)據(jù)挖掘普及應(yīng)用提供應(yīng)用路徑。