霍福華
摘? 要:隨著信息技術(shù)和計算機科技的進一步發(fā)展,互聯(lián)網(wǎng)應(yīng)用普及,以往人們忽視的數(shù)據(jù)資源價值更加凸顯,由此發(fā)展的大數(shù)據(jù)技術(shù)更是將這些海量的數(shù)據(jù)信息資源充分挖掘出來,實現(xiàn)數(shù)據(jù)資源轉(zhuǎn)化為經(jīng)濟來源,為學(xué)校優(yōu)化管理方式和優(yōu)化課程設(shè)置、為企業(yè)制定生產(chǎn)和發(fā)展決策、為政府制定相關(guān)管理政策等都提供了有效的參考。大數(shù)據(jù)在數(shù)據(jù)處理中,用到的相關(guān)技術(shù)較多,掌握這些技術(shù)應(yīng)用,對于進一步推動大數(shù)據(jù)發(fā)展具有重要意義。本文分析了大數(shù)據(jù)的數(shù)據(jù)特點,分析目前大數(shù)據(jù)數(shù)據(jù)處理中的關(guān)鍵技術(shù),并針對大數(shù)據(jù)數(shù)據(jù)處理技術(shù)的進一步優(yōu)化和應(yīng)用,提出幾點建議。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)處理;關(guān)鍵技術(shù);應(yīng)用
中圖分類號:TP399? ? ?文獻標識碼:A
Abstract:with the further development of information technology and computer technology as well as the popularization of the Internet,the value of data resources neglected by people in the past has become more prominent.Big data,which is developed from this,fully excavates these massive data and information resources,realizes the conversion of data resources into economic sources,optimizes management methods and curriculum settings for schools,formulates production and development decisions for enterprises,and provides effective references in making relevant administration policies for the government.Big data involves many related technologies in data processing,so mastering the application of these technologies is of great significance for promoting the development of big data.This paper analyzes the data characteristics of big data,analyzes the existing key technologies in the process of big data, and puts forward some suggestions for the further optimization and application of big data processing technology.
Keywords:big data;data processing;key technology;application
1? ?引言(Introduction)
目前,大數(shù)據(jù)已經(jīng)在人們的生活中普遍應(yīng)用,人們在消費、生產(chǎn)、工作,以及多種領(lǐng)域中都會留下一定的數(shù)據(jù)信息,為大數(shù)據(jù)提供了充足的數(shù)據(jù)資源,而大數(shù)據(jù)的發(fā)展也在一定程度上便利了人們的生產(chǎn)和生活,強化大數(shù)據(jù)處理技術(shù)應(yīng)用,優(yōu)化大數(shù)據(jù)技術(shù)系統(tǒng),對于發(fā)揮大數(shù)據(jù)更大的價值具有重要意義。
2? 大數(shù)據(jù)的數(shù)據(jù)特點(The data characteristics ofbig data)
就大數(shù)據(jù)中的數(shù)據(jù)總體特點來看,主要體現(xiàn)在以下幾個方面:
第一,數(shù)據(jù)的龐大性,大數(shù)據(jù)收集和處理的數(shù)據(jù)是海量的,這些數(shù)據(jù)是動態(tài)變化的,在數(shù)據(jù)處理的過程中還會不斷增長和變化,因此,大數(shù)據(jù)處理的數(shù)據(jù)還在不斷擴展,數(shù)據(jù)量不斷增長。大數(shù)據(jù)的數(shù)據(jù)量龐大要求進行大數(shù)據(jù)處理和分析的設(shè)備,以及軟件、硬件等自身的春儲存能力和信息處理能力必須要十分強大,才能應(yīng)對時刻變化增長的數(shù)據(jù)[1]。
第二,數(shù)據(jù)的多樣性,大數(shù)據(jù)收集來的海量數(shù)據(jù)中,數(shù)據(jù)的存在形式可能是多種多樣的,除了一些常規(guī)的數(shù)據(jù),還包括圖片、文字、視頻等非結(jié)構(gòu)化的數(shù)據(jù)資料,對于這些資料必須要進行有效識別和處理,才能轉(zhuǎn)化為有價值的數(shù)據(jù)信息,這需要大數(shù)據(jù)數(shù)據(jù)處理系統(tǒng)進一步優(yōu)化系統(tǒng)識別能力,提升數(shù)據(jù)轉(zhuǎn)化能力。
第三,數(shù)據(jù)的快速性,大數(shù)據(jù)對于海量數(shù)據(jù)的處理主要是針對快速變化的數(shù)據(jù)開展分析處理的,因此,需要通過快速的系統(tǒng)處理和計算快速得出處理結(jié)果,提供有效的信息。
第四,數(shù)據(jù)的準確性,大數(shù)據(jù)處理的數(shù)據(jù)信息結(jié)果必須要準確的,包括搜集信息來源、數(shù)據(jù)儲存和數(shù)據(jù)計算等,這一系列的過程都要是準確無誤的,才能確保最終的數(shù)據(jù)分子結(jié)果的準確性。
3? 大數(shù)據(jù)的數(shù)據(jù)處理關(guān)鍵技術(shù)(Key technology ofdata processing for big data)
3.1? ?大數(shù)據(jù)采集技術(shù)
大數(shù)據(jù)進行數(shù)據(jù)處理的前提是,大數(shù)據(jù)系統(tǒng)已經(jīng)獲取的大量的數(shù)據(jù)信息,這就需要用到大數(shù)據(jù)的數(shù)據(jù)采集技術(shù),在大數(shù)據(jù)數(shù)據(jù)采集技術(shù)中,包含了傳感器、射頻識別技術(shù)、計算機轉(zhuǎn)換軟件技術(shù)等的應(yīng)用,對于互聯(lián)網(wǎng)中某一領(lǐng)域出現(xiàn)的數(shù)據(jù),包括結(jié)構(gòu)化的、半結(jié)構(gòu)化的,以及非結(jié)構(gòu)化的數(shù)據(jù)信息進行廣泛收集和識別,這是大數(shù)據(jù)技術(shù)的前提和基礎(chǔ)。要想實現(xiàn)對于互聯(lián)網(wǎng)中海量信息資源的準確有效的獲取,需要借助分布式高速高可靠數(shù)據(jù)爬取或采集、高速數(shù)據(jù)全映象數(shù)據(jù)采集技術(shù)的應(yīng)用,能夠?qū)崿F(xiàn)高速的數(shù)據(jù)解析和轉(zhuǎn)換目標[2]。
就大數(shù)據(jù)采集技術(shù)系統(tǒng)來說,其中包含的數(shù)據(jù)采集功能區(qū)分為以下幾點:
第一,數(shù)據(jù)智能感知層,這一功能區(qū)中包含了對于數(shù)據(jù)傳感技術(shù)、通信技術(shù)、智能識別技術(shù)等的應(yīng)用,能夠?qū)τ诨ヂ?lián)網(wǎng)平臺中某一通道或者是領(lǐng)域中的各類數(shù)據(jù)實施有效的跟蹤和接入,完成數(shù)據(jù)信息的初步處理,為采集到的數(shù)據(jù)整合和傳輸?shù)於ɑA(chǔ)。
第二,基礎(chǔ)支撐層,這一功能區(qū)主要是為系統(tǒng)提供虛擬服務(wù)器,對于各類數(shù)據(jù)信息創(chuàng)造合理的分析環(huán)境,這一數(shù)據(jù)處理功能分區(qū)中需要重點對于數(shù)據(jù)的獲取和存儲,以及整理和分析等的可視化技術(shù)接入提供有效支持。
3.2? ?大數(shù)據(jù)預(yù)處理技術(shù)
大數(shù)據(jù)系統(tǒng)要進行分析和挖掘,就必須為它提供干凈、準確、簡潔的數(shù)據(jù)。然而通過數(shù)據(jù)采集技術(shù)收集到的原始數(shù)據(jù)一般是“臟”的、不完全的、冗余的和模糊的,通常存在雜亂性、重復(fù)性、不完整性等問題,很少能直接滿足數(shù)據(jù)挖掘算法的要求[3]。所以,大數(shù)據(jù)數(shù)據(jù)采集后,需要通過數(shù)據(jù)集成(Data Integration)、數(shù)據(jù)清洗(Data Cleaning)、數(shù)據(jù)變換(Data Transformation)、數(shù)據(jù)簡化(Data Reduction)等操作[4]擯棄一些與挖掘目標不相關(guān)的屬性,為數(shù)據(jù)挖掘內(nèi)核算法提供干凈、準確、更有針對性的數(shù)據(jù),將其中多余的或者是無效信息進行刪除,去粗取精,實現(xiàn)初步的數(shù)據(jù)篩選,從而減少挖掘內(nèi)核的數(shù)據(jù)處理量,提高了挖掘效率,提高了知識發(fā)現(xiàn)的起點和知識的準確度。
3.3? ?大數(shù)據(jù)存儲及管理技術(shù)
大數(shù)據(jù)采取的數(shù)據(jù)信息量十分龐大,對于海量的數(shù)據(jù)信息大數(shù)據(jù)系統(tǒng)必須要能有效地存儲和管理。針對采集的數(shù)據(jù)信息,系統(tǒng)通過構(gòu)建數(shù)據(jù)庫,進行數(shù)據(jù)的集中儲存和管理。在進行數(shù)據(jù)信息進行儲存和管理過程中,需要確保數(shù)據(jù)庫中的數(shù)據(jù)信息形式盡可能保持一致,這就需要做好對于不同種類數(shù)據(jù)信息的有效轉(zhuǎn)化和處理。要突破分布式非關(guān)系型大數(shù)據(jù)管理與處理技術(shù),異構(gòu)數(shù)據(jù)的數(shù)據(jù)融合技術(shù),數(shù)據(jù)組織技術(shù),研究大數(shù)據(jù)建模技術(shù);突破大數(shù)據(jù)索引技術(shù);突破大數(shù)據(jù)移動、備份、復(fù)制等技術(shù)[5]。
在數(shù)據(jù)的存儲和管理中,還需要注重信息的有效分類,建立對應(yīng)的數(shù)據(jù)庫,實現(xiàn)信息的有效調(diào)用,此外,還要針對數(shù)據(jù)的安全問題進行有效保護,通過使用加密技術(shù)、訪問限制、數(shù)據(jù)銷毀等技術(shù)應(yīng)用,提升數(shù)據(jù)庫的數(shù)據(jù)安全級別,避免數(shù)據(jù)存在遺失和被竊取的問題[6]。
3.4? ?大數(shù)據(jù)分析和挖掘技術(shù)
大數(shù)據(jù)的分析和挖掘技術(shù)主要是對于數(shù)據(jù)進行深度挖掘,通過多樣化的數(shù)據(jù)分析技術(shù),挖掘數(shù)據(jù)內(nèi)潛在的有價值的信息。這種數(shù)據(jù)分析和挖掘技術(shù)主要是通過對于數(shù)據(jù)進行隨機抽樣,縮小數(shù)據(jù)規(guī)模,進一步提升數(shù)據(jù)分析效率,挖掘出更多的有價值的數(shù)據(jù)信息,為最終的數(shù)據(jù)分析結(jié)果提供參考[7]。數(shù)據(jù)分析和挖掘技術(shù)還在進一步優(yōu)化中,也在越來越多的行業(yè)中發(fā)揮了積極作用,是目前大數(shù)據(jù)技術(shù)重點開發(fā)的對象,為大數(shù)據(jù)的價值挖掘,實現(xiàn)更好的分析結(jié)果優(yōu)化提供了技術(shù)支持。
在大數(shù)據(jù)系統(tǒng)中,海量的數(shù)據(jù)采集最終的目的是為了分析出數(shù)據(jù)隱藏的規(guī)律和關(guān)系,通過分析得出結(jié)果,提供有效的信息參考和發(fā)展建議等。這就需要針對海量的數(shù)據(jù)實施數(shù)據(jù)挖掘,挖掘數(shù)據(jù)中潛在的信息資源,發(fā)揮數(shù)據(jù)的價值?,F(xiàn)階段的大數(shù)據(jù)分析和挖掘技術(shù)還只是比較淺層次的挖掘分析,能夠針對大數(shù)據(jù)的數(shù)據(jù)規(guī)律和發(fā)展趨勢等進行有效分析,但是實際上,一組大數(shù)據(jù)包含的價值往往是多方面,僅僅從一兩個面進行挖掘往往不能發(fā)揮大數(shù)據(jù)的最大使用價值[8]。因此,在進行大數(shù)據(jù)系統(tǒng)的開發(fā)中們還需要做好關(guān)鍵部分的技術(shù)升級和改造,提升大數(shù)據(jù)分析和挖掘能力。
4? 大數(shù)據(jù)數(shù)據(jù)處理技術(shù)有效應(yīng)用的對策(Measuresfor the effective application of big data processingtechnology)
4.1? ?不斷優(yōu)化和升級技術(shù)系統(tǒng)
針對目前的大數(shù)據(jù)處理技術(shù)系統(tǒng),要進一步研究和優(yōu)化設(shè)計,不斷提升各個技術(shù)系統(tǒng)的數(shù)據(jù)處理能力,實現(xiàn)在更短的時間內(nèi)獲取更全面的數(shù)據(jù)信息,實現(xiàn)快速處理得出分析結(jié)果,針對大數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)采集技術(shù)、數(shù)據(jù)預(yù)處理技術(shù)、數(shù)據(jù)存儲和管理技術(shù)、數(shù)據(jù)分析和挖掘技術(shù)等進行不斷優(yōu)化升級,促進系統(tǒng)數(shù)據(jù)處理效能不斷提升。
4.2? ?開展技術(shù)培訓(xùn),提升技術(shù)應(yīng)用水平
新時期,要強化大數(shù)據(jù)技術(shù)的應(yīng)用,要不斷加強技術(shù)的普及和學(xué)習(xí),積極開展技術(shù)培訓(xùn)工作,例如,以電子商務(wù)、金融、連鎖零售、電信、互聯(lián)網(wǎng)、產(chǎn)品研發(fā)生產(chǎn)、傳統(tǒng)實體經(jīng)濟等方面在數(shù)據(jù)分析與挖掘?qū)崙?zhàn)經(jīng)驗為案例,使學(xué)員在拓展大數(shù)據(jù)應(yīng)用及其發(fā)展趨勢視野的基礎(chǔ)上,提升對分析、挖掘經(jīng)驗的領(lǐng)悟,做到學(xué)以致用、舉一反三,解決企業(yè)實際數(shù)據(jù)挖掘的現(xiàn)實問題,從而提升數(shù)據(jù)挖掘與治理能力,推動企業(yè)競爭力提升和產(chǎn)業(yè)創(chuàng)新發(fā)展。相關(guān)的大數(shù)據(jù)人才培養(yǎng)機構(gòu)也要積極圍繞“大數(shù)據(jù)在教育教學(xué)中的應(yīng)用探討”,從大數(shù)據(jù)及關(guān)鍵技術(shù)、教育大數(shù)據(jù)、大數(shù)據(jù)技術(shù)在教育中的應(yīng)用、應(yīng)用案例等四個方面深入細致的探究[9]。從大數(shù)據(jù)的產(chǎn)生及其意義、構(gòu)建大數(shù)據(jù)的基本流程、身邊大數(shù)據(jù)的典型案例等三個方面,深入淺出地介紹了大數(shù)據(jù)產(chǎn)生的背景和發(fā)展歷程。要認真學(xué)習(xí)貫徹落實黨的十九大精神,充分認識大數(shù)據(jù)的重要意義,牢牢把握大數(shù)據(jù)時代帶來的重大機遇,自覺將大數(shù)據(jù)技術(shù)應(yīng)用于教育教學(xué)、管理服務(wù)之中,不斷提高教育教學(xué)質(zhì)量,提升管理服務(wù)水平,源源不斷地為社會培養(yǎng)一批又一批的大數(shù)據(jù)技術(shù)創(chuàng)新應(yīng)用人才。
5? ?結(jié)論(Conclusion)
現(xiàn)階段,大數(shù)據(jù)技術(shù)在社會生產(chǎn)和生活中的應(yīng)用對于社會進步和發(fā)展意義重大,必須要進一步完善大數(shù)據(jù)技術(shù)應(yīng)用,開發(fā)升級技術(shù)系統(tǒng),把握關(guān)鍵技術(shù)改造,促進大數(shù)據(jù)更好的挖掘數(shù)據(jù)價值,提升系統(tǒng)技術(shù)應(yīng)用水平。
參考文獻(References)
[1] Valerio Persico,Antonio Pescapé,Antonio Picariello,Giancarlo Sperlí. Benchmarking big data architectures for social networks data processing using public cloud platforms[J].Future Generation Computer Systems,2018:89.
[2] Weiwei Wang.Research on Computer Information Processing Technology under the Background of Big Data[A].International Information and Engineering Association.Proceedings of 2018 International Conference on Computational Science and Engineering(ICCSE 2018)[C].International Information and Engineering Association:Computer Science and Electronic Technology International Society,2018:5.
[3] Lin Mao.Improvement on Exploration Data Processing of Cluster Architecture in Big Data Era[A].CPS、SEG.CPS/SEG Beijing 2018 International Geophysical Conference &Exposition Electronic papers[C].CPS、SEG,2018:7.
[4] Yixiang Jiang.Analysis of Computer Information Processing Technology Under the Background of Big Data[A].Wuhan Zhicheng Times Cultural Development Co.,Ltd.Proceedings of the 2018 International Symposium on Communication Engineering &Computer Science(CECS 2018)[C].Wuhan Zhicheng Times Cultural Development Co.,Ltd,2018:4.
[5] 曲冬梅.大數(shù)據(jù)背景下信息處理技術(shù)探索[J].現(xiàn)代信息科技,2018,2(03):18-19.
[6] 譚保華,任志鵬,王鵬,等.基于大數(shù)據(jù)技術(shù)的高校校友信息整合分析平臺開發(fā)及應(yīng)用[J].長春理工大學(xué)學(xué)報(自然科學(xué)版),2018,41(06):132-136.
[7] 鄭芬芳.基于數(shù)據(jù)分析的學(xué)科服務(wù)營銷平臺研究——以福建省高校數(shù)字圖書館為例[J].情報探索,2018(12):34-38.
[8] 劉哲,劉軍,張朔.電子商務(wù)物流服務(wù)中大數(shù)據(jù)應(yīng)用的驅(qū)動因素與創(chuàng)新發(fā)展策略[J].山東師范大學(xué)學(xué)報(自然科學(xué)版),2018(04):454-457;464.
[9] 劉冬,劉更新,黃祖一.大數(shù)據(jù)出版之數(shù)值型數(shù)據(jù)的應(yīng)用探索——以中國口岸數(shù)據(jù)庫和中國海關(guān)統(tǒng)計數(shù)據(jù)庫為例[J].科技與出版,2018(12):90-95.
作者簡介:
霍福華(1984-),男,碩士,講師.研究領(lǐng)域:WEB應(yīng)用開發(fā),數(shù)據(jù)分析與處理.