邱景富
【摘要】 在信息經(jīng)濟(jì)時(shí)代,石化企業(yè)開始利用大數(shù)據(jù)處理技術(shù)建立智能化工廠以提升企業(yè)自身的核心競爭力。本文從石化企業(yè)信息化建設(shè)需求、大數(shù)據(jù)的特征和大數(shù)據(jù)處理技術(shù)等方面對(duì)大數(shù)據(jù)處理技術(shù)在石化企業(yè)信息化建設(shè)中的應(yīng)用進(jìn)行了技術(shù)初探。
【關(guān)鍵詞】 大數(shù)據(jù) 大數(shù)據(jù)處理 石化企業(yè)企業(yè)
大數(shù)據(jù)技術(shù)引領(lǐng)信息經(jīng)濟(jì)時(shí)代的到來,在石化企業(yè)經(jīng)濟(jì)效益倒逼的嚴(yán)峻形勢下,企業(yè)決策層意識(shí)到利用先進(jìn)的大數(shù)據(jù)處理技術(shù),以最接近真實(shí)的數(shù)據(jù)預(yù)測未來以做出正確的生產(chǎn)經(jīng)營決策的重要性。有前瞻性的石化企業(yè)已經(jīng)踏上了利用云計(jì)算、大數(shù)據(jù)處理等先進(jìn)技術(shù)建立智能化工廠以提升企業(yè)自身的核心競爭力的道路。
一、大數(shù)據(jù)概念
大數(shù)據(jù)概念的前身是海量數(shù)據(jù),但兩者有很大的區(qū)別。海量數(shù)據(jù)主要強(qiáng)調(diào)了數(shù)據(jù)量的規(guī)模,對(duì)其特性并沒有特別關(guān)注。而大數(shù)據(jù)對(duì)傳播速率、體積、特征等數(shù)據(jù)的各種特性進(jìn)行了描述。目前對(duì)大數(shù)據(jù)最廣泛的定義是:大數(shù)據(jù)是無法在一定時(shí)間內(nèi)用通常的軟件工具進(jìn)行收集、分析、管理的大量數(shù)據(jù)的集合。大數(shù)據(jù)的特點(diǎn)一般用“4V”概括,即:Volume:數(shù)據(jù)量大,目前大數(shù)據(jù)的最小單位一般被認(rèn)為是10~20TB的量級(jí);Variety:數(shù)據(jù)類型多,包括了結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù);value:數(shù)據(jù)的價(jià)值密度很低;velocity:數(shù)據(jù)產(chǎn)生和處理的速度非???。
二、大數(shù)據(jù)相關(guān)技術(shù)
2.1 大數(shù)據(jù)處理通用技術(shù)架構(gòu)
大數(shù)據(jù)的基本處理流程與傳統(tǒng)數(shù)據(jù)處理流程的主要區(qū)別在于:由于大數(shù)據(jù)要處理大量、非結(jié)構(gòu)化的數(shù)據(jù),所以在各個(gè)處理環(huán)節(jié)中都可以采用并行處理。目前,Map Reduce等分布式處理方式已經(jīng)成為大數(shù)據(jù)處理各環(huán)節(jié)的通用處理方法。Map Reduce分布式方法最先由谷歌設(shè)計(jì)并實(shí)現(xiàn),包括分布式文件系統(tǒng)GFS、Map Reduce分布式編程環(huán)境以及分布式大規(guī)模數(shù)據(jù)庫管理系統(tǒng)Bigrable。Map Reduce是一套軟件框架,包括Map和Reduce兩個(gè)階段,可以進(jìn)行海量數(shù)據(jù)分割、任務(wù)分解與結(jié)果匯總,從而完成海量數(shù)據(jù)的并行處理。
2.2 大數(shù)據(jù)采集
大數(shù)據(jù)的采集是指利用數(shù)據(jù)庫等方式接收發(fā)自客戶端(Web、App或者傳感器形式等)的數(shù)據(jù)。大數(shù)據(jù)采集的主要特點(diǎn)是并發(fā)訪問量大,因?yàn)橥瑫r(shí)有可能會(huì)有成千上萬的用戶來進(jìn)行訪問和操作,比如火車票售票網(wǎng)站的并發(fā)訪問量在峰值時(shí)達(dá)到上百萬,這時(shí)傳統(tǒng)的數(shù)據(jù)采集工具很容易失效。
2.3 大數(shù)據(jù)分享
目前數(shù)據(jù)分享主要通過數(shù)據(jù)集市和開放數(shù)據(jù)平臺(tái)等方法實(shí)現(xiàn)。開放數(shù)據(jù)平臺(tái)可以提供涵蓋本地服務(wù)、娛樂、教育和醫(yī)療等方方面面的數(shù)據(jù)集合,用戶不但可以通過API訪問,還可很方便地通過SDK集成到移動(dòng)應(yīng)用當(dāng)中。在線數(shù)據(jù)集市除了提供下載數(shù)據(jù)的功能外,還為用戶提供上傳和交流數(shù)據(jù)的場所。數(shù)據(jù)平臺(tái)和數(shù)據(jù)集市不但吸引有數(shù)據(jù)需求用戶,還能夠吸引很多數(shù)據(jù)開發(fā)者在平臺(tái)上進(jìn)行開發(fā)。
2.4 大數(shù)據(jù)存儲(chǔ)及管理
大數(shù)據(jù)需要行之有效的存儲(chǔ)和管理,否則人們不能處理和利用數(shù)據(jù),更不能從數(shù)據(jù)中得到有用的信息。目前,大數(shù)據(jù)的存儲(chǔ)和管理技術(shù)主要分三類:分布式文件系統(tǒng)、數(shù)據(jù)倉庫和非關(guān)系型數(shù)據(jù)庫(NoSOL)。
三、大數(shù)據(jù)技術(shù)在石化企業(yè)的應(yīng)用
3.1 NoSQL數(shù)據(jù)庫技術(shù)
NoSQL(Not only SQL)數(shù)據(jù)庫,指與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫不同的非關(guān)系型數(shù)據(jù)庫。它的數(shù)據(jù)類型是非結(jié)構(gòu)化的,數(shù)據(jù)庫結(jié)構(gòu)不需要事先定義并可以靈活改變。相對(duì)傳統(tǒng)關(guān)系型數(shù)據(jù)庫以行模式存儲(chǔ)數(shù)據(jù)而言,NoSQL數(shù)據(jù)庫中的數(shù)據(jù)以列模式存儲(chǔ),橫向可擴(kuò)展性高,數(shù)據(jù)不需要保持嚴(yán)密的一致性,但是要保持結(jié)果的匹配性。它可以在多臺(tái)服務(wù)器上以分布協(xié)作方式工作,支持多種非SQL語言,其處理數(shù)據(jù)的能力比RDBMS規(guī)模大得多。對(duì)于已經(jīng)大量使用的Oracle數(shù)據(jù)庫的石化企業(yè)來說,商用數(shù)據(jù)庫及其提供相應(yīng)的支持服務(wù),此舉使得石化企業(yè)在今后部署NoSQL數(shù)據(jù)庫來處理綜合辦公中產(chǎn)生的大量非結(jié)構(gòu)化數(shù)據(jù)。
3.2 大數(shù)據(jù)的MapReduce技術(shù)
MapReduce技術(shù)是分布式并行處理技術(shù),其主要思想是將自動(dòng)分割要執(zhí)行的問題拆解成map(映射)和reduce(化簡)的方式,在數(shù)據(jù)被分割后通過Map 函數(shù)的程序?qū)?shù)據(jù)映射成不同的區(qū)塊,分配給計(jì)算機(jī)機(jī)群中不同的處理節(jié)點(diǎn)并行處理,從而達(dá)到分布式運(yùn)算的效果,然后再通過Reduce 函數(shù)的程序?qū)⒔Y(jié)果匯整后輸出最終結(jié)果。MapReduce模式通過大量廉價(jià)服務(wù)器來實(shí)現(xiàn)大數(shù)據(jù)的并行處理以提高處理速度,適用于海量的結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的混合處理。
四、結(jié)語
大數(shù)據(jù)時(shí)代的新技術(shù)帶給企業(yè)生產(chǎn)經(jīng)營新的挑戰(zhàn)和機(jī)遇,隨著石化企業(yè)信息化和工業(yè)化融合的加深,大數(shù)據(jù)處理技術(shù)必將成為企業(yè)決策者洞察行業(yè)競爭態(tài)勢的望遠(yuǎn)鏡,成為提升企業(yè)核心競爭力的助推器。
參 考 文 獻(xiàn)
[1] 鄒國偉,成建波.大數(shù)據(jù)技術(shù)在智慧城市中的應(yīng)用[J].電信網(wǎng)技術(shù). 2013(04)
[2] 栗蔚,魏凱.大數(shù)據(jù)的技術(shù)、應(yīng)用和價(jià)值變革[J].電信網(wǎng)技術(shù).2013(7)