國網(wǎng)甘肅省電力公司信息通信公司 袁 昊
甘肅同興智能科技發(fā)展有限責(zé)任公司 張文斌
國網(wǎng)甘肅省電力公司信息通信公司 陳 麗
大數(shù)據(jù)是計算機(jī)和互聯(lián)網(wǎng)發(fā)展到一定階段的必然產(chǎn)物,隨著社會資源被網(wǎng)絡(luò)化和數(shù)據(jù)化改造,人們對于過往生產(chǎn)經(jīng)營數(shù)據(jù)的價值興趣更高,且有足夠的能力挖掘海量數(shù)據(jù)背后的價值,自然而然就有了“大數(shù)據(jù)”的產(chǎn)生,依靠“大數(shù)據(jù)”,相關(guān)企業(yè)能夠獲得用戶海量的行為數(shù)據(jù),根據(jù)數(shù)據(jù)進(jìn)行更為合理的資源調(diào)控,將更有利于企業(yè)的發(fā)展,也能為用戶帶來更有效的建議,可以說大數(shù)據(jù)時代已經(jīng)逐步到來,必將給社會帶來翻天覆地的變化。
隨著社會的發(fā)展,同時社會資源被網(wǎng)絡(luò)化和數(shù)據(jù)化改造,隨之而來的,多元的、海量的數(shù)據(jù)呈現(xiàn)爆炸式的增長,這些數(shù)據(jù)可能來自社交網(wǎng)絡(luò)、訪客記錄、購物瀏覽等等,是一個用戶過往行為的反映,人們也開始對“大數(shù)據(jù)”背后隱藏的價值感興趣,運(yùn)用先進(jìn)的算法從“大數(shù)據(jù)”中挖掘價值,隨之創(chuàng)造更大的價值,當(dāng)然,這一切都離不開計算機(jī)信息處理技術(shù)(云計算)的發(fā)展,對于大數(shù)據(jù)和云計算來說,就像是一枚硬幣的正反面,不可分割,相互促進(jìn)。本文即分析大數(shù)據(jù)時代下的云計算處理方式,以供參考。
“大數(shù)據(jù)”這個概念已經(jīng)社會上流傳很久了,人們對大數(shù)據(jù)也越來越熟悉,它是隨著社會的發(fā)展,社會資源被網(wǎng)絡(luò)化和數(shù)據(jù)化改造后,隨之形成的海量行為數(shù)據(jù),大數(shù)據(jù)的本質(zhì)是人的行為,對象多種多樣,包含人的人口信息、出行信息、購物信息、搜索信息、瀏覽信息等,大數(shù)據(jù)就是人的眾多行為的反映,其具有價值,能夠創(chuàng)造更多的價值,利用云計算對海量的數(shù)據(jù)進(jìn)行分析、存儲、處理,深度挖掘大數(shù)據(jù)價值,企業(yè)組織利用相關(guān)數(shù)據(jù)和分析可以幫助它們降低成本、提高效率、開發(fā)新產(chǎn)品、做出更明智的業(yè)務(wù)決策,居民能受到合理推送的信息,試想一下,當(dāng)你需要趕飛機(jī)時,手機(jī)為你推送專車服務(wù),能第一時間最優(yōu)化路線趕到機(jī)場,當(dāng)下飛機(jī)后,收到合適的賓館推送,出去吃飯為你推送飲食券等等,大數(shù)據(jù)及其應(yīng)用正在改變?nèi)藗兊纳?,這就是大數(shù)據(jù)自身的價值和創(chuàng)造的價值。很多人知道“大數(shù)據(jù)”的概念,卻不知道“大數(shù)據(jù)”的量級,早在數(shù)年前,大數(shù)據(jù)的量級就已經(jīng)從TB升級到了PB(1024GB=1TB),未來必然會躍升到EB 1024PB=1EB)或ZB B(1024EB=1ZB)的級別。
(1)Volume(容量):大數(shù)據(jù)的容量非常大,已經(jīng)從TB升級到了PB(1024GB=1TB),未來必然會躍升到EB 1024PB=1EB)或ZB B(1024EB=1ZB)的級別。
(2)Variety(多樣):大數(shù)據(jù)的形式是多樣的,包括結(jié)構(gòu)性數(shù)據(jù)、非結(jié)構(gòu)性數(shù)據(jù)、源數(shù)據(jù)和處理數(shù)據(jù)等,種類也是多樣的,包括網(wǎng)絡(luò)、音頻、視頻、位置、文本等數(shù)據(jù)。
(3)Value(價值):大數(shù)據(jù)在經(jīng)過深度的挖掘處理后,能夠創(chuàng)造較大的價值,利用大數(shù)據(jù)的價值,能夠讓企業(yè)或用戶在功率、覆蓋范圍、傳輸速率和成本之間找到那個微妙的平衡點(diǎn),不過同時也要看到,因?yàn)閿?shù)據(jù)是海量的,數(shù)據(jù)的價值密度卻非常低,但鑒于大數(shù)據(jù)的價值是由一個個微小數(shù)據(jù)共同提煉出來的,缺一不可,海量的工作量不可能減少,因此需要大量的機(jī)器學(xué)習(xí)來代替人力作業(yè)。
(4)Velocity(速度):大數(shù)據(jù)對處理速度也有要求,要求實(shí)現(xiàn)實(shí)時數(shù)據(jù)分析,要為用戶推送更好的服務(wù),當(dāng)你瀏覽商品時,等關(guān)掉手機(jī),系統(tǒng)才采集并計算出你的喜歡,當(dāng)你喝一杯咖啡后,相關(guān)軟件才為你推送優(yōu)惠券,無疑是不稱職的,要想給用戶更好的服務(wù),必須要求較快的數(shù)據(jù)處理速度。
首先,大數(shù)據(jù)的增長是無止境的,大數(shù)據(jù)還會呈現(xiàn)爆炸式的增長,對于海量的數(shù)據(jù),必須借助機(jī)器學(xué)習(xí)來代替人力,在這個過程中不斷優(yōu)化大數(shù)據(jù)算法,包括大數(shù)據(jù)的存儲、索引、查詢算法,流數(shù)據(jù)分析算法;大規(guī)?;ヂ?lián)網(wǎng)數(shù)據(jù)挖掘算法;多媒體大數(shù)據(jù)分析算法;大規(guī)模機(jī)器學(xué)習(xí)算法等,隨著5G通訊技術(shù)的研發(fā),對大數(shù)據(jù)的處理能力會更上一層樓。
其次,隨著大數(shù)據(jù)的增長,企業(yè)對大數(shù)據(jù)的依賴也逐步加強(qiáng),來自黑客的侵?jǐn)_也會逐漸增強(qiáng),如何做好對大數(shù)據(jù)的保護(hù)也尤為重要。
再次,隨著大數(shù)據(jù)價值的體現(xiàn),也隨著5G通訊技術(shù)的大規(guī)模商用,大數(shù)據(jù)的應(yīng)用領(lǐng)域也會更多,各行各業(yè)都會逐步和大數(shù)據(jù)接駁、融入,如下圖2所示,回歸那句話:“大數(shù)據(jù)時代才剛剛到來”。
數(shù)據(jù)的采集(ETL理念)指的是將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端,數(shù)據(jù)采集的工具包括ETL工具或Sqoop等,將一個關(guān)系型數(shù)據(jù)庫(例如MySQL,Oracle,Postgres等)采集,然后傳輸?shù)侥繕?biāo)端(各家企業(yè)的云,Hadoop框架等)因?yàn)閿?shù)據(jù)是海量的,數(shù)據(jù)的采集也至關(guān)重要。以往數(shù)據(jù)的采集是企業(yè)對自己行業(yè)的用戶數(shù)據(jù),隨著數(shù)據(jù)共享理念的興起,數(shù)據(jù)采集對象也變得多種多樣,朝著集體化發(fā)展。
對于數(shù)據(jù)的收集,要明確的是,數(shù)據(jù)本身不會說謊,但數(shù)據(jù)收集的過程、覆蓋的范圍、問題的設(shè)置、選項(xiàng)的描述、采訪的背景等各種細(xì)節(jié)都會給分析結(jié)論本身帶來一定的主觀偏向,也是為什么一些研究者對大數(shù)據(jù)分析存在質(zhì)疑的根本原因:你無法保證你的數(shù)據(jù)來源是否可靠。
對于數(shù)據(jù)的存儲,企業(yè)一般都會存在企業(yè)的“云端”,比如阿里云、AWS(亞馬遜)、AZURE(微軟)、DINDINCLOUD(丁丁云)、KTC、GOOGLE CLOUD(谷歌云)等,又或是存儲在Hadoop等框架結(jié)構(gòu)中。需要明確的是,數(shù)據(jù)的存儲是為了立刻為數(shù)據(jù)處理做準(zhǔn)備,因此云計算或各式計算框架等,一般將數(shù)據(jù)存儲和處理放在一起說。
高端互聯(lián)網(wǎng)企業(yè)都在致力于開發(fā)自己的云計算,云計算是對大數(shù)據(jù)的轉(zhuǎn)移、存儲、計算的協(xié)同體,常采用分布式數(shù)據(jù)庫進(jìn)行分布式處理,隨后慢慢形成了分布式計算、效用計算、負(fù)載均衡、并行計算、網(wǎng)絡(luò)存儲、熱備份冗雜和虛擬化等計算機(jī)的混合技術(shù),這些都屬于“云計算”的范疇,利用云計算,能夠?qū)⒑A康摹按髷?shù)據(jù)”實(shí)時處理,因此,要正確看待云計算和大數(shù)據(jù)的關(guān)系,它們就像一枚硬幣的正反面,密不可分。完成這一步,大數(shù)據(jù)的價值已經(jīng)被深度挖掘了出來,之后更有目的、更準(zhǔn)確的做出系統(tǒng)判斷,給用戶推送關(guān)鍵信息,就能夠創(chuàng)造出更大的價值。
對于資源有效,無法開發(fā)“云計算”的企業(yè)來說,和高端企業(yè)合作,利用高端企業(yè)的云計算系統(tǒng)進(jìn)行數(shù)據(jù)處理,又或是利用Hadoop、Mapreduce、Tensorflow(深度學(xué)習(xí)框架)、Spark、Pentaho BI等開源框架進(jìn)行大數(shù)據(jù)處理,都是不錯的方法,這里重點(diǎn)提一下Hadoop開源框架,用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序,并進(jìn)行簡單的數(shù)據(jù)處理,如何正確看待云計算和開源框架的區(qū)別?前者是大型的,后者體量較小,功能也較為單一,就好像修建一棟房子,云計算是總設(shè)計圖,內(nèi)容是多樣的,功能強(qiáng)大,而眾多開源框架則是水泥、錘子一樣的修建工具或臥室、陽臺設(shè)計圖,功能較為單一,但也能使用,其中Hadoop開源框架非常優(yōu)秀,被高端互聯(lián)網(wǎng)企業(yè)收錄進(jìn)自家的云計算環(huán)境中,云計算和大數(shù)據(jù)的關(guān)系如圖1所示。
隨著“大數(shù)據(jù)”的日益發(fā)展,大數(shù)據(jù)的安全性又成為人們熱議的話題,這里包含兩方面內(nèi)容,第一方面為作為用戶的你,是否愿意自己的大數(shù)據(jù)被收集,當(dāng)你瀏覽商品時,你的喜好已經(jīng)被收錄,當(dāng)你發(fā)送郵件時,聯(lián)系方式已泄密,當(dāng)你使用地圖時,位置信息已經(jīng)泄密,作為用戶的你要想保護(hù)數(shù)據(jù)安全性,就需要慎重對待手機(jī)軟件中的權(quán)屬限制,謹(jǐn)慎處理。
另一方面是企業(yè)如何保護(hù)大數(shù)據(jù)?企業(yè)的大數(shù)據(jù)有流通性和共享性,本身就容易暴露,且容易受到黑客勒索攻擊,國家在2019年5月13日發(fā)布等保2.0,要求企業(yè)構(gòu)建安全防護(hù)架構(gòu),保護(hù)數(shù)據(jù)安全,如圖2所示。
圖1 云計算和大數(shù)據(jù)的關(guān)系
圖2 等保2.0
在大數(shù)據(jù)時代,計算機(jī)信息處理技術(shù),可以簡單看作“云計算”,主要處理技術(shù)包括數(shù)據(jù)的采集、存儲、計算、安全管理、運(yùn)營等方面,針對這些內(nèi)容上文做了簡單說明,以供參考。