摘 要:近年來(lái),隨著網(wǎng)絡(luò)的發(fā)展和新興技術(shù)的出現(xiàn),尤其是物聯(lián)網(wǎng)技術(shù)的推廣,大數(shù)據(jù)成為眼下最流行的技術(shù),這必然會(huì)給目前的數(shù)據(jù)庫(kù)和信息處理技術(shù)帶來(lái)新的挑戰(zhàn),舊的數(shù)據(jù)處理、數(shù)據(jù)挖掘技術(shù)已經(jīng)很難滿足要求,必然要求數(shù)據(jù)處理技術(shù)進(jìn)行新的革命性的變革。近年來(lái),云計(jì)算技術(shù)也在不斷的發(fā)展,二者的結(jié)合會(huì)給信息處理帶來(lái)很多新的挑戰(zhàn)和機(jī)遇。
關(guān)鍵詞:云計(jì)算;大數(shù)據(jù);數(shù)據(jù)挖掘;數(shù)據(jù)處理;存儲(chǔ)
中圖分類號(hào):TP308
1 大數(shù)據(jù)概述
什么是大數(shù)據(jù)?“大數(shù)據(jù)”是一個(gè)數(shù)據(jù)量特別大、類別特別多的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無(wú)法用傳統(tǒng)數(shù)據(jù)庫(kù)工具對(duì)其內(nèi)容進(jìn)行加工處理。“大數(shù)據(jù)”首先是指數(shù)據(jù)量非常龐大,指代大型數(shù)據(jù)集,一般在10TB規(guī)模左右,在日常的應(yīng)用中,多數(shù)的單位都是把多個(gè)來(lái)源于不同系統(tǒng)的數(shù)據(jù)集統(tǒng)一的放在一起,形成了更為龐大的數(shù)據(jù)量;其次是指數(shù)據(jù)類型特別多,現(xiàn)在興起的云計(jì)算技術(shù),使得現(xiàn)在創(chuàng)造數(shù)據(jù)的主體由企業(yè)逐步的轉(zhuǎn)向個(gè)體,而我們個(gè)體創(chuàng)造的數(shù)據(jù)大多是文檔、圖片、音頻、視頻等,這些數(shù)據(jù)都是非結(jié)構(gòu)化的,還有大多數(shù)的企業(yè)的辦公自動(dòng)化通過網(wǎng)絡(luò)得以實(shí)現(xiàn),由此產(chǎn)生的數(shù)據(jù)也大多是非結(jié)構(gòu)化的。也就是說我們要處理的數(shù)據(jù)來(lái)源于不同的系統(tǒng)和數(shù)據(jù)源,數(shù)據(jù)類型和數(shù)據(jù)格式更為復(fù)雜,已不在局限于結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu),而是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的一個(gè)混合體。第三是要求要有非常高的相應(yīng)處理速度,盡管要處理的數(shù)據(jù)量異常龐大,也必須對(duì)如此龐大的數(shù)據(jù)量做到實(shí)時(shí)處理。最后一個(gè)特點(diǎn)是指數(shù)據(jù)真實(shí)性高,隨著社交數(shù)據(jù)、企業(yè)交易和應(yīng)用數(shù)據(jù)等新數(shù)據(jù)源的崛起,傳統(tǒng)數(shù)據(jù)源的局限被打破,企業(yè)越來(lái)越需要高效的信息處理,以確保數(shù)據(jù)的真實(shí)性、準(zhǔn)確性及安全性。
另外,結(jié)構(gòu)組成更為復(fù)雜的新數(shù)據(jù)開始出現(xiàn),而且生成的速度提高到了一個(gè)前所未有的程度。例如:社交網(wǎng)絡(luò)數(shù)據(jù)、備份數(shù)據(jù)和物聯(lián)網(wǎng)應(yīng)用下的傳感器數(shù)據(jù)都屬于人們?cè)诜治鲋嘘P(guān)注的新數(shù)據(jù)源,企業(yè)需要對(duì)這些數(shù)據(jù)類型進(jìn)行快速、準(zhǔn)確、可靠的分析,以便充實(shí)其已知的信息數(shù)據(jù)量。
在企業(yè)內(nèi)部,隨著客戶以在線渠道作為開展商業(yè)交易及與企業(yè)互動(dòng)的主要手段和網(wǎng)絡(luò)日志的不斷增加,為監(jiān)測(cè)和優(yōu)化業(yè)務(wù)運(yùn)營(yíng)而部署的傳感器網(wǎng)絡(luò)和機(jī)器數(shù)量也越來(lái)越多。結(jié)果就生成了大量新數(shù)據(jù)源、快速增加的數(shù)據(jù)量和迅速增加的新數(shù)據(jù)流,需要分析所有這些新數(shù)據(jù)?!按髷?shù)據(jù)”在互聯(lián)網(wǎng)與傳統(tǒng)企業(yè)之間建立了緊密的聯(lián)系,推動(dòng)了互聯(lián)網(wǎng)企業(yè)與傳統(tǒng)的企業(yè)的融合,逐步掀起了一場(chǎng)消費(fèi)模式、生產(chǎn)模式、管理模式的革命。
2 云計(jì)算概述
2.1 云計(jì)算的概念
“云計(jì)算”將計(jì)算機(jī)從客戶端集中到“云端”,作為功能應(yīng)用通過互聯(lián)網(wǎng)絡(luò)提供給客戶端,它將用戶提交的各種需求動(dòng)態(tài)、合理的分配給分布在各處的計(jì)算機(jī)系統(tǒng),從而提出需求的各種應(yīng)用系統(tǒng)能夠獲取相應(yīng)的計(jì)算服務(wù)、存儲(chǔ)空間。用戶關(guān)心的是需求提出的功能,而不需要去關(guān)心應(yīng)用功能是怎么實(shí)現(xiàn)的,所有的應(yīng)用功能都是由服務(wù)提供商來(lái)完成的。它是一種商業(yè)計(jì)算模型,而不是一種平臺(tái)或者架構(gòu)。
實(shí)現(xiàn)云計(jì)算所需要的基礎(chǔ)設(shè)施有多種技術(shù)結(jié)合來(lái)完成。尤其是需要一套系統(tǒng)的軟件對(duì)分布在各處的硬件進(jìn)行虛擬化調(diào)度和管理,即把分布于各處的計(jì)算機(jī)軟、硬件資源集中起來(lái)進(jìn)行綜合處理。
2.2 云計(jì)算特點(diǎn)
(1)資源使用的可擴(kuò)展性。云計(jì)算可以根據(jù)用戶的需求動(dòng)態(tài)的分配和回收分散在不同地理位置的不同的軟、硬件資源。當(dāng)用戶提出一個(gè)新的計(jì)算需求時(shí),云計(jì)算系統(tǒng)動(dòng)態(tài)的分配給該請(qǐng)求一個(gè)可利用的資源,當(dāng)用戶的需求已經(jīng)滿足或結(jié)束時(shí),系統(tǒng)合理、及時(shí)的回收該用戶所占用的資源,以分配給下一時(shí)間段其他的用戶所提出的需求,從而實(shí)現(xiàn)了整個(gè)網(wǎng)絡(luò)資源的利用的擴(kuò)展性,大大提高了資源使用的效率。
(2)云計(jì)算的普遍性與自動(dòng)性。云計(jì)算的處理單元和各種資源是由互聯(lián)網(wǎng)連接在一起的,用戶通過網(wǎng)絡(luò)向與計(jì)算提出請(qǐng)求,云計(jì)算同樣通過網(wǎng)絡(luò)將處理的結(jié)果送回給用戶。而且互聯(lián)網(wǎng)的范圍是覆蓋全球的,所以互聯(lián)網(wǎng)使得云計(jì)算所能提供給用戶的服務(wù)無(wú)處不在,使得云計(jì)算具有了最大范圍的普遍性。而且這種服務(wù)是由云系統(tǒng)自動(dòng)完成的,不需要用戶與服務(wù)提供者進(jìn)行任何的交互,所以使用起來(lái)尤其的方便快捷。
(3)云計(jì)算系統(tǒng)的透明性。對(duì)于云系統(tǒng)而言,它將各種分散在各地的資源進(jìn)行統(tǒng)一的調(diào)度與管理,然后將計(jì)算結(jié)果提供給用戶;反過來(lái)對(duì)于用戶而言,用戶只知道自己需要什么樣的服務(wù),只要將請(qǐng)求提交給云系統(tǒng),結(jié)果就會(huì)快速的返回,它的處理能力是無(wú)限大的,用戶并不去關(guān)心請(qǐng)求的計(jì)算到底是怎樣完成的,也就是服務(wù)的完成對(duì)于用戶來(lái)說是完全透明的。
3 云計(jì)算和大數(shù)據(jù)的關(guān)系
本質(zhì)上講,云計(jì)算強(qiáng)調(diào)的是計(jì)算能力;而大數(shù)據(jù)強(qiáng)調(diào)的是處理、計(jì)算的對(duì)象。然而二者并不是孤立存在的,而是相互關(guān)聯(lián)的。大數(shù)據(jù)所提供給用戶的服務(wù)還是需要對(duì)數(shù)據(jù)的處理,然后得到處理后的結(jié)果,主要還是落腳在對(duì)數(shù)據(jù)的加工上;云計(jì)算中的重要組成部分基礎(chǔ)設(shè)施,即基礎(chǔ)設(shè)施主要還是存儲(chǔ)設(shè)備,所以兩者密不可分。
云計(jì)算能力以及它的分布式結(jié)構(gòu)為大數(shù)據(jù)的商業(yè)模式提供了實(shí)現(xiàn)的可能?!按髷?shù)據(jù)”要求能夠處理幾乎所有類型的海量數(shù)據(jù),例如文檔、圖片、視頻、音頻、微博、電子郵件等,而且要求處理的速度非常高,幾乎是實(shí)時(shí)的。而且這種大量數(shù)據(jù)的計(jì)算要求必須是面向最普通的用戶的,所以必須是廉價(jià)的。它所應(yīng)用的基礎(chǔ)的硬件設(shè)施都是最低成本的。而云計(jì)算正是利用了這些價(jià)格低廉的基礎(chǔ)設(shè)施,使得用戶能夠按照提出的需求獲得相應(yīng)的服務(wù),云計(jì)算機(jī)的這種分配機(jī)制完全的滿足了上面說到的大數(shù)據(jù)系統(tǒng)中海量的、多種數(shù)據(jù)類型的數(shù)據(jù)的處理和存儲(chǔ)要求。云計(jì)算技術(shù)使得大數(shù)據(jù)的實(shí)現(xiàn)成為可能。
現(xiàn)如今,大多數(shù)的大型業(yè)務(wù)系統(tǒng)例如:銀行系統(tǒng)、電子商務(wù)系統(tǒng)等,使用的數(shù)據(jù)庫(kù)系統(tǒng)仍然是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng),例如:SQLSERVER、ORACLE系統(tǒng)等。云計(jì)算模式進(jìn)入這些大型業(yè)務(wù)系統(tǒng)的數(shù)據(jù)管理以后,這些大型系統(tǒng)的數(shù)據(jù)庫(kù)結(jié)構(gòu)必然發(fā)生了質(zhì)的變化,所以容易得出的結(jié)論就是,那些以前基于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)的大型系統(tǒng)所提供的服務(wù),必將被一種全新模式的云計(jì)算數(shù)據(jù)庫(kù)所替代,當(dāng)然云計(jì)算數(shù)據(jù)庫(kù)是在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)基礎(chǔ)之上發(fā)展而來(lái)的。云計(jì)算數(shù)據(jù)庫(kù)提供了強(qiáng)大的海量數(shù)據(jù)的存儲(chǔ)與處理功能,同時(shí)還必須具有在線分析處理和在線事物處理的能力。
4 大數(shù)據(jù)與云計(jì)算的未來(lái)
在信息高速發(fā)展的這個(gè)時(shí)代,人們的信息的要求已經(jīng)提出了更高的要求。而大數(shù)據(jù)概念的提出正迎合、并能滿足了這一更高的要求。人們對(duì)信息數(shù)據(jù)的要求是對(duì)數(shù)據(jù)量異常龐大的、數(shù)據(jù)類型紛繁復(fù)雜的、很難制定統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)進(jìn)行快速的處理。大數(shù)據(jù)會(huì)進(jìn)入到人們生活的方方面面,如同我們生活環(huán)境周圍的各種細(xì)小的基礎(chǔ)設(shè)施一樣。大數(shù)據(jù)的發(fā)展必將催生眾多產(chǎn)業(yè)的興起于發(fā)展,需要大量的數(shù)據(jù)分析、處理方面的工程人才,從而造就出眾多的就業(yè)崗位。大數(shù)據(jù)必將成為下一輪經(jīng)濟(jì)增長(zhǎng)的源動(dòng)力,成為既互聯(lián)網(wǎng)產(chǎn)業(yè)之后的新的IT業(yè)的龍頭產(chǎn)業(yè),為全球走出經(jīng)濟(jì)危機(jī)起到?jīng)Q定性的帶動(dòng)作用。
5 結(jié)束語(yǔ)
本文中探討了什么是大數(shù)據(jù)和云計(jì)算,并分析了大數(shù)據(jù)和云計(jì)算之間的關(guān)系,分析了在云計(jì)算時(shí)代的背景下,二者的未來(lái)走向是什么,通過分析可以清楚的知道,云計(jì)算為大數(shù)據(jù)提供了更好的發(fā)展機(jī)遇。
參考文獻(xiàn):
[1]郭曉科.大數(shù)據(jù)[M].北京:清華大學(xué)出版社,2013.
[2]陸嘉恒.大數(shù)據(jù)挑戰(zhàn)與NoSQL數(shù)據(jù)庫(kù)技術(shù)[M].北京:電子工業(yè)出版社,2013.
作者簡(jiǎn)介:徐書海(1979-),男,山東濟(jì)南人,助教,研究方向:計(jì)算機(jī)軟件開發(fā)。
作者單位:濟(jì)南職業(yè)學(xué)院,濟(jì)南 250001