林艷雯
(廣東省電信規(guī)劃設計院有限公司,廣東湛江,524000)
大數(shù)據(jù)處理技術基于云計算的探討
林艷雯
(廣東省電信規(guī)劃設計院有限公司,廣東湛江,524000)
隨著社會經(jīng)濟的不斷進步,計算機網(wǎng)絡技術得到前所未有的快速發(fā)展,其中大數(shù)據(jù)更是滲透到現(xiàn)代社會的各個領域,給人們的生產(chǎn)生活帶來了極大的便利。近年來,高速發(fā)展的物聯(lián)網(wǎng)技術、移動互聯(lián)網(wǎng)技術等使得網(wǎng)絡終端產(chǎn)生了海量的網(wǎng)絡數(shù)據(jù),數(shù)據(jù)處理壓力十分巨大。基于這種大數(shù)據(jù)存儲和處理需要,網(wǎng)絡云計算技術應運而生并且得到了巨大發(fā)展。對此,本文在分析云計算的基礎上對大數(shù)據(jù)處理技術進行了重點探討。
大數(shù)據(jù);云計算;數(shù)據(jù)處理
近幾年,隨著互聯(lián)網(wǎng)技術的日益發(fā)達和普及,各種信息傳播的速度越來越快,數(shù)據(jù)規(guī)模也越來越大,現(xiàn)有的網(wǎng)絡數(shù)據(jù)處理系統(tǒng)已經(jīng)無法滿足這種“爆炸式”的數(shù)據(jù)增長,這使得云計算技術應運而生[1]。大數(shù)據(jù)產(chǎn)生依賴于云計算技術的發(fā)展,在此背景下,大數(shù)據(jù)具有5V特征,即Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)以及Veracity(真實性)。與傳統(tǒng)的數(shù)據(jù)存儲、計算等方面相比,大數(shù)據(jù)具有復雜性、隨機性、發(fā)散性等特點,因此更能精準有效的反映現(xiàn)實世界。而云計算技術隨著大數(shù)據(jù)的產(chǎn)生而日益發(fā)展和成熟,它們之間相互依托,使數(shù)據(jù)存儲和處理能力得到進一步的提升。
所謂的云計算是指利用可配置的計算資源共享池,使用資源付費模式來為用戶提供服務的網(wǎng)絡技術[2]。云計算在進行數(shù)據(jù)處理時具有以下特點:規(guī)模巨大、虛擬化、可靠性高、擴展性強、成本低廉等。在這些特點之下云計算又衍生出許多獨特的數(shù)據(jù)處理技術,主要有數(shù)據(jù)存儲、數(shù)據(jù)管理以及虛擬化技術。由于云計算技術能夠進行大規(guī)模的數(shù)據(jù)存儲和傳輸,因此是進行大數(shù)據(jù)處理的最佳選擇。云計算能夠最大程度的為大數(shù)據(jù)提供巨大的存儲空間以滿足其龐大的數(shù)據(jù)資源,這樣一來,就會加快數(shù)據(jù)處理速度,大大提高數(shù)據(jù)處理效率。
云計算與大數(shù)據(jù)其實是主客觀的關系,云計算主要進行數(shù)據(jù)計算,而大數(shù)據(jù)則是計算的對象。前者注重數(shù)據(jù)計算,后者注重數(shù)據(jù)存儲,它們之間相互依存,共同構成一個完整的數(shù)據(jù)處理系統(tǒng)。云計算大數(shù)據(jù)處理平臺架構如圖1所示。
圖1 云計算大數(shù)據(jù)處理平臺架構
2.1 大數(shù)據(jù)的采集技術
一般情況下,集中式采集和分布式采集是當前數(shù)據(jù)采集的兩個主要方式,兩種采集方式各有優(yōu)點,其中集中式采集會較好的反映出數(shù)據(jù)的全局性,而分布式采集相對來說會有較強的靈活性,需根據(jù)實際情況來選擇恰當?shù)臄?shù)據(jù)采集方式。事實上,大數(shù)據(jù)采集對象的范圍比較廣泛,除了組織內部的數(shù)據(jù),還包括相互獨立組織間的各種數(shù)據(jù),而并行處理恰好是云計算的一個顯著優(yōu)勢,所以混合式采集方式可以幫助我們更好的完成數(shù)據(jù)采集任務,
2.2 大數(shù)據(jù)的存儲技術
云計算的數(shù)據(jù)倉庫存儲特點是列式存儲,即根據(jù)數(shù)據(jù)的不同屬性進行具體的劃分和排列,之所以采取列式存儲方式是因為可以根據(jù)屬性來進行數(shù)據(jù)投影查詢,同時還可以對相似數(shù)據(jù)進行壓縮處理,這不僅大大加快了數(shù)據(jù)存儲速度,提高了數(shù)據(jù)處理效率,而且還節(jié)省了倉庫存儲空間,降低了索引和視圖的維護成本。
2.3 大數(shù)據(jù)的挖掘技術
云計算背景下的大數(shù)據(jù)挖掘采用分布式并行數(shù)據(jù)挖掘技術,此挖掘技術的獨特之處就在于它適合處理大規(guī)模的數(shù)據(jù)資源,而傳統(tǒng)的串行數(shù)據(jù)挖掘技術只能處理一些小規(guī)模的數(shù)據(jù)資源并且處理效率也較為低下。所謂的分布式并行數(shù)據(jù)挖掘技術就是先利用機器集群將預定的數(shù)據(jù)處理資源進行具體劃分,然后再由閑散的機器對數(shù)據(jù)進行有規(guī)律的處理,這樣一來就大大加快了數(shù)據(jù)處理速度,提高了工作效率。
2.4 大數(shù)據(jù)的可視化技術
所謂數(shù)據(jù)可視化是指用圖形或圖像的形式來表示大型數(shù)據(jù)庫中的數(shù)據(jù),大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中的數(shù)據(jù)是數(shù)據(jù)可視化的主要對象,并且人們可以利用其中的數(shù)據(jù)分析和開發(fā)工具來發(fā)現(xiàn)其他未知的信息,這樣人們對數(shù)據(jù)的觀察和分析便變得更加直觀,不再只依賴于傳統(tǒng)的關系數(shù)據(jù)表。在云平臺下,大數(shù)據(jù)可視化技術除了利于用戶理解數(shù)據(jù)的含義外,還可以用來指引整個檢索過程。
云計算摒棄了許多傳統(tǒng)數(shù)據(jù)處理技術的弊端,它能對數(shù)據(jù)進行更加準確且深層次的分析,極大的提高了大數(shù)據(jù)分析的能力和水平。在云計算的依托之下,大數(shù)據(jù)更加注重對數(shù)據(jù)的挖掘和創(chuàng)新,因而能夠最大程度的發(fā)揮出自身的資源優(yōu)勢,所以必須要將兩者充分緊密的結合起來,從而為網(wǎng)絡用戶提供更加全面可靠的數(shù)據(jù)服務。
[1]張焰,李楊.用大數(shù)據(jù)武裝”云”:基于云計算的大數(shù)據(jù)處理技術[J].中國新通信,2015,04:87-88.
[2]龔旭.基于云計算的大數(shù)據(jù)處理技術探討[J].電子技術與軟件工程,2015,10:198.
[3]李曉飛.基于云計算技術的大數(shù)據(jù)處理系統(tǒng)的研究[J].長春工程學院學報(自然科學版),2014,01:116-118+125.
The research of large data processing technology based on Cloud Computing
Lin Yanwen
(Guangdong Telecom Planning & Design Institute Co.,Ltd.,Zhanjiang Guangdong,524000)
Since With the progress of social economy, the rapid development of computer network technology has been hitherto unknown, the data of which is penetrated into every field of the modern society, which brings great convenience to people’s production and life. In recent years, the rapid development of Internet of things technology, mobile Internet technology makes the network terminal produce massive network data, and the pressure of data processing is very huge. Based on this large data storage and processing needs, the network cloud computing technology came into being and has been greatly developed. In this regard, this paper focuses on the large data processing technology based on the analysis of cloud computing.
Big data;Cloud computing;Data processing