賈書偉,鎖配春
(云南經(jīng)濟管理學院,云南 昆明 650106)
在當今大數(shù)據(jù)時代,企業(yè)管理數(shù)據(jù)、電子產(chǎn)品社會化數(shù)據(jù)、互聯(lián)網(wǎng)信息數(shù)據(jù)等極大地豐富了人們的生活,為人們提供多樣化的信息。并且,大數(shù)據(jù)不僅數(shù)據(jù)量較大,而且數(shù)據(jù)類型復雜多樣,影像、報表、文檔、賬單等已經(jīng)在商業(yè)企業(yè)中普遍運用。網(wǎng)絡游戲、網(wǎng)絡視頻等數(shù)量越來越多。同時,大數(shù)據(jù)具有多樣性、規(guī)模性、高速性的特點,對未來發(fā)展有著重要作用。大數(shù)據(jù)關鍵技術主要包括系統(tǒng)架構、文件系統(tǒng)、數(shù)據(jù)處理系統(tǒng)、數(shù)據(jù)庫系統(tǒng)等技術,只有具備這些關鍵技術才能夠解決大數(shù)據(jù)發(fā)展過程中的數(shù)據(jù)管理問題。研究大數(shù)據(jù)關鍵技術不僅能夠促進大數(shù)據(jù)的發(fā)展,而且對社會生活及智能化發(fā)展意義深刻。
大數(shù)據(jù)系統(tǒng)架構主要包括大數(shù)據(jù)存儲和大數(shù)據(jù)處理方面,其中,大數(shù)據(jù)存儲主要采用分布式存儲結構,大數(shù)據(jù)處理主要采購分布式軟件架構計算結構。大數(shù)據(jù)處理主要包括數(shù)據(jù)分享、數(shù)據(jù)檢索、數(shù)據(jù)分析和數(shù)據(jù)展現(xiàn)。大數(shù)據(jù)關鍵技術主要針對數(shù)據(jù)存儲和數(shù)據(jù)運算,大數(shù)據(jù)關鍵技術的研究主要依靠憑借大數(shù)據(jù)活力的大企業(yè)。面對大數(shù)據(jù)的發(fā)展,大數(shù)據(jù)企業(yè)依靠提升服務器的性能已經(jīng)無法滿足企業(yè)的業(yè)務需求,需要企業(yè)加快大數(shù)據(jù)存儲技術及大數(shù)據(jù)處理技術研發(fā),提高大數(shù)據(jù)技術水平。Google公司是全球最大的信息檢索公司,一直走在大數(shù)據(jù)技術研究的前言,在2006年提出了云計算的概念,并研發(fā)除了分布式文件系統(tǒng)、數(shù)據(jù)處理技術、數(shù)據(jù)庫系統(tǒng)等關鍵技術。
文件系統(tǒng)是大數(shù)據(jù)的基礎,在Google公司發(fā)展過程中,現(xiàn)有的發(fā)展方案已經(jīng)無法滿足大數(shù)據(jù)存儲,因此,Google公司提出了分布式文件管理系統(tǒng)——GFS。GFS與傳統(tǒng)文件系統(tǒng)在可用性、可靠性、伸縮性等方面的目標相同。然而,GFS認為系統(tǒng)組件失敗屬于常態(tài),采用主從結構構件能夠用于廉價服務器的文件系統(tǒng),并通過追加更新、數(shù)據(jù)分塊等方式實現(xiàn)數(shù)據(jù)存儲。但是,隨著數(shù)據(jù)業(yè)務的發(fā)展,GFS系統(tǒng)已經(jīng)難以適應大數(shù)據(jù)的需求。因此,Google公司對GFS進行了改進,研發(fā)了Colosuss系統(tǒng),Colosuss系統(tǒng)能夠解決海量文件存儲問題和GFS單點故障問題。并且,其他企業(yè)也加強了對文件系統(tǒng)的研發(fā),理論如,微軟開發(fā)出了Cosmos系統(tǒng),用于支撐廣告業(yè)務和搜索業(yè)務。
大數(shù)據(jù)背景下的數(shù)據(jù)處理模式主要包括批處理和流處理,流處理直接對數(shù)據(jù)信息進行處理,而批處理則需要先存儲信息,然后再對信息進行處理。流處理將源源不斷的數(shù)據(jù)視為數(shù)據(jù)流,及時處理新數(shù)據(jù),并反饋數(shù)據(jù)結果。而大數(shù)據(jù)的規(guī)模較大,要實現(xiàn)實時處理必須采用分布式處理方式。現(xiàn)階段,比較典型的開源流處理系統(tǒng)主要包括Storm、Kafka、S4等。而批處理最典型的模型是Google公司所研發(fā)的MapReduce編程模型。這一模型能夠實現(xiàn)大量普通配置和并行化信息處理,能夠通過簡單結構實現(xiàn)大規(guī)模的分布式計算,提高計算機的計算性能。并且,Google公司在后續(xù)研究中對模型的調節(jié)技術、連接技術、索引技術等進行了優(yōu)化。另外,Yunhong Gu等人研發(fā)出了sector and Sphere云計算平臺,促進了分布式數(shù)據(jù)處理系統(tǒng)技術的推廣。
傳統(tǒng)的分布式數(shù)據(jù)庫難以適應大數(shù)據(jù)的要求,這是因為,大數(shù)據(jù)的規(guī)模效應壓力較大,數(shù)據(jù)處理要求遠遠超出了傳統(tǒng)計算機的數(shù)據(jù)處理能力,采用分布式技術是計算機數(shù)據(jù)處理的必然選擇。而傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)采用縱向拓展的方式,數(shù)據(jù)庫系統(tǒng)性能低于數(shù)據(jù)增加速度。因此,大數(shù)據(jù)庫系統(tǒng)應采取橫向發(fā)展的方式,提高數(shù)據(jù)庫系統(tǒng)的擴展性。并且,傳統(tǒng)數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)類型較多,價值較低,而大數(shù)據(jù)形式多種多樣,數(shù)據(jù)庫系統(tǒng)需要解決多樣化數(shù)據(jù)處理的問題。另外,大數(shù)據(jù)的數(shù)據(jù)處理方式、數(shù)據(jù)理性、數(shù)據(jù)處理時間與傳統(tǒng)的數(shù)據(jù)處理存在著較大的差異,在大數(shù)據(jù)時代并不存在一種適用于所有場景的數(shù)據(jù)存儲方式,需要數(shù)據(jù)企業(yè)建立分布式數(shù)據(jù)庫,滿足不同場景的數(shù)據(jù)存儲和數(shù)據(jù)處理要求。為此,Google公司研發(fā)出了Bigtable。Bigtable的擴展性和可靠性較高,適用范圍廣泛,能夠應用在Google企業(yè)所生產(chǎn)的60多個項目和產(chǎn)品上。另外,其他企業(yè)也提出了大數(shù)據(jù)系統(tǒng),Amazon提出了Dynamo,Yahoo提出了PNUTS,促進了人們對關系數(shù)據(jù)庫的反思與研究。
Google公司除了對大數(shù)據(jù)處理進行研究之外,還對開源項目進行了深入研究,并研發(fā)出了Hadoop,Hadoop屬于開源分布計算平臺,是MapReduce編程模型的載體。軟件開發(fā)者可以借助Hadoop對分布式并行程序進行編制,進而使計算機完成海量的數(shù)據(jù)計算工作。