摘 要:對大數(shù)據(jù)進行管理和數(shù)據(jù)挖掘,從中分析和挖掘潛在的價值和關(guān)系已經(jīng)成為當前的研究熱點之一。本文首先對大數(shù)據(jù)的定義、作用及其研究重要性進行了分析,然后對基于大數(shù)據(jù)的信息系統(tǒng)中所應用的多種關(guān)鍵技術(shù)進行了研究和討論,最后就其發(fā)展和應用趨勢做了簡要介紹。
關(guān)鍵詞:大數(shù)據(jù);信息系統(tǒng);數(shù)據(jù)挖掘
信息技術(shù)的發(fā)展推動了物聯(lián)網(wǎng)技術(shù)、移動互聯(lián)網(wǎng)技術(shù)、云計算技術(shù)等現(xiàn)代數(shù)字信息系統(tǒng)的全面發(fā)展,使得信息的獲取途徑和獲取量產(chǎn)生了幾何性的增長,且獲取數(shù)據(jù)和存儲數(shù)據(jù)的成本都有了顯著降低。這些海量數(shù)據(jù)在極大地促進數(shù)據(jù)信息處理與分析方式轉(zhuǎn)變的同時也提升了數(shù)據(jù)結(jié)構(gòu)的復雜度。如何從大量復雜數(shù)據(jù)中提取有用信息并對其進行組織和管理已經(jīng)成為當前信息系統(tǒng)的重點關(guān)注內(nèi)容之一。
1 大數(shù)據(jù)的定義與特性概述
目前來說,大數(shù)據(jù)并沒有一個標準的統(tǒng)一的定義,但是其與海量數(shù)據(jù)之間存在非常明顯的區(qū)別,即大數(shù)據(jù)是海量數(shù)據(jù)中的有價值數(shù)據(jù)信息的集合,包含了針對數(shù)據(jù)的處理行為,且各數(shù)據(jù)之間存在一定的關(guān)聯(lián),具有挖掘和分析價值,需要應用特定的數(shù)據(jù)管理與分析技術(shù)對其進行處理。
其核心技術(shù)又可分為處理和分析兩類,每一類中又包含多種數(shù)據(jù)處理技術(shù),如數(shù)據(jù)挖掘技術(shù)、模式識別技術(shù)、信號處理技術(shù)、數(shù)據(jù)庫技術(shù)、云計算技術(shù)、可視化技術(shù)、分布式技術(shù)等。
綜合來看,大數(shù)據(jù)之所以在信息系統(tǒng)中得到了廣泛的重視和應用,主要是由以下幾方面特性決定的。
首先是大數(shù)據(jù)的普遍性。信息技術(shù)的發(fā)展使得人們的生活、工作、學習中產(chǎn)生了大量的數(shù)據(jù)信息,統(tǒng)計分析結(jié)果表明,全球所產(chǎn)生的數(shù)據(jù)量正在以每兩年翻一倍的速度增長,而新技術(shù)和新研究方向的拓展和開發(fā)又使得數(shù)據(jù)的生產(chǎn)成本、存儲成本、處理成本等都得到了大幅度下降,大數(shù)據(jù)已經(jīng)被普遍應用到目前的數(shù)據(jù)信息分析與處理過程中。
其次是大數(shù)據(jù)技術(shù)對企業(yè)發(fā)展的重要性。大數(shù)據(jù)使用數(shù)據(jù)挖掘技術(shù)、聚類分析技術(shù)等對企業(yè)發(fā)展過程中產(chǎn)生的海量數(shù)據(jù)進行分析、挖掘和整合,能夠從中提煉出對企業(yè)具有積極推動意義的價值信息,該信息對于提升工作效率,改善決策過程,推動業(yè)務開展等具有十分重要的意義。
再次大數(shù)據(jù)是必然的發(fā)展趨勢。大數(shù)據(jù)所能夠創(chuàng)造的價值越來越明顯,從中所能夠獲取的信息也越來越豐富,無論是個人還是企業(yè),甚至是國家,都將大數(shù)據(jù)作為了重點對象進行應用和研究。
2 基于大數(shù)據(jù)的信息系統(tǒng)關(guān)鍵技術(shù)分析
基于大數(shù)據(jù)的信息系統(tǒng)所具有的具體功能千差萬別,系統(tǒng)結(jié)構(gòu)復雜多變,但是對其進行抽象可將其分為如下幾部分關(guān)鍵技術(shù):分布式的大數(shù)據(jù)存儲技術(shù)、分布式的大數(shù)據(jù)處理技術(shù)以及海量數(shù)據(jù)運算與管理技術(shù)等。
2.1 分布式文件管理技術(shù)
數(shù)據(jù)存儲與管理是大數(shù)據(jù)應用的基礎(chǔ)之一,但是傳統(tǒng)的數(shù)據(jù)文件管理系統(tǒng)不適用于大數(shù)據(jù)信息系統(tǒng),需要根據(jù)實際應用需求進行設(shè)計與分析。目前應用比較成功的文件管理系統(tǒng)技術(shù)主要集中在具有海量用戶的互聯(lián)網(wǎng)企業(yè)中。GFS文件管理系統(tǒng)是由Google所提出和應用的一類數(shù)據(jù)文件管理技術(shù),該技術(shù)使用大量的廉價服務器搭建了一個可擴展的文件管理系統(tǒng),數(shù)據(jù)可以被存儲在不同的服務器中。
可以看出該管理技術(shù)通過分塊存儲、關(guān)聯(lián)鏈接、追加更新等對數(shù)據(jù)進行存儲與管理,但是對于大文件的管理與存儲,該技術(shù)存在一定的不足,為彌補和完善該不足,多個類GFS文件管理系統(tǒng)被開發(fā)應用到大數(shù)據(jù)管理中。這些技術(shù)通過增加緩沖層、使用內(nèi)存加載部分元數(shù)據(jù)的方式提升了數(shù)據(jù)的存儲和讀取效率,使得大數(shù)據(jù)文件管理系統(tǒng)進入集群管理階段。
2.2 分布式數(shù)據(jù)處理系統(tǒng)
大數(shù)據(jù)信息的處理方式主要有流處理和批處理兩種。前者將所需要處理的海量數(shù)據(jù)看作是一個不間斷的流,可以實時的對進入處理系統(tǒng)的數(shù)據(jù)進行處理和結(jié)果返回。分布式處理方式的應用極大的提升了系統(tǒng)的數(shù)據(jù)處理實時性。后者則是將需要處理的數(shù)據(jù)先執(zhí)行存儲操作再對其進行處理。該技術(shù)可以使用將數(shù)據(jù)按照特定的分割方式分為多塊數(shù)據(jù),這些數(shù)據(jù)可同時由多個處理終端進行并行處理。顯然,該處理技術(shù)淡化了數(shù)據(jù)的關(guān)聯(lián)部分,但是極大的提升了數(shù)據(jù)的可調(diào)度性、集群性。該技術(shù)的核心在于數(shù)據(jù)的分割、分發(fā)以及處理。
2.3 分布式數(shù)據(jù)庫系統(tǒng)
傳統(tǒng)的數(shù)據(jù)庫大多是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,這些數(shù)據(jù)庫在面對規(guī)模性、多樣性、低價值密度性的大數(shù)據(jù)時存在不同程度的缺陷或不足。為實現(xiàn)大數(shù)據(jù)的處理需要采用更簡單的數(shù)據(jù)庫模型。如Bigtable技術(shù)將所管理的數(shù)據(jù)信息看做字符串進行管理,而不直接對字符串進行解釋,從而使得所被管理的數(shù)據(jù)具有結(jié)構(gòu)化或半結(jié)構(gòu)化特征,這就使得數(shù)據(jù)庫系統(tǒng)得到了簡化。其他如Dynamo技術(shù)所使用的鍵值存儲、分布式哈希表、向量時鐘等技術(shù)同樣能夠?qū)崿F(xiàn)對大數(shù)據(jù)庫系統(tǒng)的可靠高效管理。而這些數(shù)據(jù)庫系統(tǒng)的發(fā)展同樣也推動了關(guān)系型數(shù)據(jù)庫的發(fā)展,促進了NoSQLogic數(shù)據(jù)庫的發(fā)展和應用。該數(shù)據(jù)庫使用了模式智能識別、一致化與簡單化應用程序接口等技術(shù)進行優(yōu)化,同樣可以達到較好的應用效果。
2.4 其他系統(tǒng)及關(guān)鍵技術(shù)
大數(shù)據(jù)信息系統(tǒng)結(jié)構(gòu)復雜,除上述幾部分系統(tǒng)之外還包括其他多個系統(tǒng),這些系統(tǒng)又由多個大數(shù)據(jù)處理與分析技術(shù)構(gòu)成,如數(shù)據(jù)挖掘技術(shù)、云計算技術(shù)、模式識別技術(shù)、聚類分析技術(shù)、稀疏問題處理技術(shù)等。
[參考文獻]
[1]黃哲學,曹付元,李俊杰,陳小軍.面向大數(shù)據(jù)的海運數(shù)據(jù)系統(tǒng)關(guān)鍵技術(shù)研究[J].網(wǎng)絡(luò)新媒體技術(shù),2012(11).