柏永榕
摘 要 隨著經(jīng)濟發(fā)展和社會進步,數(shù)據(jù)和信息數(shù)量龐大和種類多樣的特點日趨明顯,傳統(tǒng)數(shù)據(jù)分析技術(shù)很難適應(yīng)現(xiàn)階段發(fā)展趨勢,呈現(xiàn)出諸多弊端。因此,利用大數(shù)據(jù)信息系統(tǒng)關(guān)鍵技術(shù),推動相關(guān)產(chǎn)業(yè)持續(xù)發(fā)展成為社會關(guān)注的焦點。本文基于上述背景對大數(shù)據(jù)技術(shù)進行了簡要概述,并探討了大數(shù)據(jù)的信息系統(tǒng)關(guān)鍵技術(shù),以期能順應(yīng)時代發(fā)展趨勢,提升數(shù)據(jù)處理能力。
【關(guān)鍵詞】大數(shù)據(jù) 信息系統(tǒng) 關(guān)鍵技術(shù)
近年來,信息技術(shù)發(fā)展迅速,對以移動互聯(lián)網(wǎng)技術(shù)和云計算機技術(shù)為主的現(xiàn)代數(shù)字信息系統(tǒng)的發(fā)展起到重要的推動作用,并使得信息獲取量及途徑呈現(xiàn)幾何增長態(tài)勢,同時降低了數(shù)據(jù)獲取與存儲的成本,極大提高了數(shù)據(jù)處理的有效性,為社會各行各業(yè)發(fā)展奠定了堅實的技術(shù)基礎(chǔ)。基于此,如何實現(xiàn)從復(fù)雜的數(shù)據(jù)中提煉有效信息,進而推動相關(guān)產(chǎn)業(yè)發(fā)展成為社會關(guān)注的重點,相關(guān)部門必須采取有效措施,保證當前信息系統(tǒng)的高校運行。
1 大數(shù)據(jù)技術(shù)概述
1.1 數(shù)據(jù)采集
在數(shù)據(jù)采集中,一般運用多個數(shù)據(jù)庫,以此接收來自客戶端或者傳感器等途徑的數(shù)據(jù),在具體采集中會面臨并發(fā)量較高的挑戰(zhàn),為了便于后續(xù)分析工作的有效開展,在采集中需要將數(shù)據(jù)導(dǎo)入分布式存儲集或者數(shù)據(jù)庫中,并在導(dǎo)入過程中進行相應(yīng)的預(yù)處理。比如在互聯(lián)網(wǎng)企業(yè)中,多數(shù)企業(yè)均創(chuàng)建了諸如包含Ⅱadoop的cloudera的系統(tǒng)日志數(shù)據(jù)采集工具,采取分布式結(jié)構(gòu),以此滿足高并發(fā)量的日志數(shù)據(jù)采集需求,并實現(xiàn)有效的數(shù)據(jù)傳輸。
1.2 數(shù)據(jù)存儲
在數(shù)據(jù)存取方面,互聯(lián)網(wǎng)企業(yè)多采用PostgreSQL,其在設(shè)計中主要滿足OLTP交易型需求,進而具備人機會話功能。也有很多企業(yè)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,其中以O(shè)racle較為常見,在頻繁的數(shù)據(jù)修改、增加和刪除操作中具有明顯優(yōu)勢,但是在數(shù)據(jù)統(tǒng)計分析查詢方面效率較低。針對這一問題,很多公司選擇Teradata,主要利用MPP架構(gòu),在銷售過程中以軟硬一體機的形式呈現(xiàn)給客戶。
1.3 基礎(chǔ)架構(gòu)
在對大數(shù)據(jù)技術(shù)運用中,很多企業(yè)指出在歸檔和備份過程中數(shù)據(jù)冗余度高達92%,必須采取有效措施高效刪除存儲系統(tǒng)中的重復(fù)數(shù)據(jù),其中分布式重復(fù)數(shù)據(jù)刪除系統(tǒng)發(fā)揮了重要的作用,其主要由元數(shù)據(jù)服務(wù)器、客戶端和數(shù)據(jù)服務(wù)器組成,元數(shù)據(jù)服務(wù)器主要實現(xiàn)元數(shù)據(jù)的維護和儲存,而客戶端則在提供文件操作接口的同時,實現(xiàn)數(shù)據(jù)的預(yù)處理,數(shù)據(jù)服務(wù)器主要啟動去重引擎,并對有效數(shù)據(jù)進行儲存和管理。
1.4 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘必須以現(xiàn)有數(shù)據(jù)為基礎(chǔ),通過各類算法進行計算,進而起到預(yù)測效果,以此達到客戶高級別的數(shù)據(jù)分析要求。在大數(shù)據(jù)分析理論中,數(shù)據(jù)挖掘算法處于核心地位,但是由于挖掘算法復(fù)雜性較為明顯,且計算過程中涉及巨大的計算量,導(dǎo)致數(shù)據(jù)挖掘技術(shù)面臨研究挑戰(zhàn),在具體應(yīng)用中必須保證不同的算法對應(yīng)特定的數(shù)據(jù)類型及格式,進而達到深入計算的效果。
1.5 結(jié)果呈現(xiàn)
在大數(shù)據(jù)技術(shù)應(yīng)用中,注重處理結(jié)果的直觀化和可視化,通過數(shù)據(jù)的分析與處理,能夠清楚地了解海量數(shù)據(jù)的維度和指標,進而按照具體標準呈現(xiàn)復(fù)雜數(shù)據(jù)隱藏的關(guān)系。并且隨著技術(shù)的創(chuàng)新與發(fā)展,在數(shù)據(jù)輸出過程中出現(xiàn)了多屏聯(lián)動、主從屏和自動翻屏等功能,保證了輸出的清晰度,并在輸出中支持觸控交互操作,幫助客戶更好地了解數(shù)據(jù)的走勢與規(guī)律。
2 基于大數(shù)據(jù)的信息系統(tǒng)關(guān)鍵技術(shù)探討
2.1 分布式文件管理
在大數(shù)據(jù)技術(shù)應(yīng)用中,數(shù)據(jù)的存儲和管理發(fā)揮著基礎(chǔ)性作用,現(xiàn)階段基于大數(shù)據(jù)信息系統(tǒng)而設(shè)計研發(fā)的分布式文件管理技術(shù)具有明顯的實用性,廣泛應(yīng)用于各大互聯(lián)網(wǎng)企業(yè)之中,以Google創(chuàng)設(shè)的GFS管理技術(shù)為例,其具有成本低廉的優(yōu)勢,已成為使用量較大的服務(wù)器,為客戶建立了高效的文件管理系統(tǒng),并且具備較高的拓展性能。在這一系統(tǒng)中,很多數(shù)據(jù)存儲于不同的服務(wù)器之中,呈現(xiàn)分塊式的狀態(tài),客戶可利用追加更新和關(guān)聯(lián)連接的方式開展數(shù)據(jù)管理工作。
2.2 分布式數(shù)據(jù)處理
在大數(shù)據(jù)信息系統(tǒng)中,實現(xiàn)了對各類數(shù)據(jù)的封裝操作,基于此用戶可享受隨時、隨需且標準化的檢索與分析服務(wù)。例如在分布式數(shù)據(jù)處理系統(tǒng)中,主要采用流處理技術(shù)和批處理技術(shù),其中前者將大數(shù)據(jù)視作不間斷的流,對進入系統(tǒng)的數(shù)據(jù)流進行實時處理,并及時返回結(jié)果,進而提升了數(shù)據(jù)處理的及時性;而后者的核心則在于劃分數(shù)據(jù)的方式、分配數(shù)據(jù)的方式和處理數(shù)據(jù)的技術(shù),該技術(shù)先存儲需要處理的數(shù)據(jù),再根據(jù)特定的分割方法,將數(shù)據(jù)分割為多個數(shù)據(jù)塊,接下來將各個數(shù)據(jù)塊分給不同的處理器進行并行處理,進而降低了數(shù)據(jù)的關(guān)聯(lián)關(guān)系,使得數(shù)據(jù)具有極高的集群性和可調(diào)度性。
2.3 分布式數(shù)據(jù)庫
通常情況下,傳統(tǒng)數(shù)據(jù)庫以關(guān)系型為主,考慮到大數(shù)據(jù)具有體量巨大,種類繁多的特點,傳統(tǒng)類型的數(shù)據(jù)庫在數(shù)據(jù)處理時存在諸多弊端,并且大數(shù)據(jù)還具有價值密度低的特質(zhì),對數(shù)據(jù)庫本身提出了更高要求。因此在大數(shù)據(jù)處理中,必須建立新型的數(shù)據(jù)庫模式,其中分布式數(shù)據(jù)庫系統(tǒng)具有明顯的優(yōu)勢,該系統(tǒng)模型簡便,在數(shù)據(jù)管理中將數(shù)據(jù)視作字符串,并且在字符串解釋過程中采取間接手段,從而保證了數(shù)據(jù)的半結(jié)構(gòu)化特征,簡化了整個數(shù)據(jù)庫的運行程序,提高了數(shù)據(jù)處理效率。
3 結(jié)束語
綜上所述,大數(shù)據(jù)技術(shù)具有巨大的潛在價值,合理有效地開展大數(shù)據(jù)分析與處理工作,能夠幫助客戶了解數(shù)據(jù)背后的隱藏信息,進而制定精準且可行的決策,推動社會各領(lǐng)域的信息化發(fā)展。
參考文獻
[1]禹祿君.基于大數(shù)據(jù)的信息系統(tǒng)關(guān)鍵技術(shù)研究[J].湖南郵電職業(yè)技術(shù)學(xué)院學(xué)報,2015(03):40-42.
[2]王本勝,殷階,朱旭,等.指揮信息系統(tǒng)大數(shù)據(jù)技術(shù)發(fā)展趨勢[J].指揮信息系統(tǒng)與技術(shù),2014,5(03):12-16.
[3]盧川英.大數(shù)據(jù)環(huán)境下的信息系統(tǒng)安全保障技術(shù)[J].價值工程,2016,35(04):188-190.
作者單位
中國電子科技集團公司第二十八研究所 江蘇省南京市 210000