陳彥道 河北地質(zhì)大學 信息工程學院 吉林 白山 134300 申永康 河北地質(zhì)大學 信息工程學院 安徽 亳州 233600
Web的程序應用通常都是B/S模式,這種程序主要是利用應用程序,并對程序語言加以應用,這樣就會和編寫的數(shù)據(jù)存在相應的不同。Web應用程序非常獨特,主要是立足于Web之上,不是采用傳統(tǒng)的方法進行。這項應用能夠生成規(guī)模龐大的數(shù)據(jù),這些數(shù)據(jù)積累到一定的規(guī)模后就會引發(fā)相應的質(zhì)變,形成一種大數(shù)據(jù)。
大數(shù)據(jù)給系統(tǒng)帶來的挑戰(zhàn)主要分為三個方面。第一,存儲的規(guī)模十分龐大,一般情況下都會達到量級。第二,存儲的管理非常復雜,不僅包括結構化,相應的也包括非結構化,半結構化的數(shù)據(jù)也囊括其中,技術上很難達到統(tǒng)一,對體制無法高效的進行管控。第三,對數(shù)據(jù)服務具有較高的水平,服務種類也非常多。上層不同,就會對存儲系統(tǒng)的性能以及可靠性具有不同的要求。目前,大數(shù)據(jù)的規(guī)模不停在擴展,結構逐漸向著復雜化進展,讓這些指標全部放大,技術上存在一定的難度。
這些挑戰(zhàn)對存儲領域來說已經(jīng)是長期存在的問題。處于大數(shù)據(jù)背景之下,要想對這些數(shù)據(jù)全面解決,就需要讓這些問題的技術難度隨著量級成倍提高,讓存儲技術從質(zhì)上能夠有所改變。大數(shù)據(jù)背景下對數(shù)據(jù)進行存儲和管理,不僅需要對上層提供一個高效便捷的高效的數(shù)據(jù)訪問接口,將PB快速存儲起來。在指定的時間之內(nèi),完成數(shù)據(jù)的加載工作,并對數(shù)據(jù)做好讀取,提高數(shù)據(jù)的正確性,讓數(shù)據(jù)能夠具有一定的可用性。要想將以上要求全面完成,需要與管理技術進一步進行存儲,并進行研究。
1.高可用性
通過多個機器以及多個機制避免單點故障,對在線故障的節(jié)點數(shù)據(jù)需要重新進行建設,并讓其數(shù)據(jù)恢復,對不同粒度的數(shù)據(jù)遷移能夠支持,存儲一個備份,能夠保證各種異常,讓其處于正常服務的能力。
2.高性能
將內(nèi)存數(shù)據(jù)庫以及分布式數(shù)據(jù)庫有效組合在一起,讓大數(shù)據(jù)存儲系統(tǒng)的吞吐能力全面提高,讓系統(tǒng)的時間能夠全面響應。查詢以及寫入性的方式會讓集群規(guī)模大量擴展全面提升,讓存儲在應用過程中不會出現(xiàn)性能上的瓶頸。
3.可擴展性
使用分片的方式有效將數(shù)據(jù)拆分,對數(shù)據(jù)做好分散工作,然后讓其從實例上實施“負載分流”。利用數(shù)據(jù)分流內(nèi)存庫對系統(tǒng)的全局視圖全面存儲起來,保證系統(tǒng)在存儲中能夠高效運轉(zhuǎn)。
互聯(lián)網(wǎng)在還沒有出現(xiàn)之前,產(chǎn)生數(shù)據(jù)的方式主要是人機會話方式產(chǎn)生的,主要的數(shù)據(jù)以結構化數(shù)據(jù)為主。系統(tǒng)在應用過程中主要是利用傳統(tǒng)的方法對數(shù)據(jù)進行管理。系統(tǒng)的數(shù)據(jù)在增長過程中十分緩慢,系統(tǒng)相對來說月比較孤立。使用傳統(tǒng)模式下的數(shù)據(jù)庫,能夠滿足各個應用的開發(fā)。互聯(lián)網(wǎng)的不斷發(fā)展之下,數(shù)碼設備也全面展開應用。如今獲取數(shù)據(jù)的來源已經(jīng)不是人機會話,而是通過各種設備全面產(chǎn)生的。
為了讓Web能夠滿足大數(shù)據(jù)存儲的需求,就需要設計一種新的數(shù)據(jù)庫處理架構,主要架構可以分為兩類,一類是分布式數(shù)據(jù)庫引擎,另一類是分布式數(shù)據(jù)存儲節(jié)點兩個部分。分布式數(shù)據(jù)庫引擎主要還是對引擎進行處理過程中對文件進行擴展和處理,對連接池統(tǒng)一進行處理和管理,對驅(qū)動有效進行加載,做好事務處理,并做好緩存管理,對SQL解析活動有效進行優(yōu)化,將數(shù)據(jù)有效進行合并,通過邏輯對關系眾多的數(shù)據(jù)庫以及文件系統(tǒng)有效管理起來。分布式存儲節(jié)點會將數(shù)據(jù)重新進行加載并做好存儲工作,對數(shù)據(jù)做好查詢工作,提高數(shù)據(jù)的讀取能力。其他數(shù)據(jù)需要采取不同的方式對數(shù)據(jù)做好存儲和處理工作。對各類數(shù)據(jù)有效進行存儲并加以處理,對數(shù)據(jù)做好劃分工作,讓數(shù)據(jù)能夠存儲于不同的數(shù)據(jù)庫存儲節(jié)點之中,讓普通數(shù)據(jù)庫以及海量數(shù)據(jù)庫的壓力全面進行降低。對各個節(jié)點的計算資源有效進行計算,讓整個架構的性能能夠全面提高。
圖1 新型的分布式數(shù)據(jù)庫處理架構
在后臺存儲中,使用新型的數(shù)據(jù)庫結構,以Web中的大數(shù)據(jù)為應用基準,對分析類應用完成搜索工作,起到一定的支撐作用。運行環(huán)境主要是以低成本為主要基準點,不僅具有較高的性能,也局域高擴展性,給分析類應用能夠起到良好的作用,起到一定的支撐作用。為了讓存儲系統(tǒng)的架構性能全面提高,不僅需要考慮性能,還需要考慮成本和容量,使內(nèi)存儲庫和數(shù)據(jù)庫能夠有效進行混合組網(wǎng),圖2表示的就是混合組網(wǎng)的過程。利用數(shù)據(jù)同步總線對設定的數(shù)據(jù)進行存儲,讓分布式運算能夠滿足對數(shù)據(jù)較高的存取需求。
圖2 數(shù)據(jù)庫混合組網(wǎng)圖
數(shù)據(jù)在同步過程中,只要的方式有三種。第一,對內(nèi)存數(shù)據(jù)庫中的數(shù)據(jù)有效進行加載,并及時做好更新,系統(tǒng)在剛開始運轉(zhuǎn)的時候,內(nèi)存數(shù)據(jù)庫就需要按照相應的同步數(shù)據(jù)范圍完成業(yè)務數(shù)據(jù)的加載工作,讓數(shù)據(jù)能夠及時更新。第二,內(nèi)存數(shù)據(jù)庫向后的數(shù)據(jù)要保持相應的同步,如果內(nèi)存數(shù)據(jù)庫中存儲的數(shù)據(jù)發(fā)生相應變更時,一些新的數(shù)據(jù)就會變更到后臺的數(shù)據(jù)庫中實施固化存儲。第三,內(nèi)存數(shù)據(jù)庫之間最好能夠同步。多臺內(nèi)存數(shù)據(jù)庫有效進行負載均衡狀況時,,如果其中一臺的內(nèi)存數(shù)據(jù)庫存在相應的變化,對數(shù)據(jù)做好后臺的同步之后,還需要將數(shù)據(jù)向其他內(nèi)存庫有效進行同步。
大數(shù)據(jù)誕生之后,歷史迎來一次重大的轉(zhuǎn)型,技術已經(jīng)向著數(shù)據(jù)的領域進展。數(shù)據(jù)價值的不斷凸顯之下,信息的重要性全面展現(xiàn)出來,后期技術將會推動數(shù)據(jù)全面進步。未來大數(shù)據(jù)也將向著存儲和傳輸方向發(fā)展。對大數(shù)據(jù)充分進行挖掘和應用之后,會對企業(yè)的商業(yè)模式產(chǎn)生相應的影響。