摘 要:作為一種先進計算方式的云計算,不斷在信息服務與科研領域升溫,并且影響了存儲和運算大規(guī)模數(shù)據(jù)。本文主要分析了云存儲技術,非結構化數(shù)據(jù)存儲方式,面向云存儲的非結構化數(shù)據(jù)存儲系統(tǒng)架構,面向云存儲的非結構化數(shù)據(jù)存儲結構設計和實現(xiàn)。
關鍵詞:云存儲;非結構化數(shù)據(jù);存儲
中圖分類號:TP333
1 云存儲技術
云存儲主要對云計算中存儲海量數(shù)據(jù)問題積極解決,它不但能夠提供專業(yè)化的存儲解決方案,還可以單獨發(fā)布存儲業(yè)務。云存儲是一種基于Web的獨特模式的應用模型,其特點為成本低廉、可擴展等,屬于一種服務觀念,并不是真實的存儲,也不是具體的設備。利用連接互聯(lián)網(wǎng),用戶通過云存儲享有共享訪問存儲池的功能。用戶并不需要對系統(tǒng)內容進行了解,也不需要知道怎樣進行存儲,對于用戶來說全部設備都是透明的,在任何時間和空間一個合法授權的用戶都能夠利用網(wǎng)絡連接云存儲,使用云服務。隨著迅速發(fā)展的現(xiàn)代化網(wǎng)絡信息技術,數(shù)據(jù)信息數(shù)量不斷增長了指數(shù)級,在形成大規(guī)模數(shù)據(jù)的時代,用戶產生了存儲數(shù)據(jù)的更高要求,在云環(huán)境下對用戶存儲數(shù)據(jù)需求進行了解決:(1)高效存儲與訪問海量數(shù)據(jù)需求,例如新浪微博,每個月出現(xiàn)的用戶動態(tài)高達幾億條,在關系數(shù)據(jù)庫中,利用SQL查詢上億條數(shù)據(jù)記錄表,效率很低,在大數(shù)據(jù)時代下,迫切需要解決高效存儲與訪問大量數(shù)據(jù)的問題;(2)高并發(fā)讀寫數(shù)據(jù)庫需求,互聯(lián)網(wǎng)的積極發(fā)展,Web重視將用戶作為中心,需要按照用戶個性化信息產生動態(tài)頁面和信息,例如當前的微博,這一應用形成了極高的并發(fā)訪問數(shù)據(jù)負載要求,通常形成了每秒上萬次的讀寫需求;(3)高可用性和高擴展性的數(shù)據(jù)庫要求,在基于Web的架構中,很難水平擴展數(shù)據(jù)庫,當迅速增加用戶量和訪問量時,數(shù)據(jù)庫服務器不能簡單的利用硬件與服務節(jié)點擴展性能與均衡負載,針對一些要求提供不間斷服務的網(wǎng)站來講,升級形成的維護停機與遷移數(shù)據(jù),將減少用戶體驗;(4)支持處理非結構數(shù)據(jù)要求,關系型數(shù)據(jù)庫顯著約束了處理數(shù)據(jù)和數(shù)據(jù)類型,不能達到將來用戶對各種數(shù)據(jù)類型的要求。
2 非結構化數(shù)據(jù)存儲方式
2.1 文件系統(tǒng)存儲方式。利用文件系統(tǒng)在文件服務器中直接存儲。很多不存儲在應用系統(tǒng)的非結構化數(shù)據(jù),例如研發(fā)的應用系統(tǒng)軟件、信息管理部門利用的軟件工具、文檔開發(fā)過程等,一般都是直接將新聞中心材料存儲至文件系統(tǒng)中。數(shù)據(jù)資源利用文化模式存儲在計算機目標下,僅是利用人工簡單分類文件夾,所以通常都是無序的數(shù)據(jù)存儲。對數(shù)據(jù)需求訪問時,通過程序直接利用存儲文件路徑對文件進行讀取。計算機初期主要工作是計算,對存儲數(shù)據(jù)幾乎無要求,文件系統(tǒng)能夠符合管理數(shù)據(jù)要求。
2.2 數(shù)據(jù)庫存儲方式。自從產生關系數(shù)據(jù)庫之后,迅速發(fā)展功能,不斷完善。當前很多應用系統(tǒng)中的非結構化數(shù)據(jù),都是采取二進制格式在關系數(shù)據(jù)庫字段中存儲。用戶向數(shù)據(jù)庫系統(tǒng)直接發(fā)出請求操作數(shù)據(jù),不需要應用程序。在BLOB字段中存儲的特點是可以迅速訪問文件,因為沒有關系到其他應用系統(tǒng),所以便于管理與維護;但是在BLOB字段中存儲也有不足:第一是非結構化數(shù)據(jù)文件龐大,隨著不斷增加的數(shù)據(jù)量,會快速膨脹關系數(shù)據(jù)庫的存儲量,對數(shù)據(jù)庫性能造成了影響,進一步降低了整個應用系統(tǒng)的功能;第二是各個應用系統(tǒng)之間彼此獨立,沒有共享有關資料。
2.3 數(shù)據(jù)庫和文件系統(tǒng)綜合的存儲方式。該方式是把非結構化數(shù)據(jù)通過文件途徑在計算機中存儲,在數(shù)據(jù)庫中放置存儲數(shù)據(jù)文件的路徑。在這一方式下非結構化數(shù)據(jù)源文件在文件系統(tǒng)中存放,方便瀏覽、傳輸數(shù)據(jù)。而非結構化數(shù)據(jù)文件的特點則是通過數(shù)據(jù)庫中的數(shù)據(jù)表字段實施表達,便于檢索、分類數(shù)據(jù),更好的對數(shù)據(jù)文件進行存儲。數(shù)據(jù)庫和文件系統(tǒng)互相結合的典型應用模式作為內容管理系統(tǒng)。內容比數(shù)據(jù)更加廣泛,突出了對象,可以是任意結構的數(shù)據(jù)類型,不但包括了結構化數(shù)據(jù)、非結構化信息,還關系到知識??梢哉J為,相較于數(shù)據(jù)、文檔來說內容擁有更加全面的含義,聚合了全部結構化數(shù)據(jù)、非結構化數(shù)據(jù)信息。
3 面向云存儲的非結構化數(shù)據(jù)存儲系統(tǒng)架構
3.1 存儲服務層次模型。通過上述研究奠定了非結構化數(shù)據(jù)存儲研究的基礎,還需要設計一套存儲架構方案。本文采用分層的網(wǎng)絡結構管理非結構化數(shù)據(jù),從上到下劃分為5個功能層,依次為應用層、會話層、數(shù)據(jù)層、路由層以及物理層。
上述5個層次中,應用層提出了非結構化數(shù)據(jù)運用接口,通過存儲數(shù)據(jù)服務商研發(fā)的各種存儲應用對這些接口實行展示,例如各類在線存儲、網(wǎng)絡磁盤、托管視頻數(shù)據(jù)以及下載軟件服務等。這時,用戶所面對的云存儲空間特點為虛擬的、無限擴展容量,用戶對數(shù)據(jù)進行提交時不需要考慮存儲空間以及數(shù)據(jù)的物理位置。
會話層具體對用戶管理、分配權限空間以及安全存儲策略積極負責,該層按照不同的安全級別,制定不同的安全方案保證數(shù)據(jù)的安全性。
數(shù)據(jù)層的功能是對非結構化數(shù)據(jù)和元數(shù)據(jù)統(tǒng)一管理。非結構化數(shù)據(jù)體積為大小不等的MB級到GB級,而元數(shù)據(jù)信息總長度不會超過1KB,二者形成了懸殊的數(shù)據(jù)量。因此存儲BLOB數(shù)據(jù)與元數(shù)據(jù)對網(wǎng)絡帶寬和計算資源形成了不同需求,兩類數(shù)據(jù)應當采取不同的存儲對策。
路由層主要對云端節(jié)點、訪問接口與后臺存儲設備制方案的互通性以及計算存儲路徑積極負責。由于云存儲系統(tǒng)是一個擁有多個子網(wǎng)的存儲自治體系,主要采用內部網(wǎng)關協(xié)議作為路由協(xié)議,在存儲系統(tǒng)的底層應用路由協(xié)議,充分保證了非結構化數(shù)據(jù)存儲系統(tǒng)的可擴展性與極高的存儲效率。
物理層主要是為非結構化數(shù)據(jù)存儲提供所需空間以及計算資源,并且對存儲節(jié)點的物理通路進行維護。對于本系統(tǒng)來說,可以對目前通信子網(wǎng)設備充分應用,而不需要過多投資硬件。
3.2 非結構化數(shù)據(jù)分離式存儲通路。當前,一些關系數(shù)據(jù)庫都可以有效支持BLOB數(shù)據(jù),通過RDBMS群集成為非結構化數(shù)據(jù)的物理存儲底層。用戶利用Web應用程序或者客戶端將數(shù)據(jù)提供給存儲系統(tǒng),利用BLOB存取接口把數(shù)據(jù)存儲到關系表中。具體表現(xiàn)出下列優(yōu)點:1BLOB數(shù)據(jù)通過二進制流形式在關系表中直接進行存儲,而不需要利用管理文件系統(tǒng)方式。2分離式管理兩類數(shù)據(jù),有利于優(yōu)化配置存儲資源。可以分配較大容量、較強計算能力的資源給BLOB數(shù)據(jù)存儲區(qū),而把較高相應效率的資源分配給Metadatr存儲區(qū)。3分離式的存儲通路實現(xiàn)了存取BLOB數(shù)據(jù)和元數(shù)據(jù)的功能分離,合理分配了網(wǎng)絡寬帶,可以對由于高并發(fā)訪問對系統(tǒng)造成的壓力有效分擔。
4 面向云存儲的非結構化數(shù)據(jù)存儲結構設計和實現(xiàn)
4.1 存儲結構設計。存儲結構設計包括兩方面內容:其一是設計管理元數(shù)據(jù)區(qū)結構;其二是設計BLOB數(shù)據(jù)存儲區(qū)結構,具體內容為設計應用存儲BLOB數(shù)據(jù)和元數(shù)據(jù)的二維表。其中:全部BLOB數(shù)據(jù)序號由MA統(tǒng)一進行管理,而其他服務器則在對詳細元數(shù)據(jù)信息分散且不重復的進行存儲。BLOB存儲節(jié)點中擁有比較簡單的數(shù)據(jù)結構,具體包括了一個image類型的資源,具體作用是對BLOB數(shù)據(jù)流進行存儲。
4.2 分布式存數(shù)算法實現(xiàn)。存取算法非結構化數(shù)據(jù)涉及兩方面內容:第一,在RDBMS下存入、刪除、讀取BLOB數(shù)據(jù)方式與文件系統(tǒng)存在區(qū)別;第二,多用戶并發(fā)式訪問擁有極高頻度,需要著重分析均衡負載、容錯性以及魯棒性。
5 結束語
由于人工處理較大程度上限制了數(shù)據(jù)結構化,增加非結構化數(shù)據(jù)的速度遠比結構化數(shù)據(jù)大。怎樣將非結構化數(shù)據(jù)存儲在應用系統(tǒng)中,面向云存儲的非結構化數(shù)據(jù)存儲成為系統(tǒng)設計人員研究的重要課題。云存儲很好發(fā)展與延伸了網(wǎng)格、并行與分布計算等大量技術,實現(xiàn)了完全虛擬化的存儲,提供了更加巨大的共享存儲性能。
參考文獻:
[1]于戈,王志剛.云計算環(huán)境下的大規(guī)模圖數(shù)據(jù)處理技術[J].計算機學報,2011(06).
[2]謝華成,劉道華.基于文件分割的二進制大對象存取算法[J].計算機應用,2011(10).
作者簡介:于成龍,男,遼寧鐵嶺人,本科在讀,研究方向:信息管理與信息系統(tǒng);王梓涵,女,遼寧撫順人,本科在讀,研究方向:信息管理與信息系統(tǒng)。
作者單位:大連外國語大學 軟件學院,遼寧大連 116044