李燕梅
(滇西科技師范學院,云南臨滄,677000)
在信息化爆炸的社會,從個人到組織對于存儲空間的需求以及要求缺口得到進一步的擴大。對于維護大規(guī)模數據的成本也隨之水漲船高,信息增長的速度日益加快,而本地存儲卻沒有太大進步,因此,新的數據存儲備份方案應運而生,其成本低廉,部署方便,不僅能夠保證數據的安全性還能保證數據的私密性。目前的存儲系統(tǒng)向著網絡化、分布式方向發(fā)展,并最終催生了云存儲服務。云存儲改變了人們對存儲的原有認知,這使得人們不必再單獨組建和管理儲存系統(tǒng),而是存儲在專業(yè)的供應商上面,通過支付一定的費用既可享受存儲管理服務。云存儲不需要進購存儲設備也無須專人對其進行管理,因而大大降低了存儲的成本,總而言之,云存儲以低廉的價格販售高效的存儲服務,從而得到用戶的肯定擴大了應用范圍。
文件的存儲格式有許多種,這取決于不同企業(yè)的應用。要管理這些種類繁多、數量規(guī)模大、消耗存儲空間大的混合數據,要以熟練掌握數據的特征及分部狀況為前提,才能夠提高管理者對數據進行處理的流暢度。
混合云存儲能夠容納海量數據,因此,存儲量大是云存儲的一大特征。傳統(tǒng)的文件大小通常來說不超過5000KB。而云存儲容量具有足夠的擴展能力,往往能夠達到PB級別。在大規(guī)模類型不同的文件占存中能夠體現(xiàn)出來。文檔一般從幾M到幾G不等,占存如此大的文件通常需要依據其文件特征來決定轉存對象。
混合云存儲可支持的文件存儲種類較為多樣。這是基于云存儲所服務的客戶具有多樣性所決定的??蛻艋谄渌幮袠I(yè)的差異性以及其個人特性,賦予了存儲文件類型的多樣性。盡管文件數據來自同一個公司,但是其所顯示的數據信息也有所差異,由此,可看出云存儲可支持類型眾多的文件存儲。目前為止使用較為頻繁的文件類型有文本、表格、圖片、動畫、音視頻、壓縮文件、網頁、地理位置信息等。
混合云存儲文件價值密度低?;诨旌显苾Υ嫖募挠脩舳鄻有砸约捌涓咝У拇鎯Ψ账峁┑暮A繑祿鎯θ萘?,進一步削弱了文件的價值。海量的數據決定了用戶對數據的訪問頻率是不會太高的,因此多數數據對于用戶來說其價值比較低。監(jiān)控的視頻文件就是一個典型的例子。監(jiān)控視頻連續(xù)不斷的運作,其所產生的視頻文件中較為有價值的信息只是幾個時刻,然而卻無法將無用的部分刪除,因此監(jiān)控視頻文件中無效的數據占比極大。根據GEO的統(tǒng)計分析所得結論,往往TB容量級別的海量數據中,有價值的數據通常不到一個GB。
傳統(tǒng)的分類緩存算法是基于用戶的時間及使用頻次進行計算的,其通過機器的學習的人工智能算法的重點是在文件屬性上,缺少了對用戶的整體關注。另一方面文件的訪問、轉儲行為都是基于用戶的喜好、目的、特點而產生的,與混合云存儲的用戶建立友好的關系通過網絡社交渠道共享文件是極為正常的,因此混合云存儲系統(tǒng)中活躍用戶所提供的共享文件通常是熱點數據,有鑒于此,根據用戶的網絡關系對文件價值進行評估具有重要意義。
人是社會的主體,若將人抽象的看作是網絡社會的節(jié)點,這個網絡節(jié)點則可以互換消息,節(jié)點與節(jié)點之間可以描述為承擔著交流的通道。在這樣的模型中,節(jié)點不僅僅是信息發(fā)送也是信息接收的主動者。研究發(fā)現(xiàn),網絡拓撲結構與傳輸機構是傳播信息數據的主力。 可以得知,網絡社會中的信息傳播簡易度則隨著各節(jié)點的連接程度的提高而提高。廣為流傳的信息主要基于初始化連接程度高且社會影響力大的節(jié)點。各種信息通過網絡節(jié)點得到散布。然而,信息數據該以緩存的權重來判定數據信息進行緩存或者轉存。其中緩存權重的大小是依據文件被訪問的頻次所決定的,因為文件的訪問頻次能夠體現(xiàn)出發(fā)布者在網絡社會中的重要位置。
云存儲的受眾廣,用戶之間存在網絡節(jié)點關系。通過使用SNA的方法,可以在特定的云存儲系統(tǒng)中劃分出活躍度高、影響輻射力廣的用戶。這樣的用戶所傳輸、共享的文件成為局部熱點文件的可能性極大,更應該歸納到私有云存儲當中,以提高他人訪問的便捷度。然而至今為止,現(xiàn)有的算法尚未體現(xiàn)出這個元素。
(1) 首先要了解用戶節(jié)點基于網絡的相對位置。因此需要進一步簡化云存儲用戶的網絡關系。假設用戶A與用戶B、C、D、E、F、G之間是朋友關系。那么就可以用圖1來表示。
圖1 用戶網絡關系簡化圖
節(jié)點A 的相對網絡中心度可以用Crd(x) 來表示:
n表示網絡大小的取值范圍,也可以說是網絡用戶的總數量。上圖所顯示的網絡存儲中總共有7個節(jié)點,那么n就取值為7,其中,節(jié)點A的度為6,因此可得出Crd(X)=6/(7-1)=1的結果。
(2)將用戶所能訪問的數據的集合以O示之,這里的O也可以看作是云存儲中的文件數據量,文件對象為d,那么文件對象的取值范圍是d∈O,文件的大小以Sd來表示,而C是緩存數據的大小,用戶所發(fā)送的請求隊列則可以通過集合R={R1.R2...R3}來表示,那么緩存文件則可以用S={S0,S1..Sm}的集合來表示,其中S0表示的是初始化緩存的大小,則對于每一個Sk(k=0,1,...m )可以得出如下式子:
Ek的取值意義是本地緩存中即將要被刪除的文件的大小,則其Ek∈Sk-1。需要通過用戶的讀取模型來制定轉儲替換的策略。
主要過程:
①初始化預測模型:基于用戶的網絡位置,得出用戶網絡中心Crd。
②建立預測模型:通過網絡中心度來評價用戶所發(fā)出的請求,并以Q來代表所構建的預測集合。Q包含了活躍用戶發(fā)送與接收數據的hash。
③尋找合適的對象進行替換:利用傳統(tǒng)的算法尋找有替換價值的對象。
④如果Rk?Q,則表示沒有緩存可以被替換,那么就重復步驟三,直到在有充足的空間容納新請求的同時尋找到符合的替換對象。
⑤替換緩存。
(1)初始化預測模型
預測模型的建立就是構建一個包含用戶節(jié)點相對中心的映射的過程。
輸入:SN網絡
輸出:用戶i相對中心度
用1,2....n標記每一個用戶節(jié)點
計算每一個用戶節(jié)點的度和相對網絡中心度Crd(x),并建立一個映射表(? nodenumber, Crd(x ))
返回
(2)預測
預測對象集合涵蓋了所預測范圍內的對象以及具有確定性的閥值。進行預測第一步要做的是跟進用戶節(jié)點所傳輸的信息與所設定信息的最小關聯(lián)度的比較研究,其結果若顯示其在Q的取值未超出預定值的前提下超過了最小關聯(lián)度,那么就將Q寫入新的數據請求hash。若前提條件不成立則需要遵循所制定的策略來清空Q值,最后將Q寫入新的請求對象hash,并調整Cmin的取值為請求信息所屬用戶的關聯(lián)度。
輸入:用戶Crd映射表,用戶請求隊列,閥值,設置Cmin=0
輸出:預測對象集合Q
(3)PRE-SN初始化和得到預測集合Q之后,利用預測集合和請求序列構造出一個新的緩存S。
輸出S可以作為本地私有云儲存,也可以結合其他算法使用,用作傳統(tǒng)緩存算法優(yōu)化的一個策略。
圖2 預測對象集合Q
圖3 預測緩存S
結果顯示基于網絡關系的對象預測算法比之現(xiàn)行的緩存算法轉存策略有較好的效果。從另一方面看,基于用戶的網絡關系,以所劃分出用戶網絡關系度高的用戶所發(fā)布的內容作為預測對象,大大提高了轉存算法的效率。
本文鑒于現(xiàn)行算法中忽略了社會網絡關系因此設計了新型轉儲算法,并建立了具有社會化特征的緩存行為模型,并創(chuàng)建對象預測集,大大提升了緩存命中率。該算法體現(xiàn)出了適用性廣的優(yōu)勢—一般系統(tǒng)都可以使用,其兼容性較強。需要注意的是,PRE-SN的算法優(yōu)點有所局限,其局限性體現(xiàn)在其會隨著系統(tǒng)緩存能力的增大而逐漸減小。因為系統(tǒng)緩存增大就意味著允許各種請求,那么用戶網絡關系的預測效用就會減弱,這時候應用PRE-SN算法并沒有很明顯的提升轉儲性能的作用。
* [1]申彤.云存儲網關的分布式緩存系統(tǒng)的研究與實現(xiàn)[D].國防科學技術大學,2012.
* [2]程勇.云存儲中密文訪問控制機制性能優(yōu)化關鍵技術研究[D].國防科學技術大學,2013.
* [3]李苗在.混合“云存儲”的前景展望[J].電腦知識與技術.2011(29).
* [4]夏桂丹.云存儲網關協(xié)議適配器和緩存管理的研究[D].華中科技大學,2013.
* [5]趙鐵柱,鄧見光.面向大規(guī)模數據備份的云存儲網關研究[J],計算機光盤.2013.12