黃澤 長沙市雅禮中學(xué)
隨著互聯(lián)網(wǎng)的普及和應(yīng)用,各種各樣的信息呈爆炸式的趨勢增長,如何對信息進(jìn)行有效的收集和管理,提高企業(yè)的信息利用率成為企業(yè)關(guān)注的重點(diǎn)問題?,F(xiàn)如今,越來越多的企業(yè)選擇建立企業(yè)競爭情報(bào)系統(tǒng)的方式收集自身所需的情報(bào)信息,因此對系統(tǒng)中的分布式WEB信息存儲技術(shù)提出了更高的要求。
在WEB信息的壓縮存儲中主要采用文本壓縮技術(shù)來實(shí)現(xiàn),這種技術(shù)能夠利用較少的比特或者字節(jié)還表示文本,從而減少在計(jì)算機(jī)中占用的存儲空間。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,信息量逐漸增加,有限的存儲空間無法滿足無限增長的信息,單方面依靠擴(kuò)大內(nèi)存也不是長久之計(jì),因此通過對文本的壓縮來實(shí)現(xiàn)減少占用空間的方式不失為一個(gè)行之有效的好辦法。同時(shí),利用此項(xiàng)技術(shù)還有利于減少系統(tǒng)輸入或者輸出管理的開銷以及縮短信息延遲。在利用文本壓縮技術(shù)時(shí),主要的時(shí)間花費(fèi)是在文本編碼和解碼上面,利用已經(jīng)壓縮文件的大小除以未被壓縮文件的大小則能夠得到該本文的壓縮率。
進(jìn)行存儲文本壓縮最大的挑戰(zhàn)就是信息存取的隨機(jī)性,若想在壓縮文本中查找某個(gè)單詞,通常需要將所需單詞的所有本文進(jìn)行解碼,可以將較大的文本分割成幾個(gè)小模塊,再逐一尋找。但是隨著模塊越小,壓縮率也就越低。因此,在選擇文本壓縮方式時(shí),既應(yīng)該考慮到空間的壓縮率,又要注重壓縮文檔的編碼以及解碼的速度,尤其是解碼的速度更為重要。例如,在企業(yè)的競爭情報(bào)系統(tǒng)中,將收集到的WEB信息進(jìn)行存儲之后,需要反復(fù)操作才能夠被讀出,影響了企業(yè)工作效率。
在現(xiàn)實(shí)網(wǎng)絡(luò)環(huán)境中,同樣的WEB信息將以不同版本的方式存在,例如新浪網(wǎng)的主頁,地址都是新浪網(wǎng)站但每天的內(nèi)容都在更新。還有些網(wǎng)站中的信息被以不同人的需要拷貝走進(jìn)行更改,因此形成了多種多樣的版本。因此,如何對這些大同小異的WEB信息進(jìn)行管理成為分布式WEN信息存儲系統(tǒng)中的主要難題。
分布式共享存儲系統(tǒng)是分布式海量存儲系統(tǒng)中的副本管理系統(tǒng),它能夠根據(jù)文件受歡迎的程度進(jìn)行動態(tài)的管理,當(dāng)其所管理的某個(gè)文件的點(diǎn)擊頻率超過設(shè)置的閾值時(shí),則會自動生成副本,從而實(shí)現(xiàn)降低訪問延遲以及平衡負(fù)載的目的。
負(fù)載平衡能夠有效提升分布式WEB信息系統(tǒng)的整體性能,平衡策略設(shè)計(jì)的質(zhì)量與分布式存儲系統(tǒng)的存儲均衡程度息息相關(guān)。設(shè)計(jì)質(zhì)量較差的策略算法會給系統(tǒng)的負(fù)載帶來較大不利影響,甚至?xí)?dǎo)致負(fù)載失衡。在選擇均衡算法的同時(shí),應(yīng)根據(jù)算法本身的適用環(huán)境和特點(diǎn),可以結(jié)合不同算法和技術(shù)來使用。
2.1.1 輪詢法
每個(gè)部分在任務(wù)隊(duì)列節(jié)點(diǎn)中都具有相同的地位,輪詢法能夠?qū)崿F(xiàn)將這些組成部分進(jìn)行順序輪轉(zhuǎn)選擇。在負(fù)載平衡的條件下,算法將會將新的請求輪流傳達(dá)給節(jié)點(diǎn)隊(duì)列中的一點(diǎn)節(jié)點(diǎn),然后進(jìn)行順序輪轉(zhuǎn),如此反復(fù)下去,使得每個(gè)節(jié)點(diǎn)在輪轉(zhuǎn)中都具有相同的地位參與其中。在輪詢法中,假如有N個(gè)節(jié)點(diǎn),則每個(gè)節(jié)點(diǎn)被選中的幾率為N/1,因此較為容易算出節(jié)點(diǎn)的負(fù)載分布情況,也是操作性最強(qiáng)的一種方法。
2.1.2 最少連接法
在最少連接法中,主要是記錄一些目前來看最活躍的連接,將新的請求傳達(dá)給目前含有最少連接數(shù)的節(jié)點(diǎn)。這種算法主要應(yīng)用于TCP連接,但是受網(wǎng)絡(luò)延遲等因素的制約,將會產(chǎn)生當(dāng)前連接數(shù)與實(shí)際反映應(yīng)用負(fù)載不相符的情況,這主要是由于沒有注重節(jié)點(diǎn)性能和請求強(qiáng)度的原因?qū)е拢沟闷胶庳?fù)載的效果明顯降低。為了避免這個(gè)弊端的出現(xiàn),應(yīng)設(shè)置最大的連接數(shù)上限。
2.1.3 散列法
散列法是指按照一定的規(guī)則,利用單向性的函數(shù)將節(jié)點(diǎn)分配出去,但是在WEB信息量較大的情況下時(shí),承擔(dān)計(jì)算任務(wù)的每個(gè)Hash函數(shù)值的負(fù)擔(dān)都比較重。
在負(fù)載平衡的WEB數(shù)據(jù)分布式模型體系中包含多個(gè)存儲節(jié)點(diǎn)主機(jī),每個(gè)主機(jī)都代表著網(wǎng)絡(luò)“家族”中的一員,并且以單獨(dú)的形式存在,具有單獨(dú)的存儲空間,能夠動態(tài)的加入或者退出。在此模型中,能夠在網(wǎng)絡(luò)中各存儲節(jié)點(diǎn)的空間磁盤中,建立一個(gè)大型的存儲池,使得用戶可以在全局空間內(nèi)自由搜索自己所需的WEB信息,從而真正實(shí)現(xiàn)存儲空間的分布式共享。同時(shí),利用管理服務(wù)器能夠?qū)Ω鱾€(gè)存儲節(jié)點(diǎn)進(jìn)行動態(tài)的信息表管理,當(dāng)用戶發(fā)送存儲請求時(shí),管理服務(wù)器中采用的負(fù)載平衡算法將能夠?qū)崿F(xiàn)各節(jié)點(diǎn)之間的動態(tài)分配。
雖然管理服務(wù)器中的功能多樣,但是不能夠?qū)θ魏蜽EB信息進(jìn)行保存,所有的WEB信息都放置在存儲節(jié)點(diǎn)當(dāng)中,并且另外配備一個(gè)備份服務(wù)器可以避免管理服務(wù)器突然失效產(chǎn)生不良后果。此外,所有的存儲節(jié)點(diǎn)信息都在節(jié)點(diǎn)信息保存表中進(jìn)行保存,其中包括節(jié)點(diǎn)目前的IP地質(zhì)、節(jié)點(diǎn)狀態(tài)、節(jié)點(diǎn)剩余空間等等。信息表的存在主要是為了能夠維護(hù)一個(gè)完整的系統(tǒng)拓?fù)浣Y(jié)構(gòu),根據(jù)節(jié)點(diǎn)的加入和推出不停的更新節(jié)點(diǎn)狀態(tài),從而保障其同步和有效。當(dāng)對企業(yè)競爭情報(bào)系統(tǒng)中的其他模塊發(fā)送存儲請求時(shí),應(yīng)在存儲節(jié)點(diǎn)信息表中進(jìn)行查詢,獲得適應(yīng)的節(jié)點(diǎn)集,再利用輪詢法進(jìn)行計(jì)算,從而獲得最適宜的存儲節(jié)點(diǎn)進(jìn)行存儲后更新WEB信息表。
綜上所述,隨著互聯(lián)網(wǎng)中涵蓋的商業(yè)信息量的增加,部分企業(yè)為了能夠在激烈的市場競爭中搶得先機(jī),都紛紛加強(qiáng)與互聯(lián)網(wǎng)的融合,建立企業(yè)競爭情報(bào)系統(tǒng)。本文從分布式WEB信息存儲關(guān)鍵技術(shù)方面對其進(jìn)行分析,構(gòu)建企業(yè)競爭情報(bào)系統(tǒng)應(yīng)用模型,為企業(yè)提供更多可拓展、高效率的海量存儲服務(wù)。
[1]許崇龍.分布式WEB信息存儲關(guān)鍵技術(shù)研究[D].哈爾濱工業(yè)大學(xué),2012.
[2]李韌.基于Hadoop的大規(guī)模語義Web本體數(shù)據(jù)查詢與推理關(guān)鍵技術(shù)研究[D].重慶大學(xué),2013.