沈夏添 呂麗華
摘要:隨著云計(jì)算技術(shù)的飛速發(fā)展,海量信息分散存儲(chǔ)在“云存儲(chǔ)”結(jié)構(gòu)中,由于數(shù)據(jù)源異構(gòu),在對(duì)其進(jìn)行信息檢索時(shí)易出現(xiàn)數(shù)據(jù)丟失或迷路現(xiàn)象。本文通過(guò)對(duì)異構(gòu)數(shù)據(jù)進(jìn)行分析,構(gòu)建了一種云計(jì)算環(huán)境下的異構(gòu)數(shù)據(jù)集成模型,共包括五個(gè)功能模塊:云結(jié)構(gòu)下的數(shù)據(jù)采集與分析接口、數(shù)據(jù)組織任務(wù)調(diào)度引擎、異構(gòu)數(shù)據(jù)集成接口、云存儲(chǔ)和資源管理和安全管理模塊。本文還介紹了異構(gòu)數(shù)據(jù)資源統(tǒng)一檢索定位的常用技術(shù),如并行檢索技術(shù)、服務(wù)器集群檢索技術(shù)、網(wǎng)頁(yè)的深層挖掘技術(shù)和檢索數(shù)據(jù)庫(kù)共享技術(shù)。
關(guān)鍵詞:異構(gòu)數(shù)據(jù);信息檢索定位;搜索引擎;云計(jì)算
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)08-0210-02
1引言
云計(jì)算是近年來(lái)提出的一種計(jì)算模型,到目前為止,業(yè)界對(duì)云計(jì)算還沒有統(tǒng)一的定義,常見的定義主要包括以下幾種:
(1)維基百科的定義:云計(jì)算以服務(wù)的形式提供給用戶IT相關(guān)的能力,允許用戶在不了解服務(wù)所需的技術(shù)、無(wú)需知識(shí)背景和設(shè)備操作能力的基礎(chǔ)上,通過(guò)互聯(lián)網(wǎng)獲取所需的服務(wù)。
(2)中國(guó)云計(jì)算網(wǎng)的定義:云計(jì)算是分布式計(jì)算、并行計(jì)算和網(wǎng)格計(jì)算的發(fā)展,換句話說(shuō),云計(jì)算是這些科學(xué)概念的商業(yè)化實(shí)現(xiàn)。
(3)文獻(xiàn)通過(guò)綜合分析,提出如下定義:云是一個(gè)資源池,包含了大量可用的虛擬資源,如硬件、I/O服務(wù)、開發(fā)平臺(tái)等。這些虛擬資源可根據(jù)不同的負(fù)載進(jìn)行動(dòng)態(tài)重新配置,以達(dá)到更高的資源利用率。
根據(jù)以上定義,云計(jì)算技術(shù)的基本特征可以歸納如下:
(1)云計(jì)算系統(tǒng)提供服務(wù):服務(wù)機(jī)制對(duì)用戶是透明的,用戶不需要了解云計(jì)算的具體機(jī)制,就可以獲得所需的服務(wù)。
(2)通過(guò)冗余方式實(shí)現(xiàn)可靠性:云計(jì)算系統(tǒng)通過(guò)數(shù)據(jù)冗余和分布式存儲(chǔ)方式確保數(shù)據(jù)的可靠性,而不需要特定的硬件組件的支持。
(3)高可用性:云計(jì)算可以提供高質(zhì)量的服務(wù),具有集成的海量存儲(chǔ)和高性能的計(jì)算能力。云計(jì)算系統(tǒng)能夠在不影響系統(tǒng)運(yùn)行的情況下,自動(dòng)檢測(cè)故障節(jié)點(diǎn)并將其刪除。
(4)高層次編程模型:云計(jì)算系統(tǒng)提供高層次的編程模型,用戶僅通過(guò)簡(jiǎn)單的學(xué)習(xí)即可編寫云計(jì)算程序,并在“云”系統(tǒng)上運(yùn)行,以滿足他們的需求,目前的云計(jì)算系統(tǒng)主要使用Map-Reduce模型。
(5)價(jià)格低廉:由大量商用計(jì)算機(jī)組成集群的成本遠(yuǎn)低于性能相同的超級(jí)計(jì)算機(jī)的成本。
(6)服務(wù)多樣性:用戶可以根據(jù)自己需求選擇不同級(jí)別的服務(wù),為其支付不同的費(fèi)用。
2云計(jì)算對(duì)信息檢索的影響
傳統(tǒng)的搜索引擎存在著存儲(chǔ)容量不足、計(jì)算能力有限、硬盤損壞或老化、服務(wù)器昂貴、維護(hù)成本高、故障檢測(cè)速度慢等問題,“云計(jì)算”的出現(xiàn)改變了互聯(lián)網(wǎng)的服務(wù)模式,也給信息檢索技術(shù)帶來(lái)了巨大的變化。云計(jì)算平臺(tái)將單個(gè)服務(wù)器連接成一個(gè)“云”,每個(gè)服務(wù)器成為云中的一個(gè)節(jié)點(diǎn),從而形成了檢索成本低、檢索速度快、信息資源利用率高的信息檢索系統(tǒng)。
云計(jì)算技術(shù)對(duì)信息檢索的影響主要表現(xiàn)在檢索模式和存儲(chǔ)模式兩個(gè)方面:
2.1檢索模式的改變
傳統(tǒng)的信息檢索主要采用集中式串行檢索模式,檢索系統(tǒng)覆蓋范圍有限,檢索效率較低,且一旦在某些環(huán)節(jié)出現(xiàn)差錯(cuò)就會(huì)影響整個(gè)檢索過(guò)程和結(jié)果。云計(jì)算技術(shù)應(yīng)用了分布式并行計(jì)算模式,連接了地理分散、完成特定功能的子系統(tǒng),系統(tǒng)中的每個(gè)節(jié)點(diǎn)都可以是并行計(jì)算機(jī)。信息檢索由多臺(tái)服務(wù)器并行執(zhí)行,大大提高了運(yùn)算速度,可以處理海量數(shù)據(jù)。
2.2存儲(chǔ)模式的改變
云計(jì)算應(yīng)用“云存儲(chǔ)”模式,收集網(wǎng)絡(luò)中的存儲(chǔ)設(shè)備并通過(guò)應(yīng)用軟件協(xié)同工作,提供了數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問功能。云存儲(chǔ)由存儲(chǔ)層、管理層、應(yīng)用接口層和訪問層構(gòu)成,將以往孤立的存儲(chǔ)方式轉(zhuǎn)變?yōu)榧泄芾?。以前的?shù)據(jù)主要存儲(chǔ)在信息提供者的服務(wù)器上,而云存儲(chǔ)提供商則向集中數(shù)據(jù)中心的用戶提供數(shù)據(jù)存儲(chǔ)服務(wù),用戶可以通過(guò)終端軟件訪問存儲(chǔ)數(shù)據(jù)。由于數(shù)據(jù)源異構(gòu),在對(duì)其進(jìn)行信息檢索時(shí)易出現(xiàn)數(shù)據(jù)丟失或迷路現(xiàn)象。針對(duì)這一問題,本文構(gòu)建了云計(jì)算環(huán)境下異構(gòu)數(shù)據(jù)集成模型,提出了異構(gòu)數(shù)據(jù)資源統(tǒng)一檢索常用技術(shù)。
3云計(jì)算環(huán)境下的異構(gòu)數(shù)據(jù)集模型
本文提出的異構(gòu)數(shù)據(jù)集成模型可以智能地集成各種關(guān)系型和非關(guān)系型異構(gòu)數(shù)據(jù),滿足海量數(shù)據(jù)并發(fā)性高、工作量大、速度快等查詢要求。該系統(tǒng)模型共包括五個(gè)功能模塊,邏輯框架如圖1所示。
3.1云結(jié)構(gòu)下的數(shù)據(jù)采集與分析接口
云結(jié)構(gòu)下的數(shù)據(jù)采集和分析接口是該模型統(tǒng)一的內(nèi)部調(diào)用接口,實(shí)現(xiàn)用戶查詢請(qǐng)求分析和結(jié)果顯示。對(duì)于分布式數(shù)據(jù)庫(kù)、傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)和NoSQL數(shù)據(jù)庫(kù)系統(tǒng),該模型支持統(tǒng)一定制查詢請(qǐng)求以滿足不同類型的數(shù)據(jù)查詢需求。用戶可以通過(guò)自定義shell接口和標(biāo)準(zhǔn)SQL接口提交用戶數(shù)據(jù)來(lái)訪問并分析請(qǐng)求。通過(guò)統(tǒng)一接口調(diào)用請(qǐng)求描述、解釋命令、重寫查詢請(qǐng)求、調(diào)用下層異構(gòu)數(shù)據(jù)集成接口,最后返回用戶所需的數(shù)據(jù)并得到分析結(jié)果。這一模塊的關(guān)鍵技術(shù)是云計(jì)算環(huán)境下的自定義數(shù)據(jù)采集與分析命令解釋模塊。
3.2數(shù)據(jù)組織任務(wù)調(diào)度引擎
該模塊實(shí)現(xiàn)上層數(shù)據(jù)獲取與用戶查詢?nèi)蝿?wù)相關(guān)的邏輯操作,分為查詢?nèi)蝿?wù)管理和查詢用戶管理兩個(gè)模塊,該引擎調(diào)用下層異構(gòu)數(shù)據(jù)集成接口,對(duì)子任務(wù)集進(jìn)行數(shù)據(jù)查詢和處理,通過(guò)數(shù)據(jù)采集、分析控制用戶管理模塊、分析任務(wù)管理模塊監(jiān)控用戶的運(yùn)行和狀態(tài)管理模塊。
3.3異構(gòu)數(shù)據(jù)集成接口
該模塊用于異構(gòu)數(shù)據(jù)集成,是整個(gè)模型的核心,它將上層分布式數(shù)據(jù)采集和分析執(zhí)行引擎的原子操作(包括數(shù)據(jù)源、操作和訪問數(shù)據(jù))執(zhí)行到存儲(chǔ)引擎服務(wù)接口,并整合各種異構(gòu)數(shù)據(jù)語(yǔ)義映射到異構(gòu)數(shù)據(jù),將結(jié)果返回上層。該模塊的關(guān)鍵技術(shù)是異構(gòu)數(shù)據(jù)的語(yǔ)義映射集成、異構(gòu)數(shù)據(jù)格式的集成和異構(gòu)數(shù)據(jù)的結(jié)果集成。
3.4云存儲(chǔ)和資源管理
該模塊是整個(gè)模型的基礎(chǔ),為云計(jì)算環(huán)境下的數(shù)據(jù)和資源管理技術(shù)提供靈活的數(shù)據(jù)存儲(chǔ)、管理和系統(tǒng)資源配置技術(shù),具有高并發(fā)性、高工作負(fù)載、海量數(shù)據(jù)存儲(chǔ)和查詢功能。它為分布式數(shù)據(jù)庫(kù)、傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)和NoSQL數(shù)據(jù)庫(kù)系統(tǒng)提供了統(tǒng)一的服務(wù)管理和數(shù)據(jù)訪問功能,實(shí)現(xiàn)對(duì)其他層的調(diào)用。這模塊的關(guān)鍵技術(shù)是云計(jì)算的元數(shù)據(jù)和服務(wù)管理技術(shù)。
3.5安全管理模塊
這一模塊確保系統(tǒng)的安全服務(wù),實(shí)現(xiàn)授權(quán)管理、用戶認(rèn)證和日志管理等功能。
4基于異構(gòu)數(shù)據(jù)資源的統(tǒng)一檢索常用技術(shù)
異構(gòu)數(shù)據(jù)資源通過(guò)整合數(shù)據(jù)庫(kù)通用過(guò)程提供用戶檢索結(jié)果,降低檢索時(shí)間,提高檢索精度。常用的統(tǒng)一檢索定位技術(shù)包括:
4.1并行檢索技術(shù)
并行檢索應(yīng)考慮多用戶檢索和用戶同時(shí)檢索幾個(gè)數(shù)據(jù)庫(kù)的場(chǎng)景,一般應(yīng)用多線程技術(shù):
(1)對(duì)于多用戶檢索場(chǎng)景,根據(jù)請(qǐng)求的任務(wù)分配機(jī)制,將每個(gè)用戶的檢索任務(wù)分配給一個(gè)線程,該任務(wù)分配機(jī)制需考慮服務(wù)器的負(fù)載平衡,控制線程數(shù)量。
(2)對(duì)于用戶檢索多個(gè)數(shù)據(jù)庫(kù)場(chǎng)景,根據(jù)檢索數(shù)據(jù)庫(kù)分配機(jī)制,為用戶每次檢索請(qǐng)求創(chuàng)建一個(gè)數(shù)據(jù)庫(kù)檢索線程,提高檢索速度。
4.2服務(wù)器集群檢索技術(shù)
由于網(wǎng)絡(luò)帶寬所限,某些用戶訪問Web的檢索請(qǐng)求可能失敗,會(huì)給服務(wù)器帶來(lái)很大壓力。因此,應(yīng)用多服務(wù)器共享服務(wù)器的壓力,可提高檢索并發(fā)性。在服務(wù)器集群檢索技術(shù)的設(shè)計(jì)中需要考慮兩點(diǎn):
(1)檢索服務(wù)器的分布:檢索服務(wù)器可以分布在任何連接到互聯(lián)網(wǎng)的服務(wù)器上,并公布配置參數(shù)和數(shù)據(jù)庫(kù)配置文件??紤]到數(shù)據(jù)統(tǒng)一性和維護(hù)方便性,所有檢索服務(wù)器的臨時(shí)數(shù)據(jù)庫(kù)最終指向同一數(shù)據(jù)庫(kù)服務(wù)器。
(2)提交Web服務(wù)器的用戶檢索請(qǐng)求:系統(tǒng)中有很多服務(wù)器,為了更好地利用系統(tǒng)資源,Web將檢索請(qǐng)求提交給占用最少的服務(wù)器,以實(shí)現(xiàn)工作負(fù)載平衡。
基于這些考慮設(shè)計(jì)的服務(wù)器集群檢索技術(shù)能夠極大地提高系統(tǒng)穩(wěn)定性,特別是隨著檢索服務(wù)器的增加,并發(fā)性大大增加,服務(wù)器集群檢索優(yōu)勢(shì)更為顯著。
4.3網(wǎng)頁(yè)的深層挖掘技術(shù)
網(wǎng)頁(yè)的深層挖掘技術(shù)是從海量數(shù)據(jù)中挖掘隱藏的規(guī)則內(nèi)容,解決數(shù)據(jù)應(yīng)用中的質(zhì)量問題。異構(gòu)數(shù)據(jù)資源統(tǒng)一檢索系統(tǒng)是從不同的Web服務(wù)器獲取相應(yīng)的數(shù)據(jù),主要通過(guò)模擬操作實(shí)現(xiàn)日志檢索和數(shù)據(jù)提取。該系統(tǒng)主要通過(guò)微軟IE內(nèi)核庫(kù)文件實(shí)現(xiàn),包括WebBrowser對(duì)象、MSHTML對(duì)象和配置文件。
4.4檢索數(shù)據(jù)庫(kù)共享技術(shù)
資源共享可以最大限度地減少管理員的重復(fù)性和難度。一方面,由于不同的組織可能具有相同的資源,在定義數(shù)據(jù)庫(kù)模板之后,其他用戶可以使用此模板添加相同的數(shù)據(jù)庫(kù),這樣管理員只需導(dǎo)人一個(gè)SDA文件,不需要太多的重復(fù)工作。另一方面,數(shù)據(jù)庫(kù)配置的配置是專業(yè)的,系統(tǒng)管理員很難配置數(shù)據(jù)庫(kù)。因此簡(jiǎn)化管理員的工作成為一項(xiàng)緊迫的任務(wù)。一般來(lái)說(shuō),配置手動(dòng)定義一個(gè)數(shù)據(jù)庫(kù),生成為SDA文件URS管理平臺(tái),發(fā)布在公共網(wǎng)站上下載或直接發(fā)送給用戶,讓用戶添加數(shù)據(jù)操作更加準(zhǔn)確、簡(jiǎn)單。
5結(jié)論
本文討論了云計(jì)算環(huán)境下的信息檢索定位技術(shù),具有許多明顯的優(yōu)點(diǎn):
(1)成本低:基于云計(jì)算的信息檢索將數(shù)據(jù)管理任務(wù)分配給特定的數(shù)據(jù)管理中心,減少了硬件和軟件的輸入,從而降低了成本。
(2)可用資源多:不同的檢索提供者將其數(shù)據(jù)源放入統(tǒng)一的云數(shù)據(jù)中心,通過(guò)協(xié)作和資源共享,使可用資源成倍增加。
(3)檢索速度快:云計(jì)算應(yīng)用分布并行技術(shù),解決了CPU速度受限問題,顯著提高了信息檢索速度。
然而,該技術(shù)在云安全、知識(shí)產(chǎn)權(quán)、用戶認(rèn)證和可靠性等關(guān)鍵問題上還存在一些亟待解決的問題。