亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于云計(jì)算的信息檢索定位研究

        2018-05-07 05:45:32沈夏添呂麗華
        電腦知識(shí)與技術(shù) 2018年8期
        關(guān)鍵詞:搜索引擎云計(jì)算

        沈夏添 呂麗華

        摘要:隨著云計(jì)算技術(shù)的飛速發(fā)展,海量信息分散存儲(chǔ)在“云存儲(chǔ)”結(jié)構(gòu)中,由于數(shù)據(jù)源異構(gòu),在對(duì)其進(jìn)行信息檢索時(shí)易出現(xiàn)數(shù)據(jù)丟失或迷路現(xiàn)象。本文通過(guò)對(duì)異構(gòu)數(shù)據(jù)進(jìn)行分析,構(gòu)建了一種云計(jì)算環(huán)境下的異構(gòu)數(shù)據(jù)集成模型,共包括五個(gè)功能模塊:云結(jié)構(gòu)下的數(shù)據(jù)采集與分析接口、數(shù)據(jù)組織任務(wù)調(diào)度引擎、異構(gòu)數(shù)據(jù)集成接口、云存儲(chǔ)和資源管理和安全管理模塊。本文還介紹了異構(gòu)數(shù)據(jù)資源統(tǒng)一檢索定位的常用技術(shù),如并行檢索技術(shù)、服務(wù)器集群檢索技術(shù)、網(wǎng)頁(yè)的深層挖掘技術(shù)和檢索數(shù)據(jù)庫(kù)共享技術(shù)。

        關(guān)鍵詞:異構(gòu)數(shù)據(jù);信息檢索定位;搜索引擎;云計(jì)算

        中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)08-0210-02

        1引言

        云計(jì)算是近年來(lái)提出的一種計(jì)算模型,到目前為止,業(yè)界對(duì)云計(jì)算還沒有統(tǒng)一的定義,常見的定義主要包括以下幾種:

        (1)維基百科的定義:云計(jì)算以服務(wù)的形式提供給用戶IT相關(guān)的能力,允許用戶在不了解服務(wù)所需的技術(shù)、無(wú)需知識(shí)背景和設(shè)備操作能力的基礎(chǔ)上,通過(guò)互聯(lián)網(wǎng)獲取所需的服務(wù)。

        (2)中國(guó)云計(jì)算網(wǎng)的定義:云計(jì)算是分布式計(jì)算、并行計(jì)算和網(wǎng)格計(jì)算的發(fā)展,換句話說(shuō),云計(jì)算是這些科學(xué)概念的商業(yè)化實(shí)現(xiàn)。

        (3)文獻(xiàn)通過(guò)綜合分析,提出如下定義:云是一個(gè)資源池,包含了大量可用的虛擬資源,如硬件、I/O服務(wù)、開發(fā)平臺(tái)等。這些虛擬資源可根據(jù)不同的負(fù)載進(jìn)行動(dòng)態(tài)重新配置,以達(dá)到更高的資源利用率。

        根據(jù)以上定義,云計(jì)算技術(shù)的基本特征可以歸納如下:

        (1)云計(jì)算系統(tǒng)提供服務(wù):服務(wù)機(jī)制對(duì)用戶是透明的,用戶不需要了解云計(jì)算的具體機(jī)制,就可以獲得所需的服務(wù)。

        (2)通過(guò)冗余方式實(shí)現(xiàn)可靠性:云計(jì)算系統(tǒng)通過(guò)數(shù)據(jù)冗余和分布式存儲(chǔ)方式確保數(shù)據(jù)的可靠性,而不需要特定的硬件組件的支持。

        (3)高可用性:云計(jì)算可以提供高質(zhì)量的服務(wù),具有集成的海量存儲(chǔ)和高性能的計(jì)算能力。云計(jì)算系統(tǒng)能夠在不影響系統(tǒng)運(yùn)行的情況下,自動(dòng)檢測(cè)故障節(jié)點(diǎn)并將其刪除。

        (4)高層次編程模型:云計(jì)算系統(tǒng)提供高層次的編程模型,用戶僅通過(guò)簡(jiǎn)單的學(xué)習(xí)即可編寫云計(jì)算程序,并在“云”系統(tǒng)上運(yùn)行,以滿足他們的需求,目前的云計(jì)算系統(tǒng)主要使用Map-Reduce模型。

        (5)價(jià)格低廉:由大量商用計(jì)算機(jī)組成集群的成本遠(yuǎn)低于性能相同的超級(jí)計(jì)算機(jī)的成本。

        (6)服務(wù)多樣性:用戶可以根據(jù)自己需求選擇不同級(jí)別的服務(wù),為其支付不同的費(fèi)用。

        2云計(jì)算對(duì)信息檢索的影響

        傳統(tǒng)的搜索引擎存在著存儲(chǔ)容量不足、計(jì)算能力有限、硬盤損壞或老化、服務(wù)器昂貴、維護(hù)成本高、故障檢測(cè)速度慢等問題,“云計(jì)算”的出現(xiàn)改變了互聯(lián)網(wǎng)的服務(wù)模式,也給信息檢索技術(shù)帶來(lái)了巨大的變化。云計(jì)算平臺(tái)將單個(gè)服務(wù)器連接成一個(gè)“云”,每個(gè)服務(wù)器成為云中的一個(gè)節(jié)點(diǎn),從而形成了檢索成本低、檢索速度快、信息資源利用率高的信息檢索系統(tǒng)。

        云計(jì)算技術(shù)對(duì)信息檢索的影響主要表現(xiàn)在檢索模式和存儲(chǔ)模式兩個(gè)方面:

        2.1檢索模式的改變

        傳統(tǒng)的信息檢索主要采用集中式串行檢索模式,檢索系統(tǒng)覆蓋范圍有限,檢索效率較低,且一旦在某些環(huán)節(jié)出現(xiàn)差錯(cuò)就會(huì)影響整個(gè)檢索過(guò)程和結(jié)果。云計(jì)算技術(shù)應(yīng)用了分布式并行計(jì)算模式,連接了地理分散、完成特定功能的子系統(tǒng),系統(tǒng)中的每個(gè)節(jié)點(diǎn)都可以是并行計(jì)算機(jī)。信息檢索由多臺(tái)服務(wù)器并行執(zhí)行,大大提高了運(yùn)算速度,可以處理海量數(shù)據(jù)。

        2.2存儲(chǔ)模式的改變

        云計(jì)算應(yīng)用“云存儲(chǔ)”模式,收集網(wǎng)絡(luò)中的存儲(chǔ)設(shè)備并通過(guò)應(yīng)用軟件協(xié)同工作,提供了數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問功能。云存儲(chǔ)由存儲(chǔ)層、管理層、應(yīng)用接口層和訪問層構(gòu)成,將以往孤立的存儲(chǔ)方式轉(zhuǎn)變?yōu)榧泄芾?。以前的?shù)據(jù)主要存儲(chǔ)在信息提供者的服務(wù)器上,而云存儲(chǔ)提供商則向集中數(shù)據(jù)中心的用戶提供數(shù)據(jù)存儲(chǔ)服務(wù),用戶可以通過(guò)終端軟件訪問存儲(chǔ)數(shù)據(jù)。由于數(shù)據(jù)源異構(gòu),在對(duì)其進(jìn)行信息檢索時(shí)易出現(xiàn)數(shù)據(jù)丟失或迷路現(xiàn)象。針對(duì)這一問題,本文構(gòu)建了云計(jì)算環(huán)境下異構(gòu)數(shù)據(jù)集成模型,提出了異構(gòu)數(shù)據(jù)資源統(tǒng)一檢索常用技術(shù)。

        3云計(jì)算環(huán)境下的異構(gòu)數(shù)據(jù)集模型

        本文提出的異構(gòu)數(shù)據(jù)集成模型可以智能地集成各種關(guān)系型和非關(guān)系型異構(gòu)數(shù)據(jù),滿足海量數(shù)據(jù)并發(fā)性高、工作量大、速度快等查詢要求。該系統(tǒng)模型共包括五個(gè)功能模塊,邏輯框架如圖1所示。

        3.1云結(jié)構(gòu)下的數(shù)據(jù)采集與分析接口

        云結(jié)構(gòu)下的數(shù)據(jù)采集和分析接口是該模型統(tǒng)一的內(nèi)部調(diào)用接口,實(shí)現(xiàn)用戶查詢請(qǐng)求分析和結(jié)果顯示。對(duì)于分布式數(shù)據(jù)庫(kù)、傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)和NoSQL數(shù)據(jù)庫(kù)系統(tǒng),該模型支持統(tǒng)一定制查詢請(qǐng)求以滿足不同類型的數(shù)據(jù)查詢需求。用戶可以通過(guò)自定義shell接口和標(biāo)準(zhǔn)SQL接口提交用戶數(shù)據(jù)來(lái)訪問并分析請(qǐng)求。通過(guò)統(tǒng)一接口調(diào)用請(qǐng)求描述、解釋命令、重寫查詢請(qǐng)求、調(diào)用下層異構(gòu)數(shù)據(jù)集成接口,最后返回用戶所需的數(shù)據(jù)并得到分析結(jié)果。這一模塊的關(guān)鍵技術(shù)是云計(jì)算環(huán)境下的自定義數(shù)據(jù)采集與分析命令解釋模塊。

        3.2數(shù)據(jù)組織任務(wù)調(diào)度引擎

        該模塊實(shí)現(xiàn)上層數(shù)據(jù)獲取與用戶查詢?nèi)蝿?wù)相關(guān)的邏輯操作,分為查詢?nèi)蝿?wù)管理和查詢用戶管理兩個(gè)模塊,該引擎調(diào)用下層異構(gòu)數(shù)據(jù)集成接口,對(duì)子任務(wù)集進(jìn)行數(shù)據(jù)查詢和處理,通過(guò)數(shù)據(jù)采集、分析控制用戶管理模塊、分析任務(wù)管理模塊監(jiān)控用戶的運(yùn)行和狀態(tài)管理模塊。

        3.3異構(gòu)數(shù)據(jù)集成接口

        該模塊用于異構(gòu)數(shù)據(jù)集成,是整個(gè)模型的核心,它將上層分布式數(shù)據(jù)采集和分析執(zhí)行引擎的原子操作(包括數(shù)據(jù)源、操作和訪問數(shù)據(jù))執(zhí)行到存儲(chǔ)引擎服務(wù)接口,并整合各種異構(gòu)數(shù)據(jù)語(yǔ)義映射到異構(gòu)數(shù)據(jù),將結(jié)果返回上層。該模塊的關(guān)鍵技術(shù)是異構(gòu)數(shù)據(jù)的語(yǔ)義映射集成、異構(gòu)數(shù)據(jù)格式的集成和異構(gòu)數(shù)據(jù)的結(jié)果集成。

        3.4云存儲(chǔ)和資源管理

        該模塊是整個(gè)模型的基礎(chǔ),為云計(jì)算環(huán)境下的數(shù)據(jù)和資源管理技術(shù)提供靈活的數(shù)據(jù)存儲(chǔ)、管理和系統(tǒng)資源配置技術(shù),具有高并發(fā)性、高工作負(fù)載、海量數(shù)據(jù)存儲(chǔ)和查詢功能。它為分布式數(shù)據(jù)庫(kù)、傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)和NoSQL數(shù)據(jù)庫(kù)系統(tǒng)提供了統(tǒng)一的服務(wù)管理和數(shù)據(jù)訪問功能,實(shí)現(xiàn)對(duì)其他層的調(diào)用。這模塊的關(guān)鍵技術(shù)是云計(jì)算的元數(shù)據(jù)和服務(wù)管理技術(shù)。

        3.5安全管理模塊

        這一模塊確保系統(tǒng)的安全服務(wù),實(shí)現(xiàn)授權(quán)管理、用戶認(rèn)證和日志管理等功能。

        4基于異構(gòu)數(shù)據(jù)資源的統(tǒng)一檢索常用技術(shù)

        異構(gòu)數(shù)據(jù)資源通過(guò)整合數(shù)據(jù)庫(kù)通用過(guò)程提供用戶檢索結(jié)果,降低檢索時(shí)間,提高檢索精度。常用的統(tǒng)一檢索定位技術(shù)包括:

        4.1并行檢索技術(shù)

        并行檢索應(yīng)考慮多用戶檢索和用戶同時(shí)檢索幾個(gè)數(shù)據(jù)庫(kù)的場(chǎng)景,一般應(yīng)用多線程技術(shù):

        (1)對(duì)于多用戶檢索場(chǎng)景,根據(jù)請(qǐng)求的任務(wù)分配機(jī)制,將每個(gè)用戶的檢索任務(wù)分配給一個(gè)線程,該任務(wù)分配機(jī)制需考慮服務(wù)器的負(fù)載平衡,控制線程數(shù)量。

        (2)對(duì)于用戶檢索多個(gè)數(shù)據(jù)庫(kù)場(chǎng)景,根據(jù)檢索數(shù)據(jù)庫(kù)分配機(jī)制,為用戶每次檢索請(qǐng)求創(chuàng)建一個(gè)數(shù)據(jù)庫(kù)檢索線程,提高檢索速度。

        4.2服務(wù)器集群檢索技術(shù)

        由于網(wǎng)絡(luò)帶寬所限,某些用戶訪問Web的檢索請(qǐng)求可能失敗,會(huì)給服務(wù)器帶來(lái)很大壓力。因此,應(yīng)用多服務(wù)器共享服務(wù)器的壓力,可提高檢索并發(fā)性。在服務(wù)器集群檢索技術(shù)的設(shè)計(jì)中需要考慮兩點(diǎn):

        (1)檢索服務(wù)器的分布:檢索服務(wù)器可以分布在任何連接到互聯(lián)網(wǎng)的服務(wù)器上,并公布配置參數(shù)和數(shù)據(jù)庫(kù)配置文件??紤]到數(shù)據(jù)統(tǒng)一性和維護(hù)方便性,所有檢索服務(wù)器的臨時(shí)數(shù)據(jù)庫(kù)最終指向同一數(shù)據(jù)庫(kù)服務(wù)器。

        (2)提交Web服務(wù)器的用戶檢索請(qǐng)求:系統(tǒng)中有很多服務(wù)器,為了更好地利用系統(tǒng)資源,Web將檢索請(qǐng)求提交給占用最少的服務(wù)器,以實(shí)現(xiàn)工作負(fù)載平衡。

        基于這些考慮設(shè)計(jì)的服務(wù)器集群檢索技術(shù)能夠極大地提高系統(tǒng)穩(wěn)定性,特別是隨著檢索服務(wù)器的增加,并發(fā)性大大增加,服務(wù)器集群檢索優(yōu)勢(shì)更為顯著。

        4.3網(wǎng)頁(yè)的深層挖掘技術(shù)

        網(wǎng)頁(yè)的深層挖掘技術(shù)是從海量數(shù)據(jù)中挖掘隱藏的規(guī)則內(nèi)容,解決數(shù)據(jù)應(yīng)用中的質(zhì)量問題。異構(gòu)數(shù)據(jù)資源統(tǒng)一檢索系統(tǒng)是從不同的Web服務(wù)器獲取相應(yīng)的數(shù)據(jù),主要通過(guò)模擬操作實(shí)現(xiàn)日志檢索和數(shù)據(jù)提取。該系統(tǒng)主要通過(guò)微軟IE內(nèi)核庫(kù)文件實(shí)現(xiàn),包括WebBrowser對(duì)象、MSHTML對(duì)象和配置文件。

        4.4檢索數(shù)據(jù)庫(kù)共享技術(shù)

        資源共享可以最大限度地減少管理員的重復(fù)性和難度。一方面,由于不同的組織可能具有相同的資源,在定義數(shù)據(jù)庫(kù)模板之后,其他用戶可以使用此模板添加相同的數(shù)據(jù)庫(kù),這樣管理員只需導(dǎo)人一個(gè)SDA文件,不需要太多的重復(fù)工作。另一方面,數(shù)據(jù)庫(kù)配置的配置是專業(yè)的,系統(tǒng)管理員很難配置數(shù)據(jù)庫(kù)。因此簡(jiǎn)化管理員的工作成為一項(xiàng)緊迫的任務(wù)。一般來(lái)說(shuō),配置手動(dòng)定義一個(gè)數(shù)據(jù)庫(kù),生成為SDA文件URS管理平臺(tái),發(fā)布在公共網(wǎng)站上下載或直接發(fā)送給用戶,讓用戶添加數(shù)據(jù)操作更加準(zhǔn)確、簡(jiǎn)單。

        5結(jié)論

        本文討論了云計(jì)算環(huán)境下的信息檢索定位技術(shù),具有許多明顯的優(yōu)點(diǎn):

        (1)成本低:基于云計(jì)算的信息檢索將數(shù)據(jù)管理任務(wù)分配給特定的數(shù)據(jù)管理中心,減少了硬件和軟件的輸入,從而降低了成本。

        (2)可用資源多:不同的檢索提供者將其數(shù)據(jù)源放入統(tǒng)一的云數(shù)據(jù)中心,通過(guò)協(xié)作和資源共享,使可用資源成倍增加。

        (3)檢索速度快:云計(jì)算應(yīng)用分布并行技術(shù),解決了CPU速度受限問題,顯著提高了信息檢索速度。

        然而,該技術(shù)在云安全、知識(shí)產(chǎn)權(quán)、用戶認(rèn)證和可靠性等關(guān)鍵問題上還存在一些亟待解決的問題。

        猜你喜歡
        搜索引擎云計(jì)算
        志愿服務(wù)與“互聯(lián)網(wǎng)+”結(jié)合模式探究
        云計(jì)算與虛擬化
        基于云計(jì)算的移動(dòng)學(xué)習(xí)平臺(tái)的設(shè)計(jì)
        實(shí)驗(yàn)云:理論教學(xué)與實(shí)驗(yàn)教學(xué)深度融合的助推器
        云計(jì)算中的存儲(chǔ)虛擬化技術(shù)應(yīng)用
        科技視界(2016年20期)2016-09-29 13:34:06
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        Nutch搜索引擎在網(wǎng)絡(luò)輿情管控中的應(yīng)用
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        廣告主與搜索引擎的雙向博弈分析
        知識(shí)漫畫
        国产亚洲一区二区毛片| 日韩亚洲中字无码一区二区三区| 麻豆AⅤ精品无码一区二区| 美女福利视频网址导航| 综合色免费在线精品视频| 女女互揉吃奶揉到高潮视频 | 最新国产日韩AV线| 国产一区二区三区高清视频| 国产精品视频白浆免费视频| 亚洲av无码专区在线观看下载| 99精品视频在线观看免费| www.日本一区| 日本高清一区二区不卡| 成视频年人黄网站免费视频| 99久久免费看少妇高潮a片特黄| 99综合精品久久| 一级内射免费观看视频| 人妻精品久久久久中文字幕69| 乱子伦视频在线看| 东京热无码人妻中文字幕| 亚洲自拍偷拍一区二区三区| 在线看片免费人成视频电影| 久久国产成人精品国产成人亚洲| 久草视频华人在线观看| 偷拍色图一区二区三区| 亚洲av日韩av天堂一区二区三区 | 国产亚洲精品日韩综合网| 亚洲一区二区三区在线高清中文 | 在线天堂中文字幕| 日本成人在线不卡一区二区三区| 91九色成人蝌蚪首页| 中文成人无字幕乱码精品区 | 丝袜美腿久久亚洲一区| 亚洲性无码av中文字幕| 亚洲日韩v无码中文字幕| 国产永久免费高清在线观看视频| 日韩美女av一区二区| 国产精品18久久久| 女性自慰网站免费看ww| 伊人久久大香线蕉av色婷婷| 中文字幕亚洲综合久久菠萝蜜|