黃曉清
廈門(mén)華天涉外職業(yè)技術(shù)學(xué)院
基于云計(jì)算分析大數(shù)據(jù)信息檢索技術(shù)
黃曉清
廈門(mén)華天涉外職業(yè)技術(shù)學(xué)院
信息技術(shù)的發(fā)展使得信息化時(shí)代逐漸到來(lái),信息數(shù)量呈現(xiàn)出了一種爆炸性增長(zhǎng)的趨勢(shì),而云計(jì)算以及云存儲(chǔ)的出現(xiàn),也在一定程度上加快了大數(shù)據(jù)的產(chǎn)生,對(duì)于信息檢索的效率也提出了較高的要求。本文結(jié)合云計(jì)算以及大數(shù)據(jù)的有關(guān)概念,對(duì)大數(shù)據(jù)信息檢索技術(shù)進(jìn)行了分析和討論。
云計(jì)算;大數(shù)據(jù);信息檢索技術(shù)
計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的普及,帶動(dòng)了云服務(wù)的增長(zhǎng),也使得越來(lái)越多的單位和個(gè)人開(kāi)始將業(yè)務(wù)轉(zhuǎn)移到了在線應(yīng)用方面,大量的在線業(yè)務(wù)產(chǎn)生了海量的數(shù)據(jù)信息,也就是所謂的大數(shù)據(jù)。在云計(jì)算背景下,如何對(duì)大數(shù)據(jù)進(jìn)行有效處理,從中快速檢索出需要的信息,是需要相關(guān)技術(shù)人員深入研究的課題。
云計(jì)算是一種基于互聯(lián)網(wǎng)的全新計(jì)算方式,可以通過(guò)將共享的信息資源和軟硬件資源提供給相應(yīng)的計(jì)算機(jī)和設(shè)備,使得有限的網(wǎng)絡(luò)資源發(fā)揮出最大效益。
大數(shù)據(jù)也稱(chēng)巨量數(shù)據(jù),指數(shù)據(jù)量極其巨大,無(wú)法通過(guò)現(xiàn)有的主流數(shù)據(jù)處理軟件,在合理時(shí)間內(nèi)進(jìn)行采集、管理、處理的資訊,是繼移動(dòng)計(jì)算、物聯(lián)網(wǎng)、云計(jì)算等信息技術(shù)之后的又一個(gè)新興事物。當(dāng)數(shù)據(jù)容量在10TB-1PB之間時(shí),就可以稱(chēng)之為“大數(shù)據(jù)”。
無(wú)論是云計(jì)算還是大數(shù)據(jù),都是現(xiàn)代信息技術(shù)發(fā)展到一定階段的產(chǎn)物,尤其是大數(shù)據(jù)的出現(xiàn),使得數(shù)據(jù)需要通過(guò)TB、PB、ZB等進(jìn)行描述,在豐富了數(shù)據(jù)信息的同時(shí),對(duì)信息的檢索技術(shù)也提出了更高的要求,在云計(jì)算環(huán)境下,想要對(duì)大數(shù)據(jù)進(jìn)行有效處理,從海量信息中提取出日常所需,就必須加強(qiáng)對(duì)信息檢索技術(shù)的深入研究[1]。
2.1 WEB信息收集與檢索
基本上,信息的總量與其價(jià)值密度成反比關(guān)系,在數(shù)以?xún)|記的信息頁(yè)面中,能夠滿足日常所需的信息也許只有數(shù)頁(yè)甚至。云計(jì)算本身通過(guò)對(duì)軟硬件資源的共享,具有極強(qiáng)的計(jì)算能力,能夠?qū)π畔⑦M(jìn)行快速處理,不過(guò),面對(duì)大數(shù)據(jù),又如何利用云計(jì)算對(duì)其中有價(jià)值的信息進(jìn)行挖掘,是需要解決的關(guān)鍵性問(wèn)題。就目前而言,云計(jì)算中的大數(shù)據(jù)信息檢索過(guò)程可以分為兩個(gè)階段,一是檢索,二是網(wǎng)頁(yè)收錄。
在信息檢索云中,所有的服務(wù)器都能夠?qū)?shù)據(jù)信息進(jìn)行相應(yīng)的排序和分析,從中計(jì)算出相關(guān)度較高的服務(wù)器,并將其排在最前面。與此同時(shí),可以針對(duì)存儲(chǔ)服務(wù)器上存在的信息進(jìn)行檢索,檢索方式包括了深度優(yōu)先和廣度優(yōu)先兩種,檢索到的最終結(jié)果可以存儲(chǔ)在Index Repository中,網(wǎng)頁(yè)則會(huì)直接收錄在索引中。結(jié)合索引詞庫(kù)以及網(wǎng)頁(yè)本身的內(nèi)容,在索引中進(jìn)行倒排序,對(duì)于存儲(chǔ)在同一個(gè)索引中國(guó)的網(wǎng)頁(yè)標(biāo)題以及連接數(shù)據(jù),可以采用廣度優(yōu)先的方式進(jìn)行檢索,而對(duì)于存儲(chǔ)在另一個(gè)優(yōu)先級(jí)較高的索引中的網(wǎng)頁(yè)內(nèi)容,則可以用深度優(yōu)先的方式檢索。存在于檢索云服務(wù)器中的數(shù)據(jù)都是經(jīng)過(guò)了分析和整理后的元數(shù)據(jù),會(huì)按照相關(guān)度的高低進(jìn)行排列,然后結(jié)合存儲(chǔ)服務(wù)器,展開(kāi)分布式檢索,檢索的方式不變,檢索結(jié)果同樣存儲(chǔ)在Index Repository中。網(wǎng)頁(yè)收錄過(guò)程存儲(chǔ)于搜索引擎的索引中。當(dāng)用戶發(fā)出搜索請(qǐng)求時(shí),實(shí)際上是在Index Repository中進(jìn)行信息的檢索,頁(yè)面內(nèi)容依照Page Rank的方式編制出倒序檢索列表,放置于存儲(chǔ)器中。頁(yè)面標(biāo)題與連接數(shù)據(jù)處于同一索引,以廣度優(yōu)先進(jìn)行搜索,頁(yè)面內(nèi)容處于另一個(gè)索引中,以深度優(yōu)先進(jìn)行搜索[2]。
無(wú)論是在網(wǎng)頁(yè)的收錄過(guò)程中,還是用戶發(fā)起信息檢索請(qǐng)求的過(guò)程中,都會(huì)涉及相關(guān)度的計(jì)算。就目前而言,許多用戶在進(jìn)行信息檢索時(shí),都會(huì)遇到結(jié)果顯示緩慢的情況,之所以如此,主要是由搜索引擎中的緩存區(qū)域都是事先安排好的,盡管其并不知道用戶可能會(huì)搜索哪一個(gè)關(guān)鍵詞,但是其建立了一個(gè)常用關(guān)鍵詞的詞庫(kù),在為用戶提供便利的同時(shí),也能夠在一定程度上提高信息檢索的效率。
2.2 檢索過(guò)程
(1)搜索請(qǐng)求分析:當(dāng)用戶打開(kāi)搜索引擎,輸入關(guān)鍵詞,同時(shí)點(diǎn)擊搜索提交請(qǐng)求后,網(wǎng)頁(yè)上就會(huì)顯示出相應(yīng)的結(jié)果。之后,搜索引擎會(huì)結(jié)合這次搜索請(qǐng)求,進(jìn)行細(xì)致全面的分析以及分詞處理。如果是依照搜索請(qǐng)求進(jìn)行空格分詞,則一般需要排除掉重復(fù)的信息,才能保證搜索結(jié)果的準(zhǔn)確性;而如果采用的是中文分詞,處理環(huán)節(jié)會(huì)比較麻煩,其主要包括兩種不同的分詞方式,一是匹配字符串,采用的方法有逆向最大匹配法、正向最大匹配法以及最少切分法,搜索引擎會(huì)通過(guò)模擬人類(lèi)思維的方式,針對(duì)句子進(jìn)行檢測(cè)以及分詞,整合詞語(yǔ)和表達(dá)形式,以方便進(jìn)行理解。在分詞時(shí),通常會(huì)首先分析并處理語(yǔ)句的大致意思和語(yǔ)法,避免歧義,由語(yǔ)法子系統(tǒng)、語(yǔ)義子系統(tǒng)以及分詞子系統(tǒng)共同構(gòu)成控制系統(tǒng),控制搜索引擎工作;二是如果存在相鄰的詞,中文分詞會(huì)將其看作是一個(gè)詞,在這種情況下,用戶在輸入關(guān)鍵詞時(shí)加入的停止詞如“的”、“吧”等,往往會(huì)被搜索引擎自動(dòng)去除。
(2)搜索請(qǐng)求匹配:在對(duì)用戶的搜索請(qǐng)求進(jìn)行分析后,搜索引擎會(huì)自動(dòng)匹配相應(yīng)的URL,其本身的數(shù)量極其巨大,必須結(jié)合搜索引擎,依照YRL的匹配程度,進(jìn)行排序,才能確保結(jié)果的有效顯示。系統(tǒng)會(huì)自動(dòng)將分詞后的信息以及網(wǎng)頁(yè)本身的Page Rank值同鏈接中的網(wǎng)頁(yè)描述信息結(jié)合在一起,最終確定檢索排序結(jié)果,并顯示在網(wǎng)頁(yè)中,從而盡可能確保網(wǎng)頁(yè)顯示的內(nèi)容能夠滿足用戶的實(shí)際需求[3]。
在云計(jì)算背景下,大數(shù)據(jù)得到了快速發(fā)展,海量數(shù)據(jù)的涌現(xiàn)對(duì)于信息檢索技術(shù)也提出了更加嚴(yán)峻的挑戰(zhàn)。面對(duì)著各種智能設(shè)備的普及以及不斷增長(zhǎng)的用戶需求,相關(guān)技術(shù)人員應(yīng)該加強(qiáng)對(duì)于大數(shù)據(jù)信息檢索技術(shù)的研究和實(shí)踐,不斷對(duì)技術(shù)進(jìn)行更新,以滿足用戶對(duì)于數(shù)據(jù)檢索的個(gè)性化需求。
[1]吳雪琴,舒曉苓.基于云計(jì)算的大數(shù)據(jù)信息檢索技術(shù)研究[J].電腦知識(shí)與技術(shù),2014,10(10):2388-2390.
[2]劉月.探究云計(jì)算下大數(shù)據(jù)的信息檢索技術(shù)應(yīng)用[J].數(shù)字技術(shù)與應(yīng)用,2015,(7):95.
[3]王曉艷,李慧穎.大數(shù)據(jù)環(huán)境下信息檢索的變革[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2015,(4):117-119.