王偉 付強(qiáng) 李香平 姜垚
摘 要:如何有效地利用海量的信息資源,如何在廣闊信息的海洋中尋找有用的信息是一個(gè)較難的任務(wù),解決這些問(wèn)題的最有效的工具是搜索引擎。社會(huì)網(wǎng)絡(luò)信息搜索的最重要的手段是搜索引擎,其主要功能是高效準(zhǔn)確地進(jìn)行信息搜索,迅速幫助用戶找到必要的信息。
關(guān)鍵詞:搜索引擎;信息檢索;搜索引擎功能性;搜索引擎局限性
DOI:10.16640/j.cnki.37-1222/t.2018.22.100
1 搜索引擎概述
1.1 搜索引擎工作原理
搜索引擎的基本工作原理基本包括三個(gè)過(guò)程:第一,在互聯(lián)網(wǎng)上發(fā)現(xiàn)和收集網(wǎng)頁(yè)信息;與此同時(shí),建立與相關(guān)信息對(duì)應(yīng)的索引數(shù)據(jù)庫(kù);然后,根據(jù)關(guān)鍵字輸入對(duì)于用戶,搜索者可以快速檢索索引數(shù)據(jù)庫(kù)中的對(duì)應(yīng)信息,評(píng)估相關(guān)度,并評(píng)估要輸出的結(jié)果。
1.2 搜索引擎的分類
自1993搜索引擎問(wèn)世以來(lái),世界上已有3000多家搜索引擎。并且不斷地更新。英文搜索引擎比較具有代表性的是Google,Yahoo,Opentext等。中文搜索引擎較著名的有百度,搜狐,新浪等。
2 搜索引擎的局域性分析
2.1 檢索數(shù)據(jù)庫(kù)更新困難
谷歌搜索引擎的爬蟲(chóng)系統(tǒng),可以獲得每一秒100個(gè)以上的網(wǎng)站,每天可以抓住80000個(gè)網(wǎng)站,其速度是遠(yuǎn)超于該索引數(shù)據(jù)庫(kù)的更新速度,兩者之間存在著相互對(duì)立的矛盾。
2.2 標(biāo)引深度不夠是大部分搜索引擎存在的問(wèn)題
當(dāng)今,在搜索結(jié)果中僅提供了簡(jiǎn)單的搜索關(guān)鍵字和搜索關(guān)鍵字的Web信息是絕大部分搜索引擎的主要問(wèn)題,而絕大部分用戶需要的是更詳細(xì)的和明確的信息,這與用戶的需求產(chǎn)生矛盾,特別是對(duì)搜索關(guān)鍵字在特定文獻(xiàn)數(shù)據(jù)庫(kù)的搜索引擎的搜索較多時(shí),搜索出的結(jié)果很難達(dá)到用戶滿意的程度。
2.3 大部分的搜索引擎的查準(zhǔn)率和查全率不高
在生活中利用搜索引擎發(fā)現(xiàn)的結(jié)果大部分是繁多的網(wǎng)頁(yè)的地址鏈接,用戶只有逐個(gè)篩選繁多的網(wǎng)頁(yè),還可以從繁多的網(wǎng)址中選出一部分信息來(lái)滿足自己所需要的有用的信息。這主要是因?yàn)樵诰W(wǎng)絡(luò)上存在繁多沒(méi)有價(jià)值的信息和反復(fù)重復(fù)的無(wú)用的信息,現(xiàn)今絕大部分搜索引擎并不能很好地識(shí)別那些信息有用那些信息無(wú)用,因此這將大大降低搜索引擎的檢測(cè)率。
2.4 中文搜索引擎自然語(yǔ)言檢索理解困難
人工智能是一個(gè)難以理解人類語(yǔ)言的學(xué)科。一些搜索引擎主張支持自然語(yǔ)言,但實(shí)際上與“問(wèn)題陳述”或其他搜索方法的關(guān)鍵字一致,向搜索系統(tǒng)發(fā)送搜索要求。有時(shí),這個(gè)引擎不能理解用戶的搜索的本質(zhì)和重要的內(nèi)容。
2.5 搜索引擎的分工合作存在局限性
一方面,從網(wǎng)絡(luò)上存在著各種各樣大大小小的搜索引擎,到著名的Baidu、谷歌、等,他們都各自為戰(zhàn),期間合作不夠,互相掣肘。另外,在各大搜索引擎之間存在著看不見(jiàn)競(jìng)爭(zhēng)的重復(fù)勞動(dòng)是造成資源浪費(fèi)的主要根源。另一方面,對(duì)用戶的搜索結(jié)果帶來(lái)了很大的不便。大部分的需求都要用戶搜索信息時(shí)使用很多不同的搜索引擎進(jìn)行搜索,這才可以找到令用戶比較滿意的結(jié)果。如果各個(gè)搜素引擎公司能夠加強(qiáng)搜索引擎開(kāi)發(fā)研究之間的合作,那么就會(huì)形成一個(gè)多個(gè)搜索引擎集成化的搜索引擎,對(duì)搜索引擎的發(fā)展將會(huì)帶來(lái)充分快速的發(fā)展。
2.6 搜索引擎信息占有量以及覆蓋率局限
如今,新詞語(yǔ)誕生在我們社會(huì)的每一刻。搜索引擎不能有效及時(shí)地收集這些新詞。其他情況下,不能提供搜索引擎的搜索服務(wù)。測(cè)量搜索引擎性能的重要指標(biāo)是信息的占有量。
2.7 對(duì)多媒體內(nèi)容的檢索局限是大部分搜索引擎存在的問(wèn)題
支持搜索框的多媒體內(nèi)容的文本信息的搜索接口是絕大部分的搜索引擎所能提供的功能,而并不能通過(guò)多媒體內(nèi)容本身自己搜索。這是因?yàn)槟壳暗乃阉饕姹旧淼墓δ苓€存在不足,對(duì)動(dòng)畫、聲音、圖像的處理能力不夠,因此用戶暫時(shí)還不能搜索多媒體中本身存在的信息。
2.8 社區(qū)化和個(gè)性化局限
現(xiàn)今,搜索引擎發(fā)展的必然趨勢(shì)包括網(wǎng)站的個(gè)性化和社會(huì)化,但現(xiàn)在的搜索引擎還沒(méi)有完全解決。另外,沒(méi)有個(gè)性的人使用相同的搜索引擎,同樣可以通過(guò)相同的搜索詞獲得相同的結(jié)果?,F(xiàn)在,很多搜索引擎不考慮地理、性別、年齡等不同,這是個(gè)體化搜索引擎的界限。
3 搜索引擎未來(lái)功能的展望
3.1 社區(qū)化發(fā)展方面
社區(qū)搜索引擎的發(fā)展成為國(guó)內(nèi)外的許多搜索引擎的大企業(yè)的共同認(rèn)識(shí)。近年來(lái),Baidu的百科全書等公司開(kāi)發(fā),Baidu的圖書館等一系列社區(qū)功能相信很多用戶在不久的將來(lái)能夠體驗(yàn)到,并將慢慢構(gòu)筑搜索引擎社區(qū),將使人們的生活和學(xué)習(xí)更加方便和快捷。
3.2 個(gè)性化發(fā)展方面
搜索引擎的現(xiàn)狀顯示信息的內(nèi)容,并按照搜索引擎自己的功能安排搜索結(jié)果,用戶只能接受,沒(méi)有選擇的余地。由于缺乏個(gè)人性的搜索引擎是某種程度的緩慢的信息搜索工具。
3.3 垂直發(fā)展方面
搜索引擎的垂直發(fā)展是對(duì)主要區(qū)域、特定組或某一需求建立搜索引擎。這些垂直搜索引擎收集了比體育、音樂(lè)、娛樂(lè)、視頻、游戲、招聘信息、圖像等一般的搜索引擎的專業(yè)搜素內(nèi)容。垂直搜索引擎存在的特征是“專業(yè)、精、深”,這是從某個(gè)角度適合滿足特定用戶的需求,近些年垂直化發(fā)展成為搜索引擎的主要發(fā)展趨勢(shì)。
4 結(jié)論
隨著網(wǎng)絡(luò)的快速發(fā)展和廣泛普及,搜索引擎技術(shù)快速發(fā)展的機(jī)遇和動(dòng)力是用戶需要更準(zhǔn)確、更全面、更快捷的搜索需求,搜索引擎的發(fā)展趨勢(shì)也將必然重視智能化的發(fā)展和滿足用戶的個(gè)性化、社會(huì)化的發(fā)展需求。
參考文獻(xiàn):
[1]葛蓉.利用網(wǎng)絡(luò)日志分析提高搜索引擎的檢準(zhǔn)率[J].情報(bào)科學(xué),2014,22(10):1250-1253.
[2]葉波.搜索引擎的功能及其局限性分析[J].理工科研,2015(下旬刊):275-276.
[3]張文靜.搜索引擎的分類及發(fā)展趨勢(shì)[J].焦作大學(xué)學(xué)報(bào),2016(03)
:76-78.
[4]徐亞先.搜索引擎功能概述與研究熱點(diǎn)[J].情報(bào)科學(xué),2013,19
(03):269-270.
[5]吳建軍.淺談百度搜索引擎的功能與服務(wù)特點(diǎn)[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2016,17(05):215-216.
作者簡(jiǎn)介:王偉(1976-),男,吉林省吉林市人,碩士,副教授,主任,主要從事經(jīng)濟(jì)信息管理方向研究。