王一華
(鄭州大學(xué)科學(xué)技術(shù)信息研究所,河南 鄭州 450001)
目前,搜索引擎可以說是用戶上網(wǎng)信息檢索時手中的一把利劍。眾所周知,工具的優(yōu)劣往往影響工作的成效。因此,為了提高用戶的使用體驗,進行搜索引擎績效評估很有必要。搜索引擎績效評估就是采用搜索引擎績效評價的指標(biāo)體系,評價其滿足用戶需求的信息服務(wù)情況。在參考有關(guān)文獻(xiàn)的基礎(chǔ)上[1-9],本文從檢索功能、檢索效果、用戶負(fù)擔(dān)、影響力、用戶滿意度五個方面構(gòu)建搜索引擎績效評價指標(biāo)體系,并進行實證分析研究。最后,依據(jù)分析調(diào)查問卷而得到的搜索引擎績效評價結(jié)果,提出搜索引擎的改進建議,并指出搜索引擎評估的未來研究方向。
根據(jù)成年用戶因特網(wǎng)利用調(diào)查,成年因特網(wǎng)用戶把利用搜索引擎作為最重要的上網(wǎng)行為之一,甚至高達(dá)91%??梢姡阉饕嬖谌藗?nèi)粘I钪姓加蟹浅V匾牡匚?。目前,百度?60、搜狗、谷歌中文、必應(yīng)、搜搜、有道、雅虎中文這8個搜索引擎在 PC端搜索引擎使用率所占市場份額比較大,因此作者選擇這8種搜索引擎作為代表(表1)。
借鑒國內(nèi)外搜索引擎評價領(lǐng)域的研究成果[1-9],再加上使用搜索引擎的實踐,根據(jù)對搜索引擎基本原理和主要功能的分析,把搜索引擎評價指標(biāo)歸為五類:檢索功能、檢索效果、用戶負(fù)擔(dān)、影響力、用戶滿意度。所構(gòu)建的搜索引擎績效評價的指標(biāo)有:檢索功能(包括自然語言檢索、高級檢索、多媒體檢索、相似檢索和特色服務(wù)五項二級指標(biāo))、檢索效果(包括檢索結(jié)果數(shù)量、相對查準(zhǔn)率、相對死鏈接率和相對重復(fù)率四項二級指標(biāo))、用戶負(fù)擔(dān)(包括結(jié)果的顯示、相關(guān)性排列、個性化查詢界面、幫助文件實用詳盡性、界面友好性和快照預(yù)覽功能六項二級指標(biāo))、影響力(包括首選可能性、Alexa排名和外鏈接數(shù)三項二級指標(biāo))、用戶滿意度(包括搜索功能滿意度、響應(yīng)時間滿意度和結(jié)果滿意度三項二級指標(biāo))。
表1 八個搜索引擎網(wǎng)址及所屬公司Tab.1 URLs of eight search engines and their companies
測量環(huán)境采用操作系統(tǒng)是Windows 7,瀏覽器采用360極速瀏覽器。該研究測量要求:關(guān)于同一指標(biāo)的各搜索引擎的測試在一天內(nèi)完成,以保證各搜索引擎結(jié)果的客觀性。在使用某一檢索詞測量時,分早中晚測3次,取平均值作為最終測量結(jié)果。高級檢索指有無高級檢索以及選項多少。關(guān)于 Alexa排名,參見網(wǎng)站(http://www.alexa.com/)。多媒體檢索包括圖片、音樂、視頻、地圖等。相似檢索可以檢索到與特定網(wǎng)頁相似的網(wǎng)頁信息[10]。特色服務(wù)是對搜索引擎實用功能的測評。每個搜索引擎都各有特色。相對查準(zhǔn)率=(相關(guān)檢出數(shù)目/相對檢索數(shù)目)*100%。界面友好性指界面是否美觀大方、人性化、操作易學(xué)易用。個性化查詢界面,通過搜索設(shè)置可對搜索引擎進行設(shè)置。百度有輸入法設(shè)置,可拼音、手寫。結(jié)果的顯示是指顯示標(biāo)題、描述信息、類目位置、網(wǎng)頁文本大小、快照、相似頁面、結(jié)果集中放置、檢索結(jié)果總數(shù)、搜索時間。死鏈率,即測試檢索結(jié)果死鏈情況,在參與測試的搜索引擎上進行搜索,查看各引擎的前 20個結(jié)果中的可成功打開的鏈接比例。對無法打開頁面進行統(tǒng)計,得出死鏈率[11]。網(wǎng)頁檢索評測任務(wù)對測試集提出了較高的要求,參考北京大學(xué)網(wǎng)絡(luò)實驗室中文Web信息檢索論壇(http://www.cwirf.org/)中的中文Web信息檢索評測,構(gòu)建查詢主題集。本次研究把清華大學(xué)圖書館網(wǎng)站、武夷山的博客、論文+顛覆數(shù)字圖書館的大趨勢、感動中國十大人物、南京大屠殺、詠春拳等共計60個任務(wù)作為查詢主題集。具體評分方法如下:參考文獻(xiàn)[12],并進行修正,把主題與相關(guān)文檔間的相關(guān)度分為三個層次:非常相關(guān)(3分),相關(guān)(2分)、部分相關(guān)(1分)和不相關(guān)(0分),再者,查詢返回條數(shù)均大于20條,因此計算式如下:P(20)=[R(1-3)*20+R(4-10)*17+R(11-20)*10]/(279*3)。其中,P(20)為前20個搜索結(jié)果的檢準(zhǔn)率,R為各個命中記錄的相關(guān)系數(shù)。關(guān)于各指標(biāo)的權(quán)重,則采用專家算術(shù)平均法進行確定。
對有關(guān)數(shù)據(jù)進行處理后,八大搜索引擎績效評價結(jié)果如下:
谷歌中文除相似檢索功能不理想外,其他都很好,因此這項得分第一(0.8518);百度自然語音檢索也不如谷歌中文,所以這項得分第二(0.829762);搜狗多媒體檢索和特色服務(wù)搞得不錯,所以得分第三(0.812471);搜搜和360搜索多媒體檢索和相似檢索功能都很好,但由于高級檢索功能差,所以得分不高;而有道、雅虎中文由于這幾項功能均不出色,所以得分最低分別為0.43356、0.311415。建議必應(yīng)、搜搜、有道、360搜索、雅虎中文加強高級檢索功能,而有道、雅虎中文加強檢索功能。
谷歌中文和百度檢索效果評測結(jié)果之間無明顯差異,但檢索數(shù)量百度不如谷歌中文,在所有檢索數(shù)量中,由于檢索結(jié)果的重復(fù),除非專門選擇,百度一般顯示搜索到的前800條信息,谷歌中文一般顯示前 1000條信息;相對查準(zhǔn)率較好的是谷歌中文、百度和必應(yīng)。重復(fù)內(nèi)容多不但影響用戶感受,還很耗費系統(tǒng)資源,影響檢索效率[13],相對重復(fù)率較小的是百度和雅虎中文。建議搜狗增加檢索數(shù)量,有道、360搜索、必應(yīng)減少查詢結(jié)果的重復(fù)率。
谷歌中文在結(jié)果的顯示、個性化查詢界面、幫助文件的實用性詳盡性、界面友好性上做的都很好,但沒有快照預(yù)覽功能,建議以后加上;相關(guān)性排序是一項非常重要的指標(biāo),這項做得名列前茅的是谷歌中文和必應(yīng),其它網(wǎng)站搜索結(jié)果里前幾項出現(xiàn)的是廣告,而不是用戶所查詢的東西,不符合用戶需求,嚴(yán)重影響了用戶的體驗,特別是有道、雅虎中文相對于其他搜索引擎差距不小,希望以后改進,最好是把廣告放在用戶查詢結(jié)果的側(cè)面;幫助文件的實用性詳盡性方面以搜狗和360搜索較佳,希望其它搜索引擎能夠借鑒;搜狗和搜搜的快照預(yù)覽功能做的最好,期望其它搜索引擎能夠多學(xué)習(xí);用戶負(fù)擔(dān)包含的這幾項雅虎中文和有道可以說各項做的均不理想,因此得分很低,分別為0.29307、0.27,建議以后多加改進。
因為Alexa排名和外鏈接數(shù)是客觀的、定量的統(tǒng)計,所以沒有讓被調(diào)查者進行評價。谷歌中文和百度各項結(jié)果都比較好,較其它搜索引擎要占較大優(yōu)勢,因此很多人都把它們作為查找資料的首選。
得分最高的是谷歌中文,得分為 0.946166,其次是必應(yīng)和搜搜,得分分別為0.862504、0.858838。搜索結(jié)果滿意度是一項非常重要的指標(biāo),谷歌中文、必應(yīng)、搜搜做得較好,因此得分較高,而百度搜索結(jié)果的第一頁因廣告占據(jù)了重要位置,所以得分稍低一些;最差的是雅虎中文,得分僅為0.499506。
八大搜索引擎綜合評價參見圖 1。得分第一的是谷歌中文,得分為4.522380,盡管它在相似檢索、外連接數(shù)和快照預(yù)覽功能相對弱些,但是因為它在很多方面做的都很好,所以得分最高;百度由于幾個重要指標(biāo)比如相對查準(zhǔn)率、相關(guān)性排序等不如谷歌中文,因此得分為 4.108437,位居亞軍;得分最差的是雅虎中文和有道,得分分別為 2.31000、2.20673,因為相關(guān)性排序等很多指標(biāo)做的都不如其他搜索引擎。
圖1 八大搜索引擎綜合評價Fig.1 Comprehensive evaluation of eight search engines
下面以用戶負(fù)擔(dān)、影響力為例繪出雷達(dá)圖,可以形象地表明各搜索引擎之間的差異。由圖2可以看出,用戶負(fù)擔(dān)一項谷歌中文得分最高而有道得分最低,影響力一項谷歌中文得分最高而有道明顯偏低。
圖2 八大搜索引擎以用戶負(fù)擔(dān)與影響力為例所畫雷達(dá)圖Fig.2 Radar chart drawn by user burdens and influence of eight search engines
(1)加強優(yōu)化設(shè)計,提升用戶的搜索體驗。優(yōu)化鏈接,努力提升搜索的速度;優(yōu)化界面設(shè)計,提高用戶的搜索體驗;搜索結(jié)果要加強可信性評價,可像必應(yīng)(bing)、搜搜、搜狗等那樣加上“可信網(wǎng)站”標(biāo)示;定時更新程序,減少死鏈接的出現(xiàn);優(yōu)化程序,提升搜索結(jié)果的覆蓋率和收錄率;從數(shù)據(jù)空間化、空間顯示、用戶交互三方面提高檢索結(jié)果可視化展示;可參考點擊率的數(shù)量等因素優(yōu)化檢索結(jié)果的位置;搜索引擎應(yīng)與文獻(xiàn)計量學(xué)有關(guān)理論與技術(shù)相結(jié)合,提供更優(yōu)的搜索結(jié)果;優(yōu)化內(nèi)容,減少重復(fù)等。
(2)把握未來發(fā)展趨勢,打造新型搜索引擎。搜索引擎未來朝著移動化、智能化、社會化、個性化、可視化、語音化發(fā)展。搜索引擎功能更豐富,智能化程度更高,可進行視覺搜索、語音搜索、地點感知搜索,最好還有推薦引擎的功能,搜索結(jié)果呈現(xiàn)知識圖譜化。搜索引擎會針對社交信息進行挖掘,將社交結(jié)果嵌入到搜索結(jié)果之中,并對搜索結(jié)果進行優(yōu)化,以滿足更多的用戶需求[14-15]。未來搜索引擎像Siri那樣自然口語輸入,并能提供對話式的應(yīng)答。未來搜索引擎不僅可以搜索到表層網(wǎng)絡(luò)(Surface Web)的內(nèi)容,也可搜索到暗網(wǎng)(deep web)中的內(nèi)容。此外,計算機搜索將與用戶(包括移動終端用戶)人工回答有機結(jié)合,產(chǎn)生出更佳的問題解決方案。在不久的未來,采用虛擬現(xiàn)實技術(shù)展現(xiàn)用戶的搜索結(jié)果將令用戶產(chǎn)生身臨其境的體驗。比如,搜索“東坡餅”,香甜酥脆的美食呈現(xiàn)在人們的眼前,用戶在“品嘗”著東坡餅的唇齒留香與回味悠長的同時,內(nèi)心也許還品味著蘇東坡的詩句:“纖手搓來玉色勻,碧油煎出嫩黃深。夜來春睡知輕重,壓扁佳人纏臂金”,這些都將會大大增強用戶的快樂搜索體驗。
在參考有關(guān)文獻(xiàn)的基礎(chǔ)上[16-33],筆者認(rèn)為搜索引擎評估的未來研究方向主要有以下方面:
(1)應(yīng)多層次研究搜索引擎的績效評價。目前本研究是中文網(wǎng)頁信息檢索為例進行搜索引擎的績效評價,以后可以以英文為例,研究搜索引擎的績效評價,還可以進行中英文的比較,為進一步優(yōu)化搜索引擎提供基礎(chǔ)。當(dāng)然,也可從圖片、音頻、視頻、地圖等其他格式的文件方面進行搜索評價。此外,也可對Metasearch Engines進行績效評價研究。
(2)應(yīng)探討搜索引擎多種評價方法的優(yōu)劣性。衡量搜索引擎質(zhì)量指標(biāo)(DCG, Discounted Cumulative Gain)方法[34]與前20條記錄方法比較,哪個更好? DCG方法中以2為底,下一步可以2、e及10為底進行計算,然后與人工排序比較,看看孰優(yōu)孰劣?此外,對解決問題而言,搜索引擎與社交網(wǎng)絡(luò)(Social Networks)哪個效果更好、效率更高?
(3)應(yīng)多角度地研究探討搜索引擎評價。要讓普通用戶、專家學(xué)者、搜索引擎開發(fā)者、網(wǎng)站開發(fā)者等參與搜索引擎的評價研究,綜合考慮用戶角度和系統(tǒng)角度,如把普通用戶檢索評價和TREC類的檢索評價結(jié)合起來,這樣會使搜索引擎評價結(jié)果更有說服力。當(dāng)然,也可從搜索引擎的廣告效果、用戶滿意度、經(jīng)濟效益、社會影響等多個角度對搜索引擎進行評價研究。
(4)應(yīng)加強可信性評價,提高自動評價的實效性。要加強搜索引擎有關(guān)技術(shù)研發(fā),大力推進其智能化、移動化、社會化、個性化、可視化、語音化,特別是要提升語義理解力,提高情境搜索水平。這應(yīng)該把人工智慧和搜索科技相融合,呈現(xiàn)出符合用戶個人需求的搜索結(jié)果[35]。搜索引擎評價也要與時俱進,滿足用戶的信息需求[36-38],加強可信性評價,提升相關(guān)的評價水平,尤其注意提高自動評價的實效性[39],最終達(dá)到提升用戶滿意度的目的。
[1] 吳勝利, 譚延之, 施化吉. 搜索引擎指標(biāo)綜合特性的評價[J]. 江蘇大學(xué)學(xué)報(自然科學(xué)版), 2015, 02: 181-186+214.
[2] 費巍. 搜索引擎評價研究方法綜述[J]. 現(xiàn)代情報, 2010, 12:163-167.
[3] 邱均平, 胡文君, 羅力. 基于知識圖譜的國際網(wǎng)絡(luò)搜索引擎研究現(xiàn)狀與前沿分析[J]. 圖書情報工作, 2010, 24:89-94.
[4] 涂佳琪. 國內(nèi)三大中文搜索引擎檢索性能評價的實證研究[J]. 中山大學(xué)研究生學(xué)刊(社會科學(xué)版), 2014, 02: 64-73.
[5] 馬志杰. 國外搜索引擎評價研究綜述[J]. 圖書館學(xué)研究,2013, 02: 2-6.
[6] 馬志杰. 我國搜索引擎評價研究的現(xiàn)狀、問題及對策[J].圖書館學(xué)研究, 2013, 04: 11-17.
[7] 朱慶華, 杜佳. 搜索引擎評價指標(biāo)體系的建立與應(yīng)用[J].情報學(xué)報, 2007, 26(5): 684-690
[8] 董文鴛, 吳娟仙. 圖像搜索引擎綜合評價指標(biāo)體系的構(gòu)建[J]. 嘉興學(xué)院學(xué)報, 2008, (04): 121-125.
[9] 鳳元杰, 劉正春, 王堅毅.搜索引擎主要性能評價指標(biāo)體系研究[J].情報學(xué)報, 2004, 23(1): 63-68.
[10] 費巍, 張進. 相似檢索與鏈接檢索的性能評價研究[J]. 情報雜志, 2011, (02): 156-159.
[11] 常用六大網(wǎng)絡(luò)搜索引擎實用簡評. http: //www. topenergy.[2016-06-20]
[12] Leighton V and Srivastava J. First 20 precision among World Wide Web search services(search engines)[J]. Journal of the American Society for Information Science. 1999, 50(10):870-881.
[13] 清華大學(xué)IT可用性實驗室. 2005中文搜索引擎質(zhì)量對比[N].計算機世界, 2005-11-14(E07)
[14] 搜索引擎的未來趨勢. http://blog.sina.com.cn/s/blog_6592-c40501019l37. html?tj=2. [ 2016-05-02]
[15] 華薇娜. 搜索引擎的最新進展述要[J]. 圖書與情報, 2009,06: 83-87.
[16] Ajayi O O, Elegbeleye D M. Performance Evaluation of Selected Search Engines[J]. Computer Engineering & Intelligent Systems, 2014, 5(1): 01-13.
[17] Deka S K, Lahkar N. Performance evaluation and comparison of the five most used search engines in retrieving web resources[J]. Online Information Review, 2013, 34(5): 757-771.
[18] Ribeiro C, Lopes C T. Comparative evaluation of web search engines in health information retrieval[J]. Online Information Review, 2011, 35(6): 869-892.
[19] Su, L. T. A comprehensive and systematic model of user evaluation of Web search engines: I. Theory and background.Journal of the American Society for Information Science and Technology, 2003, 54: 1175–1192.
[20] Su, L. T. A comprehensive and systematic model of user evaluation of Web search engines: II. An evaluation by undergraduates. Journal of the American Society for Information Science and Technology, 2003, 54: 1193–1223.
[21] Dai N, Davison B D. Topic-sensitive search engine evaluation[J]. Online Information Review, 2011, 35(6): 893-908.
[22] 劉璇, 于雙元. 非結(jié)構(gòu)化P2P 網(wǎng)絡(luò)基于馬爾科夫鏈的搜索算法研究[J]. 軟件, 2015, 36(3): 116-121
[23] 王一華. 基于超效率DEA的網(wǎng)站績效評價[J]. 情報科學(xué),2012, 30(09): 1371-1375+1384.
[24] 武濤. 基于云計算的并行動態(tài)路徑搜索算法研究[J]. 軟件,2015, 36(4): 128-132
[25] 王一華. 圖情博客評價實證研究[J]. 現(xiàn)代情報, 2015,35(11): 13-17.
[26] 王一華. 社交媒體信息可信度評估研究綜述[J]. 現(xiàn)代情報,2016, 36(12): 164-169.
[27] 胡一然, 宋中山, 孫翀, 等. NVSA: 一種具有可變節(jié)點值的查詢圖搜索算法[J]. 軟件, 2018, 39(3): 16-21
[28] 靳佳麗, 王一華. 我國高校圖書館微信服務(wù)評價[J]. 圖書館學(xué)研究, 2015(10): 56-61+78.
[29] 王一華. 基于IF(JCR)、IF(Scopus)、H指數(shù)、SJR值、SNIP值的期刊評價研究[J]. 圖書情報工作, 2011, 55(16):144-148.
[30] 王一華. 中國大陸圖書情報專業(yè)期刊的綜合評價——基于熵權(quán)法、主成分分析法和簡單線性加權(quán)法的比較研究[J].情報科學(xué), 2011, 29(06): 943-947.
[31] 王一華. 學(xué)術(shù)期刊的組合評價研究[J]. 情報科學(xué), 2011,29(05): 763-765.
[32] 王一華. 期刊評價指標(biāo)SJR、JIF和H指數(shù)的關(guān)系研究[J]. 圖書情報工作, 2010, 54(06): 145-147.
[33] 王一華. 圖書館學(xué)術(shù)論文評價指標(biāo)體系初探[J]. 現(xiàn)代情報,2008, 28(12): 138-139.
[34] Jarvelin K and Kekalainen J. Cumulated gain-based evaluation of IR techniques[J]. ACM Transactions on Information Systems. 2002, 20(4), 422–446.
[35] 秦海波. 讓更多人用上第三代搜索[N]. 經(jīng)濟日報,2013-02-27(012).
[36] 李詩苗, 王一華. 我國數(shù)據(jù)庫評價研究現(xiàn)狀與發(fā)展趨勢[J].圖書館學(xué)研究, 2013, 16: 2-9.
[37] 王一華. 國內(nèi)外網(wǎng)站評價研究綜述[J]. 情報科學(xué), 2013, 11:125-132.
[38] 王一華. 數(shù)據(jù)庫績效評估實證研究[J]. 情報科學(xué), 2016, 06:82-86.
[39] Azimzadeh M, Badie R, Esnaashari M M. A review on web search engines' automatic evaluation methods and how to select the evaluation method[C]// Second International Conference on Web Research. IEEE, 2016.