賈博研,王瑞琰,鄭宇峰,王丹丹
(江蘇大學(xué),江蘇 鎮(zhèn)江 212013)
搜索的本質(zhì)是用戶通過互聯(lián)網(wǎng)工具找尋信息,搜索行為就是二者之間的交流。搜索引擎的更多渠道引導(dǎo)有效信息直達(dá),從“單流主導(dǎo)”到“人與信息雙向互動(dòng)”,從“信息找人”到雙向“選擇搜索”,形成“信息流”與“搜索流”的閉環(huán)。
早期的搜索引擎主要是PC端的信息檢索,單單通過技術(shù)爬蟲去全網(wǎng)抓取海量信息,供用戶使用;而現(xiàn)在的搜索引擎則是基于內(nèi)容平臺(tái)和移動(dòng)互聯(lián)網(wǎng)的產(chǎn)物。移動(dòng)時(shí)代到來后,海量APP涌現(xiàn),移動(dòng)端的搜索引擎面對擁有海量客戶與優(yōu)質(zhì)內(nèi)容的平臺(tái),需要在技術(shù)與內(nèi)容上不斷優(yōu)化,在實(shí)現(xiàn)精確搜索的同時(shí),通過地理與時(shí)間標(biāo)簽,發(fā)掘用戶興趣,提高用戶粘性[1]。
若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律,就稱為關(guān)聯(lián)。關(guān)聯(lián)規(guī)則是尋找同一個(gè)事件中出現(xiàn)的不同項(xiàng)的相關(guān)性,比如,在一次購買活動(dòng)中所購買不同商品的相關(guān)性。關(guān)聯(lián)分析,即利用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘,目的是挖掘隱藏在數(shù)據(jù)間的相互關(guān)系,自動(dòng)探測以前未發(fā)現(xiàn)的、隱藏著的新模式[2]。
解決關(guān)聯(lián)規(guī)則問題的原始算法是AIS算法,為改進(jìn)AIS算法,提出了OCD算法、Apriori算法。由于Apriori算法I/O開銷很大,因此,大多改進(jìn)算法都在如何減少搜索次數(shù)上做文章。其后又提出一個(gè)基于Hash技術(shù)的DHP算法與數(shù)據(jù)進(jìn)行分區(qū)的Partition算法。Partition算法提出了頻繁模式增長(FP-Growth)的思想,設(shè)計(jì)了基于該思想的頻繁模式樹(FP-tree)存儲(chǔ)結(jié)構(gòu),并在此結(jié)構(gòu)上的頻繁模式挖掘算法FP-growth,F(xiàn)P-growth在效率上較Apriori算法有較大的提高。在國外,關(guān)聯(lián)規(guī)則已經(jīng)進(jìn)入產(chǎn)品化階段。
近年來,國內(nèi)隨著大數(shù)據(jù)時(shí)代的到來和互聯(lián)網(wǎng)的發(fā)展,關(guān)聯(lián)規(guī)則算法開始應(yīng)用于各方面,如:挖掘電子商務(wù)潛在客戶,在臨床醫(yī)療診斷、精準(zhǔn)扶貧中的應(yīng)用,基于關(guān)聯(lián)規(guī)則分析的物流定制服務(wù)推送系統(tǒng)、學(xué)校教育和學(xué)生行為分析等[3]。
現(xiàn)如今,在智能搜索引擎的發(fā)展中,關(guān)聯(lián)規(guī)則能夠提供一定技術(shù)支持,進(jìn)行搜索引擎優(yōu)化(Search Engine Optimization,SEO)。關(guān)聯(lián)規(guī)則的概念擴(kuò)展包括:頻繁模式、序列模式挖掘、時(shí)序模式挖掘、空間模式挖掘、結(jié)構(gòu)(圖)挖掘、多媒體挖掘、其他高級挖掘等方面,對搜索引擎搜索與推薦等不斷進(jìn)行優(yōu)化,可通過用戶搜索索引提取時(shí)間、地理標(biāo)簽等,進(jìn)一步搭建用戶興趣庫模型,與用戶保持良好粘性。
搜索引擎的工作原理是從互聯(lián)網(wǎng)上抓取網(wǎng)頁,建立索引數(shù)據(jù)庫并進(jìn)行搜索排序。整個(gè)工作過程大體分為4個(gè)部分:信息采集、信息分析、信息查詢和用戶接口。
搜索引擎的信息主要源自于互聯(lián)網(wǎng)網(wǎng)頁,通過網(wǎng)絡(luò)爬蟲將整個(gè)互聯(lián)網(wǎng)的信息獲取到本地,當(dāng)搜索引擎接收到用戶的查詢后,首先,需要對查詢詞進(jìn)行分析,結(jié)合查詢詞和用戶信息來正確推導(dǎo)用戶的真正搜索意圖。其次,檢索器根據(jù)用戶輸入的關(guān)鍵字,在索引庫中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評價(jià),對將要輸出的結(jié)果進(jìn)行排序,并將查詢結(jié)果返回給用戶。
結(jié)果排序最重要的兩個(gè)參考排序中,一個(gè)是內(nèi)容相似性因素,即網(wǎng)頁是和用戶查詢密切相關(guān)的;另外一個(gè)是網(wǎng)頁重要性因素,即網(wǎng)頁是質(zhì)量較好或相對重要的,往往從鏈接分析的結(jié)果獲得。結(jié)合以上兩個(gè)考慮因素,就可以對網(wǎng)頁進(jìn)行排序,作為用戶查詢的搜索結(jié)果。搜索引擎的最重要目的是為用戶提供準(zhǔn)確、全面的搜索結(jié)果,滿足用戶查詢需求并實(shí)時(shí)提供準(zhǔn)確結(jié)果,最終構(gòu)成了搜索引擎前臺(tái)計(jì)算系統(tǒng)。
本次研究實(shí)際體驗(yàn)各搜索引擎的搜索效率、設(shè)計(jì)及用戶體驗(yàn)等,并進(jìn)行橫向比較,以“世界上最大的島嶼是”為檢索字句,體驗(yàn)結(jié)果如表1所示。
表1 各搜索引擎體驗(yàn)分析
對于用戶現(xiàn)階現(xiàn)使用搜索引擎現(xiàn)狀的數(shù)據(jù)獲取,本次研究采用了問卷調(diào)查法,共收集問卷217份,皆為有效數(shù)據(jù),基于此,共分為以下4個(gè)方面對用戶使用情況做數(shù)據(jù)分析。
常用搜索引擎使用占比:百度為34%,自帶瀏覽器為20%,360搜索為20%,其他占比相對較低,對于搜索引擎的使用主要為國內(nèi)搜索引擎,且對于移動(dòng)設(shè)備的搜索引擎有一定依賴性;對于調(diào)查人員,18~25歲居多,使用搜索引擎的年限為6年以上的人群占比超過50%,在一定程度上表明搜索引擎在用戶的使用中仍占有重要地位[4]。
對于無法使用平臺(tái)的失望度可側(cè)面反映用戶對于平臺(tái)的依賴性,對于所搜集的數(shù)據(jù)進(jìn)行統(tǒng)計(jì),將近90%的用戶對搜索引擎平臺(tái)有較強(qiáng)的依賴性;同時(shí),對于附加擴(kuò)展應(yīng)用的用戶使用情況,在一定程度上也表明用戶對于搜索引擎的粘性。
對于平臺(tái)使用頻率(見圖1),結(jié)合調(diào)查的用戶學(xué)歷發(fā)現(xiàn),高學(xué)歷人群使用搜索引擎的頻率相對較高,專本科及本科以上的用戶使用搜索引擎的頻率平均每天10次以上,在一定程度上表明對于知識(shí)、信息的獲取,有專業(yè)研究的人群更傾向于對搜索引擎的使用。
對于搜索平臺(tái)的使用,大部分是需要查詢特定信息,對于搜索平臺(tái)的選擇因素,主要看重搜索平臺(tái)使用的簡易度、搜索范圍、搜索準(zhǔn)確度與相關(guān)瀏覽信息等;對于平臺(tái)的使用期望最首要的就是搜索結(jié)果的準(zhǔn)確性、搜索頁面的簡潔性、減少廣告的植入,并由搜索信息對于其他知識(shí)領(lǐng)域的擴(kuò)展等方面,對于平臺(tái)的個(gè)性化搜索期望不高。
搜索內(nèi)容的選擇性瀏覽方面,用戶會(huì)優(yōu)先選擇與信息相關(guān)度較高詞條,描述內(nèi)容簡單易懂,對于搜索結(jié)果的返回,一些信息的更新也會(huì)對內(nèi)容的選擇有一定影響,如圖2所示。
圖1 搜索引擎使用頻率
圖2 搜索內(nèi)容選擇
隨著互聯(lián)網(wǎng)的誕生與新技術(shù)的不斷興起,處于信息時(shí)代的用戶最重要的就是對信息的檢索與獲取。搜索引擎平臺(tái)除了提供搜索功能外,現(xiàn)下智能化互聯(lián)網(wǎng)搜索與推薦應(yīng)用也將會(huì)推動(dòng)搜索引擎的進(jìn)一步更新與完善,兼具搜索與自動(dòng)問答功能,并結(jié)合可視化技術(shù),能為用戶更好地提供檢索服務(wù)[5]。
Google,Yahoo、百度、搜狐等傳統(tǒng)的搜索引擎也在不斷探索新的、符合時(shí)代潮流的搜索方式,并隨之衍生了個(gè)性化推薦的功能,讓用戶不僅能夠主動(dòng)搜索信息,也能被動(dòng)接受自己需要信息的擴(kuò)展部分。對于興起的、結(jié)合社交媒介的社會(huì)化引擎,更傾向于將自己定位為社交與新聞熱點(diǎn)推薦的引擎產(chǎn)品,即為用戶提供有特色的、個(gè)性化的信息。無論是傳統(tǒng)的搜索引擎,或是社會(huì)化搜索引擎,都面臨著如何保持用戶粘性與提高用戶體驗(yàn)的問題。
5.2.1 搜索界面的優(yōu)化
依據(jù)問卷數(shù)據(jù)可知,用戶對于搜索界面的簡潔度選擇有一定偏好;在搜索入口的優(yōu)化方面,可以設(shè)置多個(gè)小搜索入口,如熱點(diǎn)推薦、猜你喜歡、與你相關(guān)、學(xué)科細(xì)分等;對于搜索路徑,也可以添加個(gè)性化時(shí)間搜索、位置搜索。
5.2.2 技術(shù)上的革新
技術(shù)決定搜索的體驗(yàn),搜索引擎的技術(shù)支持主要依賴于協(xié)同過濾算法與關(guān)聯(lián)規(guī)則算法,協(xié)同過濾算法對于電商平臺(tái)的個(gè)性化推薦有一定的準(zhǔn)確性,而關(guān)聯(lián)規(guī)則在智能引擎上的應(yīng)用也逐漸深入,二者結(jié)合推動(dòng)智能引擎的發(fā)展。用戶檢索詞條記錄的數(shù)據(jù)庫要不斷更新,提高自然語言處理能力,建立詞條索引,通過對頻繁搜索索引,可在用戶再次搜索時(shí)進(jìn)行推薦。對于用戶興趣庫的建立,也可關(guān)聯(lián)規(guī)則算法進(jìn)行搭建,通過用戶的搜索行為及點(diǎn)擊行為對用戶行為心理進(jìn)行分析,選擇適合用戶偏好的推薦結(jié)果,從而提高用戶與搜索引擎粘性。
5.2.3 內(nèi)容上的優(yōu)化
內(nèi)容是搜索的根本,對于用戶搜索內(nèi)容的返回,準(zhǔn)確性為最首要的因素。返回結(jié)果的準(zhǔn)確性也影響著用戶對于搜索引擎的粘性。對于內(nèi)容返回的準(zhǔn)確性,一方面,要擴(kuò)大檢索數(shù)據(jù)庫,聯(lián)合互聯(lián)網(wǎng)生成內(nèi)容,知識(shí)庫等;另一方面,要對檢索匹配技術(shù)進(jìn)行優(yōu)化,提取有效信息。
對于搜索引擎,要提供多場景優(yōu)質(zhì)內(nèi)容,滿足多行業(yè)搜索需求,依據(jù)問卷數(shù)據(jù),專業(yè)人士更傾向于使用搜索引擎以滿足知識(shí)需求,多場景打造垂直內(nèi)容,滿足多行業(yè)商業(yè)信息搜索需求。支持用戶創(chuàng)造內(nèi)容,國內(nèi)一些視頻軟件擁有巨大而無可替代的內(nèi)容池,建立了更加豐富與優(yōu)質(zhì)的內(nèi)容,搜索引擎也可與其結(jié)合,形成多場景、多內(nèi)容、多信息數(shù)據(jù)庫的聚合憑條,一站式滿足用戶需求,提高用戶與平臺(tái)的粘性。