●陳 臣(蘭州商學(xué)院信息中心,蘭州 730020)
大數(shù)據(jù)時代基于個性化服務(wù)的數(shù)字圖書館數(shù)據(jù)搜索引擎設(shè)計
●陳臣(蘭州商學(xué)院信息中心,蘭州730020)
[關(guān)鍵詞]數(shù)據(jù)時代;數(shù)據(jù)搜索引擎;設(shè)計;圖書館 數(shù)據(jù)搜索過程缺乏或所設(shè)置的 不準確時,搜索引擎可通過機器自主學(xué)習(xí)過程,保證所搜索的數(shù)據(jù)全面、準確。第三,搜索引擎應(yīng)具備較強的讀者閱讀服務(wù)保障功能,可為用戶提供即搜即得、即搜即用、不搜即得的服務(wù)。搜索引擎應(yīng)具有較強的搜索數(shù)據(jù)預(yù)測和數(shù)據(jù)關(guān)系挖掘功能,可依據(jù)數(shù)據(jù)圖譜的關(guān)系挖掘出更深層次的知識關(guān)聯(lián)。用戶不通過數(shù)據(jù)搜索就可得到所需要的數(shù)據(jù)信息,搜索引擎可為用戶提供自動推送式服務(wù)。[7]
[摘要]大數(shù)據(jù)時代,數(shù)據(jù)搜索引擎在用戶個性化服務(wù)保障過程中的重要性不斷增長。本文設(shè)計了一種大數(shù)據(jù)環(huán)境下數(shù)字圖書館數(shù)據(jù)搜索引擎,該搜索引擎減少了大量的對歷史查詢的重復(fù)計算,節(jié)省了搜索時間,提高了查詢效率,并可使查詢成本最小,顯著提高了系統(tǒng)的整體搜索性能。
大數(shù)據(jù)時代具有數(shù)據(jù)規(guī)模化、數(shù)據(jù)類型多樣性、高價值、處理速度快和社會化5個特點。隨著數(shù)字圖書館讀者云閱讀需求和服務(wù)模式的變革,以及云計算技術(shù)、無線傳輸技術(shù)、傳感器網(wǎng)絡(luò)和閱讀終端技術(shù)的發(fā)展與普及,目前,基于大數(shù)據(jù)平臺為讀者提供安全、高效、經(jīng)濟、便捷、可定制的個性化閱讀推送式服務(wù),已成為圖書館用戶服務(wù)模式發(fā)展的一個重要趨勢。
大數(shù)據(jù)時代,圖書館的數(shù)據(jù)量呈現(xiàn)爆發(fā)式的增長,數(shù)據(jù)集的規(guī)模將達到TB或者PB的級別。此外,圖片、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)將占據(jù)數(shù)據(jù)總量的80%以上,大幅度增強了數(shù)據(jù)存儲、管理、搜索和查詢的難度。傳統(tǒng)以數(shù)字文本存儲、搜索和分析的數(shù)據(jù)庫關(guān)聯(lián)算法、語義分析方法,已不適合大數(shù)據(jù)時代用戶服務(wù)高效、準確、快速和經(jīng)濟的需求。因此,如何依據(jù)大數(shù)據(jù)時代讀者閱讀內(nèi)容和服務(wù)質(zhì)量需求,提高圖書館搜索引擎信息發(fā)現(xiàn)和知識挖掘的效率、容錯性、可控性和可擴展,確保信息搜索過程智能、快速、低成本和負載均衡,是關(guān)系讀者大數(shù)據(jù)時代閱讀滿意度和圖書館市場競爭力的關(guān)鍵。[1]
(1)用戶私有化數(shù)據(jù)快速增長。大數(shù)據(jù)時代,以讀者個性化定制為核心的用戶推送式服務(wù),已成為數(shù)字圖書館服務(wù)模式變革的主要方向。為了滿足讀者數(shù)字化閱讀需求和提高用戶滿意度,圖書館將與云服務(wù)商、電子商務(wù)運營商、第三方增值服務(wù)商、通信服務(wù)商等,以大數(shù)據(jù)平臺數(shù)據(jù)共享的方式進行服務(wù)數(shù)據(jù)和用戶數(shù)據(jù)資源共享。當運營商所采集的用戶數(shù)據(jù)量達到一定規(guī)模后,會通過屏蔽搜索引擎和加密等技術(shù)手段,對所存儲的個人隱私數(shù)據(jù)進行保密和屏蔽搜索。這大幅度增加了圖書館大數(shù)據(jù)共享平臺數(shù)據(jù)搜索體驗的難度和可靠性,降低了所搜索數(shù)據(jù)的價值和數(shù)據(jù)可用性,嚴重影響了數(shù)字讀者個性化閱讀服務(wù)的質(zhì)量和用戶滿意度。[2]
(2)海量未WEB化的數(shù)據(jù)增加了數(shù)據(jù)搜索難度。大數(shù)據(jù)時代數(shù)據(jù)呈現(xiàn)海量級數(shù)增長的態(tài)勢。圖書館所采集和用戶服務(wù)保障數(shù)據(jù),主要包括讀者閱讀行為數(shù)據(jù)、用戶個人信息數(shù)據(jù)、讀者社會關(guān)系數(shù)據(jù)、論壇與博客等社交流動產(chǎn)生的數(shù)據(jù)、APP(Accelerated Parallel Processing)應(yīng)用產(chǎn)生的數(shù)據(jù)、個人云應(yīng)用產(chǎn)生的數(shù)據(jù)、物聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)等。這些數(shù)據(jù)海量存儲于圖書館與其他共享服務(wù)商的數(shù)據(jù)中心,卻并未進行有效的價值提取、類別劃分、組織編目、定位存儲、檢索維護和網(wǎng)頁WEB化,大幅度增加了數(shù)據(jù)搜索的復(fù)雜度、成本、時間和準確性。
(3)要求搜索引擎具備較強的大數(shù)據(jù)價值發(fā)現(xiàn)功能。根據(jù)摩爾定律可得出,每18個月圖書館數(shù)據(jù)中心的存儲性能可提高一倍,同時存儲設(shè)備硬件成本降低一半。因此,大數(shù)據(jù)時代圖書館數(shù)據(jù)中心的存儲能力和成本,將不再是困擾大數(shù)據(jù)環(huán)境讀者服務(wù)有效性的主要因素,而大數(shù)據(jù)的價值挖掘和應(yīng)用有效性,則成為關(guān)系圖書館服務(wù)能力建設(shè)和用戶滿意度的關(guān)鍵。
大數(shù)據(jù)環(huán)境下,圖書館擁有的標準化、結(jié)構(gòu)化數(shù)
據(jù)約占數(shù)據(jù)總量的15%,近85%的數(shù)據(jù)為半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。部分關(guān)系用戶個性化服務(wù)有效性的重要數(shù)據(jù),則分別存儲于政府、第三方增值服務(wù)商和運營商的大數(shù)據(jù)庫中,并隨著其所擁有數(shù)據(jù)的數(shù)量、價值的快速增長而具有較強的壟斷性。其次,服務(wù)數(shù)據(jù)具有內(nèi)容龐大和鏈接復(fù)雜的特點,對搜索引擎的運行效率、并發(fā)處理能力、智能化和經(jīng)濟性要求較高。[3]
(4)要求搜索引擎具備較強的可用性和可控性。大數(shù)據(jù)時代,圖書館通常以自建大數(shù)據(jù)平臺和簽署合作協(xié)議的方式,與相關(guān)政府數(shù)據(jù)庫、運營服務(wù)商大數(shù)據(jù)平臺、企業(yè)大數(shù)據(jù)平臺共享大數(shù)據(jù)資源。但是,不同的政府機構(gòu)、運營服務(wù)商和企業(yè)大數(shù)據(jù)平臺之間,可能存在數(shù)據(jù)存儲與管理標準不統(tǒng)一、不同的大數(shù)據(jù)平臺之間的數(shù)據(jù)缺乏橫向與縱向交流、平臺數(shù)據(jù)管理與搜索存在信息盲點、圖書館缺乏大數(shù)據(jù)管理與整合工具等問題,會導(dǎo)致搜索引擎在數(shù)據(jù)搜索過程中降低數(shù)據(jù)的價值密度和共享性。因此,可能會影響數(shù)據(jù)采集、處理、分析和挖掘結(jié)果的可用性,最終將影響圖書館在制定讀者個性化服務(wù)策略、優(yōu)化服務(wù)資源、提高服務(wù)收益率和降低服務(wù)風(fēng)險活動的有效性。[4]
大數(shù)據(jù)時代,圖書館數(shù)據(jù)環(huán)境具有規(guī)模龐大、平臺結(jié)構(gòu)復(fù)雜、搜索效率和準確率要求高、搜索時間和成本控制難度大的特點。因此,要求搜索引擎具備快速響應(yīng)和復(fù)雜查詢、分析的能力。同時,可支持不同的大數(shù)據(jù)平臺系統(tǒng)結(jié)構(gòu),具有較高的容錯性、可擴展性和較低搜索延遲,數(shù)據(jù)接口開放并向下兼容性。結(jié)合大數(shù)據(jù)時代數(shù)據(jù)環(huán)境特點和圖書館讀者個性化服務(wù)要求,本文設(shè)計的圖書館大數(shù)據(jù)搜索引擎如下圖所示。
圖 圖書館大數(shù)據(jù)搜索引擎
sss
設(shè)計的搜索引擎主要由爬蟲與索引器、查詢器、HDFS(Hadoop Distributed File System)、Hbase、搜索管理平臺五部分組成。爬蟲是一種自動獲取網(wǎng)頁內(nèi)容的程序,負責(zé)在后臺從互聯(lián)網(wǎng)、圖書館與第三方大數(shù)據(jù)平臺、論壇與博客服務(wù)器、APP應(yīng)用服務(wù)器之中周期性地爬取數(shù)據(jù),并為數(shù)據(jù)建立索引。查詢器主要利用這些索引,通過檢索用戶的查找關(guān)鍵詞來產(chǎn)生查找結(jié)果。HDFS自動提供了文件在集群中的存儲和冗余備份,是專為大文件的存儲而設(shè)計的。它將大的文件切分成多個小塊,然后將這些小塊分散存儲在多個數(shù)據(jù)結(jié)點中,具有存儲成本低廉、具備較強的容錯性和數(shù)據(jù)快速讀取的特點。Hbase是一種分布式、半結(jié)構(gòu)化和基于列的分布式數(shù)據(jù)庫,適合非結(jié)構(gòu)化數(shù)據(jù)的存儲??蓪DFS之中提取出來的文件進行存儲、修改與檢索。搜索管理平臺可根據(jù)用戶搜索定制需求,從Hbase中全面、準確、經(jīng)濟、快速地提取出所需要的數(shù)據(jù)和信息。[5]
(1)應(yīng)具備較強的數(shù)據(jù)過濾和去重功能。大數(shù)據(jù)時代,數(shù)字圖書館除自身擁有龐大的大數(shù)據(jù)用戶管理、服務(wù)平臺外,還可以簽署合作協(xié)議的方式,與第三方運營服務(wù)商、政府機構(gòu)和企業(yè)共享大數(shù)據(jù)信息平臺。圖書館大數(shù)據(jù)平臺內(nèi)部不同的存儲空間之間,以及圖書館大數(shù)據(jù)平臺與其他運營商大數(shù)據(jù)平臺之間,會不可避免地存在著大量重復(fù)數(shù)據(jù)。大量重復(fù)數(shù)據(jù)的存在,不但大幅度降低了圖書館大數(shù)據(jù)平臺的數(shù)據(jù)價值密度,而且嚴重影響了圖書館讀者大數(shù)據(jù)閱讀服務(wù)質(zhì)量。因此,圖書館必須提高搜索引擎的數(shù)據(jù)過濾和去重功能,來增強所搜索數(shù)據(jù)的價值密度和可用性。
首先,搜索引擎應(yīng)注重提取信息的代表性特征。應(yīng)從語義、用法、結(jié)構(gòu)和統(tǒng)計上,分析詞匯、短語、命名實體或流行用語的知識特征,明確各種類型重復(fù)數(shù)據(jù)的知識結(jié)構(gòu)方式,通過數(shù)據(jù)清洗、整合過程有效降低數(shù)據(jù)冗余。其次,搜索引擎應(yīng)根據(jù)用戶設(shè)定的搜索模式和數(shù)據(jù)權(quán)重,及時發(fā)現(xiàn)關(guān)系圖書館用戶服務(wù)和讀者閱讀體驗的特征數(shù)據(jù)。同時,應(yīng)具備快速搜索、精確處理、準確排序和開放接口的能力,并支持對博客、短信等非結(jié)構(gòu)化數(shù)據(jù)的分析。第三,搜索引擎應(yīng)擁有海量處理規(guī)模、多字段過濾、智能篩選、高效過濾的功能,具有較高的數(shù)據(jù)搜索效率和較低的數(shù)據(jù)發(fā)現(xiàn)成本。[6]
(2)搜索引擎擁有智能、自動化的數(shù)據(jù)搜索能力。大數(shù)據(jù)時代,圖書館搜索引擎應(yīng)具備智能管理、自動處理、自主學(xué)習(xí)和推薦服務(wù)的功能。首先,搜索引擎應(yīng)具備對已搜索過程記憶、未搜索數(shù)據(jù)預(yù)測、最佳搜索模式判定和自主學(xué)習(xí)的功能。能夠自動發(fā)現(xiàn)、識別新的語言知識和適應(yīng)網(wǎng)絡(luò)環(huán)境變化,按照用戶搜索定義分類整理、過濾出所需的數(shù)據(jù)內(nèi)容。其次,當
(3)搜索引擎系統(tǒng)應(yīng)功能強大和可靠。圖書館應(yīng)根據(jù)大數(shù)據(jù)時代讀者閱讀需求、用戶服務(wù)模式和數(shù)據(jù)環(huán)境特點,加強搜索引擎的可用性、可控性和功能性建設(shè),確保搜索引擎可靠、易用、經(jīng)濟和便捷。首先,搜索引擎在設(shè)計過程中,應(yīng)對服務(wù)器日志數(shù)據(jù)、讀者訪問記錄、Office文檔、XML格式的電子表格數(shù)據(jù)、博客與論壇數(shù)據(jù)、APP應(yīng)用產(chǎn)生的數(shù)據(jù)、圖片、音頻、視頻等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),實現(xiàn)統(tǒng)一搜索界面、統(tǒng)一運營模式和完成數(shù)據(jù)渠道的整合搜索。其次,通過建立高效的索引來加快數(shù)據(jù)的讀取速度和完整性檢查。索引過程應(yīng)盡量保證語句符合查詢優(yōu)化器的規(guī)則,避免進行數(shù)據(jù)庫全表掃描以提高數(shù)據(jù)查詢的效率。同時,搜索算法應(yīng)允許同步更新索引和搜索,保證優(yōu)先返回最佳查詢結(jié)果。第三,圖書館應(yīng)獨立或與第三方開發(fā)商合作,利用谷歌、百度、亞馬遜、微軟等大型信息服務(wù)商預(yù)留的API(應(yīng)用程序編程接口),結(jié)合圖書館管理和讀者服務(wù)需求進行二次開發(fā),實現(xiàn)對大型信息服務(wù)商大數(shù)據(jù)庫的數(shù)據(jù)共享和增值服務(wù)。圖書館管理員和讀者可利用大型信息服務(wù)商的大數(shù)據(jù)處理能力,實現(xiàn)諸如用戶所處地理位置查找、在線翻譯、數(shù)據(jù)統(tǒng)計分析、大數(shù)據(jù)處理和云計算等大數(shù)據(jù)增值服務(wù)。
(4)提高搜索引擎的讀者個性化服務(wù)水平。大數(shù)據(jù)時代,圖書館用戶具有客戶群數(shù)量龐大、數(shù)據(jù)搜索需求個體差異大、單一用戶定制需求小和對搜索引擎定制能力要求高的特點。同時,圖書館搜索引擎的系統(tǒng)功能,將由傳統(tǒng)IT環(huán)境下利用關(guān)鍵字進行網(wǎng)站、網(wǎng)頁和匹配數(shù)據(jù)的查找,轉(zhuǎn)變?yōu)槊嫦蛴脩魝€性化需求的潛在數(shù)據(jù)挖掘和信息推薦搜索服務(wù)。
圖書館搜索引擎設(shè)計與實現(xiàn)中,首先,應(yīng)注重用戶個性化搜索服務(wù)的時效性要求。搜索引擎在用戶服務(wù)過程中,應(yīng)及時感知用戶大數(shù)據(jù)搜索的目的與內(nèi)容,并在用戶下一次搜索前快速做出響應(yīng)。其次,搜索引擎的設(shè)計應(yīng)基于先進的信息統(tǒng)計、數(shù)據(jù)挖掘、機器學(xué)習(xí)和知識管理等技術(shù),確保搜索引擎在運行過程中,不會將用戶輸入的關(guān)鍵字作為唯一的搜索依據(jù),而應(yīng)將重點放在發(fā)現(xiàn)用戶真實信息與數(shù)據(jù)需求的語義搜索上。第三,搜索引擎在設(shè)計過程中,應(yīng)加強系統(tǒng)個性化搜索推薦算法的科學(xué)性與經(jīng)濟性,根據(jù)用戶特點和需求為用戶創(chuàng)建個性化定制推薦模型。并設(shè)置大數(shù)據(jù)搜索信息推薦的位置、大小、內(nèi)容、目數(shù)、URL范圍和展現(xiàn)形式等參數(shù),保證所推薦數(shù)據(jù)具有較高的價值密度、可靠性和可用性。[8]
(5)搜索引擎應(yīng)保護讀者的隱私安全。讀者隱私安全保護,不僅關(guān)系讀者大數(shù)據(jù)環(huán)境閱讀活動的安全性、有效性、滿意度和可持續(xù)性,同時也涉及圖書館服務(wù)的可用性、可靠性、市場競爭力和未來發(fā)展,是大數(shù)據(jù)時代搜索引擎設(shè)計應(yīng)重點關(guān)注的問題。
首先,圖書館應(yīng)結(jié)合國家的法律、法規(guī)和行業(yè)安全規(guī)定,對圖書館管理數(shù)據(jù)、讀者個人信息、用戶行為數(shù)據(jù)和社會關(guān)系數(shù)據(jù)進行安全級別劃分。并與開發(fā)者簽署搜索引擎開發(fā)安全管理協(xié)議,通過數(shù)據(jù)屏蔽、高性能數(shù)據(jù)過濾接口等技術(shù)手段,限制搜索引擎對讀者隱私數(shù)據(jù)的采集。其次,針對搜索引擎讀取保密與隱私資料可能帶來的安全問題,圖書館管理員應(yīng)利用robots協(xié)議,將放置圖書館系統(tǒng)管理密鑰、用戶服務(wù)系統(tǒng)帳號與密碼、讀者注冊信息數(shù)據(jù)、網(wǎng)站配置目錄、讀者社會關(guān)系等敏感文件的目錄,設(shè)置為拒絕搜索引擎讀取目錄,提高保密數(shù)據(jù)存儲的安全、可靠性。第三,應(yīng)加強圖書館內(nèi)部網(wǎng)絡(luò)與用戶訪問的安全管理,防止管理員與讀者因訪問非法網(wǎng)站而導(dǎo)致搜索引擎被病毒、木馬劫持,繞過網(wǎng)絡(luò)安全防御系統(tǒng)從內(nèi)部向大數(shù)據(jù)庫發(fā)起攻擊,導(dǎo)致讀者隱私數(shù)據(jù)被泄露、截獲、竊取和篡改。
隨著大數(shù)據(jù)時代的來臨,大數(shù)據(jù)將為圖書館運營、管理和讀者服務(wù)提供有效的數(shù)據(jù)應(yīng)用和決策支持,成為關(guān)系讀者個性化服務(wù)質(zhì)量保障和圖書館可持續(xù)發(fā)展的重要因素。但是,大數(shù)據(jù)環(huán)境也存在著數(shù)據(jù)海量、種類繁多、數(shù)據(jù)價值密度低和數(shù)據(jù)知識發(fā)現(xiàn)難度大的問題。如何結(jié)合圖書館大數(shù)據(jù)環(huán)境特點和讀者服務(wù)需求,通過強化搜索引擎功能確保數(shù)據(jù)搜索過程可管、可控、經(jīng)濟和可用,已成為提高圖書館大數(shù)據(jù)時代服務(wù)能力和市場競爭力的重要途徑。同時,也是關(guān)系讀者大數(shù)據(jù)時代閱讀體驗愉悅感和滿意度的關(guān)鍵因素。
因此,只有從圖書館大數(shù)據(jù)環(huán)境特點、讀者個性化服務(wù)能力建設(shè)、用戶閱讀需求和未來可持續(xù)發(fā)展出
發(fā),在搜索引擎設(shè)計與實現(xiàn)過程中堅持安全、高效、智能和可擴展的理念,才能保證大數(shù)據(jù)搜索、挖掘和信息發(fā)現(xiàn)過程全面、高效、精確和經(jīng)濟,才能為圖書館大數(shù)據(jù)管理和讀者個性化服務(wù)提供科學(xué)、全面、經(jīng)濟、可靠的數(shù)據(jù)支持。
[參考文獻]
[1]王珊,等.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計算機學(xué)報,2011,34(10):1741-1752.
[2]殷哲,曹炬.帶差商信息的云搜索優(yōu)化算法及其收斂性分析[J].計算機科學(xué),2012,39(1): 252-255,267.
[3]陳國華,等.基于學(xué)術(shù)社區(qū)的學(xué)術(shù)搜索引擎設(shè)計[J].計算機科學(xué),2011,38(8):171-175.
[4]康波,劉勝強.基于大數(shù)據(jù)分析的互聯(lián)網(wǎng)業(yè)務(wù)用戶體驗管理[J].電信科學(xué),2013(3):32-35.
[5]王大玲,等.基于用戶搜索意圖的Web網(wǎng)頁動態(tài)泛化[J].軟件學(xué)報,2010,21(5):1083-1097.
[6]余肖生,司新霞.基于聚類分析的元搜索引擎模型[J].重慶理工大學(xué)學(xué)報(自然科學(xué)版),2011, 25(6):69-72.
[7]李伏,朱青.混合MapReduce環(huán)境下大數(shù)據(jù)劃分的查詢優(yōu)化[J].計算機科學(xué)與探索,2012,6 (10):877-887.
[8]尤川川,張桂剛.一種基于大數(shù)據(jù)的有效搜索方法[J].計算機科學(xué),2013,40(6):183-186.
[收稿日期]2013-08-12 [責(zé)任編輯]菊秋芳
[作者簡介]陳臣(1974-),男,副教授,碩士,研究方向:云計算,大數(shù)據(jù),數(shù)字圖書館建設(shè)。
[文章編號]1005-8214(2015)04-0091-03
[文獻標志碼]A
[中圖分類號]G250.76