亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop的數(shù)字圖書(shū)館云檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

        2014-07-05 06:43:26潘吳斌
        圖書(shū)館理論與實(shí)踐 2014年4期
        關(guān)鍵詞:信息檢索圖書(shū)館用戶

        ●張 艷,潘吳斌

        (南京信息工程大學(xué) a.圖書(shū)館;b.計(jì)算機(jī)與軟件學(xué)院,南京 210044)

        數(shù)字圖書(shū)館在經(jīng)歷了互聯(lián)網(wǎng)時(shí)代、Web時(shí)代、網(wǎng)格時(shí)代、Web2.O時(shí)代,己經(jīng)開(kāi)始進(jìn)入云計(jì)算時(shí)代。云計(jì)算是提供海量數(shù)據(jù)存儲(chǔ)和大規(guī)模數(shù)據(jù)處理的分布式并行技術(shù),它作為一種適合圖書(shū)館應(yīng)用的架構(gòu)模式,可以將分散的數(shù)字信息資源整合在一起,實(shí)現(xiàn)數(shù)字圖書(shū)館的集約化,為數(shù)字資源的共建共享提供了新的解決辦法?;诜植际接?jì)算的新型服務(wù)計(jì)算模式—云計(jì)算,完全可以滿足數(shù)字圖書(shū)館建設(shè)的需要,將會(huì)成為未來(lái)數(shù)字圖書(shū)館發(fā)展的新趨勢(shì)。

        1 相關(guān)應(yīng)用

        Library TechnologyGuide1 月期中 MarshallBreeding[1]做了2012年圖書(shū)館自動(dòng)化產(chǎn)業(yè)的預(yù)測(cè),2012將是接下來(lái)十年新一輪自動(dòng)化平臺(tái)轉(zhuǎn)換的開(kāi)始。尤其對(duì)大學(xué)圖書(shū)館,將是新一代圖書(shū)館自動(dòng)化平臺(tái)的轉(zhuǎn)折年。國(guó)際上,圖書(shū)館界紛紛采用云計(jì)算技術(shù)來(lái)減少成本和提高效率,比如,DuraSpace,Fedora Commons,LOCKSS,Library of Congress等機(jī)構(gòu)都相繼給出了數(shù)字圖書(shū)館的云存儲(chǔ)方案,而針對(duì)數(shù)字圖書(shū)館的云檢索系統(tǒng)是少之又少。

        OCLC(聯(lián)機(jī)計(jì)算機(jī)圖書(shū)館中心)創(chuàng)建的“Web級(jí)協(xié)作型圖書(shū)館管理服務(wù)”被公認(rèn)為是圖書(shū)館領(lǐng)域第一個(gè)云服務(wù),該服務(wù)的目的是降低圖書(shū)館費(fèi)用,促進(jìn)共同發(fā)展和提升用戶體驗(yàn)。[2]其中被視作OCLC核心的是書(shū)目數(shù)據(jù)庫(kù)WorldCat.org,匯集了全球多個(gè)國(guó)家各種類(lèi)型文獻(xiàn)的書(shū)目記錄達(dá)240638724種,館藏?cái)?shù)量達(dá)1755480247條,[3]支持對(duì)圖書(shū)資料、圖書(shū)館、列表和聯(lián)絡(luò)人等資源的檢索,提供多字段檢索,并可對(duì)年份、用戶類(lèi)型、文獻(xiàn)格式等進(jìn)行限定,提供多種檢索結(jié)果處理和分析功能,從而實(shí)現(xiàn)全世界不同圖書(shū)館和機(jī)構(gòu)資源的一站式檢索,幫助用戶找到最需要的資源。

        2 云檢索系統(tǒng)

        云檢索是從云計(jì)算延伸和發(fā)展起來(lái)的,以服務(wù)的形式向用戶提供信息檢索和訪問(wèn)。云計(jì)算包括了互聯(lián)網(wǎng)上各種服務(wù)形式的應(yīng)用以及數(shù)據(jù)中心提供這些服務(wù)的軟硬件設(shè)施,互聯(lián)網(wǎng)上的應(yīng)用服務(wù),即SaaS軟件即服務(wù),而數(shù)據(jù)中心的軟硬件設(shè)施即所謂的云。從用戶的角度來(lái)說(shuō),云檢索就是利用云計(jì)算所提供的服務(wù)模式,設(shè)計(jì)一個(gè)基于云計(jì)算平臺(tái)的檢索系統(tǒng),在豐富檢索資源、優(yōu)化檢索模式和改善檢索效果的基礎(chǔ)上,獲得更優(yōu)的檢索結(jié)果。從系統(tǒng)實(shí)現(xiàn)來(lái)看,云檢索是一種服務(wù)的交付,它將檢索對(duì)象分散在大量的對(duì)用戶透明的節(jié)點(diǎn)上,利用海量的計(jì)算能力,隱藏具體的實(shí)現(xiàn)細(xì)節(jié),把檢索內(nèi)容細(xì)化為一個(gè)個(gè)相互獨(dú)立的云標(biāo)簽,并按相關(guān)度聚集在一起,將最終結(jié)果通過(guò)高速網(wǎng)絡(luò)呈現(xiàn)給用戶。一個(gè)典型的云檢索系統(tǒng)架構(gòu)包括一個(gè)處理節(jié)點(diǎn)和大量的元數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)及文件系統(tǒng)的存儲(chǔ)節(jié)點(diǎn)。

        與傳統(tǒng)的檢索系統(tǒng)不同的是,云檢索系統(tǒng)是經(jīng)過(guò)云計(jì)算理念發(fā)展而來(lái)的,即實(shí)現(xiàn)每個(gè)細(xì)節(jié)的虛擬化和共享,把多個(gè)個(gè)體整合為一個(gè)具有強(qiáng)大檢索能力的檢索系統(tǒng)。比如,各個(gè)圖書(shū)館的檢索系統(tǒng)可以整合成一個(gè)巨大的信息檢索平臺(tái),實(shí)現(xiàn)區(qū)域或行業(yè)整合的圖書(shū)館信息檢索平臺(tái),為用戶提供全面、專(zhuān)業(yè)的檢索服務(wù)。

        3 圖書(shū)館檢索平臺(tái)的現(xiàn)狀和需求

        3.1 圖書(shū)館檢索系統(tǒng)面臨的問(wèn)題

        圖書(shū)館檢索系統(tǒng)是圖書(shū)館信息化建設(shè)的重要部分。傳統(tǒng)的圖書(shū)館檢索系統(tǒng)可以支撐一定的系統(tǒng)應(yīng)用,但隨著圖書(shū)館書(shū)目總量的迅速增長(zhǎng)和對(duì)檢索系統(tǒng)服務(wù)要求的提升,傳統(tǒng)的檢索系統(tǒng)一般只提供基本的檢索服務(wù),用戶更高的檢索服務(wù)體驗(yàn)得不到滿足,其中比較突出的問(wèn)題有以下幾方面。(1)數(shù)據(jù)庫(kù)問(wèn)題。圖書(shū)館書(shū)目信息的種類(lèi)和數(shù)量繁多,由于不同數(shù)據(jù)庫(kù)之間往往具有不同的檢索系統(tǒng)和使用方式,用戶需要應(yīng)用不同的檢索方式,使得圖書(shū)館檢索系統(tǒng)的使用較為繁瑣。(2)檢索系統(tǒng)孤立。每個(gè)圖書(shū)館的檢索系統(tǒng)相互獨(dú)立,使得大部分檢索系統(tǒng)中的圖書(shū)信息冗余和不全面,應(yīng)盡快開(kāi)發(fā)圖書(shū)館統(tǒng)一檢索系統(tǒng)。(3)缺乏智能型。用戶查找時(shí)需要輸入準(zhǔn)確的檢索詞才能檢索到,容易產(chǎn)生遺漏,多數(shù)的檢索系統(tǒng)缺少必要的智能檢索。(4)安全可靠性差、IT成本高。由于圖書(shū)館信息技術(shù)部門(mén)畢竟不是專(zhuān)業(yè)的IT部門(mén),病毒和黑客防護(hù)能力一般,數(shù)據(jù)容易被竊取和毀壞;而且軟硬件維護(hù)及維護(hù)人員的成本相對(duì)較高,對(duì)于一般圖書(shū)館也是一筆不小的開(kāi)支。

        3.2 云檢索系統(tǒng)給圖書(shū)館帶來(lái)的好處

        圖書(shū)館的書(shū)目信息越來(lái)越大,導(dǎo)致檢索系統(tǒng)響應(yīng)越來(lái)越慢,而且由于檢索系統(tǒng)缺乏智能型,檢索結(jié)果不能令人滿意。云檢索系統(tǒng)提供海量的存儲(chǔ)和計(jì)算能力,為巨大的書(shū)目信息存儲(chǔ)和檢索所需的計(jì)算提供了廣闊的空間,為圖書(shū)館日趨嚴(yán)峻的信息檢索問(wèn)題找到了解決途徑。圖書(shū)館應(yīng)用云檢索系統(tǒng)具有如下優(yōu)勢(shì)。(1)一站式檢索。提供統(tǒng)一便捷的檢索方式,進(jìn)行快速的跨庫(kù)和跨資源檢索,以統(tǒng)一的形式呈現(xiàn)相關(guān)度排序的結(jié)果;還整合其他服務(wù),包括館際互借、文獻(xiàn)傳遞等。(2)個(gè)性化服務(wù)。為讀者建立個(gè)人賬戶,允許讀者創(chuàng)建自定義的檢索清單,為讀者提供一定的空間,供其保存檢索歷史等其他標(biāo)簽信息。(3)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)。引進(jìn)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)豐富圖書(shū)館文獻(xiàn)信息的內(nèi)容和形式,緊密連接各數(shù)據(jù)庫(kù)與檢索系統(tǒng),構(gòu)成一個(gè)有機(jī)的整體,便捷地進(jìn)行信息檢索。(4)智能檢索。使檢索系統(tǒng)具有強(qiáng)大的“智能性”,如通過(guò)統(tǒng)計(jì)借閱和查詢記錄、檢索詞的同義轉(zhuǎn)換等。

        4 構(gòu)建圖書(shū)館的云檢索系統(tǒng)

        4.1 圖書(shū)館云檢索系統(tǒng)架構(gòu)

        構(gòu)建圖書(shū)館的云檢索系統(tǒng),首先要建立一個(gè)適合圖書(shū)館信息檢索的分布式檢索架構(gòu),根據(jù)圖書(shū)館信息檢索的需求,我們借助技術(shù)較為成熟的開(kāi)源云計(jì)算平臺(tái) Hadoop,[4]構(gòu)建一個(gè)基于 HDFS、MapReduce、Hive相結(jié)合的圖書(shū)館云檢索架構(gòu)。Hadoop是開(kāi)源組織A-pache的一個(gè)具有高可靠性和良好擴(kuò)展性的分布式系統(tǒng);分布式文件系統(tǒng)HDFS能夠高容錯(cuò)、可靠地存儲(chǔ)海量數(shù)據(jù);MapReduce[5]是一個(gè)分布式計(jì)算模型,根據(jù)檢索要求對(duì)書(shū)目信息進(jìn)行分布式并行計(jì)算;Hive是一個(gè)分布式的倉(cāng)庫(kù),用于保存海量的書(shū)目信息。圖書(shū)館云檢索系統(tǒng)一般分為四層,分別為訪問(wèn)層、應(yīng)用接口層、基礎(chǔ)管理層和存儲(chǔ)層(如圖1所示)。

        圖1 圖書(shū)館云檢索系統(tǒng)模型結(jié)構(gòu)

        (1)訪問(wèn)層。圖書(shū)館用戶通過(guò)公用應(yīng)用接口登錄圖書(shū)館云檢索系統(tǒng),讀者享受各種信息檢索服務(wù),而各個(gè)圖書(shū)館向檢索系統(tǒng)中加載書(shū)目信息。(2)應(yīng)用接口層。應(yīng)用接口層是云檢索系統(tǒng)最靈活的組件,圖書(shū)館的云服務(wù)提供商根據(jù)實(shí)際業(yè)務(wù)類(lèi)型提供不同的應(yīng)用服務(wù),比如圖書(shū)館信息檢索平臺(tái),各種web服務(wù),還提供公共的API供開(kāi)發(fā)者來(lái)擴(kuò)展云檢索平臺(tái)。(3)基礎(chǔ)管理層?;A(chǔ)管理層是云存儲(chǔ)最核心的組件,基礎(chǔ)管理層通過(guò)分布式文件系統(tǒng)HDFS、分布式計(jì)算模型MapReduce和分布式數(shù)據(jù)倉(cāng)庫(kù)Hive等技術(shù),實(shí)現(xiàn)云檢索系統(tǒng)中設(shè)備之間的協(xié)同工作,對(duì)外提供統(tǒng)一的服務(wù),并提供強(qiáng)大的信息檢索能力。(4)存儲(chǔ)層。存儲(chǔ)層是系統(tǒng)最基礎(chǔ)的組件,可以是NAS和iSCSI等存儲(chǔ)設(shè)備,云檢索系統(tǒng)中的元數(shù)據(jù)存儲(chǔ)設(shè)備和文件系統(tǒng)存儲(chǔ)設(shè)備往往數(shù)量龐大且分布在不同地域。存儲(chǔ)設(shè)備由一個(gè)統(tǒng)一的設(shè)備管理系統(tǒng)管理,采用分布式文件系統(tǒng)Hadoop實(shí)現(xiàn)存儲(chǔ)設(shè)備的邏輯虛擬化管理,以及硬件設(shè)備的狀態(tài)監(jiān)控和故障維護(hù)等。

        4.2 基于Hadoop的圖書(shū)館云檢索系統(tǒng)具體設(shè)計(jì)

        通過(guò)在Hadoop平臺(tái)上搭建HDFS、MapReduce和Hive系統(tǒng)來(lái)實(shí)現(xiàn)圖書(shū)館的書(shū)目信息檢索。其中,Hive負(fù)責(zé)書(shū)目信息關(guān)鍵字的存儲(chǔ)和統(tǒng)計(jì)分析,MapReduce負(fù)責(zé)處理實(shí)際的統(tǒng)計(jì)分析計(jì)算,HDFS主要負(fù)責(zé)實(shí)際數(shù)據(jù)的存儲(chǔ),而Hadoop負(fù)責(zé)設(shè)備的虛擬化與管理。基于Hadoop的圖書(shū)館云檢索系統(tǒng)如圖2所示。

        圖2 基于Hadoop的圖書(shū)館云檢索系統(tǒng)示意圖

        圖書(shū)館的云檢索系統(tǒng)中HDFS架構(gòu)如圖3所示,并對(duì)其進(jìn)行了具體的描述如下。(1)控制節(jié)點(diǎn)可以看成HDFS中的管理者,負(fù)責(zé)管理文件系統(tǒng)的命名空間、集群配置和存儲(chǔ)塊的復(fù)制等??刂乒?jié)點(diǎn)將文件系統(tǒng)的元數(shù)據(jù)存儲(chǔ)在內(nèi)存中,元數(shù)據(jù)主要包括文件信息、文件對(duì)應(yīng)文件塊的信息和文件塊在數(shù)據(jù)節(jié)點(diǎn)的信息等。(2)數(shù)據(jù)節(jié)點(diǎn)是文件存儲(chǔ)的基本組成部分,它將以塊文件存儲(chǔ)到本地文件系統(tǒng),保存塊文件的元數(shù)據(jù),并周期性地將所有存在的塊信息發(fā)送給控制節(jié)點(diǎn)。(3)客戶的主要功能是獲取分布式文件系統(tǒng)HDFS中的文件。

        圖3 HDFS架構(gòu)

        圖書(shū)館的云檢索系統(tǒng)中MapReduce架構(gòu)[6]如圖4所示,作業(yè)節(jié)點(diǎn)全權(quán)負(fù)責(zé)調(diào)度作業(yè)的運(yùn)行。任務(wù)節(jié)點(diǎn)負(fù)責(zé)具體任務(wù)的執(zhí)行,作業(yè)被分成多個(gè)切片,任務(wù)節(jié)點(diǎn)負(fù)責(zé)對(duì)輸入切片數(shù)據(jù)進(jìn)行映射和規(guī)約計(jì)算??蛻艟褪窍騇apReduce提交檢索查詢的計(jì)算作業(yè)。HDFS提供存儲(chǔ)功能,用于向所有的節(jié)點(diǎn)共享作業(yè)所需的資源。

        圖4 MapReduce架構(gòu)

        圖書(shū)館的云檢索系統(tǒng)中Hive架構(gòu)[7]如圖5所示,并對(duì)其功能進(jìn)行了具體的描述如下。(1)解析器用于分析查詢,在不同的查詢塊和查詢表達(dá)式上進(jìn)行語(yǔ)義分析,并最終通過(guò)從元數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)中查找表與分區(qū)的元數(shù)據(jù)生成執(zhí)行計(jì)劃。(2)元數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)存儲(chǔ)數(shù)據(jù)倉(cāng)庫(kù)里所有的各種表與分區(qū)的結(jié)構(gòu)化信息,包括列與列類(lèi)型信息,序列化器與反序列化器,從而能夠讀寫(xiě)HDFS中的數(shù)據(jù)。(3)執(zhí)行器執(zhí)行由解析器創(chuàng)建的執(zhí)行計(jì)劃。此計(jì)劃是一個(gè)關(guān)于階段的有向無(wú)環(huán)圖。執(zhí)行引擎管理不同階段的依賴(lài)關(guān)系,并在合適的系統(tǒng)組件上執(zhí)行這些階段。(4)處理節(jié)點(diǎn)是接受查詢的組件,處理和接受查詢命令。(5)客戶主要有命令行接口和基于Web的接口訪問(wèn)Hive。

        圖5 Hive架構(gòu)

        4.3 實(shí)驗(yàn)分析

        本實(shí)驗(yàn)使用9臺(tái)計(jì)算機(jī)搭建云環(huán)境,實(shí)驗(yàn)平臺(tái)中電腦 CPU為 Intel Core 2.66GHz,內(nèi)存為 2G,硬盤(pán)120G,通過(guò)100Mbps交換機(jī)局域網(wǎng)連接。實(shí)驗(yàn)采用操作系統(tǒng)為CentOS5.4(Red Hat Enterprise Linux 4.1.2)系統(tǒng),相關(guān)軟件為Jdk-1.6.0,Hadoop-0.19.2和Hive-0.4.1版本。SQL server 2005安裝在Window xp professional,硬件實(shí)驗(yàn)平臺(tái)中電腦CPU為Intel Core 2.66GHz,內(nèi)存為2G,硬盤(pán)240G,虛擬內(nèi)存設(shè)置為2G。數(shù)據(jù)集1~8分別對(duì)應(yīng)1百萬(wàn)條-8百萬(wàn)條記錄。將這些數(shù)據(jù)集分別在SQL server和不同機(jī)器數(shù)的Hive平臺(tái)上執(zhí)行檢索操作。

        實(shí)驗(yàn)結(jié)果表明在8臺(tái)機(jī)器組成的Hive平臺(tái)和SQL server平臺(tái)上對(duì)數(shù)據(jù)集8執(zhí)行檢索任務(wù)時(shí),Hive的執(zhí)行時(shí)間略微少于SQL server,而且Hive增長(zhǎng)趨勢(shì)明顯小于SQL server。選擇更大數(shù)據(jù)量或搭建計(jì)算機(jī)數(shù)更多的平臺(tái)時(shí),Hive平臺(tái)的性能將具有更大的優(yōu)勢(shì)(見(jiàn)圖6)。

        通過(guò)開(kāi)源云平臺(tái)Hadoop搭建圖書(shū)館的云檢索系統(tǒng),借助Hadoop的高容錯(cuò)、高可靠、高可擴(kuò)展等特性,圖書(shū)館用戶可以放心地將海量的書(shū)目信息存儲(chǔ)到云平臺(tái)上,并提供可靠的信息檢索服務(wù)。Hive用來(lái)分析統(tǒng)計(jì)海量的書(shū)目信息,供用戶快速的檢索。我們采用HDFS、MapReduce和Hive相結(jié)合的方式提供強(qiáng)大的圖書(shū)信息檢索服務(wù),實(shí)現(xiàn)圖書(shū)檢索一站式服務(wù)、用戶個(gè)性化服務(wù)和智能檢索等。

        圖6

        [1] What's In Store for the Library Automation Industry in 2012?[EB/OL].[2012-12-07].http://www.alatechsource.org/blog/2012/01/whats-in-store-for-the-library-automation-industry-in-2012.html.

        [2]陸穎雋,等.美國(guó)圖書(shū)館的云服務(wù)[J].圖書(shū)與情報(bào),2012(3):16-21.

        [3]王文清,陳凌.CALIS數(shù)字圖書(shū)館云服務(wù)平臺(tái)模型[J].大學(xué)圖書(shū)館學(xué)報(bào),2009(4):13-18.

        [4] White T.Hadoop:TheDefinitiveGuide:TheDefinitiveGuide[M].O'ReillyMedia,2009.

        [5] Jeffrey Dean,Sanjay Ghemawat.Map Reduce Simplified Data Processing on Large Clusters[C].Communications of the ACM, New York, USA, 2008:107-113.

        [6] FangWei,PanWubin.Map ReduceProgrammingModel, Methods and Applications[J].IETE Technical Review,2012,29(5):380-387.

        [7] Thusoo A,etal.Hive:AWarehousingSolution Over a Map-Reduce Framework [J].Proceedings of the VLDBEndowment,2009,2 (2) :1626-1629.

        猜你喜歡
        信息檢索圖書(shū)館用戶
        圖書(shū)館
        關(guān)注用戶
        飛躍圖書(shū)館
        醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
        新聞傳播(2016年18期)2016-07-19 10:12:06
        關(guān)注用戶
        關(guān)注用戶
        基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究
        如何獲取一億海外用戶
        去圖書(shū)館
        教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計(jì)與實(shí)施
        河南科技(2014年11期)2014-02-27 14:10:19
        中文字幕国产精品一二三四五区| 2021国产精品久久| 台湾佬中文偷拍亚洲综合| av一区二区在线网站| 成人试看120秒体验区| 日日碰狠狠添天天爽超碰97| 成人午夜视频一区二区无码| 男女动态视频99精品| 日韩av无码社区一区二区三区| 欧美大肥婆大肥bbbbb| 粉嫩极品国产在线观看| 国产熟妇一区二区三区网站| 亚洲国产精品久久久av| 亚洲 精品 综合 精品 自拍| 久久精品国产亚洲Av无码偷窍| av免费在线观看在线观看| 青春草免费在线观看视频| 欧美成人午夜精品久久久| 国产在线无码免费视频2021| 国产免费一区二区三区在线观看| 久久久久亚洲av成人人电影| 久久久久久免费毛片精品| 亚洲色www无码| 男女激情视频网站免费在线| 亚洲精品无码久久久久去q| 可以免费观看的毛片| 亚洲国产精品色婷婷久久| 蜜桃av在线免费网站| 中文字幕人妻熟女人妻洋洋| 亚洲高清有码在线观看| 女同av一区二区三区| 中文字幕一区二区三区亚洲| 亚洲av无码国产精品色午夜软件 | 丰满熟妇乱又伦| 国产精品乱子伦一区二区三区 | 区无码字幕中文色| 青青草小视频在线观看| 无码少妇精品一区二区免费动态 | 国产精品自拍首页在线观看| 亚洲国产成人久久精品不卡| 国产 字幕 制服 中文 在线|