王世華 陳光耀
(1上海大學(xué)圖書館,上海 200444;2上海大學(xué)材料科學(xué)與工程學(xué)院,上海 200072)
隨著我國全面進(jìn)入信息時代,各種技術(shù)進(jìn)入高速發(fā)展階段,圖書館的智慧化建設(shè)得到了技術(shù)支持并全面展開。圖書館已經(jīng)由傳統(tǒng)的服務(wù)模式變成了可以進(jìn)行大規(guī)模的虛擬服務(wù)。這次新冠疫情發(fā)生以來,各高校的智慧圖書館共享系統(tǒng)發(fā)揮了重要作用,老師和學(xué)生足不出戶就能上網(wǎng)學(xué)習(xí)、資源利用。用戶在互聯(lián)網(wǎng)及物理空間上的行為軌跡、言論交流、檢索閱讀等等都可能被捕捉,都會留下數(shù)據(jù)記錄痕跡。由“數(shù)字化生存”到“透明化生存”,“指紋”到“數(shù)紋”,無不彰顯大數(shù)據(jù)的魅力[1]。傳統(tǒng)圖書館服務(wù)是進(jìn)行資源的分類存儲,而智慧圖書館通過對收集的大數(shù)據(jù)信息進(jìn)行整合、分析,來挖掘出有用的信息,通過分析用戶使用軌跡來預(yù)測用戶需求,有針對性的為用戶提供智慧服務(wù),提高了圖書館的管理效率和減少了圖書館的資金成本。應(yīng)用現(xiàn)在先進(jìn)的跨系統(tǒng)hadoop信息技術(shù),構(gòu)建智慧圖書館大數(shù)據(jù)生態(tài)系統(tǒng),該系統(tǒng)還可以實(shí)現(xiàn)館際互聯(lián),業(yè)務(wù)協(xié)同、信息共享。只有利用好大數(shù)據(jù)優(yōu)勢來推進(jìn)圖書館智慧化建設(shè),才能促進(jìn)我國智慧圖書館建設(shè)去虛向?qū)?。這些變化給智慧圖書館的創(chuàng)新發(fā)展帶來了新的變革。
智慧圖書館大數(shù)據(jù)生態(tài)系統(tǒng)可以發(fā)揮信息技術(shù)的優(yōu)勢,加強(qiáng)信息資源的整合利用。將各種數(shù)據(jù)有機(jī)結(jié)合,使圖書館大數(shù)據(jù)價值獲得最大化,促進(jìn)圖書館管理方式、服務(wù)理念更加智慧化。只有這樣才能提升圖書館服務(wù)能力和管理水平,給用戶帶來更多認(rèn)同感和獲得感,才能增強(qiáng)圖書館活力,實(shí)現(xiàn)高效、健康的發(fā)展。
2008年,IBM提出了智慧地球的概念,我國在“十二五”和“十三五”規(guī)劃中明確提出了高校智慧校園,圖書館作為高校智慧校園建設(shè)一部分受到重視。現(xiàn)有的傳統(tǒng)的圖書館系統(tǒng)將由智慧圖書館大數(shù)據(jù)生態(tài)系統(tǒng)逐漸取代。智慧圖書館是在數(shù)字圖書館基礎(chǔ)上發(fā)展起來的,利用新一代的信息技術(shù)如:大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)等構(gòu)建全新的模式,為用戶提供全新的服務(wù),如智能檢索、網(wǎng)絡(luò)預(yù)約、智能推薦等,滿足現(xiàn)階段的用戶需求[2]。智慧圖書館還以技術(shù)為主不斷進(jìn)行融合創(chuàng)新,構(gòu)建全新的智能化系統(tǒng),為用戶提供個性化服務(wù),提升資源的利用效率,適應(yīng)新時代發(fā)展[3]。
智慧圖書館與傳統(tǒng)圖書館相比,更加注重用戶體驗(yàn),運(yùn)用大數(shù)據(jù)進(jìn)行分析與對比,來進(jìn)行精準(zhǔn)化的推送服務(wù),為用戶提供需求智慧感知,實(shí)現(xiàn)圖書館的智慧化管理,在圖書館角度也能減少管理成本等[4]。智慧圖書館不僅提供資源的服務(wù),而且通過用戶和知識的融合,為用戶營造一個和諧的知識生態(tài)環(huán)境,提供更高層次的知識服務(wù)。因此,對于智慧圖書館而言,其核心要素就是用戶和圖書能夠?qū)崿F(xiàn)相互交融,用戶隨時隨地都能享受圖書館資源[5]。
現(xiàn)在圖書館已經(jīng)由傳統(tǒng)的資源存儲形式發(fā)展到以用戶為中心,進(jìn)行大數(shù)據(jù)分析整合,自主為用戶提供個性化信息服務(wù)的智慧圖書館。國外已經(jīng)在積極的探索智慧圖書館,美國紐約21世紀(jì)國家圖書館是世界上首個高科技圖書館和信息庫。圖書館主體部分是100多個新式電腦工作臺,它們都通過本地和遠(yuǎn)程的終端與Internet連接,用戶隨時通過圖書館相互查詢所需要的圖書報刊、電子文獻(xiàn)等各種信息資料,包括文字、圖片甚至聲像多媒體的服務(wù)[6]。同時期法國的弗朗索瓦·密特朗國家圖書館、日本電氣公司(NEC)開發(fā)出的“電子圖書館”系統(tǒng)等,都在智慧圖書館領(lǐng)域里作出了有益的實(shí)踐。1996年12月上海圖書館新館是國內(nèi)首家信息一體化服務(wù)的現(xiàn)代圖書館,在某些方面達(dá)到了智能化的程度[6]。我國在智慧圖書館建設(shè)方面起步晚,近幾年我國高校智慧圖書館建設(shè)尚處于還處在起步階段,主要還是圖書館系統(tǒng)、微服務(wù)及手機(jī)App等形式將館內(nèi)信息資源推送給用戶,還做不到為用戶能提供個性化服務(wù),并不能稱為真正的智慧圖書館。隨著新一代信息技術(shù)大數(shù)據(jù)、云計算的快速發(fā)展,“大數(shù)據(jù)+微服務(wù)”的模式融入圖書館個性化服務(wù)中,為構(gòu)建圖書館個性化服務(wù)體系提供了技術(shù)保障[7]??梢园阎腔蹐D書館當(dāng)作一個綜合的大數(shù)據(jù)生態(tài)系統(tǒng),利用大數(shù)據(jù)分析與數(shù)據(jù)挖掘技術(shù),可自動檢索出用戶需求的資源信息、查詢的問題,可以以報告形式或可視化形式呈現(xiàn)出來,針對性的為用戶提供個性化服務(wù)。高校圖書館之間進(jìn)行信息交互、資源共享,可實(shí)現(xiàn)讓用戶享受一站式自助服務(wù)。這樣就提升館藏的利用效率,使高校圖書館發(fā)揮其資源配置及共享服務(wù)優(yōu)越性,在軟硬件設(shè)施上是廣泛互聯(lián),在資源上面是融合共享的。并且未來智慧圖書館可以提供可視化的決策信息、可預(yù)測的智慧服務(wù)。上述這些都是智慧圖書館今后的發(fā)展方向。
智慧圖書館大數(shù)據(jù)生態(tài)系統(tǒng)是通過信息技術(shù)與大數(shù)據(jù)技術(shù),以用戶為中心把各種信息與圖書館整合到一起形成一個新的生態(tài)系統(tǒng),不僅信息資源共享,軟硬件設(shè)施也可共享。不僅僅體現(xiàn)在管理與服務(wù)技術(shù)上創(chuàng)新,更是服務(wù)理念、思維、模式上創(chuàng)新,是智慧圖書館的拓展與延伸。
3.1.1 大數(shù)據(jù)生態(tài)系統(tǒng)開發(fā)
圖書館是學(xué)科、專業(yè)、行業(yè)和領(lǐng)域交叉現(xiàn)象最頻繁的環(huán)境,圖書館管理與服務(wù)一直處于跨學(xué)科、跨領(lǐng)域的狀態(tài)中。傳統(tǒng)圖書館管理的資源驅(qū)動型服務(wù)方式已經(jīng)阻礙了圖書館的發(fā)展,而智慧圖書館,用戶也可參與到圖書館管理、服務(wù)、內(nèi)容設(shè)計當(dāng)中,非常契合當(dāng)今時代的要求。隨著智能圖書館不斷更新發(fā)展,圖書館業(yè)務(wù)的不斷更新,資源數(shù)據(jù)也呈海量式增長,那么面臨的問題就是,如何將多種來源,各種異構(gòu)的數(shù)據(jù)通過系統(tǒng)整合到一個系統(tǒng),未來移動服務(wù)、社交網(wǎng)絡(luò)等新的應(yīng)用都需要在這個統(tǒng)一的系統(tǒng)上展開。以上所有的應(yīng)用,構(gòu)成了一個大數(shù)據(jù)的生態(tài)系統(tǒng),在這個系統(tǒng)上,全面涵蓋大數(shù)據(jù)和分析的各個應(yīng)用,采用統(tǒng)一架構(gòu),集成到一個系統(tǒng)[8]。智慧圖書館系統(tǒng)對數(shù)據(jù)應(yīng)用的安全性、可靠性,穩(wěn)定性的要求會越來越高。
3.1.2 智慧圖書館中大數(shù)據(jù)管理
隨著智能圖書館業(yè)務(wù)越來越廣泛,除去傳統(tǒng)的圖書資源外,未來移動數(shù)據(jù)、視頻數(shù)據(jù)等結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)會越來越多,數(shù)據(jù)量和維度也會海量增長。數(shù)據(jù)是大數(shù)據(jù)分析的基礎(chǔ),要進(jìn)行大數(shù)據(jù)資源建設(shè),在統(tǒng)一協(xié)同環(huán)境下進(jìn)行大數(shù)據(jù)采集、存儲、管理及分析處理都將面臨著前所未有的挑戰(zhàn)。智慧圖書館中大數(shù)據(jù)管理生態(tài)系統(tǒng)是高度整合的實(shí)時數(shù)據(jù)處理系統(tǒng),應(yīng)具備以下特點(diǎn),如圖1所示。①對海量數(shù)據(jù)進(jìn)行采集,需要建立一個系統(tǒng),可以捕獲和管理大數(shù)據(jù)的所有維度,整合數(shù)據(jù)孤島,在盡量不損失價值的情況下減少數(shù)據(jù)的規(guī)模,像數(shù)據(jù)的清洗、去除等等。②對海量數(shù)據(jù)進(jìn)行有效管理,海量數(shù)據(jù)存儲難度大,查詢分析效率較低,要有效利用分布式的集群完成數(shù)據(jù)的存儲和計算,在統(tǒng)一的系統(tǒng)中進(jìn)行數(shù)據(jù)建模、計算,并利用數(shù)據(jù)倉庫技術(shù)降低數(shù)據(jù)分析的復(fù)雜度。③大數(shù)據(jù)決策與預(yù)測應(yīng)用,利用數(shù)據(jù)挖掘等相關(guān)技術(shù),挖掘行業(yè)信息資源價值,提高領(lǐng)域大數(shù)據(jù)的利用率。所有可使用數(shù)據(jù)的人,實(shí)時獲得分析結(jié)果,如借閱數(shù)據(jù),你只需用自然語言輸入查詢條件,系統(tǒng)提供實(shí)時解決方案,就會一一呈現(xiàn)出來[8]。
圖1 智慧圖書館大數(shù)據(jù)生態(tài)系統(tǒng)特點(diǎn)
大數(shù)據(jù)生態(tài)系統(tǒng)是智慧圖書館發(fā)展的全新服務(wù)模式。圖書館是跨學(xué)科、專業(yè)、行業(yè)和領(lǐng)域的有機(jī)融合,尤其需要建立起開放式的大數(shù)據(jù)知識服務(wù)生態(tài)系統(tǒng),好圖書館與外部生態(tài)體系的無縫銜接與有機(jī)融合。使圖書館管理與服務(wù)由用戶需求來驅(qū)動。構(gòu)建全新的大數(shù)據(jù)系統(tǒng)智能系統(tǒng):它可以借助大數(shù)據(jù)處理技術(shù),靈活方便地從已有海量數(shù)據(jù)資源中抓取有用的數(shù)據(jù),為資源建設(shè)與用戶服務(wù)提供數(shù)據(jù)支撐。并且通過對圖書館的大數(shù)據(jù)進(jìn)行分析進(jìn)一步提供資源共享與決策服務(wù)、交易和協(xié)作的智慧系統(tǒng),強(qiáng)調(diào)完整的業(yè)務(wù)流程管理能力和效率。提供嵌入分析環(huán)境,融入用戶施作過程的預(yù)見性服務(wù)。大數(shù)據(jù)的核心就是預(yù)測,可即時獲取可分析的數(shù)據(jù),有利于提高對用戶需求預(yù)測的實(shí)時性,它把數(shù)學(xué)算法運(yùn)用到海量的數(shù)據(jù)上來預(yù)測事情發(fā)生的可能性,以便提供具有前瞻性服務(wù)[9]。
充分利用高校圖書館的大數(shù)據(jù)資源,因Hadoop具有高效性、高擴(kuò)展性、高可靠性和高容錯性,所以采用基于Hadoop分布式架構(gòu)數(shù)據(jù)工具進(jìn)行分析,來為用戶提供可預(yù)見的智慧服務(wù)。智慧圖書館大數(shù)據(jù)信息分析流程圖如圖2所示。
圖2 智慧圖書館大數(shù)據(jù)信息分析流程
高校圖書館每天產(chǎn)生的信息量較大,圖書資源、光盤、期刊等資源外還有大量的網(wǎng)絡(luò)資源、視頻信息等等,這些數(shù)據(jù)結(jié)構(gòu)類型多樣,有些數(shù)據(jù)還呈現(xiàn)出孤立性和無序性,隨著數(shù)據(jù)量的逐步增多,處理這些海量數(shù)據(jù)變成了一項(xiàng)難題?,F(xiàn)應(yīng)用現(xiàn)有的hadoop數(shù)據(jù)集成等技術(shù),對數(shù)據(jù)源進(jìn)行數(shù)據(jù)的存儲與處理,對采集的海量數(shù)據(jù)進(jìn)行分布式集群存儲,進(jìn)行數(shù)據(jù)清洗、查詢和數(shù)據(jù)挖掘,得出用戶信息模型,可以對數(shù)據(jù)進(jìn)行高效管理,從而為用戶的個性化需求提供服務(wù)。本文的大數(shù)據(jù)生態(tài)系統(tǒng)借助數(shù)據(jù)倉庫技術(shù),從已知的隱形信息發(fā)現(xiàn)有用的信息,進(jìn)而預(yù)測用戶需求。對用戶需求、未來閱讀模式發(fā)展趨勢、服務(wù)系統(tǒng)運(yùn)行、安全隱患和市場環(huán)境變化進(jìn)行智慧分析和預(yù)測,并對圖書館個性化智慧服務(wù)的模式、策略、內(nèi)容和安全防范措施進(jìn)行決策與評估[10]。
智慧圖書館大數(shù)據(jù)生態(tài)系統(tǒng)利用現(xiàn)代的信息技術(shù)來實(shí)現(xiàn)圖書館云服務(wù)系統(tǒng),并可以在虛擬云存儲中建立高校共享服務(wù)架構(gòu),以滿足高校圖書館個性與共性的需求。存儲設(shè)備之間是共享的,不僅可以消除系統(tǒng)異構(gòu)、地理等原因造成的共享困難,而且可以實(shí)現(xiàn)資源的統(tǒng)一組織和調(diào)度,還可以大大減少對存儲設(shè)備的重復(fù)投資,提高存儲設(shè)備和資源的利用。智慧圖書館總體設(shè)計框架如圖3所示。
圖3 智慧圖書館大數(shù)據(jù)生態(tài)系統(tǒng)的總體架構(gòu)
本地智慧圖書館系統(tǒng)采用Hadoop框架,數(shù)據(jù)庫將放入虛擬環(huán)境的資源加載到分布式文件系統(tǒng)中,建立起圖書館與用戶多維的交互模式。當(dāng)用戶發(fā)起請求時,它將生成函數(shù)以進(jìn)行搜索,在子節(jié)點(diǎn)中并行執(zhí)行任務(wù)搜索,最后輸出結(jié)果。本地智慧圖書館包括一個主節(jié)點(diǎn)和多個子節(jié)點(diǎn),主要是圖書、用戶、移動媒體、傳感器等具有信息感知能力的節(jié)點(diǎn),還包括有數(shù)據(jù)獲取與后期處理、智慧服務(wù)系統(tǒng)。系統(tǒng)主要通過信息技術(shù)與語義技術(shù),對元數(shù)據(jù)進(jìn)行語義抽取和副本用來容錯處理。主節(jié)點(diǎn)使用元數(shù)據(jù)進(jìn)行語義抽取,子節(jié)點(diǎn)通過副本實(shí)現(xiàn)容錯,并采用節(jié)點(diǎn)動態(tài)聯(lián)接技術(shù),這樣可以減少系統(tǒng)擴(kuò)展的工作量。
集成大數(shù)據(jù)生態(tài)系統(tǒng)聚集了不同的本地圖書館智慧服務(wù),并為每個本地圖書館智慧服務(wù)提供了不同的開放接口。集成大數(shù)據(jù)生態(tài)系統(tǒng)采用統(tǒng)一的接口托管,并為每個圖書館提供統(tǒng)一的接口服務(wù)。本地圖書館智慧服務(wù)系統(tǒng)都能通過云與集成生態(tài)系統(tǒng)相互連接起來,通過云的集群技術(shù)將現(xiàn)有設(shè)備連接起來,那么每個圖書館都可以使用集成生態(tài)系統(tǒng)中已有的大量廉價硬件設(shè)施,那么該系統(tǒng)就構(gòu)成具有巨大計算和存儲容量的圖書館應(yīng)用服務(wù)器。
本文利用Hadoop來構(gòu)建一個智慧圖書館大數(shù)據(jù)生態(tài)系統(tǒng),Hadoop生態(tài)系統(tǒng)在處理大數(shù)據(jù)的存儲、分析、管理等方面有顯著的優(yōu)勢,而Hadoop生態(tài)系統(tǒng)是采用集群分布式進(jìn)行大數(shù)據(jù)存儲和計算,并還有良好的兼容性,很多開源大數(shù)據(jù)框架都依賴于它,因此采用Hadoop生態(tài)系統(tǒng)來構(gòu)建。如圖4所示。
圖4 基于Hadoop智慧圖書館大數(shù)據(jù)的生態(tài)系統(tǒng)
針對圖書館的大數(shù)據(jù)復(fù)雜度高,多維及海量管理需求,所應(yīng)用的數(shù)據(jù)表示形式、數(shù)據(jù)傳輸協(xié)議、通信規(guī)范以及后端處理應(yīng)用系統(tǒng)種類都是非常復(fù)雜的,如何使得這樣一個復(fù)雜的應(yīng)用系統(tǒng)能夠平穩(wěn)可靠的工作,管理控制靈活[11]。就要結(jié)合自己業(yè)務(wù)需求及數(shù)據(jù)系統(tǒng)技術(shù)架構(gòu),來選擇一個合適的框架與方案Hadoop是一個集群數(shù)據(jù)管理系統(tǒng)是大量工具集合,它包含大量的組件,從數(shù)據(jù)存儲到數(shù)據(jù)集成、數(shù)據(jù)處理以及數(shù)據(jù)分析師的專用工具,因此應(yīng)該將Hadoop歸類為一個生態(tài)系統(tǒng)。Hadoop集群生態(tài)系統(tǒng)技術(shù)方面可提供服務(wù)有HDFS和Spark等關(guān)鍵服務(wù),HDFS是分布式存儲器主要應(yīng)用于離線處理,是Hadoop生態(tài)系統(tǒng)中的重要一員,主要用于海量結(jié)構(gòu)化數(shù)據(jù)存儲,HDFS具有良好的可擴(kuò)展性,適合于批處理并具備高可靠性,但不支持隨機(jī)查找,不適合實(shí)時數(shù)據(jù)訪問。Spark可以是一個子生態(tài)主要應(yīng)用實(shí)時處理,Spark可以擬補(bǔ)HDFS的不足,它的特點(diǎn)是輕量級快速處理,可支持復(fù)雜查詢進(jìn)行實(shí)時流處理,有數(shù)據(jù)查詢分析Spark SQL,實(shí)時處理Spark Streaming;并且Hadoop還提供接口支持的各項(xiàng)技術(shù),上述這些工具可以協(xié)同工作來完成特定的任務(wù),這個系統(tǒng)可以為用戶提供高效、實(shí)時的全方位服務(wù)。
圖書館在智慧化進(jìn)程中,如何使圖書館變得更智慧,是智慧圖書館建設(shè)面臨的關(guān)鍵問題。綜合運(yùn)用大數(shù)據(jù)技術(shù)與Hadoop生態(tài)系統(tǒng)有機(jī)結(jié)合,對傳統(tǒng)的圖書館應(yīng)用系統(tǒng)進(jìn)行改進(jìn),構(gòu)建的基于Hadoop智慧圖書館大數(shù)據(jù)生態(tài)系統(tǒng),可以實(shí)現(xiàn)館與館之間信息互聯(lián)、設(shè)施共享的智慧服務(wù),保證智慧圖書館有機(jī)發(fā)展。智慧圖書館可為用戶帶來高效、智慧創(chuàng)新服務(wù)方式、增強(qiáng)圖書館競爭力,提升圖書館的價值,未來智慧圖書館還可以與用戶友好互動,可為用戶提供推薦與預(yù)測增值服務(wù),并會加強(qiáng)對數(shù)據(jù)安全和用戶的隱私信息方面的保護(hù)。