亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于大數(shù)據(jù)平臺架構(gòu)的智慧圖書館研究

2023-12-29 00:00:00李飛

科技資訊 2023年16期

關(guān)鍵詞：大數(shù)據(jù)平臺架構(gòu) 智慧圖書館構(gòu)建要點數(shù)據(jù)傳輸

中圖分類號： G250.7 文獻標(biāo)識碼： A 文章編號： 1672-3791（2023）16-0205-04

作為一種較為典型的大數(shù)據(jù)體系，圖書館信息資源的重要性毋庸置疑。伴隨社會的發(fā)展與進步，使當(dāng)下的圖書館資源數(shù)據(jù)量處于急劇增加狀態(tài)。因此，為滿足智慧圖書館構(gòu)建與大數(shù)據(jù)管理分析的基本要求，就需要基于大數(shù)據(jù)平臺架構(gòu)明確核心為Hadoop 的圖書館大數(shù)據(jù)平臺構(gòu)建要點，希望能夠為同行業(yè)工作者提供一些幫助。

1 智慧圖書館總體架構(gòu)——以Hadoop 為核心的分層架構(gòu)設(shè)計

基于Hadoop 等技術(shù)可構(gòu)建智慧圖書館大數(shù)據(jù)平臺，在包含圖書館數(shù)據(jù)的同時集成了針對讀者一系列消費數(shù)據(jù)與教學(xué)數(shù)據(jù)，實現(xiàn)了圍繞大數(shù)據(jù)平臺的數(shù)據(jù)存儲與分析功能。從邏輯分層的角度來看，平臺架構(gòu)的設(shè)計要點主要包含了數(shù)據(jù)采集層、數(shù)據(jù)存儲層、數(shù)據(jù)服務(wù)層以及數(shù)據(jù)應(yīng)用層。

1.1 數(shù)據(jù)采集層

針對源數(shù)據(jù)系統(tǒng)所存儲的數(shù)據(jù)進行抽取，是數(shù)據(jù)采集層的主要工作任務(wù)，集成了圖書館所有的數(shù)據(jù)資源數(shù)據(jù)與自動化系統(tǒng)產(chǎn)生的數(shù)據(jù)[1]。而智慧圖書館所應(yīng)用的大數(shù)據(jù)平臺，則需要對讀者的數(shù)據(jù)進行抽取、轉(zhuǎn)化以及加載，將其變更為統(tǒng)一格式即可為后續(xù)的數(shù)據(jù)存儲層的實際應(yīng)用提供準(zhǔn)備條件。

1.2 數(shù)據(jù)存儲層

作為智慧圖書館大數(shù)據(jù)平臺的構(gòu)建基礎(chǔ)，數(shù)據(jù)存儲的重要性毋庸置疑，而數(shù)據(jù)存儲層則在此過程中承擔(dān)了業(yè)務(wù)執(zhí)行與功能展示責(zé)任，既包含了傳統(tǒng)關(guān)系型數(shù)據(jù)庫，又可與分布式文件系統(tǒng)進行對接，為數(shù)據(jù)的清洗與轉(zhuǎn)化提供中間表等有利條件，可對需求存儲的相應(yīng)數(shù)據(jù)與結(jié)果進行針對性的分析與挖掘。分布式文件系統(tǒng)作為數(shù)據(jù)存儲層功能實現(xiàn)的前提條件，針對的數(shù)據(jù)類型主要包括了結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)，也是實現(xiàn)數(shù)據(jù)分析挖掘的核心。

1.3 數(shù)據(jù)服務(wù)層

存儲層與應(yīng)用層連接的橋梁為數(shù)據(jù)服務(wù)層，友好的接口定義促使平臺中所包含的各類服務(wù)相互連接，所提供的訪問接口皆可作為上層應(yīng)用的主體[2]。Hadoop平臺是數(shù)據(jù)分析服務(wù)的前提，可從智慧圖書館的實際業(yè)務(wù)需求角度出發(fā)，基于大數(shù)據(jù)平臺所具備的強大計算能力，完成對針對性數(shù)據(jù)的轉(zhuǎn)換與分析挖掘。

1.4 數(shù)據(jù)應(yīng)用層

展示業(yè)務(wù)整合結(jié)果以及數(shù)據(jù)分析挖掘是數(shù)據(jù)應(yīng)用層的主要功能，其主要對接著讀者的個人報告、智慧圖書館的功能決策、移動客戶端的實時應(yīng)用以及圖書館智慧大屏所承擔(dān)的數(shù)據(jù)展示功能。

2 建立數(shù)據(jù)標(biāo)準(zhǔn)

2.1 標(biāo)準(zhǔn)概述

智慧圖書館數(shù)據(jù)分析挖掘與源數(shù)據(jù)的整合等相關(guān)工作的順利推進，皆需要依靠統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)實現(xiàn)元數(shù)據(jù)的抽取與轉(zhuǎn)化。而圍繞自動化系統(tǒng)所構(gòu)建的數(shù)據(jù)存儲結(jié)構(gòu)，皆需要依據(jù)對應(yīng)的業(yè)務(wù)需求實現(xiàn)設(shè)計目標(biāo)，對應(yīng)的邏輯關(guān)系相對較為復(fù)雜，且即使是同一業(yè)務(wù)，自動化系統(tǒng)也可能由多家廠商所提供，這使所使用的數(shù)據(jù)庫無論是在類型還是在結(jié)構(gòu)方面均存在著諸多差異[3]。為消除數(shù)據(jù)隱患，需要在采集相關(guān)數(shù)據(jù)前構(gòu)建統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)，進而為后續(xù)的數(shù)據(jù)分析過程提供具有準(zhǔn)確性與全面性特點的一系列基礎(chǔ)數(shù)據(jù)。

2.2 設(shè)計數(shù)據(jù)存儲架構(gòu)

基于云端的數(shù)據(jù)存儲模塊，其功能在于滿足當(dāng)下所產(chǎn)生的海量結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的功能性存儲要求，并需要保證數(shù)據(jù)存儲的安全性與在實際使用時展開數(shù)據(jù)訪問的高效性。通常情況下選擇使用HDFS 作為存儲的主要介質(zhì)，原因在于HDFS 本身的超大數(shù)據(jù)存儲能力相對較強，基于其備份功能確保了數(shù)據(jù)使用的高效性，且自身具備著一定的系統(tǒng)容錯能力。此外，Hadoop 中的諸多生態(tài)系統(tǒng)關(guān)鍵組件，可用于搭建并行計算的重要框架，皆可作為后續(xù)實現(xiàn)高效性讀取存儲數(shù)據(jù)等功能的重要基礎(chǔ)[4]。不同業(yè)務(wù)系統(tǒng)所包含的數(shù)據(jù)在云端存儲，為方便后續(xù)展開數(shù)據(jù)分析，圍繞HDFS的存儲目錄均需要依靠智慧型圖書館的實際使用要求，包括對應(yīng)的業(yè)務(wù)類型與基礎(chǔ)信息維度。

2.3 設(shè)計數(shù)據(jù)標(biāo)準(zhǔn)

作為數(shù)據(jù)分析挖掘的前提條件，存儲采集數(shù)據(jù)的重要性毋庸置疑，為從多個維度分析數(shù)據(jù)提供了諸多方便條件。建議將需要進行數(shù)據(jù)分析的維度總制一張表，這使每張存儲表均包含了大量的冗余，用以將各類表單之間的交叉關(guān)聯(lián)查詢予以減少，其也是提高數(shù)據(jù)分析挖掘效率的關(guān)鍵措施。

根據(jù)源系統(tǒng)業(yè)務(wù)類型的差異，可展開不同的數(shù)據(jù)標(biāo)準(zhǔn)設(shè)計。例如：借還系統(tǒng)，數(shù)據(jù)量較大且有表之間交叉減少的需求，就需要對數(shù)據(jù)抽取過程中中間數(shù)據(jù)庫表的承受能力予以充分考慮[5]。再如：將圖書借還系統(tǒng)所包含的諸多行為數(shù)據(jù)依照借書、還書以及續(xù)借3種業(yè)務(wù)方式存儲為3 張不同的表單，且需要在每張表單中自動生成圖書名、借還時間、用戶名以及行為類型等諸多信息。關(guān)聯(lián)讀者的信息則包括讀者的姓名、讀者的性別以及聯(lián)系方式等。圖書與讀者的詳細(xì)信息均被存儲于原系統(tǒng)所對應(yīng)的不同表單中，需要基于中間表對這些信息進行匯總。

3 ETL 數(shù)據(jù)采集清洗

3.1 概述

基于對源數(shù)據(jù)系統(tǒng)的分析，可發(fā)現(xiàn)各個自動系統(tǒng)中的源數(shù)據(jù)均被存儲于對應(yīng)的數(shù)據(jù)庫中，其中既包含了具有結(jié)構(gòu)化特點的行為數(shù)據(jù)，也包含了具有非結(jié)構(gòu)化特點的日志數(shù)據(jù)，且有著較為繁多的數(shù)據(jù)相類型，使數(shù)據(jù)格式不統(tǒng)一且存在諸多問題，需要使用專業(yè)工具采集基于統(tǒng)一標(biāo)準(zhǔn)化的傳輸數(shù)據(jù)。此外，數(shù)據(jù)映射、采集裝載、定時執(zhí)行等同樣需要專業(yè)工具的標(biāo)準(zhǔn)化支持，完成轉(zhuǎn)化清洗后的數(shù)據(jù)需要依靠對應(yīng)的數(shù)據(jù)標(biāo)準(zhǔn)進行存儲以方便后續(xù)的使用。

ETL 作為能夠描述數(shù)據(jù)從源端最終目的端整個過程的關(guān)鍵工具，可將數(shù)據(jù)的傳輸過程主要分為數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)化以及數(shù)據(jù)裝載4 個部分，原本凌亂且未能統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)經(jīng)過抽取與清洗等環(huán)節(jié)，即可將其完整加載到執(zhí)行具體任務(wù)的大數(shù)據(jù)平臺中。

3.2 設(shè)計與實現(xiàn)

ETL 將智慧圖書館的內(nèi)部數(shù)據(jù)完美集成，并能夠根據(jù)對應(yīng)的模塊明確實際的服務(wù)需求，選擇合適的抽取方法抽取大數(shù)據(jù)平臺中的需求數(shù)據(jù)。之后收取完成的源數(shù)據(jù)將在所設(shè)計的中間層完成清洗與轉(zhuǎn)化，最終通過統(tǒng)一集成匯集到所需要使用的數(shù)據(jù)庫中[6]。ETL技術(shù)在整個過程中的重要作用不可被忽略，具體情況見圖1。

3.2.1 抽取數(shù)據(jù)

作為智慧圖書館大數(shù)據(jù)平臺數(shù)據(jù)采集的首個步驟，數(shù)據(jù)抽取工作的前提為詳細(xì)分析元數(shù)據(jù)的數(shù)據(jù)庫類型以及具體的數(shù)據(jù)類型。需要注意的是源數(shù)據(jù)來源于具有一定差異的DBMS，可基于JDBC 實現(xiàn)數(shù)據(jù)連接，封裝設(shè)定標(biāo)準(zhǔn)的壓縮包后即可建立與數(shù)據(jù)庫用戶名、密碼配置的對應(yīng)連接。

一是全量與增量等抽取方式。首次采集數(shù)據(jù)時由于其中包含了較多的業(yè)務(wù)數(shù)據(jù)，因此首次的數(shù)據(jù)采集需要選擇使用全量抽取方式，采集數(shù)據(jù)完成后即可根據(jù)需求選擇使用增量抽取方案。基于SQL 代碼可控制全量與增量抽取的過程，具體的代碼被分配到不同的工作表中，對應(yīng)著不同類型的元數(shù)據(jù)系統(tǒng)抽取過程，可通過中間數(shù)據(jù)庫中的表單顯示相關(guān)內(nèi)容。

二是設(shè)定抽取頻率。針對不同類型的業(yè)務(wù)數(shù)據(jù)所使用的數(shù)據(jù)抽取頻率存在著一定差異，以圖書借閱環(huán)節(jié)所產(chǎn)生的行為數(shù)據(jù)為例，抽取的時間相對較短，而對于圖書詳細(xì)信息或讀者的自身信息只需要每半年或一年抽取一次即可。

3.2.2 數(shù)據(jù)清洗

一是缺失重要字段的不完整數(shù)據(jù)。此類數(shù)據(jù)包含了共有的缺失時間字段與針對不同業(yè)務(wù)系統(tǒng)的字段數(shù)據(jù)。以行為數(shù)據(jù)為例，時間維度極為關(guān)鍵，若時間范圍，則后續(xù)所執(zhí)行的分析挖掘無法保證其準(zhǔn)確性。而圖書借還數(shù)據(jù)在缺少讀者相應(yīng)信息字段數(shù)據(jù)的情況下，則可將其判斷為無法獲取重要字段的不完整數(shù)據(jù)，原因在于除去時間這一維度字段，其余缺失的數(shù)據(jù)可基于中間表完成補全操作。

二是錯誤數(shù)據(jù)較為明顯。產(chǎn)生此種情況的常見數(shù)據(jù)類型為行為數(shù)據(jù)，表現(xiàn)則主要為數(shù)據(jù)產(chǎn)生的時間不在讀者的信息生成時間段內(nèi)。

三是重復(fù)數(shù)據(jù)。基于行為數(shù)據(jù)所產(chǎn)生的時間可判斷數(shù)據(jù)是否為重復(fù)數(shù)據(jù)，通常情況下所記錄的數(shù)據(jù)時間精確到秒，但由于圖書館業(yè)務(wù)系統(tǒng)自身的數(shù)據(jù)并發(fā)量不大，因此，同類型的業(yè)務(wù)系統(tǒng)中所產(chǎn)生的數(shù)據(jù)，只要時間相同則皆被判斷為重復(fù)數(shù)據(jù)，系統(tǒng)將自動對其進行刪除處理。

3.2.3 數(shù)據(jù)轉(zhuǎn)換

一是缺失字段的補全。以讀者信息表為例，不同的業(yè)務(wù)系統(tǒng)輸出的讀者信息的各維度字段不同，每個系統(tǒng)皆記錄了讀者的姓名、性別等信息，但讀者借閱圖書的種類、時間等可能來源于進入圖書館所必須通過的閘機系統(tǒng)，且圖書借還系統(tǒng)同樣包含了讀者的一定信息，不存在某個系統(tǒng)能夠?qū)ψx者個人信息完整記錄的情況，這就需要建立一個針對讀者的信息表用以對各系統(tǒng)數(shù)據(jù)中的缺失字段進行補全處理。首先需要將讀者的個人信息存入到讀者表中，基于各系統(tǒng)中所包含的數(shù)據(jù)抽取行為數(shù)據(jù)存儲表中的信息，根據(jù)讀者的序號或進入智慧圖書館的具體時間對讀者表進行實時更新，匯總讀者表中的各個字段。最后則是需要根據(jù)讀者表中的記錄信息，對各個行為存儲表中所缺失的讀者信息字段進行更新。

二是數(shù)據(jù)格式的統(tǒng)一。業(yè)務(wù)規(guī)則在圖書館所包含的各個業(yè)務(wù)系統(tǒng)中實際上存在著一定的差異，即使針對同類數(shù)據(jù)所使用的表述方式也可能存在不同。這就需要首先建立基于所設(shè)計統(tǒng)一標(biāo)準(zhǔn)的學(xué)院字段格式表，以人工或?qū)I(yè)的對應(yīng)工具對應(yīng)讀者借閱圖書的不同類型。如此即可根據(jù)所設(shè)定的對應(yīng)關(guān)系對業(yè)務(wù)數(shù)據(jù)表進行更新，實現(xiàn)數(shù)據(jù)格式的統(tǒng)一功能。

3.2.4 數(shù)據(jù)加載

基于SQL 語句即可直接插入，通過智慧圖書館將數(shù)據(jù)進行清洗轉(zhuǎn)化處理后，即可將處理完成的數(shù)據(jù)集中加載到智慧圖書館的數(shù)據(jù)庫中，需要在插入的環(huán)節(jié)對應(yīng)原表中的字段與目標(biāo)表中的字段。

4 以Sqoop 為核心的數(shù)據(jù)傳輸

作為一種具有開源特點的工具，Sqoop 的自身開發(fā)目的在于交換關(guān)系型數(shù)據(jù)庫與Hadoop 之間的數(shù)據(jù)?；赟qoop 不僅能夠?qū)崿F(xiàn)關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入到分布式文件系統(tǒng)的功能，同樣能夠?qū)⑺幚硗瓿傻臄?shù)據(jù)導(dǎo)入到需求的關(guān)系型數(shù)據(jù)庫中，其具體的架構(gòu)見圖2。由于Sqoop實現(xiàn)數(shù)據(jù)處理功能的基礎(chǔ)為MapReduce，因此Sqoop 一系列功能的充分展現(xiàn)需要依賴于Hadoop 集群環(huán)境，且需要從Sqoop 的選用角度出發(fā)，充分考慮到所使用的功能對應(yīng)的環(huán)境要求以及需要進行協(xié)調(diào)的版本，在滿足Hadoop 環(huán)境對應(yīng)功能需求的情況下才能夠正常使用。為了使本文所構(gòu)建的基于大數(shù)據(jù)平臺架構(gòu)的智慧圖書館系統(tǒng)的各類功能能夠?qū)崿F(xiàn)，建議選擇Hadoop2.7.3。

5 RESTful API 接口設(shè)計

作為數(shù)據(jù)存儲層與數(shù)據(jù)應(yīng)用層之間的連接橋梁，數(shù)據(jù)接口在智慧圖書館中扮演著平臺之間的數(shù)據(jù)共享、數(shù)據(jù)可視化以及平臺移動化等功能實現(xiàn)的重要角色。尤其是在智慧圖書館中所包含的決策支持系統(tǒng)、圖書館報告以及圖書館智慧大屏中，所包含的諸多接口具有功用特點，而想要實現(xiàn)接口在智慧圖書館建設(shè)過程中的核心地位相對較高，這就需要設(shè)計一套具有復(fù)合性與松耦合特點的API。

RESTful 這一架構(gòu)設(shè)計具有跨平臺與跨語言的特點，該架構(gòu)需要基于統(tǒng)一接口原則實現(xiàn)相應(yīng)的操作與處理功能。對應(yīng)的接口則需要基于統(tǒng)一的資源標(biāo)識符完成信息的識別與資源的定位。從智慧圖書館的應(yīng)用層級角度進行分析，發(fā)現(xiàn)所包含的系統(tǒng)接口具有大量重疊的特點，因此，需要根據(jù)智慧圖書館的功能要求設(shè)計針對不同業(yè)務(wù)與資源類型的136 個接口，共7 大類，主要包括借還數(shù)據(jù)接口、空間數(shù)據(jù)接口、打印復(fù)印數(shù)據(jù)接口、移動端獨立接口等。

第一是圖書借還數(shù)據(jù)接口。該接口主要包含了多個維度的分析數(shù)據(jù)，如時間維度、用戶維度、圖書維度等。第二是進入圖書館的閘機數(shù)據(jù)接口，包含的維度類型主要為時間維度、讀者性別維度、讀者類別維度等。第三是空間數(shù)據(jù)接口，包含了時間維度、讀者性別維度、IC 空間類別維度等。第四是具有自助特點的打印復(fù)印接口，包含了文印類型維度、紙張類型維度等。第五是對應(yīng)圖書館的館藏數(shù)據(jù)接口，包含了出版社維度、館藏資源入館時間維度、圖書種類維度等。第六是移動端的獨立接口，具體包括注冊讀者賬號與登錄賬號、統(tǒng)一認(rèn)證讀者身份、修改讀者個人信息、查看讀者的個人興趣列表以及功能修改等；第七是對應(yīng)智慧圖書館的機器人接口，主要指的是人臉識別與語音識別兩個關(guān)鍵功能，如基于科大訊飛的語音識別、基于百度的人臉識別。為最大限度地將后續(xù)的技術(shù)選型改變對前端服務(wù)的影響降低，要對接口進行特殊處理。

6 結(jié)語

綜上所述，為解決當(dāng)下圖書館中所存在的信息孤島現(xiàn)象與讀者行為數(shù)據(jù)挖掘分析環(huán)節(jié)嚴(yán)重缺乏等重要問題，就需要基于大數(shù)據(jù)平臺架構(gòu)建立智慧圖書館。構(gòu)建過程中要充分考慮到各類業(yè)務(wù)開展的實際需求，綜合先進的信息化技術(shù)，充分發(fā)揮基于大數(shù)據(jù)平臺的數(shù)據(jù)中心應(yīng)用優(yōu)勢。其所包含的有移動圖書館、圖書館機器人等先進應(yīng)用系統(tǒng)，皆可根據(jù)讀者的實際要求滿足其對智慧圖書館的功能需求。需要注意的是，當(dāng)下所建立的大數(shù)據(jù)平臺僅僅與圖書館業(yè)務(wù)系統(tǒng)中的相關(guān)數(shù)據(jù)進行了對接，為滿足后續(xù)讀者對數(shù)據(jù)分析挖掘的實際要求，建議搜尋讀者的生活習(xí)慣與圖書借閱的特點，進而深度挖掘讀者的個人喜好，提供給讀者具有個性化特點的圖書展示窗口，為充分發(fā)揮智慧圖書館的大數(shù)據(jù)應(yīng)用優(yōu)勢奠定基礎(chǔ)。

科技資訊2023年16期

科技資訊的其它文章: 數(shù)字貿(mào)易下跨境電商綜合試驗區(qū)創(chuàng)新發(fā)展對策研究; 雙碳背景下基于物聯(lián)網(wǎng)技術(shù)的制造業(yè)智能倉儲管理系統(tǒng)設(shè)計; 現(xiàn)代物流綜合統(tǒng)計指標(biāo)體系構(gòu)建分析; 芻議建設(shè)廣東省林業(yè)科學(xué)研究院木材標(biāo)本館; 城鎮(zhèn)燃?xì)夤芫W(wǎng)安全運營存在的問題及解決措施分析; 電子天平檢定的重要性步驟及其影響因素和注意事項