亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)平臺架構(gòu)的智慧圖書館研究

        2023-12-29 00:00:00李飛
        科技資訊 2023年16期

        關(guān)鍵詞: 大數(shù)據(jù)平臺架構(gòu) 智慧圖書館 構(gòu)建要點 數(shù)據(jù)傳輸

        中圖分類號: G250.7 文獻標(biāo)識碼: A 文章編號: 1672-3791(2023)16-0205-04

        作為一種較為典型的大數(shù)據(jù)體系,圖書館信息資源的重要性毋庸置疑。伴隨社會的發(fā)展與進步,使當(dāng)下的圖書館資源數(shù)據(jù)量處于急劇增加狀態(tài)。因此,為滿足智慧圖書館構(gòu)建與大數(shù)據(jù)管理分析的基本要求,就需要基于大數(shù)據(jù)平臺架構(gòu)明確核心為Hadoop 的圖書館大數(shù)據(jù)平臺構(gòu)建要點,希望能夠為同行業(yè)工作者提供一些幫助。

        1 智慧圖書館總體架構(gòu)——以Hadoop 為核心的分層架構(gòu)設(shè)計

        基于Hadoop 等技術(shù)可構(gòu)建智慧圖書館大數(shù)據(jù)平臺,在包含圖書館數(shù)據(jù)的同時集成了針對讀者一系列消費數(shù)據(jù)與教學(xué)數(shù)據(jù),實現(xiàn)了圍繞大數(shù)據(jù)平臺的數(shù)據(jù)存儲與分析功能。從邏輯分層的角度來看,平臺架構(gòu)的設(shè)計要點主要包含了數(shù)據(jù)采集層、數(shù)據(jù)存儲層、數(shù)據(jù)服務(wù)層以及數(shù)據(jù)應(yīng)用層。

        1.1 數(shù)據(jù)采集層

        針對源數(shù)據(jù)系統(tǒng)所存儲的數(shù)據(jù)進行抽取,是數(shù)據(jù)采集層的主要工作任務(wù),集成了圖書館所有的數(shù)據(jù)資源數(shù)據(jù)與自動化系統(tǒng)產(chǎn)生的數(shù)據(jù)[1]。而智慧圖書館所應(yīng)用的大數(shù)據(jù)平臺,則需要對讀者的數(shù)據(jù)進行抽取、轉(zhuǎn)化以及加載,將其變更為統(tǒng)一格式即可為后續(xù)的數(shù)據(jù)存儲層的實際應(yīng)用提供準(zhǔn)備條件。

        1.2 數(shù)據(jù)存儲層

        作為智慧圖書館大數(shù)據(jù)平臺的構(gòu)建基礎(chǔ),數(shù)據(jù)存儲的重要性毋庸置疑,而數(shù)據(jù)存儲層則在此過程中承擔(dān)了業(yè)務(wù)執(zhí)行與功能展示責(zé)任,既包含了傳統(tǒng)關(guān)系型數(shù)據(jù)庫,又可與分布式文件系統(tǒng)進行對接,為數(shù)據(jù)的清洗與轉(zhuǎn)化提供中間表等有利條件,可對需求存儲的相應(yīng)數(shù)據(jù)與結(jié)果進行針對性的分析與挖掘。分布式文件系統(tǒng)作為數(shù)據(jù)存儲層功能實現(xiàn)的前提條件,針對的數(shù)據(jù)類型主要包括了結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù),也是實現(xiàn)數(shù)據(jù)分析挖掘的核心。

        1.3 數(shù)據(jù)服務(wù)層

        存儲層與應(yīng)用層連接的橋梁為數(shù)據(jù)服務(wù)層,友好的接口定義促使平臺中所包含的各類服務(wù)相互連接,所提供的訪問接口皆可作為上層應(yīng)用的主體[2]。Hadoop平臺是數(shù)據(jù)分析服務(wù)的前提,可從智慧圖書館的實際業(yè)務(wù)需求角度出發(fā),基于大數(shù)據(jù)平臺所具備的強大計算能力,完成對針對性數(shù)據(jù)的轉(zhuǎn)換與分析挖掘。

        1.4 數(shù)據(jù)應(yīng)用層

        展示業(yè)務(wù)整合結(jié)果以及數(shù)據(jù)分析挖掘是數(shù)據(jù)應(yīng)用層的主要功能,其主要對接著讀者的個人報告、智慧圖書館的功能決策、移動客戶端的實時應(yīng)用以及圖書館智慧大屏所承擔(dān)的數(shù)據(jù)展示功能。

        2 建立數(shù)據(jù)標(biāo)準(zhǔn)

        2.1 標(biāo)準(zhǔn)概述

        智慧圖書館數(shù)據(jù)分析挖掘與源數(shù)據(jù)的整合等相關(guān)工作的順利推進,皆需要依靠統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)實現(xiàn)元數(shù)據(jù)的抽取與轉(zhuǎn)化。而圍繞自動化系統(tǒng)所構(gòu)建的數(shù)據(jù)存儲結(jié)構(gòu),皆需要依據(jù)對應(yīng)的業(yè)務(wù)需求實現(xiàn)設(shè)計目標(biāo),對應(yīng)的邏輯關(guān)系相對較為復(fù)雜,且即使是同一業(yè)務(wù),自動化系統(tǒng)也可能由多家廠商所提供,這使所使用的數(shù)據(jù)庫無論是在類型還是在結(jié)構(gòu)方面均存在著諸多差異[3]。為消除數(shù)據(jù)隱患,需要在采集相關(guān)數(shù)據(jù)前構(gòu)建統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),進而為后續(xù)的數(shù)據(jù)分析過程提供具有準(zhǔn)確性與全面性特點的一系列基礎(chǔ)數(shù)據(jù)。

        2.2 設(shè)計數(shù)據(jù)存儲架構(gòu)

        基于云端的數(shù)據(jù)存儲模塊,其功能在于滿足當(dāng)下所產(chǎn)生的海量結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的功能性存儲要求,并需要保證數(shù)據(jù)存儲的安全性與在實際使用時展開數(shù)據(jù)訪問的高效性。通常情況下選擇使用HDFS 作為存儲的主要介質(zhì),原因在于HDFS 本身的超大數(shù)據(jù)存儲能力相對較強,基于其備份功能確保了數(shù)據(jù)使用的高效性,且自身具備著一定的系統(tǒng)容錯能力。此外,Hadoop 中的諸多生態(tài)系統(tǒng)關(guān)鍵組件,可用于搭建并行計算的重要框架,皆可作為后續(xù)實現(xiàn)高效性讀取存儲數(shù)據(jù)等功能的重要基礎(chǔ)[4]。不同業(yè)務(wù)系統(tǒng)所包含的數(shù)據(jù)在云端存儲,為方便后續(xù)展開數(shù)據(jù)分析,圍繞HDFS的存儲目錄均需要依靠智慧型圖書館的實際使用要求,包括對應(yīng)的業(yè)務(wù)類型與基礎(chǔ)信息維度。

        2.3 設(shè)計數(shù)據(jù)標(biāo)準(zhǔn)

        作為數(shù)據(jù)分析挖掘的前提條件,存儲采集數(shù)據(jù)的重要性毋庸置疑,為從多個維度分析數(shù)據(jù)提供了諸多方便條件。建議將需要進行數(shù)據(jù)分析的維度總制一張表,這使每張存儲表均包含了大量的冗余,用以將各類表單之間的交叉關(guān)聯(lián)查詢予以減少,其也是提高數(shù)據(jù)分析挖掘效率的關(guān)鍵措施。

        根據(jù)源系統(tǒng)業(yè)務(wù)類型的差異,可展開不同的數(shù)據(jù)標(biāo)準(zhǔn)設(shè)計。例如:借還系統(tǒng),數(shù)據(jù)量較大且有表之間交叉減少的需求,就需要對數(shù)據(jù)抽取過程中中間數(shù)據(jù)庫表的承受能力予以充分考慮[5]。再如:將圖書借還系統(tǒng)所包含的諸多行為數(shù)據(jù)依照借書、還書以及續(xù)借3種業(yè)務(wù)方式存儲為3 張不同的表單,且需要在每張表單中自動生成圖書名、借還時間、用戶名以及行為類型等諸多信息。關(guān)聯(lián)讀者的信息則包括讀者的姓名、讀者的性別以及聯(lián)系方式等。圖書與讀者的詳細(xì)信息均被存儲于原系統(tǒng)所對應(yīng)的不同表單中,需要基于中間表對這些信息進行匯總。

        3 ETL 數(shù)據(jù)采集清洗

        3.1 概述

        基于對源數(shù)據(jù)系統(tǒng)的分析,可發(fā)現(xiàn)各個自動系統(tǒng)中的源數(shù)據(jù)均被存儲于對應(yīng)的數(shù)據(jù)庫中,其中既包含了具有結(jié)構(gòu)化特點的行為數(shù)據(jù),也包含了具有非結(jié)構(gòu)化特點的日志數(shù)據(jù),且有著較為繁多的數(shù)據(jù)相類型,使數(shù)據(jù)格式不統(tǒng)一且存在諸多問題,需要使用專業(yè)工具采集基于統(tǒng)一標(biāo)準(zhǔn)化的傳輸數(shù)據(jù)。此外,數(shù)據(jù)映射、采集裝載、定時執(zhí)行等同樣需要專業(yè)工具的標(biāo)準(zhǔn)化支持,完成轉(zhuǎn)化清洗后的數(shù)據(jù)需要依靠對應(yīng)的數(shù)據(jù)標(biāo)準(zhǔn)進行存儲以方便后續(xù)的使用。

        ETL 作為能夠描述數(shù)據(jù)從源端最終目的端整個過程的關(guān)鍵工具,可將數(shù)據(jù)的傳輸過程主要分為數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)化以及數(shù)據(jù)裝載4 個部分,原本凌亂且未能統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)經(jīng)過抽取與清洗等環(huán)節(jié),即可將其完整加載到執(zhí)行具體任務(wù)的大數(shù)據(jù)平臺中。

        3.2 設(shè)計與實現(xiàn)

        ETL 將智慧圖書館的內(nèi)部數(shù)據(jù)完美集成,并能夠根據(jù)對應(yīng)的模塊明確實際的服務(wù)需求,選擇合適的抽取方法抽取大數(shù)據(jù)平臺中的需求數(shù)據(jù)。之后收取完成的源數(shù)據(jù)將在所設(shè)計的中間層完成清洗與轉(zhuǎn)化,最終通過統(tǒng)一集成匯集到所需要使用的數(shù)據(jù)庫中[6]。ETL技術(shù)在整個過程中的重要作用不可被忽略,具體情況見圖1。

        3.2.1 抽取數(shù)據(jù)

        作為智慧圖書館大數(shù)據(jù)平臺數(shù)據(jù)采集的首個步驟,數(shù)據(jù)抽取工作的前提為詳細(xì)分析元數(shù)據(jù)的數(shù)據(jù)庫類型以及具體的數(shù)據(jù)類型。需要注意的是源數(shù)據(jù)來源于具有一定差異的DBMS,可基于JDBC 實現(xiàn)數(shù)據(jù)連接,封裝設(shè)定標(biāo)準(zhǔn)的壓縮包后即可建立與數(shù)據(jù)庫用戶名、密碼配置的對應(yīng)連接。

        一是全量與增量等抽取方式。首次采集數(shù)據(jù)時由于其中包含了較多的業(yè)務(wù)數(shù)據(jù),因此首次的數(shù)據(jù)采集需要選擇使用全量抽取方式,采集數(shù)據(jù)完成后即可根據(jù)需求選擇使用增量抽取方案。基于SQL 代碼可控制全量與增量抽取的過程,具體的代碼被分配到不同的工作表中,對應(yīng)著不同類型的元數(shù)據(jù)系統(tǒng)抽取過程,可通過中間數(shù)據(jù)庫中的表單顯示相關(guān)內(nèi)容。

        二是設(shè)定抽取頻率。針對不同類型的業(yè)務(wù)數(shù)據(jù)所使用的數(shù)據(jù)抽取頻率存在著一定差異,以圖書借閱環(huán)節(jié)所產(chǎn)生的行為數(shù)據(jù)為例,抽取的時間相對較短,而對于圖書詳細(xì)信息或讀者的自身信息只需要每半年或一年抽取一次即可。

        3.2.2 數(shù)據(jù)清洗

        一是缺失重要字段的不完整數(shù)據(jù)。此類數(shù)據(jù)包含了共有的缺失時間字段與針對不同業(yè)務(wù)系統(tǒng)的字段數(shù)據(jù)。以行為數(shù)據(jù)為例,時間維度極為關(guān)鍵,若時間范圍,則后續(xù)所執(zhí)行的分析挖掘無法保證其準(zhǔn)確性。而圖書借還數(shù)據(jù)在缺少讀者相應(yīng)信息字段數(shù)據(jù)的情況下,則可將其判斷為無法獲取重要字段的不完整數(shù)據(jù),原因在于除去時間這一維度字段,其余缺失的數(shù)據(jù)可基于中間表完成補全操作。

        二是錯誤數(shù)據(jù)較為明顯。產(chǎn)生此種情況的常見數(shù)據(jù)類型為行為數(shù)據(jù),表現(xiàn)則主要為數(shù)據(jù)產(chǎn)生的時間不在讀者的信息生成時間段內(nèi)。

        三是重復(fù)數(shù)據(jù)。基于行為數(shù)據(jù)所產(chǎn)生的時間可判斷數(shù)據(jù)是否為重復(fù)數(shù)據(jù),通常情況下所記錄的數(shù)據(jù)時間精確到秒,但由于圖書館業(yè)務(wù)系統(tǒng)自身的數(shù)據(jù)并發(fā)量不大,因此,同類型的業(yè)務(wù)系統(tǒng)中所產(chǎn)生的數(shù)據(jù),只要時間相同則皆被判斷為重復(fù)數(shù)據(jù),系統(tǒng)將自動對其進行刪除處理。

        3.2.3 數(shù)據(jù)轉(zhuǎn)換

        一是缺失字段的補全。以讀者信息表為例,不同的業(yè)務(wù)系統(tǒng)輸出的讀者信息的各維度字段不同,每個系統(tǒng)皆記錄了讀者的姓名、性別等信息,但讀者借閱圖書的種類、時間等可能來源于進入圖書館所必須通過的閘機系統(tǒng),且圖書借還系統(tǒng)同樣包含了讀者的一定信息,不存在某個系統(tǒng)能夠?qū)ψx者個人信息完整記錄的情況,這就需要建立一個針對讀者的信息表用以對各系統(tǒng)數(shù)據(jù)中的缺失字段進行補全處理。首先需要將讀者的個人信息存入到讀者表中,基于各系統(tǒng)中所包含的數(shù)據(jù)抽取行為數(shù)據(jù)存儲表中的信息,根據(jù)讀者的序號或進入智慧圖書館的具體時間對讀者表進行實時更新,匯總讀者表中的各個字段。最后則是需要根據(jù)讀者表中的記錄信息,對各個行為存儲表中所缺失的讀者信息字段進行更新。

        二是數(shù)據(jù)格式的統(tǒng)一。業(yè)務(wù)規(guī)則在圖書館所包含的各個業(yè)務(wù)系統(tǒng)中實際上存在著一定的差異,即使針對同類數(shù)據(jù)所使用的表述方式也可能存在不同。這就需要首先建立基于所設(shè)計統(tǒng)一標(biāo)準(zhǔn)的學(xué)院字段格式表,以人工或?qū)I(yè)的對應(yīng)工具對應(yīng)讀者借閱圖書的不同類型。如此即可根據(jù)所設(shè)定的對應(yīng)關(guān)系對業(yè)務(wù)數(shù)據(jù)表進行更新,實現(xiàn)數(shù)據(jù)格式的統(tǒng)一功能。

        3.2.4 數(shù)據(jù)加載

        基于SQL 語句即可直接插入,通過智慧圖書館將數(shù)據(jù)進行清洗轉(zhuǎn)化處理后,即可將處理完成的數(shù)據(jù)集中加載到智慧圖書館的數(shù)據(jù)庫中,需要在插入的環(huán)節(jié)對應(yīng)原表中的字段與目標(biāo)表中的字段。

        4 以Sqoop 為核心的數(shù)據(jù)傳輸

        作為一種具有開源特點的工具,Sqoop 的自身開發(fā)目的在于交換關(guān)系型數(shù)據(jù)庫與Hadoop 之間的數(shù)據(jù)?;赟qoop 不僅能夠?qū)崿F(xiàn)關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入到分布式文件系統(tǒng)的功能,同樣能夠?qū)⑺幚硗瓿傻臄?shù)據(jù)導(dǎo)入到需求的關(guān)系型數(shù)據(jù)庫中,其具體的架構(gòu)見圖2。由于Sqoop實現(xiàn)數(shù)據(jù)處理功能的基礎(chǔ)為MapReduce,因此Sqoop 一系列功能的充分展現(xiàn)需要依賴于Hadoop 集群環(huán)境,且需要從Sqoop 的選用角度出發(fā),充分考慮到所使用的功能對應(yīng)的環(huán)境要求以及需要進行協(xié)調(diào)的版本,在滿足Hadoop 環(huán)境對應(yīng)功能需求的情況下才能夠正常使用。為了使本文所構(gòu)建的基于大數(shù)據(jù)平臺架構(gòu)的智慧圖書館系統(tǒng)的各類功能能夠?qū)崿F(xiàn),建議選擇Hadoop2.7.3。

        5 RESTful API 接口設(shè)計

        作為數(shù)據(jù)存儲層與數(shù)據(jù)應(yīng)用層之間的連接橋梁,數(shù)據(jù)接口在智慧圖書館中扮演著平臺之間的數(shù)據(jù)共享、數(shù)據(jù)可視化以及平臺移動化等功能實現(xiàn)的重要角色。尤其是在智慧圖書館中所包含的決策支持系統(tǒng)、圖書館報告以及圖書館智慧大屏中,所包含的諸多接口具有功用特點,而想要實現(xiàn)接口在智慧圖書館建設(shè)過程中的核心地位相對較高,這就需要設(shè)計一套具有復(fù)合性與松耦合特點的API。

        RESTful 這一架構(gòu)設(shè)計具有跨平臺與跨語言的特點,該架構(gòu)需要基于統(tǒng)一接口原則實現(xiàn)相應(yīng)的操作與處理功能。對應(yīng)的接口則需要基于統(tǒng)一的資源標(biāo)識符完成信息的識別與資源的定位。從智慧圖書館的應(yīng)用層級角度進行分析,發(fā)現(xiàn)所包含的系統(tǒng)接口具有大量重疊的特點,因此,需要根據(jù)智慧圖書館的功能要求設(shè)計針對不同業(yè)務(wù)與資源類型的136 個接口,共7 大類,主要包括借還數(shù)據(jù)接口、空間數(shù)據(jù)接口、打印復(fù)印數(shù)據(jù)接口、移動端獨立接口等。

        第一是圖書借還數(shù)據(jù)接口。該接口主要包含了多個維度的分析數(shù)據(jù),如時間維度、用戶維度、圖書維度等。第二是進入圖書館的閘機數(shù)據(jù)接口,包含的維度類型主要為時間維度、讀者性別維度、讀者類別維度等。第三是空間數(shù)據(jù)接口,包含了時間維度、讀者性別維度、IC 空間類別維度等。第四是具有自助特點的打印復(fù)印接口,包含了文印類型維度、紙張類型維度等。第五是對應(yīng)圖書館的館藏數(shù)據(jù)接口,包含了出版社維度、館藏資源入館時間維度、圖書種類維度等。第六是移動端的獨立接口,具體包括注冊讀者賬號與登錄賬號、統(tǒng)一認(rèn)證讀者身份、修改讀者個人信息、查看讀者的個人興趣列表以及功能修改等;第七是對應(yīng)智慧圖書館的機器人接口,主要指的是人臉識別與語音識別兩個關(guān)鍵功能,如基于科大訊飛的語音識別、基于百度的人臉識別。為最大限度地將后續(xù)的技術(shù)選型改變對前端服務(wù)的影響降低,要對接口進行特殊處理。

        6 結(jié)語

        綜上所述,為解決當(dāng)下圖書館中所存在的信息孤島現(xiàn)象與讀者行為數(shù)據(jù)挖掘分析環(huán)節(jié)嚴(yán)重缺乏等重要問題,就需要基于大數(shù)據(jù)平臺架構(gòu)建立智慧圖書館。構(gòu)建過程中要充分考慮到各類業(yè)務(wù)開展的實際需求,綜合先進的信息化技術(shù),充分發(fā)揮基于大數(shù)據(jù)平臺的數(shù)據(jù)中心應(yīng)用優(yōu)勢。其所包含的有移動圖書館、圖書館機器人等先進應(yīng)用系統(tǒng),皆可根據(jù)讀者的實際要求滿足其對智慧圖書館的功能需求。需要注意的是,當(dāng)下所建立的大數(shù)據(jù)平臺僅僅與圖書館業(yè)務(wù)系統(tǒng)中的相關(guān)數(shù)據(jù)進行了對接,為滿足后續(xù)讀者對數(shù)據(jù)分析挖掘的實際要求,建議搜尋讀者的生活習(xí)慣與圖書借閱的特點,進而深度挖掘讀者的個人喜好,提供給讀者具有個性化特點的圖書展示窗口,為充分發(fā)揮智慧圖書館的大數(shù)據(jù)應(yīng)用優(yōu)勢奠定基礎(chǔ)。

        白白色视频这里只有精品| 中文字幕第一页亚洲| 久久亚洲av成人无码软件| 久久婷婷国产色一区二区三区 | 人妻丝袜无码国产一区| 亚洲色大成在线观看| 午夜亚洲精品视频网站| 精品国产一区二区三区三级| 欧美 国产 综合 欧美 视频| 国产美女精品aⅴ在线| 亚洲av有码精品天堂| 亚洲av网站在线观看一页| 欧美一区二区三区久久综| 在线免费毛片| 一区二区三区四区日韩亚洲| 免费在线观看av不卡网站| 国产精品欧美一区二区三区| 国产精品日韩欧美一区二区区| 激情一区二区三区视频| 久久国内精品自在自线| 四虎影视免费永久在线观看| 日韩AV有码无码一区二区三区| 亚洲视频观看一区二区| 国产日产欧产精品精品蜜芽| 一本无码人妻在中文字幕免费| 四虎影视国产884a精品亚洲| 极品少妇人妻一区二区三区 | 四虎永久免费影院在线| 国产黄色一区二区福利| 尤物在线观看一区蜜桃| 女性女同性aⅴ免费观女性恋 | 丁香九月综合激情| 人妻少妇猛烈井进入中文字幕| 少妇粉嫩小泬喷水视频www| 亚洲综合国产精品一区二区99 | 色综合久久精品亚洲国产| 久久伊人影院| 日本视频一区二区这里只有精品| 无码喷潮a片无码高潮| 欧美最猛黑人xxxxx猛交| 久久精品熟女亚洲av艳妇|