盛銓
摘要:隨著高校圖書館智慧化建設加速推進,業(yè)務系統(tǒng)不斷增加,系統(tǒng)間數(shù)據(jù)交換需求越來越大。該文從高校圖書館智慧化過程中所出現(xiàn)的問題出發(fā),提出建立一個適合高校圖書館的數(shù)據(jù)交換平臺,并從系統(tǒng)的架構(gòu)、關(guān)鍵技術(shù)以及應用三個方面進行探討。
關(guān)鍵詞:數(shù)據(jù)交換平臺;高校圖書館;大數(shù)據(jù);信息化
中圖分類號:G258.6? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)17-0082-03
開放科學(資源服務)標識碼(OSID):
1 背景
隨著高校信息化建設的不斷發(fā)展,應用信息化的逐步深入,圖書館各業(yè)務部門分期分批建設了不同的業(yè)務系統(tǒng),不同業(yè)務系統(tǒng)之中數(shù)據(jù)標準不統(tǒng)一,數(shù)據(jù)部門一定程度上存在異構(gòu)數(shù)據(jù),導致各系統(tǒng)的數(shù)據(jù)流轉(zhuǎn)不夠通暢,產(chǎn)生信息孤島問題[1]。如何能將數(shù)據(jù)方便高效地開放出去,是學校信息化一直想要解決的難題,也是打造智慧圖書館的基礎。
2 圖書館智慧化過程中所存在的問題。
當前高校圖書館在建設智慧圖書館的過程中,在引進先進的設備的同時,建立了各類信息化系統(tǒng)。但隨著智慧化的不斷深入和數(shù)據(jù)挖掘技術(shù)的普及,一些原本容易被忽視的問題逐漸暴露出來,主要表現(xiàn)在:
數(shù)據(jù)缺乏共享。當今智慧圖書館建設的大背景下,全面、規(guī)范地獲取館內(nèi)信息數(shù)據(jù)用于大數(shù)據(jù)分析,是提供個性化管理及服務的基礎。而圖書館內(nèi)部存在眾多的信息管理系統(tǒng),如圖書管理系統(tǒng)、電子資源管理系統(tǒng)、座位預約系統(tǒng)、研討室預約系統(tǒng),門禁管理系統(tǒng)等,各系統(tǒng)的數(shù)據(jù)割據(jù),形成多個信息孤島,數(shù)據(jù)不能共享,嚴重阻礙了圖書館智慧化進程。
數(shù)據(jù)安全無法保證[2]。圖書館各系統(tǒng)之間的數(shù)據(jù)交換對接,一般采取各系統(tǒng)提供廠家之間提供接口或者開放數(shù)據(jù)庫的方式,中間過程圖書館無法管理和監(jiān)督,一旦發(fā)生數(shù)據(jù)丟失或信息泄露,各廠家之間相互推諉無法溯源,存在相當大的安全隱患。
數(shù)據(jù)質(zhì)量不高。圖書館前期信息系統(tǒng)建設主要以功能建設為主,缺乏數(shù)據(jù)標準整體規(guī)劃的意識,隨著時間的增長以及信息系統(tǒng)數(shù)量的不斷增加,問題數(shù)據(jù)不斷沉積,導致報表及統(tǒng)計數(shù)據(jù)的真實性無法保證,最終影響了決策分析的正確性。
數(shù)據(jù)管理缺乏審計,責任不清晰。
在此背景下,高校圖書館制定統(tǒng)一的數(shù)據(jù)標準、實現(xiàn)館內(nèi)基本業(yè)務系統(tǒng)數(shù)據(jù)、各類智能化機器數(shù)據(jù)及學校相關(guān)信息數(shù)據(jù)的高度融合,建設統(tǒng)一的數(shù)據(jù)交換平臺勢在必行。
3 數(shù)據(jù)交換平臺的架構(gòu)設計
本系統(tǒng)為各個業(yè)務系統(tǒng)數(shù)據(jù)交換提供簡單的接入方式,從原來的多頭接入改為單線接入,只需與數(shù)據(jù)交換平臺交互即可,無須處理多種數(shù)據(jù)源的差異性。很大程度上減小業(yè)務系統(tǒng)在數(shù)據(jù)交換服務上的開發(fā)壓力,并為數(shù)據(jù)追蹤,明確系統(tǒng)親疏關(guān)系,及數(shù)據(jù)使用情況實施監(jiān)控成為可能。平臺依托于現(xiàn)有的校園網(wǎng)絡,通過對館內(nèi)和學校各相關(guān)業(yè)務系統(tǒng)的基礎及業(yè)務數(shù)據(jù)的抽取、清洗以及訂閱發(fā)布以實現(xiàn)各系統(tǒng)之間的數(shù)據(jù)交換,避免其各自之間的頻繁交換,實現(xiàn)信息共享。同時,該平臺為所有共享交換的數(shù)據(jù)保留緩存,為大數(shù)據(jù)分析提供基礎數(shù)據(jù)。
本館數(shù)據(jù)平臺整體架構(gòu)如圖1所示。
如圖1所示,我院圖書館數(shù)據(jù)交換平臺的整體架構(gòu)由四層平臺組成,分別是作為數(shù)據(jù)來源和目標的信息系統(tǒng),共享交換中心,中心數(shù)據(jù)庫和數(shù)據(jù)管理中心。
3.1 信息系統(tǒng)(數(shù)據(jù)來源以及目標)
該層由圖書館以及學校各信息系統(tǒng)構(gòu)成,既是數(shù)據(jù)交換的數(shù)據(jù)源,同時也是數(shù)據(jù)交換的目標群體。這些系統(tǒng)在實際使用的過程中,積累了與圖書館相關(guān)的各種業(yè)務數(shù)據(jù),如人事系統(tǒng)中的教職工數(shù)據(jù)、教務系統(tǒng)中的學生數(shù)據(jù)、圖書管理系統(tǒng)中的館藏數(shù)據(jù)和借還數(shù)據(jù)、門禁管理系統(tǒng)中的出入館數(shù)據(jù)等。這些系統(tǒng)既是某些其他系統(tǒng)的數(shù)據(jù)來源,同時本身也是其他系統(tǒng)的數(shù)據(jù)推送目標。比如,圖書管理系統(tǒng)中的讀者分別來自人事系統(tǒng)和教務系統(tǒng)中的教職工和學生數(shù)據(jù),而教務系統(tǒng)的任課老師信息,則來源于人事系統(tǒng)。
3.2 共享交換中心
共享交換中心主要提供數(shù)據(jù)集成、數(shù)據(jù)質(zhì)量監(jiān)控以及數(shù)據(jù)共享發(fā)布三個服務。
數(shù)據(jù)集成包含對數(shù)據(jù)的接入、清洗加工,能自動采集各數(shù)據(jù)源的元數(shù)據(jù),對元數(shù)據(jù)進行管理,同時進行可視化的采集調(diào)度和監(jiān)控。
數(shù)據(jù)質(zhì)量監(jiān)控室在數(shù)據(jù)從源數(shù)據(jù)庫流向中心數(shù)據(jù)庫的過程中,對數(shù)據(jù)質(zhì)量和內(nèi)容進行監(jiān)控,確保數(shù)據(jù)的唯一性和正確性,同時形成數(shù)據(jù)質(zhì)量報告和數(shù)據(jù)質(zhì)量告警。
數(shù)據(jù)共享發(fā)布則主要通過數(shù)據(jù)發(fā)布服務和API接口的形式向數(shù)據(jù)使用者提供數(shù)據(jù)。
3.3 中心數(shù)據(jù)庫
中心數(shù)據(jù)庫分為基礎數(shù)據(jù)庫、業(yè)務數(shù)據(jù)庫和決策數(shù)據(jù)庫三個部分?;A數(shù)據(jù)庫存放圖書館以及學校各個業(yè)務系統(tǒng)的用于交換的共享數(shù)據(jù),如圖書管理系統(tǒng)的館藏書目數(shù)據(jù),教務系統(tǒng)的學生數(shù)據(jù)和人事系統(tǒng)的教職工數(shù)據(jù)等。業(yè)務數(shù)據(jù)庫用于存放各個業(yè)務系統(tǒng)產(chǎn)生的業(yè)務數(shù)據(jù),如圖書系統(tǒng)的借閱數(shù)據(jù),門禁系統(tǒng)進出館數(shù)據(jù),電子資源系統(tǒng)的檢索下載數(shù)據(jù),教務系統(tǒng)學生上課考試數(shù)據(jù)等等。決策數(shù)據(jù)庫則根據(jù)基礎數(shù)據(jù)、業(yè)務數(shù)據(jù)以及日志數(shù)據(jù)等,按照具體需求對數(shù)據(jù)進行挖掘和大數(shù)據(jù)分析,為領導層提供決策支持。
3.4 管理中心
管理中心主要通過數(shù)據(jù)服務管理和資源目錄管理的形式對共享交換中心和中心數(shù)據(jù)庫進行統(tǒng)一的管理。
4 數(shù)據(jù)交換平臺的關(guān)鍵技術(shù)
4.1 系統(tǒng)的技術(shù)架構(gòu)
交換平臺以J2EE為底層支持,使用高可用性中間件MyCat實現(xiàn)數(shù)據(jù)庫集群,通過dubbo、DataX、QuartZ分別實現(xiàn)了通信、數(shù)據(jù)交換以及調(diào)度服務。系統(tǒng)技術(shù)架構(gòu)圖如下圖2。
4.2 數(shù)據(jù)發(fā)布服務
數(shù)據(jù)使用者訂閱數(shù)據(jù),在管理員審批授權(quán)后,系統(tǒng)根據(jù)訂閱信息在共享數(shù)據(jù)中心提取數(shù)據(jù),按訂閱格式生成文件并將數(shù)據(jù)文件放置在安全的SFTP服務器,供訂閱人下載。該模式適合于數(shù)據(jù)量較大且數(shù)據(jù)實時性要求不太高的情況,采用DataX組件實現(xiàn)。
DataX作為中間載體連接各種異構(gòu)數(shù)據(jù)源[3],用星型同步鏈路代替了復雜的網(wǎng)狀同步鏈路,當有新的數(shù)據(jù)源需要和原有數(shù)據(jù)源做同步的時候,只需要將其接入DataX,便能做到無縫對接。
4.3 API接口
共享數(shù)據(jù)中心為所有的主題庫數(shù)據(jù)提供統(tǒng)一的API接口,管理員可以為申請用戶設置訪問權(quán)限和數(shù)據(jù)域權(quán)限,取得API授權(quán)后,數(shù)據(jù)使用者便可以調(diào)用數(shù)據(jù)接口獲取數(shù)據(jù)服務,同時系統(tǒng)將自動記錄接口調(diào)用情況,形成接口調(diào)用情況分析表。該模式適合于數(shù)據(jù)量不太大且實時性要求較高的情況,采用Dubbo組件實現(xiàn)。
本系統(tǒng)API數(shù)據(jù)服務封裝了Alibaba開源的分布式服務框架Dubbo,整體架構(gòu)如圖3。
近年來隨著互聯(lián)網(wǎng)的飛速發(fā)展,垂直應用架構(gòu)已越來越無法適應呈指數(shù)級增長的網(wǎng)站應用,Dubbo作為一個分布式服務框架,提供了高性能、透明化的遠程服務調(diào)用方案和SOA服務治理方案[4],主要包含以下幾個方面的功能:
1)遠程方法調(diào)用。通過簡單的配置,就能做到如同本地調(diào)用般調(diào)用遠程方法,從而避免了API侵入。
2)負載均衡:在內(nèi)網(wǎng)環(huán)境下,用軟件負載均衡替代硬件負載均衡器,大大降低了使用成本。
3)服務自動注冊,注冊中心基于接口名查詢服務提供者的IP地址,無須固定寫入服務提供方地址。
4.4 數(shù)據(jù)庫集群MyCat
MyCat將一個數(shù)據(jù)庫的數(shù)據(jù)分散到不同的數(shù)據(jù)庫中存儲,用來解決關(guān)系型數(shù)據(jù)庫海量存儲的問題,顯著提高查詢性能。
4.5 sftp服務器
安全 FTP 服務器(sftp服務器),通過 SSH 等安全文件傳輸協(xié)議傳輸文件,sftp用戶只能訪問經(jīng)過訪問授權(quán)的專屬目錄實現(xiàn)上傳和下載功能。實現(xiàn)了在不安全的網(wǎng)絡環(huán)境下傳輸機密文件。
5 數(shù)據(jù)交換平臺在高校圖書館的應用
5.1 實現(xiàn)高校圖書館用戶數(shù)據(jù)的實時更新
高校圖書館與公共圖書館用戶數(shù)據(jù)的生成方式有著本質(zhì)的不同,公共圖書館的用戶信息完全由圖書管理系統(tǒng)生成和維護,用戶的增加、注銷、信息修改等都是第一時間通過該系統(tǒng)完成,確保了圖書館用戶數(shù)據(jù)的實時性和有效性。而高校圖書館的用戶數(shù)據(jù)主要有兩個來源:產(chǎn)生教職工數(shù)據(jù)的人事系統(tǒng)和產(chǎn)生學生數(shù)據(jù)的教務系統(tǒng)。通常圖書管理系統(tǒng)中的數(shù)據(jù)都是新生入學之后由圖書館工作人員一次手工導入,在教務和人事系統(tǒng)用戶信息發(fā)生變更時,不能第一時間對讀者信息進行更新,甚至從來不更新,久而久之造成大量錯誤用戶數(shù)據(jù)堆積,影響圖書館數(shù)據(jù)報表和數(shù)據(jù)分析的準確性。有的高校圖書館通過系統(tǒng)對接的方式分別從這兩個系統(tǒng)同步數(shù)據(jù),一定程度上緩解了手工導入的時效性和準確性問題,但出現(xiàn)了穩(wěn)定性的問題。不同廠家之間數(shù)據(jù)標準和接口不一致,每個接口都是個性化定制,缺乏統(tǒng)一標準[5],出現(xiàn)問題相互推諉,造成維護成本高,解決問題效率低下。我院圖書館通過數(shù)據(jù)交換中心將人事系統(tǒng)、教務系統(tǒng)的人員數(shù)據(jù)交換給圖書館各個信息系統(tǒng),規(guī)范統(tǒng)一了每個系統(tǒng)的人員信息,從根本上解決了用戶數(shù)據(jù)的準確性和實效性問題,極大提高了各系統(tǒng)的數(shù)據(jù)質(zhì)量。
5.2 為圖書館智慧化推薦提供多樣化的數(shù)據(jù)支持
大數(shù)據(jù)技術(shù)的發(fā)展為圖書館的智慧化和信息化帶來了新的機遇與挑戰(zhàn),智慧化推薦作為智慧圖書館的重要組成部分,需要全方位多角度的用戶行為信息。圖書館的業(yè)務范圍過小的缺點導致其數(shù)據(jù)來源相對單一,大部分圖書館的用戶畫像只能通過歷史借閱記錄、檢索記錄等業(yè)務數(shù)據(jù)分析產(chǎn)生,由于數(shù)據(jù)標準不統(tǒng)一,接口質(zhì)量參差不齊等問題,電子資源系統(tǒng)、門禁系統(tǒng)所產(chǎn)生的行為日志,往往處于“數(shù)據(jù)孤島”的狀態(tài)。對于很少去圖書館或者很少有借閱或者檢索行為的讀者,更是因為沒有數(shù)據(jù)或者數(shù)據(jù)過少而無法對其行為特征進行挖掘。對于高校圖書館而言,讀者的行為數(shù)據(jù)廣泛存在于教務系統(tǒng)、人事系統(tǒng)、一卡通系統(tǒng)、公寓管理系統(tǒng)等所有的信息化系統(tǒng)中,如課程安排、考試成績、生活消費,起居飲食等,涵蓋了讀者日常行為的方方面面。如何收集整合并利用其產(chǎn)生精準的用戶行為畫像用于個性化推薦,是高校圖書館亟需解決的問題。以往通過接口的方式對接每一個系統(tǒng)不僅成本高昂穩(wěn)定性差,效率也極其低下。通過數(shù)據(jù)庫讀取的方式又會碰到數(shù)據(jù)標準不統(tǒng)一,安全責任歸屬不清的問題。數(shù)據(jù)交換平臺為圖書館提供一個集成的數(shù)據(jù)中心,它把圖書館以及學校所有重要的業(yè)務數(shù)據(jù)抽取到中心數(shù)據(jù)庫中,清洗轉(zhuǎn)換后推送至大數(shù)據(jù)分析平臺,減少了重復性的數(shù)據(jù)收集和對接工作,避免了廠商之間直接訪問對方數(shù)據(jù)庫所產(chǎn)生的安全隱患和責任歸屬問題。經(jīng)過對這些數(shù)據(jù)的挖掘分析,圖書館便能獲得更加精準的用戶畫像,從而向讀者提供更加智慧化、個性化的推薦。
6 結(jié)束語
本文從高校圖書館的數(shù)據(jù)交換需求出發(fā),以建設智慧圖書館為目的,設計并建設了一套適合高校圖書館的數(shù)據(jù)交換平臺,詳細介紹了系統(tǒng)的整體架構(gòu)以及所使用的關(guān)鍵技術(shù),極大改善了在圖書館智慧化信息化過程中出現(xiàn)的數(shù)據(jù)分散、集成困難等問題,為實現(xiàn)智慧圖書館提供了可行的方案。但是,高校智慧圖書館建設是一個需要不斷學習、積累的過程,目前仍在積極探索階段,還需要后續(xù)不斷研究與實踐。
參考文獻:
[1] 賀志強,宋衍,高越.教育資源元數(shù)據(jù)規(guī)范標準及支撐平臺的設計研究[J].現(xiàn)代教育技術(shù),2010,20(2):109-111.
[2] 刁宇.基于數(shù)字化校園的數(shù)據(jù)交換平臺的研究與實現(xiàn)[D].長春:東北師范大學.
[3] 梁麗琴,鄭少明,鄭漢軍,等.利用大數(shù)據(jù)技術(shù)進行海量數(shù)據(jù)治理[J].網(wǎng)絡安全技術(shù)與應用,2018(11):51,56.
[4] 周永圣,孫雯,侯峰裕,等.車險中介云平臺的費用管理系統(tǒng)的設計與實現(xiàn)[J].微型電腦應用,2020,36(2):86-89.
[5] 張曉慧.大數(shù)據(jù)時代教育數(shù)據(jù)治理探索[J].紹興文理學院學報(自然科學),2021,41(1):56-60.
【通聯(lián)編輯:謝媛媛】