鮑 劼 李丕仕 尹良偉 王 靜
(中國礦業(yè)大學圖書館,江蘇 徐州 221116)
2020年4月,中共中央、國務院在《關(guān)于構(gòu)建更加完善的要素市場化配置體制機制的意見》中提出,把數(shù)據(jù)作為與土地、勞動力、資本和技術(shù)并列的五大生產(chǎn)要素之一。2022年12月,中共中央、國務院印發(fā)《關(guān)于構(gòu)建數(shù)據(jù)基礎制度更好發(fā)揮數(shù)據(jù)要素作用的意見》,指出數(shù)據(jù)作為新型生產(chǎn)要素,是數(shù)字化、網(wǎng)絡化、智能化的基礎。2023年2月,中共中央、國務院印發(fā)《數(shù)字中國建設整體布局規(guī)劃》,標志著數(shù)據(jù)已成為社會和經(jīng)濟發(fā)展的驅(qū)動力。以上政策表明數(shù)字中國全面建設時代的來臨,數(shù)據(jù)要素的作用越來越大,要充分激活數(shù)據(jù)要素的潛能,為經(jīng)濟發(fā)展賦能。高校圖書館的數(shù)據(jù)作為我國海量數(shù)據(jù)的重要組成部分,為高校教學科研、科技創(chuàng)新提供強有力的支撐保障,充分發(fā)揮這些海量數(shù)據(jù)規(guī)模和豐富應用場景的優(yōu)勢,是圖書館當下的重要任務。資源系統(tǒng)分散孤立、數(shù)據(jù)缺乏治理,業(yè)務系統(tǒng)孤立是高校圖書館普遍存在的問題。數(shù)據(jù)中臺提供了一種新的架構(gòu)理念,實現(xiàn)數(shù)據(jù)的高效應用、共享和價值最大化,以及各業(yè)務系統(tǒng)的連接和交互[1]。筆者以中國礦業(yè)大學圖書館為例,探討高校圖書館數(shù)據(jù)中臺建設,以期實現(xiàn)資源統(tǒng)一管理、數(shù)據(jù)集中治理、業(yè)務系統(tǒng)高效交互,為高校圖書館建設賦能,推進高校圖書館智慧化發(fā)展。
數(shù)據(jù)中臺最早起源于芬蘭的世界知名游戲公司Supercell,通過數(shù)據(jù)中臺架構(gòu)投入很少人力開發(fā)出全球熱門的游戲[2]。2015年,阿里提出數(shù)據(jù)中臺戰(zhàn)略,對標國外“Data Lake”構(gòu)建“大中臺、小前臺”組織機制和業(yè)務機制[3]。2018年,京東、百度、騰訊等公司陸續(xù)推出以“數(shù)據(jù)中臺”為核心的組織架構(gòu),隨之引發(fā)“數(shù)據(jù)中臺”的研究熱潮[2]。但是,目前對數(shù)據(jù)中臺尚無統(tǒng)一定義,以下是幾種有代表性的定義。定義1:數(shù)據(jù)中臺是在政企數(shù)字化轉(zhuǎn)型過程中,對各業(yè)務單元業(yè)務與數(shù)據(jù)的沉淀,構(gòu)建包括數(shù)據(jù)技術(shù)、數(shù)據(jù)治理、數(shù)據(jù)應用等數(shù)據(jù)建設、管理、使用體系,實現(xiàn)數(shù)據(jù)賦能[4]。定義2:數(shù)據(jù)中臺是主要為獲取、分析、處理、存儲、檢索和傳播一種或多種類型的數(shù)據(jù)而建立的組織[5-6]。定義3:數(shù)據(jù)中臺是方法論+組織+工具的解決方案。其中方法論是OneID+OneModel+OneService;組織為從IT支撐到業(yè)務賦能的數(shù)據(jù)、技術(shù)、產(chǎn)品相匹配的人才結(jié)構(gòu),包含數(shù)據(jù)產(chǎn)品經(jīng)理、數(shù)據(jù)研發(fā)、數(shù)據(jù)科學家等多角色;工具為采集、構(gòu)建、管理、服務等[7]。定義4:數(shù)據(jù)中臺是可復用的數(shù)據(jù)資產(chǎn)中心與數(shù)據(jù)服務中心,提供清潔、透明、智慧的數(shù)據(jù)資產(chǎn)與高效的數(shù)據(jù)能力,使業(yè)務數(shù)字化運營[8]。依據(jù)上述定義,筆者認為高校圖書館數(shù)據(jù)中臺更趨近于一種基于全周期的數(shù)據(jù)處理中心,包括數(shù)據(jù)采集、存儲、治理、挖掘、分析全流程,用數(shù)據(jù)實現(xiàn)用戶服務,讓數(shù)據(jù)應用到業(yè)務場景。
通過網(wǎng)絡和學術(shù)會議調(diào)研了解,寧波圖書館聯(lián)合阿里云、袋鼠云打造一體化智慧服務平臺[9],采集館內(nèi)業(yè)務和用戶對象等數(shù)據(jù)信息,打通所有業(yè)務的數(shù)據(jù)孤島;上海圖書館攜手中國知網(wǎng)建立數(shù)據(jù)中臺,實現(xiàn)數(shù)據(jù)統(tǒng)一管理;復旦大學圖書館與阿法迪公司聯(lián)合打造數(shù)據(jù)中臺,建立數(shù)據(jù)基座,實現(xiàn)“數(shù)入一庫,數(shù)出一庫”。
通過梳理中國知網(wǎng)數(shù)據(jù)庫相關(guān)文獻,截至2023年4月,以“數(shù)據(jù)中臺”為檢索詞進行檢索,得到相關(guān)文獻1752篇;以“數(shù)據(jù)中臺”+“圖書館”為檢索詞進行檢索,得到相關(guān)文獻24篇。分析發(fā)現(xiàn),數(shù)據(jù)中臺領(lǐng)域的研究文獻自2018年以來直線上升,但有關(guān)圖書館數(shù)據(jù)中臺的相關(guān)研究成果較少,主要集中在:從中臺思維出發(fā),探索釋放海量數(shù)據(jù)資源更大價值、降低維護成本和提升快速創(chuàng)新能力的信息化解決方案[9];中臺在圖書館領(lǐng)域的應用場景與建設方式,提出圖書館中臺建設方法論[10];數(shù)據(jù)中臺建設,根據(jù)服務對象的不同要求,支撐微服務程序的數(shù)據(jù)調(diào)用[11];通過支持向量回歸(SVR)算法建立模型,并基于實驗模型利用實際數(shù)據(jù)分析和預測驗證中臺架構(gòu)的可行性[12];提出基于數(shù)據(jù)中臺理念的高校圖書館數(shù)據(jù)服務模式[13]??梢?,圍繞圖書館數(shù)據(jù)中臺建構(gòu),還缺乏相關(guān)技術(shù)框架及關(guān)鍵技術(shù)的研究。
數(shù)據(jù)中臺的目標是實現(xiàn)數(shù)據(jù)共享和數(shù)據(jù)價值最大化,其核心功能包括:對數(shù)據(jù)資產(chǎn)的高效管理,提高數(shù)據(jù)質(zhì)量;對異構(gòu)數(shù)據(jù)源進行標準化處理,提高數(shù)據(jù)共享交換性;讓數(shù)據(jù)快速應用到各業(yè)務場景,提高數(shù)據(jù)價值;信息安全貫穿整個流程,保證中臺數(shù)據(jù)和應用的安全。根據(jù)圖書館的實際情況和功能需求,充分考慮圖書館數(shù)據(jù)中臺的存儲能力、計算能力、數(shù)據(jù)交換能力、服務能力、擴展能力,采用主流的大數(shù)據(jù)技術(shù)框架,設計圖書館數(shù)據(jù)中臺的技術(shù)架構(gòu)(見圖1)。
圖1 圖書館數(shù)據(jù)中臺的技術(shù)架構(gòu)
圖書館數(shù)據(jù)中臺技術(shù)框架設計包括6層架構(gòu),分別是:數(shù)據(jù)源、數(shù)據(jù)采集層、數(shù)據(jù)處理層、數(shù)據(jù)存儲層、數(shù)據(jù)服務層以及終端。圖書館數(shù)據(jù)種類較多,主要包含關(guān)系型數(shù)據(jù)、非關(guān)系型數(shù)據(jù)、文本數(shù)據(jù)、爬蟲數(shù)據(jù)、Binlog日志數(shù)據(jù)、還有部分物聯(lián)網(wǎng)Iot數(shù)據(jù)。
數(shù)據(jù)采集層按數(shù)據(jù)的實時性,分為離線采集和實時采集。離線采集使用Sqoop和DataX相結(jié)合,結(jié)構(gòu)化數(shù)據(jù)且數(shù)據(jù)量較大場景采用Sqoop,如館藏數(shù)據(jù)、讀者數(shù)據(jù)等;非結(jié)構(gòu)化數(shù)據(jù)且數(shù)據(jù)量較小場景采用DataX。實時采集使用Flume或Kafka,如日志數(shù)據(jù)、系統(tǒng)監(jiān)控數(shù)據(jù)、網(wǎng)站跟蹤數(shù)據(jù)等。
數(shù)據(jù)處理層,當數(shù)據(jù)量較大時采用大數(shù)據(jù)計算框架MapReduce進行計算;當數(shù)據(jù)要批處理時選擇Spark,且適合離線處理;實時數(shù)據(jù)計算處理時則選擇Flink。機器學習一般采用Spark MLlib,其內(nèi)置的算法包如隨機森林、邏輯回歸、決策樹等,可以實現(xiàn)智能應用場景。TensorFlow和PyTorch屬于AI平臺,可以實現(xiàn)人臉識別、智能搜索、智能客服等。
數(shù)據(jù)存儲層,其存儲引擎基于Hadoop的HDFS分布式存儲,達到數(shù)據(jù)多份冗余和充分利用物理層多磁盤的I/O性能。Hive是大數(shù)據(jù)廣泛使用的離線數(shù)據(jù)存儲平臺,用于存儲數(shù)據(jù)中臺的全量數(shù)據(jù),在建模階段可以使用Hive SQL,Spark SQL進行數(shù)據(jù)處理和建模。
數(shù)據(jù)服務層的技術(shù)類似業(yè)務應用,主要基于開源Spring Cloud,Spring Boot,Spring Security等構(gòu)建,使用標簽構(gòu)建、人物畫像、可視化分析、知識服務等。終端層主要提供API接口與實現(xiàn),使用Web客戶端進行交互。
2.2.1 面向圖書館的大數(shù)據(jù)分布式處理技術(shù)
圖書館數(shù)據(jù)結(jié)構(gòu)多樣,分別有結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、時序數(shù)據(jù)、其他非結(jié)構(gòu)化數(shù)據(jù)等,為解決數(shù)據(jù)的差異性,同時考慮圖書館高并發(fā)、高可用、稀疏性等大數(shù)據(jù)特征的技術(shù)要求,使用大數(shù)據(jù)分布式處理技術(shù),分布式文件存儲、計算資源管理調(diào)度、分布式運算框架,以支持圖書館數(shù)據(jù)的統(tǒng)一存儲和處理。搭建數(shù)據(jù)倉庫對結(jié)構(gòu)化數(shù)據(jù)進行存儲處理,可將SQL語句轉(zhuǎn)換為MapReduce任務運行,方便利用熟悉的類SQL語言進行數(shù)據(jù)查詢、匯總和分析;搭建列式數(shù)據(jù)庫系統(tǒng),對時序、非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)進行存儲處理。
通過數(shù)據(jù)按位存儲、數(shù)據(jù)分塊及多節(jié)點跨機架備份提高數(shù)據(jù)處理的可靠性;在集群節(jié)點間分配數(shù)據(jù),支持就近數(shù)據(jù)節(jié)點計算;計算引擎基于數(shù)據(jù)塊MapReduce計算,算力可以橫向擴展,提高集群系統(tǒng)擴展性。同時,存儲系統(tǒng)要支持數(shù)據(jù)多個副本,并自動完成備份及補充備份。
2.2.2 基于流計算的數(shù)據(jù)采集技術(shù)
數(shù)據(jù)中臺建設的首要任務是數(shù)據(jù)采集,面對海量的離線和實時數(shù)據(jù),面對Hadoop,Oracle,MySQL,文件以及消息等多種數(shù)據(jù)源,需要ETL技術(shù)、分布式流數(shù)據(jù)處理技術(shù)和消息中間件技術(shù)相融合的基于流計算的數(shù)據(jù)采集技術(shù)。數(shù)據(jù)采集方式分為全量采集和增量采集。全量采集,即每一次采集所有數(shù)據(jù),可以通過常見SQL語句導出,根據(jù)實際應用采集所需的數(shù)據(jù)。增量采集,即在全量采集的基礎上,后續(xù)只采集修改、增加的數(shù)據(jù),重點是要區(qū)分哪些是存量數(shù)據(jù),哪些是增量數(shù)據(jù)。數(shù)據(jù)采集方式和方法描述見表1。
表1 數(shù)據(jù)采集方法描述
采集后數(shù)據(jù)需要通過數(shù)據(jù)校驗手段來保障采集數(shù)據(jù)質(zhì)量,應及時處理接口的變更和異常;對比、分析數(shù)據(jù)源與目標數(shù)據(jù),進一步發(fā)現(xiàn)和解決在采集過程中產(chǎn)生的異常錯誤[14]。總之,數(shù)據(jù)校驗是保障數(shù)據(jù)采集質(zhì)量的重要手段。
2.2.3 基于可視化的自然語言分析挖掘技術(shù)
自然語言處理成為人工智能領(lǐng)域的一個熱門研究方向?,F(xiàn)有的自然語言處理系統(tǒng)功能較為單一,不能滿足客戶多元化需求。流程可視化的自然語言處理挖掘分析系統(tǒng)的建模和方法,可以實現(xiàn)高效自然語言分析挖掘,生成結(jié)構(gòu)化數(shù)據(jù),進行可用有效的知識圖譜構(gòu)建,可以在不進行編碼的情況下進行自然語言分析挖掘并對已有的模型進行優(yōu)化訓練[15]。通過一系列可視化組件控制,進行自然語言的自動化流程處理,生成結(jié)構(gòu)化的知識圖譜。在流程處理上通過對可視化流程進行DAG圖解析,優(yōu)化高效地調(diào)用對應邏輯進行自然語言處理分析。在計算過程中,合理地分配系統(tǒng)中的CPU和GPU資源,大大提高自然語言處理的計算效率。通過可視化的圖形化編程,大大降低自然語言處理的門檻。
2.2.4 基于任務可視化的Spark機器學習技術(shù)
機器學習模型的構(gòu)建較為復雜,需要經(jīng)過特征分析、模型訓練、模型調(diào)優(yōu)、模型導出、模型加載等,學習成本較高,每個模塊都需要編碼和調(diào)試,這對于圖書館領(lǐng)域在構(gòu)建機器學習系統(tǒng)時需要很大的學習和時間成本。因此,可視化拖拽的Spark機器學習組件,可以將整個流程簡化為圖形化組件,包括輸入、輸出、分類、聚類、回歸、關(guān)聯(lián)、數(shù)據(jù)轉(zhuǎn)換、知識構(gòu)建等組件。針對某項具體的業(yè)務,拖拽組件,構(gòu)建數(shù)據(jù)處理流程,降低引入數(shù)據(jù)挖掘系統(tǒng)的成本。
中國礦業(yè)大學圖書館于2019年12月啟用新一代智慧圖書館管理系統(tǒng)[16],擁有數(shù)據(jù)量達220T,各應用系統(tǒng)、鏡像數(shù)據(jù)庫、自建數(shù)據(jù)庫共64個。但存在以下問題:資源分散,沒有統(tǒng)一管理的平臺;數(shù)據(jù)缺乏治理,造成數(shù)據(jù)應用不準確;系統(tǒng)孤立,各系統(tǒng)間的交互效率低。針對上述問題,筆者設計了中國礦業(yè)大學圖書館數(shù)據(jù)中臺功能模塊(見圖2)。
圖2 圖書館數(shù)據(jù)中臺功能模塊
中國礦業(yè)大學圖書館數(shù)據(jù)中臺功能架構(gòu)分為4個模塊,分別是:數(shù)據(jù)管理模塊、數(shù)據(jù)治理模塊、數(shù)據(jù)賦能模塊和數(shù)據(jù)應用模塊。
數(shù)據(jù)管理模塊主要實現(xiàn)圖書館數(shù)據(jù)的統(tǒng)一管理,核心功能包括元數(shù)據(jù)管理、數(shù)據(jù)源梳理、數(shù)據(jù)采集、數(shù)據(jù)存儲和數(shù)據(jù)抽取。經(jīng)過梳理,數(shù)據(jù)從來源角度主要分為6類,包括文獻數(shù)據(jù)、行為數(shù)據(jù)、流通數(shù)據(jù)、資源數(shù)據(jù)、統(tǒng)計數(shù)據(jù)、網(wǎng)絡數(shù)據(jù)等;從數(shù)據(jù)結(jié)構(gòu)角度主要分為4類,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和時序數(shù)據(jù)等。針對多種數(shù)據(jù)源和多種數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)采集分為線上和線下批量數(shù)據(jù)采集和實時數(shù)據(jù)采集,對于網(wǎng)絡數(shù)據(jù)可以利用網(wǎng)絡爬蟲工具進行采集。采集的數(shù)據(jù)利用Hadoop分布式文件系統(tǒng)進行存儲,通過ETL進行抽取。數(shù)據(jù)采集節(jié)點將采集到的數(shù)據(jù)封裝成消息發(fā)布到Kafka集群,流式數(shù)據(jù)處理集群(Storm/Spark Streaming/Flink)從Kafka集群獲取數(shù)據(jù)并進行處理,將處理結(jié)果發(fā)送回Kafka;同時還可以在Hive數(shù)據(jù)倉庫進行存儲。
數(shù)據(jù)治理模塊主要目標是數(shù)據(jù)的規(guī)范生成和使用,其核心功能包括元數(shù)據(jù)管理、數(shù)據(jù)標簽管理、數(shù)據(jù)清洗、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)集成管理和數(shù)據(jù)安全。數(shù)據(jù)標簽管理即分別從數(shù)據(jù)生成方式、數(shù)據(jù)主題分類、數(shù)據(jù)使用場景等構(gòu)建一個標簽體系,通過構(gòu)建用戶標簽,可以形成用戶畫像,為用戶數(shù)據(jù)的挖掘分析提供支撐。數(shù)據(jù)清洗,首先根據(jù)中國礦業(yè)大學圖書館的實際應用需求,制定相應的清洗規(guī)則,然后從數(shù)據(jù)源抽取所需的數(shù)據(jù),按照數(shù)據(jù)清洗規(guī)則,進行異常檢測、一致性檢查等。同時,也要根據(jù)實際應用需求,制定相應的數(shù)據(jù)規(guī)范,如讀者信息數(shù)據(jù)規(guī)范、元數(shù)據(jù)規(guī)范、行為數(shù)據(jù)規(guī)范等,按照設計好的規(guī)范的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。數(shù)據(jù)質(zhì)量管理主要從數(shù)據(jù)的完整性、一致性、有效性、關(guān)聯(lián)性、準確性多個方面制定標準規(guī)則,根據(jù)規(guī)則做數(shù)據(jù)質(zhì)量分析、對比檢查,并將檢查結(jié)果進行處理。數(shù)據(jù)安全管理主要通過數(shù)據(jù)安全加密傳輸、數(shù)據(jù)脫敏、防范數(shù)據(jù)隱私泄露、訪問控制、安全審計等多個辦法,保障數(shù)據(jù)在“存、管、用”各環(huán)節(jié)的安全有效。數(shù)據(jù)治理整體架構(gòu)如圖3所示。
圖3 數(shù)據(jù)治理框架
數(shù)據(jù)賦能模塊主要包括數(shù)據(jù)挖掘、數(shù)據(jù)分析、智能搜索和聚類分組。圖書館的數(shù)據(jù)在經(jīng)過采集、治理、存儲之后,形成了圖書館的大數(shù)據(jù)資產(chǎn),要發(fā)揮這些數(shù)據(jù)資產(chǎn)的價值,元數(shù)據(jù)再造,知識再造,就要運用大數(shù)據(jù)的挖掘分析技術(shù)、智能搜索、聚類分組等算法、技術(shù),生產(chǎn)出數(shù)據(jù)資產(chǎn)的使用價值,為圖書館的服務賦能。數(shù)據(jù)賦能流程見圖4。
圖4 數(shù)據(jù)賦能流程
數(shù)據(jù)應用模塊包括智能推薦、用戶畫像、可視化展示和決策支持。通過標簽系統(tǒng),構(gòu)建多維度用戶標簽,基于挖掘技術(shù),形成用戶畫像,實現(xiàn)智能推薦??梢暬故镜臄?shù)據(jù)涉及圖書館系統(tǒng)管理與運營監(jiān)控數(shù)據(jù)、讀者行為數(shù)據(jù)、閱讀關(guān)系數(shù)據(jù)、終端設備運行數(shù)據(jù)等?;谶@些數(shù)據(jù),進行挖掘分析,結(jié)果以可視化圖形的形式展示出來,如柱狀圖、餅狀圖、散點圖、熱力圖等可視化組件。決策支持主要通過建立指標庫、專家規(guī)則進行機器學習,實現(xiàn)智能預測。
面對海量、異構(gòu)、多源、碎片化的圖書館數(shù)據(jù),筆者研究并提出了中國礦業(yè)大學圖書館數(shù)據(jù)中臺構(gòu)建的關(guān)鍵技術(shù)和功能架構(gòu),對高校圖書館數(shù)據(jù)中臺建設和實踐能帶來一些啟示。
為實現(xiàn)高校圖書館的數(shù)字化轉(zhuǎn)型,圖書館構(gòu)建數(shù)據(jù)中臺系統(tǒng)以滿足不斷變化的應用需求。但是,不同高校圖書館的應用需求不同,圖書館自身的應用需求也在不斷更新迭代,目前還沒有統(tǒng)一、規(guī)范的數(shù)據(jù)中臺模板供使用,各高校圖書館需根據(jù)自身的業(yè)務發(fā)展需要,構(gòu)建適合的數(shù)據(jù)中臺并不斷完善和發(fā)展。
數(shù)據(jù)中臺建設的目標之一是解決系統(tǒng)孤島,實現(xiàn)數(shù)據(jù)共享,打通數(shù)據(jù)壁壘,同時也不可避免地帶來數(shù)據(jù)安全和隱私泄露的問題,因此,數(shù)據(jù)中臺安全保護和隱私保護體系建設應該引起高度重視。
數(shù)據(jù)中臺建設環(huán)節(jié)涉及數(shù)據(jù)治理,數(shù)據(jù)清洗規(guī)則和數(shù)據(jù)規(guī)范制定還缺少行業(yè)標準,數(shù)據(jù)治理較為復雜,治理體系需要不斷完善;同時,絕大多數(shù)高校圖書館缺乏解決相應問題的經(jīng)驗豐富、成熟的技術(shù)館員。因此在數(shù)據(jù)中臺建設過程中,需要借助第三方公司來高效地完成。目前這類數(shù)據(jù)管理、數(shù)據(jù)分析公司較多,應選擇技術(shù)實力強、后續(xù)服務有保障、有成功案例的公司進行合作。
通過高校圖書館數(shù)據(jù)中臺建設,可以實現(xiàn)高校圖書館數(shù)據(jù)資產(chǎn)的高效管理和價值利用;在數(shù)據(jù)爆炸式增長的時代,有效解決數(shù)據(jù)存儲、管理和應用的問題;通過數(shù)據(jù)應用API實現(xiàn)數(shù)據(jù)價值最大化。數(shù)據(jù)中臺能夠更快速、精準地響應用戶需求,為用戶提供數(shù)據(jù)服務。此外,通過數(shù)據(jù)中臺建設及數(shù)據(jù)應用,能促進相關(guān)館員加強數(shù)據(jù)管理相關(guān)知識、技術(shù)的學習,提升自身專業(yè)素養(yǎng),提升圖書館內(nèi)團隊協(xié)作能力、數(shù)據(jù)開發(fā)能力、運營能力,還可以加強圖書館館員和第三方公司的協(xié)作能力,提升館員的綜合實力。
大數(shù)據(jù)、物聯(lián)網(wǎng)、云計算和人工智能時代的到來,傳統(tǒng)的圖書館應用系統(tǒng)和數(shù)據(jù)管理應用方式越來越難以適應來自數(shù)字化和讀者需求兩方面的挑戰(zhàn)。筆者以中國礦業(yè)大學圖書館為例,研究構(gòu)建融合主流的大數(shù)據(jù)框架、技術(shù),提供大規(guī)模數(shù)據(jù)存儲、計算、處理能力的數(shù)據(jù)中臺。數(shù)據(jù)中臺的建設,保障數(shù)據(jù)傳輸、管理、應用過程中的安全高效,實現(xiàn)數(shù)據(jù)的采集匯聚、存儲管理、共享交換和開發(fā)開放,通過中臺提供的能力,實現(xiàn)大數(shù)據(jù)的深度分析、價值挖掘和合理應用。同時,提升圖書館精準服務水平、優(yōu)化資源建設、實現(xiàn)科學管理。通過未來持續(xù)的研究,能夠完善中國礦業(yè)大學數(shù)據(jù)中臺構(gòu)建,希望為高校圖書館數(shù)據(jù)中臺建設的進一步研究提供有益借鑒。