張夢(mèng)琦,易 亮
(重慶文理學(xué)院,重慶 402160)
當(dāng)前,國內(nèi)各類高校都已成功建設(shè)了用于日常各類業(yè)務(wù)處理的信息化服務(wù)系統(tǒng),如智能化辦公系統(tǒng)、教務(wù)信息管理系統(tǒng)、校園一卡通管理系統(tǒng)、智能門禁管理系統(tǒng)等。但由于此類信息管理系統(tǒng)都是為了解決單一的業(yè)務(wù)問題,采用單獨(dú)建設(shè)的方式,并未進(jìn)行多系統(tǒng)集成。因此,各系統(tǒng)之間相對(duì)獨(dú)立,系統(tǒng)之間處于數(shù)據(jù)隔離狀態(tài),形成“數(shù)據(jù)孤島”,無法實(shí)現(xiàn)系統(tǒng)互聯(lián),信息互通。高校內(nèi)各類業(yè)務(wù)管理系統(tǒng)每天產(chǎn)生數(shù)十萬條業(yè)務(wù)記錄,這些存儲(chǔ)于服務(wù)器的業(yè)務(wù)數(shù)據(jù),既有結(jié)構(gòu)化類型數(shù)據(jù),又有日志、文檔等半結(jié)構(gòu)化類型數(shù)據(jù),同時(shí)也存在音、視頻、教學(xué)課件等多類非結(jié)構(gòu)化類型數(shù)據(jù)。伴隨著時(shí)間推移,日常業(yè)務(wù)記錄數(shù)據(jù)的存儲(chǔ)占據(jù)大量系統(tǒng)存儲(chǔ)資源,如何對(duì)未來需要存儲(chǔ)的海量數(shù)據(jù)進(jìn)行集成與共享,使數(shù)據(jù)得到更好的利用,減少冗余數(shù)據(jù)的存儲(chǔ),是當(dāng)前智慧校園建設(shè)中亟須解決的問題?;诖?很多高校提出建設(shè)一個(gè)能集成共享存儲(chǔ)高校各業(yè)務(wù)系統(tǒng)實(shí)時(shí)數(shù)據(jù)、歷史數(shù)據(jù)、音視頻文件、日志等信息,滿足資源集中融合、統(tǒng)一管理、高可擴(kuò)展和高可用性的數(shù)據(jù)中心平臺(tái),為智慧校園建設(shè)提供數(shù)據(jù)支撐[1]。
各高校在多年的建設(shè)中,已逐步形成和積累了大量優(yōu)勢(shì)資源,如師資力量,教學(xué)教務(wù)、科研資源、管理信息資源等[2]。如何有效地挖掘和充分利用這些寶貴資源,將對(duì)高校在學(xué)科建設(shè)、科學(xué)研究、綜合管理工作等多方面發(fā)揮巨大作用。校園共享數(shù)據(jù)中心的建設(shè)為校園內(nèi)各類業(yè)務(wù)系統(tǒng)之間的數(shù)據(jù)采集、數(shù)據(jù)分析、數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)挖掘以及歷史數(shù)據(jù)存儲(chǔ)等提供全面技術(shù)支持。欲實(shí)現(xiàn)各業(yè)務(wù)系統(tǒng)之間的數(shù)據(jù)共享與交換,則離不開一項(xiàng)關(guān)鍵的數(shù)據(jù)倉庫技術(shù) (Extract-Transform-Load,ETL)。這項(xiàng)技術(shù)用來描述數(shù)據(jù)從源端經(jīng)過抽取、轉(zhuǎn)換、裝入目的端的過程[3]。
從目前高??焖侔l(fā)展的現(xiàn)狀來看,圖書館為高校管理部門提供決策支持服務(wù)對(duì)供需雙方都有重要意義。
高校教育的發(fā)展離不開科學(xué)政策的制定。當(dāng)前,高校伴隨著不斷擴(kuò)張的教育規(guī)模,正在發(fā)生深刻的變革。隨著學(xué)生規(guī)模的擴(kuò)大,學(xué)科結(jié)構(gòu)愈趨復(fù)雜,辦學(xué)空間越來越大等多種因素的影響,使得高校決策也變得越來越難,越來越復(fù)雜。根據(jù)以往的經(jīng)驗(yàn)判斷,方案、談判等形式的決策模式存在效率低、主觀性強(qiáng)、缺乏數(shù)據(jù)支撐等缺點(diǎn),已不適用于當(dāng)前的環(huán)境。當(dāng)前,高校在學(xué)科規(guī)劃、人才評(píng)估、科研評(píng)價(jià)等方面的決策制定都需要海量數(shù)據(jù)作為參考和支撐,通過對(duì)大數(shù)據(jù)進(jìn)行分析,輔助高校進(jìn)行科學(xué)決策的制定。
多年以來,各地高校圖書館都通過不斷開展多式多樣的服務(wù),例如:嵌入式教學(xué)、知識(shí)服務(wù)、面向科研的學(xué)科服務(wù)等一系列主動(dòng)性服務(wù),極力挖掘高校圖書館更深層次價(jià)值。由于無法充分調(diào)動(dòng)學(xué)生的積極性,教師與學(xué)生的參與度普遍不高。圖書館因此被作為教學(xué)輔助機(jī)構(gòu),成了被邊緣化的弱勢(shì)群體。如何將圖書館融入學(xué)校發(fā)展的大潮中,彰顯圖書館的特長,發(fā)揮出更大的優(yōu)勢(shì),跟上當(dāng)前高??焖侔l(fā)展的步伐,擴(kuò)大圖書館在校園內(nèi)的影響力,開展更加切實(shí)有效的學(xué)科服務(wù),成為當(dāng)前高校學(xué)科服務(wù)關(guān)注的焦點(diǎn)。為學(xué)校各層級(jí)提供決策支持服務(wù),可以有效地彰顯出圖書館特長與優(yōu)勢(shì),在一定程度上提升圖書館在校園內(nèi)的影響力。
為了提高對(duì)數(shù)據(jù)中心的數(shù)據(jù)的有效利用,本研究使用數(shù)據(jù)中心的數(shù)據(jù)對(duì)圖書館的圖情進(jìn)行分析,從而為圖書館的科學(xué)決策提供數(shù)據(jù)支持。
針對(duì)圖書館的數(shù)據(jù)進(jìn)行專項(xiàng)研究,采集圖書館門禁進(jìn)出的數(shù)據(jù),分析師生進(jìn)出圖書館的人數(shù)、在館時(shí)間、高峰時(shí)段、各個(gè)二級(jí)學(xué)院師生對(duì)圖書館的利用率、教師考勤等。
在本校已建成的數(shù)據(jù)中心的基礎(chǔ)上,應(yīng)用門禁管理系統(tǒng)對(duì)圖書館刷卡、刷臉數(shù)據(jù),學(xué)生綜合管理系統(tǒng)的學(xué)生基本信息,人事系統(tǒng)的教職工基本信息,教務(wù)系統(tǒng)的課程基本信息,班級(jí)基本信息,學(xué)院基本信息等,及圖書館的進(jìn)出數(shù)據(jù)進(jìn)行各個(gè)維度的分析,例如:本年度全校圖書館進(jìn)出次數(shù)、本年度各二級(jí)學(xué)院進(jìn)出次數(shù)、教職工的出勤率、在館時(shí)間的統(tǒng)計(jì)、本年度在館時(shí)間最長的學(xué)生、本年度在館時(shí)間最長的教職工、本年度進(jìn)出次數(shù)最多的二級(jí)學(xué)院等,對(duì)分析結(jié)果進(jìn)行柱狀圖、條形圖等圖形化展示,直觀地查看統(tǒng)計(jì)結(jié)果。
數(shù)據(jù)的處理從數(shù)據(jù)源抽取與集成所需的數(shù)據(jù)集,提取出數(shù)據(jù)的實(shí)體和關(guān)系,經(jīng)過關(guān)聯(lián)和聚合之后采用統(tǒng)一定義的結(jié)構(gòu)來存儲(chǔ)這些數(shù)據(jù)。而數(shù)據(jù)抽取與集成并不是一項(xiàng)全新技術(shù),在傳統(tǒng)數(shù)據(jù)庫領(lǐng)域此問題就已經(jīng)得到了比較成熟的研究。伴隨新數(shù)據(jù)源的不斷涌現(xiàn),數(shù)據(jù)集成算法也在不斷演變發(fā)展。從現(xiàn)有數(shù)據(jù)集成模型來說,當(dāng)前主流的數(shù)據(jù)抽取集成方式大致可分為以下 4 類:(1)基于物化或 ETL 方法的引擎。(2)基于聯(lián)邦數(shù)據(jù)庫或中間件方法的引擎。(3)基于數(shù)據(jù)流方法的引擎。(4)基于搜索引擎的方法[4]。
本研究利用結(jié)構(gòu)化查詢語言數(shù)據(jù)庫(Structured Query Language,SQL)語句,從圖書館門禁管理數(shù)據(jù)庫中抽取門禁數(shù)據(jù)。SQL 語句如下:
其中,本校兩個(gè)圖書館,博文館和弘文館統(tǒng)一改名為圖書館。進(jìn)館的標(biāo)志為0,出館的標(biāo)志為1。抽取進(jìn)出館時(shí)間、學(xué)號(hào)、姓名、進(jìn)出標(biāo)記等有效信息。本研究以學(xué)號(hào)為“201814254090”的學(xué)生查詢?yōu)槔?/p>
數(shù)據(jù)清洗是對(duì)數(shù)據(jù)進(jìn)行重新審查與校驗(yàn)的過程。目的是為了刪除冗余重復(fù)數(shù)據(jù),糾正錯(cuò)誤數(shù)據(jù),保持?jǐn)?shù)據(jù)的一致性[5]。
圖書館門禁的刷卡數(shù)據(jù)中,每天新增上萬條,存在大量的“臟數(shù)據(jù)”,即無效數(shù)據(jù),不符合要求的數(shù)據(jù)主要是有缺失數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)、冗余重復(fù)數(shù)據(jù)三大類。采用合適的數(shù)據(jù)清洗算法,對(duì)“臟數(shù)據(jù)”進(jìn)行過濾和清洗,取得可以使用的有效數(shù)據(jù)。
從圖書館門禁數(shù)據(jù)庫中直接抽取的數(shù)據(jù)中,存在多條連續(xù)的進(jìn)館記錄或者連續(xù)的出館記錄,這些記錄不符合邏輯,不能被正常使用。
如圖1 所示,使用KETTLE 數(shù)據(jù)轉(zhuǎn)換工具,就表中得數(shù)據(jù)進(jìn)行清洗,轉(zhuǎn)換過程如下。
圖1 數(shù)據(jù)轉(zhuǎn)換過程
如表1 所示,通過KETTLE 清洗后,每條入館數(shù)據(jù)對(duì)應(yīng)一條出館數(shù)據(jù),表1 為轉(zhuǎn)換后的結(jié)果集。
表1 數(shù)據(jù)轉(zhuǎn)換結(jié)果集
數(shù)據(jù)分析作為數(shù)據(jù)處理流程的最關(guān)鍵的核心,數(shù)據(jù)價(jià)值在數(shù)據(jù)分析過程中產(chǎn)生。
數(shù)據(jù)分析選用合適的統(tǒng)計(jì)學(xué)方法對(duì)經(jīng)過數(shù)據(jù)抽取與集成得到的數(shù)據(jù)集進(jìn)行分析,將數(shù)據(jù)進(jìn)行分類、匯總、理解、消化和吸收,最大化地挖掘出數(shù)據(jù)的功能,充分發(fā)揮出大數(shù)據(jù)作用。數(shù)據(jù)分析就是為了提取數(shù)據(jù)中的有用信息并形成有用結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程。數(shù)據(jù)分析的原始數(shù)據(jù)由異構(gòu)數(shù)據(jù)源中抽取與集成而來的數(shù)據(jù)集構(gòu)成,依據(jù)不同應(yīng)用需求選擇全部或部分?jǐn)?shù)據(jù)進(jìn)行分析。
抽取與集成圖書館智能門禁管理系統(tǒng)的歷史數(shù)據(jù)經(jīng)過數(shù)據(jù)清洗,即可得到有效數(shù)據(jù),通過分析有效數(shù)據(jù),提取刷卡時(shí)間、狀態(tài)、人員信息等,運(yùn)用適當(dāng)?shù)慕y(tǒng)計(jì)學(xué)分析方法,得到需要的數(shù)據(jù),例如不同時(shí)間段內(nèi)在館學(xué)生人數(shù)及學(xué)生在館平均時(shí)間等。
即使數(shù)據(jù)分析在大數(shù)據(jù)分析處理過程中居于核心地位,但用戶往往只關(guān)心對(duì)數(shù)據(jù)分析結(jié)果的解釋。即使數(shù)據(jù)分析結(jié)果正確,如果未能選擇適當(dāng)?shù)乃惴ɑ蚍椒▽?duì)分析結(jié)果進(jìn)行解釋,那么用戶往往很難理解數(shù)據(jù)分析結(jié)果,甚至在某些極端情形下會(huì)使得用戶產(chǎn)生錯(cuò)誤的認(rèn)知。
數(shù)據(jù)可視化技術(shù)作為大數(shù)據(jù)解釋最有效方式之一,率先在科學(xué)與工程計(jì)算領(lǐng)域成功運(yùn)用。數(shù)據(jù)可視化是利用計(jì)算機(jī)圖形學(xué)與圖像處理技術(shù)將數(shù)據(jù)分析結(jié)果通過圖形、圖表的形式呈現(xiàn)在用戶面前,使用戶更易理解和接受,運(yùn)用條形圖、柱狀圖、餅狀圖等豐富的圖表樣式,展現(xiàn)出多彩的數(shù)據(jù)可視化效果。可視化的大屏可以更直觀地展示數(shù)據(jù)。
人機(jī)交互技術(shù)讓用戶能夠在一定程度上參與數(shù)據(jù)分析和解釋的過程。交互的方式引導(dǎo)用戶對(duì)數(shù)據(jù)分析結(jié)果逐步地解釋,使用戶既能得到理想的數(shù)據(jù)解釋結(jié)果,又可以更清晰地理解數(shù)據(jù)分析的過程,同時(shí)也可采用數(shù)據(jù)溯源技術(shù)追溯整個(gè)數(shù)據(jù)分析的過程,更好地幫助用戶理解結(jié)果。
共享數(shù)據(jù)中心的建設(shè)是高校信息化進(jìn)程中的關(guān)鍵環(huán)節(jié)之一,可有效消除高校數(shù)據(jù)建設(shè)中存在的信息化孤島現(xiàn)象,實(shí)現(xiàn)不同業(yè)務(wù)系統(tǒng)間的數(shù)據(jù)共享。對(duì)數(shù)據(jù)中心的數(shù)據(jù)進(jìn)行合理、高效的利用,為高校的科學(xué)決策提供有用的數(shù)據(jù)支持,助力高校信息化的建設(shè),同時(shí)也有助于智慧校園的快速發(fā)展。