文 /孫其偉 高亮 陳云
系統(tǒng)越多,數(shù)據(jù)越多,數(shù)據(jù)服務(wù)需克服一系列的技術(shù)難關(guān),在數(shù)據(jù)倉庫,數(shù)據(jù)集市中,建立起業(yè)務(wù)關(guān)聯(lián)圖譜,以期為高校的各類決策提供參考。
我國高校信息化經(jīng)過十多年的發(fā)展,信息系統(tǒng)建設(shè)已經(jīng)成熟,在日常業(yè)務(wù)運(yùn)作中起到了關(guān)鍵支撐作用。然而,由于各高校信息化建設(shè)和應(yīng)用水平、領(lǐng)導(dǎo)層對信息技術(shù)的理解和認(rèn)識等方面存在差異,基于數(shù)據(jù)倉庫的高校數(shù)據(jù)服務(wù)應(yīng)用尚處于探索和起步階段。目前,高校數(shù)據(jù)服務(wù)應(yīng)用存在的主要問題有以下幾方面:
一是對高校數(shù)據(jù)服務(wù)及其應(yīng)用的認(rèn)識和定位存在局限性。校務(wù)決策支持是高校信息化進(jìn)展到較高階段的必然需求。高校數(shù)據(jù)服務(wù)的對象應(yīng)是面向包括校領(lǐng)導(dǎo)、院系所部領(lǐng)導(dǎo)、教師、學(xué)生,甚至包括學(xué)生家長和社會公眾;數(shù)據(jù)服務(wù)的內(nèi)容涉及教學(xué)、人事、科研、財(cái)務(wù)、設(shè)備、招生、就業(yè)等各類信息;數(shù)據(jù)服務(wù)形式包括儀表盤、數(shù)據(jù)查詢、數(shù)據(jù)訂購、數(shù)據(jù)可視化分析等。
二是實(shí)施基于數(shù)據(jù)倉庫的高校數(shù)據(jù)服務(wù),需要克服一系列的技術(shù)困難。經(jīng)過幾年的持續(xù)建設(shè),高校各類管理信息系統(tǒng)相繼投入使用,但存在各業(yè)務(wù)系統(tǒng)數(shù)據(jù)分散存儲、數(shù)據(jù)類型不同、數(shù)據(jù)定義不一致、數(shù)據(jù)缺失等情況,導(dǎo)致在進(jìn)行數(shù)據(jù)集成和構(gòu)建數(shù)據(jù)倉庫時技術(shù)難度較大。
三是基于數(shù)據(jù)服務(wù)的應(yīng)用需求不夠明確,成熟的應(yīng)用比較少。目前高校信息化建設(shè)的重點(diǎn)還是建設(shè)支持日常事務(wù)的管理信息系統(tǒng),對數(shù)據(jù)服務(wù)應(yīng)用沒有足夠的重視程度,開展基于數(shù)據(jù)服務(wù)的應(yīng)用較少,沒有充分利用多年積累的歷史數(shù)據(jù),發(fā)掘其中潛在的價(jià)值。
數(shù)據(jù)服務(wù)系統(tǒng)的建設(shè)內(nèi)容包括系統(tǒng)架構(gòu)設(shè)計(jì)、數(shù)據(jù)倉庫主題劃分、源數(shù)據(jù)分析、數(shù)據(jù)建模、數(shù)據(jù)ETL、決策支持應(yīng)用等幾方面,建設(shè)過程如圖1所示。
圖1 高校數(shù)據(jù)服務(wù)系統(tǒng)建設(shè)過程
系統(tǒng)架構(gòu)設(shè)計(jì)
高校數(shù)據(jù)服務(wù)系統(tǒng)架構(gòu)主要包括:數(shù)據(jù)源層、操作數(shù)據(jù)層、數(shù)據(jù)處理層、基礎(chǔ)數(shù)據(jù)層、數(shù)據(jù)集市層、數(shù)據(jù)服務(wù)層和業(yè)務(wù)用戶層。通過數(shù)據(jù)處理層將源數(shù)據(jù)抽取、清洗、轉(zhuǎn)換并加載到數(shù)據(jù)存儲層,然后開發(fā)基于數(shù)據(jù)的多種分析服務(wù)。
1.數(shù)據(jù)源層
數(shù)據(jù)源層是數(shù)據(jù)服務(wù)系統(tǒng)的數(shù)據(jù)來源,類型可以是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫也可以是半結(jié)構(gòu)和非結(jié)構(gòu)文件。高校數(shù)據(jù)服務(wù)系統(tǒng)涉及的數(shù)據(jù)源比較廣泛,還有來自于校外的一些外部數(shù)據(jù)源。
2.操作數(shù)據(jù)層
操作數(shù)據(jù)層是數(shù)據(jù)源層的簡單映射,作為基礎(chǔ)數(shù)據(jù)層采集數(shù)據(jù)的源頭,減少數(shù)據(jù)處理層采集數(shù)據(jù)時對業(yè)務(wù)系統(tǒng)的影響。
3.數(shù)據(jù)處理層
由于源系統(tǒng)業(yè)務(wù)職能和具體需求不同,在實(shí)現(xiàn)時會選用不同的數(shù)據(jù)庫,數(shù)據(jù)結(jié)構(gòu)也可能存在較大差異,從而導(dǎo)致數(shù)據(jù)間有較大的異構(gòu)性和不一致性,所以在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫前要對源數(shù)據(jù)進(jìn)行預(yù)處理。通過數(shù)據(jù)處理層實(shí)現(xiàn)對原始數(shù)據(jù)抽取、清洗、轉(zhuǎn)換、加載,消除數(shù)據(jù)間的不一致和冗余,按數(shù)據(jù)倉庫模型結(jié)構(gòu)重新組織數(shù)據(jù)并加載到數(shù)據(jù)倉庫,形成能夠?qū)Q策提供支持的多重粒度級的數(shù)據(jù)倉庫標(biāo)準(zhǔn)化數(shù)據(jù)。
數(shù)據(jù)處理層采用統(tǒng)一的ETL調(diào)度平臺,實(shí)現(xiàn)ETL全過程自動化調(diào)度管理,控制數(shù)據(jù)抽取、轉(zhuǎn)換、加載程序及其執(zhí)行順序、相互依賴關(guān)系、群組關(guān)系、執(zhí)行狀況及通知。數(shù)據(jù)處理層可以通過ETL并行處理架構(gòu)優(yōu)化數(shù)據(jù)處理能力,隨著ETL任務(wù)的增加擴(kuò)展數(shù)據(jù)處理層。數(shù)據(jù)處理層通過統(tǒng)一的ETL監(jiān)控平臺對整個數(shù)據(jù)處理過程進(jìn)行全面監(jiān)控,包括ETL任務(wù)運(yùn)行的時間、狀態(tài)以及發(fā)生錯誤時的錯誤信息等。
4.基礎(chǔ)數(shù)據(jù)層
基礎(chǔ)數(shù)據(jù)層是數(shù)據(jù)倉庫的核心部分,主要功能是完成數(shù)據(jù)集成、合理存儲數(shù)據(jù)、實(shí)現(xiàn)數(shù)據(jù)的標(biāo)準(zhǔn)化?;A(chǔ)數(shù)據(jù)層一般采用三范式方式建立的關(guān)系型數(shù)據(jù)模型,通過主題來存儲和管理各類業(yè)務(wù)數(shù)據(jù),并且保留歷史。
5.數(shù)據(jù)集市層
基礎(chǔ)數(shù)據(jù)層以原子粒度來存儲數(shù)據(jù),數(shù)據(jù)集市層根據(jù)具體應(yīng)用需求對基礎(chǔ)數(shù)據(jù)層中的數(shù)據(jù)進(jìn)行適當(dāng)提煉、匯總和重新組織,形成面向部門級的業(yè)務(wù)和特定主題的匯總數(shù)據(jù),實(shí)現(xiàn)了訪問方式的多樣化和信息存取的透明化。數(shù)據(jù)集市層的數(shù)據(jù)來自基礎(chǔ)數(shù)據(jù)層,可以確保其數(shù)據(jù)質(zhì)量和數(shù)據(jù)的一致性。
6.數(shù)據(jù)服務(wù)層
數(shù)據(jù)服務(wù)層構(gòu)成高校數(shù)據(jù)服務(wù)應(yīng)用的門戶和分析平臺。借助于數(shù)據(jù)倉庫提供的即時查詢、預(yù)定義報(bào)表、多維分析和數(shù)據(jù)挖掘等功能,數(shù)據(jù)服務(wù)層實(shí)現(xiàn)了面向領(lǐng)導(dǎo)的決策支持服務(wù)、面向管理人員的數(shù)據(jù)查詢服務(wù)、面向大眾的數(shù)據(jù)公開服務(wù)以及面向數(shù)據(jù)應(yīng)用系統(tǒng)的接口輸出服務(wù)。
7.業(yè)務(wù)用戶層
業(yè)務(wù)用戶層是數(shù)據(jù)服務(wù)與用戶之間的接口,該層提供用戶對數(shù)據(jù)倉庫數(shù)據(jù)的瀏覽、請求、存取等服務(wù),同時還包括對用戶訪問的認(rèn)證、控制、權(quán)限管理。
主題規(guī)劃
數(shù)據(jù)倉庫主題規(guī)劃的本質(zhì)是對數(shù)據(jù)倉庫涉及的所有業(yè)務(wù)數(shù)據(jù)進(jìn)行抽象并合理分類,它是數(shù)據(jù)倉庫概念模型設(shè)計(jì)階段的主要產(chǎn)物,每個主題都對應(yīng)一個宏觀分析領(lǐng)域。主題域的確定必須由最終用戶和數(shù)據(jù)倉庫的設(shè)計(jì)人員共同完成。通過分析高校業(yè)務(wù)狀況,結(jié)合數(shù)據(jù)特點(diǎn)將高校數(shù)據(jù)倉庫內(nèi)容規(guī)劃為公共、機(jī)構(gòu)、當(dāng)事人、教學(xué)、科研、資產(chǎn)、財(cái)務(wù)、事件八大主題,主題間的關(guān)系,如圖2所示。
圖2 高校數(shù)據(jù)倉庫主題
當(dāng)事人主題主要指各類人員數(shù)據(jù),人事系統(tǒng)的各類教職員工、教學(xué)系統(tǒng)的各類學(xué)生都屬于當(dāng)事人主題。當(dāng)事人主題是數(shù)據(jù)倉庫中最基礎(chǔ)、最核心的內(nèi)容,所有的業(yè)務(wù)活動都是圍繞各類人員展開,與其他主題產(chǎn)生緊密聯(lián)系。機(jī)構(gòu)主題指學(xué)校的各類組織架構(gòu),如校區(qū)、部門、研究機(jī)構(gòu)、黨團(tuán)組織等。公共主題存放各業(yè)務(wù)活動中的字典代碼,國標(biāo)、校標(biāo)、行標(biāo)及業(yè)務(wù)字典表都屬于該主題。科研主題存放科研業(yè)務(wù)活動相關(guān)實(shí)體,包括科研項(xiàng)目、科研成果和科研考核等內(nèi)容。教學(xué)主題存放教學(xué)活動相關(guān)實(shí)體,包括培養(yǎng)計(jì)劃、班級信息、課程、教學(xué)活動、排課、選課、排考、考試成績、學(xué)生畢業(yè)論文、評教、學(xué)位畢業(yè)審核等相關(guān)內(nèi)容。財(cái)務(wù)主題主要包括學(xué)校各類經(jīng)費(fèi)預(yù)算、收入、支出數(shù)據(jù)。資產(chǎn)主題存放學(xué)校各類資產(chǎn)數(shù)據(jù),包括樓宇、房間、家具、設(shè)備、實(shí)驗(yàn)儀器等各類學(xué)校資產(chǎn)。
事件主題主要指各業(yè)務(wù)活動的流水表,如人事系統(tǒng)薪資發(fā)放記錄、績效考核活動、專業(yè)技術(shù)職務(wù)聘任活動、獎學(xué)金申報(bào)活動、科研項(xiàng)目申報(bào)活動等。
數(shù)據(jù)模型設(shè)計(jì)
基礎(chǔ)數(shù)據(jù)層和數(shù)據(jù)集市層面向的用戶范圍和解決的問題類型決定了需要采取不同的建模方式?;A(chǔ)數(shù)據(jù)層的主要任務(wù)是集成不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù),保證數(shù)據(jù)的準(zhǔn)確性及存儲的合理性。因此,基礎(chǔ)層的數(shù)據(jù)結(jié)構(gòu)按照范式模型構(gòu)建,通過對業(yè)務(wù)的梳理重新組織源數(shù)據(jù),使業(yè)務(wù)數(shù)據(jù)存儲結(jié)構(gòu)更加合理化。
數(shù)據(jù)集市主要面向部門級業(yè)務(wù),并且面向某個特定主題,為特定用戶預(yù)先計(jì)算好統(tǒng)計(jì)指標(biāo),從而滿足用戶對查詢性能的需求。數(shù)據(jù)集市層建模沒有嚴(yán)格的約束,以解決實(shí)際需求為目的。一般采用維度建模方法,設(shè)計(jì)過程中綜合考慮空間和時間因素,滿足性能需要和訪問效率。在設(shè)計(jì)上,主要采用寬表設(shè)計(jì)方式,把一個主題盡可能多的維度和指標(biāo)合并在一起,滿足多種不同應(yīng)用需求。存儲形式可以采用物理表、物化視圖和視圖,視圖可以靈活地調(diào)整和修改業(yè)務(wù)邏輯,對于性能開銷小的應(yīng)用盡可能采用視圖方式,可以及時響應(yīng)需求變更。而對于性能開銷較大的應(yīng)用,盡可能采用物理表或物化視圖提高數(shù)據(jù)訪問效率。
學(xué)校數(shù)據(jù)服務(wù)系統(tǒng)圍繞人才培養(yǎng)、科學(xué)研究、師生服務(wù)和內(nèi)部管理開展數(shù)據(jù)分析應(yīng)用,有效地支撐了業(yè)務(wù)規(guī)則的合理設(shè)定和管理創(chuàng)新。高校數(shù)據(jù)服務(wù)內(nèi)容如圖3所示。
圖3 高校數(shù)據(jù)服務(wù)內(nèi)容
人才培養(yǎng)質(zhì)量分析
人才培養(yǎng)方面,主要對招生、教學(xué)質(zhì)量和就業(yè)進(jìn)行了分析。 在招生分析中,將考生所在高校、考生成績排名等納入生源質(zhì)量指標(biāo),重點(diǎn)關(guān)注生源質(zhì)量的變化趨勢,比對不同學(xué)科間生源質(zhì)量的差異,為自主招生、大口徑招生、研究生培養(yǎng)機(jī)制改革等管理措施的創(chuàng)新提供了支持;在教學(xué)質(zhì)量分析中,對學(xué)生狀況、教學(xué)條件、專業(yè)狀況、課程教材、教學(xué)管理等相關(guān)的指標(biāo)進(jìn)行了分析,為優(yōu)化制定拔尖、卓越和精英培養(yǎng)方案,調(diào)整專業(yè)結(jié)構(gòu),不斷提升教學(xué)質(zhì)量提供了數(shù)據(jù)支持;在就業(yè)分析中,對學(xué)生就業(yè)率的同比環(huán)比趨勢、就業(yè)行業(yè)特征、地域分布、成績等進(jìn)行了深入挖掘(見表1),為拓寬就業(yè)渠道,加強(qiáng)就業(yè)指導(dǎo)提供了依據(jù)。
表1 畢業(yè)生簽約數(shù)據(jù)挖掘
科學(xué)研究水平分析
對科研的分析主要從科研項(xiàng)目、論文著作、獲獎相關(guān)屬性,結(jié)合人員、學(xué)科、經(jīng)費(fèi)使用等方面進(jìn)行分析,重點(diǎn)關(guān)注科研成果在學(xué)科間的分布、在不同類型科研人員間的分布、以及科研成果的獲得趨勢,為學(xué)校建立全面的科研評價(jià)體系,提高人才引進(jìn)與科研產(chǎn)出比例,不斷提升科學(xué)水平提供了決策支持。
服務(wù)師生水平分析
服務(wù)師生方面,選取了與師生關(guān)系最為密切的健康指標(biāo)和一卡通消費(fèi)指標(biāo)進(jìn)行分析。在健康分析中,對教職工“三高”與年齡、性別、崗位、職稱等做了關(guān)聯(lián)分析,并將健康狀況與教學(xué)、科研工作量的關(guān)系進(jìn)行了深度挖掘,為定制個性化體檢套餐,提升師生健康提供了有效支撐。在一卡通分析中,從性別、學(xué)生類別、籍貫等多角度分析學(xué)生消費(fèi)特點(diǎn),從終端設(shè)備使用情況分析圈存設(shè)備配備合理性等,為學(xué)校加強(qiáng)商戶管理、提供更好的服務(wù)方便學(xué)生提供了數(shù)據(jù)支撐。
內(nèi)部管理績效分析
內(nèi)部管理方面,分別從師資、財(cái)務(wù)、資產(chǎn)等方面進(jìn)行了分析。在師資分析中,從教師的職稱、學(xué)歷、年齡、聘用方式、學(xué)科角度結(jié)合科研、教學(xué)等相關(guān)指標(biāo)進(jìn)行分析,為學(xué)校加強(qiáng)高端人才引進(jìn),完善人事考核與晉升制度,實(shí)現(xiàn)雙軌制人事管理,提高學(xué)校師資隊(duì)伍整體水平提供了有力依據(jù)。在財(cái)務(wù)分析中,重點(diǎn)關(guān)注經(jīng)費(fèi)預(yù)算、收入和支出等統(tǒng)計(jì)信息,對學(xué)校提升預(yù)算管理,合理配置資金使用起到了良好的促進(jìn)作用。在資產(chǎn)分析中,對資產(chǎn)在不同部門的分布、資產(chǎn)類型以及隨時間的變化趨勢、用電趨勢等進(jìn)行了分析,輔助學(xué)校提升資源利用率,促進(jìn)節(jié)能減排措施的執(zhí)行。
高校數(shù)據(jù)服務(wù)系統(tǒng)在上海財(cái)經(jīng)大學(xué)已取得較好應(yīng)用,通過數(shù)據(jù)分析和挖掘,發(fā)現(xiàn)潛在的、深層次的、有價(jià)值的信息和問題,為管理規(guī)則的設(shè)定提供了數(shù)據(jù)支撐,推動學(xué)校各項(xiàng)事業(yè)的發(fā)展。下一步信息辦將結(jié)合大數(shù)據(jù)技術(shù)的應(yīng)用,擴(kuò)大數(shù)據(jù)采集范圍,通過對教師和學(xué)生行為的分析,為資源的合理配置和科學(xué)決策提供更全面的支撐。