任顥 長(zhǎng)春財(cái)經(jīng)學(xué)院
關(guān)鍵字:信息孤島 民辦高校 數(shù)據(jù)中心
信息化是當(dāng)今世界經(jīng)濟(jì)和社會(huì)發(fā)展的大趨勢(shì),對(duì)提高企業(yè)競(jìng)爭(zhēng)力至關(guān)重要。但是企業(yè)的信息涉及面廣,各種應(yīng)用系統(tǒng)常常不能有效地共享數(shù)據(jù),不斷增加的安全威脅對(duì)數(shù)據(jù)的安全性提出了挑戰(zhàn),急劇增長(zhǎng)的數(shù)據(jù)量使得既有的存儲(chǔ)容量和應(yīng)用系統(tǒng)難以適應(yīng)企業(yè)的需要。因此建設(shè)高可靠、大容量的數(shù)據(jù)中心十分必要。
對(duì)于民辦高校而言,安全問(wèn)題可能是建校的根本。網(wǎng)絡(luò)安全是各類(lèi)安全保障中尤為關(guān)鍵的一環(huán),對(duì)于學(xué)生的個(gè)人信息保護(hù),財(cái)務(wù)數(shù)據(jù)的保密,教學(xué)成績(jī)的維護(hù)等起著重要作用。另外,數(shù)據(jù)孤島的存在,極大地阻礙了工作效率的提升,使得各業(yè)務(wù)系統(tǒng)仍然要通過(guò)傳統(tǒng)的報(bào)表,文檔形式進(jìn)行數(shù)據(jù)互通,根本無(wú)法發(fā)揮出系統(tǒng)的最終作用,所以建設(shè)新型的數(shù)據(jù)中心勢(shì)在必行。
信息孤島問(wèn)題一直存在,需要按照一定的思路、方法去逐一打通。
數(shù)據(jù)具有一定的流轉(zhuǎn)方向,為了使數(shù)據(jù)的流向明確,首先要分析各業(yè)務(wù)系統(tǒng)需要哪些數(shù)據(jù)作為業(yè)務(wù)依托、同時(shí)產(chǎn)生哪些數(shù)據(jù),其中又有哪些數(shù)據(jù)可以被抽取,要具體到類(lèi)別,以流程圖的方式表現(xiàn)出來(lái)。如,迎新系統(tǒng)數(shù)據(jù)流轉(zhuǎn)情況如下:
迎新系統(tǒng):
接收數(shù)據(jù):新生錄取信息(源自招生)、教學(xué)機(jī)構(gòu)(源自教務(wù))、寢室信息(源自學(xué)工)、學(xué)生繳費(fèi)數(shù)據(jù)(源自財(cái)務(wù))。
產(chǎn)生數(shù)據(jù):學(xué)號(hào)(自身生成)、新生基礎(chǔ)數(shù)據(jù)(由新生錄取數(shù)據(jù)獲?。?、新生學(xué)籍?dāng)?shù)據(jù)(自身分班產(chǎn)生)、新生住宿信息(自身產(chǎn)生)。
推送數(shù)據(jù):
推送至教務(wù)系統(tǒng):新生基礎(chǔ)數(shù)據(jù)、新生學(xué)籍?dāng)?shù)據(jù)(上述數(shù)據(jù)經(jīng)學(xué)籍注冊(cè)后,轉(zhuǎn)為學(xué)生基礎(chǔ)數(shù)據(jù)、學(xué)生學(xué)籍?dāng)?shù)據(jù));
推送至學(xué)工:新生住宿信息(由宿管系統(tǒng)登記入住后,轉(zhuǎn)為學(xué)生住宿信息);
推送至中心庫(kù):新生報(bào)到信息(用于各個(gè)地區(qū)、分?jǐn)?shù)、學(xué)生類(lèi)型等大數(shù)據(jù)分析及信息門(mén)戶(hù)平臺(tái)展示)。
在高校中,學(xué)生和教師是最主要的兩個(gè)角色,一般情況下,會(huì)直接定義將人事系統(tǒng)基本數(shù)據(jù)作為教師基本數(shù)據(jù),將教務(wù)系統(tǒng)數(shù)據(jù)定義為學(xué)生基本數(shù)據(jù),但是以往人事系統(tǒng)在高校,尤其是民辦高校中的應(yīng)用非常狹隘,人員信息大多登記于Excel表格中,而更具有挑戰(zhàn)性的是相當(dāng)一部分教師數(shù)據(jù)是只存在于教務(wù)系統(tǒng)中的,這就造成了數(shù)據(jù)混亂,且極易產(chǎn)生大批量的垃圾數(shù)據(jù)。因此,第一步,確定教師數(shù)據(jù)必須以人事系統(tǒng)為準(zhǔn),其余各系統(tǒng)待數(shù)據(jù)中心建立起來(lái)后分別接受被推送的人員數(shù)據(jù),這個(gè)過(guò)程中勢(shì)必會(huì)引發(fā)業(yè)務(wù)上的陣痛—數(shù)據(jù)清洗,并且是大量的數(shù)據(jù)清洗,而通過(guò)承受這種短期的陣痛,高校各部門(mén)的業(yè)務(wù)系統(tǒng)會(huì)統(tǒng)一享受到數(shù)據(jù)交互帶來(lái)的便捷與工作效率的極大提升。經(jīng)過(guò)數(shù)據(jù)清洗,確定了教師數(shù)據(jù)來(lái)源于人事系統(tǒng),學(xué)生數(shù)據(jù)來(lái)源于教務(wù)系統(tǒng)。
數(shù)據(jù)源確定好了,各業(yè)務(wù)系統(tǒng)將第一次接收到數(shù)據(jù)中心推送的數(shù)據(jù),這時(shí)就需要對(duì)數(shù)據(jù)的標(biāo)準(zhǔn)化,格式化進(jìn)行統(tǒng)一的規(guī)范。這件事情在實(shí)際操作中,不僅有技術(shù)上的難度,還會(huì)有人為影響的因素。技術(shù)方面,要對(duì)所有未經(jīng)統(tǒng)一規(guī)劃的數(shù)據(jù)進(jìn)行統(tǒng)一化的轉(zhuǎn)化,由大類(lèi)到小字段,每個(gè)細(xì)節(jié)都必須顧及到,不僅要對(duì)各業(yè)務(wù)系統(tǒng)相互推送的數(shù)據(jù)進(jìn)行規(guī)劃,還要對(duì)非抽取數(shù)據(jù),但是要留存的數(shù)據(jù)進(jìn)行統(tǒng)一的標(biāo)準(zhǔn)化就會(huì)涉及到人為的因素,因?yàn)槊褶k高校普遍信息化水平較為落后,對(duì)于信息化建設(shè)方面并無(wú)太多想法,再加上以往的工作局限性,很容易就拒絕提供非抽取數(shù)據(jù)的字段名、類(lèi)別、長(zhǎng)度等等,尤其涉及到本部門(mén)的權(quán)利問(wèn)題,故要建立一套規(guī)范化,統(tǒng)一化,標(biāo)準(zhǔn)化的數(shù)據(jù)標(biāo)準(zhǔn),是需要校領(lǐng)導(dǎo)牽頭,協(xié)調(diào)相關(guān)部門(mén),技術(shù)人員專(zhuān)業(yè)過(guò)硬等等諸多相關(guān)因素的。
由于各系統(tǒng)原有數(shù)據(jù)與標(biāo)準(zhǔn)數(shù)據(jù)的結(jié)構(gòu)、編碼不同,但又需要數(shù)據(jù)交換,因此需要制定出一套整理數(shù)據(jù)清洗、轉(zhuǎn)換機(jī)制。對(duì)于不同的數(shù)據(jù)進(jìn)行不同的處理,具體可分為以下幾類(lèi)數(shù)據(jù):
針對(duì)數(shù)據(jù)缺失嚴(yán)重、可用性極差的數(shù)據(jù)進(jìn)行完全清理;
針對(duì)數(shù)據(jù)少量缺失、可用性高的數(shù)據(jù)進(jìn)行必要性完善;(規(guī)則性補(bǔ)充)
針對(duì)不符合標(biāo)準(zhǔn)的數(shù)據(jù)進(jìn)行結(jié)構(gòu)、格式對(duì)應(yīng)轉(zhuǎn)換(代碼、編碼對(duì)應(yīng)轉(zhuǎn)換)
針對(duì)完全符合標(biāo)準(zhǔn)的高質(zhì)量數(shù)據(jù)進(jìn)行集中保存。
具體的數(shù)據(jù)清洗方式可分為以下幾種:
(1)手工實(shí)現(xiàn):人工檢測(cè)所有錯(cuò)誤并加以改正,當(dāng)然這種方式只適用于小數(shù)據(jù)量的數(shù)據(jù)源。
(2)通過(guò)編寫(xiě)應(yīng)用:通過(guò)編寫(xiě)應(yīng)用來(lái)檢測(cè)錯(cuò)誤,并加以改正,但是這種方式不太適用于民辦高校,因?yàn)榍逑磾?shù)據(jù)反復(fù)進(jìn)行,使得所用的程序工作量巨大,而民辦高校少有可以做好此類(lèi)應(yīng)用的條件。
(3)某些特定領(lǐng)域的數(shù)據(jù)問(wèn)題,比如可以根據(jù)概率統(tǒng)計(jì)學(xué)來(lái)查找數(shù)據(jù)異常的記錄。
(4)與特定的清洗領(lǐng)域無(wú)關(guān)的數(shù)據(jù)清洗,這一部分的研究主要集中于重復(fù)記錄的檢測(cè)以及刪除。
作為數(shù)據(jù)處理的第一步,首先要梳理系統(tǒng)當(dāng)中的中、高質(zhì)量數(shù)據(jù)情況,根據(jù)系統(tǒng)中現(xiàn)有數(shù)據(jù)類(lèi)型、格式進(jìn)行調(diào)整,初步規(guī)范哪些數(shù)據(jù)可作為本系統(tǒng)提供的可復(fù)用數(shù)據(jù)(推送其他業(yè)務(wù)系統(tǒng)數(shù)據(jù))及結(jié)果數(shù)據(jù),對(duì)這兩類(lèi)數(shù)據(jù)提供不同流轉(zhuǎn)方式及接口??蓮?fù)用數(shù)據(jù)可通過(guò)中間庫(kù)轉(zhuǎn)換為統(tǒng)一格式,存儲(chǔ)并向其他數(shù)據(jù)庫(kù)進(jìn)行轉(zhuǎn)換、推送;結(jié)果數(shù)據(jù)可在篩查之后進(jìn)行中間庫(kù)轉(zhuǎn)換,并存儲(chǔ)至中心庫(kù),為之后的數(shù)據(jù)展示、數(shù)據(jù)分析奠定基礎(chǔ)。
根據(jù)需要應(yīng)該建立中心庫(kù)、中間庫(kù)機(jī)制:
業(yè)務(wù)系統(tǒng)復(fù)用數(shù)據(jù)——中間庫(kù)
業(yè)務(wù)系統(tǒng)不良結(jié)果數(shù)據(jù)——中間庫(kù)(清洗)——中心庫(kù)
中間庫(kù)作為數(shù)據(jù)交換及清洗緩沖地區(qū),以業(yè)務(wù)系統(tǒng)分類(lèi),數(shù)據(jù)量雜亂,多保存過(guò)程數(shù)據(jù)。
中心庫(kù)數(shù)據(jù)作為數(shù)據(jù)大數(shù)據(jù)分析基礎(chǔ),只保留各系統(tǒng)最終結(jié)果數(shù)據(jù),推送中的過(guò)程數(shù)據(jù)不進(jìn)入中心庫(kù)。
針對(duì)流程性業(yè)務(wù)數(shù)據(jù)的突發(fā)情況,(例如新教師入職,人事有數(shù)據(jù)后,接口沒(méi)法用,無(wú)法推送給其他部門(mén)),要多做冗余,經(jīng)常抽取,頻查日志,防范于未然。另外,對(duì)于硬件性的突發(fā)故障,沒(méi)電查電,沒(méi)網(wǎng)查網(wǎng),要對(duì)各種突發(fā)事件做到心中有數(shù),處理及時(shí)且妥當(dāng)。
有了規(guī)模性的數(shù)據(jù),還需要針對(duì)數(shù)據(jù)進(jìn)行縱向梳理。截止目前所做的打通數(shù)據(jù)孤島全是縱向整理,即讓業(yè)務(wù)系統(tǒng)數(shù)據(jù)流轉(zhuǎn)起來(lái),對(duì)數(shù)據(jù)的橫向整合,以人為單位,分門(mén)別類(lèi),對(duì)于某位學(xué)生整個(gè)在校期間和某位教師整個(gè)生命周期的所有貫穿在各業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)情況進(jìn)行統(tǒng)一整合,處理,分析,展示。
當(dāng)數(shù)據(jù)完善工作完成后,就完成了數(shù)據(jù)集中轉(zhuǎn)向數(shù)據(jù)倉(cāng)庫(kù)的工作,此時(shí)的數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)巨大的,有跡可循的完善的存儲(chǔ)池。然后就是大數(shù)據(jù)分析,以人為單位,使數(shù)據(jù)倉(cāng)庫(kù)轉(zhuǎn)換為數(shù)據(jù)“集市”。根據(jù)趨勢(shì)分析,數(shù)據(jù)集市的應(yīng)用,可以進(jìn)行個(gè)人行為的精準(zhǔn)把控,預(yù)測(cè)。
數(shù)據(jù)中心對(duì)于民辦高校的實(shí)際作用非常重大,小至學(xué)生的日常行為把控,學(xué)校某些消費(fèi)區(qū)域的相關(guān)價(jià)格調(diào)整,教師日常工作的偏好習(xí)慣;大至學(xué)校未來(lái)發(fā)展分析,招生招聘缺口把控等等,這些都對(duì)于民辦高校有著顛覆性的意義。