屈莉莉 董艷 于楊
摘 要:基于高校貧困生精準(zhǔn)資助管理中建設(shè)數(shù)據(jù)倉(cāng)庫(kù)的必要性,從數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)設(shè)計(jì),多源異構(gòu)數(shù)據(jù)源的存儲(chǔ)與管理,數(shù)據(jù)倉(cāng)庫(kù)的建模過(guò)程與方法,精準(zhǔn)資助數(shù)據(jù)分析的多維屬性與主要模型等方面對(duì)面向高校貧困生精準(zhǔn)資助的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)進(jìn)行了深入研究,能夠有效支撐數(shù)據(jù)綜合查詢、多維分析和數(shù)據(jù)挖掘,提高高等院校學(xué)生資助管理的科學(xué)決策水平。
關(guān)鍵詞:高等學(xué)校;貧困大學(xué)生;精準(zhǔn)資助;數(shù)據(jù)倉(cāng)庫(kù)
中圖分類號(hào):G640 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1002-4107(2018)08-0055-03
目前我國(guó)的貧困大學(xué)生資助體系日漸完善,基本解決了經(jīng)濟(jì)困難學(xué)生的就學(xué)問(wèn)題[1]。高校資助工作緊跟國(guó)家信息化建設(shè)的步伐,貸款與資助全部實(shí)行網(wǎng)絡(luò)化管理,各高校基本建成學(xué)生資助管理信息系統(tǒng)。但大數(shù)據(jù)給高校資助工作帶來(lái)了巨大的挑戰(zhàn)[2-3],大數(shù)據(jù)要求數(shù)據(jù)能充分發(fā)揮其外部性并通過(guò)與某些相關(guān)數(shù)據(jù)交叉融合產(chǎn)生遠(yuǎn)大于簡(jiǎn)單加和的巨大價(jià)值,數(shù)據(jù)挖掘技術(shù)的不斷更新與應(yīng)用使得大數(shù)據(jù)發(fā)揮的作用日漸強(qiáng)大,因此,在高校的學(xué)生管理中應(yīng)加強(qiáng)數(shù)據(jù)利用與處理的能力,強(qiáng)化大數(shù)據(jù)意識(shí),完善各項(xiàng)制度保障[4]。
數(shù)據(jù)倉(cāng)庫(kù)之父W.H.Inmon在其經(jīng)典著作Building the Data Warehouse(《構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)》)一書中指出,“數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、非易失的、隨時(shí)間變化的用來(lái)支持管理人員決策的數(shù)據(jù)集合”。因此,利用數(shù)據(jù)倉(cāng)庫(kù)技術(shù),高??梢詫?shí)現(xiàn)對(duì)多源異質(zhì)數(shù)據(jù)的采集、匯聚與分析。以主體多元化、內(nèi)容多維化、方法多樣化的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)為平臺(tái),利用在線分析處理和數(shù)據(jù)挖掘工具,更全面了解學(xué)生的真實(shí)生活狀態(tài)和經(jīng)濟(jì)水平,使貧困生評(píng)定資助的結(jié)果更為綜合客觀,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)將作為實(shí)現(xiàn)高校學(xué)生精準(zhǔn)資助管理體系的基礎(chǔ)與工作機(jī)制。
一、設(shè)計(jì)高校貧困生精準(zhǔn)資助的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)結(jié)構(gòu)
搭建數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的目的是要形成一個(gè)存儲(chǔ)和使用數(shù)據(jù)的集成環(huán)境,這種體系化的環(huán)境可以把分散的或者結(jié)構(gòu)等不一致的數(shù)據(jù)轉(zhuǎn)化為集中的、一致的信息,進(jìn)一步分析解決問(wèn)題,輔助決策以提高工作效率。參考通用的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)并結(jié)合高校貧困生精準(zhǔn)資助管理的需求,本文設(shè)計(jì)的高校貧困生精準(zhǔn)資助數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)結(jié)構(gòu)如圖1所示,該數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)由四個(gè)部分構(gòu)成:(1)數(shù)據(jù)源是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的基礎(chǔ),是整個(gè)系統(tǒng)的數(shù)據(jù)源泉[5]。(2)建立數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)的存儲(chǔ)與管理是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的核心和關(guān)鍵。(3)數(shù)據(jù)分析主要指OLAP(在線分析處理On-Line Analysis Processing)和數(shù)據(jù)挖掘。OLAP服務(wù)實(shí)現(xiàn)多角度、多層次的多維數(shù)據(jù)組織與分析;數(shù)據(jù)挖掘是從海量的數(shù)據(jù)中發(fā)現(xiàn)有潛在價(jià)值和規(guī)律的知識(shí)和模式[6-7]。OLAP是一種求證性的分析工具,一般由用戶預(yù)先設(shè)定一些假設(shè),然后使用OLAP去驗(yàn)證這些假設(shè),被動(dòng)地進(jìn)行數(shù)據(jù)分析;而數(shù)據(jù)挖掘是一種挖掘性的分析工具,它主要是利用各種挖掘算法主動(dòng)地去挖掘大量數(shù)據(jù)中蘊(yùn)含的規(guī)律和模式,主動(dòng)地進(jìn)行數(shù)據(jù)分析。
(4)前端展現(xiàn)與應(yīng)用,包括各種數(shù)據(jù)報(bào)表、數(shù)據(jù)查詢、數(shù)據(jù)分析與應(yīng)用管理等工具,與其他高校資助管理系統(tǒng)的功能進(jìn)行集成。
二、高校貧困生精準(zhǔn)資助數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)關(guān)鍵技術(shù)
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)由數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建、基于OLAP與數(shù)據(jù)挖掘的數(shù)據(jù)分析等關(guān)鍵技術(shù)構(gòu)成。
(一)建立高校貧困生精準(zhǔn)資助的數(shù)據(jù)倉(cāng)庫(kù)
1.多源異構(gòu)的數(shù)據(jù)源
數(shù)據(jù)源一般分為內(nèi)部信息和外部信息。為實(shí)現(xiàn)高校貧困生的精準(zhǔn)資助需要對(duì)學(xué)生的家庭信息、消費(fèi)情況、學(xué)習(xí)成績(jī)、是否貸款、是否獲得獎(jiǎng)學(xué)金等信息進(jìn)行全面的采集。
學(xué)生資助管理系統(tǒng):將現(xiàn)行的學(xué)生資助管理系統(tǒng)中已認(rèn)定的貧困生記錄作為主要的標(biāo)簽數(shù)據(jù)源,在多種數(shù)據(jù)挖掘模型建立過(guò)程中均需要與真實(shí)的資助結(jié)果進(jìn)行比較,進(jìn)行模型的訓(xùn)練進(jìn)而建立有效的精準(zhǔn)資助辨識(shí)模型。
學(xué)生基本信息數(shù)據(jù)庫(kù):獲取在校學(xué)生基本信息,學(xué)生的出生年月、院系、專業(yè)、班級(jí)、聯(lián)系電話、家庭住址和聯(lián)系電話、郵編等。其中,對(duì)于分析學(xué)生貧困情況有意義的屬性,例如,可以通過(guò)家庭住址這一內(nèi)容大體判斷該生是否出生在貧困地區(qū)或經(jīng)濟(jì)欠發(fā)達(dá)地區(qū)。
學(xué)生教務(wù)系統(tǒng)數(shù)據(jù)庫(kù):獲取學(xué)生成績(jī)信息分析受資助學(xué)生的學(xué)習(xí)情況。對(duì)貧困生的界定和相關(guān)資助措施中一般都會(huì)涉及學(xué)生的成績(jī),國(guó)家和學(xué)校會(huì)優(yōu)先資助品學(xué)兼優(yōu)的貧困學(xué)生。如果貧困生接受資助卻不努力學(xué)習(xí)的話,學(xué)校有義務(wù)對(duì)其進(jìn)行教育,對(duì)于屢教不改者,可以相應(yīng)調(diào)整其受益的貧困資金數(shù)額甚至取消貧困資格。
學(xué)生獎(jiǎng)學(xué)金管理數(shù)據(jù)庫(kù):獲取學(xué)生所得獎(jiǎng)學(xué)金和助學(xué)金情況,計(jì)入貧困等級(jí)考慮因素。對(duì)于學(xué)習(xí)成績(jī)優(yōu)異的學(xué)生來(lái)說(shuō),除了貧困補(bǔ)助,還可以獲得國(guó)家勵(lì)志獎(jiǎng)學(xué)金、優(yōu)秀學(xué)生獎(jiǎng)學(xué)金等助學(xué)基金,這些相加的總額可能已經(jīng)大于維持正常生活的經(jīng)濟(jì)需求,因此可以對(duì)貧困等級(jí)做適當(dāng)?shù)恼{(diào)整,給其他同樣貧困的學(xué)生更多機(jī)會(huì)。
學(xué)生一卡通消費(fèi)記錄數(shù)據(jù)庫(kù):校園一卡通集刷卡消費(fèi)、身份識(shí)別、圖書借閱、考勤功能等于一體,可以通過(guò)網(wǎng)絡(luò)技術(shù)對(duì)學(xué)生的一卡通數(shù)據(jù)進(jìn)行收集整理,獲取學(xué)生在校園內(nèi)食堂和超市消費(fèi)記錄,通過(guò)消費(fèi)水平推測(cè)學(xué)生的貧困程度。
學(xué)生申請(qǐng)貧困資助的證明材料:從家庭收入支出、家庭成員關(guān)系、父母身體狀態(tài)(是否健康,醫(yī)療支出等)和工作情況、是否為低保戶等方面大體了解學(xué)生的家庭背景。上學(xué)期間是否貸款,以及貸款金額、年限,都可以在一定程度上反映學(xué)生的經(jīng)濟(jì)生活來(lái)源。但必須確保所填信息真實(shí)可靠,并結(jié)合實(shí)際走訪和調(diào)查加以審核確認(rèn)。
學(xué)生網(wǎng)絡(luò)消費(fèi)行為記錄:隨著電子商務(wù)產(chǎn)業(yè)的發(fā)展,學(xué)生吃飯可選擇外賣訂餐或者掃碼支付費(fèi)用,因此僅通過(guò)一卡通消費(fèi)數(shù)據(jù)分析得出的結(jié)果可能是片面的、不完整的,需要進(jìn)一步將網(wǎng)購(gòu)記錄、外賣記錄、支付寶和微信等第三方支付記錄融入到學(xué)生經(jīng)濟(jì)水平分析和貧困等級(jí)評(píng)定之中。
對(duì)上述與高校貧困生評(píng)定相關(guān)的數(shù)據(jù)進(jìn)行存儲(chǔ)與管理。數(shù)據(jù)抽?。磾?shù)據(jù)清洗)是清除各數(shù)據(jù)來(lái)源中的噪聲干擾和對(duì)數(shù)據(jù)挖掘無(wú)用的數(shù)據(jù);數(shù)據(jù)轉(zhuǎn)換是將雜亂的數(shù)據(jù)變?yōu)榻y(tǒng)一的形式,如相同意義字段名的轉(zhuǎn)換、編碼的轉(zhuǎn)換、單位的統(tǒng)一、冗余數(shù)據(jù)的消除等;同時(shí)為了壓縮海量數(shù)據(jù),將源數(shù)據(jù)中的數(shù)據(jù)遷移到數(shù)據(jù)倉(cāng)庫(kù)或者數(shù)據(jù)集市時(shí)要按照一定的維度(時(shí)間維、地點(diǎn)維等)進(jìn)行匯總。同時(shí),上述多個(gè)系統(tǒng)均為高校重要的應(yīng)用系統(tǒng),如果不便于直接連接其數(shù)據(jù)庫(kù)進(jìn)行大數(shù)據(jù)量操作,可以采用先編寫數(shù)據(jù)庫(kù)腳本或者中間件程序,通過(guò)批量連接查詢導(dǎo)出的方式,實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)。
2.數(shù)據(jù)倉(cāng)庫(kù)建模
(1)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)建模過(guò)程。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)建模主要分為四個(gè)階段。
業(yè)務(wù)建模。劃分高校學(xué)生管理的整體業(yè)務(wù),進(jìn)行各個(gè)部門之間業(yè)務(wù)工作的界定,厘清其間關(guān)系。與學(xué)生資助管理相關(guān)的部門主要包括:教務(wù)處、學(xué)生處、財(cái)務(wù)處以及學(xué)生所在學(xué)院系。深入了解各個(gè)部門內(nèi)具體業(yè)務(wù)流程并將其程序化,提出和改進(jìn)業(yè)務(wù)部門與學(xué)生資助管理相關(guān)的工作流程并規(guī)范化。
領(lǐng)域概念建模。抽取關(guān)鍵業(yè)務(wù)概念并將之抽象化。按照業(yè)務(wù)主線聚合類似的分組概念。細(xì)化分組概念,厘清分組概念內(nèi)的業(yè)務(wù)流程并抽象化。厘清分組概念之間的關(guān)聯(lián),形成完整的領(lǐng)域概念模型。
邏輯建模。對(duì)概念模型中的信息進(jìn)行實(shí)體化,定義實(shí)體與實(shí)體之間的關(guān)系,實(shí)體的屬性內(nèi)容等。即定義具體表的作用,表與表的約束,表的字段,形成實(shí)體關(guān)系聯(lián)系。
物理建模。確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)、索引策略、數(shù)據(jù)存放位置及存儲(chǔ)分配等。全面了解所選用的數(shù)據(jù)庫(kù)管理系統(tǒng),特別是存儲(chǔ)結(jié)構(gòu)和存取方法;了解數(shù)據(jù)環(huán)境、數(shù)據(jù)的使用頻度、使用方式、數(shù)據(jù)規(guī)模以及響應(yīng)時(shí)間要求等,對(duì)時(shí)間和空間效率進(jìn)行平衡和優(yōu)化;了解外部存儲(chǔ)設(shè)備的特性,如分塊原則、塊大小的規(guī)定、設(shè)備的I/O特性等。
尤其是基于大數(shù)據(jù)架構(gòu),以分布式文件系統(tǒng)和非結(jié)構(gòu)化數(shù)據(jù)庫(kù)實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ),采用交互式分析和流處理工具的分布式數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)可大幅提高數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)服務(wù)的效率。
(2)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)建模方法。數(shù)據(jù)倉(cāng)庫(kù)邏輯模型的建模由核心事實(shí)表和一組維度表組成,主要包括星型模型和雪花模型。星型模型的維度表直接跟事實(shí)表連接;而雪花模型中的一些細(xì)粒度維度表不是直接與事實(shí)表連接,而是通過(guò)粗粒度的維度表中轉(zhuǎn)。星型模型查詢性能好,而雪花模型將使數(shù)據(jù)存儲(chǔ)更加規(guī)范化,減少數(shù)據(jù)冗余,易于維護(hù)和節(jié)省存儲(chǔ)空間。但為了滿足高性能的響應(yīng)要求,可以增加冗余、隱藏表之間的約束等反第三范式的操作。
(二)高校貧困生精準(zhǔn)資助的數(shù)據(jù)分析
1.分析高校貧困生精準(zhǔn)資助的屬性因素。除應(yīng)考慮大學(xué)生家庭收入和消費(fèi)情況等傳統(tǒng)思維,隨著互聯(lián)網(wǎng)和通信技術(shù)的發(fā)展,電話費(fèi),網(wǎng)絡(luò)購(gòu)物的次數(shù)、網(wǎng)購(gòu)商品種類和件數(shù)等也在一定程度上反映出學(xué)生的經(jīng)濟(jì)水平,因此應(yīng)探究更加全面的影響貧困等級(jí)的關(guān)聯(lián)因素。主要包括:是否為低保戶,是否為農(nóng)村戶口,是否為單親,是否為獨(dú)生子女,是否父母重病,是否獲得獎(jiǎng)學(xué)金,是否申請(qǐng)到貸款,是否勤工助學(xué),一卡通和外賣就餐月均消費(fèi),網(wǎng)購(gòu)月均消費(fèi),網(wǎng)購(gòu)平均每月奢侈品件數(shù),電話費(fèi)月消費(fèi)等。
2.高校貧困生精準(zhǔn)資助的數(shù)據(jù)分析方法。通過(guò)OLAP操作,統(tǒng)計(jì)分析學(xué)生的基本資料(身份信息、家庭情況、成績(jī)信息、獎(jiǎng)學(xué)金信息等)和各類花銷細(xì)分信息(衣食住行等);篩選關(guān)鍵性能指標(biāo):每月、每年的各類消費(fèi)金額;從不同維度進(jìn)行切片、切塊和鉆取,獲取學(xué)生資助管理工作所需的分析結(jié)果。OLAP系統(tǒng)是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)最主要的應(yīng)用之一,專門設(shè)計(jì)用于支持復(fù)雜的分析統(tǒng)計(jì)操作,可以根據(jù)分析人員的要求快速、靈活地進(jìn)行大數(shù)據(jù)量的復(fù)雜查詢處理,并且以一種直觀而易懂的形式將查詢結(jié)果提供給決策人員,以便高校里從事學(xué)生管理的教師能夠準(zhǔn)確掌握在校學(xué)生的貧困情況,了解學(xué)生的真實(shí)需求,制定正確的資助方案。
采用層次分析法等多屬性評(píng)價(jià)方法計(jì)算影響貧困生評(píng)定的多層次因素,對(duì)致貧因素指標(biāo)進(jìn)行權(quán)重的定量測(cè)算;再收集各項(xiàng)指標(biāo)數(shù)據(jù),通過(guò)TOPSIS(Technique for Order Preference by Similarity to Ideal Solution,逼近理想解排序法)或模糊綜合評(píng)判等方法,對(duì)學(xué)生貧困程度進(jìn)行打分排序。
對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的各類消費(fèi)進(jìn)行聚類分析。以學(xué)生食堂消費(fèi)、外賣消費(fèi)、網(wǎng)絡(luò)消費(fèi)、學(xué)習(xí)成績(jī)排名、家庭情況等多項(xiàng)與“貧困生等級(jí)評(píng)定”相關(guān)的屬性作為聚類分析的數(shù)據(jù),進(jìn)行兩階段聚類。第一階段是粗類,分為貧困生和非貧困生;第二階段是細(xì)聚類,高校貧困生按照貧困程度可以享受國(guó)家每年每人4000元、3000元和1500元不等的補(bǔ)貼政策,以此為依據(jù)再對(duì)貧困生分為一等、二等和三等3個(gè)細(xì)類。
基于關(guān)聯(lián)規(guī)則發(fā)現(xiàn)高校貧困生精準(zhǔn)資助管理中的有潛在價(jià)值的模式。進(jìn)行多因素關(guān)聯(lián)分析從而得到與貧困程度聯(lián)系最密切的影響因素。通過(guò)設(shè)定合適的最小支持度和最小置信度,得到一定數(shù)量的顯著關(guān)聯(lián),找出數(shù)據(jù)之間的關(guān)聯(lián)性,并驗(yàn)證其有效性,簡(jiǎn)化判斷貧困等級(jí)工作的步驟,加大資助認(rèn)定的精確度,為以后的貧困生資助工作提供更科學(xué)可靠的依據(jù)。
使用預(yù)測(cè)模型對(duì)學(xué)生資助進(jìn)行動(dòng)態(tài)預(yù)警監(jiān)控。動(dòng)態(tài)監(jiān)測(cè)與大學(xué)生貧困相關(guān)的若干關(guān)鍵指標(biāo),例如,食堂和外賣消費(fèi)金額陡然降低、學(xué)習(xí)成績(jī)突然下降等情況可能會(huì)與該生家庭情況突遭變故有密切關(guān)聯(lián),應(yīng)迅速發(fā)現(xiàn)新情況并進(jìn)一步深入探究,為實(shí)現(xiàn)動(dòng)態(tài)資助管理工作提供及時(shí)準(zhǔn)確的支持。
利用決策樹(shù)方法對(duì)未知貧困類別的大學(xué)生進(jìn)行有效的分類。決策樹(shù)學(xué)習(xí)是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,構(gòu)造決策樹(shù)的目的是從一組無(wú)次序、無(wú)規(guī)則的事例中找出多個(gè)屬性和貧困等級(jí)認(rèn)定間的關(guān)系,以便用它來(lái)預(yù)測(cè)將來(lái)某些學(xué)生屬性記錄的類別。
為幫助家庭貧困的學(xué)子順利完成學(xué)業(yè),為國(guó)家培養(yǎng)更多不論出身的優(yōu)秀人才,提高貧困生評(píng)定的精準(zhǔn)性勢(shì)在必行。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)為高校貧困生精準(zhǔn)資助提供了更廣泛的數(shù)據(jù)源和更科學(xué)的分析方法,可作為高校貧困生精準(zhǔn)資助動(dòng)態(tài)管理的支持平臺(tái)。
參考文獻(xiàn):
[1]陳乃車,曾劍,唐聞捷.提升高校資助育人成效的路徑探
析[J].教育研究,2017,(5).
[2]林佳佳.河北省高校貧困生救助問(wèn)題研究[D].石家莊:河
北師范大學(xué),2017.
[3]董魯皖龍.高校貧困生資助如何精準(zhǔn)有效?[N]. 中國(guó)教育 報(bào),2017-01-24.
[4]陶俊清.大數(shù)據(jù)背景下的高校資助工作創(chuàng)新研究[J].東華
大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2015,(1).
[5]劉佳易.校園卡應(yīng)用數(shù)據(jù)分析[D].北京:北京化工大學(xué),2015.
[6]崔鳳.基于聚類算法的教育資助系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].長(zhǎng)
沙:湖南大學(xué),2016.
[7]饒亮.改進(jìn)的Apriori算法在貧困生助學(xué)系統(tǒng)中的應(yīng)用
[D].哈爾濱:哈爾濱工程大學(xué),2011.