王剛
中圖分類號:G4 ?文獻(xiàn)標(biāo)識碼:A ?文章編號:(2020)-25-291
近年來,隨著中考網(wǎng)上閱卷工作的順利實(shí)施,我市逐漸積累了大量、詳細(xì)的中考成績數(shù)據(jù);雖然每年會有專人對中考成績進(jìn)行分析,但也沒有能夠全方位、多角度、跨年度地深入分析挖掘出中考成績背后所包含的潛在價(jià)值?;趥鹘y(tǒng)的簡單成績查詢,已經(jīng)不能滿足日益增長的數(shù)據(jù)分析需求,而數(shù)據(jù)倉庫技術(shù)正是為了構(gòu)建這種新的分析處理環(huán)境出現(xiàn)的一種數(shù)據(jù)存儲和組織方式。
一、數(shù)據(jù)倉庫簡介
數(shù)據(jù)倉庫是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時(shí)間不斷變化(不同時(shí)間)的數(shù)據(jù)集合,把企業(yè)內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)進(jìn)行有效的集成,生成分析性報(bào)告,為企業(yè)的各層級決策和分析人員所使用。數(shù)據(jù)倉庫具有面向主題的、集成的、時(shí)變的和穩(wěn)定性的特點(diǎn)。
二、中考成績數(shù)據(jù)倉庫的設(shè)計(jì)
(一)中考成績數(shù)據(jù)倉庫的體系結(jié)構(gòu)
對于數(shù)據(jù)倉庫的用戶來說,數(shù)據(jù)倉庫系統(tǒng)由數(shù)據(jù)源、數(shù)據(jù)倉庫的數(shù)據(jù)存儲、數(shù)據(jù)倉庫的應(yīng)用工具、前端工具組成。
具體體系結(jié)構(gòu)如圖所示:
內(nèi)部數(shù)據(jù)源主要為歷年的中考報(bào)名和成績數(shù)據(jù)。外部數(shù)據(jù)源包括縣區(qū)、學(xué)校的教學(xué)管理相關(guān)信息,以及教師個(gè)人相關(guān)信息、教學(xué)手段方法等信息,和學(xué)生學(xué)習(xí)相關(guān)信息等。
(二)中考成績數(shù)據(jù)倉庫的模型設(shè)計(jì)
在進(jìn)行數(shù)據(jù)倉庫的設(shè)計(jì)開發(fā)時(shí),通常要建立概念模型、邏輯模型、物理模型三個(gè)層次的數(shù)據(jù)模型。
1.概念模型設(shè)計(jì)
進(jìn)行概念模型的設(shè)計(jì)主要完成兩項(xiàng)工作:一是確定主題域。主題,簡單來說,就是用戶在使用數(shù)據(jù)倉庫時(shí)所關(guān)心的方面。主題域是決策者在使用數(shù)據(jù)倉庫分析時(shí)關(guān)心的一個(gè)個(gè)分析領(lǐng)域,包括分析問題的各種角度和從相應(yīng)視角觀察分析到的事實(shí)數(shù)據(jù)。從某種意義上來說,主題域也就是為數(shù)據(jù)倉庫劃定的一個(gè)大致的系統(tǒng)邊界,確定主題域的工作也可以看作是為了設(shè)計(jì)好數(shù)據(jù)倉庫而對用戶進(jìn)行的需求分析。因此,進(jìn)行數(shù)據(jù)倉庫設(shè)計(jì)之前,要了解掌握哪些問題是用戶感興趣的?這些問題都需要什么樣的數(shù)據(jù)信息等?二是確定數(shù)據(jù)倉庫中各主題及其相關(guān)要素內(nèi)容。主題域確定之后,就可以對每個(gè)主題具體應(yīng)包含的要素、內(nèi)容進(jìn)行描述。數(shù)據(jù)倉庫的概念模型一般采用多維數(shù)據(jù)模型建模。在多維數(shù)據(jù)模型中,包含維度(觀察事物的角度)和事實(shí)(觀察得到的事實(shí)數(shù)據(jù))兩種建模要素。一個(gè)主題表達(dá)為由多個(gè)維度和一組事實(shí)數(shù)據(jù)構(gòu)成的一個(gè)星型模型。
按照建立中考成績數(shù)據(jù)倉庫的特點(diǎn)來說,主題域?yàn)榻逃芾砼c決策層關(guān)心的分析領(lǐng)域,包括教學(xué)管理、教師教學(xué)和學(xué)生學(xué)習(xí)等情況。即主題域主要包括教學(xué)管理分析主題、教師教學(xué)分析主題、學(xué)生學(xué)習(xí)情況分析主題。
(1)教學(xué)管理分析主題,主要是分析各縣區(qū)、各學(xué)校學(xué)生的總分、單科成績最高分、平均分;分析總分、單科各成績區(qū)段中各縣區(qū)、各學(xué)校人數(shù)占比情況;分析縣區(qū)學(xué)校單科成績中各班級的差異。
(2)教師教學(xué)分析主題,主要是對教師的教學(xué)水平、教學(xué)方法和手段的分析。包括分析教師的年齡、職稱、性別、學(xué)歷等個(gè)人因素,以及教師在教學(xué)過程中運(yùn)用的教學(xué)方法和手段等對學(xué)生成績的影響。具體包括:①同一門課,縱向?qū)Ρ瓤h區(qū)、學(xué)校每名教師所帶班級的平均成績;②同一門課,橫向比較縣區(qū)、學(xué)校每名教師所帶的不同班級的平均成績。
(3)學(xué)生學(xué)習(xí)情況分析主題,主要是根據(jù)總成績和單科成績分析不同成績區(qū)段學(xué)生的日常學(xué)習(xí)情況差異。比如喜歡閱讀課外書、經(jīng)常刷課外輔導(dǎo)試卷、經(jīng)常和同學(xué)一起復(fù)習(xí)研究等個(gè)人或團(tuán)體行為對學(xué)生成績的影響。
在本系統(tǒng)中我們選擇以教師教學(xué)分析主題作為該系統(tǒng)的分析主題。在教師教學(xué)分析主題中,包括時(shí)間維、考生維、教師維、縣區(qū)學(xué)校維、課程維和教師教學(xué)事實(shí)表。
基于教師教學(xué)分析主題的概念模型如圖所示:
2.邏輯模型設(shè)計(jì)
本系統(tǒng)中對教師教學(xué)分析主題進(jìn)行分析。它的邏輯模型設(shè)計(jì)主要包括粒度層次劃分、數(shù)據(jù)表的合理劃分、關(guān)系模式的定義、提練表中數(shù)據(jù)等。在本系統(tǒng)中可以采取單一的粒度設(shè)計(jì)模式來進(jìn)行粒度層次劃分。由于主題內(nèi)各個(gè)關(guān)系表的數(shù)據(jù)量不是很大,因此不用進(jìn)行表的分割。邏輯模型主要使用事實(shí)表和各維度表的關(guān)系模式來表達(dá)。本系統(tǒng)的多維模型采用星型模型。根據(jù)概念模型,在本系統(tǒng)中事實(shí)表為教師教學(xué)情況表,時(shí)間表、考生表、教師表、課程表和縣區(qū)學(xué)校表等為維表?;诮處熃虒W(xué)分析主題的邏輯模型如圖所示:
3.物理模型設(shè)計(jì)
物理模型的設(shè)計(jì)是指數(shù)據(jù)在數(shù)據(jù)倉庫中的存放形式和數(shù)據(jù)的組織。物理模型是在邏輯模型在計(jì)算機(jī)中的具體實(shí)現(xiàn)方法,也是將前面設(shè)計(jì)的星型模型的事實(shí)表和維表都必須轉(zhuǎn)變?yōu)閷?yīng)的物理數(shù)據(jù)表。主要包括表的數(shù)據(jù)結(jié)構(gòu)類型、索引策略、數(shù)據(jù)存儲分配等。
在本系統(tǒng)中,基于教師教學(xué)分析主題物理模型,可以建立教師教學(xué)情況(Teacher_Teach_B)事實(shí)表,包括教師編號(Teacher_No)、學(xué)生的考生號(ksh)、課程代碼(CourseID)、縣市區(qū)代碼(xsqdm)、學(xué)校代碼(xxdm)、班級代碼(bjdm)等;并依據(jù)邏輯模型建立考生表(KSB)、教師表(TeacherB)、課程表(CourseB)、縣區(qū)學(xué)校表(XSQXXB)、時(shí)間表(YearB)等維表。
三、數(shù)據(jù)倉庫的構(gòu)建
本文使用SQL Server 2008 R2數(shù)據(jù)庫系統(tǒng)構(gòu)建數(shù)據(jù)倉庫。首先,創(chuàng)建數(shù)據(jù)倉庫數(shù)據(jù)庫。從各縣區(qū)、各學(xué)校上報(bào)的文本、EXCEL、DBF等格式的數(shù)據(jù)表中提取教師、學(xué)生相關(guān)的有用信息,結(jié)合每年的中考數(shù)據(jù),將所有數(shù)據(jù)源的數(shù)據(jù)合并在一起,所有數(shù)據(jù)經(jīng)過抽取、轉(zhuǎn)換和裝載3個(gè)過程(即ETL)過程,導(dǎo)入獲取的各類數(shù)據(jù)至數(shù)據(jù)庫中。其次,利用SQL Server 2008 R2的商業(yè)智能項(xiàng)目,根據(jù)分析主題以星型模型構(gòu)建數(shù)據(jù)倉庫,加載數(shù)據(jù)庫中數(shù)據(jù)至數(shù)據(jù)倉庫,以構(gòu)成OLAP立方體。最后,使用SQL Server Analysis Services實(shí)現(xiàn)數(shù)據(jù)分析。
四、結(jié)束語
學(xué)生成績不僅反映了學(xué)生的學(xué)習(xí)效果,更反映了一個(gè)地區(qū)和一個(gè)學(xué)校的教學(xué)質(zhì)量,以及一個(gè)教師的教學(xué)水平與能力。本系統(tǒng)的設(shè)計(jì)圍繞每年的中考成績,利用數(shù)據(jù)倉庫技術(shù)可以將歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù)進(jìn)行綜合分析,通過一系列分析,可以為縣市區(qū)和學(xué)校教學(xué)管理、教師教學(xué)方法和手段改進(jìn)完善、學(xué)生學(xué)習(xí)模式改進(jìn)等方面提供一定的支持。