亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        高校數(shù)據(jù)倉(cāng)庫(kù)多維數(shù)據(jù)建模分析

        2020-11-10 07:52:38王芬芬
        關(guān)鍵詞:教學(xué)

        張 軍, 王芬芬

        (湖南鐵道職業(yè)技術(shù)學(xué)院 圖書信息中心, 湖南 株洲412001)

        0 引 言

        隨著高校各類信息系統(tǒng)的深入使用,已經(jīng)累積了大量的數(shù)據(jù),有效組織與分析這些數(shù)據(jù)是當(dāng)前高校信息化建設(shè)的主要任務(wù)。 很多高校前期已經(jīng)建立了不同程度的,用于數(shù)據(jù)交換與共享的數(shù)據(jù)中心平臺(tái),該平臺(tái)能夠?qū)崿F(xiàn)簡(jiǎn)單的數(shù)據(jù)集成,但當(dāng)前高校業(yè)務(wù)數(shù)據(jù)已經(jīng)呈現(xiàn)出歷史數(shù)據(jù)量大、數(shù)據(jù)異構(gòu)、數(shù)據(jù)冗余且不一致,在統(tǒng)計(jì)方面也存在數(shù)據(jù)統(tǒng)計(jì)維度多、統(tǒng)計(jì)路徑多樣化等特征。 在這種條件下,要實(shí)現(xiàn)跨時(shí)間、跨業(yè)務(wù)的綜合統(tǒng)計(jì)分析是一項(xiàng)十分困難的工作。構(gòu)建高校數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)能有效解決上述問題,數(shù)據(jù)倉(cāng)庫(kù)的ETL(Extract-Transform-Load)過程能有效的解決數(shù)據(jù)異構(gòu)、冗余、不一致等問題,同時(shí)數(shù)據(jù)倉(cāng)庫(kù)能夠在各種粒度上為多維數(shù)據(jù)的交叉分析提供支持[1],并且所積累的大量歷史數(shù)據(jù)能夠?yàn)閿?shù)據(jù)挖掘提供完善的數(shù)據(jù)樣本集。

        1 架構(gòu)設(shè)計(jì)

        數(shù)據(jù)倉(cāng)庫(kù)主要面向統(tǒng)計(jì)分析和數(shù)據(jù)挖掘,為高校的教學(xué)和管理決策提供支持。 其數(shù)據(jù)來源為高校內(nèi)其它操作型業(yè)務(wù)數(shù)據(jù)庫(kù)和數(shù)據(jù)文件,這些數(shù)據(jù)按照高校制定的數(shù)據(jù)標(biāo)準(zhǔn),經(jīng)過清洗、轉(zhuǎn)換加載至數(shù)據(jù)倉(cāng)庫(kù)中,為上層應(yīng)用提供支撐。 本文所構(gòu)建的高校數(shù)據(jù)倉(cāng)庫(kù)主要包括源數(shù)據(jù)層、數(shù)據(jù)倉(cāng)庫(kù)層和數(shù)據(jù)應(yīng)用層,如圖1 所示。

        源數(shù)據(jù)層。 該層為各業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫(kù),是數(shù)據(jù)倉(cāng)庫(kù)層的數(shù)量來源。

        數(shù)據(jù)倉(cāng)庫(kù)層。 該層主要分為近源數(shù)據(jù)、標(biāo)準(zhǔn)數(shù)據(jù)和主題數(shù)據(jù)3 個(gè)區(qū)域。 近源數(shù)據(jù)區(qū)貼近業(yè)務(wù)系統(tǒng)源數(shù)據(jù),保存了各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)明細(xì),與源業(yè)務(wù)系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)基本保持一致,唯一不同之處是在原有基礎(chǔ)之上添加了時(shí)間戳,形成不同版本的歷史數(shù)據(jù)。 標(biāo)準(zhǔn)數(shù)據(jù)區(qū)是數(shù)據(jù)倉(cāng)庫(kù)的核心數(shù)據(jù)區(qū),是按照單位制定的數(shù)據(jù)標(biāo)準(zhǔn)對(duì)近源數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理后的結(jié)果,該層數(shù)據(jù)符合數(shù)據(jù)庫(kù)第三范式建模要求。主題數(shù)據(jù)區(qū)對(duì)應(yīng)宏觀的分析領(lǐng)域,通過對(duì)標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行重新組織或匯總,為不同主題的數(shù)據(jù)建立維度匯總數(shù)據(jù)區(qū),以滿足上層應(yīng)用對(duì)數(shù)據(jù)的多樣化需求,該層采用維度建模的方法構(gòu)建。

        圖1 高校數(shù)據(jù)倉(cāng)庫(kù)的架構(gòu)設(shè)計(jì)Fig. 1 The architecture design of university data warehouse

        數(shù)據(jù)應(yīng)用層。 該層為用戶和數(shù)據(jù)倉(cāng)庫(kù)層建立交互界面,依據(jù)用戶請(qǐng)求訪問倉(cāng)庫(kù)內(nèi)的數(shù)據(jù),生成各類數(shù)據(jù)統(tǒng)計(jì)報(bào)表,實(shí)現(xiàn)對(duì)數(shù)據(jù)多維度、多層次的分析和隱性知識(shí)的挖掘。 包含了多維分析、統(tǒng)計(jì)報(bào)表、數(shù)據(jù)挖掘,以及為其它應(yīng)用提供的數(shù)據(jù)接口[2]。

        2 數(shù)據(jù)建模

        數(shù)據(jù)建模是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的核心工作之一,通過數(shù)據(jù)建模,能夠使高校建立全方位的數(shù)據(jù)視角,勾勒出高校各部門間的內(nèi)在聯(lián)系,同時(shí)能夠有效解決各業(yè)務(wù)數(shù)據(jù)的一致性問題。 另外,數(shù)據(jù)建??梢苑蛛x出底層技術(shù)的實(shí)現(xiàn)和上層業(yè)務(wù)的展現(xiàn),能夠有效應(yīng)對(duì)業(yè)務(wù)的變動(dòng),提高數(shù)據(jù)倉(cāng)庫(kù)的靈活性。

        依據(jù)圖1 所設(shè)計(jì)的高校數(shù)據(jù)倉(cāng)庫(kù)架構(gòu),在數(shù)據(jù)倉(cāng)庫(kù)層有3 個(gè)不同的數(shù)據(jù)區(qū)域,分別為近源數(shù)據(jù)區(qū)、標(biāo)準(zhǔn)數(shù)據(jù)區(qū)和主題數(shù)據(jù)區(qū),其中近源數(shù)據(jù)區(qū)和標(biāo)準(zhǔn)數(shù)據(jù)區(qū)主要是完成數(shù)據(jù)的抽取與轉(zhuǎn)換,對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,其建模方法基本是采用傳統(tǒng)的數(shù)據(jù)庫(kù)范式建模法。 靈活多變的分析需求是主題數(shù)據(jù)區(qū)建模所必須應(yīng)對(duì)的問題,依據(jù)高校具體的業(yè)務(wù)數(shù)據(jù)特點(diǎn)以及分析需求劃分主題域,每個(gè)主題對(duì)應(yīng)1 個(gè)宏觀的分析領(lǐng)域,在主題數(shù)據(jù)區(qū)中為主題建立其所需的事實(shí)表與維度表,確定關(guān)聯(lián)關(guān)系,建立多維數(shù)據(jù)模型,進(jìn)而為上層應(yīng)用提供數(shù)據(jù)服務(wù),其一般過程如圖2 所示。

        圖2 主題數(shù)據(jù)區(qū)建模過程Fig. 2 Modeling process of subject data area

        2.1 領(lǐng)域建模

        領(lǐng)域建模就是對(duì)業(yè)務(wù)系統(tǒng)充分了解后,結(jié)合高校數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)需求,對(duì)關(guān)鍵業(yè)務(wù)抽象化,按照業(yè)務(wù)主線聚合進(jìn)行分組,將業(yè)務(wù)數(shù)據(jù)進(jìn)行綜合、歸類,最終形成面向相應(yīng)宏觀分析領(lǐng)域的各個(gè)主題域。 主題域劃分通常采用樹形結(jié)構(gòu),采用逐級(jí)細(xì)分的思路進(jìn)行設(shè)計(jì)。 本文依據(jù)高校的核心業(yè)務(wù),定義了1 個(gè)公共主題和5 個(gè)業(yè)務(wù)主題,如圖3 所示。 公共主題包括了學(xué)校的基礎(chǔ)數(shù)據(jù)和標(biāo)準(zhǔn)代碼集,這些標(biāo)準(zhǔn)代碼集參考了國(guó)標(biāo)和教育部相關(guān)標(biāo)準(zhǔn),也包含了學(xué)校自定義的校標(biāo)[3]。 部分公共維度也包含在代碼集中,比如時(shí)間、地理位置、專業(yè)、學(xué)歷學(xué)位等公共維度,它們通常與多個(gè)主題事實(shí)表產(chǎn)生關(guān)聯(lián),形成多維分析模型。

        2.2 邏輯建模

        邏輯模型是在充分理解分析主題與用戶需求的基礎(chǔ)上,確定分析粒度,為每個(gè)主題事實(shí)選取分析維度,設(shè)計(jì)事實(shí)表及其相關(guān)聯(lián)的維度表。 事實(shí)就是對(duì)分析主題的度量,其度量屬性的值就是進(jìn)行分析處理的對(duì)象,事實(shí)表的設(shè)計(jì)以能夠正確記錄歷史信息為準(zhǔn)則。 維度則是對(duì)分析主題所屬類型的描述,是分析者觀察事實(shí)的角度,維度表的設(shè)計(jì)是以能夠用合適的角度來聚合事實(shí)內(nèi)容為準(zhǔn)則[4]。 事實(shí)表和維度表的設(shè)計(jì)是邏輯建模的關(guān)鍵,其設(shè)計(jì)的好壞也直接影響到整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的性能以及數(shù)據(jù)分析效果。

        圖3 高校數(shù)據(jù)倉(cāng)庫(kù)主題域劃分Fig. 3 Subject domain division of university data warehouse

        多維數(shù)據(jù)模型依據(jù)事實(shí)表和維度表不同的組織形式,通常有三種設(shè)計(jì)模式,星型模式、雪花模式和事實(shí)星座模式。 本文以高校業(yè)務(wù)中比較核心的數(shù)據(jù)分析主題來闡述三種不同模式下的多維數(shù)據(jù)模型建立。

        (1) 星型模式。 星型模式的基本結(jié)構(gòu)就是事實(shí)表位于中心,維度表圍繞在事實(shí)表周圍[5],這種模式能夠直觀的展示數(shù)據(jù)的多維功能。 教師主題下的教師基礎(chǔ)數(shù)據(jù)能夠從多個(gè)維度對(duì)高校師資結(jié)構(gòu)進(jìn)行統(tǒng)計(jì)分析,同時(shí)也可以作為教學(xué)、科研等與教師相關(guān)主題的教師維度。 教師基礎(chǔ)數(shù)據(jù)涉及的維度較多,如學(xué)歷、學(xué)位、學(xué)科、職稱、崗位、民族、籍貫等等,適合采用結(jié)構(gòu)簡(jiǎn)單的星型模式進(jìn)行建模,不僅可以直觀的反映出業(yè)務(wù)邏輯,還便于對(duì)不同的維度進(jìn)行靈活的組合分析。 為跟蹤教師基礎(chǔ)數(shù)據(jù)的變化過程,記錄和保留活動(dòng)數(shù)據(jù)的歷史信息,本文事實(shí)表的設(shè)計(jì)引入了緩慢變化維的方法來捕獲變化數(shù)據(jù)。 在事實(shí)表中加入開始時(shí)間、結(jié)束時(shí)間和版本3 個(gè)屬性來實(shí)現(xiàn)記錄維度的緩慢變化,其中開始時(shí)間和結(jié)束時(shí)間標(biāo)記了活動(dòng)數(shù)據(jù)在該時(shí)間段內(nèi)處于某一狀態(tài),版本記錄了活動(dòng)數(shù)據(jù)經(jīng)歷的歷史狀態(tài)順序[6]。 教師基礎(chǔ)數(shù)據(jù)的星型模型如圖4 所示。

        圖4 教師基礎(chǔ)數(shù)據(jù)星型模型Fig. 4 Star model of teachers'basic data

        (2) 雪花模式。 雪花模式和星型模式有類似的邏輯模型,也是由事實(shí)表和維度表組成。 在雪花模式中,維度表中低基數(shù)的屬性被移除,形成單獨(dú)的表,基數(shù)是指表中一個(gè)屬性不同值的個(gè)數(shù),這項(xiàng)操作就是維度規(guī)范化。 當(dāng)維度被規(guī)范化成多個(gè)關(guān)聯(lián)的表,即形成了以事實(shí)表為中心的雪花型結(jié)構(gòu)。 維度規(guī)范化將維度表中重復(fù)的組分離成一個(gè)新表,這些通過分解形成的表連接到主維度表而不是事實(shí)表,有效的減少了數(shù)據(jù)冗余,但卻不可避免的增加了表的數(shù)量,在執(zhí)行查詢時(shí),不得不連接更多的表。 但是規(guī)范化減少了存儲(chǔ)數(shù)據(jù)的空間需求,提高了數(shù)據(jù)更新的效率。

        以 學(xué) 生 學(xué) 籍 事 實(shí) 表(FACT _ STUDENT _STATUS)及其教學(xué)班級(jí)維度表(DIM_CLASS)為例,進(jìn)行雪花建模,闡述維度規(guī)范化的過程,分析其在存儲(chǔ)空間及更新效率上的優(yōu)勢(shì)。 以某高校為例,該校有在校生20000 人,12 個(gè)二級(jí)學(xué)院,25 個(gè)教學(xué)系部,共計(jì)400 個(gè)教學(xué)班級(jí)。 如果以星型模式進(jìn)行建模,事實(shí)表有20000 條記錄,教學(xué)班級(jí)維度有400 條記錄,共計(jì)20400 條記錄,每個(gè)學(xué)生所屬的二級(jí)學(xué)院以及教學(xué)系部作為教學(xué)班級(jí)的屬性,顯式的存放在教學(xué)班級(jí)維度表中。 對(duì)教學(xué)班級(jí)維度進(jìn)行規(guī)范化處理,建立二級(jí)學(xué)院維度表(DIM_COLLEGE)和教學(xué)系部維度表(DIM_COLL_DEPART),事實(shí)表沒有變化,總的記錄數(shù)變?yōu)?0437(20000+400+12+25)條記錄,規(guī)范化增加了新表,總的記錄數(shù)也增加了,但是不難看出,在教學(xué)班級(jí)維度表中存放的不再是二級(jí)學(xué)院和教學(xué)系部具體的屬性信息,而是它們的主鍵值,具體的屬性信息統(tǒng)一存放在其相關(guān)的維度表中,這樣就大大減少了數(shù)據(jù)存儲(chǔ)所占用的空間,教學(xué)班級(jí)的數(shù)量越大,這種空間優(yōu)勢(shì)就越明顯。 在數(shù)據(jù)更新方面,如果學(xué)校發(fā)生了院系調(diào)整,只需更新二級(jí)學(xué)院及教學(xué)系部維度表,對(duì)數(shù)據(jù)量較大的事實(shí)表的影響是十分微小的。

        實(shí)際上,星型模式是雪花模式的一個(gè)特例(維度沒有多個(gè)層級(jí))。 雪花模型的主要缺點(diǎn)是維度屬性規(guī)范化增加了查詢的連接操作和復(fù)雜度。 相對(duì)于平面化的單表維度,多表連接的查詢性能會(huì)有所下降。 但雪花模型的查詢性能問題近年來隨著數(shù)據(jù)瀏覽工具的不斷優(yōu)化而得到緩解。 學(xué)生學(xué)籍?dāng)?shù)據(jù)的雪花模型,如圖5 所示。

        圖5 學(xué)生學(xué)籍?dāng)?shù)據(jù)雪花模型Fig. 5 Snowflake model of student status data

        (3) 事實(shí)星座模式。 高校數(shù)據(jù)倉(cāng)庫(kù)由多個(gè)主題構(gòu)成,包含了多個(gè)事實(shí)表,很多事實(shí)表里包含了大量公共的維度,這些維度供多個(gè)事實(shí)表共享使用,形成了多個(gè)星型模式的匯集,這種結(jié)構(gòu)就是事實(shí)星座模式,也稱為星系模式。 以高校財(cái)務(wù)明細(xì)事實(shí)表和科研項(xiàng)目事實(shí)表為例,它們之間存在著大量的公共維度,比如項(xiàng)目負(fù)責(zé)人、項(xiàng)目類別、項(xiàng)目來源、項(xiàng)目級(jí)別、立項(xiàng)時(shí)間、結(jié)項(xiàng)時(shí)間等等,多個(gè)事實(shí)表與多個(gè)公共維度交叉連接,是數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建過程中常用的建模方式。

        多維數(shù)據(jù)模型是數(shù)據(jù)倉(cāng)庫(kù)的核心,也是OLAP(聯(lián)機(jī)分析處理)的靈魂。 上述三種多維數(shù)據(jù)的建模方法都是由一組維度和事實(shí)的集合組成的,該模型可以用一個(gè)n(n ≥2) 維數(shù)據(jù)立方體表示,數(shù)據(jù)立方體中的維來自維度表,空間中的點(diǎn)來自事實(shí)表,每個(gè)點(diǎn)(以取n = 3 為例,1*1*1)包含事實(shí)數(shù)據(jù),稱為存儲(chǔ)單元。 多維數(shù)據(jù)分析的核心操作就是對(duì)數(shù)據(jù)立方體進(jìn)行鉆取(Drill-down)、上卷(Roll-up)、切片(Slice)、切塊(Dice)以及旋轉(zhuǎn)(Pivot)。 鉆取和上卷是通過改變維度的層次,調(diào)整分析粒度來觀察數(shù)據(jù),切片是通過固定數(shù)據(jù)立方體上某一維度上的選定值,觀察數(shù)據(jù)在剩余維度上的分布情況,如果是對(duì)兩個(gè)及以上的維度執(zhí)行選擇就是切塊操作,旋轉(zhuǎn)即是變換維度在數(shù)據(jù)立方體上的方向[7]。

        針對(duì)高校業(yè)務(wù)數(shù)據(jù)結(jié)構(gòu)繁雜,且存在著大量聚合分析的特點(diǎn),本文在圖5 的學(xué)生學(xué)籍?dāng)?shù)據(jù)雪花模型中進(jìn)行了維度層次結(jié)構(gòu)的設(shè)計(jì)。 以教學(xué)班級(jí)維度為例,教學(xué)班級(jí)隸屬于教學(xué)系部,教學(xué)系部隸屬于二級(jí)學(xué)院,層次之間通過外鍵連接,能夠?qū)崿F(xiàn)“教學(xué)班級(jí)→教學(xué)系部→二級(jí)學(xué)院”的上卷或“二級(jí)學(xué)院→教學(xué)系部→教學(xué)班級(jí)”的鉆取。 建立維度層次關(guān)系,可以用來定義切片路徑,數(shù)據(jù)立方體可以通過教學(xué)班級(jí)、教學(xué)系部或者二級(jí)學(xué)院進(jìn)行切片分析。

        2.3 物理建模

        物理建模的主要工作是將所設(shè)計(jì)的邏輯模型在合適的數(shù)據(jù)庫(kù)管理工具中實(shí)現(xiàn),包括選擇合適的數(shù)據(jù)庫(kù)管理工具,設(shè)計(jì)數(shù)據(jù)表的結(jié)構(gòu)及其屬性類型,建立用于快速訪問的索引策略,明確數(shù)據(jù)的存儲(chǔ)方式及存儲(chǔ)位置,制定實(shí)施數(shù)據(jù)的裝載與清洗策略。

        依據(jù)本文在數(shù)據(jù)倉(cāng)庫(kù)層中所設(shè)計(jì)的分區(qū)域存儲(chǔ)和治理數(shù)據(jù)的策略,需要?jiǎng)?chuàng)建的物理表主要包括如下幾類:

        (1)為滿足數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)管理和數(shù)據(jù)ETL 的需求,所創(chuàng)建的配置表、日志表等。

        (2) 在近源數(shù)據(jù)區(qū)用于存儲(chǔ)原始數(shù)據(jù)的源數(shù)據(jù)表。

        (3) 在標(biāo)準(zhǔn)數(shù)據(jù)區(qū)用于存儲(chǔ)對(duì)源數(shù)據(jù)表進(jìn)行清洗和轉(zhuǎn)換的標(biāo)準(zhǔn)數(shù)據(jù)表。

        (4) 在主題數(shù)據(jù)區(qū)用于存儲(chǔ)多維數(shù)據(jù)模型所生成的維度表和事實(shí)表。

        在具體設(shè)計(jì)過程中,需要對(duì)物理模型中的數(shù)據(jù)定義和數(shù)據(jù)格式進(jìn)行規(guī)范化處理,也包括所遇到的一些設(shè)計(jì)共性問題,如在物理模型中所需要的主鍵是采用自然鍵還是代理鍵。 自然鍵就是用實(shí)體現(xiàn)有的屬性組成鍵值,在業(yè)務(wù)概念上是唯一的。 代理鍵就是新增一列不具有業(yè)務(wù)含義的鍵值表示數(shù)據(jù)唯一。 本文設(shè)計(jì)的大多事實(shí)表都是采用自增序列的代理鍵為主鍵,因?yàn)楦咝I(yè)務(wù)繁多,業(yè)務(wù)需求變更頻繁,代理鍵不與業(yè)務(wù)產(chǎn)生耦合,業(yè)務(wù)需求的變更對(duì)其不會(huì)產(chǎn)生影響,更容易維護(hù)。 另外,時(shí)間戳字段也是一個(gè)設(shè)計(jì)共性問題,數(shù)據(jù)的變化一般是發(fā)生在字段一級(jí)的,如果給每一個(gè)字段蓋上一個(gè)時(shí)間戳,雖然能夠最詳細(xì)的記錄標(biāo)識(shí)數(shù)據(jù)的變化,但會(huì)大大增加數(shù)據(jù)的存儲(chǔ)量,采用在行一級(jí)上添加時(shí)間戳,當(dāng)數(shù)據(jù)發(fā)送變化時(shí),時(shí)間戳字段同步更新,通過系統(tǒng)時(shí)間與時(shí)間戳字段的值來決定所抽取數(shù)據(jù)。

        在索引創(chuàng)建策略上,按照索引使用的頻率,由高到低逐步添加,使用主關(guān)鍵字和外部關(guān)鍵字建立索引,根據(jù)實(shí)際情況可以設(shè)計(jì)多種索引結(jié)構(gòu)。 在數(shù)據(jù)的具體存放位置上,將索引和數(shù)據(jù)表分開存放,索引存放在高速存儲(chǔ)設(shè)備上,數(shù)據(jù)表可存放于一般存儲(chǔ)設(shè)備,以加快數(shù)據(jù)的查詢速度。

        3 實(shí)現(xiàn)與應(yīng)用

        在上述數(shù)據(jù)模型的基礎(chǔ)上,構(gòu)建高校數(shù)據(jù)倉(cāng)庫(kù)還需要完成數(shù)據(jù)ETL 的實(shí)施,ETL 是將各個(gè)業(yè)務(wù)中的異構(gòu)數(shù)據(jù)源經(jīng)過抽取、轉(zhuǎn)換、加載到數(shù)據(jù)倉(cāng)庫(kù)的過程。 ETL 是數(shù)據(jù)倉(cāng)庫(kù)實(shí)施的核心內(nèi)容,常用的開發(fā)工具有Oracle 公司的ODI(Oracle Data Integrator)、開源工具Kettle 等,也可以直接編寫存儲(chǔ)過程。 本文選擇ODI 作為主要的ETL 實(shí)現(xiàn)工具,但對(duì)邏輯復(fù)雜,且對(duì)執(zhí)行效率有較高需求的ETL,則直接使用存儲(chǔ)過程來完成。

        完成從各業(yè)務(wù)系統(tǒng)中抽取源數(shù)據(jù)后,對(duì)數(shù)據(jù)進(jìn)行清洗和標(biāo)準(zhǔn)化也是一項(xiàng)重要的工作。 數(shù)據(jù)清洗主要對(duì)源數(shù)據(jù)中出現(xiàn)的殘缺數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)、重復(fù)數(shù)據(jù)以及違反邏輯規(guī)定的數(shù)據(jù)等問題數(shù)據(jù)進(jìn)行統(tǒng)一的處理[8]。 表1 給出了針對(duì)高校業(yè)務(wù)系統(tǒng)常見的數(shù)據(jù)問題,以及對(duì)其所采取的清洗策略。 數(shù)據(jù)標(biāo)準(zhǔn)化就是依據(jù)制定的信息標(biāo)準(zhǔn)對(duì)清洗后的數(shù)據(jù)進(jìn)行規(guī)范化處理,如不同業(yè)務(wù)系統(tǒng)的同一數(shù)據(jù)的數(shù)據(jù)格式或使用的數(shù)據(jù)字典可能不一致,就需要將其按照數(shù)據(jù)倉(cāng)庫(kù)的信息標(biāo)準(zhǔn)進(jìn)行規(guī)范化處理。

        完成數(shù)據(jù)倉(cāng)庫(kù)各個(gè)層次的數(shù)據(jù)處理后,就可以為上層應(yīng)用提供數(shù)據(jù)服務(wù)了,主要包括一些數(shù)據(jù)查詢系統(tǒng)、在線分析系統(tǒng)、決策支持系統(tǒng)、數(shù)據(jù)挖掘與數(shù)據(jù)接口等。

        表1 數(shù)據(jù)清洗的常見問題及策略Tab. 1 Common problems and strategies of data cleaning

        4 結(jié)束語

        本文基于典型的數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建技術(shù),結(jié)合高校具體的數(shù)據(jù)統(tǒng)計(jì)與分析需求,針對(duì)高校業(yè)務(wù)系統(tǒng)零散、數(shù)據(jù)類別繁雜的特點(diǎn),提出將數(shù)據(jù)倉(cāng)庫(kù)分為近源數(shù)據(jù)區(qū)、標(biāo)準(zhǔn)數(shù)據(jù)區(qū)和主題數(shù)據(jù)區(qū)3 個(gè)區(qū)域,每個(gè)區(qū)域的數(shù)據(jù)具有不同的特點(diǎn),同時(shí)采取不同的治理策略。 多維數(shù)據(jù)建模是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)核心內(nèi)容,它能夠滿足對(duì)數(shù)據(jù)進(jìn)行多層次、多角度的分析需求,本文選取了高校教師基礎(chǔ)數(shù)據(jù)和學(xué)生學(xué)籍?dāng)?shù)據(jù)作為建模分析對(duì)象,分別給出星型模式和雪花模式的多維數(shù)據(jù)模型,由于篇幅有限,所構(gòu)建的數(shù)據(jù)模型只列出了主要的關(guān)鍵字段,但它依然可以作為高校在構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)時(shí)進(jìn)行數(shù)據(jù)建模的參考。 本文的數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)以及所使用的多維數(shù)據(jù)建模方法已經(jīng)應(yīng)用于某高校的大數(shù)據(jù)分析平臺(tái),能夠靈活的分析與統(tǒng)計(jì)高校業(yè)務(wù)數(shù)據(jù),自動(dòng)生成各類復(fù)雜的數(shù)據(jù)報(bào)表。

        猜你喜歡
        教學(xué)
        微課讓高中數(shù)學(xué)教學(xué)更高效
        甘肅教育(2020年14期)2020-09-11 07:57:50
        「微寫作」教學(xué)實(shí)踐的思考
        “以讀促寫”在初中寫作教學(xué)中的應(yīng)用
        如何讓高中生物教學(xué)變得生動(dòng)有趣
        甘肅教育(2020年12期)2020-04-13 06:25:34
        談高中音樂欣賞教學(xué)中的“聽、看、想、說、動(dòng)”
        “自我診斷表”在高中數(shù)學(xué)教學(xué)中的應(yīng)用
        東方教育(2017年19期)2017-12-05 15:14:48
        對(duì)外漢語教學(xué)中“想”和“要”的比較
        對(duì)識(shí)譜教學(xué)的認(rèn)識(shí)與思考
        《可以預(yù)約的雪》教學(xué)探索與思考
        對(duì)高等數(shù)學(xué)教學(xué)的一些思考
        麻豆av毛片在线观看| 日产精品久久久久久久| 妺妺窝人体色www在线直播| 亚洲av日韩av天堂一区二区三区 | av一区二区三区亚洲| 国产噜噜亚洲av一二三区| 国产亚洲超级97免费视频| 国产女主播精品大秀系列 | 香蕉亚洲欧洲在线一区| 91久久精品一区二区| 少妇粉嫩小泬喷水视频| 精品久久久久久无码国产| 中国精品久久久久国产| 性生大片免费观看性少妇| 99精品国产一区二区三区不卡 | 国产精品r级最新在线观看| 亚洲综合欧美在线| 成年女人午夜特黄特色毛片免| 国产av在线观看久久| 人妻精品动漫h无码网站| 日韩丝袜亚洲国产欧美一区| 亚洲国产综合精品一区最新| 亚洲欧美日韩综合一区二区| 免费无码国产v片在线观看| 国产成人精品一区二免费网站| 白白色发布会在线观看免费| 亚洲国产精品ⅴa在线观看| 91亚洲国产成人aⅴ毛片大全| 亚洲中文字幕国产剧情| 亚洲av男人电影天堂热app| 日本三级欧美三级人妇视频 | 国产精品福利自产拍久久| 无码8090精品久久一区| 亚洲不卡一区二区视频| 国产农村乱辈无码| 国产精品一区二区av片| 日本一区二区免费看片| 人妻少妇精品视频三区二区一区| 免费一级毛片在线播放不收费 | 狠狠精品久久久无码中文字幕| 欧美国产小视频|