亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        ETL數(shù)據(jù)治理在高校信息化建設(shè)中的研究與應(yīng)用

        2020-08-04 11:32:32陳鋒
        中國教育信息化 2020年7期
        關(guān)鍵詞:數(shù)據(jù)治理數(shù)據(jù)處理

        陳鋒

        摘 ? 要:文章首先對ETL數(shù)據(jù)處理及應(yīng)用價值進(jìn)行了定義和表述,并就ETL數(shù)據(jù)處理工作在高校內(nèi)的具體應(yīng)用場景和所面臨的問題進(jìn)行介紹;其次對當(dāng)前高校開展ETL數(shù)據(jù)處理工作的幾個主流解決方案進(jìn)行了剖析,并圍繞ETL數(shù)據(jù)治理工作中的ETL數(shù)據(jù)技術(shù)平臺建設(shè)、ETL數(shù)據(jù)規(guī)范及從業(yè)人員隊伍的整合優(yōu)化等問題進(jìn)行了詳細(xì)闡述與分析;最后對開展ETL數(shù)據(jù)治理的意義進(jìn)行了總結(jié)。

        關(guān)鍵詞:ETL;數(shù)據(jù)處理;數(shù)據(jù)治理;數(shù)據(jù)規(guī)范

        中圖分類號:G647;TP311.13 文獻(xiàn)標(biāo)志碼:A 文章編號:1673-8454(2020)13-0068-03

        ETL即Extract-Transform-Load,是指將數(shù)據(jù)從數(shù)據(jù)來源端經(jīng)抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至數(shù)據(jù)目的端的處理過程。在大數(shù)據(jù)、移動應(yīng)用技術(shù)蓬勃發(fā)展的今天,高校信息化建設(shè)正由信息管理向提供優(yōu)質(zhì)信息服務(wù)方向轉(zhuǎn)變,當(dāng)前制約高校信息化發(fā)展的瓶頸不在于智能化的多終端數(shù)據(jù)采集,不在于圖形化個性化的數(shù)據(jù)展現(xiàn),而在于如何對數(shù)據(jù)進(jìn)行精準(zhǔn)快速處理。ETL數(shù)據(jù)處理作為院校在信息管理、信息化服務(wù)中的一項最基本最重要的工作,它的時效性、準(zhǔn)確性及可重用性將直接影響高校信息化服務(wù)的質(zhì)量與效能。

        一、ETL數(shù)據(jù)處理在高校當(dāng)前的應(yīng)用場景和所面臨的問題

        在高校信息化建設(shè)進(jìn)程中,問題最多、工作量最大的環(huán)節(jié)就是從各種數(shù)據(jù)源抽取、轉(zhuǎn)換和加載數(shù)據(jù)的操作,高校信息化建設(shè)中沉淀產(chǎn)生的數(shù)據(jù)來自不同時期、不同硬件平臺、不同操作系統(tǒng),數(shù)據(jù)源的多樣性造成“臟數(shù)據(jù)”的大量存在。這些“臟數(shù)據(jù)”給學(xué)校教學(xué)、科研、管理等各項工作的開展都帶來一定困難。

        1.高校的各種數(shù)據(jù)統(tǒng)計報表離不開ETL數(shù)據(jù)處理

        數(shù)據(jù)報表工作主要包括數(shù)據(jù)的收集、加工和上報三個工作環(huán)節(jié),數(shù)據(jù)報表工作的本質(zhì)就是一次ETL閉環(huán)過程。高校數(shù)據(jù)報表既有反映全校概況的,如高基報表、財務(wù)預(yù)決算報表;也有客觀展現(xiàn)學(xué)校具體工作的,如專業(yè)評估報表、教科研報表等??傮w來說高校報表具有專業(yè)性強(qiáng)、指標(biāo)體系復(fù)雜、時效性高等特點(diǎn)。在報表工作中,由于高校業(yè)務(wù)數(shù)據(jù)庫之間缺乏統(tǒng)一的標(biāo)志,表示同一對象的數(shù)據(jù)庫記錄的ID不唯一;此外,用戶在輸入數(shù)據(jù)時,也會出現(xiàn)手工錄入錯誤。這就要求報表人員要掌握計算機(jī)數(shù)據(jù)處理相關(guān)技術(shù)和方法。

        2.高校的信息業(yè)務(wù)邏輯離不開ETL數(shù)據(jù)處理

        ETL數(shù)據(jù)處理工作與高校信息系統(tǒng)的業(yè)務(wù)邏輯密不可分,如學(xué)工部門的獎勤助貸管理要根據(jù)學(xué)生家庭經(jīng)濟(jì)狀況、個人成績等指標(biāo)進(jìn)行量化賦分換算;財務(wù)部門的繳費(fèi)管理要與學(xué)工系統(tǒng)、教務(wù)系統(tǒng)進(jìn)行數(shù)據(jù)交換。以往這些業(yè)務(wù)數(shù)據(jù)工作由學(xué)校業(yè)務(wù)部門獨(dú)立完成。由于缺乏必要數(shù)據(jù)處理規(guī)范,不同數(shù)據(jù)庫對同一數(shù)據(jù)類型的實現(xiàn)形式不同,不同組織采用不同格式表示數(shù)據(jù),從而導(dǎo)致業(yè)務(wù)部門各自的業(yè)務(wù)數(shù)據(jù)邏輯無法實現(xiàn)共用,其建立的計算機(jī)數(shù)據(jù)處理過程無法被復(fù)制調(diào)用。

        3.高校內(nèi)部的信息系統(tǒng)集成離不開ETL數(shù)據(jù)處理

        隨著高校數(shù)字校園信息平臺的逐漸成熟與完善,業(yè)務(wù)信息系統(tǒng)與信息平臺的集成需求也越來越多。信息系統(tǒng)的集成主要包括認(rèn)證集成、門戶集成和數(shù)據(jù)集成,其中數(shù)據(jù)集成是信息系統(tǒng)集成的核心建設(shè)內(nèi)容。業(yè)務(wù)系統(tǒng)與數(shù)據(jù)中心集成過程中需要先修改數(shù)據(jù)標(biāo)準(zhǔn),按其數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)建模,最后依據(jù)數(shù)據(jù)模型來完成數(shù)據(jù)集成。這種傳統(tǒng)的數(shù)據(jù)集成方式開發(fā)周期過長,且在業(yè)務(wù)集成過程中,學(xué)校的建設(shè)成本很大,業(yè)務(wù)系統(tǒng)數(shù)據(jù)集成工作往往不會一蹴而就,隨著業(yè)務(wù)信息系統(tǒng)迭代升級,信息集成面臨的困難也會越來越多。因此,如何根據(jù)業(yè)務(wù)系統(tǒng)集成需要,高效快速創(chuàng)建ETL數(shù)據(jù)處理過程,縮短數(shù)據(jù)集成開發(fā)工期,降低建設(shè)成本,是高校所面臨的難點(diǎn)問題。

        二、當(dāng)前高校開展ETL數(shù)據(jù)處理所采用的技術(shù)方案

        1.利用Excel完成ETL數(shù)據(jù)處理工作

        Excel提供了很多數(shù)據(jù)處理和分析方法。目前常見的應(yīng)用于數(shù)據(jù)處理的方法有排序、篩選、分類、匯總、合并計算及各類數(shù)據(jù)處理函數(shù),此外,Excel還提供均值判斷、概率統(tǒng)計、回歸分析、時間序列等數(shù)據(jù)分析方法。Excel工具簡單易學(xué),目前仍是高校開展數(shù)據(jù)處理工作的主流技術(shù)手段,但Excel自身在ETL數(shù)據(jù)采集、數(shù)據(jù)加載環(huán)節(jié)上沒有優(yōu)勢,所以一般通過VBA宏編程等手段輔助完成。

        2.利用專業(yè)的ETL數(shù)據(jù)處理工具

        如IBM公司的DataStage、Oracle的Warehouse Builder、Microsoft公司的DTS都能夠獨(dú)立完成多數(shù)據(jù)源的抽取、轉(zhuǎn)換和數(shù)據(jù)維護(hù)。但這些專業(yè)ETL數(shù)據(jù)處理工具,一般需要DBA級別的數(shù)據(jù)庫技術(shù)專家參與才能完成復(fù)雜的數(shù)據(jù)加工處理過程,對于一些數(shù)據(jù)需求不穩(wěn)定、時效性要求高的數(shù)據(jù)轉(zhuǎn)換任務(wù),僅依靠專業(yè)的ETL數(shù)據(jù)處理工具還是難以勝任的。

        綜上所述,使用一種或幾種技術(shù)解決方案完成學(xué)校的ETL數(shù)據(jù)處理工作有較大的局限性,只有在頂層數(shù)據(jù)治理框架下通過建立數(shù)據(jù)處理標(biāo)準(zhǔn)規(guī)范,開發(fā)數(shù)據(jù)處理系統(tǒng),科學(xué)調(diào)配人員分工,才能提高學(xué)校數(shù)據(jù)處理工作的時效性、可靠性與準(zhǔn)確性,才能讓高校的計算機(jī)數(shù)據(jù)處理工作得到共享和復(fù)用。

        三、高校ETL數(shù)據(jù)處理規(guī)范的制定

        ETL數(shù)據(jù)處理就是把數(shù)據(jù)從數(shù)據(jù)源中抽取出來,經(jīng)過清洗、轉(zhuǎn)換、加載到目標(biāo)數(shù)據(jù)集的過程,在信息技術(shù)中稱之為一次工程(project)。一個完整的ETL數(shù)據(jù)處理工程由數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載、日志系統(tǒng)四個模塊組成。同時,每個模塊下,又由很多具體的ETL操作指令組合而成。每個具體的ETL操作,則稱之為一個任務(wù)(task)。為保證每一個ETL數(shù)據(jù)處理工程(project)都能夠被規(guī)范化設(shè)計、實施和維護(hù),就必須制定出高校自己的ETL數(shù)據(jù)處理規(guī)范。

        高校ETL數(shù)據(jù)處理規(guī)范主要包括設(shè)計規(guī)范、開發(fā)規(guī)范及維護(hù)規(guī)范。其中設(shè)計規(guī)范包括數(shù)據(jù)源的規(guī)范化定義和表述,目標(biāo)數(shù)據(jù)集的規(guī)范化定義和表述,數(shù)據(jù)抽取、轉(zhuǎn)換規(guī)則的定義,數(shù)據(jù)處理流程的規(guī)范化描述;ETL數(shù)據(jù)處理規(guī)范一般采用標(biāo)準(zhǔn)XML文檔來進(jìn)行描述和約束。即每一項ETL數(shù)據(jù)處理工程(project)都由一份完整的XML文檔進(jìn)行描述:XML文檔中會包含一個名為“Project ”的根元素,“Project”元素下包含“Extract”、“Transform”、“Load”和“Log”四個子元素,這四個元素標(biāo)簽分別對應(yīng)于ETL project的數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載和日志四個系統(tǒng)模塊。

        每個ETL數(shù)據(jù)處理工程的基本XML文檔格式如圖1所示。

        其中高校ETL數(shù)據(jù)處理規(guī)范的開發(fā)規(guī)范是指數(shù)據(jù)處理過程在開發(fā)過程中所遵循的章程和約束。開發(fā)規(guī)范包括命名規(guī)范、功能定義規(guī)范和結(jié)構(gòu)規(guī)范,由于ETL技術(shù)平臺的支撐,用戶在圖形界面下可視化搭建數(shù)據(jù)處理作業(yè),技術(shù)平臺能夠自動生成開發(fā)規(guī)范文檔,從而省去了大量工作。維護(hù)規(guī)范是指數(shù)據(jù)作業(yè)提交并執(zhí)行后,系統(tǒng)所產(chǎn)生的日志、報告以及其他相關(guān)技術(shù)文檔。數(shù)據(jù)作業(yè)的維護(hù)文檔也同樣由技術(shù)平臺自動生成。ETL數(shù)據(jù)處理過程的規(guī)范化,為數(shù)據(jù)處理作業(yè)代碼可讀、維護(hù)和可復(fù)用提供了必要保證。

        四、高校ETL數(shù)據(jù)處理信息平臺的建設(shè)

        ETL數(shù)據(jù)處理技術(shù)平臺能夠為高校用戶實現(xiàn)輕量級數(shù)據(jù)傳輸和數(shù)據(jù)交換,可以幫助校方將數(shù)據(jù)從一個系統(tǒng)按照一定的業(yè)務(wù)規(guī)則準(zhǔn)確無誤地轉(zhuǎn)換到其他業(yè)務(wù)系統(tǒng)或報表中。數(shù)據(jù)處理技術(shù)平臺提供基于Web架構(gòu)的可視化數(shù)據(jù)操作頁面,允許用戶通過拖拽數(shù)據(jù)處理元件完成數(shù)據(jù)的抽取、轉(zhuǎn)換、清洗、加載等工作任務(wù);同時,嚴(yán)格的事務(wù)控制策略和數(shù)據(jù)工作流引擎能夠保證數(shù)據(jù)的安全性和可靠性。ETL數(shù)據(jù)技術(shù)處理平臺自身具有數(shù)據(jù)處理技術(shù)平臺的多層體系架構(gòu)的特性,如圖2所示。

        第一層是ETL數(shù)據(jù)處理組件庫。組件庫包括數(shù)據(jù)連接池組件、數(shù)據(jù)清洗規(guī)則庫組件、數(shù)據(jù)轉(zhuǎn)換規(guī)則庫組件及數(shù)據(jù)加載池組件。其中數(shù)據(jù)連接池和數(shù)據(jù)加載池組件能分別實現(xiàn)Access、CSV、Excel、Oracle 、MySQL等多種類數(shù)據(jù)庫、數(shù)據(jù)文件導(dǎo)入與導(dǎo)出;數(shù)據(jù)轉(zhuǎn)換組件能實現(xiàn)SQL解析、XSL轉(zhuǎn)換、值映射、排序等數(shù)據(jù)轉(zhuǎn)換操作,并允許用戶根據(jù)需求自定義擴(kuò)充轉(zhuǎn)換規(guī)則;數(shù)據(jù)清洗組件可實現(xiàn)數(shù)據(jù)排序合并、記錄關(guān)聯(lián)、連接、分組、采樣等記錄集操作,也可實現(xiàn)字符串替換、校驗、補(bǔ)全拆分等數(shù)據(jù)字段級操作,并允許用戶根據(jù)需求自定義擴(kuò)充數(shù)據(jù)清洗規(guī)則。

        第二層是ETL數(shù)據(jù)任務(wù)執(zhí)行引擎。該層根據(jù)用戶提交的數(shù)據(jù)處理作業(yè)進(jìn)行解析并執(zhí)行;服務(wù)器根據(jù)數(shù)據(jù)作業(yè)任務(wù)量與當(dāng)前可用資源自動均衡計算負(fù)載,保證多個數(shù)據(jù)作業(yè)能并發(fā)執(zhí)行。

        第三層是ETL數(shù)據(jù)作業(yè)編輯。該層提供計算機(jī)數(shù)據(jù)處理的可視化編輯與設(shè)計界面,用戶通過簡單拖拽操作就可把底層ETL數(shù)據(jù)處理組件裝配成完整的數(shù)據(jù)處理作業(yè)并保存,用戶無須掌握編程技術(shù)即可完成數(shù)據(jù)作業(yè)開發(fā)與維護(hù)。

        第四層是ETL 作業(yè)調(diào)度及監(jiān)控。ETL數(shù)據(jù)任務(wù)執(zhí)行引擎將并行過程中數(shù)據(jù)作業(yè)的執(zhí)行情況反饋至ETL作業(yè)調(diào)度及監(jiān)控層中,系統(tǒng)管理員可以根據(jù)實際需求對多處并發(fā)執(zhí)行的多個數(shù)據(jù)作業(yè)進(jìn)行資源分配,也可以對執(zhí)行中的數(shù)據(jù)作業(yè)進(jìn)行暫停、恢復(fù)和中斷操作。

        五、高校ETL用戶角色崗位分工

        高校ETL數(shù)據(jù)處理工作主要來自于高校數(shù)據(jù)報表、內(nèi)部業(yè)務(wù)部門的數(shù)據(jù)流轉(zhuǎn)及業(yè)務(wù)系統(tǒng)的數(shù)據(jù)集成。高校從事計算機(jī)數(shù)據(jù)處理工作的人員按類別可大致分為報表填報人員、業(yè)務(wù)部門的數(shù)據(jù)流傳處理人員、負(fù)責(zé)信息系統(tǒng)集成的校方技術(shù)人員及學(xué)校信息中心的平臺維護(hù)技術(shù)人員等。為了能夠優(yōu)化人力資源,避免重復(fù)性勞動,要在學(xué)校數(shù)據(jù)治理層面上對ETL數(shù)據(jù)處理用戶角色及崗位進(jìn)行整合優(yōu)化,圖3是高校ETL數(shù)據(jù)處理人員角色責(zé)任分工矩陣。

        高校ETL數(shù)據(jù)處理具有跨部門、跨專業(yè)的工作特性,高校ETL數(shù)據(jù)處理工作人員角色責(zé)任分工矩陣的建立,有利于ETL數(shù)據(jù)處理工作的任務(wù)分解和責(zé)任界定;角色責(zé)任分工矩陣的創(chuàng)建,能夠幫助高校梳理ETL工作任務(wù)的性質(zhì)和特點(diǎn),能夠更有效地分解工作任務(wù);高校各部門也可按照責(zé)任矩陣中的角色認(rèn)領(lǐng)工作任務(wù),將工作落地實施;同時,高校也可按照ETL數(shù)據(jù)處理人員角色責(zé)任分工矩陣對責(zé)任部門設(shè)定可度量的績效考核目標(biāo),進(jìn)行考核評價;通過對高校ETL用戶角色崗位的合理分工與整合,各單位在各個工作環(huán)節(jié)之間銜接得更加緊密、高效和順暢。

        六、結(jié)束語

        基于全校總體數(shù)據(jù)治理設(shè)計框架的全局ETL數(shù)據(jù)整合方案,能夠?qū)⒁酝咝?nèi)部各部門分散的數(shù)據(jù)處理工作整合起來,將凌亂無序的數(shù)據(jù)處理技術(shù)方法通過ETL數(shù)據(jù)處理技術(shù)平臺統(tǒng)一起來;此外,ETL數(shù)據(jù)整合方案確定了數(shù)據(jù)處理從業(yè)人員的角色分工,讓全校數(shù)據(jù)處理工作人員都能人盡其職、人盡其能,充分挖掘調(diào)動智力資源,避免了人力浪費(fèi);基于校標(biāo)的ETL數(shù)據(jù)處理技術(shù)規(guī)范保證了每一份處理作業(yè)的質(zhì)量和時效性。規(guī)范化標(biāo)準(zhǔn)化的數(shù)據(jù)處理作業(yè)具備可維護(hù)性、可移植性、可復(fù)用性,能夠大大減少基層數(shù)據(jù)處理人員的重復(fù)性勞動,能夠大幅提升高校的數(shù)據(jù)質(zhì)量和信息服務(wù)水平。

        參考文獻(xiàn):

        [1]王卓昊,楊冬菊,徐晨陽.基于ISE算法的分布式ETL任務(wù)調(diào)度策略研究[J].計算機(jī)科學(xué),2019(12):1-7.

        [2]趙志.教育大數(shù)據(jù)統(tǒng)計分析平臺設(shè)計與研究[D]. 西安:西安理工大學(xué),2019.

        [3]王夢潔.基于ETL的數(shù)據(jù)集成平臺的設(shè)計與實現(xiàn)[D].西安:西安電子科技大學(xué),2019.

        [4]范江波.基于Oracle ESB建設(shè)校園服務(wù)體系的實踐與探索[J].中國教育信息化,2016(19):57-60.

        [5]潘彬.改進(jìn)的ETL框架及其數(shù)據(jù)清洗方法研究[D].南充:西華大學(xué),2019.

        [6]周宇.基于模型轉(zhuǎn)換的ETL代碼生成方法研究及應(yīng)用[D].重慶:重慶郵電大學(xué),2018.

        [7]周春紅.ETL在BI項目中的設(shè)計與實現(xiàn)[D].上海:東華大學(xué),2016.

        [8]姚志鵬.數(shù)據(jù)抽取、轉(zhuǎn)換、加載描述規(guī)范的研究與應(yīng)用[D].青島:青島大學(xué),2013.

        (編輯:王天鵬)

        猜你喜歡
        數(shù)據(jù)治理數(shù)據(jù)處理
        認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計法*
        ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
        基于本體的企業(yè)運(yùn)營數(shù)據(jù)治理
        云端數(shù)據(jù)治理初探
        運(yùn)用流程化手段提升資產(chǎn)管理水平
        大數(shù)據(jù)治理模型與治理成熟度評估研究
        MATLAB在化學(xué)工程與工藝實驗數(shù)據(jù)處理中的應(yīng)用
        大數(shù)據(jù)時代城市治理:數(shù)據(jù)異化與數(shù)據(jù)治理
        Matlab在密立根油滴實驗數(shù)據(jù)處理中的應(yīng)用
        基于POS AV610與PPP的車輛導(dǎo)航數(shù)據(jù)處理
        一本大道久久香蕉成人网| 国产一区二区黄色网页| 亚洲成av人片不卡无码| 在线不卡av片免费观看| 人妻在线中文字幕| 日韩精品高清不卡一区二区三区| 美女很黄很色国产av| 无码少妇一区二区性色av | 又粗又大又硬毛片免费看| 精品久久久久久久中文字幕| 国产亚洲精品性爱视频| 久久综合激情的五月天| 日日摸天天摸97狠狠婷婷| 色偷偷一区二区无码视频| 被暴雨淋湿爆乳少妇正在播放| 精品久久一品二品三品| 国产丝袜美女一区二区三区| 老太脱裤让老头玩ⅹxxxx| 白白视频在线免费观看| 日本视频在线观看二区| 国产又色又爽又黄刺激在线视频| 欧美一级欧美一级在线播放| 精品视频一区二区杨幂| 日本一区二区三区视频网站| 极品美女aⅴ在线观看| 久久精品国产亚洲一区二区| 日本韩国三级在线观看| 国内揄拍国内精品少妇| 四虎影永久在线观看精品| 免费毛片一区二区三区女同 | 在线免费午夜视频一区二区| 亚洲国产精品18久久久久久| 日韩插啊免费视频在线观看| 亚洲精品国产不卡在线观看| 国产一区二区免费在线视频| 亚洲av无码专区亚洲av伊甸园 | 777米奇色8888狠狠俺去啦| 99久久久久国产| 日本在线观看一区二区三区视频| 人妻av中文字幕久久| 丰满人妻无奈张开双腿av|