亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于KETTLE的高校多源異構(gòu)數(shù)據(jù)集成研究及實(shí)踐

        2015-12-15 07:47:00劉充
        電子設(shè)計(jì)工程 2015年10期
        關(guān)鍵詞:數(shù)據(jù)倉庫數(shù)據(jù)源異構(gòu)

        劉充

        (南京中醫(yī)藥大學(xué) 信息技術(shù)學(xué)院,江蘇 南京 210023)

        基于KETTLE的高校多源異構(gòu)數(shù)據(jù)集成研究及實(shí)踐

        劉充

        (南京中醫(yī)藥大學(xué) 信息技術(shù)學(xué)院,江蘇 南京 210023)

        解決數(shù)字化校園建設(shè)中的多源異構(gòu)數(shù)據(jù)集成問題。利用開源ETL工具KETTLE,對(duì)學(xué)生考試信息與上網(wǎng)信息的抽取、轉(zhuǎn)換和加載。ETL模型自動(dòng)生成了以上網(wǎng)行為事實(shí)表為中心表,以學(xué)生信息、上網(wǎng)信息、時(shí)間3個(gè)維度表的數(shù)據(jù)倉庫。利用KETTLE能夠快速實(shí)現(xiàn)高校多源異構(gòu)數(shù)據(jù)集成,形成高質(zhì)量的分析型數(shù)據(jù),為決策支持服務(wù)。

        數(shù)字化校園;異構(gòu)數(shù)據(jù);數(shù)據(jù)集成;KETTLE;ETL

        數(shù)字化校園是以網(wǎng)絡(luò)技術(shù)為基礎(chǔ),利用信息技術(shù)實(shí)現(xiàn)對(duì)教學(xué)、科研、管理、生活服務(wù)等信息的收集、處理、整合、存儲(chǔ)、傳輸和應(yīng)用,使數(shù)字資源得到充分優(yōu)化利用的一種虛擬教育環(huán)境[1]。然而,由于高校信息化建設(shè)尚未形成統(tǒng)一的標(biāo)準(zhǔn),不同廠商的系統(tǒng)互不兼容,不同系統(tǒng)之間無法互聯(lián)互通和數(shù)據(jù)共享,形成一個(gè)個(gè)“信息孤島”,直接影響學(xué)校的日常管理。如何將這些“信息孤島”連通起來,實(shí)現(xiàn)高效多源異構(gòu)數(shù)據(jù)集成和共享是數(shù)字化校園建設(shè)的一個(gè)關(guān)鍵問題。

        數(shù)據(jù)抽取、轉(zhuǎn)換和裝載(Extraction,Transformation, Loading,ETL)是實(shí)現(xiàn)異構(gòu)數(shù)據(jù)集成的有效方法[2]。在ETL過程中,數(shù)據(jù)抽取可看作是數(shù)據(jù)的輸入過程,即從多個(gè)數(shù)據(jù)源中將數(shù)據(jù)抽取到統(tǒng)一的數(shù)據(jù)存儲(chǔ)中;數(shù)據(jù)轉(zhuǎn)換主要解決數(shù)據(jù)質(zhì)量問題,通過數(shù)據(jù)清洗策略檢測出海量數(shù)據(jù)中存在的數(shù)據(jù)冗余、錯(cuò)誤及缺失并加以改正,然后使用用戶定義的轉(zhuǎn)換規(guī)則對(duì)數(shù)據(jù)進(jìn)行合并、轉(zhuǎn)換等操作,使得數(shù)據(jù)正確、一致和完整;數(shù)據(jù)裝載可看作是數(shù)據(jù)的輸出過程,即將處理后的數(shù)據(jù)從統(tǒng)一的數(shù)據(jù)存儲(chǔ)裝載到目標(biāo)數(shù)據(jù)倉庫中[3]。

        目前,越來越多廠商致力于ETL工具的研發(fā),如Oracle的Oracle Warehouse Builder(OWB)、Microsoft的Data Transformation Services(DTS)、IBM的Data Stage等,而較常用的開源ETL工具有KETTLE、Talend、Octopus等。本文采用開源ETL工具KETTLE,在分析KETTLE ETL特點(diǎn)的基礎(chǔ)上,嘗試構(gòu)建高效多源異構(gòu)數(shù)據(jù)ETL解決方案,實(shí)現(xiàn)異構(gòu)數(shù)據(jù)共享。

        1 KETTLE ETL簡介

        KETTLE是一款用Java編寫的開源ETL工具,其數(shù)據(jù)集成主要由轉(zhuǎn)換(Transformation)和作業(yè)(Job)兩部分完成,其中“轉(zhuǎn)換”由一系列步驟所組成的邏輯工作網(wǎng)絡(luò),每一個(gè)步驟表示對(duì)一個(gè)或多個(gè)數(shù)據(jù)流進(jìn)行特定的轉(zhuǎn)換操作;而“作業(yè)”基于工作流模型,協(xié)調(diào)數(shù)據(jù)源、執(zhí)行過程和相關(guān)依賴性的ETL活動(dòng),其將功能性和實(shí)體過程聚合起來,完成對(duì)整個(gè)工作流的控制。ETL活動(dòng)是一個(gè)四元組A=(ID,I,O,S),ID是活動(dòng)標(biāo)示符,I是輸入模式的集合,O是輸出模式的集合,S是一個(gè)或多個(gè)擴(kuò)展的關(guān)系代數(shù)表達(dá)式,表示每個(gè)輸出模式的語義[4-5]。KETTLE的ETL活動(dòng)可視為一個(gè)有向無環(huán)圖(DAG圖),圖的節(jié)點(diǎn)對(duì)應(yīng)于一個(gè)個(gè)作業(yè)或轉(zhuǎn)換步驟(Step),邊代表數(shù)據(jù)供給關(guān)系對(duì)應(yīng)于數(shù)據(jù)流節(jié)點(diǎn)連接(Hop)。KETTLE ETL的概念模型如圖1所示。

        圖1 KETTLE ETL的概念模型Fig.1 KETTLE ETL conceptual model

        2 高校多源異構(gòu)數(shù)據(jù)集成

        高校不同信息系統(tǒng)的數(shù)據(jù)存儲(chǔ)形式多樣,如關(guān)系型數(shù)據(jù)庫,電子表格、XML文件、文本文件等。KETTLE通過配置關(guān)系型數(shù)據(jù)庫的連接信息以及獲取半結(jié)構(gòu)化、非機(jī)構(gòu)化的文本文件、電子表格等文件的路徑實(shí)現(xiàn)對(duì)數(shù)據(jù)源的訪問。下面以教務(wù)管理系統(tǒng)中的學(xué)生考試信息和上網(wǎng)信息的ETL為例進(jìn)行說明。

        2.1 數(shù)據(jù)源連接

        學(xué)生考試信息存儲(chǔ)于SQL Server 2008數(shù)據(jù)庫中,上網(wǎng)信息包括上網(wǎng)賬號(hào)信息(存儲(chǔ)于MySql數(shù)據(jù)庫中)及網(wǎng)絡(luò)訪問日志存儲(chǔ)于txt文本中。KETTLE提供了JDBC標(biāo)準(zhǔn)接口訪問關(guān)系型數(shù)據(jù)庫。本案例中,通過配置數(shù)據(jù)庫訪問XML文件實(shí)現(xiàn)SQL Server 2008、MySql的連接。而在處理于文本文件時(shí),KETTLE將目錄信息轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù)表示,轉(zhuǎn)換的數(shù)據(jù)包含文件名、目錄存儲(chǔ)路徑、大小、文件內(nèi)容等列信息,轉(zhuǎn)換成功的結(jié)構(gòu)化數(shù)據(jù)處理與操作關(guān)系型數(shù)據(jù)庫相似。數(shù)據(jù)庫訪問XML文件如下:

        2.2 作業(yè)及轉(zhuǎn)換流程設(shè)計(jì)

        利用KETTLE成功連接3個(gè)數(shù)據(jù)源后,設(shè)計(jì)作業(yè)流程及轉(zhuǎn)換流程,其中作業(yè)流程是對(duì)ETL過程的整體規(guī)劃,協(xié)調(diào)執(zhí)行過程和相關(guān)依賴性的ETL活動(dòng);轉(zhuǎn)換流程負(fù)責(zé)具體實(shí)施對(duì)源數(shù)據(jù)與目標(biāo)數(shù)據(jù)的映射關(guān)系操作,經(jīng)過排序、去除重復(fù)數(shù)據(jù)等轉(zhuǎn)換操作,最終將數(shù)據(jù)加載至相應(yīng)的維度表與事實(shí)表中。

        2.2.1 定義作業(yè)流程

        本例的作業(yè)流程中包括日期維度、學(xué)生信息維度、上網(wǎng)信息維度及上網(wǎng)行為事實(shí)4個(gè)部分(見圖2)。每個(gè)維度定義了具體的轉(zhuǎn)換流程,負(fù)責(zé)形成相應(yīng)的維度表,而上網(wǎng)行為事實(shí)的轉(zhuǎn)換流程負(fù)責(zé)產(chǎn)生對(duì)應(yīng)的事實(shí)表。通過作業(yè)流程與轉(zhuǎn)換流程的協(xié)同工作,最終形成星型模式的數(shù)據(jù)倉庫,即由一個(gè)大的包含大批數(shù)據(jù)并且不冗余信息的中心表(事實(shí)表)和一組小的附屬表(維度表)構(gòu)成,事實(shí)表和維度表通過各維度表的關(guān)鍵字連接在一起[6]。

        圖2 作業(yè)流程Fig.2 Job process

        2.2.2 定義轉(zhuǎn)換流程

        1)日期維度

        日期維度幾乎是每個(gè)數(shù)據(jù)倉庫都必須提供的一個(gè)維度,因?yàn)槊總€(gè)數(shù)據(jù)倉庫都是時(shí)間系列的。事實(shí)上,日期通常是數(shù)據(jù)庫進(jìn)行潛在分類排序的首選維度,這樣做的目的是,使按時(shí)間間隔連續(xù)加載的數(shù)據(jù)能夠順次存放到磁盤上的空白存儲(chǔ)區(qū)中[7]。日期維度的轉(zhuǎn)換流程如圖3所示。

        圖3 日期維度的轉(zhuǎn)換流程Fig.3 The converting process of time dimension

        2)學(xué)生信息維度

        教務(wù)管理系統(tǒng)中學(xué)生信息存儲(chǔ)于多張二維表中,包括院系表、專業(yè)表、班級(jí)表、學(xué)生表、選課表、成績表等,通過KETTLE從多張表中選擇需要的字段,形成學(xué)生信息維度表(如圖4所示)。

        圖4 學(xué)生信息維度的轉(zhuǎn)換流程Fig.4 The converting process of students’information dimension

        3)上網(wǎng)信息維度

        上網(wǎng)日志記錄了用戶IP、訪問地址、訪問時(shí)間、信息流量等,而上網(wǎng)信息包括學(xué)號(hào)、分配IP、網(wǎng)絡(luò)連接開始時(shí)間、結(jié)束時(shí)間和上網(wǎng)費(fèi)用等。上述異構(gòu)數(shù)據(jù)通過IP和時(shí)間進(jìn)行映射,因?yàn)樵O(shè)計(jì)一個(gè)轉(zhuǎn)換流程將上述數(shù)據(jù)合并,形成上網(wǎng)信息維度表(如圖5所示)。由于上網(wǎng)日志中存在異常記錄(數(shù)據(jù)丟失、亂碼等),因而設(shè)置專門的過濾策略對(duì)源數(shù)據(jù)進(jìn)行清洗。

        4)上網(wǎng)行為事實(shí)

        從時(shí)間維度表、學(xué)生信息維度表及上網(wǎng)信息維度表中抽取主鍵信息,形成上網(wǎng)行為事實(shí)表(如圖6所示)。

        2.3 數(shù)據(jù)倉庫

        當(dāng)運(yùn)行上述作業(yè)及轉(zhuǎn)換流程時(shí),KETTLE自動(dòng)完成對(duì)異構(gòu)數(shù)據(jù)源ETL操作,建立二維表并插入數(shù)據(jù)。本例中自動(dòng)生成了以上網(wǎng)行為事實(shí)表為中心表,以3個(gè)維度表為附屬表的數(shù)據(jù)倉庫(如圖7所示)。

        3 結(jié)束語

        隨著數(shù)字化校園建設(shè)進(jìn)程的加快,“信息煙囪”、“信息孤島”等問題越發(fā)嚴(yán)峻。為了解決數(shù)字化校園建設(shè)過程中的多源異構(gòu)數(shù)據(jù)集成問題,本文利用開源ETL工具KETTLE,建立了學(xué)生考試信息與上網(wǎng)信息的ETL模型,實(shí)現(xiàn)了異構(gòu)數(shù)據(jù)的整合,為系統(tǒng)間的數(shù)據(jù)共享,乃至后續(xù)的數(shù)據(jù)分析挖掘(如學(xué)生考試成績與上網(wǎng)行為的相關(guān)性)提供了數(shù)據(jù)準(zhǔn)備。在高校信息化建設(shè)過程中,可以嘗試應(yīng)用各類ETL工具,解決不同系統(tǒng)之間的數(shù)據(jù)共享、數(shù)據(jù)集成等問題,從而提高數(shù)字化校園的建設(shè)效率,減低建設(shè)成本。

        圖5 上網(wǎng)信息維度的轉(zhuǎn)換流程Fig.5 The converting process of network access information dimension

        圖6 上網(wǎng)行為事實(shí)的轉(zhuǎn)換流程Fig.6 The converting process of network access behavior

        圖7 星型數(shù)據(jù)結(jié)構(gòu)圖Fig.7 Star-topology of data structure

        [1]王秀娟.高校異構(gòu)數(shù)據(jù)集成模式技術(shù)研究 [J].科技信息:學(xué)術(shù)研究,2007(8):175-176.WANG Xiu-jun.Research on campus heterogeneous data integration technology[J].Technology Information:Academic Research,2007(8):175-176.

        [2]徐俊剛,裴瑩.數(shù)據(jù)ETL研究綜述[J].計(jì)算機(jī)科學(xué),2011,38 (4):15-20.XU Jun-gang,PEI Ying.Overview of data extraction transformation and loading[J].Computer science,2011,38(4):15-20.

        [3]郭志懋,周傲英.數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述 [J].軟件學(xué)報(bào),2002,13(11):2076-2082.GUO Zhi-mao,ZHOU Ao-ying.Review of data quality and data cleansing[J].Journal of Software,2002,13(11):2076-2082.

        [4]吳遠(yuǎn)紅.ETL執(zhí)行過程的優(yōu)化研究[J].計(jì)算機(jī)科學(xué), 2007,34(1):81-83.WU Yuan-hong.The research of optimizing ETL execution process[J].Computer Science,2007,34(1):81-83.

        [5]崔有文,周金海.基于Pentaho的中藥飲片企業(yè)商業(yè)智能研究[J].電子設(shè)計(jì)工程,2014,22(7):12-15.CUI You-wen,ZHOU Jin-hai.Research on Chinese medicine enterprise business intelligence based on Pentaho[J].Electronic Design Engineering,2014,22(7):12-15.

        [6]王麗珍,周麗華,陳紅梅.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理及應(yīng)用[M].北京:科學(xué)出版社,2009.

        [7]Ralph Kimball,Margy Ross.The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling[M].John Wiley&Sons INC;3rd Revised edition,2013.

        Research on integration of college multi-source heterogeneous data

        LIU Chong
        (Institute of Information and Technology,Nanjing University of Chinese Medicine,Nanjing 210023,China)

        To solve the integration of college multi-source heterogeneous data.Using the open-source tool,KETTLE,to extract, transfer and load data from the exam system and the network management system.The data warehouse was built,which was consisted of a fact table and three dimension tables including students’information,network information and time table.In this research,we found that multi-source heterogeneous data could be integrated efficiently,and analytical data was prepared for decision support further.

        digital campus;heterogeneous data;data integration;KETTLE;ETL

        TN919

        A

        1674-6236(2015)10-0024-03

        2014-11-11 稿件編號(hào):201411066

        劉 充(1990—),男,江蘇南京人,碩士研究生。研究方向:數(shù)字化校園。

        猜你喜歡
        數(shù)據(jù)倉庫數(shù)據(jù)源異構(gòu)
        試論同課異構(gòu)之“同”與“異”
        基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
        Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
        基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
        分布式存儲(chǔ)系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計(jì)
        電子制作(2016年15期)2017-01-15 13:39:15
        探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
        overlay SDN實(shí)現(xiàn)異構(gòu)兼容的關(guān)鍵技術(shù)
        LTE異構(gòu)網(wǎng)技術(shù)與組網(wǎng)研究
        基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實(shí)踐
        基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
        精品国产免费久久久久久| 艳妇臀荡乳欲伦交换h在线观看| 国产成人精品久久综合| 狠干狠爱无码区| 日韩精品中文字幕综合| 久久频这里精品99香蕉| 在线毛片一区二区不卡视频| 高清成人在线视频播放| 国产av一区二区三区性入口| 国产高跟黑色丝袜在线| 精品一区二区三区在线观看视频 | 亚洲av永久无码精品一福利| 亚洲欧美成人一区二区在线电影| 欧美在线观看一区二区| 国产天堂av手机在线| 男女视频在线观看一区二区| 综合国产婷婷精品久久99之一| 亚洲日韩一区精品射精| 亚洲自拍另类制服在线| 中文字幕日韩熟女av| 精品在线观看一区二区视频| 亚洲精品tv久久久久久久久久| 亚洲国产理论片在线播放| 无码高潮少妇毛多水多水免费| 国产精品久久婷婷免费观看| 强开少妇嫩苞又嫩又紧九色| 最近中文字幕完整版| 欧洲国产精品无码专区影院| 国产另类人妖在线观看| 一本久久综合亚洲鲁鲁五月天| 免费无码又爽又刺激网站| 无码人妻丝袜在线视频| 日本三区在线观看视频| 真实的国产乱xxxx在线| 亚洲中文有码字幕青青| 中文字幕一区二区三区人妻精品| 国产自拍三级黄片视频| 色综合久久久久综合体桃花网| 欧美人与动牲猛交xxxxbbbb | 四虎影视免费永久在线观看| 精品国产AⅤ无码一区二区|