亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ELT技術(shù)的數(shù)據(jù)倉庫系統(tǒng)建立的研究

        2010-08-23 04:46:42馮春輝
        制造業(yè)自動化 2010年10期
        關(guān)鍵詞:數(shù)據(jù)倉庫數(shù)據(jù)源數(shù)據(jù)庫

        馮春輝

        FENG Chun-hui

        (河北邢臺學(xué)院 ,邢臺 054001)

        0 引言

        近年來,數(shù)據(jù)倉庫領(lǐng)域的分析和研究成為學(xué)者關(guān)注的重點和熱點之一,那么如何建立數(shù)據(jù)倉庫也成為一個重要的問題。由于數(shù)據(jù)倉庫中的數(shù)據(jù)來源的多樣化和異構(gòu)化,在數(shù)據(jù)倉庫入庫之前往往需要做大量的數(shù)據(jù)預(yù)處理工作。而這部分工作在數(shù)據(jù)倉庫建立的整個過程中所占的比例又比較大,因此顯得格外重要。另外,數(shù)據(jù)預(yù)處理工作的好壞直接影響后期的數(shù)據(jù)分析工作,如OLAP分析,數(shù)據(jù)挖掘等。低質(zhì)量的數(shù)據(jù)可能導(dǎo)致不夠準(zhǔn)確的分析結(jié)果甚至是錯誤的結(jié)果。因此,數(shù)據(jù)倉庫的入庫數(shù)據(jù)的預(yù)處理工作得到了越來越多的重視。

        ETL正是為了解決數(shù)據(jù)預(yù)處理問題而提出來的。ETL是Extraction-Transformation-Loading的縮寫,即數(shù)據(jù)抽取、轉(zhuǎn)換、裝載的過程[1],ETL為建立數(shù)據(jù)倉庫提供可靠的高質(zhì)量的數(shù)據(jù)。

        1 ETL原理

        1.1 ETL在數(shù)據(jù)倉庫中的作用

        數(shù)據(jù)倉庫作為一個獨立的數(shù)據(jù)環(huán)境,需要將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理環(huán)境、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲介質(zhì)導(dǎo)入到數(shù)據(jù)倉庫中[2]。待轉(zhuǎn)移的數(shù)據(jù)不僅僅是同構(gòu)的,更多的情況是異構(gòu)的,數(shù)據(jù)的異質(zhì)性包括以下幾個方面:

        1)系統(tǒng)級的不一致性,主要指采用的操作系統(tǒng)或者數(shù)據(jù)庫系統(tǒng)不同,體現(xiàn)在本課題中,所建立的電廠機(jī)組綜合評優(yōu)系統(tǒng)采用的是Oracle數(shù)據(jù)庫,而各大電廠的業(yè)務(wù)系統(tǒng)有的采用Oracle、SQL Server等關(guān)系型數(shù)據(jù)庫,有的僅使用了簡單的Access、Foxprol等文件型數(shù)據(jù)庫;

        2)數(shù)據(jù)結(jié)構(gòu)層次的不一致性,即語法級和結(jié)構(gòu)級差異,指數(shù)據(jù)對象的命名、數(shù)據(jù)類型、數(shù)據(jù)格式上的差異以及各數(shù)據(jù)源的結(jié)構(gòu)約束方面的沖突、接口和模式上的不同等;

        3)語義表達(dá)方面的不一致性,對同一對象的描述采用不同的編碼或規(guī)范,或同一個編碼在不同的系統(tǒng)中表述的物理對象不同等。

        這些數(shù)據(jù)的異質(zhì)性構(gòu)成了復(fù)雜的數(shù)據(jù)環(huán)境,給數(shù)據(jù)倉庫的建立帶來一定的難度。ETL過程就是要消除數(shù)據(jù)源的這些異構(gòu)性,將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時中間層進(jìn)行清洗、轉(zhuǎn)換、集成,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中,數(shù)據(jù)倉庫平臺建立之后,即可在此基礎(chǔ)上進(jìn)行聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘等數(shù)據(jù)分析操作。因此ETL不僅是數(shù)據(jù)倉庫建立過程中極其重要的一部分,也是一個極其復(fù)雜的工作。在數(shù)據(jù)倉庫項目中,ETL會占其整個項目開發(fā)時間的60%-70%,為后期的OLAP、數(shù)據(jù)挖掘、決策分析等提供足夠的支持。

        1.2 ETL的本質(zhì)過程

        宏觀上,ETL可以被視為一整套數(shù)據(jù)整合的解決方案。具體來講也可看成數(shù)據(jù)導(dǎo)入導(dǎo)出的工具,圖1為ETL體系結(jié)構(gòu)圖。

        圖1 體系結(jié)構(gòu)圖

        由于數(shù)據(jù)源和項目目標(biāo)可能有所不同,有時一款軟件的幾個功能就可完成任務(wù),有時則需要多款軟件。數(shù)據(jù)倉庫需要的數(shù)據(jù)不是一次性就可以導(dǎo)入完成的,這是反復(fù)操作的活動,一般按照固定周期運行的。下面介紹ETL的本質(zhì)過程。

        1.2.1 數(shù)據(jù)抽取

        數(shù)據(jù)抽取即中的ETL中的E(Extraction)。抽取主要是針對分布式的事物數(shù)據(jù)庫,在比較清楚的理解數(shù)據(jù)含義后,規(guī)劃所需要的數(shù)據(jù)源,制定可操作的數(shù)據(jù)源讀取規(guī)則及增量抽取的原則,并進(jìn)行向指定目的地的導(dǎo)出工作。源數(shù)據(jù)一般以分布式的方式進(jìn)行存儲,而且類型多樣化,可能是一個關(guān)系型數(shù)據(jù)庫,可能是一個文本文件,Excel文件或DBF文件,也可能是其他類型文件,我們可以采取應(yīng)用 ODBC,JDBC或FTP等標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)文件的連接。常用的數(shù)據(jù)抽取一般采取以下幾種方法:

        1)數(shù)據(jù)倉庫的數(shù)據(jù)庫系統(tǒng)與源數(shù)據(jù)庫系統(tǒng)的類型一致。一般來說,這種情況下設(shè)計比較容易,DBMS都會提供數(shù)據(jù)庫鏈接功能,在數(shù)據(jù)倉庫一側(cè)的數(shù)據(jù)庫服務(wù)器和原業(yè)務(wù)系統(tǒng)之間建立直接的鏈接關(guān)系就可以通過寫查詢語句直接訪問。

        2)數(shù)據(jù)倉庫的數(shù)據(jù)庫系統(tǒng)與源數(shù)據(jù)庫系統(tǒng)的類型不一致。這種情況下也可以通過ODBC的方式建立數(shù)據(jù)庫連接,如果不能建立數(shù)據(jù)庫連接,可以有兩種方式完成:一種是將源數(shù)據(jù)通過工具導(dǎo)出成.txt或者是.xls文件,然后再將這些源系統(tǒng)文件導(dǎo)入到目標(biāo)中。另一種方法則通過自己動手編寫程序接口的方式來完成。

        3)文件類型源數(shù)據(jù)。例如.txt,.xls文件,可以培訓(xùn)業(yè)務(wù)人員利用數(shù)據(jù)庫工具將這些數(shù)據(jù)導(dǎo)入到指定的數(shù)據(jù)庫,然后從指定的數(shù)據(jù)庫抽取,或者可以借助提供的工具實現(xiàn)。

        4)數(shù)據(jù)量大的系統(tǒng)。這種情況下,必須考慮增量抽取,我們可以用業(yè)務(wù)系統(tǒng)記錄業(yè)務(wù)發(fā)生的時間來作為增量的標(biāo)志,每次抽取之前首先判斷記錄最大的時間,然后根據(jù)這個時間去業(yè)務(wù)系統(tǒng)取大于這個時間所有的記錄。

        1.2.2 數(shù)據(jù)轉(zhuǎn)換

        數(shù)據(jù)轉(zhuǎn)換即ETL中的T(Transformation),是過程中最復(fù)雜的部分。其原因是數(shù)據(jù)轉(zhuǎn)換需要對各種不同的數(shù)據(jù)做出統(tǒng)一的標(biāo)準(zhǔn),即標(biāo)準(zhǔn)化即將入庫的數(shù)據(jù),因此,涉及的方法和技巧都比較多。它主要是針對數(shù)據(jù)倉庫建立的模型,通過一系列的轉(zhuǎn)換來實現(xiàn)將數(shù)據(jù)從業(yè)務(wù)模型到分析模型,依據(jù)內(nèi)建的庫函數(shù),自定義腳本或其他的擴(kuò)展方式,實現(xiàn)了各種復(fù)雜的轉(zhuǎn)換,并且支持調(diào)試環(huán)境,清楚的監(jiān)控數(shù)據(jù)轉(zhuǎn)換的狀態(tài)。數(shù)據(jù)轉(zhuǎn)換是真正將源數(shù)據(jù)變?yōu)槟繕?biāo)數(shù)據(jù)的關(guān)鍵環(huán)節(jié),它包括數(shù)據(jù)格式轉(zhuǎn)換,數(shù)據(jù)類型轉(zhuǎn)換,數(shù)據(jù)匯總計算,數(shù)據(jù)拼接等等。實際應(yīng)用中常見的轉(zhuǎn)換規(guī)則包括以下幾個類型:

        1)直接映射。這種類型是最簡單的類型,不需要轉(zhuǎn)換。那么唯一需要注意的地方在于兩側(cè)數(shù)據(jù)精度的問題要統(tǒng)一起來。

        2)字段運算。這種類型是對某些數(shù)值型字段進(jìn)行求和,求積等的運算。處理方法也比較簡單。

        3)參照轉(zhuǎn)換。這種類型類似于事物數(shù)據(jù)庫中通過主鍵進(jìn)行關(guān)聯(lián)查詢。我們通過這個“參照”以找到需要的字段里面的數(shù)據(jù),并且這個數(shù)據(jù)往往是唯一的。

        4)字符串處理。這種類型的數(shù)據(jù)有可能并非簡單的字符串,比如說身份證號往往在數(shù)據(jù)庫中存儲為字符串類型,因此對不同的字符串應(yīng)采取不同的轉(zhuǎn)換策略。

        5)空值判斷。有時候空值在數(shù)據(jù)庫中會出現(xiàn)意想不到的問題,因此對于可能有NULL值的字段,不要采用“直接映射”的規(guī)則類型,必須對空值進(jìn)行判斷,或者將它轉(zhuǎn)換成特定的值。

        6)日期轉(zhuǎn)換。這種類型不存在原則性問題,異構(gòu)數(shù)據(jù)源的日期數(shù)據(jù)格式可能不相同,在這里需要對不同的日期格式進(jìn)行統(tǒng)一。

        7)日期運算。后期進(jìn)行統(tǒng)計分析時往往需要對一周,一個月,一年甚至幾年的數(shù)據(jù)進(jìn)行分析,那么需要比較完整的日期運算函數(shù)。

        8)既定取值。數(shù)據(jù)倉庫中有些特定的字段是一些固定的取值,因此這個轉(zhuǎn)換規(guī)則需要工作人員手工確定下來,在數(shù)據(jù)轉(zhuǎn)換的時候正確的輸入。

        1.2.3 數(shù)據(jù)加載入庫

        作為ETL中的L(Loading),數(shù)據(jù)加載主要任務(wù)是將上述步驟處理過的高質(zhì)量數(shù)據(jù)載入數(shù)據(jù)倉庫中,即數(shù)據(jù)入庫。我們可以通過數(shù)據(jù)文件直接裝載的方式或直接連接數(shù)據(jù)庫的方式來進(jìn)行數(shù)據(jù)裝載。

        2 ETL在應(yīng)用中的改進(jìn)

        本文在對ETL分析和研究的基礎(chǔ)上,對傳統(tǒng)的ETL進(jìn)行了一些必要的改進(jìn),以使得ETL能夠更好的為創(chuàng)建數(shù)據(jù)倉庫服務(wù)。

        2.1 傳統(tǒng)的ETL

        傳統(tǒng)的ETL架構(gòu)中,從事物數(shù)據(jù)庫直接通過ETL連接到數(shù)據(jù)倉庫中,通過實現(xiàn)標(biāo)準(zhǔn)化的接口和統(tǒng)一的處理過程來完成ETL過程,傳統(tǒng)的ETL架構(gòu)圖如圖2所示。

        圖2 傳統(tǒng)ETL架構(gòu)圖

        這里需要對傳統(tǒng)的ETL架構(gòu)進(jìn)行說明,首先,若數(shù)據(jù)分析工作于數(shù)據(jù)抽取工作同時進(jìn)行,則可能出現(xiàn)數(shù)據(jù)抽取影響到數(shù)據(jù)分析工作的情況,也就是說數(shù)據(jù)抽取缺少一個中間的確定環(huán)節(jié),在抽取完成之前就進(jìn)行分析,則會影響分析結(jié)果。其次,在源數(shù)據(jù)庫數(shù)據(jù)不斷大量增加的情況下,由于數(shù)據(jù)倉庫的入口只有一個,勢必造成數(shù)據(jù)倉庫的處理負(fù)擔(dān)加重,可能導(dǎo)致不可預(yù)測的后果。因此,本文在傳統(tǒng)的ETL處理過程的基礎(chǔ)之上進(jìn)行了一定改進(jìn)來解決上述問題。

        2.2 改進(jìn)的ETL

        本文對傳統(tǒng)的ETL改進(jìn)的主要思想就是緩存。圖3顯示了改進(jìn)之后的ETL架構(gòu)圖:

        改進(jìn)之后的ETL處理過程包含以下優(yōu)點:

        1)采用交換節(jié)點進(jìn)行緩存可以避免出現(xiàn)數(shù)據(jù)分析和數(shù)據(jù)抽取相互影響的情況。

        圖3 改進(jìn)之后的ETL架構(gòu)圖

        2)當(dāng)源數(shù)據(jù)庫的數(shù)量和源數(shù)據(jù)庫中數(shù)據(jù)的數(shù)量大量增加的情況下,可以通過增加交換節(jié)點的辦法保證數(shù)據(jù)倉庫的性能不會受到較大的影響,其原因是交換節(jié)點對元數(shù)據(jù)已經(jīng)進(jìn)行了一次ETL處理,那么交換節(jié)點存儲的數(shù)據(jù)已經(jīng)大大的標(biāo)準(zhǔn)化,基本滿足數(shù)據(jù)倉庫中數(shù)據(jù)的要求,因此,當(dāng)從交換節(jié)點ETL交換到數(shù)據(jù)倉庫中的時候計算量就會大量減少,減輕數(shù)據(jù)倉庫負(fù)擔(dān)。

        3)加入交換節(jié)點之后,數(shù)據(jù)從事物數(shù)據(jù)庫載入數(shù)據(jù)倉庫需要經(jīng)過兩次ETL過程,這樣得到的更高質(zhì)量的數(shù)據(jù)。

        4)另外,采取了交換節(jié)點之后,我們可以對源數(shù)據(jù)庫以及數(shù)據(jù)倉庫分別進(jìn)行隔離,能夠保證數(shù)據(jù)的安全性。

        3 ETL的實現(xiàn)

        本文采用了數(shù)據(jù)倉庫的開發(fā)工具Oracle Warehouse Builder (OWB),OWB是Oracle公司推出的一個用于幫助企業(yè)構(gòu)建數(shù)據(jù)倉庫的集成工具[3],用于快速設(shè)計、部署和管理商務(wù)智能系統(tǒng)。OWB提供對ETL的完全集成和維度建模、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)審計,以及數(shù)據(jù)和元數(shù)據(jù)的整個生命周期的管理。在OWB中建立的映射如下圖4所示。

        圖4 數(shù)據(jù)裝載映射圖

        部署圖如圖5所示。

        圖5 部署結(jié)果圖

        部署完成之后,就可以運行映射,完成裝載,如圖6所示。

        4 結(jié)論

        本文在對ETL過程的分析和研究基礎(chǔ)上,針對ETL過程以及其不足,提出了一種改進(jìn)的ETL實現(xiàn)方法。該方法能夠創(chuàng)建可靠的高質(zhì)量的數(shù)據(jù)倉庫。盡管該方法在ETL處理思想上有所提高,但是在數(shù)據(jù)轉(zhuǎn)換等細(xì)節(jié)的實施過程中,仍然需要繼續(xù)研究,以建立更可靠,質(zhì)量更高的數(shù)據(jù)倉庫。

        圖6 映射執(zhí)行結(jié)果圖

        [1]王麗珍,周麗華,陳紅梅,等.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理及應(yīng)用[M].科學(xué)出版社,2005.

        [2]張寧,賈自艷,史忠植.數(shù)據(jù)倉庫中ETL技術(shù)的研究[J].計算機(jī)工程與應(yīng)用,2002,38(24).

        [3]岡薩雷斯,著.吳剛,董志國,譯. IBM數(shù)據(jù)倉庫及IBM商務(wù)智能工具[M].北京:電子工業(yè)出版社,2004.

        猜你喜歡
        數(shù)據(jù)倉庫數(shù)據(jù)源數(shù)據(jù)庫
        基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
        Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
        基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價研究
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計
        電子制作(2016年15期)2017-01-15 13:39:15
        探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        數(shù)據(jù)庫
        財經(jīng)(2016年6期)2016-02-24 07:41:51
        基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實踐
        亚洲日韩中文字幕在线播放| 国产高清一区二区三区视频| 青青草免费在线视频久草| 麻豆国产精品久久人妻| 亚洲乱码中文字幕综合| 无码天堂亚洲国产av麻豆| 国产一区二区av在线观看| 亚洲国产成人极品综合| 成人免费看www网址入口| 亚洲制服无码一区二区三区| 日韩精品资源在线观看免费| 午夜影视免费| 67194熟妇在线永久免费观看| 国产精品青草久久久久婷婷| 日本在线观看一区二区视频| 精品无码国产一区二区三区麻豆| 国产福利一区二区三区在线观看| 国产亚洲精品日韩综合网| 成人亚洲av网站在线看| 国产 高潮 抽搐 正在播放| 亚洲熟女乱色一区二区三区| 国产片三级视频播放| 福利视频偷拍一区二区| 久久婷婷五月综合97色一本一本| 亚洲av乱码中文一区二区三区| 看黄色亚洲看黄色亚洲| 日韩人妻精品中文字幕专区| 日本乱偷人妻中文字幕在线| 中文字幕不卡高清免费| 麻豆国产精品久久天堂| 少妇伦子伦精品无吗| 久久国产36精品色熟妇| 亚洲国产av自拍精选| 久久精品国产av一级二级三级| 亚洲中文字幕无码爆乳| 国产午夜激情视频自拍| 国产69精品麻豆久久| 玩中年熟妇让你爽视频| 久久久久国产一级毛片高清版A | 伊人久久大香线蕉av一区| 国产精品每日更新在线观看|