亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)倉庫技術(shù)及應(yīng)用

        2011-04-07 14:42:10趙運紅
        關(guān)鍵詞:快照聯(lián)機數(shù)據(jù)倉庫

        趙運紅

        數(shù)據(jù)挖掘技術(shù)的核心模塊已經(jīng)歷了幾年的發(fā)展,包括機器學習、人工智能、數(shù)理統(tǒng)計?,F(xiàn)在,廣泛的數(shù)據(jù)集成結(jié)合具有高性能的關(guān)系數(shù)據(jù)庫引擎,加上這些成熟的技術(shù),使數(shù)據(jù)挖掘技術(shù)進入實用階段變得可能。如何建立數(shù)據(jù)倉庫,并將其應(yīng)用到實踐是一個值得探討的問題。

        一 數(shù)據(jù)倉庫概念

        數(shù)據(jù)倉庫的概念最早是由美國著名學者W.H.Inmon提出的。在作為標準參考書《Building the Data Warehouse》中,他給數(shù)據(jù)倉庫下的定義是:“Subject-oriented,integrated,time - variant,nonvolatile collection of data to support management decision - making process”。[1]主題可以理解為數(shù)據(jù)倉庫研究的對象,比如客戶、經(jīng)銷商、商品和銷售部門等,數(shù)據(jù)模型和對數(shù)據(jù)的分析是所要關(guān)注的對象。集成是為了確保命名約定、編碼結(jié)構(gòu)和屬性度量的一致性。主要的技術(shù)有數(shù)據(jù)清理和數(shù)據(jù)集成等。要建立數(shù)據(jù)倉庫,必須對數(shù)據(jù)進行加工和集成,這是在數(shù)據(jù)進入數(shù)據(jù)倉庫之前的關(guān)鍵步驟,包括將初始數(shù)據(jù)中互相抵觸的部分統(tǒng)一起來,將初始數(shù)據(jù)在結(jié)構(gòu)上加以改變,以符合數(shù)據(jù)倉庫中對象面向主題的要求。區(qū)別于維護數(shù)據(jù)庫產(chǎn)生的日志數(shù)據(jù),數(shù)據(jù)倉庫中數(shù)據(jù)的特征是反映歷史,對于進入數(shù)據(jù)倉庫中的數(shù)據(jù)很少甚至根本不得修改,這是數(shù)據(jù)倉庫穩(wěn)定性的體現(xiàn)。數(shù)據(jù)倉庫是不同時間的數(shù)據(jù)集合,要滿足進行決策分析的需要,數(shù)據(jù)倉庫中的數(shù)據(jù)就要有保存時限,此外,還要標明該數(shù)據(jù)的歷史時期。

        二 數(shù)據(jù)倉庫創(chuàng)建

        數(shù)據(jù)處理密集型的主要傳統(tǒng)行業(yè)如保險、金融、電信等首先應(yīng)用數(shù)據(jù)倉庫。在一九九六至一九九七年國外許多大型的數(shù)據(jù)倉庫開始建立。這樣一來,哪些行業(yè)最需要建立數(shù)據(jù)倉庫?哪些行業(yè)最有可能建立數(shù)據(jù)倉庫?據(jù)研究統(tǒng)計,如果這個行業(yè)滿足了下面2個基本條件:數(shù)據(jù)倉庫存在的客觀條件和提供建立數(shù)據(jù)倉庫外在的動力。即該行業(yè)聯(lián)機事務(wù)處理系統(tǒng)較為成熟;該行業(yè)面臨市場競爭的壓力較大。

        1.不同數(shù)據(jù)類型的組織方式。

        (1)一般的積累文件:以一天為單位,加工和優(yōu)化從數(shù)據(jù)庫中汲取的數(shù)據(jù),不斷堆積,分類存儲最終形成的一類文件。

        (2)快照文件:這一類文件與一般的積累文件非常相似,唯一的區(qū)別就是本類文件是相差一段周期的DB的快照,比如每相隔1周或者數(shù)月作一次。

        (3)輪轉(zhuǎn)綜合文件:數(shù)據(jù)存儲單位按時間分為天、星期、月和年等四個級別。首先,每天的數(shù)據(jù)都一一記錄在日數(shù)據(jù)集中;以星期為單位7天以后,將數(shù)據(jù)進行分析歸類編輯記錄在稱為周數(shù)據(jù)的周數(shù)據(jù)集中;第2個7天,每一天的日數(shù)據(jù)集又可以遞歸再次調(diào)用,以便用來存儲接下來的數(shù)據(jù)。這樣一來,如果周數(shù)據(jù)集的數(shù)據(jù)量堆積到4.4個(亦即一個月)后,又一次編輯分析歸類記錄到稱為月數(shù)據(jù)的數(shù)據(jù)集中……。從以上形成過程看,輪轉(zhuǎn)綜合文件的組織結(jié)構(gòu)是非常清晰的,數(shù)據(jù)量上面增加的并不太大。當然,在數(shù)據(jù)細節(jié)方面損失較大,時間越長,虧損越大。

        (4)連續(xù)文件:兩個或多個連續(xù)的簡化直接文件可以生成一個新的文件,叫做連續(xù)文件。事實上,連續(xù)文件仍然還可以和新的簡化直接文件進行歸并再次生成新的連續(xù)文件。

        2.數(shù)據(jù)的更新和追加。

        數(shù)據(jù)倉庫中的數(shù)據(jù)如果不進行更新或者沒有新的數(shù)據(jù)追加,對數(shù)據(jù)挖掘來說是沒有意義的。追加數(shù)據(jù)涉及到很多技術(shù),一是數(shù)據(jù)源的問題,二是新舊數(shù)據(jù)區(qū)分的問題。數(shù)據(jù)源與聯(lián)機事務(wù)處理的數(shù)據(jù)庫有很大關(guān)系。區(qū)分數(shù)據(jù)的冗余技術(shù)主要有四種:

        (1)添加更新時間標志的方法:新加入的數(shù)據(jù)根據(jù)時間可分為兩類:含有時標的和沒有的,對于前者在更新到數(shù)據(jù)庫中的時候,分析存儲組織數(shù)據(jù)時,同時將數(shù)據(jù)的更新時標進行更新。但是,對于沒有時標的就不好辦了,所以這種方法并不是總湊效。

        (2)Δ(Delta)文件的方法:在數(shù)據(jù)挖掘的應(yīng)用中會產(chǎn)生一種文件,它的作用是將應(yīng)用更改的全部數(shù)據(jù)記錄下來這個文件就是Δ(Delta)文件。使用Δ文件不用掃描整個數(shù)據(jù)庫中的所有數(shù)據(jù),所以在時間開銷上要小很多,因而它的效率尤其高,不過,由于生成Δ文件的方法并不是非常普遍,所以相同的問題依然會出現(xiàn)。類似地,還有一種理論上可行的更改應(yīng)用代碼的技術(shù),它的策略是在新數(shù)據(jù)生成的過程同時將應(yīng)用代碼自動記錄下來。然而相關(guān)的數(shù)量非常龐大,而且修改代碼又相當繁復,因此說這是一種理論可行現(xiàn)實不可操作的方法。

        (3)快照文件比較的方法:這種方法的關(guān)鍵步驟是快照比較區(qū)分數(shù)據(jù)。具體來講,在數(shù)據(jù)抽取過程中進行快照操作,生成前后兩次快照,而后比較它們的差異和相同點,最后對數(shù)據(jù)進行確認。由于在資源和性能上的影響這種方法實際意義沒有多大。

        (4)日志文件:這大概是最可取的技術(shù)了,原因在于它是數(shù)據(jù)庫的內(nèi)在機制,對聯(lián)機事務(wù)處理系統(tǒng)的性能是不會有影響的。而且,它還兼具Δ文件的良好性質(zhì),提取數(shù)據(jù)同樣不用掃描整個數(shù)據(jù)庫而只需讀取局部日志文件即可。不過,原來日志文件包含的數(shù)據(jù)對于數(shù)據(jù)倉庫而言也許有較多冗余,因為它的格式是依據(jù)數(shù)據(jù)庫系統(tǒng)的要求來設(shè)定的。例如,如果一個記錄經(jīng)過重復多次的更新,日志文件會詳細地記錄每次的更新內(nèi)容,但事實上這些又都是重復冗余的;對于數(shù)據(jù)庫來說,這樣的操作是沒有必要的,也是對資源和性能的一種浪費。不過相比而言,日志文件還是最為可行的一種選擇策略。

        3.數(shù)據(jù)的提取。

        數(shù)據(jù)進入倉庫之前的工作是數(shù)據(jù)的抽取。數(shù)據(jù)倉庫的數(shù)據(jù)抽取主要的技術(shù)有復制(replication)、互連(interconnection)、轉(zhuǎn)換(conversion)、增量(incremental)、監(jiān)控(monitoring)和調(diào)度(scheduling)等六個方面。數(shù)據(jù)倉庫中的數(shù)據(jù)來源主要有OLTP、數(shù)據(jù)倉庫以外的數(shù)據(jù)源和脫機數(shù)據(jù)介質(zhì)存儲的數(shù)據(jù)等,從以上數(shù)據(jù)源中應(yīng)用數(shù)據(jù)抽取技術(shù)使數(shù)據(jù)倉庫形成一個相對獨立的數(shù)據(jù)環(huán)境。由于聯(lián)機事務(wù)處理系統(tǒng)不需要與數(shù)據(jù)倉庫的數(shù)據(jù)保持實時同步,所以數(shù)據(jù)抽取或定時進行或適時進行都是可取的,時間要求并不嚴格。但多個抽取操作的時間有效性則至關(guān)重要,例如抽取操作之間的順序、抽取操作執(zhí)行的時間長短和抽取操作成功與失敗等等對數(shù)據(jù)倉庫中的信息都會產(chǎn)生很大的影響。

        數(shù)據(jù)抽取的技術(shù)日臻完善,基本都能夠滿足市場需求。對數(shù)據(jù)的抽取用戶唯一需要做的事情是確立數(shù)據(jù)源和數(shù)據(jù)目標之間的對應(yīng)關(guān)系,剩下的抽取工作像代碼的生成系統(tǒng)會自動完成,極為方便??墒沁@些技術(shù)在整體集成度的融合上還是有缺陷的。各抽取技術(shù)之間的關(guān)系是松散的,有些技術(shù)之間還要通過有關(guān)程序進行協(xié)調(diào)。據(jù)調(diào)查統(tǒng)計,一些提供數(shù)據(jù)抽取工具和業(yè)務(wù)的供應(yīng)商僅支持有限的數(shù)據(jù)類型,這部分與實際應(yīng)用密切相關(guān)的工作有時候還不得不進行數(shù)據(jù)轉(zhuǎn)換,甚至要加入嵌入式用戶編程。正是這樣的原因,數(shù)據(jù)抽取工具在實際實施過程中應(yīng)用的并不廣泛。而數(shù)據(jù)抽取過程能否因為具體工具的使用而投入有效的管理、調(diào)度和維護等則反而顯得更為重要。

        4.數(shù)據(jù)的管理和存儲。

        數(shù)據(jù)倉庫和其他的傳統(tǒng)數(shù)據(jù)庫在組織方式與管理方式這兩個特性上有很大區(qū)別。在一定程度上決定了它對外部數(shù)據(jù)表現(xiàn)形式。即建立數(shù)據(jù)倉庫核心決定采用什么產(chǎn)品和技術(shù),就得分析相應(yīng)的數(shù)據(jù)倉庫要具有什么樣的技術(shù)手段。這充分證明了數(shù)據(jù)倉庫中數(shù)據(jù)的管理和存儲才是真正的關(guān)鍵部分是實質(zhì)所在。

        首先應(yīng)用數(shù)據(jù)分割技術(shù)實現(xiàn)數(shù)據(jù)倉庫對大量數(shù)據(jù)的存儲和管理。比起傳統(tǒng)數(shù)據(jù)庫對事務(wù)處理,數(shù)據(jù)倉庫中的數(shù)據(jù)量要大很多倍,而且具有很強的時間積累效應(yīng)。對于數(shù)據(jù)處理能力的考慮,關(guān)系數(shù)據(jù)庫系統(tǒng)采用的技術(shù),以及應(yīng)用相關(guān)技術(shù)開發(fā)的產(chǎn)品一直處于領(lǐng)跑的位置。在數(shù)據(jù)管理和數(shù)據(jù)存儲技術(shù)上其它數(shù)據(jù)管理系統(tǒng)是望塵莫及的。目前數(shù)據(jù)分割技術(shù)已經(jīng)在很多關(guān)系數(shù)據(jù)庫系統(tǒng)中應(yīng)用,這種應(yīng)用的思想是分散數(shù)據(jù)庫表,分別用不同的物理設(shè)備進行存儲強化系統(tǒng)對數(shù)據(jù)量的管理能力。

        其次數(shù)據(jù)倉庫的并行處理能力提高了管理存儲數(shù)據(jù)的效率。比較數(shù)據(jù)的處理方式很容易發(fā)現(xiàn),容量短小訪問密集,這是傳統(tǒng)數(shù)據(jù)庫用戶訪問數(shù)據(jù)的特征;數(shù)據(jù)倉庫對數(shù)據(jù)的處理是多任務(wù)多處理機的,為滿足大數(shù)據(jù)量的要求,必須均衡分割用戶的請求操作,使它們力求合理這是關(guān)鍵所在。這就是高效的并發(fā)操作。數(shù)據(jù)量龐大訪問頻次低,這種數(shù)據(jù)倉庫用戶的操作使得單個單次查詢變得紛繁。這樣以來工作方式就有了很大的不同。所以,在數(shù)據(jù)倉庫中并行處理技術(shù)比以往顯得更為重要。

        現(xiàn)在對數(shù)據(jù)倉庫的TPC-D基準測試中,增加了一個稱為“系統(tǒng)功力”(QPPD)的單用戶環(huán)境的測試。通過觀察QPPD的值的影響來判斷系統(tǒng)的并行處理能力的強弱。目前,在并行處理方面像基于數(shù)據(jù)分割的并行、對查詢語句的分解并行關(guān)系數(shù)據(jù)庫系統(tǒng)都能做到,而對于支持多環(huán)境多處理機能力上也沒有什么影響。

        最后要分析數(shù)據(jù)倉庫針對決策支持查詢的優(yōu)化問題。數(shù)據(jù)庫系統(tǒng)的索引機制(indexing mechanism)、數(shù)據(jù)排序(data sorting)、連接策略(connection policy)、查詢優(yōu)化器(the query optimizer)和采樣(sampling)等諸多技術(shù)部分是決策支持優(yōu)化研究的重要內(nèi)容。普通關(guān)系數(shù)據(jù)庫對于sex、age和areas等具有大量重復值的field差不多沒有效果,這是因為采用B-tree類的索引的結(jié)果。采用二進制位表示字段狀態(tài),變查詢過程為篩選過程,引入位圖索引機制,使單個計算機的基本操作具有可篩選多條記錄的功能,這就是擴充的關(guān)系數(shù)據(jù)庫。數(shù)據(jù)倉庫中的數(shù)據(jù)量在數(shù)據(jù)表的分布是極不對稱的,這容易導致普通查詢優(yōu)化器計算出的最佳查詢路徑往往不是最優(yōu)的。所以,根據(jù)索引的使用特性,改進關(guān)系數(shù)據(jù)庫的面向決策支持查詢優(yōu)化,增加多重索引掃描的能力非常必要。

        三 數(shù)據(jù)倉庫的應(yīng)用原則

        1.堅持原則。

        對原始數(shù)據(jù),必須堅持的原則是不局限在業(yè)務(wù)系統(tǒng)的現(xiàn)狀。數(shù)據(jù)倉庫本身獨立于業(yè)務(wù)系統(tǒng)之外,要以管理層分析決策的需求為實施的主線和出發(fā)點,在設(shè)計中預(yù)留空間給不確定數(shù)據(jù)是可行的。采用各種途徑加載數(shù)據(jù),為收集數(shù)據(jù)設(shè)計專門的輸入接口,比如客戶個人資料的獲取;在分析中標注單個數(shù)據(jù)的有效時間同時放寬數(shù)據(jù)的時效性;規(guī)范業(yè)務(wù)系統(tǒng)標識低質(zhì)量的數(shù)據(jù)。這些都是處理數(shù)據(jù)的完整性和質(zhì)量問題可以采取的有效方式。

        2.抽取方式。

        數(shù)據(jù)的抽取要堅持快捷、簡便、易維護的原則。不要浪費時間在討論單一抽取工具的選型上,因為為了適應(yīng)原始數(shù)據(jù)的多樣性,數(shù)據(jù)倉庫系統(tǒng)常常同時存在很多種數(shù)據(jù)抽取方式。

        3.數(shù)據(jù)展現(xiàn)。

        數(shù)據(jù)倉庫的使用,使企業(yè)管理人員以豐富而動態(tài)的聯(lián)機分析和查詢了解企業(yè)和市場的動態(tài),逐漸脫離了對固定報表等的依賴。這是數(shù)據(jù)倉庫在聯(lián)機事務(wù)處理方面的優(yōu)勢,而在固定格式的報表重現(xiàn)上,數(shù)據(jù)倉庫的分析工具有時還真不如專門定制的程序。

        4.實施范圍。

        數(shù)據(jù)倉庫的價值在于使用,解決好與選擇具體產(chǎn)品相關(guān)的重要問題,如明確系統(tǒng)的使用范疇和客戶的應(yīng)用模式等,制訂明確的計劃和時間表,分階段加入新的產(chǎn)品和技術(shù),規(guī)避無休止的選型和測試等。這都是在定義實施計劃之前要統(tǒng)籌好的。

        [1]W.H.Inmon.Building the Data Warehouse[M].New York:John Wiley&Sons,1996.

        [2]吳澤雄.數(shù)據(jù)倉庫淺談[D].海南:海南省通信學會學術(shù)年會論文集,2005.

        [3]徐銳.數(shù)據(jù)倉庫在商業(yè)銀行財務(wù)分析體系中的應(yīng)用[D].財政部財政科學研究所,2010.

        [4]王珊.數(shù)據(jù)倉庫技術(shù)與聯(lián)機分析處理[M].北京:科學出版社,1998.

        猜你喜歡
        快照聯(lián)機數(shù)據(jù)倉庫
        多聯(lián)機安裝施工技術(shù)探討
        EMC存儲快照功能分析
        天津科技(2022年5期)2022-05-31 02:18:08
        基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
        創(chuàng)建磁盤組備份快照
        分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計
        電子制作(2016年15期)2017-01-15 13:39:15
        探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
        高溫多聯(lián)機空調(diào)系統(tǒng)的控制方式研究
        CALIS聯(lián)機合作編目中的授權(quán)影印書規(guī)范著錄
        圖書館學刊(2015年8期)2015-12-26 08:33:55
        基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實踐
        數(shù)據(jù)恢復的快照策略
        99精品国产丝袜在线拍国语| av网址不卡免费在线观看| 久久人妻精品中文字幕一区二区| 不卡视频在线观看网站| 日本一二三区在线观看视频| 乱子伦在线观看| 欧美精品免费观看二区| 色婷婷色99国产综合精品| 日韩女优在线一区二区| 亚洲av天堂在线视频| 日韩人妻无码精品久久| 97性视频| 亚洲天堂av社区久久| 国产女同舌吻1区2区| 亚洲中文字幕无码中文字| 亚洲国产精品久久久久秋霞1| 国内精品久久久久久久久蜜桃| 国产精品髙潮呻吟久久av| 日韩精品专区av无码| 国产女精品视频网站免费 | 色翁荡息又大又硬又粗又视频图片| 狠狠亚洲婷婷综合色香五月| 一本色道加勒比精品一区二区| 精品国品一二三产品区别在线观看 | 国产精品无码久久久久久久久久| 无码日韩人妻AV一区免费| 国产精品亚洲精品专区| 极品粉嫩嫩模大尺度无码视频| 国产成人一区二区三区在线观看 | 草草网站影院白丝内射| 日产精品一区二区免费| 精品国产一区二区三区av天堂| 曰韩无码二三区中文字幕| 连续高潮喷水无码| 日韩精品一区二区亚洲专区| 国模精品一区二区三区| AV无码最在线播放| 黄片午夜免费观看视频国产| 亚洲国产精品一区二区成人片国内| 丁香五香天堂网| 国产日韩AV无码免费一区二区|