張雪
數據倉庫是處理大量數據的一種有效模式。本文使用了SQL Server 2008數據倉庫方案,并在模式表處理、連接池設置和大文本數據操作等方面做出了優(yōu)化說明。
【關鍵詞】數據倉庫 OLAP SQL Server 2008
伴隨著高校信息化建設和數字化校園建設水平的不斷提高,各方面應用已積累了大量的數據。如何將海量的數據轉化為有用的信息使之更好地為學校日常的教學、管理服務;進而成為學校正確決策、有效調控的信息支撐平臺,這已成為目前各高校日益重視的課題。而利用數據倉庫技術則能很好地解決這一問題,建設數據倉庫來面對海量的數據存儲問題已成為學校信息化建設一種必然趨勢。
1 數據倉庫的數據組織
數據倉庫中的數據組織結構是分層次的。為了滿足不同分析的需要和提高決策的效率,我們先從存儲有數據事務數據的數據庫中獲取原始數據,然后按照決策的要求進行抽取、集成和存儲,從而生成科研數據倉庫。數據倉庫是由當前細節(jié)數據、歷史細節(jié)數據、輕度綜合數據、高度綜合數據等四個級別的數據構成。
2 數據倉庫解決方案
目前,世界上很多公司都提供了各種各樣的數據倉庫方案,考慮到經濟性、擴展性、易用性等各方面因素,我們選擇了Microsoft公司的SQL Server 2008數據倉庫方案。理由如下:
(1)更優(yōu)越的性價比。SQL Server 2008數據倉庫在各種數據倉庫方案中屬于低價位。而且由于數據在源數據庫與數據倉庫之間傳送時,是在同一個數據庫管理系統(tǒng)內進行的,不存在數據的兼容性問題。
(2)易于部署。SQL Server 2008的數據倉庫技術能更好地滿足數據倉庫的建立需求,同時,SQL Server 2008的操作簡單易行,有利于項目的迅速實施。
(3)更強有力的技術支持。SQL Server 2008是一套完全的數據倉庫和數據分析解決方案,使用戶可以快速創(chuàng)建下一代的可擴展電子商務和數據解決方案。
2.1 OLAP的體系結構
在Microsoft SQL Server 2008中集成了OLAP,并提供了擴充的基于COM的OLAP接口。通過一系列的服務程序支持數據倉庫的應用,如DTS提供數據輸入/輸出和自動調度功能,在數據傳輸過程中完成數據的驗證、清洗和轉換操作;SQL Server2008支持在線分析處理,PivotTable Services提供客戶端OLAP數據訪問功能,通過這一服務,開發(fā)人員可以用VB或其他語言開發(fā)用戶前端數據展現程序,另外SQL Serve:還支持第三方數據展現工具。它們一起構成了一個基于微軟產品的完整數據倉庫工具集。因此,在對高校科研數據倉庫的開發(fā)過程中,對于后臺的數據庫系統(tǒng)我們采用了微軟公司的SQL Server 2008。
2.2 微軟數據倉庫框架
在SQL Server 2008中提出了一種全新的性能優(yōu)越的、經濟的數據倉庫解決方案——基于SQL Server 2008的數據倉庫框架。該框架是一組實現SQL Server 2008數據倉庫功能的組件和API。該框架集成了數據倉庫的許多組件,如:業(yè)務系統(tǒng)數據源、設計/開發(fā)工具、數據析取和轉換工具、數據庫管理系統(tǒng)(DBMS)、數據存取和分析工具、系統(tǒng)管理工具。
數據倉庫框架從底層向上設計,為微軟產品用戶和第三方企業(yè)提供行業(yè)標準技術,就能很容易擴展的開放式體系結構。這就使組織機構能選擇同類中最好的組件并仍能確保集成。
3 信息管理系統(tǒng)的實現與優(yōu)化
3.1 數據更新及轉存
高校每年數據更新多,數據量大,在數據獲取過程中,我們使用存儲過程來實現此操作。在數據析取過程中,我們設計了很多存儲過程。
3.2 系統(tǒng)內部實現
在數據設計基礎上,我們使用ORACLE 10g自帶的工具BIEE實現客戶端展示。BIEE功能強大,單靠簡單的設置與IDE開發(fā)就可實現我們所需要的功能,為我們代碼的編寫提供了方便。
3.2.1 模式表的處理
在進行OLAP操作前,我們將數據庫中信息讀取到臨時多維數據庫中。其中起關鍵作用的就是Mondrian的模式表(scheme) Mondrian引擎根據模式表中關于關系數據庫中數據信息的描述來構建多維數據庫,并從關系數據庫中取得數據來填充多維數據庫。
3.2.2 連接池的設置
系統(tǒng)運行在Weblogic服務器上,進行數據庫連接池的設計。在設置時要對工廠類(Factory)"org.apache.commons.dbcp.BasicDataSourceFacroty”的最大連接數(max Active),最大等待時間(max Wait),最大空閑鏈接數(max Idle),數據庫名稱等進行設定。
3.2.3 大文本數據操作實現
連接池設置完成后,OLAP等前臺展現工具通過查詢、插入、刪除、修改等操作與后臺數據庫進行交互。一般在數據庫中定義字段采用的是Varchar2類型,最多可以保存4000字節(jié)。但在本系統(tǒng)中有些字段超出了這個范圍,于是引進了CLOB大對象類型,最多可以保存4G字節(jié),完全可以滿足需要。然而CLOB在數據庫中是以對象類型存儲的,與基本類型不同,所以應特別處理。通常情況下,一般在CLOB列插入一個空對象 EMP_ CLOB,而后對其進行插入和更新等操作。
4 結語
高校信息數據倉庫的設計與優(yōu)化是一個實踐性很強的工作,除了要掌握數據倉庫的理論知識外,更重要的是在實際工作中慢慢摸索、積累,只有這樣才能充分發(fā)揮數據倉庫的功效,為各種應用提供更多的幫助和支持。
參考文獻
[1]施伯樂,朱揚勇編著.數據庫與智能數據分析—技術、實踐與應用[M].上海:復旦大學出版社,2003.
[2](美)Eric Sperley著,陳武,袁國忠譯.企業(yè)數倉庫規(guī)劃建立與實現[M].北京:人民郵電出版社,2008.
[3]周怡,周衛(wèi)平,李燕茹.用SQLServer2008構建數據倉庫的嘗試[J].中國醫(yī)藥衛(wèi)生信息,2002.
[4]WH.Inmon,Ken Budin,Christopher K.Buss,Ryan Sousa.Data Warehouse Performance.Publishing House of Electronics Industry,2008.
作者單位
同濟大學 上海市 200092endprint