夏慶玲
[摘 要]數(shù)據(jù)倉庫和數(shù)據(jù)挖掘是數(shù)據(jù)庫技術兩個研究方向,數(shù)據(jù)倉庫為數(shù)據(jù)挖掘提供高質(zhì)量的數(shù)據(jù),同時數(shù)據(jù)挖掘技術支持數(shù)據(jù)倉庫的建設。文章重點論述了如何將數(shù)據(jù)挖掘技術應用于數(shù)據(jù)倉庫的建設中,從而提高數(shù)據(jù)倉庫建設的質(zhì)量和效率。
[關鍵詞]數(shù)據(jù)挖掘;數(shù)據(jù)倉庫;關聯(lián)規(guī)則;聚類;模式
中圖分類號:TM241 文獻標識碼:A 文章編號:1009-914X(2017)12-0284-01
1 引言
隨著信息技術的廣泛應用,企業(yè)時刻都在產(chǎn)生和利用大量的數(shù)據(jù),在享受數(shù)據(jù)帶來信息的同時,也面臨著如何處理這些日益龐大的數(shù)據(jù)的問題。為了更好地適應新技術和提高企業(yè)的競爭力,各大企業(yè)都在對自己的信息管理系統(tǒng)進行改造,以適應新的要求。數(shù)據(jù)倉庫和數(shù)據(jù)挖掘作為數(shù)據(jù)庫技術新的研究方向,在解決企業(yè)面臨的問題方面發(fā)揮了較好的作用。數(shù)據(jù)倉庫是面向主題的、綜合的、不同時間的、穩(wěn)定的數(shù)據(jù)的集合,用于支持經(jīng)營管理中的決策制定過程;數(shù)據(jù)挖掘是從數(shù)據(jù)集中識別出有效的、新穎的、潛在的、有用的以及最終可理解的模式的高級處理過程。如何將這兩種技術較好地結合起來,為企業(yè)提供信息支持成為人們關注的問題。通常數(shù)據(jù)倉庫技術和數(shù)據(jù)挖掘技術的結合方式有三種:將數(shù)據(jù)挖掘技術和數(shù)據(jù)倉庫的OLAP技術集成為數(shù)據(jù)倉庫的前端工具;數(shù)據(jù)倉庫為數(shù)據(jù)挖掘提供高效的數(shù)據(jù)庫技術和高質(zhì)量的數(shù)據(jù);數(shù)據(jù)挖掘技術支持數(shù)據(jù)倉庫的建設。前兩種方式已有較廣泛的研究,但第三種方式還很少有人涉足。
本文將對第三種方式進行深入的探討,提出在數(shù)據(jù)倉庫建設中,可以使用的數(shù)據(jù)挖掘技術并予以展望。以下按照數(shù)據(jù)倉庫建設的各個階段,介紹如何使用數(shù)據(jù)挖掘技術支持數(shù)據(jù)倉庫的建設。
2 數(shù)據(jù)挖掘技術在數(shù)據(jù)倉庫建設中的應用
2.1 數(shù)據(jù)分析
在數(shù)據(jù)倉庫的建設中,當確定了其所需的信息和包含信息的數(shù)據(jù)源后,就要從結構、語義、數(shù)據(jù)質(zhì)量等各個方面的數(shù)據(jù)源進行分析。建設數(shù)據(jù)倉庫用到的數(shù)據(jù)源常常是各種各樣的,而且由于各種原因,數(shù)據(jù)源的文檔資料不是很完整,它們的字段信息、語義結構等并沒有記錄在案,這使得數(shù)據(jù)倉庫的建設尤為困難。數(shù)據(jù)倉庫的建設者通過數(shù)據(jù)挖掘技術,發(fā)現(xiàn)隱含在數(shù)據(jù)庫中的數(shù)據(jù)之間的相關數(shù)據(jù)結構和字段的語義信息。
(1)字段的語義
通常,字段的確切語義是不可能從字段的名字和字段的數(shù)據(jù)類型推斷出來的,但其相關信息可以通過數(shù)據(jù)挖掘,依據(jù)數(shù)據(jù)之間的函數(shù)相關性得到。
關聯(lián)規(guī)則是發(fā)現(xiàn)大量數(shù)據(jù)中項集之間的關聯(lián)或相關聯(lián)系的。在表2中有如下的關聯(lián)規(guī)則(CGXH=34)→(CN=1):90%修理的CGXH=34(電視機為34英寸)的電視,也具有屬性CN=1。同時由背景知識:34英寸的電視機絕大多數(shù)都在城市銷售,農(nóng)村銷售的很少,因此我們判斷CN字段用于表示城市還是農(nóng)村。
數(shù)據(jù)挖掘的決策樹和規(guī)則歸納,以及統(tǒng)計分析的多元和貝葉斯網(wǎng)絡都可以對字段所表示的語義進行較好的解釋,總之使用數(shù)據(jù)挖掘技術得到字段間的相關性模型并結合背景知識,就可以較好地推斷出字段的語義。
(2)編碼規(guī)則
許多字段值都是以編碼的形式存在,產(chǎn)品的很多信息都隱含在這個編碼中。找到該字段的編碼方案,對理解其語義往往是至關重要的。
通過字段間的相關性,可以推斷出字段值的編碼信息。例如在(1)中:通過關聯(lián)規(guī)則,有如下知識:90%修理的CGXH=34(電視機為34英寸)的電視,其CN屬性值為1,從而可以判斷1代表了城市。如果字段的編碼方案是隨時間變化的,則數(shù)據(jù)挖掘技術能夠標示編碼方案是何時變化的以及受影響的編碼位。假設在CPID的編碼中表示顯像管的位置已知,而且表示某種型號的顯像管的編碼從某一時間起不再使用,那么數(shù)據(jù)挖掘技術能標志該種顯像管不再使用的時間。假設該型號的顯像管的編碼為“07”,一種可能是顯像管編碼順序為07,03,07,07,02,02,07,03,03,03,01,它們與“07”的相對頻率為1.00,0.40,0.60,0.73,0.64,0.50,0.56,0.46,0.40,0.38。利用數(shù)據(jù)挖掘技術,就可以找到從什么時間起“07”的相對頻率是單調(diào)下降的,這里,時間是從第七個編碼開始的。另外,神經(jīng)網(wǎng)絡也具有標志編碼方案是何時變化的以及受影響的編碼位的能力。
(3)完整性約束
完整性約束是指字段的值域以及不同字段之間的約束關系。它對于理解數(shù)據(jù)源和檢查不正確的數(shù)據(jù)均特別有效。
數(shù)據(jù)挖掘技術和統(tǒng)計方法都可以依據(jù)數(shù)據(jù)庫中的數(shù)據(jù)推導出完整性約束。例如:通過可視化的方法和依賴模型找到字段值的分布特性。在上面的例子中,數(shù)據(jù)挖掘技術能發(fā)現(xiàn)屬性(顯像管型號)、GL(功率)和ZL(重量)之間的關系;還能發(fā)現(xiàn)字段的取值范圍(包括了字段大部分的取值);例子中有99%ZL屬于[20,45]規(guī)則,該范圍可以被認為是字段ZL的值域,在此范圍之外的取值被認為是錯誤的。
2.2 數(shù)據(jù)源結構上的集成
對數(shù)據(jù)源內(nèi)容和結構的集成,主要是為了解決數(shù)據(jù)源之間語義的沖突,最終將多個數(shù)據(jù)源集成到一個全局數(shù)據(jù)源,集成不同的數(shù)據(jù)源時會遇到如下幾種沖突:
(1)描述沖突。如果同一個實體在不同的系統(tǒng)中以不同的方案進行描述,那么就會產(chǎn)生命名、閾值和量綱等方面的描述沖突。
(2)結構沖突。如果同一個實體在不同的系統(tǒng)中使用不同的結構表示,不同的系統(tǒng)之間會產(chǎn)生結構沖突。
(3)數(shù)據(jù)沖突。數(shù)據(jù)沖突是由錯誤的數(shù)據(jù)引起的。引起沖突的原因有:不正確的輸入和輸出、不同的量綱、不同的精確度和不同的表示方法等。
數(shù)據(jù)挖掘在一定程度上可以解決這些沖突。如果字段間相關性模型是已知的,則數(shù)據(jù)挖掘技術能直接計算出函數(shù);如果不知道字段間的函數(shù)相關性模型,則必須先找到該模型,然后再計算函數(shù)的系數(shù)。表1和表2中的JG字段,一個以人民幣表示,另一個以美元表示,兩者是線性關系,可以計算出兩者轉換的比例因子。數(shù)據(jù)挖掘技術不僅可以發(fā)現(xiàn)準確數(shù)據(jù)間的關系,而且可以發(fā)現(xiàn)準確數(shù)據(jù)和抽象數(shù)據(jù)間的關系。例如通過關聯(lián)規(guī)則(JG=1180)→(JG-Group=cheap),在準確數(shù)據(jù)和抽象數(shù)據(jù)之間建立對應關系。
2.3 多維數(shù)據(jù)建模
在數(shù)據(jù)倉庫的視圖模型中,使用多維模型是使用OLAP進行數(shù)據(jù)分析的前提條件,數(shù)據(jù)挖掘技術用于多維數(shù)據(jù)建模的以下幾個方面:
(1)確認正交維數(shù)
在進行問題分析中并不是數(shù)據(jù)源的所有屬性都具有相同的重要性,有些屬性對目前所分析的問題沒有很大的影響,有些屬性也不是完全獨立的,它可以通過其他屬性推導出來,因而在建立數(shù)據(jù)立方時需要進行屬性的篩選,選擇對應用最必需的屬性作為維,建立數(shù)據(jù)立方。數(shù)據(jù)挖掘可以幫助實現(xiàn)依據(jù)屬性在所應用領域中的重要性和用戶要分析的問題,對屬性進行分級。另外通過數(shù)據(jù)挖掘技術中的相關性分析方法,發(fā)現(xiàn)非正交的屬性,進而在構建數(shù)據(jù)立方中利用這些信息。
(2)標志結果立方中的稀疏和稠密區(qū)域
由于在數(shù)據(jù)稀疏的區(qū)域進行OLAP分析是很難分析到有價值的信息,因而在多維數(shù)據(jù)建模中,應該避開數(shù)據(jù)稀疏區(qū)域。使用數(shù)據(jù)挖掘技術中的聚類分析來確定數(shù)據(jù)密集區(qū)域的中心,從而可以有效地進行多維數(shù)據(jù)建模。
(3)處理取值為連續(xù)型的屬性
多維模型要求維的數(shù)據(jù)類型是離散型的,因而必須將連續(xù)型的屬性值映射為離散型的。數(shù)據(jù)挖掘技術中用來發(fā)現(xiàn)在數(shù)值屬性中有意義的間隔的算法,能將連續(xù)型數(shù)值映射為離散型。例如:依據(jù)電視機的價格將電視機分為:普及型、豪華型和尊貴型。
3 結論
數(shù)據(jù)挖掘技術可以用于數(shù)據(jù)倉庫的建設,而且通過其引入可以使數(shù)據(jù)倉庫的建設更加高效。在工程實踐中,利用數(shù)據(jù)挖掘技術可以較好地對企業(yè)舊的信息系統(tǒng)進行分析,獲取系統(tǒng)說明文檔中沒有記載而又是數(shù)據(jù)倉庫建設必需的信息,為數(shù)據(jù)倉庫的建設提供較好的支持。但同時我們也必須認識到,對數(shù)據(jù)挖掘技術支持數(shù)據(jù)倉庫建設的研究還不是很廣泛,相應的數(shù)據(jù)挖掘算法還不夠豐富,各方面的研究還有待于更進一步的深入。