李彥蓉
摘要:近年來數(shù)據(jù)庫一直是信息技術發(fā)展的熱門話題,特別是隨著網(wǎng)絡數(shù)據(jù)井噴式發(fā)展,數(shù)據(jù)挖掘已經(jīng)成為各行各業(yè)發(fā)展所不可或缺的技術之一?;诖耍疚膹臄?shù)據(jù)挖掘的相關概念出發(fā),對數(shù)據(jù)挖掘的對象與分類,技術和方法進行簡單介紹。
關鍵詞:數(shù)據(jù)庫;數(shù)據(jù)挖掘隨著計算機技術和網(wǎng)絡通信技術的不斷發(fā)展,數(shù)據(jù)信息逐漸成為當前社會各行各業(yè)發(fā)展的關鍵。如何在海量數(shù)據(jù)中挖掘出對企業(yè)發(fā)展有利的信息是當前各行各業(yè)研究熱點,也是未來計算機領域發(fā)展的主要方向。數(shù)據(jù)庫是高效數(shù)據(jù)挖掘的基礎,同時也是數(shù)據(jù)挖掘技術不斷創(chuàng)新發(fā)展的重要條件。數(shù)據(jù)模型在數(shù)據(jù)庫中起著重要的作用,它影響著數(shù)據(jù)庫的運行,是數(shù)據(jù)庫的核心架構。數(shù)據(jù)模型在經(jīng)歷了兩次變革以后,現(xiàn)在已經(jīng)逐漸成熟起來,如今的數(shù)據(jù)模型已經(jīng)從以往格式化數(shù)據(jù)轉變?yōu)殛P系數(shù)據(jù)模型。當前專家們對數(shù)據(jù)庫的研究內(nèi)容主要是把數(shù)據(jù)庫技術與其他技術相結合,然后應用到特定領域中,這種研究現(xiàn)在已經(jīng)取得了驕人的成績。
1數(shù)據(jù)挖掘的有關概念
現(xiàn)如今數(shù)據(jù)挖掘技術尚處于初級發(fā)展階段,在很多方面還有待研究人員進行更為深入的探討。作為一門新興技術,數(shù)據(jù)挖掘主要把數(shù)據(jù)庫作為研究的前提,利用人工智能、機器人學習以及統(tǒng)計學來把這些技術結合起來。數(shù)據(jù)挖掘技術就要是在海量數(shù)據(jù)中提取出最有價值的信息,以用于企業(yè)未來發(fā)展策略構建所需。數(shù)據(jù)挖掘的概念有廣義和狹義之分,廣義上的數(shù)據(jù)挖掘是指通過相關技術提取出一些隱秘信息,狹義上的數(shù)據(jù)挖掘是指挖掘多種數(shù)據(jù)類型,以達到信息提取的目的。
2數(shù)據(jù)挖掘的對象及分類
數(shù)據(jù)挖掘技術主要是對相應的數(shù)據(jù)進行挖掘,發(fā)現(xiàn)有用的信息,其挖掘的范圍很廣,幾乎可以在所有的存儲中心進行挖掘。其中最主要的挖掘范圍是關系數(shù)據(jù)庫、事物數(shù)據(jù)庫以及一些特殊的數(shù)據(jù)庫。
數(shù)據(jù)庫與很多學科有著相輔相成的作用,所以就會產(chǎn)生多種結構的數(shù)據(jù)挖掘系統(tǒng)。根據(jù)不同的標準可以把數(shù)據(jù)挖掘進行分類,因為實際上數(shù)據(jù)庫本身就可以根據(jù)其標準進行分類;同時還可以根據(jù)其本身的模型進行劃分,如關系的、事物的、面向對象的、對象關系的等。此外數(shù)據(jù)挖掘技術在知識類型上也有所區(qū)別,既可以根據(jù)數(shù)據(jù)挖掘方法特征進行劃分,又可以根據(jù)關聯(lián)度、離散度、演變方式等進行劃分。相對來講級別越高,挖掘的知識層次就越深。從技術層面來看,數(shù)據(jù)挖掘又可以分為 3個方面:交互層、自動系統(tǒng)層、查詢系統(tǒng)。這3個方面所用到的數(shù)據(jù)分析法很多,其中最主要也是應用最為廣泛的分析法就是機器學習和統(tǒng)計學法。在數(shù)據(jù)挖掘領域除了一些普通的挖掘技術外還有一些特殊的挖掘技術,比如目前在金融、股票等領域所采用的特殊挖掘技術,是大多數(shù)普通挖掘技術所無法比擬的。
3數(shù)據(jù)挖掘技術和方法
3.1 統(tǒng)計方法
統(tǒng)計就是查找事物的數(shù)量或規(guī)律,數(shù)據(jù)挖掘技術中使用統(tǒng)計方法主要目的就是從事物的數(shù)量上來推斷其規(guī)律,通常都是在事物的數(shù)據(jù)上來找線索,然后根據(jù)這些線索進行假設,然后根據(jù)這些假設去驗證其可行性,這種方法最大的優(yōu)點就是精確性。但是它的缺點也很明顯,就是很難有效的利用。
3.2 模糊集
模糊集顧名思義就是不清楚,沒有針對性。模糊集的數(shù)據(jù)處理分為兩個方面一個方面是不完整的數(shù)據(jù),另一個方面就是不確定的數(shù)據(jù)。模糊數(shù)據(jù)主要處理這兩種數(shù)據(jù),在這兩種數(shù)據(jù)的處理上要比以往的數(shù)據(jù)處理更加方便有效。
3.3 支持向量機
向量機就是一些數(shù)學理論,支持向量機就是建立在某些數(shù)學理論上的結構風險。它主要的思想就是在一個高空的多維空間中找一個超平面,利用這個超平面把這兩類進行隔開,這樣就可以保證最小分類的錯誤率。它的一個很重要的優(yōu)點就是可以處理一些線性問題。
3.4 規(guī)則歸納
規(guī)則的歸納就是對數(shù)據(jù)進行相關的統(tǒng)計,其主要反映數(shù)據(jù)項中的一些屬性和集合,其中用的最多的歸納算法就是AQ法,它是歸納法中比較典型的,數(shù)據(jù)挖掘技術是目前計算機信息技術領域比較前言的研究方向,數(shù)據(jù)挖掘技術可以從數(shù)據(jù)庫中找出一些潛在的、位置的信息和知識。
4結論
數(shù)據(jù)挖掘技術是在近幾年才剛剛興起的一門信息處理技術,隨著其在數(shù)據(jù)應用領域的優(yōu)越表現(xiàn),現(xiàn)在已經(jīng)成為很多企業(yè)在進行市場分析時所采用最為廣泛的一項技術。隨著研究人員在該領域的不斷深入研究,數(shù)據(jù)挖掘技術在很多方面都有著非常明顯的進步。本文從數(shù)據(jù)挖掘技術的相關理論出發(fā),重點分析了數(shù)據(jù)挖掘的一些常用方法和具體思路,但由于本人水平有限,加之數(shù)據(jù)挖掘設計到許多領域,文中難免有若干不足之處,作者將在后續(xù)研究工作中不斷完善。
[參考文獻]
[1]周皓峰,朱揚勇,施伯樂.一個基于興趣度的關聯(lián)規(guī)則采掘算法.計算機研究與發(fā)展,2002,39(4):450-456.
[2]張朝暉,陸玉昌,張錢.發(fā)掘多值屬性的關聯(lián)規(guī)則.軟件學報,1998,9(11):802- 805.
[3]程繼華,施鵬飛.多層次關聯(lián)規(guī)則的有效挖掘算法,軟件學報,1998,9(12):937-941.
[4]毛國君,劉椿年.基于項目序列集操作的關聯(lián)規(guī)則挖掘算法.計算機學報,2002,25(4):417-422.
[5]王曉峰,王天然.相關測度與增量支持度和信任度的計算.軟件學報,2002.