郭佳
(蘭州石化職業(yè)技術(shù)學(xué)院信息處理與控制工程系,甘肅 蘭州 730060)
數(shù)據(jù)挖掘作為近年來(lái)新興的一種數(shù)據(jù)處理技術(shù),不僅被許多研究人員看作是數(shù)據(jù)庫(kù)系統(tǒng)和機(jī)器學(xué)習(xí)方面一個(gè)重要的研究課題,而且已經(jīng)被工商界人士看作是一個(gè)能帶來(lái)巨大回報(bào)的重要領(lǐng)域。
目前有關(guān)數(shù)據(jù)挖掘的定義有很多,一種比較公認(rèn)的定義如下:
數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中抽取隱含的、不為人知的、有用的信息。數(shù)據(jù)挖掘被描述為從大型數(shù)據(jù)庫(kù)的數(shù)據(jù)中提取人們感興趣的知識(shí)。這些知識(shí)是隱含的、事先未知的潛在有用信息,提取的知識(shí)表示為概念(Concepts)、規(guī)則(Rules)、規(guī)律(Regularities)、模式(Patterns)等形式。試圖創(chuàng)建一個(gè)數(shù)據(jù)庫(kù)中描述的復(fù)雜世界的簡(jiǎn)單模型,因而我們也可以說(shuō)數(shù)據(jù)挖掘是處理大量信息的方法,并且它有助于以比人更快的速度發(fā)現(xiàn)有用的信息。
數(shù)據(jù)挖掘的任務(wù)就是從數(shù)據(jù)集中發(fā)現(xiàn)模式。模式可以有很多種,按功能可分為兩大類:預(yù)測(cè)型(Predictive)模式和描述型(Descriptive)模式。具體任務(wù)主要有以下幾種:
2.1 分類:用于預(yù)測(cè)事件所屬的類別,其中樣本數(shù)據(jù)中包含標(biāo)識(shí)樣本事件所屬類別的數(shù)據(jù)項(xiàng),類別是已知的,由數(shù)據(jù)挖掘根據(jù)樣本數(shù)據(jù)構(gòu)建對(duì)這些類別的模式的描述,再利用所發(fā)現(xiàn)的模式,參照新的數(shù)據(jù)的特征變量,將其映射入已知類別中。
2.2 聚類:用于描述和發(fā)現(xiàn)數(shù)據(jù)庫(kù)中以前未知的數(shù)據(jù)類型,其中樣本數(shù)據(jù)中不包含類別變量,數(shù)據(jù)挖掘?qū)⒕哂泄餐厔?shì)和模式的數(shù)據(jù)元組聚集為一類,使類內(nèi)各元組相似程度最高,類間差異最大。
2.3 關(guān)聯(lián)規(guī)則:用于發(fā)現(xiàn)給定事件或紀(jì)錄中經(jīng)常一起發(fā)生的項(xiàng)目,由此推斷事件間潛在的關(guān)聯(lián),識(shí)別有可能重復(fù)發(fā)生的模式。
2.4 序列模式:與關(guān)聯(lián)分析相似,只是擴(kuò)展為一段時(shí)間的項(xiàng)目集間的關(guān)系。常把序列模式看作由時(shí)間變量連接起來(lái)的關(guān)聯(lián)。序列分析可分析長(zhǎng)時(shí)間的相關(guān)紀(jì)錄,發(fā)現(xiàn)經(jīng)常發(fā)生的模式。
數(shù)據(jù)挖掘中采用的方法綜合了數(shù)據(jù)庫(kù)、人工智能、統(tǒng)計(jì)學(xué)、模式識(shí)別、機(jī)器學(xué)習(xí)、數(shù)據(jù)分析等領(lǐng)域的研究成果。下面我們給出主要數(shù)據(jù)挖掘方法:
決策樹(shù)的每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試,每個(gè)分支表示一個(gè)測(cè)試的輸出,每個(gè)樹(shù)葉節(jié)點(diǎn)表示類和類的分布。構(gòu)造一個(gè)決策樹(shù)分類器通常分為兩步:樹(shù)的生成和剪枝。樹(shù)的生成采用自上而下的遞歸分治法。剪枝就是使用統(tǒng)計(jì)度量,剪去那些不可靠的分枝。ID3及其后續(xù)版本C4.5,C5是使用最為廣泛的決策樹(shù)方法,采用信息嫡增益及其改進(jìn)增益率進(jìn)行屬性選擇。
關(guān)聯(lián)規(guī)則挖掘需要找出的是支持率和置信度分別大于或等于用戶指定的臨界值的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘過(guò)程分為兩步:首先找出所有的頻繁項(xiàng)目集及其支持率;然后根據(jù)找到的頻繁項(xiàng)目集導(dǎo)出所有的置信度大于或等于用戶指定的最小置信度的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則的研究一般都在尋找頻繁項(xiàng)目集上。
聚類是按照某個(gè)特定標(biāo)準(zhǔn) (通常是某種距離)把一個(gè)數(shù)據(jù)集分割成不同的類,使得類內(nèi)相似性盡可能的大;同時(shí),類間的區(qū)別性也盡可能的大。聚類方法可以劃分為以下幾類:①劃分方法;②層次方法;③基于密度的方法;④基于網(wǎng)格的方法;⑤基于模型的方法等。
遺傳算法是Holland于1967年提出的[1],模擬生物進(jìn)化過(guò)程的計(jì)算模型,是自然遺傳學(xué)和計(jì)算機(jī)科學(xué)相互結(jié)合滲透而形成的新的計(jì)算方法。遺傳算法由3個(gè)基本算子組成:繁殖、交叉和變異。遺傳算法已在優(yōu)化計(jì)算和分類機(jī)器學(xué)習(xí)方面顯示了明顯的優(yōu)勢(shì)。
粗糙集理論是上世紀(jì)八十年代初Z.Pawlak針對(duì)G.Firege的邊界域思想提出的[2],基于給定訓(xùn)練數(shù)據(jù)內(nèi)部的等價(jià)類,用上、下近似集合來(lái)逼近數(shù)據(jù)庫(kù)中的不精確概念。用于分類,可以發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系;用于屬性約簡(jiǎn),可以識(shí)別和刪除無(wú)助于給定訓(xùn)練數(shù)據(jù)分類的屬性;用于相關(guān)分析,可以根據(jù)分類任務(wù)評(píng)估每個(gè)屬性的貢獻(xiàn)或意義。其主要思想是在保持分類能力不變的前提下,通過(guò)知識(shí)約簡(jiǎn),導(dǎo)出問(wèn)題的決策或分類規(guī)則。
支持向量機(jī)方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的一種新的學(xué)習(xí)方法,是根據(jù)有限的樣本信息在模型復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷,以期獲得最好的泛化能力。它是Vapnik于1995年提出的,近年受到國(guó)際學(xué)術(shù)界的高度重視。
數(shù)據(jù)挖掘算法是對(duì)數(shù)據(jù)挖掘方法的具體實(shí)現(xiàn),其好壞將直接影響到所發(fā)現(xiàn)知識(shí)的好壞,因此選取適當(dāng)?shù)乃惴ɑ蛩惴ńM合至關(guān)重要,目前對(duì)數(shù)據(jù)挖掘的研究也主要集中在算法及其應(yīng)用方面。一般來(lái)說(shuō),不存在一個(gè)普遍適用的算法,一個(gè)算法在某個(gè)領(lǐng)域非常有效,但在另一個(gè)領(lǐng)域卻可能不太合適。因此,在實(shí)際應(yīng)用中要針對(duì)具體應(yīng)用的目標(biāo)和情況,精心選擇有效的數(shù)據(jù)挖掘算法。
數(shù)據(jù)挖掘的實(shí)施大體可分為以下三步:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果表達(dá)和解釋,其中數(shù)據(jù)準(zhǔn)備又可以劃分為數(shù)據(jù)集成、數(shù)據(jù)選擇、預(yù)處理三個(gè)階段,結(jié)果表達(dá)和解釋包含模式評(píng)估和知識(shí)表示的內(nèi)容。
數(shù)據(jù)準(zhǔn)備的過(guò)程是整理原始數(shù)據(jù),給數(shù)據(jù)挖掘過(guò)程提供可供挖掘的材料。數(shù)據(jù)準(zhǔn)備過(guò)程按照數(shù)據(jù)的處理順序可以細(xì)分為若干個(gè)階段,數(shù)據(jù)集成是將多種數(shù)據(jù)源組合在一起,開(kāi)始著手提供發(fā)現(xiàn)任務(wù)的操作對(duì)象,這個(gè)過(guò)程中也進(jìn)行數(shù)據(jù)清理工作,對(duì)各個(gè)數(shù)據(jù)源中的噪音數(shù)據(jù)和不一致數(shù)據(jù)進(jìn)行處理,可能包括補(bǔ)充殘缺值、消除重復(fù)記錄、完成數(shù)據(jù)類型轉(zhuǎn)換等內(nèi)容。數(shù)據(jù)選擇從完成數(shù)據(jù)集成后的數(shù)據(jù)庫(kù)中檢索和分析任務(wù)相關(guān)的數(shù)據(jù)作為發(fā)現(xiàn)任務(wù)的操作對(duì)象,形成目標(biāo)數(shù)據(jù)。數(shù)據(jù)預(yù)處理將數(shù)據(jù)變換為適合挖掘的形式,如匯總或聚集操作、屬性量化或數(shù)據(jù)降維等。
數(shù)據(jù)挖掘階段首先要確定挖掘任務(wù)中要找的模式類型,也就是要確定挖掘的任務(wù)和目的,數(shù)據(jù)挖掘任務(wù)一般可以分為兩類:描述和預(yù)測(cè)。描述性任務(wù)刻劃數(shù)據(jù)集中數(shù)據(jù)的一般特征,預(yù)測(cè)性任務(wù)在當(dāng)前數(shù)據(jù)集上進(jìn)行推斷,以進(jìn)行預(yù)測(cè)。其次還要考慮采用什么樣的挖掘算法,對(duì)于同樣的任務(wù)類型可能存在多種算法實(shí)現(xiàn),此時(shí)要考慮數(shù)據(jù)集的具體特點(diǎn)和表現(xiàn)形式,對(duì)比各種挖掘算法,對(duì)各種算法的要求和前提假設(shè)要有充分的理解,然后最終確定合適的算法類型。
數(shù)據(jù)挖掘系統(tǒng)具有產(chǎn)生數(shù)以千計(jì)、甚至上萬(wàn)的模式或規(guī)則的潛在能力。在這些模式中,用戶只對(duì)其中的一小部分模式感興趣,這就需要數(shù)據(jù)挖掘系統(tǒng)能提供對(duì)各種模式的評(píng)估能力,依據(jù)用戶對(duì)模式的興趣度進(jìn)行評(píng)估,剔除掉大多數(shù)無(wú)關(guān)模式,把能夠表示知識(shí)的有趣模式提交給用戶。知識(shí)發(fā)現(xiàn)由于最終是面向人類用戶的,因此可能要對(duì)發(fā)現(xiàn)的模式進(jìn)行可視化,或把結(jié)果轉(zhuǎn)換為用戶易于理解的另一種表示方式。
[1]Holland J H.Adaptation in natural and artificialsystems [M].Univ of Michigan Press,Ann Arbor Mich,1975
[2]Pawlak Z.Rough sets[J].International journal of computer & information sciences.1982,11(5):341-356