[摘 要] 隨著數(shù)據(jù)在日常決策中的重要性越來越顯著,人們對數(shù)據(jù)處理技術(shù)的要求也不斷提高,需要對數(shù)據(jù)進(jìn)行更深層次的處理,以得到關(guān)于數(shù)據(jù)的總體特征以及對發(fā)展趨勢的預(yù)測。本文介紹了數(shù)據(jù)庫知識發(fā)現(xiàn)及關(guān)聯(lián)規(guī)則,最后將二者結(jié)合應(yīng)用于教學(xué)中,進(jìn)而實(shí)現(xiàn)客觀地、科學(xué)地教學(xué)評估與知識發(fā)現(xiàn),指導(dǎo)學(xué)校的教學(xué)工作。
[關(guān)鍵詞] 知識發(fā)現(xiàn) 數(shù)據(jù)庫知識發(fā)現(xiàn) 關(guān)聯(lián)規(guī)則
一、知識發(fā)現(xiàn)
隨著數(shù)據(jù)在日常決策中的重要性越來越顯著,人們對數(shù)據(jù)處理技術(shù)的要求也不斷提高,需要能夠?qū)?shù)據(jù)進(jìn)行更深層次的處理,以得到關(guān)于數(shù)據(jù)的總體特征以及對發(fā)展趨勢的預(yù)測。過去,人們依靠經(jīng)驗(yàn)、大量的計(jì)算和人腦的智慧來處理這些深層次的信息,為決策提供技術(shù)支持。然而數(shù)據(jù)量爆炸性的增長使得傳統(tǒng)的手工處理方法逐漸變得不切實(shí)際了,現(xiàn)在的用戶很難再像從前那樣,自己根據(jù)數(shù)據(jù)的分布找出規(guī)律,并根據(jù)此規(guī)律進(jìn)行分析決策。而且對于超市商品的銷售記錄、保險(xiǎn)公司的客戶記錄、醫(yī)學(xué)上的成千上萬份病歷等等的這些天體數(shù)據(jù)來說,如果由手工處理的話需要幾十個(gè)人幾年時(shí)間,而且由于數(shù)據(jù)的繁雜,在由人工對數(shù)據(jù)進(jìn)行處理過程中,很難找出關(guān)于數(shù)據(jù)較為全面的信息,這樣許多有用的信息仍然隱含在數(shù)據(jù)中而不能被發(fā)現(xiàn)和利用,造成數(shù)據(jù)資源的浪費(fèi),更無法體現(xiàn)出信息的時(shí)間效應(yīng)。由此便迫切需要采用自動(dòng)化程度高、效率好的數(shù)據(jù)處理方法來幫助人們更高效地進(jìn)行數(shù)據(jù)分析,自動(dòng)發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)律或模式,為決策提供支持。知識發(fā)現(xiàn)(Knowledge Discovery in Databases,簡稱KDD)就是為迎合這種要求而產(chǎn)生并迅速發(fā)展起來的一門技術(shù),它是用于開發(fā)信息資源的一種新的數(shù)據(jù)處理技術(shù)。
許多專家都給出了知識發(fā)現(xiàn)的定義,最新的、在KDD領(lǐng)域一致認(rèn)可的描述性定義是Fayyad等人給出的:KDD是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。
知識發(fā)現(xiàn)過程可粗略的理解為三部曲:數(shù)據(jù)準(zhǔn)備(data preparation)、數(shù)據(jù)挖掘,以及結(jié)果的解釋評估(interpretation and evaluation)(如圖1所示)。
數(shù)據(jù)準(zhǔn)備階段的工作包括3個(gè)方面的內(nèi)容:
1.數(shù)據(jù)選取,主要是確定目標(biāo)數(shù)據(jù)一一根據(jù)用戶需要從原始數(shù)據(jù)庫中抽取一組感興趣的數(shù)據(jù),并將其組織成適合挖掘的數(shù)據(jù)組織形式。
2.數(shù)據(jù)預(yù)處理,也叫數(shù)據(jù)清洗,主要包括如下工作要做:消除噪音數(shù)據(jù)(這里提及的噪音數(shù)據(jù)是指那些明顯不符合邏輯的偏差數(shù)據(jù),如某職員200歲,這樣的數(shù)據(jù)往往影響挖掘結(jié)果的正確性。目前討論最多的處理噪音數(shù)據(jù)的方法是數(shù)據(jù)平滑(Data smoothing)技術(shù)、推導(dǎo)計(jì)算缺值數(shù)據(jù)、消除重復(fù)記錄、完成數(shù)據(jù)類型轉(zhuǎn)換等。
3.數(shù)據(jù)變換,主要是指對數(shù)據(jù)進(jìn)行降維處理。數(shù)據(jù)挖掘階段是根據(jù)挖掘的任務(wù)或目的使用具體的挖掘算法對準(zhǔn)備好的數(shù)據(jù)集進(jìn)行知識發(fā)現(xiàn)。這些知識是隱含的、先前未知的、對決策有潛在價(jià)值的,提取的知識表示為概念(Concepts)、規(guī)則(Rules)、規(guī)律(Regularities)和模式(Patterns)等形式。這些規(guī)則蘊(yùn)含了數(shù)據(jù)庫中一組對象之間的特定關(guān)系,揭示出一些有用的信息,為經(jīng)營決策、市場策劃和金融預(yù)測等提供依據(jù)。例如,從超級商場的大量交易數(shù)據(jù)中發(fā)現(xiàn),顧客購買牛奶時(shí)通常也同時(shí)會購買面包,如果將這兩種食品放在同一貨架上或同時(shí)進(jìn)行廣告宣傳,肯定會大大提高銷售量。通過數(shù)據(jù)挖掘技術(shù),有價(jià)值的知識、規(guī)則或高層次的信息就能從數(shù)據(jù)庫的相關(guān)數(shù)據(jù)集合中抽取出來,并從不同角度顯示,從而使大型數(shù)據(jù)庫作為一個(gè)豐富可靠的資源為知識歸納服務(wù)。
最后一階段是對于挖掘出來的模式進(jìn)行解釋和評價(jià),剔除冗余或無關(guān)的模式,將結(jié)果展現(xiàn)給用戶。
二、關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則也稱為關(guān)聯(lián)模式,是美國BIM Almaden Research Center的R.Agrawal等人于1993年提出的,是數(shù)據(jù)挖掘研究中的一個(gè)重要課題。關(guān)聯(lián)規(guī)則是指大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的對象主要是事務(wù)數(shù)據(jù)庫,例如售貨數(shù)據(jù),也稱為貨籃數(shù)據(jù)。它是描述一個(gè)事務(wù)中物品之間同時(shí)出現(xiàn)的規(guī)律的知識模式。用D表示全體事務(wù)的集合。用I代表D中所有數(shù)據(jù)項(xiàng)(物品)的集合。假設(shè)有一個(gè)物品集A,一個(gè)事務(wù)T,如果AT,則稱事務(wù)T支持物品集A。關(guān)聯(lián)規(guī)則是一種蘊(yùn)含關(guān)系:A=>B,其中A,B是兩組物品,AI,BI,且A∩B=φ。衡量規(guī)則優(yōu)劣的指標(biāo)有二:
1.支持度(Support)。它是對A=>B的重要性(或適用范圍)的衡量,集合D中規(guī)則A=>B的支持度定義為物品集A,B同時(shí)出現(xiàn)的概率。支持度描述了A和B這兩個(gè)物品集的并集在所有的事務(wù)D中出現(xiàn)的概率有多大。如果某天有1000個(gè)顧客到商場購買物品,其中有100個(gè)顧客同時(shí)購買了牛奶和面包,那么牛奶=>面包的支持度就是10%。
2.可信度(Confidence)。它是對關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量,集合D中規(guī)則A=>B的可信度定義為在物品集A出現(xiàn)的前提下,B出現(xiàn)的概率。如上面所舉的牛奶和面包的例子,該關(guān)聯(lián)規(guī)則的可信度就回答了這樣一個(gè)問題:如果一個(gè)顧客購買了牛奶,那么他同時(shí)也購買面包的可能性有多大呢?在上述的例子中,如果購買牛奶的顧客中有70%的人購買了面包,則該規(guī)則的可信度是70%。
關(guān)聯(lián)規(guī)則的挖掘問題就是在事務(wù)數(shù)據(jù)庫D中找出具有用戶給定的最小支持度和最小可信度的關(guān)聯(lián)規(guī)則。挖掘關(guān)聯(lián)規(guī)則是指在數(shù)據(jù)庫中挖掘出具有這種形式的規(guī)則:由于某些事件的發(fā)生而引起另外一些事件的發(fā)生。它在決策支持系統(tǒng)、專家系統(tǒng)和智能信息系統(tǒng)等各個(gè)方面起著重要的作用。并且,隨著數(shù)據(jù)庫應(yīng)用的普及,數(shù)據(jù)挖掘的應(yīng)用越來越廣,包括零售商的貨籃分析、銷售分析、金融信貸風(fēng)險(xiǎn)分析、醫(yī)學(xué)診斷和物流貨源分析等其他領(lǐng)域。由于挖掘出的關(guān)聯(lián)規(guī)則既可以檢驗(yàn)行業(yè)內(nèi)長期形成的知識模式,也能夠發(fā)現(xiàn)隱藏的新規(guī)律,在近幾年內(nèi)這方面的研究就倍受人們的關(guān)注。
近年來,對關(guān)聯(lián)規(guī)則的挖掘的研究主要集中在以下幾個(gè)方面:(1)對由R.Agarwa等人提出的Apriori算法的改進(jìn),這方面的工作主要集中如何有效的生成最大項(xiàng)目集以及改善該算法的效率上面;(2)對于關(guān)聯(lián)規(guī)則閥值的研究,這個(gè)方面的工作主要集中在如何調(diào)整閥值使得挖掘出來的規(guī)則具有更大的關(guān)聯(lián)性與有用性以及更加符合人們的要求;(3)提出關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的并行算法;(4)擴(kuò)展關(guān)聯(lián)規(guī)則發(fā)現(xiàn)問題,如廣義多層關(guān)聯(lián)規(guī)則、定量關(guān)聯(lián)規(guī)則、循環(huán)關(guān)聯(lián)規(guī)則和具有利潤約束關(guān)聯(lián)規(guī)則等等。
三、基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)庫知識發(fā)現(xiàn)應(yīng)用
在教育教學(xué)中,學(xué)校教學(xué)主管部門需要對教師的教學(xué)情況進(jìn)行評價(jià),如何客觀公正地評價(jià)教師的教學(xué)情況是擺在教育管理部門課題,如何在此基礎(chǔ)上合理地安排師資和學(xué)時(shí),全面提高學(xué)生的知識水平尤為重要。隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展,許多學(xué)校都為某些學(xué)科建立網(wǎng)上考試系統(tǒng),由于計(jì)算機(jī)的高效處理和海量存儲能力以及數(shù)據(jù)挖掘技術(shù)發(fā)展,使我們能夠利用計(jì)算機(jī)排除人為因素,客觀地進(jìn)行教學(xué)評價(jià)與知識發(fā)現(xiàn)。
在教學(xué)評估系統(tǒng)中,首先建立星型結(jié)構(gòu)(如圖2所示),建立了六維數(shù)據(jù)庫,當(dāng)然也可以根據(jù)需要建立更多維的數(shù)據(jù)庫。大多數(shù)據(jù)情況下,與數(shù)據(jù)挖掘任務(wù)有關(guān)的數(shù)據(jù)是存儲在應(yīng)用數(shù)據(jù)庫中,這些數(shù)據(jù)往往是為應(yīng)用目的而建立的,不能直接運(yùn)行挖掘算法,而是要進(jìn)行必要的抽取和格式的整理工作,對字符型的屬性都要進(jìn)行屬性展開,需要對數(shù)據(jù)進(jìn)行清理和約簡,建立適合挖掘的關(guān)聯(lián)數(shù)據(jù)。
例如,在考試系統(tǒng)的學(xué)生答題庫中,記錄了學(xué)生對本學(xué)科各個(gè)知識點(diǎn)的掌握情況,利用關(guān)聯(lián)規(guī)則中的適當(dāng)算法可以求得各知識點(diǎn)之間的關(guān)聯(lián),提取某些新穎的關(guān)聯(lián)為教學(xué)服務(wù)。
下面取得關(guān)聯(lián)規(guī)則的一部分來舉例說明知識點(diǎn)的關(guān)聯(lián)關(guān)系。
關(guān)聯(lián)關(guān)系 可信度 支持度
A=>B48.09%40.2%
B=>C68.71%37.62%
C=>D24.86%30.97%
若規(guī)定支持度大于20%,可信度大于40%,就可以得到,如果知識點(diǎn)A掌握的好,那么知識點(diǎn)B、C就掌握的好,這樣就為教學(xué)管理部門提供客觀依據(jù)加強(qiáng)知識點(diǎn)A的教學(xué)工作。進(jìn)而實(shí)現(xiàn)客觀地、科學(xué)地教學(xué)評估與知識發(fā)現(xiàn),指導(dǎo)學(xué)校的教學(xué)工作。
四、結(jié)束語
數(shù)據(jù)挖掘或數(shù)據(jù)庫知識發(fā)現(xiàn),受到了當(dāng)今國際人工智能與數(shù)據(jù)庫界的廣泛重視。關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘研究中的一個(gè)重要研究課題。在該方面的研究起步雖晚,其發(fā)展速度卻非常驚人,其研究碩果也是層出不窮。但目前的關(guān)聯(lián)規(guī)則挖掘技術(shù)也存在著明顯的不足:對小數(shù)據(jù)集適用性較強(qiáng),但對于海量數(shù)據(jù)而言卻顯現(xiàn)出明顯的缺陷。在這個(gè)信息時(shí)代,數(shù)據(jù)量爆炸性地增長,關(guān)聯(lián)信息每天都迭迭涌現(xiàn)、悄悄溜走,為了充分利用數(shù)據(jù)資源,研究適合于從大數(shù)據(jù)集中進(jìn)行關(guān)聯(lián)規(guī)則挖掘的新算法有待于進(jìn)一步探索。
參考文獻(xiàn):
[1]史忠植著:知識發(fā)現(xiàn).北京:清華大學(xué)出版社,2002
[2]楊炳儒:知識工程和知識發(fā)現(xiàn).機(jī)械工程出版社,2003
[3]白石磊 毛雪岷 王儒敬等:基于數(shù)據(jù)庫和知識庫的知識發(fā)現(xiàn)研究綜述[J].廣西師范大學(xué)學(xué)報(bào):自然科學(xué)版,2003(1):136~138
[4]楊 武 陳 莊:數(shù)據(jù)庫知識發(fā)現(xiàn)技術(shù)及應(yīng)用[J].重慶工學(xué)院學(xué)報(bào):自然科學(xué)版, 2001,15(2):32~34
[5]李雄飛 苑森淼 董立巖:基于相聯(lián)規(guī)則的數(shù)據(jù)挖掘理論.吉林工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2000,30(2):43~46