【摘 要】數(shù)據(jù)挖掘可以將大量的業(yè)務(wù)數(shù)據(jù)轉(zhuǎn)換成有利用價(jià)值的信息和知識,促進(jìn)行業(yè)的發(fā)展,因此,數(shù)據(jù)挖掘已經(jīng)引起了信息產(chǎn)業(yè)界的極大關(guān)注。利用數(shù)據(jù)挖掘技術(shù)為行業(yè)的發(fā)展解決各種實(shí)質(zhì)性問題的關(guān)鍵是對數(shù)據(jù)挖掘模型的選擇。本文就探討一下基于MAS的數(shù)據(jù)挖掘模型自動選擇方法。
【關(guān)鍵詞】MAS數(shù)據(jù)挖掘 模型 自動選擇方法
數(shù)據(jù)挖掘可以將大量的業(yè)務(wù)數(shù)據(jù)轉(zhuǎn)換成有利用價(jià)值的信息和知識,促進(jìn)行業(yè)的發(fā)展,因此,數(shù)據(jù)挖掘已經(jīng)引起了信息產(chǎn)業(yè)界的極大關(guān)注。為了解決從大量數(shù)據(jù)中方便快捷的提取處對人們有用的數(shù)據(jù),在許許多多的研究人員的努力下,數(shù)據(jù)挖掘逐步走向人工智能化,,并且逐步發(fā)展趨于成熟。利用數(shù)據(jù)挖掘技術(shù)為行業(yè)的發(fā)展解決各種實(shí)質(zhì)性問題的關(guān)鍵是對數(shù)據(jù)挖掘模型的選擇。傳統(tǒng)的數(shù)據(jù)挖掘模型的設(shè)計(jì)對建模人員的專業(yè)知識依賴性很大,需要專業(yè)人員充分的對應(yīng)用領(lǐng)域的業(yè)務(wù)特征進(jìn)行分析,并對數(shù)據(jù)進(jìn)行重復(fù)的探索,對算法進(jìn)行反復(fù)的測試,所以,工作效率地,而且模型的準(zhǔn)確度也不高。隨著科學(xué)技術(shù)的發(fā)展,基于MAS的數(shù)據(jù)挖掘模型自動選擇架構(gòu)產(chǎn)生了,大大提高了建模效率、解決了知識服用困難等問題。經(jīng)過人們的努力研究,人們發(fā)現(xiàn),對于不同挖掘?qū)ο蠛蛻?yīng)用需求,不同的數(shù)據(jù)具有著不同的重要性,因而面對各種不同數(shù)據(jù)對象分析提取需求,人們發(fā)展了多種不同的數(shù)據(jù)自動選擇算法,不同的算法指導(dǎo)著不同的自動選擇方法,本文就基于MAS的數(shù)據(jù)挖掘模型的自動選擇方法進(jìn)行探討。
一、基于MAS的數(shù)據(jù)挖掘模型抽樣自動選擇方法
抽樣自動選擇方法是最基本的數(shù)據(jù)挖掘模型選擇方法之一,它從原始數(shù)據(jù)庫中抽取一樣本,更加便于對數(shù)據(jù)的存儲,同時(shí)可以減少數(shù)據(jù)挖掘的時(shí)間。還可采用哈希技術(shù)對抽樣候選項(xiàng)目集進(jìn)行修剪,為了減少數(shù)據(jù)庫掃描次數(shù),采用關(guān)聯(lián)規(guī)則挖掘的基本模型對整個(gè)數(shù)據(jù)集采用關(guān)聯(lián)規(guī)則進(jìn)行優(yōu)化。通過關(guān)聯(lián)規(guī)則,可以使得對數(shù)據(jù)集中的頻繁項(xiàng)目原數(shù)據(jù)集掃描一次就確定更新后的整個(gè)數(shù)據(jù)集中新頻繁項(xiàng)目。
二、基于MAS的數(shù)據(jù)挖掘模型的分類自動選擇方法
分類算法屬于有指導(dǎo)的數(shù)據(jù)挖掘方法,而數(shù)據(jù)挖掘方法同時(shí)又依賴取決于不同的算法。算法的目的就是為了建立一個(gè)分類函數(shù)或者分類模型從而把數(shù)據(jù)集中的數(shù)據(jù)項(xiàng)映射到給定的某一類別。從人們對有用數(shù)據(jù)的分類和提取這一需要發(fā)展至今,人們己經(jīng)提出過很多算法。分類算法本身利用數(shù)據(jù)集的構(gòu)造特點(diǎn),人為地制造一個(gè)分類器對數(shù)據(jù)集中的各個(gè)樣本數(shù)據(jù)加以篩選分類。為此,人們經(jīng)過數(shù)代人的努力,人們創(chuàng)建了實(shí)用的數(shù)據(jù)選擇方法,基于MAS的數(shù)據(jù)挖掘模型的主要有決策樹數(shù)據(jù)自動選擇法,后向傳播數(shù)據(jù)自動選擇法,貝葉斯數(shù)據(jù)自動選擇法,它們分別基于決策樹分類法,后向傳播分類法和貝葉斯分類法。\"
(一)基于MAS的數(shù)據(jù)挖掘模型的決策樹自動選擇法
決策樹自動選擇法,利用決策樹分類法,通過對訓(xùn)練樣本集,可以把分類模型給出的預(yù)測試集數(shù)據(jù)的類別分類的相當(dāng)直觀更加易于理解,用戶在不懂模型原理的情況下也可以進(jìn)行分類。決策樹自動選擇法發(fā)展至今,已經(jīng)不再單單是加入信息量度量的ID3算法,它已經(jīng)擴(kuò)充到了現(xiàn)在的多種算法。決策樹自動選擇法對應(yīng)用于數(shù)據(jù)挖掘特征選擇和挖掘樣本的規(guī)模有較大關(guān)系,據(jù)相關(guān)文獻(xiàn)研究,決策樹選擇方法實(shí)現(xiàn)了旋轉(zhuǎn)機(jī)械的軸承缺陷的抽取,該研究通過優(yōu)化樣品選擇,提高了決策樹自動選擇法的準(zhǔn)確性。
(二)基于MAS的數(shù)據(jù)挖掘模型的法后向傳播自動選擇法
基于MAS的數(shù)據(jù)挖掘模型的后向傳播自動選擇法利用后向傳播神經(jīng)網(wǎng)絡(luò)由于具有良好的非線性映射能力和對任意函數(shù)的準(zhǔn)確逼近能力,使得其處理分類問題能獲得很高精度。神基于MAS的數(shù)據(jù)挖掘模型的后向傳播自動選擇法在噪聲環(huán)境下也能很好的完成分類任務(wù)。同時(shí),它無需提供被分析數(shù)據(jù)之外的任何先驗(yàn)信息。雖然基于MAS的數(shù)據(jù)挖掘模型的后向傳播自動選擇法精確度非常高,但是它也存在自身缺點(diǎn),網(wǎng)絡(luò)訓(xùn)練時(shí)間較長,不適用于處理多維大規(guī)模的數(shù)據(jù),而且基于MAS的數(shù)據(jù)挖掘模型的后向傳播自動選擇法是利用神經(jīng)網(wǎng)絡(luò)挖掘的結(jié)果,該模式本身不具有可理解性,使得人們對網(wǎng)絡(luò)的學(xué)習(xí)和決策過程難以理解,從而,縮短基于MAS的數(shù)據(jù)挖掘模型的后向傳播自動選擇法的網(wǎng)絡(luò)訓(xùn)練時(shí)間和使其變得具有可理解性是被人們廣泛關(guān)注的問題。
(三)基于MAS的數(shù)據(jù)挖掘模型的貝葉斯自動選擇法
基于MAS的數(shù)據(jù)挖掘模型的貝葉斯自動選擇法通過運(yùn)用貝葉斯分類算法,可以預(yù)測一個(gè)給定樣本屬于某一類別的概率,要理解這一自動選擇方法,需要人們具有較強(qiáng)的學(xué)習(xí)和推理能力?;贛AS的數(shù)據(jù)挖掘模型的貝葉斯自動選擇法對于人們來說,經(jīng)過學(xué)習(xí)和推理,可以很容易被人們所理解,但是其準(zhǔn)確性卻有待提高,這是由于貝葉斯定理的自身限制所造成的。貝葉斯定理本身的成立就需要一個(gè)很強(qiáng)的獨(dú)立性假設(shè)前提,然而這種假設(shè)前提在實(shí)際情況中通常并不是成立的,因而,其自身的性質(zhì)決定著其準(zhǔn)確性會下降。使用基于MAS的數(shù)據(jù)挖掘模型的貝葉斯自動選擇法,通常先假設(shè)一個(gè)屬性值對給定類的影響?yīng)毩⒂谄渌鼘傩缘闹担哂歇?dú)立條件,它可以對構(gòu)造貝葉斯分類器時(shí)所需要的計(jì)算量大大縮減,簡化計(jì)算。
綜上所述,基于MAS的數(shù)據(jù)挖掘模型自動選擇法,目前仍然處在一個(gè)逐步完善的階段,雖然人們對運(yùn)用它解決問題的需求隨著社會的發(fā)展越來越大,但是由于基于MAS的數(shù)據(jù)挖掘模型的自動選擇法針對不同的數(shù)據(jù)對象需要不同的數(shù)據(jù)算法來做為基礎(chǔ)的理論依據(jù),而我現(xiàn)有的分類數(shù)據(jù)算法理論并不能滿足該方面的需求,基于MAS的數(shù)據(jù)挖掘模型的自動選擇法人需要我們這代人甚至多代人的努力才能完全實(shí)現(xiàn)智能化,更好的為人們的生活服務(wù)。為了能過讓人們對數(shù)據(jù)處理起來更加的方便快捷,同時(shí)利用最少的時(shí)間獲取最有意義和價(jià)值的數(shù)據(jù)信息,歷史的重任需要我們這代人加倍努力才行,相信我們新時(shí)代的人們一定努力實(shí)現(xiàn)它,為我們自己加油!
參考文獻(xiàn):
[1]李春生;檀坤;;基于Multi-Agent的數(shù)據(jù)挖掘模型及其應(yīng)用[J];長江大學(xué)學(xué)報(bào)(自然科學(xué)版)理工卷;2011年04期
[2]李春生;單繼輝;楊冬黎;;基于規(guī)則的數(shù)據(jù)挖掘算法選擇機(jī)制研究[J];長江大學(xué)學(xué)報(bào)(自然科學(xué)版)理工卷;2012年03期
[3]鄭慶生;韓大匡;;高階神經(jīng)網(wǎng)絡(luò)在儲層分布參數(shù)定量預(yù)測中的應(yīng)用[J];地球物理學(xué)進(jìn)展;2012年02期
作者簡介:朱巖(1982- ),男(漢族),陜西咸陽,華東師范大學(xué)碩士,主要研究方向:軟件工程。