王洪飛
摘 要:隨著信息技術(shù)的快速發(fā)展,計算機功能也逐漸融入了一些統(tǒng)計學理論,計算機數(shù)據(jù)挖掘技術(shù)應(yīng)運而生,并且該技術(shù)也隨著云計算、云存儲技術(shù)的發(fā)展而發(fā)展,為人們解決了很多問題?;诖?,本文從計算機數(shù)據(jù)挖掘技術(shù)的過程入手,對計算機數(shù)據(jù)挖掘技術(shù)的開發(fā)和應(yīng)用進行了探討,旨在促進計算機數(shù)據(jù)挖掘技術(shù)的進一步發(fā)展。
關(guān)鍵詞:計算機;數(shù)據(jù)挖掘技術(shù);開發(fā);應(yīng)用
中圖分類號: G2 文獻標識碼: A 文章編號: 1673-1069(2016)27-147-2
0 引言
所謂數(shù)據(jù)挖掘技術(shù),就是幫助人們在眾多信息中查找出所需要信息的一種技術(shù),該技術(shù)在我國出現(xiàn)的時間比較晚,但卻以其特殊的功能得到了快速發(fā)展。該技術(shù)不僅具備計算機技術(shù)的特性,同時還兼具了統(tǒng)計學功能。在信息數(shù)量不斷增加的今天,想要從中搜索到需要的信息不是一件簡單的事,計算機數(shù)據(jù)挖掘技術(shù)成功地為人們解決了這個困擾,受到了越來越多人的歡迎。
1 計算機數(shù)據(jù)挖掘技術(shù)的過程簡介
1.1 確定數(shù)據(jù)庫和數(shù)據(jù)挖掘的目的
數(shù)據(jù)挖掘技術(shù)功能比較多,而想要充分的利用該技術(shù),首先必須確定本次數(shù)據(jù)挖掘的目的,進而根據(jù)目的選擇相應(yīng)的數(shù)據(jù)庫。因為計算機數(shù)據(jù)挖掘技術(shù)中包含多種數(shù)據(jù)挖掘方法,不同的數(shù)據(jù)挖掘目的應(yīng)該采用不同的數(shù)據(jù)挖掘方法,否則會直接影響數(shù)據(jù)挖掘結(jié)果的準確性,可見確定數(shù)據(jù)挖掘的目的和相應(yīng)的數(shù)據(jù)庫是利用數(shù)據(jù)挖掘技術(shù)的關(guān)鍵點。
1.2 數(shù)據(jù)選擇和預(yù)處理
確定了數(shù)據(jù)挖掘的目的和相應(yīng)的數(shù)據(jù)庫之后,接下來就需要在該數(shù)據(jù)庫中提取一部分目標數(shù)據(jù),需要注意的是,必須要確保目標數(shù)據(jù)中包含需要的信息,并將該目標數(shù)據(jù)作為數(shù)據(jù)挖掘的一個主要范圍,這個過程叫作數(shù)據(jù)選擇。確定了目標數(shù)據(jù)之后,需要對目標數(shù)據(jù)進一步處理,將大部分的無用信息和錯誤信息進行刪除,保留有用信息,這個過程叫作預(yù)處理,其實際作用就是精簡目標數(shù)據(jù)。
1.3 數(shù)據(jù)挖掘
首先,根據(jù)數(shù)據(jù)挖掘的目的確定數(shù)據(jù)挖掘技術(shù)的類型和采用的算法,算法是數(shù)據(jù)挖掘的精髓所在,合適的算法能夠使數(shù)據(jù)挖掘結(jié)果可靠性提高,更有實際借鑒意義。其次,由于數(shù)據(jù)挖掘的算法針對的是一個數(shù)學模型,應(yīng)根據(jù)數(shù)據(jù)挖掘的算法構(gòu)建數(shù)學模型,以便實現(xiàn)數(shù)據(jù)挖掘算法對目標數(shù)據(jù)的處理。最后,在計算機上利用算法進行數(shù)據(jù)挖掘并得到相應(yīng)結(jié)果。
1.4 評估結(jié)果
該階段的主要目的就是對數(shù)據(jù)挖掘的結(jié)果進行科學分析、合理評估。盡管我們利用數(shù)據(jù)挖掘技術(shù)得到了結(jié)果,但是結(jié)果正確與否還需要進一步驗證,如果結(jié)果不符合本次數(shù)據(jù)挖掘的目的,則需要對數(shù)據(jù)挖掘算法和數(shù)學模型進行重新選擇;如果結(jié)果符合本次要求,就可以將這些數(shù)據(jù)結(jié)果應(yīng)用到實踐過程中,進而達到指導(dǎo)工作或者提高工作效率的目的。
2 計算機數(shù)據(jù)挖掘技術(shù)的開發(fā)及工具
2.1 傳統(tǒng)統(tǒng)計方法
傳統(tǒng)的統(tǒng)計方法比較多,例如抽樣技術(shù)、多元統(tǒng)計分析、統(tǒng)計預(yù)測等都屬于傳統(tǒng)統(tǒng)計方法。其中,抽樣技術(shù)就是在眾多數(shù)據(jù)中提取部分信息作為樣本數(shù)據(jù),目的就是減少數(shù)據(jù)分析量;多元統(tǒng)計分析主要針對對象是結(jié)構(gòu)復(fù)雜并且維數(shù)較高的數(shù)據(jù)或因子;而統(tǒng)計預(yù)測主要分為序列分析和回歸分析兩種預(yù)測分析方法。
2.2 可視化技術(shù)
利用數(shù)據(jù)挖掘技術(shù)可以得到想要的數(shù)據(jù)結(jié)果,但是通常情況下,想要發(fā)現(xiàn)這些數(shù)據(jù)結(jié)果中隱含的某些特征,就需要借助一些圖表、散點圖等方式,將其直觀地表現(xiàn)出來。當前可視化技術(shù)的難點主要集中在對高維數(shù)據(jù)的可視化方面。
2.3 聯(lián)機分析處理
聯(lián)機分析處理主要用于分析多維數(shù)據(jù),在該分析過程中,需要多個用戶的積極配合,同時,用戶主動對分析算法進行分析篩選,也有助于對數(shù)據(jù)的深入探索。
2.4 決策樹
決策樹的建立基礎(chǔ)是具有一定規(guī)則的,主要用來對數(shù)據(jù)進行各種分類和預(yù)測。決策樹包含的算法也比較多,例如SLIQ、SPRINT、CHAID、CART、ID3、C4.5等等。其中,前兩種算法還可以處理分類屬性和連續(xù)性屬性,并由極大的訓練集對決策樹進行歸納。
2.5 計算機神經(jīng)網(wǎng)絡(luò)
將醫(yī)學界對人體神經(jīng)元的研究成果作為參考,我們也對計算機進行了深入研究,并形成了計算機神經(jīng)網(wǎng)絡(luò)。計算機神經(jīng)網(wǎng)絡(luò)可以大致分為輸入、輸出和處理單元三個層面。利用計算機神經(jīng)網(wǎng)絡(luò)技術(shù),可以實現(xiàn)對數(shù)據(jù)的調(diào)整、計算和整理。
2.6 遺傳算法
在自然界中,基因可以通過突變、聯(lián)合或者選擇等不同的過程進行自我優(yōu)化,以這種進化論為基礎(chǔ),可以將現(xiàn)代群體按照一定規(guī)則進行重新組合,進而得出新的群體。按照這種思想,我們可以對數(shù)據(jù)模型進行重新組合,得到更加適合并且得到優(yōu)化的一種新的數(shù)據(jù)算法。
3 計算機數(shù)據(jù)挖掘技術(shù)的應(yīng)用
3.1 市場營銷方面的應(yīng)用
現(xiàn)代消費者在購物的時候,利用POS機刷卡結(jié)賬的行為非常普遍,而在這個過程中,關(guān)于這些消費者的一些信息就可以被銷售商所采集,并且消費者越多,銷售商所采集到的有用信息就越多,這些信息對于市場營銷具有非常重要的作用。不同的銷售商或者生產(chǎn)商,可以根據(jù)所采集到的有用信息,分析消費者的各種不同需求、購物習慣,從而進一步分析消費者的消費心理,最終對消費者的下一步消費行為進行推斷。例如,企業(yè)可以利用消費者使用信用卡的情況分析商品的銷售情況,也可以通過某些促銷活動,確認消費者的消費意向等等。以上種種分析結(jié)果,都離不開計算機數(shù)據(jù)挖掘技術(shù),由此可見,計算機數(shù)據(jù)挖掘技術(shù)不僅能夠幫助相關(guān)企業(yè)了解顧客需求,而且還能夠為企業(yè)進行重大商業(yè)決策提供準確數(shù)據(jù)信息,大大增強了企業(yè)的市場競爭力。
3.2 金融投資方面的應(yīng)用
數(shù)據(jù)挖掘技術(shù)在金融投資方面的應(yīng)用,主要利用模型預(yù)測法和統(tǒng)計回歸技術(shù),集中在對投資進行評估以及對股票交易市場的預(yù)測。眾所周知,金融投資的風險性較大,因此在投資之前,有必要對各種數(shù)據(jù)進行分析、統(tǒng)計、總結(jié),規(guī)避可能存在的各種風險,確保投資方向的準確性。由于一切事物的發(fā)展都具有趨向性,我們可以根據(jù)這種趨向?qū)ζ溥M行預(yù)測。也就是說,我們可以通過對現(xiàn)有數(shù)據(jù)進行深度分析,挖掘其中可能存在的一些數(shù)據(jù)關(guān)系,然后根據(jù)這些關(guān)系實現(xiàn)對投資評估、股票市場等的預(yù)測,幫助投資者做出科學合理的選擇。
3.3 其他領(lǐng)域的應(yīng)用
在半導(dǎo)體領(lǐng)域,利用數(shù)據(jù)挖掘技術(shù)可以發(fā)現(xiàn)有問題的半導(dǎo)體元件,極大提高了產(chǎn)品的生產(chǎn)質(zhì)量;而在電子商務(wù)領(lǐng)域,數(shù)據(jù)挖掘技術(shù)也加快了用戶查找數(shù)據(jù)的速率,并能夠根據(jù)用戶的瀏覽記錄對用戶的需求和喜好進行深入分析,適時為用戶推薦需要的產(chǎn)品,實現(xiàn)了獨特的個性化服務(wù)。此外,數(shù)據(jù)挖掘技術(shù)還被廣泛地應(yīng)用到了一些生產(chǎn)型企業(yè),幫助企業(yè)實現(xiàn)企業(yè)利潤最大化,為企業(yè)提供風險參考依據(jù)等等,總之,數(shù)據(jù)挖掘技術(shù)在各種領(lǐng)域都得到了普遍應(yīng)用。
4 結(jié)束語
作為一種重要的分析方法和有效工具,計算機數(shù)據(jù)挖掘技術(shù)在各個領(lǐng)域都得到了快速發(fā)展,并且廣受歡迎。利用計算機數(shù)據(jù)挖掘技術(shù),用戶可以得到自己想要的數(shù)據(jù)結(jié)果,并通過對這些結(jié)果的進一步分析,為用戶制定決策提供參考依據(jù)。未來,我們相信,隨著計算機技術(shù)的快速發(fā)展,計算機數(shù)據(jù)挖掘技術(shù)能夠為用戶解決更加棘手的問題,該技術(shù)的應(yīng)用范圍將會越來越廣。
參 考 文 獻
[1] 夏天維.計算機數(shù)據(jù)挖掘技術(shù)的開發(fā)及其應(yīng)用探究[A].決策與信息雜志社,北京大學經(jīng)濟管理學院.“決策論壇——管理科學與工程研究學術(shù)研討會”論文集(下)[C].決策與信息雜志社,北京大學經(jīng)濟管理學院,2016:1.
[2] 宋金城.計算機數(shù)據(jù)挖掘技術(shù)的開發(fā)及其應(yīng)用探究[J].計算機光盤軟件與應(yīng)用,2013,23:130+132.
[3] 沈文淵,丁穎.計算機數(shù)據(jù)挖掘技術(shù)的開發(fā)及其應(yīng)用探究[J].信息系統(tǒng)工程,2014,06:87.
[4] 郝園園.計算機數(shù)據(jù)挖掘技術(shù)的開發(fā)及其應(yīng)用探究[J].信息化建設(shè),2015,10:105.