摘 要:隨著計算機的普及,我們的生活逐漸進入大數(shù)據(jù)時代,可通過數(shù)據(jù)搜索質(zhì)量較高的餐館、飯店,也可通過數(shù)據(jù)使商家更加清晰的了解用戶的想法,以滿足用戶的需求,更好的為用戶提供服務(wù)。這也使得在大數(shù)據(jù)分析和決策制定等方面的作用至關(guān)重要,而本次實驗主要研究計算機數(shù)據(jù)挖掘技術(shù)的開發(fā)和應(yīng)用進行深入的分析。
關(guān)鍵詞:計算機;數(shù)據(jù)挖掘;開發(fā)與應(yīng)用
數(shù)據(jù)挖掘技術(shù)是一門利用某種算法對數(shù)據(jù)庫中數(shù)據(jù)進行處理以提取隱含重要信息的交叉性學(xué)科,而由于在進行數(shù)據(jù)挖掘的過程中需要進行大量的數(shù)據(jù)分析、搜集和計算等工作,因此需要伴隨著計算機的使用,這也使得數(shù)據(jù)挖掘技術(shù)的發(fā)展和計算機科學(xué)的進行相輔相成[1]。數(shù)據(jù)挖掘技術(shù)是與20實際70年代開始得到迅猛的發(fā)展,并且被各界學(xué)者和企事業(yè)極大的關(guān)注。現(xiàn)階段,數(shù)據(jù)挖掘技術(shù)已經(jīng)被廣泛使用到社會生活中的各個方面,比如用戶需求挖掘、產(chǎn)品數(shù)據(jù)分析、市場分析分析等[2]。
一、計算機挖掘技術(shù)的過程簡介
(一)確定數(shù)據(jù)庫和數(shù)據(jù)挖掘的目的
在數(shù)據(jù)挖掘過程中,首先需要確定數(shù)據(jù)庫和數(shù)據(jù)挖掘的目的。其由于是數(shù)據(jù)挖掘中存在的方法較多,不同的方法造成的影響也是不僅相同,因此只有確定數(shù)據(jù)挖掘的目的,才可選擇合適正確的數(shù)據(jù)挖掘方法,這也是確定數(shù)據(jù)庫和數(shù)據(jù)挖掘的目的的關(guān)鍵所在。
(二)數(shù)據(jù)選擇和預(yù)處理
數(shù)據(jù)選擇和預(yù)處理是計算機挖掘技術(shù)過程中的第二步,其中數(shù)據(jù)選擇是指根據(jù)數(shù)據(jù)挖掘的目的從數(shù)據(jù)庫中選擇合適的目標(biāo)數(shù)據(jù),預(yù)處理則是對選擇的目標(biāo)數(shù)據(jù)進一步搜索。而進行預(yù)處理的原因為:數(shù)據(jù)庫中的數(shù)據(jù)的數(shù)量過于龐大,存在大量冗余數(shù)據(jù)以及存在錯誤的信息,而預(yù)處理就是將這些冗余信息和錯誤信息進行篩選剔除,保證數(shù)據(jù)分析的正確性[3]。
(三)數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是整個過程中的核心,其主要包括三步:首先根據(jù)數(shù)據(jù)挖掘的不低確定數(shù)據(jù)挖掘技術(shù)的類型和采用的算法,其次是根據(jù)數(shù)據(jù)挖掘的算法結(jié)構(gòu)建立數(shù)學(xué)模型;最后是在計算機上利用算法進行數(shù)據(jù)挖掘并得到相應(yīng)的結(jié)果[4]。其中首先確定朱解決挖掘技術(shù)的類型和采用的算法,原因是算法是數(shù)據(jù)挖掘的精髓,只有確定合適的算法,才可保證數(shù)據(jù)結(jié)果的準(zhǔn)確性,是數(shù)據(jù)挖掘才更具有意義。
(四)評估結(jié)果
在利用計算機進行數(shù)據(jù)挖掘得到結(jié)果后,需要對得到的結(jié)果進行評估。如果檢測的記過比較合理,便可使用,而如果檢測的結(jié)果和現(xiàn)實存在一定的差異,則需要重新選取數(shù)據(jù)挖掘的算法和模型。
二、計算機數(shù)據(jù)挖掘技術(shù)的開發(fā)
(一)基于傳統(tǒng)統(tǒng)計方法的數(shù)據(jù)挖掘技術(shù)
隨著技術(shù)的普遍發(fā)展,出現(xiàn)了新型的統(tǒng)計方法,但是某些傳統(tǒng)統(tǒng)計放在在數(shù)據(jù)挖掘中仍然使用,比如抽樣、多遠(yuǎn)統(tǒng)計、統(tǒng)計預(yù)測三種方法。其中抽樣是應(yīng)用較為廣泛的一種方法,其主要針對數(shù)據(jù)庫內(nèi)的數(shù)據(jù)較大的情況,通過隨機選取某些樣本進行檢測;多遠(yuǎn)統(tǒng)計是指針對含有多個統(tǒng)計量的數(shù)據(jù)庫;統(tǒng)計預(yù)測則通常用來利用先驗信息和其他知識對數(shù)據(jù)發(fā)展的趨勢進行預(yù)測。
(二)基于可視化技術(shù)的數(shù)據(jù)挖掘技術(shù)
可視化技術(shù)也是常見的方式。一般來說可視化技術(shù)的應(yīng)用可以更加清晰的表明數(shù)據(jù)之間存在的關(guān)系以及數(shù)據(jù)特征,其常用的方式為:圖示、表格等。而在實際應(yīng)用中,一元數(shù)據(jù)的可視化已經(jīng)達到一定的水平,并且被廣泛的使用,但是對于多元數(shù)據(jù)的可視化技術(shù)的應(yīng)用方面,仍然存在這一定的缺陷,需要進一步研究。
(三)基于聯(lián)機分析處理的數(shù)據(jù)挖掘技術(shù)
聯(lián)機分析處理主要針對于聯(lián)機中的用戶組,其主要進行多遠(yuǎn)數(shù)據(jù)的數(shù)據(jù)挖掘。在聯(lián)機中,如果某一用戶提出數(shù)據(jù)分析的需求,可以通過選擇相應(yīng)的數(shù)據(jù)挖掘算法,對相應(yīng)的數(shù)據(jù)庫實行數(shù)據(jù)挖掘。并且在實際應(yīng)用中,可以針對數(shù)據(jù)挖掘內(nèi)數(shù)據(jù)特征的不同,選擇對聯(lián)系分析處理和可視化技術(shù)進行選擇,從而進行使用。
(四)基于決策樹的數(shù)據(jù)挖掘技術(shù)
決策數(shù)是利用大量的數(shù)據(jù)歸納出一系列因果關(guān)系,基于其中的邏輯和規(guī)律關(guān)系,構(gòu)成關(guān)系圖,而關(guān)系圖主要以樹狀圖為主。其主要的作用是分析內(nèi)部結(jié)構(gòu),因此在分類、分析與預(yù)測中有著廣泛應(yīng)用。
(五)基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘技術(shù)
神經(jīng)網(wǎng)絡(luò)方法是模擬人的神經(jīng)進行數(shù)據(jù)處理的方法,其結(jié)果包括輸入層、隱藏層和輸出層[5]。而在神經(jīng)網(wǎng)絡(luò)使用之前需要進行測試,即將大量的數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò)中,并根據(jù)相關(guān)的結(jié)果調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù),從而保證數(shù)據(jù)的可靠性。
(六)基于遺傳算法的數(shù)據(jù)挖掘技術(shù)
遺傳算法,主要基于進化論的“優(yōu)勝劣汰”的自然規(guī)則,對數(shù)據(jù)中“優(yōu)”的一方進行保存,對“劣”的一方進行剔除或者改造,從而保證算法達到最優(yōu)水平,得到最優(yōu)的結(jié)果[6]。
三、計算機數(shù)據(jù)挖掘技術(shù)的應(yīng)用
(一)數(shù)據(jù)挖掘技術(shù)在市場營銷上的應(yīng)用
我國作為人口大國,同樣也是消費者的大國。每個消費者的信息都對市場營銷起著重要的作用,有助于市場了解消費者的需求,更好的為消費者服務(wù)。同時也可以擴大企業(yè)的效益,推動消費者的消費行為。而數(shù)據(jù)挖掘技術(shù)在市場營銷的應(yīng)用中,是基于市場營銷學(xué)的市場細(xì)分原理并利用計算機數(shù)據(jù)挖掘技術(shù)對不同商品消費者的年齡、購買數(shù)量、購買頻率、性別、購物習(xí)慣以及購物金額等相關(guān)信息進行分析,從而提到數(shù)據(jù)分析的效率,而常用的方式便是通過對信用卡的使用情況進行分析,不同促銷形式下消費者的購買情況進行分析。
(二)數(shù)據(jù)挖掘技術(shù)在指導(dǎo)投資上的應(yīng)用
商品或者股票的價格并不是保持不變的,也不是變化的毫無規(guī)律的,因此可以通過對價格的變化趨勢進行分析,從而預(yù)測未來的變化,以保證具有較高的投資收益。而計算機數(shù)據(jù)挖掘在知道投資上的應(yīng)用便是是指利用數(shù)據(jù)挖掘分析某種商品或骨片在一定時期的數(shù)據(jù)對價格的趨勢進行預(yù)測,降低投資的風(fēng)險。
(三)數(shù)據(jù)挖掘技術(shù)在其他領(lǐng)域的領(lǐng)用
數(shù)據(jù)挖掘技術(shù)除了可應(yīng)用到市場營銷和指導(dǎo)投資等方面,在社會生活的其他方面也是比較常見的,比如在文化建設(shè)方面,相關(guān)部門或者圖書館可以利用數(shù)據(jù)挖掘技術(shù)對消費者的數(shù)據(jù)進行分析,了解其??吹臄?shù)目類型,從而進行文化建設(shè)等。此外,其在企業(yè)利潤的最大化、行業(yè)生產(chǎn)指標(biāo)設(shè)計、資金鏈管理設(shè)計與風(fēng)險控制等方面也得到較為廣泛的應(yīng)用。
總結(jié):數(shù)據(jù)挖掘技術(shù)在現(xiàn)在社會生活中具有至關(guān)重要的作用,因此需要深入的了解數(shù)據(jù)挖掘技術(shù),熟練的掌握計算機數(shù)據(jù)挖掘技術(shù)。
參考文獻:
[1]郝園園. 計算機數(shù)據(jù)挖掘技術(shù)的開發(fā)及其應(yīng)用探究[J]. 信息化建設(shè),2015(10):105.
[2]李春安. 基于WebGIS的土壤作物動態(tài)信息智能系統(tǒng)的開發(fā)與應(yīng)用[D].吉林農(nóng)業(yè)大學(xué),2013.
[3]徐欣航. 基于電廠運行參數(shù)最優(yōu)值確定的評測系統(tǒng)的開發(fā)與應(yīng)用[D].河北科技大學(xué),2012.
[4]梁瑩. 基于數(shù)據(jù)挖掘技術(shù)的客戶消費行為分析系統(tǒng)的開發(fā)與應(yīng)用[D].廣西大學(xué),2011.
[5]陳桂香. 大數(shù)據(jù)對我國高校教育管理的影響及對策研究[D].武漢大學(xué),2017.
[6]李鋼. 大數(shù)據(jù)時代文本挖掘的版權(quán)例外[J]. 圖書館工作與研究,2016(03):28-31+46.
作者簡介:
姓名:陳新昕(1999.02--);性別:男,籍貫:湖北省武漢人,學(xué)歷:本科,畢業(yè)于武漢東湖學(xué)院;現(xiàn)有職稱:web前端工程師;研究方向:前端開發(fā).
(武漢東湖學(xué)院 ? 湖北 ?武漢 ? 430212)