李怡
摘 要:隨著時(shí)代科技的不斷進(jìn)步,互聯(lián)網(wǎng)信息技術(shù)已經(jīng)滲透到社會(huì)中的各個(gè)層面。數(shù)據(jù)庫的運(yùn)用使得企業(yè)信息、國民生態(tài)、社會(huì)狀態(tài)等方面都有了可靠的參考依據(jù)。目前數(shù)據(jù)庫的功能都是存儲(chǔ)、查詢、統(tǒng)計(jì)等,通過這些數(shù)據(jù)獲得的信息量只占整個(gè)數(shù)據(jù)庫信息量的一小部分。怎樣才能對數(shù)據(jù)庫中真正具有價(jià)值的信息進(jìn)行使用,從而提高有效信息的利用程度,這就需要新的技術(shù)來進(jìn)行這方面的工作。數(shù)據(jù)挖掘技術(shù)從被開發(fā)以來便被廣泛利用,它能夠有效的實(shí)現(xiàn)對有價(jià)值信息的自動(dòng)、智能和快速的分析與提出。數(shù)據(jù)挖掘技術(shù)在分析大量數(shù)據(jù)時(shí)具有明顯優(yōu)勢,在電力、金融、保險(xiǎn)等行業(yè)得到廣泛的運(yùn)用。
關(guān)鍵詞:數(shù)據(jù)挖掘 應(yīng)用范圍 科學(xué)研究
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2017)08(c)-0021-02
21世紀(jì)被稱為互聯(lián)網(wǎng)時(shí)代,信息技術(shù)已經(jīng)成為國民發(fā)展的重要組成部分。信息網(wǎng)絡(luò)技術(shù)在各行各業(yè)都得到廣泛的利用,有效提高的企業(yè)發(fā)展的經(jīng)濟(jì)水平與管理水平。但是,計(jì)劃經(jīng)濟(jì)轉(zhuǎn)向市場經(jīng)濟(jì)的速度逐漸加快,競爭也是逐漸激烈,這就導(dǎo)致各行業(yè)的信息系統(tǒng)積累了大量的數(shù)據(jù)信息,并且由于沒有專業(yè)的信息技術(shù)對數(shù)據(jù)進(jìn)行分類處理,使得信息數(shù)據(jù)愈加增多,造成存儲(chǔ)混亂,使用不便。數(shù)據(jù)挖掘技術(shù)的出現(xiàn)使得這些問題得到了有效的解決。目前在我國的信息化管理、科學(xué)研究、電力企業(yè)、金融行業(yè)、醫(yī)學(xué)醫(yī)藥業(yè)等方面,對數(shù)據(jù)挖掘技術(shù)的使用非常頻繁。在大數(shù)據(jù)背景下的企業(yè)發(fā)展受到市場經(jīng)濟(jì)的阻礙,數(shù)據(jù)挖掘技術(shù)能有效的對大數(shù)據(jù)進(jìn)行處理,并且實(shí)現(xiàn)自動(dòng)化、智能化,加強(qiáng)海量數(shù)據(jù)的有效利用,進(jìn)而促進(jìn)互聯(lián)網(wǎng)時(shí)代的發(fā)展。
1 數(shù)據(jù)挖掘技術(shù)的概述
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。人們把原始數(shù)據(jù)看作是形成知識(shí)的源泉,就像從礦石中采礦一樣。巖石數(shù)據(jù)可以是結(jié)構(gòu)化的,如廣西數(shù)據(jù)庫中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的。也可以是歸納的。發(fā)現(xiàn)了的知識(shí)可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以用于數(shù)據(jù)自身的維護(hù)。所以,數(shù)據(jù)挖掘是一門很廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等方面的學(xué)者和工程技術(shù)人員。
2 數(shù)據(jù)挖掘的過程
數(shù)據(jù)挖掘的整個(gè)過程是需要對既有的數(shù)據(jù)進(jìn)行挖掘計(jì)算并建立數(shù)據(jù)模型,以及圍繞數(shù)據(jù)挖掘所進(jìn)行的預(yù)處理和結(jié)果表達(dá)等一系列的步驟,這個(gè)過程需要反復(fù)進(jìn)行,反復(fù)處理,保證數(shù)據(jù)結(jié)果的實(shí)用性。數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)的重要組成部分,其主要步驟為以下幾點(diǎn)。
2.1 目標(biāo)定義
數(shù)據(jù)挖掘需要確定明確的目標(biāo)。挖掘目標(biāo)的定義是需要具有數(shù)據(jù)挖掘經(jīng)驗(yàn)的技術(shù)人員,以及在該領(lǐng)域具有權(quán)威的專家和最終用戶之間相互配合、相互協(xié)作,目標(biāo)定義是否適度對數(shù)據(jù)挖掘的成功概率有較大的影響。數(shù)據(jù)挖掘的目標(biāo)定義既是對實(shí)際工作中對過程的要求,也是通過對各種學(xué)習(xí)算法的對比進(jìn)而確定可用的算法。
2.2 數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)挖掘的重要組成部分,所占比例基本都在一半以上。從數(shù)據(jù)的選擇、預(yù)處理以及變化三個(gè)方面進(jìn)行有序的準(zhǔn)備。數(shù)據(jù)選擇是從既有的數(shù)據(jù)信息庫中提取有關(guān)數(shù)據(jù),作為目標(biāo)。數(shù)據(jù)預(yù)處理是隊(duì)數(shù)據(jù)目標(biāo)進(jìn)行相應(yīng)的處理,反復(fù)處理,直到數(shù)據(jù)目標(biāo)符合數(shù)據(jù)挖掘的要求。數(shù)據(jù)變化的作用就是精減數(shù)據(jù)維數(shù),也就是在進(jìn)行數(shù)據(jù)挖掘前,對目標(biāo)數(shù)據(jù)的特征進(jìn)行處理篩選,選出具有價(jià)值的特征,以免在進(jìn)行數(shù)據(jù)挖掘時(shí)進(jìn)行不必要的特征分析以及考慮刪減個(gè)數(shù)。
2.3 數(shù)據(jù)挖掘
這個(gè)階段便是數(shù)據(jù)挖掘中的實(shí)際操作階段。首先要確定采用哪種類型的方法進(jìn)行數(shù)據(jù)挖掘,其次,是對開始選擇的挖掘方法選取一種計(jì)算算法。最后,在保證上述的準(zhǔn)備階段不出現(xiàn)任何問題后,就能進(jìn)行具體的數(shù)據(jù)挖掘,也就是運(yùn)行數(shù)據(jù)挖掘算法模塊。這個(gè)階段才是數(shù)據(jù)挖掘的主要階段,也是數(shù)據(jù)挖掘分析者和相關(guān)領(lǐng)域?qū)<易顬橹匾暤碾A段。
2.4 成果和評估
最終用戶影響著提取信息的分析成果,所以要根據(jù)最終于用戶的決策目的進(jìn)行數(shù)據(jù)分析,并提取其中最具價(jià)值的信息。數(shù)據(jù)挖掘過程中的模式要在完成數(shù)據(jù)提取后進(jìn)行機(jī)器或用戶的評估,對去其中與數(shù)據(jù)挖掘無關(guān)的模式要進(jìn)行刪除,以免對下次運(yùn)算形成干擾。有的模式是無法滿足用戶需求的,對于這種模式不能刪除,而是要將其退回到上一階段。本文所提出的最終用戶基本就是以人為主體的單位,所以要對方向的模式進(jìn)行可視化,或是把提取的數(shù)據(jù)信息運(yùn)用其他用戶易懂的模式展現(xiàn)出來。
3 數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域
數(shù)據(jù)挖掘技術(shù)對于目前的企業(yè)發(fā)展有著重要的作用,從以前的挖掘算法研究到如今的實(shí)際運(yùn)用,都表明了數(shù)據(jù)挖掘技術(shù)的廣泛性和實(shí)用性。目前在已知的領(lǐng)域中,基本都開發(fā)除了許多專業(yè)的數(shù)據(jù)挖掘工具,包括電力、金融、醫(yī)學(xué)、天文、交通等方面的數(shù)據(jù)挖掘工具。
3.1 科學(xué)研究
科學(xué)研究需要時(shí)刻記錄數(shù)據(jù),并且需要大量的實(shí)際信息數(shù)據(jù)進(jìn)行實(shí)驗(yàn)分析,一般的數(shù)據(jù)分析工具對于大數(shù)據(jù)計(jì)算速度緩慢且無法提取有價(jià)值的信息,所以數(shù)據(jù)挖掘技術(shù)就被應(yīng)用進(jìn)科學(xué)領(lǐng)域,并且起到了重要的作用。在天文圖形分析、衛(wèi)星遙感器和DNA分子技術(shù)等方面均取得了不錯(cuò)的成果。有了數(shù)據(jù)挖掘技術(shù)的支持,科學(xué)研究中的數(shù)據(jù)不再被壓縮以及混亂堆放,有效提高了科研工作的效率。其中科學(xué)研究中應(yīng)用數(shù)據(jù)挖掘技術(shù)的還有醫(yī)藥研究、生物研究、地質(zhì)研究、考古研究、星體運(yùn)作規(guī)律研究、化工研究等。
3.2 市場營銷
市場營銷作為企業(yè)發(fā)展的根本保障,幾乎每天都要積累相當(dāng)多的數(shù)據(jù),而市場營銷也是第一個(gè)應(yīng)用數(shù)據(jù)挖掘技術(shù)的領(lǐng)域。數(shù)據(jù)挖掘技術(shù)在市場營銷中的作用主要客戶資源、客戶市場、客戶流失分析和客戶穩(wěn)定等。其中,在客戶細(xì)分與流失模型等方面數(shù)據(jù)挖掘的應(yīng)用較為成熟。在市場營銷中還包括電力行業(yè)、保險(xiǎn)行業(yè)、信用卡業(yè)等方面的應(yīng)用,使得企業(yè)對客戶的了解程度加深,能夠有效判斷客戶的購買模式,從而針對有價(jià)值的客戶進(jìn)行長期合作。
3.3 醫(yī)學(xué)醫(yī)藥
醫(yī)學(xué)行業(yè)的制藥方面可以采用數(shù)據(jù)挖掘技術(shù)針對分子制藥到醫(yī)療診斷等方面提高效益。藥物的合成需要對藥物分子的化學(xué)結(jié)構(gòu)有全面的了解,在藥物分子分析的過程中確定藥物中原子或原子基因所針對哪種病情具有治療作用,可以作為之后的新藥合成時(shí)的依據(jù)。
3.4 金融行業(yè)
金融行業(yè)的數(shù)據(jù)量可以用海量來形容,數(shù)據(jù)挖掘技術(shù)的應(yīng)用有效改善了金融行業(yè)數(shù)據(jù)多卻不能科學(xué)處理的現(xiàn)象。銀行、證券公司等幾乎每天都會(huì)產(chǎn)生非常大的數(shù)據(jù),并且流量速度快,其中包括很多不確定的風(fēng)險(xiǎn)因素,可以利用數(shù)據(jù)挖掘技術(shù)對此進(jìn)行深入分析,比較典型的就是股票的市場預(yù)測以及金融詐騙等。
本文只是列出了典型的幾個(gè)數(shù)據(jù)挖掘技術(shù)應(yīng)用的領(lǐng)域,當(dāng)然數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域不止這些,隨著社會(huì)的不斷發(fā)展,數(shù)據(jù)挖掘技術(shù)也將會(huì)在各個(gè)領(lǐng)域發(fā)揮重要的作用。
4 結(jié)語
就目前已知的所有領(lǐng)域中,基本都有著數(shù)據(jù)挖掘技術(shù)的存在,這不但體現(xiàn)了數(shù)據(jù)挖掘技術(shù)的實(shí)用性,也體現(xiàn)了我國各行業(yè)的發(fā)展正在不斷加快。數(shù)據(jù)挖掘技術(shù)的影響力越來越大,社會(huì)關(guān)注度也越來越高,相信隨著時(shí)代科技的不斷發(fā)展,對未知領(lǐng)域的不斷探索,數(shù)據(jù)挖掘技術(shù)的應(yīng)用范圍必將更加廣泛。
參考文獻(xiàn)
[1] 苗宇.計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的開發(fā)及其應(yīng)用探究[J].城市建設(shè)理論研究:電子版,2016(22):155-156.
[2] 陳建偉,李麗坤.數(shù)據(jù)挖掘技術(shù)研究[J].數(shù)字技術(shù)與應(yīng)用,2016(1):91.endprint