唐雅璇++李麗娟++吳芬琳
摘 要隨著信息化改革的進(jìn)行,大數(shù)據(jù)開(kāi)始出現(xiàn)并得到快速發(fā)展,人們逐漸步入大數(shù)據(jù)時(shí)代?,F(xiàn)階段數(shù)據(jù)信息種類(lèi)多、數(shù)量大,篩選所需信息較為困難,為此需要運(yùn)用數(shù)據(jù)挖掘技術(shù)。該技術(shù)能夠打破信息之間的相互影響與相互干擾,從而提高信息處理效率,為人們提供有效信息。本文主要討論大數(shù)據(jù)時(shí)代背景下數(shù)據(jù)挖掘技術(shù)的應(yīng)用情況。
【關(guān)鍵詞】數(shù)據(jù)挖掘技術(shù) 大數(shù)據(jù) 云計(jì)算 應(yīng)用
1 簡(jiǎn)述相關(guān)概念
1.1 大數(shù)據(jù)
麥肯錫研究院在2011年的一篇文章中正式提出了大數(shù)據(jù)這一概念,并且指出大數(shù)據(jù)應(yīng)用廣泛,在眾多領(lǐng)域中發(fā)揮了重要作用,對(duì)人們生活與工業(yè)生產(chǎn)造成了較大影響。相關(guān)資料表明,2011年期間世界范圍內(nèi)的數(shù)據(jù)信息增加了1.8ZB,每個(gè)人都有超過(guò)200GB的信息資源。數(shù)據(jù)的增長(zhǎng)是必然的發(fā)展趨勢(shì),利用統(tǒng)計(jì)學(xué)的相關(guān)知識(shí)可以發(fā)現(xiàn)數(shù)據(jù)量的增長(zhǎng)速度將達(dá)到50%/年。因此,有效利用大數(shù)據(jù)能夠改善人們生活質(zhì)量,推動(dòng)社會(huì)發(fā)展。
1.2 數(shù)據(jù)挖掘
上世紀(jì)80年代,數(shù)據(jù)挖掘技術(shù)開(kāi)始出現(xiàn),經(jīng)過(guò)長(zhǎng)期發(fā)展,該技術(shù)已經(jīng)得到了較大改進(jìn),并發(fā)生了質(zhì)的變化。之前,對(duì)大數(shù)據(jù)進(jìn)行研究的是為了推動(dòng)人工智能的發(fā)展,因此,數(shù)據(jù)挖掘?qū)夹g(shù)有著較高的要求,需要改進(jìn)、創(chuàng)新原有數(shù)據(jù)。通常情況下,目標(biāo)數(shù)據(jù)不可能直接得到,經(jīng)常隱藏在大量模糊的數(shù)據(jù)庫(kù)中,所以具備一定的挖掘潛力,操作者需要對(duì)相關(guān)信息進(jìn)行分析,從而挖掘出目標(biāo)數(shù)據(jù)。數(shù)據(jù)挖掘在許多領(lǐng)域中都得到了應(yīng)用,對(duì)于商業(yè)領(lǐng)域,管理者在制定決策時(shí)需要對(duì)參考信息進(jìn)行分析,因此需要在各類(lèi)信息中發(fā)現(xiàn)隱藏的信息價(jià)值與信息規(guī)律,進(jìn)而提高決策的準(zhǔn)確性。
2 簡(jiǎn)介數(shù)據(jù)挖掘技術(shù)
2.1 相關(guān)理論
隨著信息技術(shù)的發(fā)展與互聯(lián)網(wǎng)的普及,數(shù)據(jù)挖掘技術(shù)的應(yīng)用范圍逐漸擴(kuò)大,不僅在工廠生產(chǎn)與企業(yè)管理方面存在應(yīng)用價(jià)值,并能應(yīng)用于復(fù)雜且無(wú)規(guī)律的數(shù)據(jù)使用環(huán)境中。該技術(shù)能夠通過(guò)一系列措施挖掘互聯(lián)網(wǎng)平臺(tái)中存儲(chǔ)的數(shù)據(jù)信息,并對(duì)其進(jìn)行處理,最終得出信息集合,以便人們查閱與參考。
2.2 數(shù)據(jù)分析方法
數(shù)據(jù)挖掘技術(shù)依靠相應(yīng)的數(shù)據(jù)分析方法,只有正確選取分析方法,才能在大量數(shù)據(jù)中快速得到所需數(shù)據(jù),發(fā)揮數(shù)據(jù)的應(yīng)用價(jià)值,進(jìn)而推廣數(shù)據(jù)挖掘技術(shù),擴(kuò)大該技術(shù)的應(yīng)用范圍,提升其應(yīng)用價(jià)值。任何一種數(shù)據(jù)都能通過(guò)數(shù)據(jù)挖掘來(lái)得到其內(nèi)在規(guī)律與本質(zhì)特點(diǎn)。實(shí)際情況中經(jīng)常運(yùn)用的數(shù)據(jù)分析方法包括:
2.2.1 特征性數(shù)據(jù)分析法
現(xiàn)階段,數(shù)據(jù)資源在生活與工作中普遍存在,互聯(lián)網(wǎng)平臺(tái)中數(shù)據(jù)具備的功能、特征等獲得了人們的廣泛關(guān)注,并為此開(kāi)展了相關(guān)研究。例如,遺傳算法可以用于分析其他類(lèi)型算法的適合度,該算法借助生物進(jìn)化理論模擬數(shù)據(jù)信息的發(fā)展過(guò)程,構(gòu)建真實(shí)性與虛擬性兼具的數(shù)據(jù)資源;人工神經(jīng)網(wǎng)絡(luò)中包含的信息種類(lèi)繁多,利用數(shù)據(jù)挖掘技術(shù)對(duì)信息進(jìn)行處理,通過(guò)計(jì)算機(jī)來(lái)分析復(fù)雜模式的特征與趨勢(shì);可視化技術(shù)在數(shù)據(jù)挖掘過(guò)程中應(yīng)用較為廣泛,作為一種輔助技術(shù),其通過(guò)動(dòng)畫(huà)、圖像等手段為數(shù)據(jù)挖掘提供操作指導(dǎo)。
2.2.2 聚類(lèi)分析法
該方法是對(duì)抽象、模糊的數(shù)據(jù)信息進(jìn)行收集、整理、分析與編輯,之后將具備相同特征的數(shù)據(jù)集合在一起來(lái)構(gòu)建數(shù)據(jù)庫(kù)。該方法適用范圍廣,較為常見(jiàn),能夠?qū)θ魏螖?shù)據(jù)信息進(jìn)行挖掘。
2.2.3 關(guān)聯(lián)分析法
數(shù)據(jù)之間經(jīng)常存在一定的關(guān)聯(lián)性,然而這種關(guān)聯(lián)較為隱蔽,人們無(wú)法通過(guò)直接觀察發(fā)現(xiàn),而關(guān)聯(lián)分析法能夠利用數(shù)據(jù)之間的關(guān)聯(lián)來(lái)設(shè)計(jì)數(shù)據(jù)關(guān)聯(lián)方案,從而達(dá)到某一信息處理的目標(biāo)。該方法主要應(yīng)用于操作復(fù)雜、要求高的信息處理任務(wù)中。
3 數(shù)據(jù)挖掘技術(shù)的運(yùn)用流程
3.1 數(shù)據(jù)準(zhǔn)備
利用研究者之前構(gòu)建的數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)準(zhǔn)備工作,數(shù)據(jù)庫(kù)中包含大量、多種類(lèi)的數(shù)據(jù),借助這些原始數(shù)據(jù)進(jìn)行挖掘前的準(zhǔn)備。
3.2 數(shù)據(jù)挖掘
進(jìn)行數(shù)據(jù)挖掘工作,選取數(shù)據(jù)挖掘方法時(shí)應(yīng)考慮到挖掘?qū)ο蟮膶?shí)際情況,可以結(jié)合多種挖掘方法,從而了解數(shù)據(jù)之間存在的關(guān)聯(lián)性。
3.3 模式評(píng)估
數(shù)據(jù)挖掘過(guò)程中的相關(guān)數(shù)據(jù)是模式評(píng)估的主要研究對(duì)象,而流程評(píng)估是對(duì)數(shù)據(jù)規(guī)則進(jìn)行研究與分析,并將相關(guān)數(shù)據(jù)轉(zhuǎn)變?yōu)槲淖謨?nèi)容,便于人們參考與利用。
3.4 知識(shí)應(yīng)用
上述工作完成后,便可以得到目的數(shù)據(jù)及其存在的規(guī)律。因?yàn)閿?shù)據(jù)挖掘是為某項(xiàng)工作服務(wù),因此還需要進(jìn)行知識(shí)應(yīng)用。這一步驟是將數(shù)據(jù)結(jié)果應(yīng)用于實(shí)際生活中,進(jìn)而充分發(fā)揮數(shù)據(jù)價(jià)值,提供準(zhǔn)確的參考信息。
4 數(shù)據(jù)挖掘的應(yīng)用范圍
4.1 電信行業(yè)
近幾年,電信行業(yè)進(jìn)入了快速發(fā)展時(shí)期,技術(shù)水平與服務(wù)質(zhì)量都有了顯著提高。企業(yè)為了獲取更高的經(jīng)濟(jì)效益,擴(kuò)大生產(chǎn)量,提升生產(chǎn)效率,需要提高資源整合效果,推進(jìn)數(shù)據(jù)的無(wú)縫連接,通過(guò)數(shù)據(jù)的歸類(lèi)整理來(lái)發(fā)現(xiàn)數(shù)據(jù)中隱藏的特征、規(guī)則與價(jià)值,這一問(wèn)題是電信行業(yè)普遍關(guān)注的焦點(diǎn)。利用數(shù)據(jù)挖掘技術(shù),能夠有效解決上述問(wèn)題,保證該領(lǐng)域的持續(xù)發(fā)展。
4.2 市場(chǎng)營(yíng)銷(xiāo)
市場(chǎng)營(yíng)銷(xiāo)中經(jīng)常應(yīng)用數(shù)據(jù)挖掘技術(shù),并且其應(yīng)用該項(xiàng)技術(shù)的時(shí)間較早。將該技術(shù)運(yùn)用至市場(chǎng)營(yíng)銷(xiāo)中能夠分析用戶的消費(fèi)水平與消費(fèi)習(xí)慣,進(jìn)而改進(jìn)商品制造方案與銷(xiāo)售方案,擴(kuò)大產(chǎn)品的銷(xiāo)售量。目前,數(shù)據(jù)挖掘不僅應(yīng)用于超市購(gòu)物等形式的市場(chǎng)營(yíng)銷(xiāo)中,而且在金融領(lǐng)域的各個(gè)方面都得到了應(yīng)用。
4.3 科學(xué)研究
科學(xué)研究的順利開(kāi)展需要對(duì)大量的數(shù)據(jù)信息進(jìn)行分析,只有完全掌握數(shù)據(jù)規(guī)律與數(shù)據(jù)特征,才能發(fā)現(xiàn)新的知識(shí)與理論。對(duì)數(shù)據(jù)進(jìn)行處理時(shí)需要利用合適的算法,通過(guò)數(shù)據(jù)挖掘技術(shù)對(duì)技術(shù)進(jìn)行分類(lèi)整理,并找到數(shù)據(jù)的特征與內(nèi)在規(guī)律。如,分析DNA的相關(guān)數(shù)據(jù)、探索太空中其他星體等研究?jī)?nèi)容都需要進(jìn)行數(shù)據(jù)挖掘。
5 結(jié)束語(yǔ)
隨著社會(huì)的發(fā)展,數(shù)據(jù)挖掘技術(shù)有了較大的改進(jìn),已經(jīng)應(yīng)用于許多行業(yè)中。對(duì)該技術(shù)的研究是一項(xiàng)長(zhǎng)期工作,需要持續(xù)進(jìn)行。完善數(shù)據(jù)挖掘技術(shù),使其能夠快速、準(zhǔn)確處理數(shù)據(jù)信息,發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)則,充分發(fā)揮其在特殊領(lǐng)域中的應(yīng)用價(jià)值,增加企業(yè)經(jīng)濟(jì)效益。
參考文獻(xiàn)
[1]李平榮.大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].重慶三峽學(xué)院學(xué)報(bào),2014(03):45-47.
[2]李文艷.大數(shù)據(jù)時(shí)代下數(shù)據(jù)挖掘技術(shù)的應(yīng)用[J].數(shù)字技術(shù)與應(yīng)用,2016(05):74-74.
[3]邵燕,陳守森,賈春樸等.探究大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)及應(yīng)用[J].信息與電腦(理論版),2016(10):118-119.
作者單位
廈門(mén)醫(yī)學(xué)院 福建省廈門(mén)市 361023endprint