林潘能
摘要:伴隨信息化水平的不斷提高,信息系統(tǒng)的應(yīng)用范圍不斷拓展,與此同時,信息數(shù)據(jù)量不斷增加,由此產(chǎn)生了大數(shù)據(jù),也促進(jìn)了大數(shù)據(jù)挖掘技術(shù)的發(fā)展。本文簡單闡述了大數(shù)據(jù)及數(shù)據(jù)挖掘的概念,并就大數(shù)據(jù)挖掘當(dāng)中數(shù)據(jù)處理與數(shù)據(jù)挖掘兩方面探討了數(shù)學(xué)的運用,間接地表明了數(shù)學(xué)對于大數(shù)據(jù)挖掘的重要性和作用,在對大數(shù)據(jù)進(jìn)行挖掘的過程當(dāng)中應(yīng)充分發(fā)揮數(shù)學(xué)的作用。
關(guān)鍵詞:大數(shù)據(jù)時代 數(shù)據(jù)挖掘 數(shù)學(xué)
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-5349(2018)09-00253-02
隨著全球進(jìn)入信息化時代,現(xiàn)數(shù)據(jù)已滲透于人們生活及工作的各個角落,并逐步成為社會生產(chǎn)的重要因素之一,人們也開始運用大數(shù)據(jù)來改變傳統(tǒng)的生產(chǎn)模式及消費模式,從而推動人類社會進(jìn)入大數(shù)據(jù)時代。在大數(shù)據(jù)時代,數(shù)據(jù)挖掘成為時代的核心,如何深入挖掘大數(shù)據(jù)當(dāng)中有用的信息成為各行業(yè)關(guān)注的重點。數(shù)學(xué)是實施數(shù)據(jù)分析的重要手段,在挖掘大數(shù)據(jù)時,必然要運用到各種數(shù)學(xué)理論及知識。
一、大數(shù)據(jù)挖掘概述
(一)大數(shù)據(jù)的概念及特征
進(jìn)入信息化時代,“大數(shù)據(jù)”已成為人們耳熟能詳?shù)脑~匯。何為“大數(shù)據(jù)”,百度百科是如此定義的:無法在一定時間內(nèi)利用常規(guī)軟件工具捕捉、管理或處理的數(shù)據(jù)集合,需采取新模式才可進(jìn)行處理的信息資產(chǎn)。維克托·邁爾-舍恩伯格及肯尼斯·庫克耶所編寫的《大數(shù)據(jù)時代》當(dāng)中,是如此定義大數(shù)據(jù)的:無法利用隨機分析法而必須采取所有數(shù)據(jù)進(jìn)行分析處理的數(shù)據(jù)。[1]大數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù),現(xiàn)多數(shù)大數(shù)據(jù)均為非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)量大且形式多樣。
大數(shù)據(jù)具5V特征,即Volume(大量),數(shù)據(jù)容量大;Velocity(高速),數(shù)據(jù)獲取及處理速度快;Variety(多樣),數(shù)據(jù)類型多樣;Value(低價值密度),數(shù)據(jù)價值較低;Veracity(真實性),數(shù)據(jù)質(zhì)量較高且真實。相關(guān)統(tǒng)計表明,至2011年,全球數(shù)據(jù)量增長達(dá)1.8ZB,全球人均數(shù)據(jù)資源量超過200GB[2],且近些年來,伴隨信息化水平的不斷提高,信息技術(shù)及信息資源的廣泛應(yīng)用,全球每年數(shù)據(jù)增長率高達(dá)50%,現(xiàn)全球已進(jìn)入大數(shù)據(jù)時代。
(二)數(shù)據(jù)挖掘概念
數(shù)據(jù)挖掘是大數(shù)據(jù)的重點內(nèi)容,其是伴隨大數(shù)據(jù)的出現(xiàn)而逐步形成的新興學(xué)科。對于數(shù)據(jù)挖掘,因側(cè)重點不同,其方法定義也有所差異,最早對于數(shù)據(jù)挖掘的定義是指全面提取數(shù)據(jù)當(dāng)中暗示或未知的可能有用的信息?,F(xiàn)數(shù)據(jù)挖掘已成為一種專業(yè)活動,其不僅僅是一種統(tǒng)計模型技術(shù),而且還有著更深層的知識發(fā)現(xiàn)?,F(xiàn)數(shù)據(jù)挖掘已廣泛應(yīng)用于各領(lǐng)域和各行業(yè),包括教育、科研、市場營銷、制造業(yè)、電信業(yè)、互聯(lián)網(wǎng)產(chǎn)業(yè)等,尤其多用于商業(yè)人工智能研究領(lǐng)域,通過提取大數(shù)據(jù)中潛在的有用的信息或知識,以為商業(yè)決策及建設(shè)提供客觀數(shù)據(jù)依據(jù)。[3]
二、大數(shù)據(jù)挖掘中數(shù)學(xué)的運用
(一)運用于數(shù)據(jù)處理當(dāng)中
實施大數(shù)據(jù)挖掘,首先要對數(shù)據(jù)進(jìn)行收集和初步處理。大數(shù)據(jù)具強時效性,在對數(shù)據(jù)進(jìn)行處理時,對時間的要求非常嚴(yán)格,因此,在有效的時間內(nèi),數(shù)據(jù)必須既要保持高效率,同時又要保證良好的處理效果。若原始數(shù)據(jù)存在噪聲或是不完整、不統(tǒng)一等情況時,還應(yīng)對數(shù)據(jù)進(jìn)行預(yù)處理,以提高數(shù)據(jù)的準(zhǔn)確性;若數(shù)據(jù)量或指標(biāo)集過大,就可從中挑選一些較為重要的與研究結(jié)果相關(guān)的數(shù)據(jù),或是一些能充分反映研究結(jié)果的關(guān)鍵指標(biāo)。
在進(jìn)行數(shù)據(jù)處理的過程當(dāng)中,通常會利用到數(shù)學(xué)當(dāng)中很多常用的或經(jīng)典的分析方法,其中最為常用的便是統(tǒng)計學(xué)方法,如描述性分析法、回歸分析法、相關(guān)性分析法等。其中回歸分析法通常與相關(guān)性分析法相互結(jié)合,在進(jìn)行相關(guān)性分析的基礎(chǔ)上,通過觀察某兩個或多個相關(guān)變量的數(shù)量變化關(guān)系,再建立相應(yīng)的數(shù)學(xué)模式,以利用已知量來推斷未知量。進(jìn)行回歸分析的主要目的在于利用樣本數(shù)據(jù)對參數(shù)進(jìn)行估計,然后通過建數(shù)學(xué)模型,以檢驗、判斷或預(yù)測參數(shù)或模型。另,在進(jìn)行數(shù)據(jù)處理時,還會利用到很多數(shù)學(xué)理論。如測度論,即通過運算結(jié)合兩個或多個單調(diào)測度,以構(gòu)造出一個新的單調(diào)測度,在實施數(shù)據(jù)降維處理時,即可應(yīng)用測度論,相比于利用傳統(tǒng)的主因子分析法,此分析方法可有效保證數(shù)據(jù)的完整性,從而保留更多相關(guān)信息,提高分析結(jié)果的科學(xué)性。
(二)運用于數(shù)據(jù)挖掘當(dāng)中
數(shù)據(jù)挖掘是大數(shù)據(jù)的核心,大數(shù)據(jù)看似復(fù)雜、無規(guī)律,要想從巨大量的數(shù)據(jù)當(dāng)中獲取有效或有價值的信息,就必須實施數(shù)據(jù)挖掘。數(shù)據(jù)挖掘具應(yīng)用性、工程性、集合性和交叉性。在實施數(shù)據(jù)挖掘的過程當(dāng)中,數(shù)學(xué)發(fā)揮著無可替代的作用。在進(jìn)行數(shù)據(jù)挖掘時,常用的數(shù)學(xué)方法有神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)分析法、聚類分析法及決策樹法等,其中最重要的當(dāng)屬聚類分析法,其還廣泛應(yīng)用于其他行業(yè)及領(lǐng)域,包括心理學(xué)、醫(yī)學(xué)、統(tǒng)計學(xué)、市場營銷行業(yè)、數(shù)據(jù)識別等。
聚類分析法是以“物理類取”為基礎(chǔ),依一定標(biāo)準(zhǔn),將具較大相關(guān)性的對象劃為一類,且盡量拉大不同類對象間的差異,從而將數(shù)據(jù)集或關(guān)鍵指標(biāo)進(jìn)行科學(xué)分組。在利用聚類分析法實施數(shù)據(jù)挖掘的過程當(dāng)中,所應(yīng)用到的數(shù)學(xué)方法主要有灰色關(guān)聯(lián)分析、目標(biāo)函數(shù)模糊及區(qū)間值算法等。首先,利用灰色關(guān)聯(lián)分析,通過比較幾何曲線間的幾何形狀來判斷數(shù)據(jù)間的關(guān)聯(lián)性大小,幾何形狀(下轉(zhuǎn)第252頁)(上接第253頁)越相近,表明關(guān)聯(lián)性越大,反之則小?;疑P(guān)聯(lián)分析實施數(shù)據(jù)挖掘多用于樣本數(shù)據(jù)量較小,或是樣本存在殘缺現(xiàn)象的數(shù)據(jù)分析當(dāng)中,如因歷史原因?qū)е聰?shù)據(jù)樣本缺少的數(shù)據(jù)分析,或是因樣本更新速度過快導(dǎo)致樣本數(shù)據(jù)不統(tǒng)一等情況的數(shù)據(jù)分析。其次,利用目標(biāo)函數(shù)模糊,將數(shù)據(jù)實施標(biāo)準(zhǔn)化后再進(jìn)行標(biāo)定,并建立模糊矩陣,然后采取直接聚類或模糊等價矩陣的方式實施數(shù)據(jù)集或關(guān)鍵指標(biāo)的聚類,同時也可利用最大樹法或是編網(wǎng)法進(jìn)行聚類。目標(biāo)函數(shù)模糊具效率高、伸縮性大、處理維度高等特征,是數(shù)據(jù)挖掘過程當(dāng)中使用的重點方法。實際上,目標(biāo)函數(shù)模糊的聚類分析法在人們的日常生活當(dāng)中也非常常見,各類數(shù)據(jù)分析、數(shù)據(jù)挖掘,甚至圖像處理都會應(yīng)用到此方法進(jìn)行數(shù)據(jù)集或關(guān)鍵指標(biāo)的聚類。目標(biāo)函數(shù)模糊法相對科學(xué),其應(yīng)用也相對成熟,是解決聚類問題的有效方法。最后,利用區(qū)間值算法,可對數(shù)據(jù)挖掘過程當(dāng)中一些能進(jìn)行轉(zhuǎn)化的“比較型”數(shù)據(jù),或是有固定取值范圍的數(shù)據(jù)進(jìn)行分析。區(qū)間值算法是一種常用的數(shù)學(xué)方法,其在數(shù)據(jù)挖掘中的應(yīng)用多體現(xiàn)于對不完全的系統(tǒng)信息進(jìn)行挖掘和分析。在實施數(shù)據(jù)挖掘時,所采取的區(qū)間值算法主要有以下三種:數(shù)與區(qū)間聚類法、區(qū)間與區(qū)間聚類法以及矩陣與區(qū)間聚類法,其中數(shù)與區(qū)間聚類法最為常用,可高效、準(zhǔn)確、真實地對不完全的系統(tǒng)信息進(jìn)行統(tǒng)計分析。在對區(qū)間值進(jìn)行確定時,既可由具豐富經(jīng)驗的專家進(jìn)行確定,也可利用統(tǒng)計學(xué)方法進(jìn)行確定。
三、結(jié)語
總而言之,發(fā)展至今,大數(shù)據(jù)已不僅僅是指單純的數(shù)據(jù),其是一種技術(shù),也是一種應(yīng)用。要想真正做好大數(shù)據(jù)的應(yīng)用,首先應(yīng)牢牢掌握其應(yīng)用的理論基礎(chǔ),自數(shù)據(jù)的前期收集著手,進(jìn)行深入分析,并形成結(jié)論。而在整個過程當(dāng)中,大數(shù)據(jù)無論是處理或是挖掘都需數(shù)學(xué)理論的支撐,包括其后期應(yīng)用,也需應(yīng)用到數(shù)學(xué)知識。因此,在實施大數(shù)據(jù)挖掘的過程當(dāng)中,應(yīng)充分重視數(shù)學(xué)的作用,并合理應(yīng)用數(shù)學(xué)知識。
參考文獻(xiàn):
[1]王少博,景劍文,房玄驊.淺談大數(shù)據(jù)背景下數(shù)據(jù)挖掘的方法及其應(yīng)用[J].管理觀察,2017(14):102-103.
[2]張倍嫻.數(shù)學(xué)在大數(shù)據(jù)挖掘中的應(yīng)用研究[J].教育科學(xué)(全文版),2016(4):284.
[3]王小龍.數(shù)學(xué)在數(shù)據(jù)挖掘中的應(yīng)用[J].中國科教創(chuàng)新導(dǎo)刊,2014(2):74.
責(zé)任編輯:劉健