王照付+李麟
摘要:隨著當(dāng)前大數(shù)據(jù)時(shí)代的到來(lái),在海量數(shù)據(jù)庫(kù)的數(shù)據(jù)處理和數(shù)據(jù)分析過(guò)程中,應(yīng)用有效的數(shù)據(jù)挖掘技術(shù)能夠大大提升數(shù)據(jù)處理的速度,同時(shí)也能夠提升數(shù)據(jù)處理的準(zhǔn)確性。本文我們基于此主要來(lái)探究在大型數(shù)據(jù)庫(kù)的處理過(guò)程中數(shù)據(jù)挖掘技術(shù)的相關(guān)應(yīng)用,我們從大型數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘概念入手,分析大型數(shù)據(jù)挖掘系統(tǒng)的概況以及當(dāng)前比較經(jīng)典的兩類多數(shù)據(jù)挖掘技術(shù)。
關(guān)鍵詞:大數(shù)據(jù)庫(kù);數(shù)據(jù)挖掘;多數(shù)據(jù)
中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)01-0108-02
目前,數(shù)據(jù)挖掘技術(shù)融合了多項(xiàng)學(xué)科內(nèi)容,不僅包含數(shù)據(jù)庫(kù)技術(shù),而且也包含有人工智能以及統(tǒng)計(jì)學(xué)的相關(guān)內(nèi)容,數(shù)據(jù)挖掘技術(shù)在當(dāng)前大數(shù)據(jù)庫(kù)的數(shù)據(jù)處理方面貢獻(xiàn)了非常大的力量,數(shù)據(jù)挖掘系統(tǒng)在數(shù)據(jù)庫(kù)的數(shù)據(jù)處理過(guò)程中作為一個(gè)獨(dú)立模塊而存在,有效的協(xié)調(diào)了不同模塊之間的工作,下面我們首先來(lái)看一下大數(shù)據(jù)時(shí)代之下的數(shù)據(jù)挖掘信息概括。
1 大數(shù)據(jù)時(shí)代下的數(shù)據(jù)挖掘相關(guān)內(nèi)容概述
1.1 數(shù)據(jù)挖掘技術(shù)的基本概念
數(shù)據(jù)挖掘技術(shù)主要就是指在數(shù)據(jù)庫(kù)的信息處理過(guò)程中,通過(guò)特定的方式和特定的手段來(lái)進(jìn)行數(shù)據(jù)信息的搜索。換句話說(shuō)數(shù)據(jù)挖掘技術(shù)是基于當(dāng)前大數(shù)據(jù)時(shí)代而存在的,在海量數(shù)據(jù)信息處理的過(guò)程中,數(shù)據(jù)挖掘技術(shù)能夠大大提升數(shù)據(jù)處理的效率。數(shù)據(jù)挖掘技術(shù)需要從當(dāng)前海量數(shù)據(jù)庫(kù)中不同形式,不同結(jié)構(gòu)不同內(nèi)容的數(shù)據(jù)通過(guò)特定方式搜尋出來(lái),其中包含了大量不同領(lǐng)域的學(xué)科,通過(guò)數(shù)據(jù)挖掘技術(shù)我們能夠做出歸納性的分析和總結(jié),對(duì)于企業(yè)來(lái)說(shuō),數(shù)據(jù)挖掘技術(shù)能夠有效的對(duì)市場(chǎng)進(jìn)行預(yù)測(cè)和評(píng)估,同時(shí)也能夠有效的根據(jù)客戶的信息預(yù)測(cè)其未來(lái)的動(dòng)向等。需要注意的是數(shù)據(jù)挖掘技術(shù)在實(shí)際的應(yīng)用當(dāng)中最重要的一門學(xué)科技術(shù)就是人工智能。
1.2 數(shù)據(jù)挖掘的特點(diǎn)以及應(yīng)用
數(shù)據(jù)挖掘技術(shù)主要有以下幾個(gè)特點(diǎn):
(1)數(shù)據(jù)挖掘的模型是非常復(fù)雜的,數(shù)據(jù)挖掘技術(shù)主要重視的就是數(shù)據(jù)庫(kù)中信息的建模過(guò)程,通過(guò)對(duì)相關(guān)數(shù)據(jù)關(guān)系進(jìn)行有效的建模,把數(shù)學(xué)問(wèn)題通過(guò)模型來(lái)表示出來(lái)從而有效地解決復(fù)雜的數(shù)據(jù)關(guān)系。(2)數(shù)據(jù)挖掘技術(shù)是基于當(dāng)前大數(shù)據(jù)庫(kù)而存在的,因此在處理數(shù)據(jù)信息上其基本的數(shù)據(jù)量是非常大的,數(shù)據(jù)挖掘主要就是從海量數(shù)據(jù)庫(kù)中提出相關(guān)信息,海量數(shù)據(jù)庫(kù)中的信息數(shù)據(jù)的格式結(jié)構(gòu)以及內(nèi)容都是具有一定差異的??偟膩?lái)說(shuō),數(shù)據(jù)挖掘技術(shù)在具體實(shí)施的過(guò)程中需要有效的注意這幾個(gè)方面的問(wèn)題,從而保證數(shù)據(jù)挖掘的有效性和時(shí)效性。(3)數(shù)據(jù)挖掘技術(shù)跟隨用戶的實(shí)際需求出發(fā),如果用戶無(wú)法給出具體的要求,那么數(shù)據(jù)挖掘就會(huì)將用戶所提出的有關(guān)信息進(jìn)行提取,將用戶所感興趣的所有數(shù)據(jù)信息都進(jìn)行反映,也就是說(shuō)數(shù)據(jù)挖掘的規(guī)則性并不是唯一的,而是隨著用戶要求的準(zhǔn)確性而發(fā)生變化的。(4)數(shù)據(jù)挖掘最關(guān)鍵的一個(gè)特點(diǎn)是其不同的算法最優(yōu)化是不同的,評(píng)判數(shù)據(jù)挖掘技術(shù)優(yōu)劣的一個(gè)關(guān)鍵主要就是判斷數(shù)據(jù)挖掘技術(shù)的有效性而不是最優(yōu)性。
1.3 數(shù)據(jù)挖掘任務(wù)探究
數(shù)據(jù)挖掘可以有以下幾種不同的分類:
第一分類分析,即數(shù)據(jù)挖掘通過(guò)將一個(gè)特定的任務(wù)進(jìn)行分類,通過(guò)用戶所提出的具體要求,將某些特征數(shù)據(jù)信息反映到特定的類別上。分類分析的過(guò)程主要是建立一棵樹,通過(guò)枝葉來(lái)向下進(jìn)行逐級(jí)劃分,將滿足數(shù)據(jù)要求的類別進(jìn)行下設(shè),最終建立一棵樹與規(guī)范要求的樹。第二就是關(guān)聯(lián)規(guī)則,在關(guān)聯(lián)規(guī)則中比較經(jīng)典的方式有Apriori算法、Sampling算法等,關(guān)聯(lián)規(guī)則主要是根據(jù)用戶的這一信息數(shù)據(jù)來(lái)推算出其他方面的信息數(shù)據(jù),比如說(shuō)用戶在數(shù)字化圖書館借閱書籍的過(guò)程中,關(guān)聯(lián)規(guī)則可以根據(jù)用戶在借閱書籍的種類以及根據(jù)用戶的年齡、學(xué)歷等信息來(lái)推算出用戶的實(shí)際工作階層,工作內(nèi)容等,通過(guò)這種方式,企業(yè)可以有效發(fā)現(xiàn)潛在的市場(chǎng)等。第三是聚類分析,聚類分析主要是指在數(shù)據(jù)信息處理的過(guò)程中,將屬于同一類別的數(shù)據(jù)信息存儲(chǔ)到一個(gè)特定的數(shù)據(jù)庫(kù)當(dāng)中,聚類分析與數(shù)據(jù)信息的自身結(jié)構(gòu)形式有關(guān),它會(huì)根據(jù)系統(tǒng)所給定的相關(guān)性能指標(biāo)來(lái)直接確定數(shù)據(jù)信息的類別,當(dāng)前聚類分析比較經(jīng)典的算法有分解法、動(dòng)態(tài)聚類法等。
2 大型數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘系統(tǒng)
前面我們對(duì)當(dāng)前大數(shù)據(jù)庫(kù)時(shí)代下的挖掘技術(shù)的相關(guān)概念以及分類進(jìn)行了簡(jiǎn)單的分析和概述,下面我們主要來(lái)看一下挖掘技術(shù)中關(guān)聯(lián)規(guī)則、聚類以及分類三種不同算法的相關(guān)內(nèi)容。
2.1 關(guān)聯(lián)規(guī)則挖掘
關(guān)聯(lián)規(guī)則挖掘前面我們已經(jīng)簡(jiǎn)單的說(shuō)明了其主要就是指針對(duì)數(shù)據(jù)信息的一個(gè)特定特征來(lái)推算出其他的數(shù)據(jù)信息,通過(guò)這種推算方式來(lái)發(fā)現(xiàn)數(shù)據(jù)信息中具有價(jià)值的內(nèi)容。當(dāng)前來(lái)看,關(guān)聯(lián)規(guī)則挖掘中最為基本的算法就是Apriori算法,Apriori算法能夠有效的根據(jù)用戶信息的數(shù)據(jù)特征來(lái)推算出其他的數(shù)據(jù)特征,Apriori算法的基本運(yùn)轉(zhuǎn)原理是通過(guò)將海量數(shù)據(jù)庫(kù)進(jìn)行搜索之后,將數(shù)據(jù)庫(kù)中的頻繁集項(xiàng)進(jìn)行搜索,然后根據(jù)所生成的頻繁集項(xiàng)來(lái)建立一定的關(guān)聯(lián)規(guī)則,最終實(shí)現(xiàn)有效的關(guān)聯(lián)算法。在這一個(gè)具體的算法過(guò)程中,Apriori算法具有兩個(gè)非常顯著的問(wèn)題,首先它在進(jìn)行數(shù)據(jù)特征挖掘的過(guò)程中,會(huì)重復(fù)的搜索同一海量數(shù)據(jù)庫(kù),也就是說(shuō)它每進(jìn)行以此頻繁集項(xiàng)的確定,就需要搜索一次數(shù)據(jù)庫(kù),而這種頻繁搜素?cái)?shù)據(jù)庫(kù)的方式大大增加了搜索所花費(fèi)的時(shí)間,對(duì)于數(shù)據(jù)信息巨大的數(shù)據(jù)庫(kù)來(lái)說(shuō),這種方式是存在一定局限性的。其次,Apriori算法在所得出的頻繁項(xiàng)集中,項(xiàng)集的數(shù)量規(guī)模是非常大的,對(duì)于Apriori算法的效率來(lái)說(shuō)也造成了一定的影響,而當(dāng)前人們基于Apriori算法對(duì)其進(jìn)行了一定的改造,使其在運(yùn)算效率和運(yùn)算準(zhǔn)確性上得到了有效的提升。
首先就是散列項(xiàng)集計(jì)數(shù),通過(guò)人工智能的相關(guān)學(xué)科知識(shí),對(duì)Apriori算法進(jìn)行改造,使其能夠辨識(shí)頻繁項(xiàng)集,即如果數(shù)據(jù)庫(kù)中一個(gè)具體的項(xiàng)集的哈希桶計(jì)數(shù)如果低于支持度,那么其不可能稱為頻繁項(xiàng)集。其次事物壓縮,前面所排除在外的數(shù)據(jù)信息是不可能成為頻繁項(xiàng)集的數(shù)據(jù)信息,也就是說(shuō)這些數(shù)據(jù)信息在后續(xù)的篩選過(guò)程中可以不進(jìn)行計(jì)算,不加以考慮。第三,劃分,如果數(shù)據(jù)庫(kù)中存在潛在的頻繁項(xiàng)集,那么我們不能在前面兩個(gè)階段就將其排除在外,因?yàn)闈撛诘念l繁項(xiàng)集在數(shù)據(jù)庫(kù)中的一個(gè)劃分中應(yīng)當(dāng)作為頻繁項(xiàng)集存在。我們通過(guò)這幾個(gè)階段的優(yōu)化,將Apriori算法的運(yùn)算效率和運(yùn)算準(zhǔn)確度大大提升,使其能夠在數(shù)據(jù)庫(kù)的搜索過(guò)程中不再出現(xiàn)重復(fù)搜索數(shù)據(jù)庫(kù)這一現(xiàn)象的出現(xiàn),解決了Apriori算法的一個(gè)局限性。
2.2 聚類
聚類算法在實(shí)際的數(shù)據(jù)挖掘應(yīng)用當(dāng)中分為兩個(gè)不同的部分,分割和分層,對(duì)于分割聚類算法來(lái)說(shuō),它主要是將所需要進(jìn)行處理的數(shù)據(jù)信息進(jìn)行分割,然后計(jì)算出所分割出來(lái)的程序之間的距離,根據(jù)所計(jì)算出來(lái)的距離來(lái)進(jìn)行比較,然后選取其中距離最短的兩個(gè)數(shù)據(jù)信息進(jìn)行結(jié)合,將所結(jié)合的數(shù)據(jù)信息當(dāng)做一個(gè)新的樣本而存在,然后這個(gè)新的樣本重新與其他的數(shù)據(jù)信息進(jìn)行比較,將所計(jì)算的實(shí)際距離再次進(jìn)行比對(duì),仍然將最小距離的兩個(gè)數(shù)據(jù)整合,通過(guò)這一過(guò)程不斷的循環(huán),最終就能夠形成一個(gè)有效的分類距離對(duì)稱表。最終所形成的就只剩下兩個(gè)類別的數(shù)據(jù)信息,我們通過(guò)這種方式實(shí)現(xiàn)了數(shù)據(jù)信息的分類過(guò)程。
對(duì)于分層來(lái)說(shuō),其相比于分割聚類算法又進(jìn)行了一定技術(shù)上的優(yōu)化,既不需要進(jìn)行數(shù)據(jù)信息的分割,當(dāng)前比較經(jīng)典的分層聚類算法是Birch算法,這一算法的優(yōu)化原理主要就是能夠在分類的過(guò)程中首先將一簇信息通過(guò)三元組來(lái)表述出來(lái),為后續(xù)的分類奠定良好的基礎(chǔ),這種算法所得出來(lái)的樹主要由具備兩個(gè)參數(shù)分支因子B和類直徑T高度平衡樹組成。
2.3 分類
最后對(duì)于大型數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘應(yīng)用來(lái)說(shuō),其在分類上也有顯著的作用,分類主要是根據(jù)數(shù)據(jù)信息的一個(gè)隱層信息數(shù)據(jù)來(lái)得出數(shù)據(jù)的顯層信息,通過(guò)映射關(guān)系來(lái)得出二者之間的關(guān)聯(lián),然后通過(guò)RBF網(wǎng)絡(luò)來(lái)把通過(guò)這種方式所分類出來(lái)的數(shù)據(jù)信息進(jìn)行呈現(xiàn)。
3 多數(shù)據(jù)挖掘技術(shù)概述
前面我們對(duì)當(dāng)前大數(shù)據(jù)時(shí)代之下的數(shù)據(jù)挖掘的三個(gè)主要算法進(jìn)行了簡(jiǎn)單的概述,就目前來(lái)看,關(guān)聯(lián)規(guī)則、分類和聚類這三種算法是比較經(jīng)典在數(shù)據(jù)處理上應(yīng)用比較廣泛的。下面我們具體來(lái)看一下庫(kù)存管理數(shù)據(jù)挖掘以及空間數(shù)據(jù)挖掘這兩項(xiàng)技術(shù)。
3.1 庫(kù)存管理數(shù)據(jù)挖掘
當(dāng)前制造業(yè)發(fā)展極為迅速,在制造業(yè)的庫(kù)存管理中應(yīng)用數(shù)據(jù)挖掘技術(shù)能夠有效的提升庫(kù)存管理的效率,企業(yè)在應(yīng)用庫(kù)存管理數(shù)據(jù)挖掘能夠有效的提供庫(kù)存量以及訂貨量的相關(guān)數(shù)據(jù),提升企業(yè)的經(jīng)濟(jì)效益,在庫(kù)存管理的過(guò)程中,應(yīng)用庫(kù)存管理系統(tǒng)能夠有效的提升庫(kù)存管理數(shù)據(jù)的有效性,應(yīng)用了智能化的庫(kù)存數(shù)據(jù)挖掘能夠有效地解決傳統(tǒng)交易記錄繁多,記錄信息繁雜的問(wèn)題,同時(shí)解決屬性關(guān)系復(fù)雜的問(wèn)題,不同的數(shù)據(jù)信息的層次信息是不同的,應(yīng)用一定的數(shù)據(jù)挖掘則能夠大大提升對(duì)不同層次數(shù)據(jù)的分類以及特征提取[1]。
就當(dāng)前發(fā)展來(lái)看,庫(kù)存數(shù)據(jù)挖掘系統(tǒng)主要就是對(duì)庫(kù)存異常信息的檢測(cè)、庫(kù)存商品庫(kù)齡的計(jì)算以及對(duì)庫(kù)存預(yù)測(cè)這三項(xiàng)主要功能,通過(guò)這三項(xiàng)功能來(lái)實(shí)現(xiàn)有效的庫(kù)存管理,提升制造業(yè)企業(yè)的經(jīng)濟(jì)效益等[2]。
3.2 空間數(shù)據(jù)挖掘
空間數(shù)據(jù)挖掘技術(shù),這一項(xiàng)技術(shù)主要就是隨著當(dāng)前衛(wèi)星通訊設(shè)備的發(fā)展,為了能夠獲得時(shí)效性的用戶空間數(shù)據(jù)信息,而建立的空間數(shù)據(jù)挖掘模型,在當(dāng)前的發(fā)展來(lái)看,在一些水電資源管理、交通運(yùn)輸業(yè)中應(yīng)用空間數(shù)據(jù)挖掘技術(shù)是非常常見(jiàn)的,空間數(shù)據(jù)挖掘系統(tǒng)主要包括空間數(shù)據(jù)分析階段、空間數(shù)據(jù)查詢功能,空間數(shù)據(jù)挖掘依賴于可視化地圖而存在,通過(guò)可視化地圖來(lái)實(shí)現(xiàn)對(duì)對(duì)象空間信息數(shù)據(jù)的準(zhǔn)確記錄,并且將相關(guān)的數(shù)據(jù)信息應(yīng)用到救援事業(yè)、交通事業(yè)等[3]。
4 結(jié)語(yǔ)
綜合上文所述,本文我們主要從當(dāng)前基于大型數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘應(yīng)用相關(guān)問(wèn)題進(jìn)行分析和探究,通過(guò)對(duì)數(shù)據(jù)挖掘的基本概況以及數(shù)據(jù)挖掘的基本分類來(lái)探討分析了關(guān)聯(lián)規(guī)則、聚類以及分類三種不同形式的數(shù)據(jù)挖掘。就目前的發(fā)展來(lái)看,在關(guān)聯(lián)規(guī)則中,Apriori算法是比較基礎(chǔ)典型的,在聚類算法中,Birch算法則能夠在數(shù)據(jù)庫(kù)的信息掃描過(guò)程中,降低掃描的時(shí)間,提升掃描的效率,從而有效的保障當(dāng)前基于大型數(shù)據(jù)的數(shù)據(jù)挖掘的效率[4]。
最后,我們又討論了當(dāng)前在實(shí)際的企業(yè)發(fā)展和社會(huì)應(yīng)用當(dāng)中,庫(kù)存數(shù)據(jù)挖掘和空間數(shù)據(jù)挖掘這兩項(xiàng)技術(shù)的概述,總的來(lái)說(shuō),當(dāng)前大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)挖掘技術(shù)一定會(huì)得到非常良好的發(fā)展前景,在未來(lái)的發(fā)展中也一定能夠發(fā)揮其可行性和有效性。
參考文獻(xiàn)
[1]王元卓,靳小龍,程學(xué)旗,等.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2013(6):1125-1138.
[2]王元卓,賈巖濤,劉大偉,等.基于開放網(wǎng)絡(luò)知識(shí)的信息檢索與數(shù)據(jù)挖掘[J].計(jì)算機(jī)研究與發(fā)展,2015(2):456-474.
[3]張引,陳敏,廖小飛,等.大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J].計(jì)算機(jī)研究與發(fā)展,2013(z2):216-233.
[4]余偉,李石君,楊莎,等.Web大數(shù)據(jù)環(huán)境下的不一致跨源數(shù)據(jù)發(fā)現(xiàn)[J].計(jì)算機(jī)研究與發(fā)展,2015(2):295-308.