亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于大型數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘應(yīng)用研究

2017-04-25 19:00:48王照付李麟

數(shù)字技術(shù)與應(yīng)用 2017年1期

王照付+李麟

摘要：隨著當(dāng)前大數(shù)據(jù)時(shí)代的到來(lái)，在海量數(shù)據(jù)庫(kù)的數(shù)據(jù)處理和數(shù)據(jù)分析過(guò)程中，應(yīng)用有效的數(shù)據(jù)挖掘技術(shù)能夠大大提升數(shù)據(jù)處理的速度，同時(shí)也能夠提升數(shù)據(jù)處理的準(zhǔn)確性。本文我們基于此主要來(lái)探究在大型數(shù)據(jù)庫(kù)的處理過(guò)程中數(shù)據(jù)挖掘技術(shù)的相關(guān)應(yīng)用，我們從大型數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘概念入手，分析大型數(shù)據(jù)挖掘系統(tǒng)的概況以及當(dāng)前比較經(jīng)典的兩類多數(shù)據(jù)挖掘技術(shù)。

關(guān)鍵詞：大數(shù)據(jù)庫(kù)；數(shù)據(jù)挖掘；多數(shù)據(jù)

中圖分類號(hào)：TP311.13 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1007-9416（2017）01-0108-02

目前，數(shù)據(jù)挖掘技術(shù)融合了多項(xiàng)學(xué)科內(nèi)容，不僅包含數(shù)據(jù)庫(kù)技術(shù)，而且也包含有人工智能以及統(tǒng)計(jì)學(xué)的相關(guān)內(nèi)容，數(shù)據(jù)挖掘技術(shù)在當(dāng)前大數(shù)據(jù)庫(kù)的數(shù)據(jù)處理方面貢獻(xiàn)了非常大的力量，數(shù)據(jù)挖掘系統(tǒng)在數(shù)據(jù)庫(kù)的數(shù)據(jù)處理過(guò)程中作為一個(gè)獨(dú)立模塊而存在，有效的協(xié)調(diào)了不同模塊之間的工作，下面我們首先來(lái)看一下大數(shù)據(jù)時(shí)代之下的數(shù)據(jù)挖掘信息概括。

1 大數(shù)據(jù)時(shí)代下的數(shù)據(jù)挖掘相關(guān)內(nèi)容概述

1.1 數(shù)據(jù)挖掘技術(shù)的基本概念

數(shù)據(jù)挖掘技術(shù)主要就是指在數(shù)據(jù)庫(kù)的信息處理過(guò)程中，通過(guò)特定的方式和特定的手段來(lái)進(jìn)行數(shù)據(jù)信息的搜索。換句話說(shuō)數(shù)據(jù)挖掘技術(shù)是基于當(dāng)前大數(shù)據(jù)時(shí)代而存在的，在海量數(shù)據(jù)信息處理的過(guò)程中，數(shù)據(jù)挖掘技術(shù)能夠大大提升數(shù)據(jù)處理的效率。數(shù)據(jù)挖掘技術(shù)需要從當(dāng)前海量數(shù)據(jù)庫(kù)中不同形式，不同結(jié)構(gòu)不同內(nèi)容的數(shù)據(jù)通過(guò)特定方式搜尋出來(lái)，其中包含了大量不同領(lǐng)域的學(xué)科，通過(guò)數(shù)據(jù)挖掘技術(shù)我們能夠做出歸納性的分析和總結(jié)，對(duì)于企業(yè)來(lái)說(shuō)，數(shù)據(jù)挖掘技術(shù)能夠有效的對(duì)市場(chǎng)進(jìn)行預(yù)測(cè)和評(píng)估，同時(shí)也能夠有效的根據(jù)客戶的信息預(yù)測(cè)其未來(lái)的動(dòng)向等。需要注意的是數(shù)據(jù)挖掘技術(shù)在實(shí)際的應(yīng)用當(dāng)中最重要的一門學(xué)科技術(shù)就是人工智能。

1.2 數(shù)據(jù)挖掘的特點(diǎn)以及應(yīng)用

數(shù)據(jù)挖掘技術(shù)主要有以下幾個(gè)特點(diǎn)：

（1）數(shù)據(jù)挖掘的模型是非常復(fù)雜的，數(shù)據(jù)挖掘技術(shù)主要重視的就是數(shù)據(jù)庫(kù)中信息的建模過(guò)程，通過(guò)對(duì)相關(guān)數(shù)據(jù)關(guān)系進(jìn)行有效的建模，把數(shù)學(xué)問(wèn)題通過(guò)模型來(lái)表示出來(lái)從而有效地解決復(fù)雜的數(shù)據(jù)關(guān)系。（2）數(shù)據(jù)挖掘技術(shù)是基于當(dāng)前大數(shù)據(jù)庫(kù)而存在的，因此在處理數(shù)據(jù)信息上其基本的數(shù)據(jù)量是非常大的，數(shù)據(jù)挖掘主要就是從海量數(shù)據(jù)庫(kù)中提出相關(guān)信息，海量數(shù)據(jù)庫(kù)中的信息數(shù)據(jù)的格式結(jié)構(gòu)以及內(nèi)容都是具有一定差異的?？偟膩?lái)說(shuō)，數(shù)據(jù)挖掘技術(shù)在具體實(shí)施的過(guò)程中需要有效的注意這幾個(gè)方面的問(wèn)題，從而保證數(shù)據(jù)挖掘的有效性和時(shí)效性。（3）數(shù)據(jù)挖掘技術(shù)跟隨用戶的實(shí)際需求出發(fā)，如果用戶無(wú)法給出具體的要求，那么數(shù)據(jù)挖掘就會(huì)將用戶所提出的有關(guān)信息進(jìn)行提取，將用戶所感興趣的所有數(shù)據(jù)信息都進(jìn)行反映，也就是說(shuō)數(shù)據(jù)挖掘的規(guī)則性并不是唯一的，而是隨著用戶要求的準(zhǔn)確性而發(fā)生變化的。（4）數(shù)據(jù)挖掘最關(guān)鍵的一個(gè)特點(diǎn)是其不同的算法最優(yōu)化是不同的，評(píng)判數(shù)據(jù)挖掘技術(shù)優(yōu)劣的一個(gè)關(guān)鍵主要就是判斷數(shù)據(jù)挖掘技術(shù)的有效性而不是最優(yōu)性。

1.3 數(shù)據(jù)挖掘任務(wù)探究

數(shù)據(jù)挖掘可以有以下幾種不同的分類：

第一分類分析，即數(shù)據(jù)挖掘通過(guò)將一個(gè)特定的任務(wù)進(jìn)行分類，通過(guò)用戶所提出的具體要求，將某些特征數(shù)據(jù)信息反映到特定的類別上。分類分析的過(guò)程主要是建立一棵樹，通過(guò)枝葉來(lái)向下進(jìn)行逐級(jí)劃分，將滿足數(shù)據(jù)要求的類別進(jìn)行下設(shè)，最終建立一棵樹與規(guī)范要求的樹。第二就是關(guān)聯(lián)規(guī)則，在關(guān)聯(lián)規(guī)則中比較經(jīng)典的方式有Apriori算法、Sampling算法等，關(guān)聯(lián)規(guī)則主要是根據(jù)用戶的這一信息數(shù)據(jù)來(lái)推算出其他方面的信息數(shù)據(jù)，比如說(shuō)用戶在數(shù)字化圖書館借閱書籍的過(guò)程中，關(guān)聯(lián)規(guī)則可以根據(jù)用戶在借閱書籍的種類以及根據(jù)用戶的年齡、學(xué)歷等信息來(lái)推算出用戶的實(shí)際工作階層，工作內(nèi)容等，通過(guò)這種方式，企業(yè)可以有效發(fā)現(xiàn)潛在的市場(chǎng)等。第三是聚類分析，聚類分析主要是指在數(shù)據(jù)信息處理的過(guò)程中，將屬于同一類別的數(shù)據(jù)信息存儲(chǔ)到一個(gè)特定的數(shù)據(jù)庫(kù)當(dāng)中，聚類分析與數(shù)據(jù)信息的自身結(jié)構(gòu)形式有關(guān)，它會(huì)根據(jù)系統(tǒng)所給定的相關(guān)性能指標(biāo)來(lái)直接確定數(shù)據(jù)信息的類別，當(dāng)前聚類分析比較經(jīng)典的算法有分解法、動(dòng)態(tài)聚類法等。

2 大型數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘系統(tǒng)

前面我們對(duì)當(dāng)前大數(shù)據(jù)庫(kù)時(shí)代下的挖掘技術(shù)的相關(guān)概念以及分類進(jìn)行了簡(jiǎn)單的分析和概述，下面我們主要來(lái)看一下挖掘技術(shù)中關(guān)聯(lián)規(guī)則、聚類以及分類三種不同算法的相關(guān)內(nèi)容。

2.1 關(guān)聯(lián)規(guī)則挖掘

關(guān)聯(lián)規(guī)則挖掘前面我們已經(jīng)簡(jiǎn)單的說(shuō)明了其主要就是指針對(duì)數(shù)據(jù)信息的一個(gè)特定特征來(lái)推算出其他的數(shù)據(jù)信息，通過(guò)這種推算方式來(lái)發(fā)現(xiàn)數(shù)據(jù)信息中具有價(jià)值的內(nèi)容。當(dāng)前來(lái)看，關(guān)聯(lián)規(guī)則挖掘中最為基本的算法就是Apriori算法，Apriori算法能夠有效的根據(jù)用戶信息的數(shù)據(jù)特征來(lái)推算出其他的數(shù)據(jù)特征，Apriori算法的基本運(yùn)轉(zhuǎn)原理是通過(guò)將海量數(shù)據(jù)庫(kù)進(jìn)行搜索之后，將數(shù)據(jù)庫(kù)中的頻繁集項(xiàng)進(jìn)行搜索，然后根據(jù)所生成的頻繁集項(xiàng)來(lái)建立一定的關(guān)聯(lián)規(guī)則，最終實(shí)現(xiàn)有效的關(guān)聯(lián)算法。在這一個(gè)具體的算法過(guò)程中，Apriori算法具有兩個(gè)非常顯著的問(wèn)題，首先它在進(jìn)行數(shù)據(jù)特征挖掘的過(guò)程中，會(huì)重復(fù)的搜索同一海量數(shù)據(jù)庫(kù)，也就是說(shuō)它每進(jìn)行以此頻繁集項(xiàng)的確定，就需要搜索一次數(shù)據(jù)庫(kù)，而這種頻繁搜素?cái)?shù)據(jù)庫(kù)的方式大大增加了搜索所花費(fèi)的時(shí)間，對(duì)于數(shù)據(jù)信息巨大的數(shù)據(jù)庫(kù)來(lái)說(shuō)，這種方式是存在一定局限性的。其次，Apriori算法在所得出的頻繁項(xiàng)集中，項(xiàng)集的數(shù)量規(guī)模是非常大的，對(duì)于Apriori算法的效率來(lái)說(shuō)也造成了一定的影響，而當(dāng)前人們基于Apriori算法對(duì)其進(jìn)行了一定的改造，使其在運(yùn)算效率和運(yùn)算準(zhǔn)確性上得到了有效的提升。

首先就是散列項(xiàng)集計(jì)數(shù)，通過(guò)人工智能的相關(guān)學(xué)科知識(shí)，對(duì)Apriori算法進(jìn)行改造，使其能夠辨識(shí)頻繁項(xiàng)集，即如果數(shù)據(jù)庫(kù)中一個(gè)具體的項(xiàng)集的哈希桶計(jì)數(shù)如果低于支持度，那么其不可能稱為頻繁項(xiàng)集。其次事物壓縮，前面所排除在外的數(shù)據(jù)信息是不可能成為頻繁項(xiàng)集的數(shù)據(jù)信息，也就是說(shuō)這些數(shù)據(jù)信息在后續(xù)的篩選過(guò)程中可以不進(jìn)行計(jì)算，不加以考慮。第三，劃分，如果數(shù)據(jù)庫(kù)中存在潛在的頻繁項(xiàng)集，那么我們不能在前面兩個(gè)階段就將其排除在外，因?yàn)闈撛诘念l繁項(xiàng)集在數(shù)據(jù)庫(kù)中的一個(gè)劃分中應(yīng)當(dāng)作為頻繁項(xiàng)集存在。我們通過(guò)這幾個(gè)階段的優(yōu)化，將Apriori算法的運(yùn)算效率和運(yùn)算準(zhǔn)確度大大提升，使其能夠在數(shù)據(jù)庫(kù)的搜索過(guò)程中不再出現(xiàn)重復(fù)搜索數(shù)據(jù)庫(kù)這一現(xiàn)象的出現(xiàn)，解決了Apriori算法的一個(gè)局限性。

2.2 聚類

聚類算法在實(shí)際的數(shù)據(jù)挖掘應(yīng)用當(dāng)中分為兩個(gè)不同的部分，分割和分層，對(duì)于分割聚類算法來(lái)說(shuō)，它主要是將所需要進(jìn)行處理的數(shù)據(jù)信息進(jìn)行分割，然后計(jì)算出所分割出來(lái)的程序之間的距離，根據(jù)所計(jì)算出來(lái)的距離來(lái)進(jìn)行比較，然后選取其中距離最短的兩個(gè)數(shù)據(jù)信息進(jìn)行結(jié)合，將所結(jié)合的數(shù)據(jù)信息當(dāng)做一個(gè)新的樣本而存在，然后這個(gè)新的樣本重新與其他的數(shù)據(jù)信息進(jìn)行比較，將所計(jì)算的實(shí)際距離再次進(jìn)行比對(duì)，仍然將最小距離的兩個(gè)數(shù)據(jù)整合，通過(guò)這一過(guò)程不斷的循環(huán)，最終就能夠形成一個(gè)有效的分類距離對(duì)稱表。最終所形成的就只剩下兩個(gè)類別的數(shù)據(jù)信息，我們通過(guò)這種方式實(shí)現(xiàn)了數(shù)據(jù)信息的分類過(guò)程。

對(duì)于分層來(lái)說(shuō)，其相比于分割聚類算法又進(jìn)行了一定技術(shù)上的優(yōu)化，既不需要進(jìn)行數(shù)據(jù)信息的分割，當(dāng)前比較經(jīng)典的分層聚類算法是Birch算法，這一算法的優(yōu)化原理主要就是能夠在分類的過(guò)程中首先將一簇信息通過(guò)三元組來(lái)表述出來(lái)，為后續(xù)的分類奠定良好的基礎(chǔ)，這種算法所得出來(lái)的樹主要由具備兩個(gè)參數(shù)分支因子B和類直徑T高度平衡樹組成。

2.3 分類

最后對(duì)于大型數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘應(yīng)用來(lái)說(shuō)，其在分類上也有顯著的作用，分類主要是根據(jù)數(shù)據(jù)信息的一個(gè)隱層信息數(shù)據(jù)來(lái)得出數(shù)據(jù)的顯層信息，通過(guò)映射關(guān)系來(lái)得出二者之間的關(guān)聯(lián)，然后通過(guò)RBF網(wǎng)絡(luò)來(lái)把通過(guò)這種方式所分類出來(lái)的數(shù)據(jù)信息進(jìn)行呈現(xiàn)。

3 多數(shù)據(jù)挖掘技術(shù)概述

前面我們對(duì)當(dāng)前大數(shù)據(jù)時(shí)代之下的數(shù)據(jù)挖掘的三個(gè)主要算法進(jìn)行了簡(jiǎn)單的概述，就目前來(lái)看，關(guān)聯(lián)規(guī)則、分類和聚類這三種算法是比較經(jīng)典在數(shù)據(jù)處理上應(yīng)用比較廣泛的。下面我們具體來(lái)看一下庫(kù)存管理數(shù)據(jù)挖掘以及空間數(shù)據(jù)挖掘這兩項(xiàng)技術(shù)。

3.1 庫(kù)存管理數(shù)據(jù)挖掘

當(dāng)前制造業(yè)發(fā)展極為迅速，在制造業(yè)的庫(kù)存管理中應(yīng)用數(shù)據(jù)挖掘技術(shù)能夠有效的提升庫(kù)存管理的效率，企業(yè)在應(yīng)用庫(kù)存管理數(shù)據(jù)挖掘能夠有效的提供庫(kù)存量以及訂貨量的相關(guān)數(shù)據(jù)，提升企業(yè)的經(jīng)濟(jì)效益，在庫(kù)存管理的過(guò)程中，應(yīng)用庫(kù)存管理系統(tǒng)能夠有效的提升庫(kù)存管理數(shù)據(jù)的有效性，應(yīng)用了智能化的庫(kù)存數(shù)據(jù)挖掘能夠有效地解決傳統(tǒng)交易記錄繁多，記錄信息繁雜的問(wèn)題，同時(shí)解決屬性關(guān)系復(fù)雜的問(wèn)題，不同的數(shù)據(jù)信息的層次信息是不同的，應(yīng)用一定的數(shù)據(jù)挖掘則能夠大大提升對(duì)不同層次數(shù)據(jù)的分類以及特征提取[1]。

就當(dāng)前發(fā)展來(lái)看，庫(kù)存數(shù)據(jù)挖掘系統(tǒng)主要就是對(duì)庫(kù)存異常信息的檢測(cè)、庫(kù)存商品庫(kù)齡的計(jì)算以及對(duì)庫(kù)存預(yù)測(cè)這三項(xiàng)主要功能，通過(guò)這三項(xiàng)功能來(lái)實(shí)現(xiàn)有效的庫(kù)存管理，提升制造業(yè)企業(yè)的經(jīng)濟(jì)效益等[2]。

3.2 空間數(shù)據(jù)挖掘

空間數(shù)據(jù)挖掘技術(shù)，這一項(xiàng)技術(shù)主要就是隨著當(dāng)前衛(wèi)星通訊設(shè)備的發(fā)展，為了能夠獲得時(shí)效性的用戶空間數(shù)據(jù)信息，而建立的空間數(shù)據(jù)挖掘模型，在當(dāng)前的發(fā)展來(lái)看，在一些水電資源管理、交通運(yùn)輸業(yè)中應(yīng)用空間數(shù)據(jù)挖掘技術(shù)是非常常見(jiàn)的，空間數(shù)據(jù)挖掘系統(tǒng)主要包括空間數(shù)據(jù)分析階段、空間數(shù)據(jù)查詢功能，空間數(shù)據(jù)挖掘依賴于可視化地圖而存在，通過(guò)可視化地圖來(lái)實(shí)現(xiàn)對(duì)對(duì)象空間信息數(shù)據(jù)的準(zhǔn)確記錄，并且將相關(guān)的數(shù)據(jù)信息應(yīng)用到救援事業(yè)、交通事業(yè)等[3]。

4 結(jié)語(yǔ)

綜合上文所述，本文我們主要從當(dāng)前基于大型數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘應(yīng)用相關(guān)問(wèn)題進(jìn)行分析和探究，通過(guò)對(duì)數(shù)據(jù)挖掘的基本概況以及數(shù)據(jù)挖掘的基本分類來(lái)探討分析了關(guān)聯(lián)規(guī)則、聚類以及分類三種不同形式的數(shù)據(jù)挖掘。就目前的發(fā)展來(lái)看，在關(guān)聯(lián)規(guī)則中，Apriori算法是比較基礎(chǔ)典型的，在聚類算法中，Birch算法則能夠在數(shù)據(jù)庫(kù)的信息掃描過(guò)程中，降低掃描的時(shí)間，提升掃描的效率，從而有效的保障當(dāng)前基于大型數(shù)據(jù)的數(shù)據(jù)挖掘的效率[4]。

最后，我們又討論了當(dāng)前在實(shí)際的企業(yè)發(fā)展和社會(huì)應(yīng)用當(dāng)中，庫(kù)存數(shù)據(jù)挖掘和空間數(shù)據(jù)挖掘這兩項(xiàng)技術(shù)的概述，總的來(lái)說(shuō)，當(dāng)前大數(shù)據(jù)時(shí)代的到來(lái)，數(shù)據(jù)挖掘技術(shù)一定會(huì)得到非常良好的發(fā)展前景，在未來(lái)的發(fā)展中也一定能夠發(fā)揮其可行性和有效性。

參考文獻(xiàn)

[1]王元卓，靳小龍，程學(xué)旗，等.網(wǎng)絡(luò)大數(shù)據(jù)：現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào)，2013（6）：1125-1138.

[2]王元卓，賈巖濤，劉大偉，等.基于開放網(wǎng)絡(luò)知識(shí)的信息檢索與數(shù)據(jù)挖掘[J].計(jì)算機(jī)研究與發(fā)展，2015（2）：456-474.

[3]張引，陳敏，廖小飛，等.大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J].計(jì)算機(jī)研究與發(fā)展，2013（z2）：216-233.

[4]余偉，李石君，楊莎，等.Web大數(shù)據(jù)環(huán)境下的不一致跨源數(shù)據(jù)發(fā)現(xiàn)[J].計(jì)算機(jī)研究與發(fā)展，2015（2）：295-308.