亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于hadoop平臺的分布式數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)探討

        2017-04-25 12:12:09陳志雄
        關(guān)鍵詞:數(shù)據(jù)挖掘

        陳志雄

        摘要:在社會經(jīng)濟(jì)快速發(fā)展的情況下,網(wǎng)絡(luò)信息技術(shù)的更新速度越來越快,如今,促進(jìn)了大數(shù)據(jù)時代的進(jìn)一步發(fā)展,而Hadoop作為分布式系統(tǒng)的代表,也成為大數(shù)據(jù)挖掘系統(tǒng)的重要組成部分之一。分布式數(shù)據(jù)挖掘系統(tǒng)的主要任務(wù)是利用Hadoop搭建分布式集群環(huán)境,然后在該環(huán)境上部署相應(yīng)的數(shù)據(jù)挖掘任務(wù),前提是要對分布式文件系統(tǒng)HDFS和MapReduce的并行編程模式原理進(jìn)行深入的分析研究,同時選擇運(yùn)用K-means聚類算法,使Hadoop平臺的數(shù)據(jù)挖掘系統(tǒng)的任務(wù)具有良好的發(fā)展效率,同時也能顯示其計(jì)算能力的擴(kuò)展性能。下面就Hadoop平臺的分布式數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)進(jìn)行深入的分析探討,進(jìn)而促進(jìn)信息數(shù)據(jù)系統(tǒng)的進(jìn)一步發(fā)展。

        關(guān)鍵詞:Hadoop平臺;數(shù)據(jù)挖掘;系統(tǒng)設(shè)計(jì);K-means

        中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2017)01-0179-01

        1 數(shù)據(jù)挖掘的簡單概述

        Hadoop是一個分布式系統(tǒng)基礎(chǔ)架構(gòu),它實(shí)現(xiàn)了一個分布式文件系統(tǒng),具有極高的容錯性,在因特網(wǎng)上是最受歡迎的搜索關(guān)鍵字的內(nèi)容分類工具,能夠解決許多具有伸縮性的問題,能提高文件搜索效率[1]。而數(shù)據(jù)挖掘系統(tǒng)是在Hadoop平臺建立的,因此,數(shù)據(jù)挖掘系統(tǒng)的發(fā)展與Hadoop平臺緊密結(jié)合。數(shù)據(jù)挖掘主要是在大量數(shù)據(jù)中尋找有價值的信息技術(shù),主要由以下三個階段組成,數(shù)據(jù)準(zhǔn)備階段,需要對大量的信息進(jìn)行清理,并對數(shù)據(jù)整合,同時還對數(shù)據(jù)格式進(jìn)行轉(zhuǎn)換;數(shù)據(jù)挖掘階段,根據(jù)相應(yīng)的智能算法對數(shù)據(jù)進(jìn)行分析,然后形成一定的數(shù)據(jù)模式;結(jié)果評估階段,主要根據(jù)挖掘出的數(shù)據(jù)模式的運(yùn)行效果進(jìn)行評判,對沒有任何效果的評估模式全部排除。

        2 數(shù)據(jù)挖掘的主要任務(wù)與具體計(jì)算方法

        2.1 數(shù)據(jù)挖掘基本任務(wù)分析

        數(shù)據(jù)挖掘的任務(wù)是由大數(shù)據(jù)發(fā)展的方向決定的,同時為數(shù)據(jù)挖掘工作提供了方向,由于數(shù)據(jù)挖掘以尋找數(shù)據(jù)模式為主,并且數(shù)據(jù)模式也是隨著數(shù)據(jù)的應(yīng)用領(lǐng)域不同而發(fā)生變化,因此,在數(shù)據(jù)挖掘期間,其任務(wù)主要分為描述性挖掘和預(yù)測性挖掘兩種。描述性挖掘任務(wù)主要根據(jù)數(shù)據(jù)的一般特征,對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行概括、總結(jié),然后尋找數(shù)據(jù)之間的關(guān)系和類型,最終形成固定的數(shù)據(jù)模式;對于預(yù)測性挖掘主要根據(jù)接觸的數(shù)據(jù)做出相應(yīng)的判斷,并加入與之相對應(yīng)的新的數(shù)據(jù)的模式[2]。

        2.2 數(shù)據(jù)挖掘的具體計(jì)算方法

        數(shù)據(jù)聚類算法是對數(shù)據(jù)進(jìn)行拆分合并同類項(xiàng)計(jì)算,也就是將數(shù)據(jù)項(xiàng)劃分為多層次的子集,對具有相似特性的數(shù)據(jù)項(xiàng)進(jìn)行歸類,然后對同一個子集中的數(shù)據(jù)進(jìn)行計(jì)算,該計(jì)算方法主要根據(jù)數(shù)據(jù)自身的特性來劃分。具體如下所示:

        在數(shù)據(jù)庫B中,所有數(shù)據(jù)的集合為未知數(shù)X={X1,X2,X3……Xn},而在許多的X中有一部分具有相似性,因而Xi(i=1,2,3……n)。其中對于一個整體集合X,被許多具有相似的X組合分割成m個子集,出現(xiàn)了許多的C1,C2,C3……Cn。同時每一個子集還要滿足一定的條件:①每一個子集不能為零;②所有的子集整合后必須恰好等于集合X;③每一個子集不能有共同交集;④i必須不等于零。

        聚類法是數(shù)據(jù)挖掘算法的重要組成部分,而K-m eans算法是最常用的最基本的聚類算法。主要根據(jù)空間中K個中心點(diǎn)對相對應(yīng)的數(shù)據(jù)對象進(jìn)行聚類,當(dāng)然這個點(diǎn)不是固定不變的,而是設(shè)定一個或幾個點(diǎn)后進(jìn)行逐一的變換更新,在不斷更新分配數(shù)據(jù)時,就能尋找到符合條件的聚類結(jié)果[3]。經(jīng)過長期的更新分配之后,根據(jù)數(shù)據(jù)聚類的規(guī)律總結(jié)數(shù)據(jù)模式,然后將這一模式作為數(shù)據(jù)挖掘系統(tǒng)的固定函數(shù)模式,在以后的數(shù)據(jù)挖掘計(jì)算中只需要代入相關(guān)的數(shù)據(jù)就可以快速獲取結(jié)果。

        如上述的函數(shù)式,在數(shù)據(jù)挖掘計(jì)算中,需要對Ck固定,就可以選擇出最優(yōu)的Xk;對Xk固定后,就能選擇最優(yōu)的Ck,他們選擇的結(jié)果都是花費(fèi)代價最小的時候。采用K-means計(jì)算法可以獲得一個最優(yōu)解的值,這個值會使得挖掘的數(shù)據(jù)接近最優(yōu),并且在數(shù)據(jù)挖掘中的優(yōu)勢非常的顯著。

        3 結(jié)語

        Hadoop是一個能夠?qū)Υ髷?shù)據(jù)進(jìn)行分布式處理的軟件平臺,具有極高的可靠性和高效性,因而在數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)方面能夠提供很好的幫助,尤其在數(shù)據(jù)挖掘計(jì)算方法方面,能夠根據(jù)數(shù)據(jù)挖掘的數(shù)據(jù)模式建立比較固定優(yōu)越的計(jì)算模式。

        參考文獻(xiàn)

        [1]郭建偉,李瑛,杜麗萍,趙桂芬,蔣繼婭.基于hadoop平臺的分布式數(shù)據(jù)挖掘系統(tǒng)研究[J].中國科技信息,2013,13:81-83.

        [2]羅剛.基于HADOOP的數(shù)據(jù)挖掘平臺分析與設(shè)計(jì)[J].電子世界,2013,18:16-17.

        [3]樊龍,萬定生,顧昕辰.基于Hadoop云平臺的水利普查數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[J].計(jì)算機(jī)與數(shù)字工程,2014,05:831-834+875.

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
        在线欧美精品二区三区| 永久免费毛片在线播放| 在教室伦流澡到高潮hgl动漫| 99久久人人爽亚洲精品美女| 亚洲高清无码第一| 精品国产亚洲人成在线观看| 在线观看中文字幕二区| 国产亚洲精品精品精品| 日本55丰满熟妇厨房伦| 亚洲色无码中文字幕| av在线不卡一区二区| 久久久中日ab精品综合| 无码人妻品一区二区三区精99| 99国产综合精品-久久久久| 久久人妻少妇嫩草av蜜桃| 中文字幕精品一区二区精品| 欧美熟妇精品一区二区三区| 九九精品国产99精品| 亚洲精品中字在线观看| 天堂中文最新版在线中文| 99re6热在线精品视频播放6| 久久久精品亚洲懂色av| 在线视频中文字幕一区二区三区| 欧美亚洲色综久久精品国产| www插插插无码视频网站| 国产精品黄页免费高清在线观看| 国产精品日日做人人爱| 亚洲午夜福利在线观看| 老熟女一区二区免费| 人妻少妇av中文字幕乱码| 久久久久久久97| 亚洲精品国产字幕久久vr| 国产91精品清纯白嫩| 色又黄又爽18禁免费网站现观看| 亚洲综合精品成人| 产精品无码久久_亚洲国产精| 成人大片免费视频播放一级| 国产精品亚洲欧美大片在线看| 日韩乱码视频| 国产激情小视频在线观看的 | 久久综合狠狠综合久久综合88|