亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        如何提高基于hadoop數(shù)據(jù)挖掘算法的計算精準度

        2018-03-02 00:28:29林明方
        軟件 2017年9期
        關(guān)鍵詞:分布式計算應(yīng)用層精準度

        林明方

        摘要:數(shù)據(jù)挖掘是從模糊、隨機的龐大數(shù)據(jù)庫提取出含有潛在有用信息和知識的非平凡過程,隨著計算機技術(shù)的不斷提高以及云存儲的開發(fā),從物理、生物、政治、經(jīng)濟甚至是人們息息相關(guān)的日常生活,對數(shù)據(jù)的存儲能力和使用能力的要求都開始顯著提高。基于大數(shù)據(jù)下的網(wǎng)絡(luò)信息挖掘開始受到各個領(lǐng)域的普遍關(guān)注和使用。高精準度的數(shù)據(jù)挖掘技術(shù)已經(jīng)在現(xiàn)代社會的諸多領(lǐng)域中被廣泛使用,數(shù)據(jù)挖掘算法的計算精準度保證就成為了促進數(shù)據(jù)挖掘效果優(yōu)化的重要組成。因此本文將基于hadoop的數(shù)據(jù)挖掘算法探討如何提高數(shù)據(jù)挖掘的精準度。

        關(guān)鍵詞:hadoop數(shù)據(jù)挖掘算法;精準度;數(shù)據(jù)

        O 引言

        隨著計算機技術(shù)的發(fā)展,互聯(lián)網(wǎng)科技開始進入大數(shù)據(jù)時代,在全球范圍內(nèi)每分鐘產(chǎn)生的數(shù)據(jù)量呈現(xiàn)爆炸性增長趨勢,一方面對數(shù)據(jù)的存儲提出了新要求,另一方面,如何在龐大的數(shù)據(jù)庫中挖掘出有用的相關(guān)信息也是對數(shù)據(jù)挖掘技術(shù)的關(guān)鍵問題。云計算的出現(xiàn),為數(shù)據(jù)挖掘技術(shù)的革新創(chuàng)造了良好的條件,數(shù)據(jù)挖掘計算的成本在云計算強大的計算能力、龐大的存儲能力以及專業(yè)的管理能力的幫助下,得到了極大程度的節(jié)約,同時挖掘準確程度更加精準,處理速度得到了顯著提升,數(shù)據(jù)挖掘的效率也能得到進步,能夠有效解決數(shù)據(jù)挖掘技術(shù)的許多難題。

        1 hadoop算法特點

        1.1 hadoop數(shù)據(jù)挖掘算法的概念

        數(shù)據(jù)挖掘是一種數(shù)據(jù)資料探勘的過程,一般而言,數(shù)據(jù)挖掘即是一種數(shù)據(jù)庫知識發(fā)現(xiàn)的過程,從大量的、繁瑣的、無用的數(shù)據(jù)中通過算法搜索隱藏信息,并最終用于統(tǒng)計分析、分析處理以及學(xué)習(xí)等過程中。Hadoop就是一種典型的大數(shù)據(jù)計算工具,也是一種重要的數(shù)據(jù)挖掘工具,云計算平臺的Apache開源項目用它來構(gòu)建,并在Apache開源項目的基礎(chǔ)上實現(xiàn)分布式計算平臺。由于此項目的分布式計算平臺在hadoop數(shù)據(jù)挖掘算法中已經(jīng)非常穩(wěn)定,且在很多領(lǐng)域中都有所應(yīng)用。在hadoop平臺上,分布式計算和文件存儲分別由MapReduce編程模型和HDFS分布式文件系統(tǒng)來實現(xiàn)。在hadoop平臺中繼續(xù)采用傳統(tǒng)的數(shù)據(jù)挖掘算法,進而實現(xiàn)大規(guī)模數(shù)據(jù)的挖掘任務(wù)。作為Apache -個即將開源的項目:Mahout,它在提供使用MapReduce編程模型完成的機器學(xué)習(xí)和數(shù)據(jù)挖掘算法的同時,能有效提升創(chuàng)建智能應(yīng)用程序的效率,為開發(fā)人員減少負擔。。

        1.2 hadoop數(shù)據(jù)挖掘算法的優(yōu)勢

        在設(shè)計上,Hadoop致力于可拓展性、可靠性、有效性和容錯性的高度建設(shè),這些設(shè)計上的優(yōu)點將決定Hadoop的地位,注定Hadoop將是受歡迎的,實際也被眾多公司所采用,而且在研究界也是大放異彩。重要的是,hadoop具有高可靠性,hadoop通過維護多個工作數(shù)據(jù)副本保證數(shù)據(jù)分析過程中假設(shè)計算元素和儲存的失敗節(jié)點進行重新分布和處理。同時,hadoop分配數(shù)據(jù)和完成計算任務(wù)是在可用的計算機集簇間完成的,hadoop的高擴展性使這些集簇如同一滴墨水,可以輕松擴展到龐大數(shù)目的節(jié)點汪洋中。

        1.3 hadoop的核心結(jié)構(gòu)

        hadoop由許多元素構(gòu)成。如果將hadoop比作一頓大廈,用來存儲hadoop集群中所有存儲節(jié)點上的文件的hadoop Distributed File System( HDFS)為基層部分。中上部分由MapReduce引擎擔任,MapReduce引擎由JobTrackers和TaskTrackers組成。hadoop分布式平臺的所有技術(shù)核心主要包括兩個部分:一是對最核心的分布式文件系統(tǒng)HDFS、MapReduce處理過程;二是基本介紹,包括對數(shù)據(jù)倉庫T具Hive以及分布式數(shù)據(jù)庫Hbase兩個部分的介紹。

        2 如何提高hadoop數(shù)據(jù)挖掘算法的計算精準度

        傳統(tǒng)的數(shù)據(jù)挖掘很難滿足現(xiàn)階段大數(shù)據(jù)處理效率的要求,以hadoop平臺為代表的云計算技術(shù)應(yīng)用解決了大數(shù)據(jù)挖掘的瓶頸。但是基于hadoop平臺的數(shù)據(jù)挖掘算法并行化研究仍然存在一些亟待解決的問題。如何提高hadoop的數(shù)據(jù)挖掘精準度,是hadoop開發(fā)過程中的重要問題,在對典型的數(shù)據(jù)挖掘系統(tǒng)的分析和研究中,hadoop平臺集群巨大的存儲和計算能力具有強大的優(yōu)勢,我們可以利用這一優(yōu)勢來組建基于hadoop平臺的數(shù)據(jù)挖掘系統(tǒng)。

        2.1 設(shè)計思想簡述

        在傳統(tǒng)的數(shù)據(jù)挖掘系統(tǒng)中,模塊的計算量差異很大,有的需求很大,有的需求很小。在hadoop的應(yīng)用中,可以充分利用hadoop的集群特征,利用集群強大的并行計算和存儲能力,在進行數(shù)據(jù)挖掘工作時將其中需要巨大計算能力的各個模塊的計算和存儲要求擴展到hadoop集群中的各個節(jié)點上以便提高算法的精準度。設(shè)計思想采用逐層漸進的設(shè)計方式。龐大的數(shù)據(jù)量使用hadoop來存儲、分析和處理,處理過的數(shù)據(jù)作為底層,在它的上層數(shù)據(jù)的處理直接調(diào)用底層的處理數(shù)據(jù)。其流程如下:

        (1)存儲

        我們采用HDFS來存儲整個系統(tǒng)中的文件和數(shù)據(jù)。HDFS的優(yōu)點在于具有很高的數(shù)據(jù)吞吐量,并且也具有很好的容錯機制。HDFS具有API以及各種訪問命令的多種訪問接口。使用HDFS可以使輸入輸出都在HDFS中進行,輸入數(shù)據(jù)如數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘過程的輸入。同時,使用HDFS可以為我們提供大量的存儲空間,方便對原始大數(shù)據(jù)以及臨時文件的處理。

        (2)計算

        在系統(tǒng)中,我們可以使用MapReduce進行并行計算:將系統(tǒng)中大計算量數(shù)據(jù)的各個子模塊任務(wù)分配到集群的各個節(jié)中實現(xiàn)并行計算。利用MapReduce良好的伸縮性和擴展性,通過它提供的編程接口以及屏蔽多余數(shù)據(jù)的有點可以實現(xiàn)各種算法的并行模式。實現(xiàn)的過程中HDFS必不可少。

        2.2 系統(tǒng)結(jié)構(gòu)模型介紹

        在逐層漸進的思想指引下,白上帶下,每層都透明的調(diào)用下層接口,最上層是用于用戶與系統(tǒng)交互的交互層,最下層是用來實現(xiàn)文件分布式存儲和并行計算功能的分布式計算層,靠hadoop來得以實現(xiàn)。勇敢使用逐層漸進的方式,各層之間互不影響,有利于系統(tǒng)的拓展與運行。以下是對基于hadoopd的挖掘系統(tǒng)做個詳細的介紹:endprint

        (1)交互層

        這層主要負責系統(tǒng)與用戶的交互。通過詳細、表現(xiàn)形式優(yōu)良的界面窗口,讓用戶可以輕松的查看定制各種業(yè)務(wù),并能詳細了解或者保存各種輸出結(jié)果。

        (2)業(yè)務(wù)應(yīng)用層

        在業(yè)務(wù)應(yīng)用層中主要提供的是各種業(yè)務(wù)邏輯,以及對各種業(yè)務(wù)流程的控制和調(diào)度。這一層主要用來處理用戶提交的邏輯數(shù)據(jù)。例如用戶在交互層提交的對特定數(shù)據(jù)完成分類挖掘的業(yè)務(wù),就在這一層被處理。業(yè)務(wù)應(yīng)用層通過調(diào)用數(shù)據(jù)挖掘算法層的多個模塊來完成交互層提交的業(yè)務(wù),并返回結(jié)果到交互層。業(yè)務(wù)應(yīng)用層還控制和調(diào)度著數(shù)據(jù)挖掘平臺中各個模塊的執(zhí)行。

        (3)數(shù)據(jù)挖掘平臺層

        數(shù)據(jù)挖掘階段的業(yè)務(wù)流需要多個模塊組成,對于粒度的要求也較高,而數(shù)據(jù)挖掘平臺層對數(shù)據(jù)的挖掘與預(yù)處理過程、對模式的評估以及對結(jié)果的展示等操作可以達到這些高要求,因此可以稱作是整個系統(tǒng)的核心。數(shù)據(jù)挖掘平臺層的主要任務(wù)在于實現(xiàn)各種任務(wù)過程中算法的并行化,將任務(wù)提交到hadoop分布計算層進行運算,最后將結(jié)果返回給業(yè)務(wù)應(yīng)用層[10]。

        (4)分布式計算平臺層

        在分布式計算平臺層中,hadoop框架具備著集群存儲、計算等方面的強大功能。它不僅提供了分布式文件系統(tǒng)和并行的運行模式,而且實現(xiàn)了對分布式系統(tǒng)的管理。只有在這種基礎(chǔ)功能的條件下,我們在執(zhí)行任務(wù)的過程中才能夠完成提交的server。

        2.3 具體功能模塊功能

        為了使系統(tǒng)中各層接受到的任務(wù)能夠得到有序執(zhí)行,每一層都有自己獨特的功能模塊,以下是對各層模塊及其功能的介紹:

        (1冱層:這一層具有的模塊包括用戶管理模塊、業(yè)務(wù)模塊與展示模塊。用戶管理模塊可以識別用戶身份并進行登錄、注銷等相應(yīng)權(quán)限的設(shè)置與管理;業(yè)務(wù)模塊可以滿足用戶需求的細粒度,完成用戶提交的業(yè)務(wù)操作;展示模塊可以查看用戶的業(yè)務(wù)結(jié)果,并能夠進行分析操作與保存操作,將最終分析結(jié)果再次傳達給用戶。

        (2)務(wù)應(yīng)用層:這一層具有的模塊包括業(yè)務(wù)響應(yīng)模塊以及工作流模塊。業(yè)務(wù)響應(yīng)模塊主要用來響應(yīng)上層的業(yè)務(wù)模塊、調(diào)用與管理子業(yè)務(wù)模塊與下層模塊;工作流模塊的運行目的是把具體的信息參數(shù)返還給上述的業(yè)務(wù)響應(yīng)模塊,主要是對業(yè)務(wù)進程進行監(jiān)控與管理操作。

        (3)據(jù)挖掘平臺:這一層中包括的模塊較多,具體有數(shù)據(jù)加載模塊、結(jié)果存儲模塊、模式評估模塊以及并行ETL模塊。數(shù)據(jù)加載模塊先把所需的數(shù)據(jù)進行注冊,然后存儲于HDFS文件系統(tǒng);結(jié)果存儲模塊存儲信息量較大,又稱作知識庫,主要是用來存放從過去到現(xiàn)在的挖掘模式;模式評估模塊主要用來評估模式,其評估結(jié)果以備調(diào)用;并行ETL模塊主要是對數(shù)據(jù)進行預(yù)處理操作,工作數(shù)據(jù)可以從HDFS文件中調(diào)用,處理完的結(jié)果將再次儲存于HDFS文件,為挖掘過程進行數(shù)據(jù)清理,提取,轉(zhuǎn)換和加載等操作。

        (4)分布式計算層:hadoop框架自身具有強大的功能,包括HDFS,MapReduce運行模式、運算環(huán)境以及自動管理等模塊。

        3 總結(jié)

        信息時代在快速發(fā)展,web2.0、大數(shù)據(jù)、云計算等新興概念在不斷涌現(xiàn),并隨著科技發(fā)展不斷進行自我突破。通過結(jié)合數(shù)據(jù)挖掘與云計算各自的長處,能夠在計算平臺中提供強大的處理能力,其在現(xiàn)階段強大的優(yōu)勢和在未來的潛能已成為行業(yè)的發(fā)展趨勢。由于hadhoop高速的加速比和運行效率,大數(shù)據(jù)挖掘系統(tǒng)的關(guān)鍵部分正逐步被以hadoop為代表的分布式系統(tǒng)所取代,未來的發(fā)展?jié)摿υ谟嬎隳芰Φ臄U展性能中也得到了充分的體現(xiàn)。endprint

        猜你喜歡
        分布式計算應(yīng)用層精準度
        BH66F5355 增強型24-bit A/D MCU
        傳感器世界(2023年5期)2023-08-03 10:38:18
        讓黨建活動更加有“味”——禮泉縣增強“兩新”黨建精準度
        當代陜西(2020年24期)2020-02-01 07:06:56
        論提高不動產(chǎn)產(chǎn)權(quán)保護精準度的若干問題
        基于分級保護的OA系統(tǒng)應(yīng)用層訪問控制研究
        基于云計算的移動學(xué)習(xí)平臺設(shè)計與實現(xiàn)
        云計算中MapReduce分布式并行處理框架的研究與搭建
        面向異構(gòu)分布式計算環(huán)境的并行任務(wù)調(diào)度優(yōu)化方法
        新一代雙向互動電力線通信技術(shù)的應(yīng)用層協(xié)議研究
        物聯(lián)網(wǎng)技術(shù)在信息機房制冷系統(tǒng)中的應(yīng)用
        機械加工過程中的機械振動分析
        中國機械(2014年15期)2014-04-29 00:09:45
        久久久精品456亚洲影院| 国产午夜福利精品一区二区三区 | 日本一本一道久久香蕉男人的天堂| 日本丰满熟妇videossexhd| 亚洲日本va午夜在线电影| 日本一区二区三区激情视频| 亚洲中文字幕一二区精品自拍| 日本添下边视频全过程| 国产美女久久精品香蕉69| 2021国产精品久久| 亚洲一区二区日韩精品| 久久中文骚妇内射| 少妇白浆高潮无码免费区| 欧美日韩一区二区三区视频在线观看| 亚洲精品一区二在线观看| 人妻少妇久久中文字幕| 免费无码成人av在线播放不卡| 日韩中文字幕网站| 中文字幕一区二区av| 亚洲妇女自偷自偷图片| 精品2021露脸国产偷人在视频| 日本二区三区视频免费观看| 国产在线观看91一区二区三区| 欧美日韩精品| 欧美日韩一线| 日韩中文字幕在线丰满| 国内精品久久久人妻中文字幕 | 久久婷婷综合激情亚洲狠狠| 精品人妻大屁股白浆无码| 少妇spa推油被扣高潮| 亚洲AⅤ乱码一区二区三区| av天堂手机免费在线| 看黄a大片日本真人视频直播| 国产成人av综合亚洲色欲| 亚洲五月天中文字幕第一页| 国产a级三级三级三级| 国语对白做受xxxxx在线中国| 亚洲天堂免费一二三四区| 日本一区二区三区免费精品| 国产激情精品一区二区三区| 国产精品国产自线拍免费|