亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop 平臺的海量數據挖掘算法的研究分析

        2019-02-13 10:45:37羅釗航楊澤威
        數字通信世界 2019年7期
        關鍵詞:改進型項集事務

        羅釗航,車 宇,楊澤威

        (中國核動力研究設計院,成都 610005)

        近些年我國廣播電視業(yè)在積極發(fā)展的過程中,也帶動了無線網的建設與發(fā)展,特別是在數字化進程下,我國無線微波網也正在加快落實數字化升級,尤其是建設微波中繼通信系統(tǒng)有著建設快、成本低的優(yōu)勢。因此數字微波電路及其路由設計也需要積極朝著數字化的方向發(fā)展,以便可以更好地適應現代化、數字化的廣播電視無線傳輸系統(tǒng)。而通過明確數字微波電路路由設計的注意問題,對保障其設計科學合理性具有積極的幫助作用。

        1 Hadoop 相關技術

        Hadoop 架構是用于集群分布式計算,是集存儲、處理、計算、分析等為一體的分布式系統(tǒng)并行執(zhí)行環(huán)境。Hadoop 框架以HDFS和Map/Reduce 編程模型為核心。HDFS 負責管理分布式文件存儲系統(tǒng),Map/Reduce 編程模型為“先分解任務,計算,再匯總結果”的計算框架。Hadoop 平臺的計算和存儲在一個節(jié)點,這種搭配模式更能高效快速的使用資源。

        2 傳統(tǒng)的數據挖掘算法

        本節(jié)將主要介紹傳統(tǒng)的數據挖掘算法。

        2.1 K-means 聚類算法

        聚類算法屬于無監(jiān)督特性的機器學習領域的算法,最典型的聚類算法為K-means 算法,由于它具有原理簡單和收斂速度快這兩種特性,因而在數據挖掘方面K-means 算法有很大研究和發(fā)展。

        2.2 改進的PrePost 算法

        PrePost 算法雖然常用于數據挖掘,但存在構建結構樹效率低下的問題,為適應基于Hadoop 平臺的大數據挖掘,常對PrePost 算法進行改進,基于B-list 的改進PrePost 算法便是其中一種,它具有良好的用高效的連接和剪枝策略等優(yōu)勢。

        2.3 基于矩陣的Apriori 算法

        基于矩陣的Apriori 算法是Apriori 算法的改進型,原理如下:設事務數據庫M,遍歷M 中的每個事務,得到矩陣。算法的描述如下:

        輸入:事務數據庫

        輸出:頻繁項集

        (1)掃描事務數據庫,轉換為矩陣。

        (2)計算各項的支持度得到頻繁1-項集。

        (3)計算頻繁i-項集中項籍的個數Li。

        (4)若Li

        (5)連接i-項集,從而得到(i+1)-項集,再對(i+1)-項集剪枝。

        (6)計算所有(i+1)-項集的支持度。

        (7)計算頻繁(i+1)-項集。

        (8)結束。

        3 改進型的數據挖掘算法

        本節(jié)將主要介紹改進型數據挖掘算法。

        3.1 基于Hadoop 的K-means 聚類算法改進型

        基于Hadoop 的K-means 聚類算法改進型思想如下:

        (1)首先分割數據,并對分割后的數據進行計算,Map 階段計算樣本之間的距離,Reduce 階段完成計算并找到初始聚類中心。

        (2)進入二次迭代。

        (3)二次迭代中使用K-means 聚類算法得到鍵值。

        (4)通過Map/Reduce 更新聚類中心。

        (5)計算平均誤差準則函數。

        (6)若結果不收斂,進行第(2)步;若結果收斂,輸出K個類簇,算法結束。

        3.2 基于Hadoop 的數據挖掘算法改進型

        基于Hadoop 的數據挖掘算法改進型[1]的核心思想為:通過負載均衡策略使用Hadoop 集群中的HDFS 與Map/Reduce 模型對數據進行計算,得到所有的頻繁模式,再通過kulczynski 度量和不平衡比評估頻繁模式,挖掘數據中的價值。

        3.3 基于Hadoop 的Apriori 算法

        由于Hadoop 集群的通信會占用部分硬件系統(tǒng)資源,如I/0、內存等,而Apriori 算法可以減少對事務數據庫的掃描,因而將兩者結合起來,可以極大地提高算法的效率。基于Hadoop 的Apriori 算法可以將掃描數據庫次數降為2次,且無大量中間結果集產生。

        4 改進型算法分析

        4.1 基于Hadoop 的改進型K-means 聚類算法

        在算法準確率方面,明顯高于傳統(tǒng)K-means 聚類算法,此算法在準確率上有良好的性能,在集群環(huán)境的計算優(yōu)勢逐漸顯示出來,隨著節(jié)點數的增加,數據量越大加速比越大。

        4.2 基于Hadoop 的改進型頻繁模式挖掘算法

        基于Hadoop 的改進型頻繁模式挖掘算法執(zhí)行時間是由集群中執(zhí)行最長時間的節(jié)點決定的,因而這個算法的核心使對整個集群做負載均衡。優(yōu)秀的負載均衡算法能夠使所有節(jié)點的耗時接近,節(jié)點之間通信數據量小,系統(tǒng)開銷低,從而提高此算法的效率。

        4.3 基于Hadoop 的Apriori 算法

        基于矩陣的Apriori 算法[2,3]由于減少了對事務數據庫的掃描次數,因而效率高,在同等數據量下,算法耗時短。

        5 總結

        總的來講,數據挖機算法多種多樣,各有優(yōu)劣,當前基于Hadoop 平臺的算法主要由這幾類算法延伸或演變而來,本文對這些算法進行了概括性的分析和研究。

        猜你喜歡
        改進型項集事務
        “事物”與“事務”
        基于分布式事務的門架數據處理系統(tǒng)設計與實現
        Cr5改進型支承輥探傷無底波原因分析
        一重技術(2021年5期)2022-01-18 05:42:08
        河湖事務
        改進型CKF算法及其在GNSS/INS中的應用
        測控技術(2018年4期)2018-11-25 09:47:14
        改進型逆變器無效開關死區(qū)消除方法
        關聯規(guī)則中經典的Apriori算法研究
        卷宗(2014年5期)2014-07-15 07:47:08
        改進型抽頭電感準Z源逆變器
        一種頻繁核心項集的快速挖掘算法
        計算機工程(2014年6期)2014-02-28 01:26:12
        SQLServer自治事務實現方案探析
        亚洲不卡免费观看av一区二区| 天天狠狠综合精品视频一二三区| 2020亚洲国产| 亚洲一区二区三区精彩视频| 国产高颜值女主播在线| 大肉大捧一进一出视频| 欧美伊人网| 国产女人高潮的av毛片| 日本人妻伦理在线播放| 亚洲av无码一区二区乱孑伦as| 久青草国产在线观看| 日本av在线精品视频| 色婷婷久久精品一区二区| 国产a国产片国产| 色两性网欧美| 人妻少妇久久精品一区二区| 国产av在线观看一区二区三区| 乱人妻中文字幕| 欧美激情五月| av在线手机中文字幕| 亚洲av日韩av卡二| 三级特黄60分钟在线观看| 国产在线无码免费视频2021| 91桃色在线播放国产| 人人超碰人人爱超碰国产| 亚洲精品无播放器在线播放| 国产精品国产三级国产av创| 国产精品国产三级国产专区50| 疯狂做受xxxx国产| 人与嘼av免费| 日韩精品国产一区在线| 国产禁区一区二区三区| 人妻丝袜无码国产一区| 免费一级国产大片| 日本一区二区三区不卡在线| 亚洲熟妇少妇任你躁在线观看无码| 伊人22综合| 久久亚洲宅男天堂网址| 亚洲精品第一国产综合精品 | 国产午夜在线视频观看| 全球av集中精品导航福利|