亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于分布式計(jì)算框架的大數(shù)據(jù)機(jī)器學(xué)習(xí)

        2018-01-18 09:13:26張維王玥羅珅
        關(guān)鍵詞:機(jī)器學(xué)習(xí)大數(shù)據(jù)

        張維 王玥 羅珅

        摘要:在大數(shù)據(jù)的時代里,實(shí)現(xiàn)高效的大數(shù)據(jù)的機(jī)器學(xué)習(xí)系統(tǒng),需要開發(fā)人員要搭建一個計(jì)算機(jī)機(jī)器學(xué)習(xí)系統(tǒng),并且該系統(tǒng)能夠同時完成機(jī)器學(xué)習(xí)和大規(guī)模數(shù)據(jù)處理的任務(wù)?,F(xiàn)有的訓(xùn)練數(shù)據(jù)集重復(fù)使用,場景信息較少,已經(jīng)不能滿足大規(guī)模機(jī)器訓(xùn)練的需要,所以需要包含大規(guī)模數(shù)據(jù)、分布式的計(jì)算機(jī)系統(tǒng)完成訓(xùn)練。本文介紹了現(xiàn)有大數(shù)據(jù)機(jī)器學(xué)習(xí)基本概念和一種稱為Spark的大數(shù)據(jù)分布式計(jì)算方法。

        關(guān)鍵詞:機(jī)器學(xué)習(xí);大數(shù)據(jù);分布計(jì)算模型

        中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2018)09-0027-02

        1 背景

        近年來,隨著大數(shù)據(jù)的興起,推動了大數(shù)據(jù)在機(jī)器學(xué)習(xí)領(lǐng)域的運(yùn)用和迅猛發(fā)展,基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)能夠更有效更精準(zhǔn)的完成機(jī)器訓(xùn)練,基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)系統(tǒng)已經(jīng)成為計(jì)算機(jī)研究開發(fā)領(lǐng)域的一個熱點(diǎn)研究問題。機(jī)器學(xué)習(xí)和大數(shù)據(jù)分析是運(yùn)用現(xiàn)有的計(jì)算機(jī)系統(tǒng)模型,將計(jì)算機(jī)獲取到的大量的數(shù)據(jù)或稱大數(shù)據(jù)轉(zhuǎn)換成有用信息的技術(shù)。運(yùn)用的數(shù)據(jù)規(guī)模越大,機(jī)器學(xué)習(xí)訓(xùn)練效果越好,精度更準(zhǔn),識別內(nèi)容更多,減少過擬合和欠擬合現(xiàn)象的發(fā)生[1-3]。

        大數(shù)據(jù)機(jī)器學(xué)習(xí)既不是單純的機(jī)器學(xué)習(xí),也不是簡單的大數(shù)據(jù)處理的問題,而同時涉及機(jī)器學(xué)習(xí)和大數(shù)據(jù)處理兩個方面的技術(shù)難題的攻克與融合的運(yùn)用[4]。這個過程中,研究人員不僅需要繼續(xù)關(guān)注機(jī)器學(xué)習(xí)的函數(shù)方法和算法,而且還需要繼續(xù)研究新的、高效的算法或改進(jìn)的現(xiàn)有的不完善的機(jī)器學(xué)習(xí)方法,保證能夠提升在實(shí)際運(yùn)行中的結(jié)果的準(zhǔn)確性。搭建一個基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)系統(tǒng),同時涉及機(jī)器學(xué)習(xí)和大數(shù)據(jù)處理兩方面的問題,如機(jī)器學(xué)習(xí)的算法模型、數(shù)據(jù)集、訓(xùn)練方法、精度、擬合等問題,大數(shù)據(jù)處理方面的分布式存儲、并行化計(jì)算、網(wǎng)絡(luò)通信、任務(wù)調(diào)度、容錯冗余備份等[5,6]。這些因素互相影響,增加了系統(tǒng)設(shè)計(jì)的復(fù)雜性和設(shè)計(jì)完成系統(tǒng)的穩(wěn)定性精準(zhǔn)性,給設(shè)計(jì)人員的系統(tǒng)開發(fā)設(shè)計(jì)帶來了一些挑戰(zhàn)。在設(shè)計(jì)大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)和研究其方法和算法時,還要關(guān)注如何結(jié)合分布式和并行化的大數(shù)據(jù)處理技術(shù),以便在可接受的時間內(nèi)完成計(jì)算。

        2 Spark方法

        Spark[3]誕生于伯克利大學(xué)的AMPLab實(shí)驗(yàn)室,2010年正式開源,開放代碼提供給開發(fā)測試人員使用,2014年成為Apache的頂級項(xiàng)目。Spark在2014年11月的Daytona Gray Sort 100TB Benchmark競賽中,打破了保持排序紀(jì)錄的Hadoop MapReduce框架結(jié)構(gòu)。Spark利用1/10的節(jié)點(diǎn)數(shù),把100TB數(shù)據(jù)的排序時間從72min降低到了23min。

        Spark主要具有如下特點(diǎn):(1)計(jì)算效率高。通過有向無環(huán)圖DAG支持循環(huán)數(shù)據(jù)流,在內(nèi)存中存儲中間數(shù)據(jù),擁有高效的迭代運(yùn)算效率。(2)通用性強(qiáng),提供豐富的組件。Spark為開發(fā)人員提供了各種完整強(qiáng)大的組件庫,包括sql查詢、流式計(jì)算、機(jī)器學(xué)習(xí)和圖算法組件等多種組件。(3)使用方便,兼容多種開發(fā)語言。提供Spark Shell腳本,用戶可以進(jìn)行交互式編程開發(fā),同時支持Scala、Java、Python和R等多種編程語言開發(fā)。(4)模式多樣,對外部環(huán)境依賴少,兼容多種服務(wù)器。可以獨(dú)立運(yùn)行于各種集群服務(wù)器中,兼容Hadoop、Amazon EC2等云環(huán)境,可以訪問多種數(shù)據(jù)源如HDFS、Cassandra、HBase、Hive等。

        Spark具有極其多的有點(diǎn),是由于其采用了不同于一般框架的數(shù)據(jù)結(jié)構(gòu),spark采用彈性分布式數(shù)據(jù)集(resilient distributed dataset,RDD),RDD是Apache Spark平臺的基礎(chǔ),RDD是以邏輯分塊進(jìn)行劃分的對象集合,緩存在內(nèi)存中,在內(nèi)存中數(shù)據(jù)儲存滿了以后,數(shù)據(jù)會保存到硬盤上。RDD有兩層含義:數(shù)據(jù)結(jié)構(gòu)RDD和編程模型RDD。(1)數(shù)據(jù)結(jié)構(gòu)RDD本質(zhì)上來說,是一個只讀、可分區(qū)的記錄集合,一個RDD包含多個分區(qū),每個分區(qū)是包含一個數(shù)據(jù)集的片段。RDD本質(zhì)上是一個內(nèi)存數(shù)據(jù)集,解決了磁盤讀寫密集和網(wǎng)絡(luò)通信負(fù)載過大的問題。(2)編程模型RDD上定義了兩類操作:轉(zhuǎn)換和動作。轉(zhuǎn)換操作返回新的RDD,動作操作的結(jié)果在存儲系統(tǒng)中導(dǎo)入一個值。Spark在RDD上定義的采用惰性調(diào)用機(jī)制,只有在調(diào)用作操作時才會真正觸發(fā)所有定義的操作。

        由轉(zhuǎn)換操作得到的父子RDD之間存在依賴關(guān)系,包括窄依賴和寬依賴。窄依賴:父RDD中的一個分區(qū)只被一個子RDD的一個分區(qū)使用。窄的依賴關(guān)系有利于高效的執(zhí)行,而廣泛的依賴關(guān)系會帶來瓶頸,因?yàn)樗鼈儠茐牧魉€,而且需要通信密集的隨機(jī)操作。寬依賴:父RDD的一個分區(qū)被一個子RDD的多個分區(qū)使用。

        在Spark中,計(jì)算被建模為有向無環(huán)圖(DAG,directed acyclic graph),其中的每個頂點(diǎn)表示彈性分布式數(shù)據(jù)集RDD,每個邊表示RDD上的實(shí)際操作。spark用戶將計(jì)算作為有向無環(huán)圖進(jìn)行建模,該有向無環(huán)圖會轉(zhuǎn)換并運(yùn)行RDD上的動作。有向無環(huán)圖DAG會分階段進(jìn)行編譯,每個階段將并行執(zhí)行一系列的任務(wù)。Spark中的分布式執(zhí)行操作,是通過對機(jī)器上的有向無環(huán)圖階段進(jìn)行分塊來實(shí)現(xiàn)的。Driver包含了兩個調(diào)度組件,有向無環(huán)圖調(diào)度器和任務(wù)調(diào)度器,用于給workers分配任務(wù),以及協(xié)調(diào)workers。

        在基本的設(shè)置中,Spark將模型參數(shù)存儲在driver節(jié)點(diǎn)中,而workers與driver進(jìn)行通信,以便在每次迭代后更新參數(shù)。在大規(guī)模的部署中,模型參數(shù)不是特別適合在driver中存儲,而應(yīng)將其作為RDD進(jìn)行維護(hù)。這引入了很大的開銷,因?yàn)樾枰诿看蔚袆?chuàng)建新的RDD以保存更新過的模型參數(shù)。更新模型包括在機(jī)器和磁盤之間混洗數(shù)據(jù)限制了Spark的可擴(kuò)展性。這是Spark中基本數(shù)據(jù)流模型有向無環(huán)圖不足的地方。Spark的設(shè)計(jì)目的是為一般數(shù)據(jù)處理設(shè)計(jì)的,而不是為機(jī)器學(xué)習(xí)設(shè)計(jì)的。然而,開發(fā)人員可以利用專用于Spark的MLlib的工具包,在Spark上進(jìn)行機(jī)器學(xué)習(xí)。同時Spark的缺點(diǎn)還有不支持機(jī)器學(xué)習(xí)所需的迭代操作。

        3 結(jié)語

        基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)系統(tǒng)的研究和開發(fā),不僅是研究算法問題,更是解決一個大規(guī)模系統(tǒng)之間相互關(guān)聯(lián)、協(xié)同運(yùn)行的問題。相比傳統(tǒng)的機(jī)器學(xué)習(xí),基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)系統(tǒng),大大的擴(kuò)充了機(jī)器學(xué)學(xué)所需訓(xùn)練數(shù)據(jù)樣本的數(shù)量,使機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)不再拘泥于已有的、大量已被頻繁使用過的數(shù)據(jù)集,使得機(jī)器學(xué)習(xí)的訓(xùn)練過程和結(jié)果更加多樣化,挖掘分析出更多更隱藏的、不為人知的有用信息。隨著硬件技術(shù)的提升和編程算法的不斷優(yōu)化,越來越多的科研人員參與其中,數(shù)據(jù)采集的過程已經(jīng)不再是影響大數(shù)據(jù)發(fā)展的首要因素,通過數(shù)據(jù)挖掘,分析出數(shù)據(jù)的關(guān)系,發(fā)現(xiàn)數(shù)據(jù)潛在的價值,提取有用的數(shù)據(jù)歸納總結(jié),抽象出普遍特征,避免無用數(shù)據(jù)對需要的數(shù)據(jù)進(jìn)行干擾是當(dāng)前大數(shù)據(jù)學(xué)習(xí)面臨的首要挑戰(zhàn)。機(jī)器學(xué)習(xí)也需要通過大量數(shù)據(jù)完成訓(xùn)練,通過不斷優(yōu)化,將大數(shù)據(jù)與機(jī)器學(xué)習(xí)相互融合,提升二者關(guān)聯(lián)性,完成更好的數(shù)據(jù)挖掘過程和更精準(zhǔn)的完成機(jī)器訓(xùn)練。

        參考文獻(xiàn)

        [1]焦嘉烽,李云.大數(shù)據(jù)下的典型機(jī)器學(xué)習(xí)平臺綜述[J].計(jì)算機(jī)應(yīng)用,2017,(11):7-15+20.

        [2]何清,李寧,羅文娟.大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[J].模式識別與人工智能,2014,(04):41-50.

        [3]唐振坤.基于Spark的機(jī)器學(xué)習(xí)平臺設(shè)計(jì)與實(shí)現(xiàn)[D].廈門大學(xué),2014.

        [4]Jiang, J., Yu, L., Jiang, J., Liu, Y., Cui, B.: Angel: a new large-scale machine learning system. National Science Review nwx018(2017).

        [5]ZAHARIA M, CHOWDHURY M, FRANKLIN M J, et al. Spark:cluster computing with working sets [C]Proceedings of the 2ndUSENIX Conference on Hot Topics in Cloud Computing. Berkeley, CA: USENIX Association,2010: Article No.10.

        [6]K Zhang , S Alqahtani , M Demirbas: A Comparison of Distributed Machine Learning Platforms. International Conference on Computer Communicatio,2017:1-9.

        猜你喜歡
        機(jī)器學(xué)習(xí)大數(shù)據(jù)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        時代金融(2016年27期)2016-11-25 17:51:36
        前綴字母為特征在維吾爾語文本情感分類中的研究
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
        欧美日韩国产成人综合在线影院| 国产精品人妻一码二码尿失禁| 丝袜足控一区二区三区| 最新国产成人综合在线观看| 性感的小蜜桃在线观看| 久久精品国产亚洲夜色av网站| 中文无字幕一本码专区| 国产成人自拍高清在线| 免费观看的av毛片的网站| 精品免费在线| 精品丝袜国产在线播放| 一区二区视频在线国产| 亚洲国产一区二区三区在线观看| 极品美女扒开粉嫩小泬| 无码精品国产午夜| 最新中文字幕亚洲一区| 极品粉嫩小仙女高潮喷水网站| 人人色在线视频播放| 亚洲成人电影在线观看精品国产 | 大屁股少妇一区二区无码| 国产av一啪一区二区| 真实国产乱子伦精品视频| 老妇肥熟凸凹丰满刺激| 成年女人片免费视频播放A| 高清亚洲精品一区二区三区| 变态另类手机版av天堂看网| 久久久久国产一区二区| 国产内射合集颜射| 无码日韩AⅤ一区二区三区| 亚洲产在线精品亚洲第一页| 久久久久99精品成人片欧美| 97伦伦午夜电影理伦片| 2021精品综合久久久久| 亚洲福利二区三区四区| 国产后入又长又硬| 国产免费一级高清淫日本片| 激情免费视频一区二区三区| 国产精品天干天干综合网| 久久精品国产9久久综合| 亚洲视频不卡免费在线| 久久精品熟女亚洲av香蕉|