亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)綜述

        2020-05-21 05:54:57姜紹俊
        電腦知識(shí)與技術(shù) 2020年9期
        關(guān)鍵詞:機(jī)器學(xué)習(xí)大數(shù)據(jù)

        摘要:機(jī)器學(xué)習(xí)需要有大量的背景數(shù)據(jù)作為訓(xùn)練集,而大數(shù)據(jù)技術(shù)正好給機(jī)器學(xué)習(xí)帶來(lái)了這樣的大量數(shù)據(jù)訓(xùn)練集。結(jié)合機(jī)器學(xué)習(xí)和大數(shù)據(jù)技術(shù),為了實(shí)現(xiàn)高效的大數(shù)據(jù)機(jī)器學(xué)習(xí)而設(shè)計(jì)的大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)面臨著諸多的技術(shù)問(wèn)題。大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)成為大數(shù)據(jù)技術(shù)和機(jī)器學(xué)習(xí)領(lǐng)域研究的重要課題。本文介紹了大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)應(yīng)該具有的概念、特征及相關(guān)典型的大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)。

        關(guān)鍵詞:大數(shù)據(jù);機(jī)器學(xué)習(xí);大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)

        中圖分類號(hào):TP3 文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2020)09-0185-02

        大數(shù)據(jù)技術(shù)是繼物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)云計(jì)算之后又一項(xiàng)重大的技術(shù)變革,大數(shù)據(jù)技術(shù)的使用已經(jīng)對(duì)各行各業(yè)都產(chǎn)生了巨大的影響。大數(shù)據(jù)技術(shù)近年來(lái)發(fā)展迅速,受到了全球各行各業(yè)的高度關(guān)注。

        大數(shù)據(jù)技術(shù)有著廣泛的應(yīng)用空間,隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展各行各業(yè)動(dòng)輒達(dá)到數(shù)百TB甚至數(shù)PB規(guī)模的數(shù)據(jù)被生產(chǎn)出來(lái)。如此大規(guī)模的數(shù)據(jù)量已經(jīng)超出了一般計(jì)算機(jī)的處理能力,在如此大的數(shù)據(jù)集中往往含有許多在小數(shù)據(jù)集中不能被發(fā)現(xiàn)的知識(shí)和價(jià)值。因此大數(shù)據(jù)智能化的分析挖掘技術(shù)可以為很多企業(yè)帶來(lái)商業(yè)價(jià)值。

        很多研究表明機(jī)器學(xué)習(xí)處理的樣本量越大,機(jī)器學(xué)習(xí)的效果越準(zhǔn)確,因此機(jī)器學(xué)習(xí)將會(huì)成為大數(shù)據(jù)技術(shù)中的核心力量。目前,隨著計(jì)算機(jī)硬件的發(fā)展,計(jì)算機(jī)的計(jì)算能力越來(lái)越強(qiáng)大,大量數(shù)據(jù)加上強(qiáng)的計(jì)算能力已成為大數(shù)據(jù)時(shí)代人工智能發(fā)展的動(dòng)力,大數(shù)據(jù)機(jī)器學(xué)習(xí)進(jìn)入了新一輪的發(fā)展浪潮中,大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)(Big Data Machine Leaming System)成為高度關(guān)注的熱點(diǎn)研究領(lǐng)域。[1]

        現(xiàn)有的大數(shù)據(jù)系統(tǒng)不是用于大量數(shù)據(jù)的簡(jiǎn)單統(tǒng)計(jì)分析,就是用于小數(shù)據(jù)量的數(shù)據(jù)處理,缺少?gòu)?qiáng)大數(shù)據(jù)處理能力和復(fù)雜數(shù)據(jù)分析能力的大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)。大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)不僅要關(guān)注機(jī)器學(xué)習(xí)方法和算法本身,還要關(guān)注如何使用分布式和并行化的大數(shù)據(jù)處理技術(shù),讓大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)可以對(duì)復(fù)雜數(shù)據(jù)進(jìn)行有效分析和大量數(shù)據(jù)的并行處理,從而在有限的時(shí)間范圍內(nèi)完成相關(guān)機(jī)器學(xué)習(xí)算法的運(yùn)行。因此,諸多的大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)的研究與開發(fā)工作如雨后春筍般的出現(xiàn)。

        1 大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)的特征

        大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)既不是大數(shù)據(jù)處理技術(shù)問(wèn)題也不是機(jī)器學(xué)習(xí)算法研究問(wèn)題,它應(yīng)該是一個(gè)結(jié)合大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù)的交叉系統(tǒng)問(wèn)題。大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)應(yīng)該繼續(xù)研究機(jī)器學(xué)習(xí)算法本身.即通過(guò)對(duì)大量數(shù)據(jù)的準(zhǔn)備、分析和處理得到更加健壯、更加準(zhǔn)確的機(jī)器學(xué)習(xí)模型。由于在大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)中需要對(duì)大量的數(shù)據(jù)進(jìn)行處理,而傳統(tǒng)的串行化處理方法難以在有限的時(shí)間內(nèi)完成機(jī)器學(xué)習(xí)的任務(wù),限制了大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)的使用效率和應(yīng)用前景。因此大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)還應(yīng)該在分布式、并行化等方面進(jìn)行研究,從而建立一個(gè)大規(guī)模分布式、并行化的機(jī)器學(xué)習(xí)系統(tǒng)。

        一個(gè)成功的大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)應(yīng)該具有一些基本的技術(shù)特征:首先它需要考慮訓(xùn)練數(shù)據(jù)集的大小,如何提取相關(guān)數(shù)據(jù)集的特征,在一個(gè)系統(tǒng)化的平臺(tái)上訓(xùn)練機(jī)器學(xué)習(xí)的算法;其次它應(yīng)該提供相關(guān)的訓(xùn)練模型,保證訓(xùn)練模型的健壯性,并對(duì)模型中的參數(shù)和超參進(jìn)行有效管理;最后為了更好地?fù)碛邢到y(tǒng)的開發(fā)性和廣泛的應(yīng)用能力,它應(yīng)該提供對(duì)底層系統(tǒng)的抽象,以實(shí)現(xiàn)對(duì)底層通用大數(shù)據(jù)處理引擎的支持。大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)平臺(tái)僅僅提供給用戶透明的機(jī)器學(xué)習(xí)模型和算法,而底層的計(jì)算任務(wù)則由底層分布式系統(tǒng)負(fù)責(zé)完成。

        2 典型大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)介紹

        2.1 Spark MLlib

        MLlib包括底層基礎(chǔ)、算法庫(kù)和實(shí)用程序三個(gè)部分:;實(shí)用程序具有生成測(cè)試數(shù)據(jù)、讀入外部數(shù)據(jù)等功能。底層基礎(chǔ)由Spark的運(yùn)行庫(kù)、矩陣庫(kù)和向量庫(kù)組成,在向量方面MLlib支持本地的密集向量和稀疏向量;在矩陣方面MLlib支持本地矩陣和分布式矩陣。Spark中的算法庫(kù)由廣義線性模型、聚類算法、分類算法、回歸算法、決策樹和評(píng)估算法等組成。

        Spark Mllib其算法種類和接口有限,難以滿足實(shí)際使用過(guò)程中的各種需求,其在靈活性方面也存在不足。

        2.2 Apache SystemML

        Apache SystemML[2-3]是在2015年由IBM開源的機(jī)器學(xué)習(xí)系統(tǒng),作為大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)受到廣泛的認(rèn)可,SystemML支持單機(jī)和分布式部署,分布式部署支持Hadoop和Spark框架。Apache SystemML支持的機(jī)器學(xué)習(xí)算法有:描述性統(tǒng)計(jì)、分類、聚類、回歸、矩陣分解、生存分析等。

        Apache SystemML具有兩大優(yōu)點(diǎn):第一,聲明式機(jī)器學(xué)習(xí)使算法表達(dá)更容易和更自然,該算法用類似R語(yǔ)言或Python語(yǔ)言來(lái)表示,提供了表達(dá)自定義分析的靈活性以及底層輸入格式和物理數(shù)據(jù)表示形式的獨(dú)立性;第二,根據(jù)數(shù)據(jù)和集群特性可以提供自動(dòng)化的服務(wù),以確保系統(tǒng)運(yùn)行的效率和可擴(kuò)展性。

        2.3 Apache Flink

        2010年,由柏林工業(yè)大學(xué)、柏林洪堡大學(xué)等合作研究的云上的信息管理,F(xiàn)link是從Stratoshphere的一個(gè)分支開始。Apache Flinkc4]是開源流處理框架,其核心是用Java和Scala編寫的分布式數(shù)據(jù)流引擎,其針對(duì)數(shù)據(jù)流的分布式計(jì)算提供了數(shù)據(jù)分布、數(shù)據(jù)通信以及容錯(cuò)機(jī)制等功能。

        Flink提供了一些數(shù)據(jù)分析軟件包供分析人員使用。數(shù)據(jù)集應(yīng)用程序接口,用戶可以方便地使用Flink對(duì)靜態(tài)數(shù)據(jù)進(jìn)行分布式批量處理;數(shù)據(jù)流應(yīng)用程序接口,用戶可以方便地對(duì)分布式數(shù)據(jù)流進(jìn)行各種操作;表格應(yīng)用程序接口,將結(jié)構(gòu)化數(shù)據(jù)抽象成關(guān)系表,通過(guò)soL對(duì)該表進(jìn)行各種查詢操作。最后,針對(duì)一些特定的應(yīng)用領(lǐng)域Flink也提供了相關(guān)的庫(kù)。

        2.4 Graph Lab

        Graph Labc5J是由CMU(卡內(nèi)基梅隆大學(xué))在2010年提出的一個(gè)基于圖像處理模型的開源圖計(jì)算框架。該框架高度抽象,可以執(zhí)行機(jī)器學(xué)習(xí)相關(guān)的算法,在計(jì)算過(guò)程中數(shù)據(jù)具有高度的一致性和高效的并行性。該框架最初是為大規(guī)模機(jī)器學(xué)習(xí)開發(fā)的,但是該框架也同樣適用于數(shù)據(jù)挖掘方面的應(yīng)用。GraphLab能夠解決機(jī)器學(xué)習(xí)中具備依賴的稀疏數(shù)據(jù)集、迭代可收斂、異步執(zhí)行等問(wèn)題。GraphLab能夠智能地選擇數(shù)據(jù)存儲(chǔ)與計(jì)算節(jié)點(diǎn),可以直接從HDFS中讀取數(shù)據(jù)或是將計(jì)算結(jié)果直接寫入到HDFS中。最后,GraphLab提供了相關(guān)應(yīng)用程序接口和實(shí)現(xiàn)了相關(guān)的開發(fā)工具箱。

        2.5 Parameter Server

        Parameter Serverc6]具有高效的通信能力,因此不需要停下來(lái)等待一些機(jī)器的執(zhí)行,這大大節(jié)省了系統(tǒng)的運(yùn)行時(shí)間。Pa-rameter Server允許算法根據(jù)情況在收斂速度和系統(tǒng)性能之間做出平衡選擇,進(jìn)一步減少了系統(tǒng)同步的成本和延時(shí)。該系統(tǒng)可以隨時(shí)插入新的服務(wù)節(jié)點(diǎn),當(dāng)插入新的節(jié)點(diǎn)時(shí)不需要重新啟動(dòng)系統(tǒng)。當(dāng)大規(guī)模的服務(wù)器集群在運(yùn)行時(shí),出現(xiàn)節(jié)點(diǎn)的運(yùn)行故障是不可避免的,Parameter Server可以快速地恢復(fù)系統(tǒng)的運(yùn)行。全局共享的參數(shù)可以被表示成各種形式,這大大方便了機(jī)器學(xué)習(xí)算法的開發(fā),并且提供高性能多線程庫(kù)。

        2.6 Petuum

        Petuumc7]是由Eric Xing博士領(lǐng)導(dǎo)的研究團(tuán)隊(duì)實(shí)現(xiàn)的大數(shù)據(jù)學(xué)習(xí)系統(tǒng),它可以幫助企業(yè)解決在人工智能和機(jī)器學(xué)習(xí)過(guò)程中遇到的瓶頸和其他問(wèn)題。Petuum目前是在深度學(xué)習(xí)、預(yù)測(cè)性分析、知識(shí)萃取、內(nèi)容概況和集成方法等方面創(chuàng)建的機(jī)器學(xué)習(xí)平臺(tái)。該平臺(tái)可以應(yīng)用到自然語(yǔ)言處理、圖片和視頻分析以及交易數(shù)據(jù)中的異常檢測(cè)等。Petuum系統(tǒng)由調(diào)度器、參數(shù)服務(wù)器、計(jì)算節(jié)點(diǎn)和機(jī)器學(xué)習(xí)算法組成。Petuum中的參數(shù)服務(wù)器使用SSP(Stale synchronous parallel)協(xié)議,它的優(yōu)點(diǎn)是使計(jì)算節(jié)點(diǎn)的運(yùn)行速度與網(wǎng)絡(luò)通信的時(shí)間開銷之間達(dá)到一種平衡。

        2.7 Mariana

        騰訊深度學(xué)習(xí)平臺(tái)Marianac8]以GPU服務(wù)器為主,實(shí)現(xiàn)并行化計(jì)算,實(shí)現(xiàn)了DNN的數(shù)據(jù)并行框架、CNN的模型并行和數(shù)據(jù)并行框架、DNN CPU集群框架。Mariana通過(guò)數(shù)據(jù)并行和模型并行,解決了深度學(xué)習(xí)耗時(shí)過(guò)長(zhǎng)的問(wèn)題。Mariana通過(guò)模型并行可以支持大規(guī)模的數(shù)據(jù)并行處理。Mariana在應(yīng)用方面主要體現(xiàn)在DNN的數(shù)據(jù)并行框架在微信語(yǔ)音識(shí)別中得到應(yīng)用,通過(guò)Mariana對(duì)微信語(yǔ)音識(shí)別的準(zhǔn)確率獲得了極大的提升,識(shí)別能力已經(jīng)是業(yè)界一流水平;另外CNN數(shù)據(jù)并行和模型并行框架已在圖像識(shí)別應(yīng)用中初見成效。此外,通過(guò)大規(guī)模廣告并行化訓(xùn)練,還可以應(yīng)用在廣告推薦或個(gè)性化推薦等領(lǐng)域。

        2.8 百度機(jī)器學(xué)習(xí)云平臺(tái)

        百度云機(jī)器學(xué)習(xí)平臺(tái)(Baidu Machine Learning,簡(jiǎn)稱BML)是基于百度云平臺(tái)自主研發(fā)的機(jī)器學(xué)習(xí)系統(tǒng)。BMLc9]主要應(yīng)用于大數(shù)據(jù)的統(tǒng)計(jì)與分析、數(shù)據(jù)挖掘、模型訓(xùn)練、商業(yè)智能等,例如百度公司內(nèi)部的廣告預(yù)估、搜索結(jié)果排序等。BML高效的分布式計(jì)算能力讓幾百TB的訓(xùn)練樣本花費(fèi)幾個(gè)小時(shí)就能完成訓(xùn)練任務(wù)。BML提供多種大數(shù)據(jù)機(jī)器學(xué)習(xí)算法,包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)分類、數(shù)據(jù)聚類、深度學(xué)習(xí)、序列模型等。

        3 總結(jié)

        大數(shù)據(jù)技術(shù)和機(jī)器學(xué)習(xí)算法的發(fā)展推動(dòng)了大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)的研究熱潮。大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)即需要考慮大數(shù)據(jù)面臨的大規(guī)模數(shù)據(jù)量,又需要設(shè)計(jì)合理高效的機(jī)器學(xué)習(xí)算法。本文介紹了目前國(guó)內(nèi)外在這方面工作的情況及進(jìn)展,并列舉了國(guó)內(nèi)外正在使用和運(yùn)行的大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)。通過(guò)本文介紹的大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng),希望可以給研究或使用大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)的學(xué)者提供一點(diǎn)幫助。

        參考文獻(xiàn):

        [1]黃宜華,大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)研究進(jìn)展[J].大數(shù)據(jù),2015,1(1):35-54.

        [2] Ghoting A,Krishnamurthy R,Pednault E,et aI.SystemML:Declar-ative machine learning on MapReduce[C]//2011 lEEE 27th In-ternational Conference on Data Engineering, April 11-16,2011. Hannover, Germany. lEEE, 2011: 231-242.

        [3] Boehm M,Tatikonda S,Reinwald B,et aI.Hybrid parallelizationstrategies for large-scale machine leaming in SystemML[J].Pro-ceedings of the VLDB Endowment, 2014,7(7):553-564.

        [4] Alexandrov A,Bergmann R,Ewen S,et aI.The Stratosphere plat-form for big data analytics[J].The VLDB Journal, 2014,23(6):939-964。

        [5] Low Y,Bickson D,Gonzalez J,et aI.Distributed GraphLab[J].Pro-ceedings of the VLDB Endowment, 2012,5(8):716-727.

        [6] Li M,Andersen D G,Park J W, et al_Scaling distributed ma-chine learning with the parameter server[C].llth USENIX Sym-posium on Operating Systems Design and Implementation (OS-DI 14). 2014: 583-598.

        [7] Dai W, Wei J,Zheng X,et aJ.Petuum:a framework for itera-tive-convergent distributed ML[C].Proceedings of Advances inNeural Information Processing Systems 26, Big Learning Work-shop, California, USA, 2013.

        [8]鄒永強(qiáng).Mariana-騰訊深度學(xué)習(xí)平臺(tái)的進(jìn)展與應(yīng)用[C].2014年中國(guó)大數(shù)據(jù)技術(shù)大會(huì),北京,2014.

        [9]劉偉.百度機(jī)器學(xué)習(xí)云平臺(tái)[C].2015年中國(guó)數(shù)據(jù)庫(kù)技術(shù)大會(huì),北京,2015.

        【通聯(lián)編輯:張薇】

        基金項(xiàng)目:基于暗通道先驗(yàn)的霧天圖像增強(qiáng)算法的研究(項(xiàng)目編號(hào):2019XZX-06)

        作者簡(jiǎn)介:姜紹俊(1982-),男,遼寧大連人,碩士,講師,研究方向:圖像處理、機(jī)器學(xué)習(xí)。

        猜你喜歡
        機(jī)器學(xué)習(xí)大數(shù)據(jù)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
        前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
        成人精品国产亚洲av久久| 久久精品国产精品国产精品污| 丰满人妻被中出中文字幕| 婷婷第四色| 人妻少妇被猛烈进入中文字幕| 热久久这里只有| 国产av一区二区三区在线| 手机在线观看免费av网站| 免费a级作爱片免费观看美国| 国产精品半夜| 国产一区,二区,三区免费视频| 亚洲一区第二区三区四区| 国产超碰女人任你爽| 精品乱码卡1卡2卡3免费开放| 亚洲日韩国产精品不卡一区在线| 亚洲精品中字在线观看| 亚洲人成人无码www影院| 亚洲一区爱区精品无码| 久久精品国产亚洲av桥本有菜| 国产自拍在线观看视频| 色妞色视频一区二区三区四区| 欧洲综合色| 亚洲一区二区三区美女av| 色婷婷精品大在线视频| 亚洲av无码码潮喷在线观看| 亚洲日韩精品欧美一区二区一 | 四虎影视亚洲精品| 亚洲区一区二区三区四| 亚洲 欧美 偷自乱 图片| 公粗挺进了我的密道在线播放贝壳| 久久男人av资源网站无码| 中文字幕乱码一区在线观看| 国产精品无码久久综合| y111111少妇影院无码| 亚洲中文字幕国产综合| 久久天堂一区二区三区av| 国产亚洲av综合人人澡精品| 一本加勒比hezyo无码视频| 无人视频在线播放免费| 久久久久久亚洲av无码蜜芽| 亚洲熟妇色xxxxx欧美老妇|