亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的大數(shù)據(jù)分析和處理

        2021-09-26 03:21:04孫開華代余杰封晴
        中國新通信 2021年13期
        關(guān)鍵詞:分析處理機(jī)器學(xué)習(xí)大數(shù)據(jù)技術(shù)

        孫開華 代余杰 封晴

        【摘要】? ? 隨著信息技術(shù)的高速發(fā)展,如何對(duì)海量復(fù)雜數(shù)據(jù)有效分析是當(dāng)前重要課題。在語音識(shí)別、自然語言處理等數(shù)據(jù)處理領(lǐng)域,深度學(xué)習(xí)改變傳統(tǒng)機(jī)器學(xué)習(xí)方法。深度學(xué)習(xí)發(fā)展使得各行業(yè)使用需求迫切,普通行業(yè)使用者需要大量時(shí)間成本學(xué)習(xí)使用。機(jī)器學(xué)習(xí)智能算法可以挖掘頻譜大數(shù)據(jù)中的有用信息,提高頻譜資源利用率。介紹機(jī)器學(xué)習(xí)技術(shù),探討頻譜大數(shù)據(jù)分析機(jī)器學(xué)習(xí)方法,對(duì)機(jī)器學(xué)習(xí)的應(yīng)用前景進(jìn)行展望。

        【關(guān)鍵詞】? ? 機(jī)器學(xué)習(xí)? ? 大數(shù)據(jù)技術(shù)? ? 分析處理

        引言:

        隨著通信技術(shù)的發(fā)展,龐大數(shù)據(jù)驅(qū)動(dòng)有效決策,成為企業(yè)社會(huì)高效發(fā)展的推動(dòng)力。如何對(duì)海量復(fù)雜數(shù)據(jù)有效分析是當(dāng)前需要解決的重要課題。傳統(tǒng)分析系統(tǒng)基于結(jié)構(gòu)化數(shù)據(jù)聯(lián)機(jī)分析處理系統(tǒng),深度學(xué)習(xí)改變以往機(jī)器學(xué)習(xí)方法,在圖像理解等應(yīng)用領(lǐng)域取得突破性進(jìn)展。深度學(xué)習(xí)系工具系統(tǒng)提供較好系統(tǒng)支持,普通行業(yè)使用者需要大量時(shí)間成本學(xué)習(xí)相關(guān)API,借助分布式計(jì)算技術(shù)構(gòu)建深度學(xué)習(xí)系統(tǒng)可以滿足普通用戶使用深度學(xué)習(xí)需求。

        一、大數(shù)據(jù)下機(jī)器學(xué)習(xí)算法研究

        大數(shù)據(jù)上指不能載入計(jì)算機(jī)內(nèi)存儲(chǔ)器的數(shù)據(jù)。大數(shù)據(jù)特征為積累速度快,如何對(duì)大數(shù)據(jù)進(jìn)行有效挖掘是現(xiàn)代產(chǎn)業(yè)發(fā)展的重要方向[1]。必須深入研究大數(shù)據(jù)下機(jī)器學(xué)習(xí)算法問題。機(jī)器學(xué)習(xí)算法包括大數(shù)據(jù)特征選擇,噪音數(shù)據(jù)會(huì)降低學(xué)習(xí)算法運(yùn)行質(zhì)量。應(yīng)采取標(biāo)準(zhǔn)遴選代表性樣本。在子集基礎(chǔ)上學(xué)習(xí)方法構(gòu)造,Jordan提出分治算法進(jìn)行大數(shù)據(jù)統(tǒng)計(jì)推理[2]。應(yīng)用傳統(tǒng)機(jī)器學(xué)習(xí)算法進(jìn)行大數(shù)據(jù)處理,必須采取并行化處理,Cheng等以大規(guī)模可伸縮數(shù)據(jù)為處理對(duì)象實(shí)現(xiàn)數(shù)據(jù)分析。

        采取傳統(tǒng)機(jī)器學(xué)習(xí)方法存在置信區(qū)間擬合模型預(yù)測(cè)未執(zhí)行等問題。傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)采取梯度下降法調(diào)整權(quán)值參數(shù)。Huang提出采取隨機(jī)賦值方式。為確保大規(guī)模數(shù)據(jù)并行處理,Papadimitriou通過MapReduce模型滿足大規(guī)模數(shù)據(jù)聚類需求。Apriori算法為關(guān)聯(lián)分析基礎(chǔ)算法,需通過并行與增量解決大數(shù)據(jù)關(guān)聯(lián)問題。Li提出Apriori算法,提高學(xué)習(xí)效率。

        二、大數(shù)據(jù)機(jī)器學(xué)習(xí)技術(shù)面臨問題

        當(dāng)今大數(shù)據(jù)時(shí)代,人們意識(shí)到大數(shù)據(jù)隱藏更多價(jià)值,對(duì)大數(shù)據(jù)挖掘能獲得很大的社會(huì)經(jīng)濟(jì)效益。機(jī)器學(xué)習(xí)是對(duì)海量數(shù)據(jù)分析重要技術(shù),傳統(tǒng)串行機(jī)器學(xué)習(xí)難以完成大規(guī)模數(shù)據(jù)處理。大規(guī)模機(jī)器學(xué)習(xí)旨在構(gòu)建處理大數(shù)據(jù)的平臺(tái),CCF將結(jié)合機(jī)器學(xué)習(xí)算法大數(shù)據(jù)分析技術(shù)選為研究熱點(diǎn)。大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng)需要通過編程抽象降低設(shè)計(jì)復(fù)雜性。

        大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng)設(shè)計(jì)要重點(diǎn)研究處理大數(shù)據(jù)計(jì)算性能問題。為提供終端用戶良好易用性,大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng)應(yīng)建立高層易用編程抽象模型。大規(guī)模數(shù)據(jù)使得串行機(jī)器學(xué)習(xí)算法無法完成計(jì)算。隨著Hadoop分布式計(jì)算平臺(tái)出現(xiàn),需要對(duì)機(jī)器學(xué)習(xí)進(jìn)行并行化設(shè)計(jì)[3]。目前通常實(shí)現(xiàn)基于分布式計(jì)算平臺(tái)提供接口,提供與傳統(tǒng)機(jī)器學(xué)習(xí)算法相同的編程接口。如Mahout與MLlib提供經(jīng)典分類聚類等算法基于分布式并行化實(shí)現(xiàn)。并行算法庫設(shè)計(jì)減輕數(shù)據(jù)分析進(jìn)行大數(shù)據(jù)應(yīng)用分析,但并行算法庫提供數(shù)量有限,難以滿足大數(shù)據(jù)分析應(yīng)用需求。需要熟悉底層分布平臺(tái)編程語言,對(duì)機(jī)器學(xué)習(xí)算法進(jìn)行定制式改進(jìn)優(yōu)化。

        矩陣運(yùn)輸是機(jī)器學(xué)習(xí)的重要分析建模方法,目前已有很多關(guān)于設(shè)計(jì)分布式矩陣計(jì)算庫的研究。如HAMA是基于MapReduce的分布式矩陣運(yùn)算實(shí)現(xiàn),Marlin采用RDD表示存儲(chǔ)矩陣。Presto實(shí)現(xiàn)基于分布式稀疏矩陣達(dá)到負(fù)載平衡。PbdR項(xiàng)目與R緊耦合使用戶可實(shí)現(xiàn)分布是基于矩陣機(jī)器學(xué)習(xí)算法。

        矩陣運(yùn)算庫未針對(duì)應(yīng)用程序計(jì)算路程進(jìn)行優(yōu)化。如對(duì)多個(gè)矩陣相乘操作帶來不同計(jì)算量。矩陣庫無法針對(duì)計(jì)算表達(dá)式,只能由用戶決定乘法順序。如對(duì)分布式內(nèi)存計(jì)算平臺(tái)Spark無法自行決定矩陣數(shù)據(jù)是否存在內(nèi)存中。難以由用戶針對(duì)矩陣計(jì)算流程實(shí)現(xiàn)性能優(yōu)化方案。大數(shù)據(jù)平臺(tái)處理需支持多個(gè)底層計(jì)算平臺(tái)。

        三、機(jī)器學(xué)習(xí)的大數(shù)據(jù)分析技術(shù)研究

        近年來出現(xiàn)很多構(gòu)建大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng)相關(guān)工作,Spark MLlib綁定在底層計(jì)算平臺(tái)Spark上,滿足分布式存儲(chǔ)于上層應(yīng)用開發(fā)要求。目前MLlib提供機(jī)器學(xué)習(xí)中分聚類等算法,上層用戶難以用MLlib解決大數(shù)據(jù)應(yīng)用需求,無法滿足用戶對(duì)算法內(nèi)實(shí)現(xiàn)定制化需求。

        SystemML進(jìn)入Apache孵化項(xiàng)目開發(fā)大規(guī)模數(shù)據(jù)學(xué)習(xí)系統(tǒng),DML構(gòu)成代碼被SystemML自動(dòng)轉(zhuǎn)換為地層Spark作業(yè)運(yùn)行。屏蔽底層分布式實(shí)現(xiàn)細(xì)節(jié),但DML語言不能兼容標(biāo)準(zhǔn)的R/Python環(huán)境。

        TensorFlow可運(yùn)行在多種異構(gòu)平臺(tái)下大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng),將數(shù)據(jù)流圖節(jié)點(diǎn)映射到集群中多臺(tái)機(jī)器。提供多種語言接口包含Java等,但提供接口主要針對(duì)深度神經(jīng)網(wǎng)絡(luò)算法。Presto擴(kuò)展語言采用矩陣模型實(shí)現(xiàn)分布式機(jī)器學(xué)習(xí),將數(shù)據(jù)進(jìn)行分區(qū)實(shí)現(xiàn)負(fù)載均衡,用戶容易對(duì)機(jī)器學(xué)習(xí)算法進(jìn)行定制化實(shí)現(xiàn)[4]。但底層采用C++實(shí)現(xiàn)框架,與現(xiàn)有大數(shù)據(jù)環(huán)境Hadoop不兼容。目前對(duì)數(shù)據(jù)計(jì)算處理有多種設(shè)備平臺(tái),近年來出現(xiàn)支持底層多計(jì)算設(shè)備平臺(tái)系統(tǒng)。Glinda在異構(gòu)平臺(tái)下對(duì)工作流分區(qū)采用預(yù)測(cè)法加速數(shù)據(jù)并行應(yīng)用。研究在GPU上實(shí)現(xiàn)矩陣操作,用途模型估計(jì)任意硬件平臺(tái)下計(jì)算執(zhí)行時(shí)間。但基于GPU異構(gòu)平臺(tái)不提供分布式計(jì)算平臺(tái)調(diào)度。Musketeer將前端框架與后端執(zhí)行引擎解耦,可映射到后端多種計(jì)算平臺(tái)執(zhí)行。

        四、頻譜大數(shù)據(jù)

        大數(shù)據(jù)價(jià)值更多體現(xiàn)在隱藏待開發(fā)的信息資源,大數(shù)據(jù)受到大量的關(guān)注,機(jī)器學(xué)習(xí)是通過創(chuàng)建計(jì)算系統(tǒng)不斷學(xué)習(xí)經(jīng)驗(yàn),更好地執(zhí)行下次任務(wù)。大數(shù)據(jù)成為機(jī)器學(xué)習(xí)的資源。近年來機(jī)器學(xué)習(xí)理念不斷提出,計(jì)算機(jī)性能得到很大提高。

        機(jī)器學(xué)習(xí)在數(shù)據(jù)挖掘等領(lǐng)域取得很大進(jìn)展。無線通信是數(shù)據(jù)不通過實(shí)體線纜傳輸?shù)耐ㄐ欧绞健C糠N無線業(yè)務(wù)對(duì)應(yīng)無線頻譜特定區(qū)域,社會(huì)不斷進(jìn)步使得業(yè)頻譜數(shù)據(jù)廣度擴(kuò)大[5]。頻譜大數(shù)據(jù)是分析處理的海量復(fù)雜頻譜數(shù)據(jù)集,包括用戶相關(guān)數(shù)據(jù)等。頻譜狀態(tài)數(shù)據(jù)由不同時(shí)空頻率信號(hào)表現(xiàn)不同特征數(shù)據(jù)。頻譜大數(shù)據(jù)體現(xiàn)大量、多樣化的特點(diǎn)。9-30000GHz頻譜范圍有限,面對(duì)有限頻譜資源大數(shù)據(jù),如何有效挖掘有價(jià)值信息,提高頻譜利用率問題受到關(guān)注。頻譜大數(shù)據(jù)分析是從具有多樣性,針對(duì)頻譜大數(shù)據(jù)特性需用特定機(jī)器學(xué)習(xí)方法。

        五、頻譜大數(shù)據(jù)分析機(jī)器學(xué)習(xí)方法

        大量性是頻譜大數(shù)據(jù)的基本屬性,假設(shè)1s內(nèi)1m?空間可感知0-1kHz頻率內(nèi)頻譜能量為1字節(jié),1h內(nèi)1km?可感知0-1GHz頻譜能量值為3.6EB,無線頻譜狀態(tài)數(shù)據(jù)在時(shí)空方向得到擴(kuò)大,考慮用戶相關(guān)數(shù)據(jù)頻譜大數(shù)據(jù)規(guī)模更大。傳統(tǒng)數(shù)據(jù)處理法是將小數(shù)據(jù)存儲(chǔ)于工作站,面對(duì)大數(shù)據(jù)難以在要求時(shí)間內(nèi)完成計(jì)算。

        典型測(cè)量是對(duì)數(shù)據(jù)分布式存儲(chǔ),分布式存儲(chǔ)是空間分布,將頻譜大數(shù)據(jù)分區(qū)為多個(gè)小塊。并行化計(jì)算隨時(shí)在適合計(jì)算機(jī)上運(yùn)行適合程序。分布式并行學(xué)習(xí)方法中云計(jì)算最具代表性。綜合多種計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)。

        數(shù)據(jù)快速收發(fā)要求計(jì)算機(jī)具有高速處理能力,高速數(shù)據(jù)處理是頻譜預(yù)測(cè)的重要前提。數(shù)據(jù)處理耗時(shí)長,預(yù)測(cè)結(jié)果無意義,使得頻譜使用紊亂,導(dǎo)致頻譜資源緊張。高速實(shí)時(shí)數(shù)據(jù)處理技術(shù)值得關(guān)注。使用梯度算法訓(xùn)練學(xué)習(xí)網(wǎng)絡(luò),使其速度不能滿足需要。研究提出極速學(xué)習(xí)機(jī)算法是前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,網(wǎng)絡(luò)結(jié)構(gòu)為輸入層與輸出層,可達(dá)到快速學(xué)習(xí)的需求[6]。

        ELM算法時(shí)間消耗大,研究提出新數(shù)據(jù)有序添加的在線序列ELM算法提高計(jì)算速度。圖形處理器平臺(tái)采用分布架構(gòu)提高計(jì)算能力。將ELM算法用于GPU平臺(tái)提高數(shù)據(jù)分析速度。

        頻譜大數(shù)據(jù)分類為數(shù)據(jù)結(jié)構(gòu)及相關(guān)性等。傳統(tǒng)數(shù)據(jù)處理方法無法處理頻譜多樣性大數(shù)據(jù)。核學(xué)習(xí)核函數(shù)可以把混雜數(shù)據(jù)映射到高維空間,完成多樣化數(shù)據(jù)區(qū)分。在非線性頻譜數(shù)據(jù)融合等問題上表現(xiàn)突出,隨著算法不斷完善,新算法數(shù)據(jù)分析能力得到加強(qiáng)。面向頻譜大數(shù)據(jù)分析,分布并行學(xué)習(xí),多樣性學(xué)習(xí)法得到深入研究。

        大數(shù)據(jù)挖掘在于得到隱藏重要信息,由于數(shù)據(jù)大量性,數(shù)據(jù)收發(fā)存在干擾等現(xiàn)象。頻譜大數(shù)據(jù)價(jià)值密度低為數(shù)據(jù)挖掘帶來挑戰(zhàn),要求采用學(xué)習(xí)算法深入數(shù)據(jù)挖掘。深度學(xué)習(xí)是傳統(tǒng)淺層次學(xué)習(xí)深度化結(jié)果,傳統(tǒng)淺層次學(xué)習(xí)模型不包含隱層單元。

        神經(jīng)網(wǎng)絡(luò)中包含隱層單元為數(shù)據(jù)表征,淺層學(xué)習(xí)需要輸入專家預(yù)選優(yōu)秀特征,特征選擇好則系統(tǒng)性能好。深度學(xué)習(xí)強(qiáng)調(diào)模型結(jié)構(gòu)深度,著力于構(gòu)建數(shù)據(jù)特征自我學(xué)習(xí),將原始特征變換成高級(jí)特征。

        特征學(xué)習(xí)算法對(duì)標(biāo)記數(shù)據(jù)分析成熟,對(duì)無標(biāo)記數(shù)據(jù)特征學(xué)習(xí)研究受到重視。

        六、結(jié)束語

        本文簡(jiǎn)單介紹幾種機(jī)器學(xué)習(xí)方法,頻譜大數(shù)據(jù)分析處理機(jī)器學(xué)習(xí)方法應(yīng)用不是所有方法的堆疊。選擇適合的方法解決問題,講究多種方法有機(jī)融合,為大數(shù)據(jù)分析處理智能系統(tǒng)樹立更高目標(biāo)。隨著科技的進(jìn)步,微型平臺(tái)系統(tǒng),涉密數(shù)據(jù)傳輸?shù)葐栴}對(duì)機(jī)器學(xué)習(xí)法提出嚴(yán)格要求。如移動(dòng)終端不斷普及,機(jī)器學(xué)習(xí)應(yīng)用是必然趨勢(shì)。需要深入研究高速機(jī)器學(xué)習(xí)方法。

        參? 考? 文? 獻(xiàn)

        [1]胡航,杜爽,梁佳柔,康忠琳.學(xué)習(xí)績(jī)效預(yù)測(cè)模型構(gòu)建:源于學(xué)習(xí)行為大數(shù)據(jù)分析[J].中國遠(yuǎn)程教育,2021(04):8-20+76.

        [2]蔣姮博,張劍,方榮超,歐陽婉卿,羅禹杰,盧曉宇.基于大數(shù)據(jù)分析的列車輪對(duì)故障診斷方法[J].湖南科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,36(01):91-98.

        [3]胡志強(qiáng),羅榮.基于大數(shù)據(jù)分析的作戰(zhàn)智能決策支持系統(tǒng)構(gòu)建[J].指揮信息系統(tǒng)與技術(shù),2021,12(01):27-33.

        [4]魏英杰. 利用人工智能和大數(shù)據(jù)分析實(shí)現(xiàn)廢棄物處理設(shè)施的自動(dòng)化運(yùn)行[N]. 世界金屬導(dǎo)報(bào),2021-02-23(B16).

        [5]無錫市經(jīng)濟(jì)學(xué)會(huì)課題組. 大數(shù)據(jù)時(shí)代的融合發(fā)展對(duì)策[N]. 無錫日?qǐng)?bào),2021-01-30(004).

        [6]陳麗萍,吳其林,李小榮.“大數(shù)據(jù)分析”課程案例設(shè)計(jì)與分析——以網(wǎng)絡(luò)新聞分析案例設(shè)計(jì)為例[J].內(nèi)蒙古財(cái)經(jīng)大學(xué)學(xué)報(bào),2021,19(01):26-28.

        猜你喜歡
        分析處理機(jī)器學(xué)習(xí)大數(shù)據(jù)技術(shù)
        風(fēng)力發(fā)電機(jī)組批量性故障分析及處理
        基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
        論大數(shù)據(jù)技術(shù)在智能電網(wǎng)中的應(yīng)用
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
        前綴字母為特征在維吾爾語文本情感分類中的研究
        高校檔案管理信息服務(wù)中大數(shù)據(jù)技術(shù)的應(yīng)用
        大數(shù)據(jù)技術(shù)在電氣工程中的應(yīng)用探討
        大數(shù)據(jù)技術(shù)在商業(yè)銀行中的應(yīng)用分析
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        汽輪機(jī)DEH系統(tǒng)常見故障的分析處理
        偷窥偷拍一区二区三区| 中字亚洲国产精品一区二区| 97色偷偷色噜噜狠狠爱网站97| 国产91一区二这在线播放| 日韩极品视频在线观看| 国产一区二区一级黄色片| 日韩一二三四区在线观看| 国产一区二区三区视频了 | 狠狠躁夜夜躁人人爽超碰97香蕉| 青青草原亚洲| 国产精品51麻豆cm传媒| 国产精品jizz视频| 欧美三级不卡视频| 国产欧美曰韩一区二区三区 | 国产女人18毛片水真多18精品| 好日子在线观看视频大全免费动漫 | 日本嗯啊在线观看| 国产一区二区毛片视频| 在线观看的a站免费完整版| 国产激情艳情在线看视频| 真多人做人爱视频高清免费| 欧美喷潮久久久xxxxx| 国内久久婷婷精品人双人| 日本一区二区三区啪啪| 亚洲天堂av在线一区| 久久99精品国产麻豆| 亚洲精品成人无限看| 无码人妻一区二区三区免费视频 | 精品丝袜国产在线播放| 亚洲第一页在线观看视频网站| 亚洲综合中文字幕日韩| 三级全黄裸体| 人妻无码一区二区视频| 一道久在线无码加勒比| 99久久超碰中文字幕伊人| 日韩精品中文字幕人妻中出| 最近更新中文字幕一区二区 | 91精品福利一区二区| AV熟妇导航网| 最新国产精品国产三级国产av| 人妻av中文字幕久久|