彭艷林
成都理工大學(xué)管理科學(xué)學(xué)院,四川 成都 610000
大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法分析及研究
彭艷林
成都理工大學(xué)管理科學(xué)學(xué)院,四川 成都 610000
隨著我國(guó)社會(huì)經(jīng)濟(jì)的不斷發(fā)展,電子商務(wù)、網(wǎng)絡(luò)社交、衛(wèi)星導(dǎo)航等各類領(lǐng)域都獲得了長(zhǎng)足發(fā)展,并產(chǎn)生了大量的數(shù)據(jù)信息,大數(shù)據(jù)也在長(zhǎng)期的數(shù)據(jù)積累中形成,受到各個(gè)企業(yè)的關(guān)注。大數(shù)據(jù)機(jī)器學(xué)習(xí)算法已經(jīng)逐漸取代了小數(shù)據(jù)機(jī)器學(xué)習(xí)算法,能夠有效提高數(shù)據(jù)查找、計(jì)算、處理的效率?;诖?,重點(diǎn)探究了大數(shù)據(jù)機(jī)器學(xué)習(xí)算法分類,提出了大數(shù)據(jù)背景下的機(jī)器學(xué)習(xí)算法模型。
大數(shù)據(jù);機(jī)器學(xué)習(xí)算法;效率;計(jì)算
現(xiàn)如今,人類已經(jīng)進(jìn)入到了信息時(shí)代。我國(guó)信息產(chǎn)業(yè)飛速發(fā)展,數(shù)據(jù)量也在突飛猛進(jìn),大數(shù)據(jù)也應(yīng)運(yùn)而生。大數(shù)據(jù)資源中含有很多重要信息,有著極大的價(jià)值,給企業(yè)帶來(lái)了豐厚收入,讓各行各業(yè)都認(rèn)識(shí)到了大數(shù)據(jù)的重要性。大數(shù)據(jù)不僅能夠作為信息搜集器,同時(shí)還能夠利用IT技術(shù)對(duì)數(shù)據(jù)進(jìn)行感知、捕獲、處理、存儲(chǔ)等。在整個(gè)機(jī)器學(xué)習(xí)領(lǐng)域中,就好比分類器,能夠擴(kuò)大分類面積和樣本間的距離,這樣就能夠減少判斷失誤的問(wèn)題,將數(shù)據(jù)風(fēng)險(xiǎn)降到最低。其中的支持向量是將一個(gè)數(shù)據(jù)空間變成另一個(gè)高維度空間,通過(guò)分類得到更加精準(zhǔn)的數(shù)據(jù)。
大數(shù)據(jù)在長(zhǎng)期的發(fā)展中,從最初的3 V發(fā)展到了4 V,其中,3 V更多表現(xiàn)出多樣性、速度性、容量大等特點(diǎn);4 V更多展現(xiàn)了不同意義上的含義,例如價(jià)值性、虛擬性、時(shí)效性、變化性等特點(diǎn)[1]。對(duì)于大數(shù)據(jù)的理解和分析,學(xué)者們認(rèn)為需要將智能化技術(shù)和計(jì)算機(jī)技術(shù)相互融合,保障整個(gè)數(shù)據(jù)流的順暢性。在大數(shù)據(jù)的分析和研究中,人類智慧和機(jī)器智能在其中發(fā)揮著巨大的作用。隨著人們對(duì)數(shù)據(jù)信息的需求量的不斷增加,大數(shù)據(jù)在整個(gè)收集、傳遞、處理、應(yīng)用中不斷改進(jìn),讓一些結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)發(fā)揮自身的價(jià)值。大數(shù)據(jù)可以從以下幾點(diǎn)進(jìn)行分類:
第一,支持向量機(jī)分類。大數(shù)據(jù)如果采用傳統(tǒng)機(jī)器學(xué)習(xí)形式進(jìn)行分類,可以發(fā)現(xiàn)兩點(diǎn)問(wèn)題:計(jì)算機(jī)非常密集,不利于信息的收集和大規(guī)模處理;存在著隨機(jī)性問(wèn)題,主要是非參數(shù)空間的模擬形式。這就有了在線學(xué)習(xí)的方法。根據(jù)順序原理進(jìn)行數(shù)據(jù)處理,該方法的計(jì)算速度更快,并且具備更加廣泛的收集能力,但是支持?jǐn)?shù)據(jù)的處理數(shù)量會(huì)減少。面對(duì)大規(guī)模分類問(wèn)題,通常采用最小乘二支持向量算法和增量算法為主,通過(guò)大數(shù)據(jù)的分類算法進(jìn)行數(shù)據(jù)提取。這樣的方法不僅所占內(nèi)存較小,而且能夠更好地解決大數(shù)據(jù)分類問(wèn)題。
第二,決策樹分類。傳統(tǒng)決策樹處理方法存在著占用空間大等問(wèn)題,這就提出了一種新型的方式,也就是通過(guò)大數(shù)據(jù)構(gòu)造決策樹的思想,解決機(jī)器學(xué)習(xí)算法中的限制性條件,并且計(jì)算速度要比之前快很多。同時(shí)也能夠采用增量?jī)?yōu)化的形式,提高決策樹算法效率。該類算法形式具有實(shí)時(shí)性特點(diǎn),挖掘能力也非常強(qiáng),具備非常高的預(yù)測(cè)精度,保證了數(shù)據(jù)的精準(zhǔn)性。
第三,神經(jīng)網(wǎng)絡(luò)和極端學(xué)習(xí)機(jī)。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)采用梯度下降算法對(duì)權(quán)值參數(shù)進(jìn)行調(diào)整,存在著計(jì)算速度慢、泛化性差、效率低等問(wèn)題。為了解決此類問(wèn)題,可以采用ELM算法。該方法主要通過(guò)隨機(jī)賦值神經(jīng)網(wǎng)絡(luò)中的偏差項(xiàng)輸入權(quán)值,這就在很大程度上計(jì)算出了網(wǎng)絡(luò)輸出權(quán)值。相比傳統(tǒng)的算法,該類算法形式的計(jì)算效率更加明顯。
第四,應(yīng)用領(lǐng)域分類?,F(xiàn)如今,應(yīng)用領(lǐng)域?qū)用鎸?duì)分類算法的研究非常廣泛,例如醫(yī)學(xué)專家采用機(jī)器學(xué)習(xí)獲得先進(jìn)的診斷知識(shí),通過(guò)計(jì)算機(jī)輔助診斷,但是樣本獲取相對(duì)較難。因此,可以利用半監(jiān)督的學(xué)習(xí)方法,對(duì)診斷樣本進(jìn)行估算,提高估算內(nèi)容的精準(zhǔn)度,從而獲得相關(guān)的知識(shí)。該類方法在基礎(chǔ)數(shù)據(jù)集中能夠更好地結(jié)合基礎(chǔ)數(shù)據(jù),所獲得的新數(shù)據(jù)也更加貼近實(shí)際。
第五,監(jiān)督和非監(jiān)督學(xué)習(xí)分類。其中,監(jiān)督學(xué)習(xí)是分類和學(xué)習(xí);非監(jiān)督學(xué)習(xí)是聚類。監(jiān)督學(xué)習(xí)是我們對(duì)輸入樣本經(jīng)過(guò)模型訓(xùn)練后有明確的預(yù)期輸出,非監(jiān)督學(xué)習(xí)是我們對(duì)輸入樣本經(jīng)過(guò)模型訓(xùn)練后得到什么輸出完全沒(méi)有預(yù)期。
通過(guò)不同的模型形式和定量標(biāo)準(zhǔn)合理選擇算法。評(píng)價(jià)函數(shù)可以采用不同的數(shù)據(jù)模型,應(yīng)用相關(guān)性的多項(xiàng)指標(biāo),用來(lái)測(cè)量某個(gè)特征和類別之間的關(guān)聯(lián)性。在選取數(shù)據(jù)模型的過(guò)程中,不需要限制各類參數(shù),同時(shí)要保障不同參數(shù)之間的獨(dú)立性,避免在數(shù)據(jù)獲取過(guò)程中出現(xiàn)偏差。采用特征分布形式進(jìn)行有效選擇,這樣就能夠在選擇過(guò)程中減少噪聲帶來(lái)的負(fù)面影響。常見的算法有以下幾種:
第一,共享存儲(chǔ)模型??梢院?jiǎn)稱為共享內(nèi)存模型,在某個(gè)進(jìn)程對(duì)共享內(nèi)存數(shù)據(jù)進(jìn)行改動(dòng)時(shí),會(huì)影響訪問(wèn)共享系統(tǒng)中的其他進(jìn)程。數(shù)據(jù)共享不需要經(jīng)過(guò)進(jìn)程之間的數(shù)據(jù)傳遞,而是通過(guò)直接訪問(wèn)的形式,這樣就大大提高了效率。共享存儲(chǔ)模型根據(jù)線程鎖機(jī)制劃分為同步形式和異步形式。同步形式就是各線程更新相關(guān)參數(shù),并對(duì)參數(shù)信息進(jìn)行計(jì)算,計(jì)算完畢后分享到內(nèi)存中進(jìn)行聚合操作,之后讀取全局參數(shù)實(shí)現(xiàn)劃分;異步形式主要更新部分參數(shù),更新完畢后即可共享到內(nèi)存參數(shù)值當(dāng)中,在其他線程讀取模型參數(shù)過(guò)程中,可以直接獲取更新完畢的參數(shù)。由于當(dāng)今計(jì)算機(jī)都是采用4核、8核的CPU,因此大多數(shù)分布系統(tǒng)的單一節(jié)點(diǎn)就是采用異步計(jì)算機(jī)模型。該模型在校園機(jī)房中的應(yīng)用非常廣泛,也就是教師操作終端進(jìn)行子計(jì)算機(jī)的控制,通過(guò)同步、異步共享信息對(duì)子計(jì)算機(jī)進(jìn)行數(shù)據(jù)更新,之后開展教學(xué)工作[2]。
第二,整體同步計(jì)算。該模式是通過(guò)局部?jī)?nèi)存部分形式和不同處理單元同步路障組成,其更新流程為多個(gè)處理單元逐漸對(duì)系統(tǒng)模型進(jìn)行更新,根據(jù)路障機(jī)制節(jié)點(diǎn)處理要求進(jìn)行同步等待,之后主節(jié)點(diǎn)會(huì)對(duì)各個(gè)線程信息進(jìn)行統(tǒng)一更新,將所更新信息傳遞到各類處理單元當(dāng)中,從而進(jìn)行新一輪的數(shù)據(jù)迭代。結(jié)合數(shù)據(jù)劃分原理可以解釋成:各個(gè)節(jié)點(diǎn)通過(guò)本地?cái)?shù)據(jù)對(duì)數(shù)據(jù)模型數(shù)據(jù)進(jìn)行更新,待到計(jì)算機(jī)各個(gè)節(jié)點(diǎn)信息獲取完畢后,主節(jié)點(diǎn)要對(duì)各類信息進(jìn)行匯總,并發(fā)生新一輪的全局模型參數(shù)更新。該模型通常應(yīng)用于企業(yè)財(cái)務(wù)管理系統(tǒng)當(dāng)中,通過(guò)對(duì)各個(gè)部門的財(cái)務(wù)信息進(jìn)行匯總和整合,進(jìn)行統(tǒng)一核算處理。
第三,異步并行計(jì)算。該模型主要是通過(guò)處理器和全局參數(shù)總結(jié)點(diǎn)構(gòu)成。異步更新通過(guò)不同節(jié)點(diǎn)采用不同步調(diào)對(duì)主節(jié)點(diǎn)模型參數(shù)進(jìn)行更新,并結(jié)合數(shù)據(jù)劃分進(jìn)行數(shù)據(jù)更新處理。從數(shù)據(jù)劃分可以解釋為:各個(gè)節(jié)點(diǎn)采用本地?cái)?shù)據(jù)對(duì)整個(gè)模型參數(shù)進(jìn)行單獨(dú)計(jì)算,待到完成一輪之后對(duì)模型參數(shù)進(jìn)行更新,并在主節(jié)點(diǎn)獲取新一輪的參數(shù)信息進(jìn)行二次計(jì)算和二次更新。各個(gè)節(jié)點(diǎn)在進(jìn)行更新過(guò)程中會(huì)造成最終結(jié)果缺乏收斂性。為了解決ASP模型計(jì)算不穩(wěn)定問(wèn)題,可以融入延遲同步計(jì)算模型,也就是從不規(guī)則迭代轉(zhuǎn)換為根據(jù)快慢速度迭代的方法[3]。該模型在氣象系統(tǒng)(類似需要不斷更新信息的系統(tǒng))當(dāng)中應(yīng)用比較頻繁,主要是為了能夠進(jìn)行實(shí)時(shí)更新和替換,并保證系統(tǒng)更新的穩(wěn)定性。
綜上所述,大數(shù)據(jù)的到來(lái)給機(jī)器學(xué)習(xí)算法帶來(lái)了很大的改變。通過(guò)研究機(jī)器學(xué)習(xí)算法理論和相關(guān)技術(shù),可以針對(duì)性地提出不同分類方法和數(shù)據(jù)模型。根據(jù)不同數(shù)據(jù)模型的優(yōu)缺點(diǎn)進(jìn)行分析和改良,提高數(shù)據(jù)獲取和更新的效率。
[1]黃一鳴,雷航,李曉瑜.量子機(jī)器學(xué)習(xí)算法綜述[J].計(jì)算機(jī)學(xué)報(bào),2017(40):20-21.
[2]亢良伊,王建飛,劉杰,葉丹.可擴(kuò)展機(jī)器學(xué)習(xí)的并行與分布式優(yōu)化算法綜述[J].軟件學(xué)報(bào),2015(2):21-23.
[3]肖紅.大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法探討[J].通訊世界,2017(6):265-266.
Analysis and Research of Machine Learning Algorithm under Big Data
Peng Yanlin
School of Management Science, Chengdu University of Technology, Sichuan Chengdu 610000
With China’s social and economic development, e-commerce, social networking, satellite navigation and other fields have achieved great progress, and produced a large amount of data information, the formation of large data in the long-term accumulation of data, wide attention of various enterprises. The large data machine learning algorithm has gradually replaced the small data machine learning algorithm, which can effectively improve the efficiency of data search,calculation and processing. Based on this, this paper focuses on the classification of big data machine learning algorithms,and then proposes a machine learning algorithm model in the context of big data.
big data; machine learning algorithm; efficiency; calculation
TP181
A
1009-6434(2017)7-0115-02
彭艷林(1996—),男,四川崇州人,漢族,本科在讀。