肖堅
摘? 要:近年來,隨著我國經(jīng)濟(jì)的不斷發(fā)展,信息技術(shù)的快速更新,使互聯(lián)網(wǎng)社交、衛(wèi)星導(dǎo)航、電子商務(wù)及交通運輸?shù)榷鄠€領(lǐng)域都取得了較快的發(fā)展,并產(chǎn)生了大量的數(shù)據(jù)信息。隨著數(shù)據(jù)的不斷積累,會逐漸形成大數(shù)據(jù)的同時也開始受到各個企業(yè)的關(guān)注。而數(shù)據(jù)在進(jìn)行分析的過程中,機(jī)器學(xué)習(xí)是數(shù)據(jù)分析的常用方法之一,而本文則主要對大數(shù)據(jù)下的在線機(jī)器學(xué)習(xí)算法研究與應(yīng)用進(jìn)行詳細(xì)分析和介紹。
關(guān)鍵詞:大數(shù)據(jù)? 機(jī)器學(xué)習(xí)? 數(shù)據(jù)分析? 算法? 研究
中圖分類號:TP181? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼:A文章編號:1674-098X(2020)08(b)-0134-03
Abstract: In recent years, with the continuous development of China's economy and the rapid update of information technology, Internet social networking, satellite navigation, e-commerce, transportation and other fields have achieved rapid development and generated a large amount of data information.As data continues to accumulate, it will gradually form big data and begin to attract the attention of various enterprises. In the process of data analysis, machine learning is one of the common methods of data analysis, and this article mainly analyzes and introduces the research and application of online machine learning algorithms under big data.
Key Words: Big data; Machine learning; Data analysis; Algorithm; Research
隨著計算機(jī)的問世,人類開始進(jìn)入信息化時代,而信息化產(chǎn)業(yè)得到空前發(fā)展的同時數(shù)據(jù)量也出現(xiàn)前所未有的增長,從而使大數(shù)據(jù)應(yīng)運而生。實際上,大數(shù)據(jù)指的是一種利用傳統(tǒng)IT技術(shù)及軟硬件工具對數(shù)據(jù)進(jìn)行有感知、獲取、管理、處理及存儲的收集,或指的是一種無法裝載到計算機(jī)內(nèi)存儲器的數(shù)據(jù)集,機(jī)器學(xué)習(xí)算法初期相當(dāng)于一架模式分類器,可將樣本間的距離和分類面積進(jìn)行有效擴(kuò)大,降低判斷失誤的幾率,從而使數(shù)據(jù)風(fēng)險降到最低,而其中的支持向量是將一個數(shù)據(jù)空間轉(zhuǎn)變?yōu)榱硪粋€高維度空間,并通過分類而得到更加精準(zhǔn)的數(shù)據(jù)。
1? 大數(shù)據(jù)的特點與分類
1.1 大數(shù)據(jù)的特點
大數(shù)據(jù)在發(fā)展過程中,已從最初的3V模式發(fā)展到4V模式。其中,3V模式在速度、容量及多樣性方面具有一定優(yōu)點,4V模式則具有各種不同的說法,如價值性、時效性、虛擬性、變化性及效率性等等。想要對于大數(shù)據(jù)的這些特性進(jìn)行分析和理解,有關(guān)專家一般認(rèn)為,應(yīng)將計算機(jī)技術(shù)與智能化技術(shù)進(jìn)行融合,使數(shù)據(jù)流的順暢性得到保證。而對于大數(shù)據(jù)的知識分析和處理,則人類智能和機(jī)器智能起到了十分關(guān)鍵的作用。此外,隨著人們對數(shù)據(jù)信息需求的不斷增加,使大數(shù)據(jù)在收集、傳遞、處理及應(yīng)用等有關(guān)技術(shù)得到不斷改變,從而讓一些半結(jié)構(gòu)化、結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的自身價值得到有效發(fā)揮。
1.2 大數(shù)據(jù)的分類
1.2.1 支持向量機(jī)分類
若對大數(shù)據(jù)應(yīng)用傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行分類的話,一方面計算機(jī)會存在密集現(xiàn)象,對信息的大規(guī)模收集和處理較為不利;另一方面非參數(shù)空間模擬形式等方面會存在隨機(jī)性問題。因此,想要避免以上問題的出現(xiàn),就有了在線機(jī)器學(xué)習(xí)的方法。在線機(jī)器學(xué)習(xí)方法根據(jù)順序原理對數(shù)據(jù)進(jìn)行處理,使計算速度變得更快的同時也具有更加廣泛的收集能力,但這種方法有可能會降低支持?jǐn)?shù)據(jù)的處理數(shù)量,所以在對大數(shù)據(jù)進(jìn)行大規(guī)模分類時,可以增量算法和最小二乘支持向量算法為基礎(chǔ),然后利用大數(shù)據(jù)分類算法對數(shù)據(jù)進(jìn)行提取,以此減少內(nèi)存需求量,同時也能使大數(shù)據(jù)得到更好分類。
1.2.2 神經(jīng)網(wǎng)絡(luò)和極端學(xué)習(xí)機(jī)
極限學(xué)習(xí)機(jī)(ELM ,Extreme Learning Machine),是由南洋理工大學(xué)黃廣斌教授提出來的求解單隱層神經(jīng)網(wǎng)絡(luò)的算法。 ELM最大的特點是對于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),尤其是單隱層前饋神經(jīng)網(wǎng)絡(luò)(SLFNs),在保證學(xué)習(xí)精度的前提下比傳統(tǒng)的學(xué)習(xí)算法速度更快。在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)中,其通過梯度下降算法來對權(quán)值參數(shù)進(jìn)行相應(yīng)調(diào)整,但該算法具有泛化性差、效率低及計算速度慢等缺點。而想要對這些問題進(jìn)行解決,可通過ELM算法,隨機(jī)賦值神經(jīng)網(wǎng)絡(luò)中的偏差項及輸入權(quán)值,從而在一定程度上計算出網(wǎng)絡(luò)輸出權(quán)值。因此,ELM算法與傳統(tǒng)算法相比,計算效率可得到顯著提高。
1.2.3 決策樹分類
因傳統(tǒng)決策樹處理方法具有占用內(nèi)存過大的缺點,所以在對大數(shù)據(jù)進(jìn)行處理時,可通過新型大數(shù)據(jù)處理方式,對大數(shù)據(jù)構(gòu)造決策樹思路加以利用,使機(jī)器學(xué)習(xí)算法的限制性條件得到有效解決,同時計算速度與之前相比也有了一定的提升。另外,通過增量優(yōu)化方法,也能使決策樹算法的效率有效提高,并且這種方法具有一定的精確度,可確保數(shù)據(jù)精準(zhǔn)性的同時還能對帶有噪音的大數(shù)據(jù)加以處理。