機器學習在大數(shù)據(jù)中的常用方法及其重要性
伴隨著大數(shù)據(jù)時代的來到,大數(shù)據(jù)吸引了眾多學術界和產業(yè)界人士的關注。大數(shù)據(jù)的特征被歸納為5V:Volume、Velocity、Variety、Value、veracity。大數(shù)據(jù)在各種行業(yè)和領域已經得到了廣泛應用。從數(shù)據(jù)倉庫到BI和data mining;從自動駕駛到智能搜索;包括云計算、并行計算等在內的技術,極大的提高了人們的生產生活水平,正在改變著人們的生產生活方式,如何從大數(shù)據(jù)中挖掘出人們需要的知識,需要充分利用機器學習原理和方法。
我們現(xiàn)在處于一個信息爆炸的時代,每天都會產生大量的數(shù)據(jù),包括商業(yè)數(shù)據(jù)、天氣數(shù)據(jù)、人文數(shù)據(jù)等。看似雜亂無章的數(shù)據(jù)中,隱藏著對人類極為重要,有價值的知識。小到一個公司企業(yè)能夠從大量的、數(shù)據(jù)類型多樣的、有價值的數(shù)據(jù)中挖掘出對企業(yè)的發(fā)展有價值的信息,就能在商業(yè)風云中立于不敗之地;大到一個民族,一個國家,利用機器學習的算法和原理,從大數(shù)據(jù)中挖掘出各類信息,就可以預測和預防災害的發(fā)生,提高人民的生產生活水平。
信息時代,大數(shù)據(jù)已經同人們密切相關,國家提出大數(shù)據(jù)發(fā)展戰(zhàn)略,利用“大數(shù)據(jù)”和“互聯(lián)網(wǎng)+”思維推動國家經濟文化的發(fā)展,鼓勵大眾創(chuàng)新,萬眾創(chuàng)業(yè),使科技的發(fā)展與創(chuàng)新惠及家家戶戶。面對大數(shù)據(jù)時代的挑戰(zhàn),我們需要構建機器學習原理和方法,讓大數(shù)據(jù)真正發(fā)揮出它的價值與力量。
人工神經網(wǎng)絡及其重要性
人工神經網(wǎng)絡是對生物神經網(wǎng)絡的模擬。生物的腦是由大量的神經元組成的,人類的大腦有10∧10~10∧11個神經元,每個神經元又與大量的神經元互連,構成了一個極其復雜的神經網(wǎng)絡。其中每個神經元由胞體、樹突和軸突構成。神經元的軸突與另外神經元的樹突相連接,構成突觸,各類神經信號在神經元的突觸處理后,如果信號強度大于某個閾值,則該信號繼續(xù)向前傳播。根據(jù)生物神經元,人類建立了人工神經元網(wǎng)絡模型:
人工神經網(wǎng)絡模型是機器學習的一種算法。人工神經網(wǎng)絡模型包含BP人工神經網(wǎng)絡、過程神經網(wǎng)絡、徑向基神經網(wǎng)絡、深度學習網(wǎng)絡等。
深度神經網(wǎng)絡是人工神經網(wǎng)絡中重要的一個算法,尤其是Google利用深度神經網(wǎng)絡編寫的AlphaGo戰(zhàn)勝李世石后,深度神經網(wǎng)絡進一步引起了人類的關注。IBM、谷歌、百度等利用深度學習網(wǎng)絡進行語音識別、機器翻譯,語義挖掘系統(tǒng)的設計,也有了很大的進展。深度神經網(wǎng)絡又包括幾個重要的算法,包括卷積神經網(wǎng)絡、受限波爾茨曼機等。
深度神經網(wǎng)絡就是通過增加隱含層神經元的個數(shù)來提高人工神經網(wǎng)絡的性能的。深度神經網(wǎng)絡每一層都會設置一個權值和閾值,通過對深度神經網(wǎng)絡的訓練,在誤差允許的范圍內,最終確定該深度神經網(wǎng)絡的權值和閾值,從可以利用該深度神經網(wǎng)絡進行信號的識別,預測等功能。深度神經網(wǎng)絡的每一層是一個特征提取的過程,一層輸出作為下一層的輸入,實現(xiàn)輸入信息的分層特征提取。以圖像識別為例,第一層提取的特征可能是點,而第二層提取的可能就是圖像線的特征,第三層可能就是面,最終表示層一幅完整的圖像,通過特征的組合判斷圖像是哪一種物體。
SVM算法在大數(shù)據(jù)中的應用及其重要性
支持向量機(SVM)是機器學習算法中最具有健壯性和準確性的算法之一。對于線性可分的問題,SVM是要找到間隔最大的超平面將兩種不同的樣本分開,間隔最大的超平面具有最好的泛化能力。
用變量a表示權重向量,變量b表示最優(yōu)超平面偏移,那么超平面定義為:
x樣本到最優(yōu)超平面的距離為:
r=g(x)/(||a||)為超平面確定的判別函數(shù)。SVM就是要可以最大化兩個類別之間間距的參數(shù)a和b的值。然后通過求解對偶問題得到變量a和b的值,進而可以在非線性可分的問題中引入核函數(shù)。
現(xiàn)實世界中的許多問題都是線性不可分的,對偶問題目標函數(shù)是無限的,那么最優(yōu)化問題是不可解的。對于線性不可分問題的解決方法有兩個:一種是軟間隔優(yōu)化,另一種都是利用核技巧將線性不可分問題轉變?yōu)榫€性可分問題。核技巧是找到一個核函數(shù),將低維空間中的數(shù)據(jù)映射到高維空間中,使數(shù)據(jù)在高維空間中是線性可分的。軟間隔優(yōu)化是放松了限制輸入空間,允許存在某些錯誤。但是當遇到某些極度線性不可分問題或者分類的錯誤過多時,軟間隔優(yōu)化是不可行的。核技巧在遇到復雜的實際問題時,也不總能保證問題是線性可分的。所以在實際應用中我們會綜合使用兩種方法,更有效地解決線性不可分問題。
支持向量機在分類、聚類、模式識別、人臉識別、機器的故障檢測、時間序列預測、生物工程、數(shù)據(jù)挖掘、手寫體識別、函數(shù)擬合等領域都有廣泛的應用。
GMM-HMM算法在大數(shù)據(jù)中的應用及其重要性
GMM-HMM是一個用于語音識別的模型。Hidden Markov Model是一個有隱節(jié)點和可見節(jié)點的馬爾科夫過程。其中隱節(jié)點代表狀態(tài),可見節(jié)點代表能夠聽到的語音或者看到的時序信號。我們需要首先指定一個HMM模型,在訓練時,給出n個訓練樣本,并且用MLE算法估計如下參數(shù):狀態(tài)初始概率,狀態(tài)轉移概率和輸出概率。
使用HMM需要解決Likelihood、Decoding、Training三個問題。其中Likelihood表示HMM產生一個序列x的概率。Decoding表示給定一個序列x,從中找出最有可能從屬的HMM模型的狀態(tài)序列。Training表示給定一個序列,訓練HMM參數(shù)。
GMM-高斯混合模型,可以簡單理解為幾個高斯的疊加。每個狀態(tài)都有一個GMM,而每個GMM都有一些參數(shù),我們要通過訓練,得到這些概率參數(shù),訓練出這些參數(shù),在給定一個序列時,就可以識別出狀態(tài)轉移的概率。
語音識別的過程我們可以概括為:首先將一段音頻分割成多個單詞,針對每個單詞提取MFCC特征序列,然后將該序列輸入每一個已經訓練好的HMM模型中,最后利用每一個單詞的狀態(tài)轉移概率算出每一個state序列生成該單詞的概率,取最大概率,為我們選出需要的詞語。
我們現(xiàn)在處在大數(shù)據(jù)的時代,機器學習可以被最大化的利用起來。比如隨著人工智能、移動穿戴等的發(fā)展,大量的數(shù)據(jù)隨之產生,不僅數(shù)據(jù)的數(shù)據(jù)越來越多,數(shù)據(jù)的種類也越來越豐富,比如數(shù)據(jù)即包括文字,圖片,也包括音頻,視頻等非結構化的數(shù)據(jù),這使得機器學習可利用的數(shù)據(jù)越來越多。同時分布式技術的發(fā)展,也使機器學習的運行速度越來越快,可以更方便人們的使用,處在大數(shù)據(jù)的時代背景下,機器學習也正在發(fā)揮出它的優(yōu)勢。
大數(shù)據(jù)的本質是要挖掘出數(shù)據(jù)的價值,機器學習是挖掘數(shù)據(jù)價值的關鍵。機器學習對于大數(shù)據(jù)是不可缺少的,反過來,大量的數(shù)據(jù)同時增加了機器學習算法的準確度,因此機器學習的發(fā)展興亡也離不開大數(shù)據(jù)。同時在機器學習算法的速度需求方面,對于并行計算和內存計算的需求也越來越高。因此大數(shù)據(jù)與機器學習是相互依存,相輔相成的關系。
表1
實測半穿越阻抗>21%,滿足客戶要求。
通過結果對比看出,仿真的阻抗與實測的阻抗基本完全一致,說明仿真計算的結果非常精確。
解耦率
通過變壓器容量和繞組連接方法計算得出,高壓繞組2(HV shang)和繞組3(HV xia的額定電流為5.714A,低壓繞組1(LV shang)額定電流為729.28A。
半穿越仿真時,得出繞組2(HV shang)和繞組3(HV xia)中的電流分配如圖5。
圖5
H V上分配的電流比例為K=5.25/5.714*100%=91.88%,解耦率>90%,滿足客戶要求,且與試驗測得的電流分配基本一致。
本文通過MagNet軟件仿真軸向雙分裂變壓器的全穿越、半穿越阻抗,并獲得了半穿越運行時并聯(lián)的高壓繞組中的電流分配,從而算出解耦率。如果采用傳統(tǒng)電磁計算的方法,不論是半穿越阻抗,還是解耦率都很難算準。本文為開發(fā)及設計特殊結構變壓器,提出了一種新的、行之有效的方法。
10.3969/j.issn.1001- 8972.2016.15.019