亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的斜坡堤越浪量預(yù)測方法研究

        2021-03-18 01:28:34胡原野王收軍陳松貴
        科技和產(chǎn)業(yè) 2021年2期
        關(guān)鍵詞:模型

        胡原野, 王收軍, 陳松貴

        (1.機(jī)電工程國家級實驗教學(xué)示范中心(天津理工大學(xué)), 天津 300384; 2.交通運輸部天津水運工程科學(xué)研究院 港口水工建筑技術(shù)國家工程實驗室, 天津 300456)

        防波堤是水工的重要建筑物,能夠有效地防止水體越過堤頂,從而保護(hù)堤后建筑及人類活動的安全。越浪量是設(shè)計防波堤時考慮的一個重要參數(shù),如果設(shè)計防波堤時能夠計算出越浪量的大小,就能夠在保證經(jīng)濟(jì)效益的同時,達(dá)到防波堤設(shè)計的要求,具有非常大的價值。因此,研究斜坡堤越浪量具有重要的意義。

        隨著社會的進(jìn)步和計算機(jī)科學(xué)的發(fā)展,機(jī)器學(xué)習(xí)算法逐步進(jìn)入人們的生活。機(jī)器學(xué)習(xí)是一種模仿人類學(xué)習(xí)過程的方法,在通過對大量數(shù)據(jù)的訓(xùn)練后,能夠自動調(diào)整數(shù)據(jù)特征的權(quán)重或誤差,尋求最優(yōu)的學(xué)習(xí)規(guī)則,從而能夠?qū)π聰?shù)據(jù)做出正確的判斷,機(jī)器學(xué)習(xí)具有良好的預(yù)測能力。中外學(xué)者都曾采用機(jī)器學(xué)習(xí)方法預(yù)測越浪量。Medina等[1-2]以實驗室中做的物理模型試驗的結(jié)果作為模型的輸入,建立了神經(jīng)網(wǎng)絡(luò)模型,并把神經(jīng)網(wǎng)絡(luò)模型的結(jié)果與觀測值做了比較;Marcel等[3]通過集成學(xué)習(xí)方法計算了斜坡堤越浪量,并給出了模型預(yù)測結(jié)果的置信區(qū)間;Formentin等[4]對防波堤參數(shù)進(jìn)行了進(jìn)一步的研究,補(bǔ)充了模型的輸入?yún)?shù),從而改善了模型;liu等[5]將BP神經(jīng)網(wǎng)絡(luò)應(yīng)用與珊瑚礁上的垂直海堤的越浪量;劉詩學(xué)等[6]將波高放縮為1,利用弗勞德相似準(zhǔn)則對參數(shù)做無量綱化處理,對單坡式防波堤越浪量建立了集成神經(jīng)網(wǎng)絡(luò)模型;趙鑫[7]以深水波參數(shù)作為輸入建立珊瑚礁地形上直立堤越浪量網(wǎng)絡(luò)模型。

        可以看出,對于越浪量的預(yù)測基本均是采用神經(jīng)網(wǎng)絡(luò)的方法,幾乎沒有其他機(jī)器學(xué)習(xí)方法。因此,本文針對斜坡堤越浪量,采用了3種不同的機(jī)器學(xué)習(xí)算法進(jìn)行預(yù)測,分別為集成神經(jīng)網(wǎng)絡(luò)(ENN)、隨機(jī)森林(RF)和支持向量回歸機(jī)(SVR),并對3種算法的預(yù)測能力做了比較分析。首先介紹了數(shù)據(jù)的來源,并對數(shù)據(jù)做預(yù)處理,然后介紹了3種機(jī)器學(xué)習(xí)模型的原理及參數(shù)對模型的影響,最后介紹了相關(guān)的研究結(jié)論。

        1 數(shù)據(jù)處理

        1.1 數(shù)據(jù)來源

        歐盟CLASH是由Delft大學(xué)開發(fā)的一個用于估算越浪量的工具。它搜集了世界上許多國家的越浪量實驗數(shù)據(jù),共計10 000多條,其中包括多種常見的防波堤類型。每條數(shù)據(jù)都包含波浪參數(shù)、防波堤參數(shù)和越浪量等。此外,數(shù)據(jù)中結(jié)構(gòu)復(fù)雜性和實驗可靠性分別用CF(complexity factor)和RF(reliability factor)表示,取值均為1~4。CF越大表明結(jié)構(gòu)越復(fù)雜,RF越大則表明實驗可靠性越低;反之,CF越小則結(jié)構(gòu)越簡單,RF越小則實驗可靠性越高。

        1.2 數(shù)據(jù)選擇

        由于機(jī)器學(xué)習(xí)算法的準(zhǔn)確性與數(shù)據(jù)集有重要的關(guān)系,因此不準(zhǔn)確或錯誤的數(shù)據(jù)會對模型產(chǎn)生較大的影響。需要對原始CALSH數(shù)據(jù)集做如下處理:刪除結(jié)構(gòu)復(fù)雜性最高(CF=4)和可靠性最低(RF=4)的數(shù)據(jù);刪除標(biāo)簽為Non-core的數(shù)據(jù);為了模型的準(zhǔn)確度,只保留q≥10-6m3/(s·m)(q為平均越浪量);此外,為了保證模型程序能正常運行,還需刪除有缺失值的數(shù)據(jù)。

        影響斜坡堤越浪量的因素十分復(fù)雜,難以考慮全部的因素。僅挑選出對斜坡堤越浪量影響較大的參數(shù):堤前有效波高Hm0,t、堤前譜周期Tm-1,t、坡度m、波浪入射角β、堤前水深h、堤腳浸沒水深ht、堤腳寬度Bt、平臺以下結(jié)構(gòu)與水平面正切值cotαd、波浪爬坡和下沖區(qū)(包括護(hù)堤)的平均角度的余切cotαincl、護(hù)面塊體粗糙度γf、波浪爬坡和下沖區(qū)護(hù)面塊體的平均粒徑D、胸墻頂高程Rc、平臺寬度B、平臺上水深hb、堤頂高程Ac、肩臺寬度Gc。斜坡堤結(jié)構(gòu)示意圖如圖1所示。

        圖1 斜坡堤示意圖

        1.3 無量綱化

        (1)

        (2)

        式中:q為越浪量,m3/(s·m);qAD為無量綱化后的越浪量,m3/(s·m);g為重力加速度,取9.8 m/s2;Hm,0,t為堤前有效波高,m;q*為歸一化后的越浪量,m3/(s·m)。

        表1 無量綱化后各參數(shù)的分布

        由于各個參數(shù)數(shù)值之間的差異比較大,不利于模型的訓(xùn)練,因此還需要對其做標(biāo)準(zhǔn)化處理,即將它們縮放到均值為0,方差為1。標(biāo)準(zhǔn)化方法為

        (3)

        式中:Xst為標(biāo)準(zhǔn)化后的參數(shù);X為原參數(shù);μ為X上的均值;σ為X上的標(biāo)準(zhǔn)差。

        2 斜坡堤越浪量預(yù)測方法

        2.1 集成神經(jīng)網(wǎng)絡(luò)

        2.1.1 神經(jīng)網(wǎng)絡(luò)

        人工神經(jīng)網(wǎng)絡(luò)類似于人類大腦組織,由大量的神經(jīng)元組成的網(wǎng)絡(luò)結(jié)構(gòu),是人類大腦結(jié)構(gòu)的簡化和抽象[8]。人工神經(jīng)網(wǎng)絡(luò)模型包含輸入層、隱含層和輸出層。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程就是把訓(xùn)練數(shù)據(jù)輸入到網(wǎng)絡(luò)中,經(jīng)過每個特征的加權(quán)和及激活函數(shù)的映射,輸出結(jié)果。將輸出值與目標(biāo)值之間的誤差用損失函數(shù)Loss來表示,不斷調(diào)整特征的權(quán)重ω和偏置θ,最終使得網(wǎng)絡(luò)的損失函數(shù)Loss最小。

        假設(shè)特征空間X=[x1,x2,…,xn],目標(biāo)空間Y=[y1,y2,…,ym],權(quán)重ω=[ω1,ω2,…,ωn]T,網(wǎng)絡(luò)的正向傳播過程神經(jīng)元的傳播可以表示為

        (4)

        激活函數(shù)取雙曲正切函數(shù):

        (5)

        損失函數(shù)Loss選擇均方差(MSE):

        (6)

        式中:qENN為神經(jīng)網(wǎng)絡(luò)的輸出值;q為數(shù)據(jù)集中的實驗值。

        設(shè)置網(wǎng)絡(luò)為一個隱含層,隱含層神經(jīng)元個數(shù)直接影響神經(jīng)網(wǎng)絡(luò)的預(yù)測精度。圖2為神經(jīng)網(wǎng)絡(luò)模型誤差和隱含層神經(jīng)元個數(shù)的關(guān)系,反映出了隨著隱含層神經(jīng)元個數(shù)的增加,網(wǎng)絡(luò)誤差減少,當(dāng)神經(jīng)元增加到50個時,網(wǎng)絡(luò)誤差最小;繼續(xù)增加隱含層神經(jīng)元個數(shù),網(wǎng)絡(luò)誤差將增加,這是由于網(wǎng)絡(luò)產(chǎn)生過擬合現(xiàn)象導(dǎo)致的。

        圖2 隱含層神經(jīng)元數(shù)對神經(jīng)網(wǎng)絡(luò)模型的影響

        確定隱含層神經(jīng)元個數(shù)為50個,建立的神經(jīng)網(wǎng)絡(luò)模型如圖3所示。

        圖3 神經(jīng)網(wǎng)絡(luò)模型

        2.1.2 集成學(xué)習(xí)

        集成學(xué)習(xí)是把多個學(xué)習(xí)器組合起來的一種學(xué)習(xí)方法[9]。一般地,集成學(xué)習(xí)模型要比單個學(xué)習(xí)器具有更好的擬合能力。對于集成神經(jīng)網(wǎng)絡(luò)模型,其原理是:在原樣本集中隨機(jī)有放回地抽取若干個子樣本集,每個子樣本集建立一個神經(jīng)網(wǎng)絡(luò)模型,通過某種策略將這些學(xué)習(xí)器組合起來。對于斜坡堤越浪量模型來說,隨機(jī)抽取100個子樣本集,建立100個子網(wǎng)絡(luò)模型,最后采用平均法策略將這些子網(wǎng)絡(luò)模型組成集成學(xué)習(xí)模型,即

        (7)

        式中:N為子網(wǎng)絡(luò)模型數(shù);qNN為子網(wǎng)絡(luò)模型的輸出值;qENN為集成神經(jīng)網(wǎng)絡(luò)模型的輸出值。

        2.2 隨機(jī)森林

        隨機(jī)森林是一種基于決策樹模型的更為高級的算法,它的“隨機(jī)性”體現(xiàn)在兩個方面:①隨機(jī)從原始樣本中隨機(jī)有放回地抽取若干子樣本;②決策樹中每個節(jié)點的分裂屬性(特征選擇)是隨機(jī)確定的。“森林”體現(xiàn)在它是由許多個決策樹組成的一個集成模型。兩次“隨機(jī)”保證了“森林”中決策樹種類的多樣性,從而使得隨機(jī)森林的最終擬合效果高于單棵決策樹[10]。

        隨機(jī)森林回歸用于連續(xù)數(shù)據(jù)的擬合問題是由以特征為依據(jù)的最大化生長的多棵回歸樹構(gòu)成的。由于隨機(jī)森林的隨機(jī)性,每棵樹的數(shù)據(jù)集不完全相同,且每一次分裂時特征選擇也不一樣。每次分裂都遵循均方差最小原則。即對于特征空間X中任意特征x(j),對應(yīng)的切分點s都會將訓(xùn)練集劃分為區(qū)域R1和區(qū)域R2,定義R1(j,s)={x|x(j)≤s}和R2(j,s)={x|x(j)>s},尋求j和s,使得下式最小。

        (8)

        式中:yi為輸出變量;

        分別為區(qū)域R1和區(qū)域R2上yi的均值。

        在確定最優(yōu)的(j,s),節(jié)點就會分裂成兩個子節(jié)點,對每個節(jié)點都重復(fù)以上過程,直至滿足條件為止。

        影響隨機(jī)森林模型性能的參數(shù)有許多,這里,主要對其中影響較大的兩個參數(shù)進(jìn)行選擇:隨機(jī)森林模型中決策樹的數(shù)量(n_estimators)和樹的最大深度(max_depth),其他參數(shù)選擇Python中Sklearn庫的默認(rèn)值。參數(shù)n_estiomators和參數(shù)max_depth采用網(wǎng)格搜索(GridSearchCV)的方法進(jìn)行遍歷,尋求最優(yōu)的組合。圖4為建立隨機(jī)森林模型時的誤差與決策樹個數(shù)和樹的最大深度的關(guān)系,反映出隨著決策樹數(shù)量的增加,隨機(jī)森林模型的誤差逐漸減小,當(dāng)減小到某值時,即使再增加決策樹數(shù)量,誤差也不再減小。但決策樹數(shù)量越多,模型訓(xùn)練的所需的時間越長,就需要消耗更多的計算資源;隨著每棵決策樹的分裂的最大深度越大,決策樹結(jié)構(gòu)也就越復(fù)雜,隨機(jī)森林的誤差也越小,進(jìn)一步增加樹的最大深度,隨機(jī)森林誤差也沒有出現(xiàn)再增加的現(xiàn)象,這表明隨機(jī)森林模型不易出現(xiàn)過擬合現(xiàn)象。

        圖4 決策樹數(shù)量和樹的最大深度對隨機(jī)森林模型的影響

        2.3 支持向量回歸機(jī)

        支持向量機(jī)(SVM)是在統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上發(fā)展起來的基于結(jié)構(gòu)風(fēng)險最小化原則的機(jī)器學(xué)習(xí)理論,根據(jù)有限的樣本信息在對特定訓(xùn)練樣本的學(xué)習(xí)精度和學(xué)習(xí)能力之間尋求最佳折中,以獲得最好的泛化能力[11]。

        支持向量回歸機(jī)是支持向量機(jī)在回歸問題上的一種方法。原理是:尋找一個超平面去擬合樣本數(shù)據(jù)中所有的樣本點,使得樣本點離超平面的總偏差最小。對于線性可分問題,設(shè)數(shù)據(jù)集D={(x1,y1),(x2,y2),…,(xm,ym)},目的是希望學(xué)習(xí)到一個線性回歸方程式(5),使得f(x)和y盡可能地接近。

        f(x)=ωTx+b

        (9)

        式中,ω和b為模型參數(shù)。此外,SVR模型可以允許f(x)和y之間有ε的誤差,且在f(x)和y之差的絕對值小于ε不計算損失。SVR模型圖5所示,超平面參數(shù)完全由A、B、C3個點確定,這3個點被稱為支持向量。

        圖5 SVR模型圖

        對于低維空間中線性不可分樣本集,通過核函數(shù)將其映射到高維空間中,使其線性可分,常見的核函數(shù):線性核(Linear Kernel),多項式核(Polynomial Kernel),徑向基核(RBF Kernel),卡方核(Chi-squared Kernel)等。選取徑向基核,因為徑向基核能夠?qū)崿F(xiàn)線性到非線性的映射。其表達(dá)式為

        (10)

        式中:xi為輸入向量;γ為徑向基函數(shù)參數(shù),x∈Rn。

        在支持向量回歸機(jī)模型中,對模型的預(yù)測精度影響較大的參數(shù)是懲罰參數(shù)C和徑向基函數(shù)參數(shù)γ。懲罰參數(shù)C表示SVR模型對誤差的容忍性,C越大,說明越不能容忍出現(xiàn)誤差,容易出現(xiàn)過擬合,C越小,則模型容易出現(xiàn)欠擬合,不管C過大還是過小,都會使SVR模型的泛化能力變差。徑向基函數(shù)γ決定了映射后的特征空間分布,γ值越小,支持向量越多,γ值越大,支持向量越少,支持向量的數(shù)量影響著SVR 的訓(xùn)練速度,支持向量越多,訓(xùn)練速度越慢,反之,訓(xùn)練速度越快。圖6為建立模型時的誤差與懲罰參數(shù)C和徑向基函數(shù)參數(shù)γ的關(guān)系,反映了SVR誤差隨著C和γ均呈現(xiàn)出先減小后增大的趨勢。

        圖6 懲罰參數(shù)和徑向基函數(shù)參數(shù)對支持向量回歸機(jī)模型的影響

        2.4 模型建立及評估指標(biāo)

        基于Python編程語言,以影響越浪量的15個參數(shù)作為輸入,平均越浪量作為輸出,建立基于機(jī)器學(xué)習(xí)方法的越浪量預(yù)測模型,并將預(yù)測結(jié)果和數(shù)據(jù)集中實驗值進(jìn)行驗證。將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,其中,訓(xùn)練集占90%,用于訓(xùn)練模型;測試集占10%,用于評估模型的預(yù)測能力。

        為了評估ENN、RF和SVR 3種機(jī)器學(xué)習(xí)模型對斜坡堤越浪量的預(yù)測能力,本文選擇決定系數(shù)(R2)和均方根誤差(RMSE)作為評估指標(biāo)。決定系數(shù)(R2)表明了預(yù)測值與真實值的密切程度,R2越接近1,說明越密切;反之,說明越離散;均方根誤差體現(xiàn)了預(yù)測值與真實值的誤差,RMSE越大,說明模型的性能越差,反之,RMSE越小,則說明模型的性能越好。公式表示為

        (11)

        3 結(jié)果分析

        3.1 模型的預(yù)測結(jié)果分析

        將測試集分別輸入到ENN、RF和SVR 3個模型中,并計算出3種模型在測試集上的R2和RMSE值。結(jié)果見表2。

        表2 3種機(jī)器學(xué)習(xí)模型評價表

        表2說明對于斜坡堤越浪量的3種機(jī)器學(xué)習(xí)模型,R2:RF>ENN>SVR;RMSE:RF

        圖7 3種機(jī)器學(xué)習(xí)模型在測試集上的預(yù)測結(jié)果

        圖7為3種模型在測試集上的預(yù)測結(jié)果,橫坐標(biāo)為數(shù)據(jù)集中的實驗值,縱坐標(biāo)為3種模型的預(yù)測值,兩側(cè)的虛線為5倍公差范圍,中間的虛線為45°理想線??梢钥闯?,當(dāng)越浪量在10-6≤q<10-4范圍內(nèi)時,3種模型均有較多的點落在了5倍公差范圍之外,可能的原因是數(shù)據(jù)集本身的不準(zhǔn)確造成的;當(dāng)越浪量在10-4≤q≤10-3范圍內(nèi)時,SVR模型和ENN模型均有一些落在5倍公差范圍外,而RF模型的所有預(yù)測點均落在5倍公差范圍內(nèi),說明在此范圍內(nèi),RF模型的預(yù)測結(jié)果優(yōu)于其他兩種模型;當(dāng)越浪量在10-3

        3.2 訓(xùn)練集對模型的影響

        為了驗證訓(xùn)練集對斜坡堤越浪量模型精度的影響,對訓(xùn)練集不做數(shù)據(jù)選擇處理,建立ENN、RF和SVR 3種模型,測試集上的R2和RMSE如表3所示。

        表3 3種機(jī)器學(xué)習(xí)模型評價表(不做數(shù)據(jù)選擇處理)

        由表2和表3得到,如果不對數(shù)據(jù)進(jìn)行處理,ENN、RF和SVR 3種模型的R2值分別降低了0.198 745、0.148 292、0.579 794;RMSE值分別增加了0.000 968、0.000 964、0.002 191。說明3種機(jī)器學(xué)習(xí)模型的預(yù)測精度均受到訓(xùn)練集的影響,而SVR模型對數(shù)據(jù)噪點較敏感,它的預(yù)測精度下降最為明顯。

        訓(xùn)練集中會存在一些有缺失值、不準(zhǔn)確甚至錯誤的信息,這些信息都會在模型訓(xùn)練中產(chǎn)生一定的影響,從而使得機(jī)器學(xué)習(xí)模型的預(yù)測結(jié)果出現(xiàn)較大的偏差。因此,對訓(xùn)練集進(jìn)行數(shù)據(jù)處理能夠顯著提高機(jī)器學(xué)習(xí)模型的預(yù)測精度。

        4 結(jié)論

        1)利用歐洲CLASH越浪數(shù)據(jù)集分別建立了集成神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林和支持向量回歸機(jī)3種機(jī)器學(xué)習(xí)模型對斜坡堤越浪量進(jìn)行預(yù)測研究,并對模型參數(shù)如何影響模型誤差做了分析,最后將3種模型的預(yù)測結(jié)果進(jìn)行對比分析。

        2)隨機(jī)森林由于內(nèi)在的隨機(jī)性算法使得模型不產(chǎn)生過擬合現(xiàn)象,模型的誤差為0.001 369,預(yù)測結(jié)果決定系數(shù)達(dá)到0.97以上;集成神經(jīng)網(wǎng)絡(luò)采用集成學(xué)習(xí)方法,其誤差為0.001 787,預(yù)測結(jié)果決定系數(shù)達(dá)到0.95以上;支持向量回歸機(jī)是一種獨立的算法,建模簡單,模型計算速度快,其誤差為 0.002 088,預(yù)測結(jié)果決定系數(shù)達(dá)到0.93以上。3種機(jī)器學(xué)習(xí)模型的決定系數(shù)均能達(dá)到0.9以上,說明3種模型對斜坡堤越浪量均具有較高的預(yù)測精度,相比之下,隨機(jī)森林的預(yù)測結(jié)果更為可靠。

        3)機(jī)器學(xué)習(xí)算法的預(yù)測結(jié)果不僅與自身算法有關(guān),還受到訓(xùn)練集影響。因為模型的建立和訓(xùn)練均是依據(jù)訓(xùn)練集的準(zhǔn)確性及數(shù)據(jù)分布。因此,補(bǔ)充正確的越浪量數(shù)據(jù),有助于進(jìn)一步提升模型精度。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        亚洲Va中文字幕久久无码一区| 亚洲中文字幕无码永久在线| 日本天堂免费观看| 国产精品理论片| 无码av免费精品一区二区三区 | 国产日产综合| 午夜丰满少妇性开放视频| 精品国产看高清国产毛片| 国产成品精品午夜视频| 国产大全一区二区三区| 高清少妇二区三区视频在线观看 | 国产成人精品人人做人人爽97| 久久婷婷色香五月综合缴缴情| 美女把尿囗扒开让男人添| 亚洲色大成网站www永久一区| 国产日韩久久久精品影院首页| 久久久久无码精品国| 亚洲一区免费视频看看| 亚洲视频一区二区三区视频| 国产无套粉嫩白浆在线| 全部孕妇毛片丰满孕妇孕交| 国产日韩欧美在线| 亚洲欧洲日产国码无码av野外| 日本一区二区三区免费| 国产夫妻自拍视频在线播放| 无码国产色欲xxxx视频| 日日碰狠狠添天天爽超碰97| 99精品热6080yy久久| 黑丝美女喷水在线观看| 可以直接在线看国产在线片网址| 国产成人无码av| 欧洲日本一线二线三线区本庄铃| 国产精品丝袜在线不卡| 国产成人美涵人妖视频在线观看| 丰满人妻被两个按摩师| 成熟丰满熟妇高潮xxxxx视频| 亚洲综合久久精品无码色欲| 久久亚洲sm情趣捆绑调教| 欧美日韩激情在线一区二区| 中文字幕人妻久久一区二区三区| 日本中文字幕婷婷在线|