陳彥如,張涂靜娃,杜 千,冉茂亮,王紅軍
(1.西南交通大學(xué)經(jīng)濟(jì)管理學(xué)院,成都 610031;2.中鐵二院工程集團(tuán)有限責(zé)任公司建筑工程設(shè)計(jì)研究院,成都 610031;3.西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院,成都 611756)
城市計(jì)算是計(jì)算機(jī)學(xué)科中以城市為背景,與城市規(guī)劃、交通、能源、環(huán)境、社會(huì)學(xué)和經(jīng)濟(jì)等學(xué)科融合的新興領(lǐng)域[1-4]。城市計(jì)算的提出對(duì)經(jīng)濟(jì)、社會(huì)、技術(shù)等諸多方面產(chǎn)生了重要的影響。作為城市計(jì)算中的一類重要空間節(jié)點(diǎn)——高鐵站,承擔(dān)著大量乘客的集散功能,是高密度客流聚集的公共建筑場(chǎng)所,其室內(nèi)的環(huán)境舒適度直接影響著乘客的出行體驗(yàn)和心理狀態(tài)。有效感知高鐵站室內(nèi)環(huán)境舒適度特征,并基于城市計(jì)算中的人工智能模型,挖掘其環(huán)境舒適度的影響因素和變化規(guī)律,預(yù)測(cè)高鐵站室內(nèi)舒適度等級(jí),能夠?yàn)橹贫ㄖ悄艿氖覂?nèi)溫控系統(tǒng)提供重要的決策依據(jù),進(jìn)而達(dá)到城市計(jì)算的目標(biāo)——為人們提供高品質(zhì)的城市生活。
在室內(nèi)環(huán)境的舒適度研究中,熱舒適度是評(píng)價(jià)室內(nèi)環(huán)境滿意度的重要手段。2005 年國(guó)際標(biāo)準(zhǔn)化組織制定PMV(Predicted Mean Vote)、PPD (Predicted Percentage of Dissatisfied)等熱舒適度指標(biāo)[5]。目前由于PMV-PPD 已被廣泛應(yīng)用于熱舒適度的測(cè)度之中,因此本文以PMV-PPD 作為高鐵站室內(nèi)環(huán)境的熱舒適度評(píng)價(jià)指標(biāo)。然而不同于一般的封閉建筑空間,高鐵站為了方便大規(guī)模客流集散,通常設(shè)計(jì)為半封閉半開(kāi)放的建筑空間,因此室內(nèi)的熱舒適度受到諸多因素的影響,并且呈動(dòng)態(tài)變化。此外,影響因素與熱舒適度指標(biāo)之間也呈非線性關(guān)系,如果采用傳統(tǒng)統(tǒng)計(jì)預(yù)測(cè)模型,則難以完全獲取數(shù)據(jù)的內(nèi)在特征及數(shù)據(jù)間復(fù)雜的非線性關(guān)系。淺層機(jī)器學(xué)習(xí)模型可以較好地描述非線性關(guān)系,但容易出現(xiàn)欠學(xué)或過(guò)學(xué)現(xiàn)象。而深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)等深度學(xué)習(xí)算法則存在計(jì)算復(fù)雜度高、需優(yōu)化大量超參數(shù)等不足??紤]到深度森林(Deep Forest,DF)算法所需參數(shù)少、對(duì)于超參數(shù)的設(shè)置不敏感、容易訓(xùn)練等優(yōu)勢(shì),本文采用深度森林來(lái)構(gòu)建高鐵站室內(nèi)熱舒適度預(yù)測(cè)模型,以獲取各影響因素與熱舒適度之間的非線性關(guān)聯(lián)關(guān)系。為了獲得海量數(shù)據(jù),本文將實(shí)地調(diào)研與仿真建模相結(jié)合,借助Energy Plus軟件,構(gòu)建了能夠復(fù)現(xiàn)實(shí)際高鐵站熱交換環(huán)境的仿真模型,從而產(chǎn)生不同室外氣象條件、不同客流密度、不同多聯(lián)機(jī)控制工況以及不同熱交換控制工況的大規(guī)模數(shù)據(jù)集,為深度森林提供充足的數(shù)據(jù)資源。
與已有研究相比,本文的主要貢獻(xiàn)如下:
1)研究對(duì)象。目前熱舒適度的研究對(duì)象更多為全封閉式室內(nèi)環(huán)境,而本文主要是針對(duì)高鐵站這類半開(kāi)放半封閉式建筑,這類建筑部分自然通風(fēng)且人流密度高,室內(nèi)外空氣交換頻繁,室內(nèi)熱舒適度不穩(wěn)定性強(qiáng),其熱舒適度等級(jí)預(yù)測(cè)較為困難。
2)研究要素。除了傳統(tǒng)熱舒適度研究中采用的將室外環(huán)境和室內(nèi)環(huán)境因素兩類作為模型輸入?yún)?shù)之外,本文還將客流密度、多聯(lián)機(jī)臺(tái)數(shù)、多聯(lián)機(jī)設(shè)置溫度以及熱交換機(jī)的臺(tái)數(shù)等作為模型輸入?yún)?shù),更加全面地分析室內(nèi)熱舒適度等級(jí)的各種影響因素。
3)研究方法。區(qū)別于以往的傳統(tǒng)預(yù)測(cè)方法和淺層機(jī)器學(xué)習(xí)方法,本文提出了基于深度森林的室內(nèi)熱舒適度預(yù)測(cè)方法,以深入挖掘眾多因素對(duì)熱舒適度的影響。
目前關(guān)于熱舒適度的研究主要集中在熱舒適度的評(píng)價(jià)、預(yù)測(cè)及控制方面。隨著城市計(jì)算概念的普及,越來(lái)越多的學(xué)者開(kāi)始將機(jī)器學(xué)習(xí)的思想應(yīng)用到熱舒適度的研究中。
目前該部分研究主要基于PMV-PPD 模型或相關(guān)改進(jìn)模型對(duì)不同環(huán)境的熱舒適度進(jìn)行評(píng)價(jià):文獻(xiàn)[6]中用PMV-PPD指標(biāo)來(lái)評(píng)價(jià)室內(nèi)或者車艙內(nèi)熱環(huán)境的狀況;文獻(xiàn)[7]中采用被試人員主觀評(píng)價(jià)和實(shí)驗(yàn)測(cè)試客觀評(píng)價(jià)相結(jié)合的方法,使用PMV-PPD 模型計(jì)算人體的熱舒適,研究冬夏季住宅空調(diào)房間內(nèi)舒適的溫濕度范圍、可接受的溫度波動(dòng)及冬季頭腳垂直溫差范圍;文獻(xiàn)[8]中利用MTS(Mean Thermal Sensations)-PPD模型對(duì)哈爾濱市住宅熱環(huán)境和個(gè)人熱舒適進(jìn)行了評(píng)價(jià),并發(fā)現(xiàn)男性對(duì)溫度變化的敏感性低于女性;文獻(xiàn)[9]中討論了居住者在自然條件下對(duì)熱環(huán)境的適應(yīng)性反應(yīng)和感知,對(duì)實(shí)際平均投票和預(yù)測(cè)平均投票以及實(shí)際不滿意百分比和預(yù)測(cè)不滿意百分比進(jìn)行了比較;文獻(xiàn)[10]中使用PPD 和PMV 指標(biāo)衡量了學(xué)生對(duì)學(xué)習(xí)環(huán)境的熱舒適的評(píng)價(jià);文獻(xiàn)[11]中測(cè)量室內(nèi)環(huán)境質(zhì)量參數(shù),并使用PMV-PPD 模型來(lái)評(píng)估居住者現(xiàn)有的舒適水平;文獻(xiàn)[12]中通過(guò)采集大樓內(nèi)的實(shí)驗(yàn)測(cè)量數(shù)據(jù)計(jì)算PMVPPD 指數(shù),對(duì)伊朗西部Kermanshah 市的一家公立醫(yī)院的空調(diào)系統(tǒng)性能和熱舒適水平進(jìn)行了測(cè)定;文獻(xiàn)[13]中提出了一種基于PMV-PPD 的方法來(lái)評(píng)估潛水器客艙的熱特性變化和載人深海任務(wù)中船員的舒適度。
文獻(xiàn)[14]中提到隨著理論數(shù)學(xué)和計(jì)算機(jī)科學(xué)技術(shù)的發(fā)展,部分學(xué)者嘗試將模糊數(shù)學(xué)和機(jī)器學(xué)習(xí)等領(lǐng)域的方法引入到熱舒適度的預(yù)測(cè)之中。文獻(xiàn)[15]中提出了一種基于誤差反向傳播算法的控制器,該控制器以PMV 指標(biāo)為控制目標(biāo),預(yù)測(cè)暖通空調(diào)系統(tǒng)的最高舒適度。文獻(xiàn)[16]中使用決策樹(shù)的方法預(yù)測(cè)用戶的熱舒適感知。文獻(xiàn)[17]中使用邏輯回歸和支持向量機(jī)(Support Vector Machine,SVM)對(duì)熱感覺(jué)和舒適的熱接受度和熱偏好進(jìn)行預(yù)測(cè)。文獻(xiàn)[18]中采用模糊模型(Takagi-Sugeno,TS)和高斯-牛頓非線性回歸測(cè)算法構(gòu)建了模糊PMV-PPD 模型預(yù)測(cè)室內(nèi)熱舒適狀況。文獻(xiàn)[19]中提出了一種用于熱感知預(yù)測(cè)的智能集成機(jī)器學(xué)習(xí)方法——Bagging,該模型綜合考慮了氣候、環(huán)境和人口參數(shù)。與神經(jīng)網(wǎng)絡(luò)及支持向量機(jī)模型相比,Bagging 模型具有更高的熱感覺(jué)預(yù)測(cè)精度。文獻(xiàn)[20]中提出了一種基于數(shù)據(jù)驅(qū)動(dòng)的個(gè)體水平熱舒適實(shí)時(shí)預(yù)測(cè)方法,分別運(yùn)用了支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)等6 種算法對(duì)新加坡的自然通風(fēng)建筑和空調(diào)建筑進(jìn)行了熱舒適性預(yù)測(cè)。文獻(xiàn)[21]中應(yīng)用9 種機(jī)器學(xué)習(xí)算法和3 種數(shù)據(jù)采樣方法來(lái)預(yù)測(cè)美國(guó)采暖、制冷與空調(diào)工程師學(xué)會(huì)(American Society of Heating,Refrigerating and Air-Conditioning Engineers,ASHRAE)數(shù)據(jù)庫(kù)Ⅱ中的熱感覺(jué)投票。文獻(xiàn)[22]中結(jié)合了高保真計(jì)算流體動(dòng)力學(xué)模擬和機(jī)器學(xué)習(xí)算法對(duì)車輛乘員的熱舒適性進(jìn)行預(yù)測(cè)。
部分研究將熱舒適度作為目標(biāo)用于系統(tǒng)控制。文獻(xiàn)[23]采用PMV 和PPD 對(duì)室內(nèi)熱環(huán)境進(jìn)行評(píng)價(jià),并結(jié)合能耗、性能系數(shù)、電費(fèi)等指標(biāo)提出了熱泵供暖系統(tǒng)的最優(yōu)控制策略。文獻(xiàn)[24]中的研究強(qiáng)調(diào)需要一種新的空間冷熱系統(tǒng)熱舒適控制方法,以達(dá)到舒適的熱條件,同時(shí)盡量減少能源消耗。為了實(shí)時(shí)反映室內(nèi)環(huán)境信息的變化,控制影響溫度和熱舒適的各種因素(如濕度、風(fēng)速等),利用高斯回歸過(guò)程獲得的熱舒適性能來(lái)預(yù)測(cè)結(jié)果。文獻(xiàn)[25]中以能耗和PPD為目標(biāo)對(duì)獲得建筑圍護(hù)結(jié)構(gòu)的配置進(jìn)行優(yōu)化。文獻(xiàn)[26]提出了一個(gè)基于深度強(qiáng)化學(xué)習(xí)的建筑能耗模型-深度強(qiáng)化學(xué)習(xí)(Building Energy Model-Deep Reinforcement Learning,BEM-DRL)框架用于空調(diào)系統(tǒng)的能效和熱舒適性優(yōu)化控制。模型采用利用貝葉斯方法和遺傳算法進(jìn)行多目標(biāo)邊界元法標(biāo)定,深度強(qiáng)化學(xué)習(xí)訓(xùn)練采用異步優(yōu)勢(shì)動(dòng)作評(píng)價(jià)(Asynchronous Advantage Actor Critic,A3C)算法。以現(xiàn)有的一個(gè)辦公樓為例,通過(guò)對(duì)供暖系統(tǒng)供水溫度的簡(jiǎn)單控制,所提出的優(yōu)化控制策略以大于95%的概率將供暖需求降低16.7%。
綜上,目前大多研究采用PMV-PPD 指標(biāo)進(jìn)行環(huán)境熱舒適度的評(píng)價(jià)。對(duì)于PMV-PPD 指標(biāo)的預(yù)測(cè)主要采用傳統(tǒng)的數(shù)理統(tǒng)計(jì)方法或者淺層機(jī)器學(xué)習(xí)方法,而且預(yù)測(cè)的環(huán)境主要是封閉空間,很少考慮半封閉半開(kāi)放的建筑空間。
為了快速且準(zhǔn)確地預(yù)測(cè)人體在高鐵站這類半開(kāi)放半封閉式建筑的熱舒適性,判斷多聯(lián)機(jī)溫度控制和熱交換機(jī)臺(tái)數(shù)設(shè)置等控制策略的合理性,提高高鐵站內(nèi)旅客的體驗(yàn)感和舒適感。本文提出了一種在自然通風(fēng)條件下高鐵站內(nèi)熱舒適度等級(jí)預(yù)測(cè)的方法。
該方法綜合采用實(shí)地調(diào)查與Energy Plus軟件仿真采集大量數(shù)據(jù),將高鐵站室內(nèi)不滿意預(yù)測(cè)百分比(PPD)作為目標(biāo),室外天氣、客流密度、室內(nèi)溫度、室內(nèi)濕度、室內(nèi)二氧化碳濃度、多聯(lián)機(jī)設(shè)置溫度、多聯(lián)機(jī)開(kāi)啟臺(tái)數(shù)和熱交換機(jī)開(kāi)啟臺(tái)數(shù)為模型輸入?yún)?shù),提出了深度森林預(yù)測(cè)模型,探討了在不同工況下室內(nèi)PPD所處等級(jí)。
基本定義如下。
1)PMV。
PMV 是基于人體與環(huán)境熱交換的穩(wěn)態(tài)物理模型建立起來(lái)的一個(gè)經(jīng)驗(yàn)指標(biāo),它預(yù)測(cè)的是按照ASHRAE 的冷熱感覺(jué)尺度衡量的一批人的平均反應(yīng)。Fanger 認(rèn)為處于穩(wěn)定狀態(tài)下,大多數(shù)的冷熱感覺(jué)只有空氣溫度、平均輻射溫度、相對(duì)濕度、空氣流速、新陳代謝率(即人體活動(dòng)量)和服裝熱阻(即衣著情況)6 個(gè)因素起主要影響作用,通過(guò)適當(dāng)選擇這6 個(gè)影響因子就可以通過(guò)式(1)得出相應(yīng)的PMV指標(biāo)[5]:
其中:M為人體的新陳代謝量,單位為W/s;W為人體所做的機(jī)械功,單位為W/s;Pa為人體周圍空氣的水蒸氣分壓力,單位為Pa;ta為人體周圍的空氣溫度,單位為℃;fcl為人體著裝后的實(shí)際表面積和人體裸身表面積之比,即服裝的表面系數(shù);tcl為人體外表面溫度,單位為℃;ts為房間的平均輻射溫度,單位為℃;hc為對(duì)流換熱系數(shù),單位為W/s·m2·℃;
2)PPD。
PMV 指數(shù)為預(yù)計(jì)處于熱環(huán)境中的群體對(duì)于熱感覺(jué)投票的平均值。PPD 指數(shù)可對(duì)于熱不滿意的人數(shù)給出定量的預(yù)計(jì)值,當(dāng)確定PMV值以后,PPD值可由式(2)[5]得出:
本文采用PMV-PPD 指標(biāo)對(duì)高鐵站室內(nèi)熱舒適度進(jìn)行評(píng)價(jià)。依據(jù)現(xiàn)行國(guó)家標(biāo)準(zhǔn)將PPD 分為一級(jí)熱舒適度、二級(jí)熱舒適度和不舒適三類,其中:10%以內(nèi)為一級(jí)熱舒適度,10%到27%為二級(jí)熱舒適度,27%以上為不舒適[27]。
為了獲取海量數(shù)據(jù),本研究基于現(xiàn)場(chǎng)調(diào)研及Energy Plus平臺(tái),建立了成都某高鐵站的仿真模型。
本文選取了處于夏熱冬冷區(qū)的成都某高鐵站為研究對(duì)象,該車站為高架車站,站廳層高6 m,吊頂1 m,室內(nèi)區(qū)域分為辦公區(qū)、候車區(qū)、離站區(qū)三個(gè)部分,其中候車區(qū)的尺寸為74 m×28 m×5 m。該車站共配有5 臺(tái)多聯(lián)機(jī)和8 臺(tái)熱交換機(jī)。仿真模型中的建筑朝向、圍護(hù)結(jié)構(gòu)構(gòu)造、建筑結(jié)構(gòu)等參數(shù)均嚴(yán)格按照該高鐵站實(shí)際數(shù)據(jù)進(jìn)行設(shè)置。
為了全面研究室內(nèi)室外參數(shù)對(duì)室內(nèi)環(huán)境熱舒適度的影響,本文通過(guò)文獻(xiàn)調(diào)研及實(shí)地調(diào)研的方式,最終確定了8 個(gè)影響因素:室外干球溫度、室內(nèi)客流密度、室內(nèi)溫度、室內(nèi)濕度、室內(nèi)二氧化碳濃度、多聯(lián)機(jī)開(kāi)行臺(tái)數(shù)、多聯(lián)機(jī)設(shè)置溫度、熱交換機(jī)開(kāi)行臺(tái)數(shù)。為了在仿真平臺(tái)還原真實(shí)的熱交換環(huán)境,本文對(duì)該高鐵站進(jìn)行了實(shí)地調(diào)研,獲取了現(xiàn)場(chǎng)的室外室內(nèi)所有狀態(tài)參數(shù)及客流密度的變化軌跡,據(jù)此對(duì)仿真模型進(jìn)行校正與多輪調(diào)試,最終確定該高鐵站的仿真模型。
本文收集了該高鐵站為期一年的室外干球溫度數(shù)據(jù),其中采集間隔為1 h,共得到24×365=8 760條天氣數(shù)據(jù)。考慮到不同人群對(duì)熱舒適度體現(xiàn)的差異,本文共設(shè)置了8 種多聯(lián)機(jī)夏季溫度與冬季溫度組合,分別為(15℃,23℃),(16℃,24℃),(17℃,25℃),(18℃,26℃),(19℃,27℃),(20℃,28℃),(21℃,29℃),(22℃,30℃)。溫控設(shè)備從上午7 點(diǎn)開(kāi)啟至晚上11 點(diǎn)關(guān)閉。此外,考慮單獨(dú)開(kāi)啟多聯(lián)機(jī)、單獨(dú)開(kāi)啟熱交換機(jī)以及同時(shí)開(kāi)啟多聯(lián)機(jī)熱交換機(jī)的情況,共有5+8+40=53種工況,結(jié)合8種溫度設(shè)置范圍,共獲得53×8=424種工況。因此,共生成了424×8 760=3 714 240個(gè)實(shí)例。
2017年Zhou等[28]首次提出了深度森林算法,也稱作多粒度級(jí)聯(lián)森林算法(multi-grained cascade Forest,gcForest)。
深度森林算法是以隨機(jī)森林(Random Forest,RF)算法為基礎(chǔ)的一種有監(jiān)督機(jī)器集成學(xué)習(xí)算法[28],其模型框架如圖1所示。作為一種具有一定深度的基于決策樹(shù)的預(yù)測(cè)算法,深度森林算法將預(yù)測(cè)過(guò)程分為兩個(gè)階段:多粒度掃描階段和級(jí)聯(lián)森林階段。
圖1 深度森林模型框架Fig.1 Framework of deep forest model
1)隨機(jī)森林算法。
隨機(jī)森林算法是一種基于Bagging的集成學(xué)習(xí)方法,是機(jī)器集成學(xué)習(xí)算法之一[29]。在分類任務(wù)中,測(cè)試樣本的類別由這些決策樹(shù)輸出類別標(biāo)簽的眾數(shù)決定,包括隨機(jī)選取樣本數(shù)據(jù)過(guò)程和隨機(jī)選取待選特征過(guò)程。
2)多粒度掃描階段。
深度森林算法中,為了盡可能挖掘序列數(shù)據(jù)特征的順序關(guān)系,增加集成學(xué)習(xí)的多樣性,設(shè)置了多粒度掃描階段對(duì)樣本特征進(jìn)行提取。
3)級(jí)聯(lián)森林階段。
級(jí)聯(lián)森林的每一層都是由多個(gè)森林組成,而每一個(gè)森林又是由多個(gè)決策樹(shù)組成,每一層的森林保證了模型的多樣性。在級(jí)聯(lián)森林階段中,其層數(shù)是自適應(yīng)調(diào)節(jié)的。在特征信息的傳遞中,除第1 級(jí)直接采用經(jīng)多粒度掃描處理后的特征向量作為輸入之外,隨后的每一級(jí)都將上一級(jí)輸出的特征結(jié)果向量與原始輸入特征向量相拼接作為自身的輸入[28]。
本文按以下步驟對(duì)高鐵站室內(nèi)熱舒適度等級(jí)進(jìn)行預(yù)測(cè):
步驟1 考慮到不同的月份對(duì)室內(nèi)環(huán)境的影響強(qiáng)度不同,根據(jù)月份將數(shù)據(jù)分為12 個(gè)子集,一個(gè)子集對(duì)應(yīng)一個(gè)月份,即Dataset=(D1,D2,…,Dm),m=12。特征集A={a1,a2,…,ad},d=8,即對(duì)應(yīng)8 種影響因素:室外干球溫度、室內(nèi)客流密度、室內(nèi)溫度、室內(nèi)濕度、室內(nèi)二氧化碳濃度、多聯(lián)機(jī)開(kāi)行臺(tái)數(shù)、多聯(lián)機(jī)設(shè)置溫度、熱交換機(jī)開(kāi)行臺(tái)數(shù)。
步驟2 采取10-折交叉驗(yàn)證,將Di各分為10 份,依次將其中的九份作為訓(xùn)練集Pi,另一份作為測(cè)試集Ui,,Ui=
步驟3 確定模型參數(shù),如設(shè)置最大深度N為16,提前停止層數(shù)為3,并開(kāi)始訓(xùn)練,具體訓(xùn)練流程如圖2所示。
圖2 深度森林算法流程Fig.2 Flowchart of deep forest algorithm
以成都某高鐵站為例,基于仿真模型獲取的數(shù)據(jù)進(jìn)行其室內(nèi)熱舒適度等級(jí)的預(yù)測(cè)。本文的實(shí)驗(yàn)流程如圖3所示。
圖3 高鐵站熱舒適度等級(jí)預(yù)測(cè)流程Fig.3 Flowchart of thermal comfort level prediction for high-speed railway stations
數(shù)據(jù)處理包括3 個(gè)部分:數(shù)據(jù)清洗、數(shù)據(jù)合并和數(shù)據(jù)分組。
考慮到不同的月份,諸多因素對(duì)室內(nèi)環(huán)境的影響,在對(duì)原始經(jīng)過(guò)數(shù)據(jù)清洗、標(biāo)準(zhǔn)化等之后,按月份將數(shù)據(jù)分為12 組,綜合考慮到計(jì)算機(jī)的處理能力和實(shí)驗(yàn)效果,對(duì)每組數(shù)據(jù)隨機(jī)抽取20%作為最終實(shí)驗(yàn)數(shù)據(jù),結(jié)果見(jiàn)表1,其中每個(gè)示例有8 個(gè)特性,PPD 值有3 個(gè)類別,即一級(jí)熱舒適度(10%以內(nèi))、二級(jí)熱舒適度(10%~27%)和不舒適(27%以上)。
表1 實(shí)驗(yàn)數(shù)據(jù)集描述Tab.1 Description of experimental dataset
本文采用正確率[30]和weighted-F1(加權(quán)宏平均)作為模型的性能評(píng)估指標(biāo)。正確率是測(cè)試集分類正確的樣本數(shù)/測(cè)試集總的樣本數(shù),其定義如式(3)所示:
其中:k表示第k個(gè)類別,m表示總的類別數(shù),ak表示第k個(gè)類別中分類正確的測(cè)試集樣本數(shù),N表示測(cè)試集的樣本數(shù)。Acc的取值范圍為0 ≤Acc≤1,其中,Acc為0表示所有的樣本分到錯(cuò)誤的類中,Acc為1表示所有的樣本都分到正確的類。
F1為精度和召回率的加權(quán)平均值,其中F1值在1 時(shí)達(dá)到最佳值,在0時(shí)達(dá)到最差值[31]。本文對(duì)于PPD 三分類問(wèn)題,采用weighted-F1指標(biāo)。對(duì)于每一個(gè)類別i,用二分類的公式計(jì)算出F1值記為F1i,然后將多個(gè)F1i給予不同的權(quán)重進(jìn)行計(jì)算。
weighted-F1值的定義如式(4)所示:
其中,k代表類別數(shù),wi代表每個(gè)類別的樣本所占的比例,P為精度,R為召回率,兩者定義如式(5)~(6)所示:
其中:TP(True Positive)為正例預(yù)測(cè)正確的個(gè)數(shù);FP(False Positive)為負(fù)例預(yù)測(cè)錯(cuò)誤的個(gè)數(shù);FN(False Negative)為正例預(yù)測(cè)錯(cuò)誤的個(gè)數(shù)。
5.3.1 深度森林模型參數(shù)設(shè)置
深度森林算法的核心在于決策樹(shù),所以決策樹(shù)的數(shù)量和深度的設(shè)置對(duì)整個(gè)算法的分類效果以及計(jì)算效率十分重要。本文選擇采用完全提升樹(shù)(Extreme Gradient Boosting,XGB)、隨機(jī)森林(RF)、極端隨機(jī)樹(shù)(Extra Tree,ET)、邏輯回歸(Logistic Regression,LR)4 種模型集成,并且針對(duì)4 種級(jí)聯(lián)層分別設(shè)置不同參數(shù)。
針對(duì)XGB 模型,在初始參數(shù)設(shè)置中,每棵樹(shù)的最大深度范圍設(shè)置為[4,10],迭代器次數(shù)設(shè)置5 種,即{8,16,32,64,128},學(xué)習(xí)率設(shè)置為{0.01,0.05,0.1,0.5,0.9},L2 正則化系數(shù)為{0.1,0.5,1,2,3},指定節(jié)點(diǎn)分裂所需的最小損失函數(shù)下降值為{0,0.5,1,1.5,2},選擇樣本中隨機(jī)抽取的28 470條數(shù)據(jù),對(duì)不同參數(shù)的模型交叉驗(yàn)證后計(jì)算平均正確率和方差,以其作為判斷標(biāo)準(zhǔn)選擇出最優(yōu)參數(shù)。
通過(guò)實(shí)驗(yàn)分析,分別得出4 個(gè)模型的最優(yōu)參數(shù)組合。對(duì)于XGB模型,選取葉子節(jié)點(diǎn)分裂的閾值為0,學(xué)習(xí)率為0.5,最大深度為10,總共迭代次數(shù)為128,L2 正則化系數(shù)為2;對(duì)于RF 模型,選取衡量分裂質(zhì)量的性能函數(shù)為基尼函數(shù),葉子節(jié)點(diǎn)分裂的閾值為0.4,最大深度為10,總共迭代次數(shù)為128;對(duì)于ET 模型,選取衡量分裂質(zhì)量的性能函數(shù)為基尼函數(shù),選取葉子節(jié)點(diǎn)分裂的閾值為1,最大深度為10,總共迭代次數(shù)為64;對(duì)于LR 模型,采用分類方法為一對(duì)剩余(One vs Rest,OvR),L2正則化項(xiàng)的系數(shù)為0.1。
5.3.2 支持向量機(jī)參數(shù)設(shè)置
支持向量機(jī)內(nèi)置的核函數(shù)初始設(shè)置為以下4 種:線性核函數(shù)、多項(xiàng)式核函數(shù)、高斯核函數(shù)和sigmoid 核函數(shù);核函數(shù)中的參數(shù)gamma初始設(shè)置為{0.01,0.1,0.5,1,2,5,10};初始懲罰系數(shù)C設(shè)置為{0.1,1,5,10,15,20},三類參數(shù)進(jìn)行無(wú)序排列組合,計(jì)算可得,參數(shù)設(shè)置存在4×7×6=168種情況。
通過(guò)28 470 條數(shù)據(jù)得出的平均正確率和方差結(jié)果比較,獲得支持向量機(jī)最優(yōu)參數(shù)組合:初始懲罰系數(shù)C為20,核函數(shù)采用高斯核函數(shù),核函數(shù)的參數(shù)gamma最優(yōu)值設(shè)置為5。
5.3.3 神經(jīng)網(wǎng)絡(luò)模型參數(shù)設(shè)置
神經(jīng)網(wǎng)絡(luò)第一層激活函數(shù)初始設(shè)置為以下4 種,即hard_sigmoid 激活函數(shù)、Relu 激活函數(shù)、sigmoid 激活函數(shù)、tanh雙曲正切激活函數(shù);隱藏層層數(shù)初始設(shè)置為1 到4;第一層神經(jīng)元個(gè)數(shù)設(shè)置三類{64,128,256},其余隱藏層神經(jīng)元個(gè)數(shù)為前一層基礎(chǔ)的一半。同理,三類參數(shù)進(jìn)行無(wú)序排列組合,計(jì)算可得,上述參數(shù)設(shè)置情況共有4×4×3=48類。
通過(guò)實(shí)驗(yàn)分析,最終獲得深度神經(jīng)網(wǎng)絡(luò)(DNN)模型最優(yōu)參數(shù)組合為:第一層神經(jīng)元個(gè)數(shù)為128,隱藏層層數(shù)為2,激活函數(shù)采用ReLU(Rectified Linear Unit)。
為了驗(yàn)證DF 的預(yù)測(cè)效果,本文同時(shí)采用深度神經(jīng)網(wǎng)絡(luò)(DNN)和支持向量機(jī)(SVM)進(jìn)行了預(yù)測(cè)。
1)運(yùn)行效率。就平均訓(xùn)練時(shí)間而言,由于DF是一種集成算法,因此相比于SVM 和DNN,DF 的平均訓(xùn)練時(shí)間會(huì)更長(zhǎng)。三者運(yùn)行時(shí)間結(jié)果如圖4(a)。
圖4 DF、SVM和DNN算法的平均訓(xùn)練時(shí)間、平均正確率、weighted-F1對(duì)比Fig.4 Comparison of average training time,average accuracy and weighted-F1 of DF,SVM and DNN
2)算法性能。三種算法的預(yù)測(cè)平均正確率和平均weighted-F1見(jiàn)圖4(b)、4(c)及表2。由測(cè)試結(jié)果可知,12 個(gè)數(shù)據(jù)集中,DF 的預(yù)測(cè)正確率和weighted-F1均優(yōu)于DNN 和SVM。其中,DF 模型的最高正確率達(dá)到99.76%,最低正確率為98.11%。DF 模型在D10 和D11 兩個(gè)數(shù)據(jù)集的正確率超過(guò)99.7%,在D4、D10 和D11 三個(gè)數(shù)據(jù)集中的F1值均超過(guò)99.6%。此外,DF 模型的預(yù)測(cè)正確率和weighted-F1值排名在所有數(shù)據(jù)集中均穩(wěn)定第一,DNN 的預(yù)測(cè)正確率和weighted-F1值介于DF和SVM之間。
此外,本文還使用Friedman 統(tǒng)計(jì)量[32]全面評(píng)估DF 與SVM和DNN算法之間的性能差異,其定義如下:
本文中,DF、SVM和DNN在各個(gè)數(shù)據(jù)集上平均正確率和平均weighted-F1的平均排名都分別為1.000 0,2.833 3和2.166 7。其中最優(yōu)是DF,第二為DNN,第三為SVM。建立如下假設(shè):
表2 DF、SVM和DNN的實(shí)驗(yàn)預(yù)測(cè)正確率和weighted-F1比較Tab.2 Comparison of DF,SVM and DNN in terms of prediction accuracy and weighted-F1
原假設(shè)H03 種算法在熱舒適度等級(jí)預(yù)測(cè)上性能無(wú)差異。
備擇假設(shè)H13 種算法在熱舒適度等級(jí)預(yù)測(cè)上性能有差異。
Friedman統(tǒng)計(jì)量為:
則Iman-Davenport為:
本次實(shí)驗(yàn)3 個(gè)算法,12 個(gè)數(shù)據(jù)集,服從于自由度為3-1=2和(12 -1)×(3-1)=22的F 分布。由F(2,22)分布計(jì)算的p值為3.716 3× 10-10,所以在高顯著性水平下拒絕原假設(shè),即DF 算法性能優(yōu)于其他對(duì)比算法。綜合圖4 的結(jié)果可知,從預(yù)測(cè)性能方面來(lái)看,DF算法均優(yōu)于DNN算法和SVM算法。
隨著人們生活品質(zhì)的不斷提高,城市室內(nèi)熱舒適度,尤其是具有大量客流聚集的高鐵車站內(nèi)的熱舒適度越來(lái)越受到人們的重視。由于高鐵車站是城市網(wǎng)絡(luò)的重要節(jié)點(diǎn),其熱舒適度可以通過(guò)城市計(jì)算技術(shù)進(jìn)行研究。
本文提出了影響高鐵站室內(nèi)熱舒適度的8 個(gè)因素——室外干球溫度、室內(nèi)客流密度、室內(nèi)溫度、室內(nèi)濕度、室內(nèi)二氧化碳濃度、多聯(lián)機(jī)開(kāi)行臺(tái)數(shù)、多聯(lián)機(jī)設(shè)置溫度、熱交換機(jī)開(kāi)行臺(tái)數(shù)。以成都某高鐵站為研究對(duì)象,通過(guò)綜合實(shí)地調(diào)查與Energy Plus 軟件仿真采集大量數(shù)據(jù),提出了一種基于DF 的室內(nèi)熱舒適度等級(jí)預(yù)測(cè)模型,其本質(zhì)是一個(gè)基于PPD 值的熱舒適度三分類問(wèn)題。為了驗(yàn)證深度森林的有效性,本文還選用DNN模型和SVM模型進(jìn)行對(duì)比。結(jié)果表明,在12個(gè)數(shù)據(jù)集中DF 模型的weighted-F1值和預(yù)測(cè)正確率均優(yōu)于SVM 和DNN 模型,驗(yàn)證了DF 模型在高鐵站室內(nèi)熱舒適度等級(jí)預(yù)測(cè)的有效性。