蘇 航,楊 鋼
(哈爾濱工業(yè)大學(xué)建筑學(xué)院,黑龍江 哈爾濱 150000)
實(shí)時(shí)捕捉室外天空亮度分布、準(zhǔn)確計(jì)算室內(nèi)任一點(diǎn)的照度的前提就是了解實(shí)時(shí)的實(shí)際天空所對(duì)應(yīng)的CIE天空的種類[1, 2]。目前已有判別天空類型方法主要由以下幾種:Kittler等[3]提出通過(guò)獲取不同天空下日光曲線來(lái)判斷其對(duì)應(yīng)的CIE天空類型,但在實(shí)測(cè)數(shù)據(jù)圖像中存在曲線的重合交錯(cuò)的現(xiàn)象,且無(wú)法細(xì)分到每一類天空;將實(shí)際天空145個(gè)天空面元亮度數(shù)據(jù)與理論亮度值進(jìn)行方差比對(duì)[4],但由于設(shè)備成本高,測(cè)量點(diǎn)多,應(yīng)用范圍受限;由Lou等[5]提出通過(guò)氣象站可獲得的氣象數(shù)據(jù)建立分類樹(shù)模型,但由于氣象數(shù)據(jù)描述的是大范圍、長(zhǎng)時(shí)間的氣候特征,不適用于實(shí)時(shí)輸出結(jié)果。
本文將基于上述問(wèn)題,結(jié)合分類樹(shù)程序提出一種實(shí)現(xiàn)CIE天空種類的實(shí)時(shí)識(shí)別的新方法。
由于測(cè)量點(diǎn)用于天空類型的分類,在測(cè)量點(diǎn)的選取中應(yīng)考慮其是否可以代表整體天空的亮度分布情況。根據(jù)Kittler[6]的研究結(jié)果表明天空中子午線(通過(guò)天空天頂和瞬時(shí)太陽(yáng)位置的垂直面)方向上點(diǎn)的亮度是描述太陽(yáng)光在大氣中全面擴(kuò)散的重要指標(biāo)之一。因此選取該方向上的天空亮度點(diǎn)作為用于分類的關(guān)鍵選取點(diǎn)是可靠的。同時(shí), Vichuda[7]在探究天空亮度分布特點(diǎn)時(shí)也將天空整體劃分為3個(gè)區(qū)域進(jìn)行研究,圖1表示太陽(yáng)附近天空變化區(qū)域(ZONE3),水平天空變化區(qū)域(ZONE2)及其他區(qū)域(ZONE1)的位置情況。而子午線方向上的測(cè)量點(diǎn)也可包含以上三個(gè)典型區(qū)域,再次論證該方向上的點(diǎn)的亮度可以較為全面的描述天空整體的亮度情況。
其次,Kittler[6]提出快速掃描亮度數(shù)據(jù)方法為以高度角為90°的天頂點(diǎn)為中心插入等值線進(jìn)行測(cè)量。圖1中給出EKO天空亮度掃描儀的垂直面方向測(cè)量點(diǎn)的位置,經(jīng)Tregenza[8]驗(yàn)證12°的等值線在垂直方向上的天空覆蓋率可達(dá)到75%,因此天空亮度掃描儀實(shí)測(cè)數(shù)據(jù)可以作為原始數(shù)據(jù)進(jìn)行后續(xù)分析。最終本文基于EKO天空亮度掃描儀的全天空145點(diǎn)掃描測(cè)量結(jié)果建立分類樹(shù)程序,15個(gè)采集點(diǎn)的位置位于太陽(yáng)子午線上,對(duì)應(yīng)的高度角分別為(6°、18°、30°、42°、54°、66°、78°、90°)共15點(diǎn),滿足上述天空亮度數(shù)據(jù)采集要求。
圖1 EKO天空亮度掃描儀測(cè)量數(shù)據(jù)的分布Fig.1 Distribution of EKO sky brightness scanner measurement data
1.2.1 CIE一般天空分類相關(guān)變量選取原則
根據(jù)CIE天空的亮度分布說(shuō)明[9]與信息法研究天空亮度分布[10]所述,天空亮度分布取決于兩個(gè)特征,即天空最大元位置和天空整體的亮度漸變。在實(shí)際的觀察中,天空最大元位置的漸變可表現(xiàn)在最大元亮度與最大元邊緣變化情況;天空整體亮度的漸變可表現(xiàn)為天空整體亮度,天空邊緣變化情況及天空整體亮度波動(dòng)情況。其中,最大元亮度可由最大亮度點(diǎn)的亮度Lmax進(jìn)行描述;最大元邊緣變化情況可由最亮點(diǎn)周邊最大變化率Δmax進(jìn)行描述;天空整體亮度大小可由全部測(cè)點(diǎn)亮度平均值Lav15進(jìn)行描述;天空邊緣變化情況可由高度角6°點(diǎn)的亮度與高度角12°點(diǎn)的亮度的比值Δed進(jìn)行描述,在天空整體亮度較低,Δed變化較小的情況下,Led1(高度角6°點(diǎn)的亮度)和Led2(高度角12°點(diǎn)的亮度)可以對(duì)天空邊緣亮度變化進(jìn)行更好的描述;天空整體亮度波動(dòng)情況可由15點(diǎn)亮度方差D15,除亮度最大點(diǎn)其他14點(diǎn)亮度方差D14及兩方差比值D15/14三個(gè)分類變量進(jìn)行表征。采用三個(gè)方差數(shù)據(jù)對(duì)亮度波動(dòng)進(jìn)行描述是因?yàn)镈15無(wú)法分辨部分晴朗無(wú)云天空與多云的天空,D14無(wú)法分辨部分晴朗無(wú)云天空與陰天中的均勻天空,D15/14則可以更好得對(duì)多云的晴天進(jìn)行分辨(圖2)。
圖2 影響CIE天空亮度分布因素分析Fig.2 Analysis of factors influencing CIE sky luminance distribution
1.2.2 CIE一般天空分類變量相關(guān)性分析
基于哈爾濱2018—2019年天空亮度掃描儀3 019組天空亮度掃描結(jié)果中特定15點(diǎn)亮度值的12種相關(guān)變量及其對(duì)應(yīng)的天空類型,利用spss軟件對(duì)各相關(guān)變量的相關(guān)性進(jìn)行Spearman test,得到以下結(jié)果,基本可以論證上述觀點(diǎn)。
由圖3可知,在陰、云、晴三類天空的分類變量中,描述最大元亮度的Lmax,描述天空整體亮度的Lav15,描述天空邊緣變化的Led1與Led2,描述天空整體亮度波動(dòng)情況的D15與D14,以上六個(gè)分類變量與天空類型的相關(guān)性較大。在CIE 1-5類陰天空的分類變量中,由于陰天空類型主要由天空整體亮度分布情況決定,因此描述天空整體亮度大小的Lav15,描述天空邊緣變化的Led2,描述天空整體亮度波動(dòng)情況的D14,以上三個(gè)分類變量與天空類型的相關(guān)性較大。在CIE 6-10類云天空的分類變量中,由于云量主要由天空整體亮度波動(dòng)情況決定,因此描述天空整體亮度波動(dòng)的D15/14在分類變量中占主導(dǎo)地位。在CIE 11-15類晴天空的分類變量中,由于天空類型主要由天空最大元位置亮度分布決定,描述最大元亮度的Lmax和描述最大元邊緣變化情況的Δmax與晴天空類型相關(guān)性較大。另外部分晴天空各類型間邊緣與整體亮度波動(dòng)存在差異,因此描述天空邊緣變化情況的Δed和描述天空整體亮度波動(dòng)的D15/14在晴天空的分類中也起到一定的作用。
圖3 分類變量與CIE天空類型相關(guān)性分析Fig.3 The correlation analysis between categorical variables and CIE sky types
本文數(shù)據(jù)源自哈爾濱工業(yè)大學(xué)二校區(qū)寒地研究中心(北緯45°)天空亮度掃描儀2018年9月23日至2019年9月22日的掃描測(cè)量結(jié)果,每日8時(shí)至下午3時(shí)每小時(shí)取一組天空亮度分布數(shù)據(jù),除去異常數(shù)據(jù)后共3 019組天空亮度分布數(shù)據(jù)。利用三次樣條插值法對(duì)哈爾濱2018—2019年天空亮度掃描儀3 019組天空亮度掃描結(jié)果進(jìn)行擴(kuò)展,使每一高度角范圍內(nèi)有360個(gè)方位角的亮度數(shù)據(jù)。通過(guò)哈爾濱對(duì)應(yīng)的緯度、時(shí)間等變量,求得任一時(shí)刻的太陽(yáng)方位角,從而鎖定對(duì)應(yīng)太陽(yáng)位置的點(diǎn)的位置與亮度值,再與天頂點(diǎn)進(jìn)行連線,從而獲得所需特定15點(diǎn)的位置及亮度信息(圖4)。
圖4 哈爾濱工業(yè)大學(xué)EKO天空亮度掃描儀實(shí)測(cè)數(shù)據(jù)(晴天)Fig.4 Measurement data from EKO sky luminance scanner in Harbin Institute of Technology(clear sky)
機(jī)器學(xué)習(xí)使用計(jì)算機(jī)作為工具并致力于真實(shí)實(shí)時(shí)地模擬人類學(xué)習(xí)方式,包括決策樹(shù)、隨機(jī)森林、人工神經(jīng)網(wǎng)絡(luò)、貝葉斯學(xué)習(xí)等方法,分類樹(shù)方法相較于其他算法具有計(jì)算速度快、準(zhǔn)確性高的特點(diǎn),分類邏輯易于理解和解釋,且適用于處理多維度輸出的分類問(wèn)題。決策樹(shù)程序最初由Breiman[11]提出,該算法可將具有多個(gè)變量的數(shù)據(jù)集分類為不同的組,可有效對(duì)不具有明顯特征的大量數(shù)據(jù)集進(jìn)行分類。本文采用決策樹(shù)中的分類樹(shù)算法,其原理為從根節(jié)點(diǎn)開(kāi)始,對(duì)實(shí)例的某一個(gè)特征進(jìn)行分類,根據(jù)分類結(jié)果,將實(shí)例分配到子節(jié)點(diǎn),這時(shí),每一個(gè)子節(jié)點(diǎn)對(duì)應(yīng)著該特征的一個(gè)取值;如此遞歸的分配下去,直到將該實(shí)例分配到葉子節(jié)點(diǎn)。由于CIE天空分類標(biāo)準(zhǔn)源于全球?qū)嶋H天空亮度分布狀況的統(tǒng)計(jì)結(jié)果,不同地區(qū)分類標(biāo)準(zhǔn)具有顯著差異。因此以分類樹(shù)方法建立地域模型,可有針對(duì)性地建立準(zhǔn)確度高,可實(shí)時(shí)識(shí)別實(shí)際天空類型的分類樹(shù)程序。根據(jù)Lou等[5]的研究可知,利用四種框架對(duì)天空亮度數(shù)據(jù)進(jìn)行分類,相較于一種框架的方式可以減少計(jì)算負(fù)荷量,簡(jiǎn)化模型并提高模型的可靠性(圖5)。
圖5 分類樹(shù)程序框架及其工作流程圖Fig.5 Classification tree program framework and flow chart
決策樹(shù)算法有很多種,包括ID3、C4.5、C5.0、CART等。本文選用CART算法,該算法支持離散型與連續(xù)型變量。通過(guò)采用基尼系數(shù)來(lái)代替信息增益比建立二叉樹(shù),使模型更加簡(jiǎn)潔。CART算法采用的辦法是后剪枝法,即先生成決策樹(shù),然后產(chǎn)生所有可能的剪枝后的CART樹(shù),然后使用交叉驗(yàn)證來(lái)檢驗(yàn)各種剪枝的效果,選擇泛化能力最好的剪枝策略。
交叉驗(yàn)證是為了檢查模型的泛化性和穩(wěn)定性,讓模型的輸出更加可靠。本文的分類樹(shù)程序是由matlab平臺(tái)進(jìn)行構(gòu)建,以下為不同閾值(10-100)下的四種分類樹(shù)的k折交叉驗(yàn)證誤差曲線。k折交叉驗(yàn)證將樣本集隨機(jī)劃分為k份、k-1份作為訓(xùn)練集,1份作為驗(yàn)證集,依次輪換訓(xùn)練集和驗(yàn)證集k次,驗(yàn)證誤差最小的模型即為所得模型(圖6)。根據(jù)圖像選擇交叉驗(yàn)證誤差最小時(shí)所對(duì)應(yīng)的葉子節(jié)點(diǎn)含有的最小樣本數(shù),對(duì)分類樹(shù)程序進(jìn)行簡(jiǎn)化,從而得到以下程序(圖7)。
圖6 葉子節(jié)點(diǎn)含有的最小樣本數(shù)對(duì)分類樹(shù)性能的影響Fig.6 The impact of the minimum number of samples in leaf nodes on the performance of classification tree algorithm
2.3.1 分類結(jié)果分析
檢驗(yàn)數(shù)據(jù)源于2019年9月23日至2019年12月31日中隨機(jī)選取的540組數(shù)據(jù),分類樹(shù)0共319組數(shù)據(jù),分類樹(shù)1共54組數(shù)據(jù),分類樹(shù)2共54組數(shù)據(jù),分類樹(shù)3共113組數(shù)據(jù),分類準(zhǔn)確率如下。
表1 分類樹(shù)0結(jié)果數(shù)據(jù)
表2 分類樹(shù)1結(jié)果數(shù)據(jù)
表3 分類樹(shù)2結(jié)果數(shù)據(jù)
表4 分類樹(shù)3結(jié)果數(shù)據(jù)
2.3.2 全年天空分類結(jié)果準(zhǔn)確性分析
圖8為哈爾濱2018年至2019年全年各類天空發(fā)生概率情況。由于地理、氣候條件等因素,某一地區(qū)一年內(nèi)的天空類型發(fā)生頻率基本相近,因此以年為單位,加權(quán)計(jì)算分類的準(zhǔn)確率可以更加客觀地反映該方法的準(zhǔn)確性。陰天空、云天空和晴天空三大類天空的全年時(shí)間范圍內(nèi)的準(zhǔn)確率需結(jié)合全年各類天空發(fā)生概率進(jìn)行計(jì)算。
圖8 哈爾濱地區(qū)全年各類型天空發(fā)生頻率Fig.8 Frequency of 15 types of sky in Harbin throughout the year
由統(tǒng)計(jì)數(shù)據(jù)(圖表)可知陰天空、云天空和晴天空全年發(fā)生概率。因此三類分類整體的加權(quán)準(zhǔn)確率為:
11.76%×61.22%+51.28%×75.16%+36.96%×65.71%=70.03%
15類CIE一般天空的全年時(shí)間范圍內(nèi)的準(zhǔn)確率也需結(jié)合全年各類天空發(fā)生概率進(jìn)行計(jì)算。由統(tǒng)計(jì)數(shù)據(jù)(圖表)可知CIE 15類天空全年發(fā)生概率。因此CIE 15類天空分類整體加權(quán)準(zhǔn)確率為:
61.22%×(3.15%×66.67%+0.86%×50%+1.95%×66.67%+5.53%×87.5%)+75.16%×98.77%×49.95%+65.71%×(9.27%×69.4%+0.79%×100%+16.59%×76.09%+10.2%×70%)=60.12%
綜上所述,本文為未來(lái)的CIE一般天空類型識(shí)別方式提供了一種新思路。首次通過(guò)提取天空亮度掃描儀結(jié)果中特定15點(diǎn)亮度值,得到9個(gè)相關(guān)分類變量(如平均值、方差等),再利用分類變量及其對(duì)應(yīng)的天空類型建立分類樹(shù)程序。經(jīng)驗(yàn)證該方法對(duì)哈爾濱天空進(jìn)行CIE一般天空實(shí)時(shí)分類結(jié)果具有很高的準(zhǔn)確度。本方法的優(yōu)點(diǎn)是測(cè)量點(diǎn)少、易測(cè)量,可獲取任一時(shí)刻實(shí)際天空所對(duì)應(yīng)的CIE天空種類。
本文的分類樹(shù)程序的訓(xùn)練數(shù)據(jù)僅為一年,未來(lái)更多的訓(xùn)練數(shù)據(jù)將使該方法的準(zhǔn)確率有所提高。雖然本文數(shù)據(jù)源于哈爾濱地區(qū),但該分類樹(shù)程序也僅針對(duì)具有類似氣候特征的地區(qū),在未來(lái)的研究中,對(duì)于其他地區(qū)也可嘗試?yán)迷摲椒ń⑻囟夂騾^(qū)域內(nèi)的特定分類樹(shù)程序,從而進(jìn)行實(shí)時(shí)天空識(shí)別。