呂昊芝
(山東省濰坊第一中學(xué),山東濰坊,261000)
臭氧(O3)又稱為超氧,是氧氣的同素異形體,大氣中的臭氧層可以吸收太陽釋放出來的絕大部分紫外線,使人免遭紫外線造成的侵害。然而,超標(biāo)的地表臭氧會(huì)對人體造成傷害,它會(huì)強(qiáng)烈刺激人的眼睛和呼吸道,還會(huì)造成人的神經(jīng)中毒,對人體皮膚中的維生素E也會(huì)起到破壞作用。因此,測定地標(biāo)臭氧濃度是否超標(biāo)必須引起人們的高度重視。
國內(nèi)外的許多專家投身于對該指標(biāo)的分析和預(yù)測中,臭氧日一詞隨之誕生,本文選用臭氧八小時(shí)作為臭氧日污染衡量標(biāo)準(zhǔn),即一天中臭氧最高的連續(xù)8小時(shí)的平均濃度值。相較于過去落后的針對空氣質(zhì)量的人工推算,利用機(jī)器學(xué)習(xí)分析大氣問題可以極大提高預(yù)測的準(zhǔn)確率,同時(shí)也可以縮短分析預(yù)測所需時(shí)間,從而保證空氣質(zhì)量預(yù)報(bào)的時(shí)效性,因此該研究具有極其深刻的現(xiàn)實(shí)意義。
隨著我國科技水平的快速提高、大氣領(lǐng)域數(shù)據(jù)量的增多,傳統(tǒng)空氣質(zhì)量測定方法的弊端不斷暴露,傳統(tǒng)法易出現(xiàn)主觀判斷失誤、分析預(yù)測速度較慢等一系列問題。相對比而言,人工智能應(yīng)用于空氣質(zhì)量預(yù)測能夠?qū)Υ髿庀嚓P(guān)的海量數(shù)據(jù)進(jìn)行極其有效的處理,并且其本身在進(jìn)行數(shù)據(jù)挖掘時(shí)的高效性和準(zhǔn)確性都成為了它獨(dú)特的優(yōu)勢。
由于“人工智能+空氣測定”前景廣闊,政府部門及企業(yè)都紛紛布局該領(lǐng)域。比如,由微軟亞洲互聯(lián)網(wǎng)工程院在2014年發(fā)布的人工智能機(jī)器人能夠收集能夠整合來自全國3000多個(gè)站點(diǎn)的數(shù)據(jù),在極短的時(shí)間內(nèi)作出對霧霾的預(yù)測;IBM推出的“綠色地平線”項(xiàng)目也能夠通過機(jī)器學(xué)習(xí)方式對數(shù)據(jù)進(jìn)行學(xué)習(xí),完善對不同地區(qū)污染程度的預(yù)測;騰訊公司也在2017年與深圳市氣象局?jǐn)y手打造了“互聯(lián)網(wǎng)+氣象”的新模式,它能夠依托騰訊擁有的海量用戶基礎(chǔ),打造面向個(gè)人的定制化氣象服務(wù)。 由此可見,人工智能與環(huán)境科學(xué)的結(jié)合正在一步步走進(jìn)我們的生活。
本研究在空氣質(zhì)量領(lǐng)域?qū)崿F(xiàn)了與機(jī)器學(xué)習(xí)的融合,通過已知的臭氧日數(shù)據(jù)集和k近鄰機(jī)器學(xué)習(xí)算法來構(gòu)建概率模型,之后收集某一天天氣狀況和大氣各項(xiàng)指標(biāo)的輸入信息,通過該機(jī)器學(xué)習(xí)模型對輸入數(shù)據(jù)進(jìn)行分析,從而判斷該天大氣臭氧是否超標(biāo),即是否為臭氧日,極大提高了大氣預(yù)測的準(zhǔn)確度和時(shí)效性。
本文通過機(jī)器學(xué)習(xí)算法對某天是否為臭氧日進(jìn)行分析和預(yù)測,是個(gè)典型的二分類監(jiān)督學(xué)習(xí)問題。
機(jī)器學(xué)習(xí)研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,從而使自身擁有更強(qiáng)大的預(yù)測能力,它是使計(jì)算機(jī)具有智能的根本途徑。監(jiān)督式機(jī)器學(xué)習(xí)是從標(biāo)記的訓(xùn)練數(shù)據(jù)來構(gòu)建概率模型的機(jī)器學(xué)習(xí)方法,在監(jiān)督學(xué)習(xí)中,每個(gè)實(shí)例都是由一個(gè)輸入對象即該實(shí)例的特征向量和一個(gè)期望的輸出值即該實(shí)例的標(biāo)簽組成。
本文利用的數(shù)據(jù)集來自UC Irvine Machine Learning Repository 網(wǎng) 站 (http://archive.ics.uci.edu/ml/index.php),數(shù)據(jù)集名稱為《Ozone Level Detection Data Set》,該數(shù)據(jù)集包含七年內(nèi)(1998至2004年)美國Houston、Galveston以及Brazoria地區(qū)每一天的大氣相關(guān)數(shù)據(jù)。其中共有2536個(gè)樣本,每個(gè)樣本具有73個(gè)特征,其中第1項(xiàng)特征為日期,不包含在機(jī)器學(xué)習(xí)建模內(nèi);其余特征值為大氣相關(guān)特征指標(biāo),均為連續(xù)值,用于機(jī)器學(xué)習(xí)建模。該數(shù)據(jù)集的目的為預(yù)測某天是否為臭氧日,其中標(biāo)簽0表示該日不是臭氧日,1表示該日為臭氧日。
臭氧日數(shù)據(jù)集中各特征極其特征解釋如表1所示。
表1 特征名稱及含義
RH85 在850hpa環(huán)境下的相對濕度U85 在850hpa環(huán)境下的東西方向的風(fēng)速V85 在850hpa環(huán)境下的南北方向的風(fēng)速HT85 在850hpa環(huán)境下的位勢高度T70 在700hpa環(huán)境下的氣溫RH70 在700hpa環(huán)境下的相對濕度U70 在700hpa環(huán)境下的東西方向的風(fēng)速V70 在700hpa環(huán)境下的南北方向的風(fēng)速HT70 在700hpa環(huán)境下的位勢高度T50 在500hpa環(huán)境下的氣溫RH50 在500hpa環(huán)境下的相對濕度U50 在500hpa環(huán)境下的東西方向的風(fēng)速V50 在500hpa環(huán)境下的南北方向的風(fēng)速HT50 在500hpa環(huán)境下的位勢高度KI K指數(shù)TT 氣溫總值SLP 海平面氣壓SLP_ 海平面氣壓相較于前一天的變化Precp 降水量
3.1.1 算法原理
k近鄰法于1968年由Cover和Hart提出,是一種基本分類與回歸方法,它的優(yōu)點(diǎn)是易于理解、精度高、理論成熟。其原理為:將新樣本數(shù)據(jù)點(diǎn)輸入到包含所有訓(xùn)練數(shù)據(jù)集所有樣本點(diǎn)的n維空間中,利用距離度量計(jì)算所有訓(xùn)練集樣本點(diǎn)與新樣本點(diǎn)之間的距離,選取k個(gè)最近點(diǎn),最后利用某種分類決策規(guī)則確定新樣本所屬類別。
圖1 為k近鄰算法的原理圖。
圖1 算法原理圖
K近鄰算法的一個(gè)例子可以從圖1中看到,未知點(diǎn)有兩類:三角形或方形。如果K=3,新樣本點(diǎn)就被分為三角形類,因?yàn)樵谂c它距離最小的3個(gè)點(diǎn)中,有2個(gè)三角形和1個(gè)方形;而如果k=5,新樣本點(diǎn)就被分為方形類,因?yàn)樵谂c它距離最小的5個(gè)點(diǎn)中,有2個(gè)三角形和3個(gè)方形;當(dāng)k=9時(shí),新樣本點(diǎn)就會(huì)被分為三角形類,因?yàn)榇藭r(shí)與它距離最小的9個(gè)點(diǎn)中有5個(gè)三角形和4個(gè)方形。
3.1.2 基本要素
針對以上原理,可見k近鄰算法包含三個(gè)基本要素,即k值的選擇、距離度量、分類決策規(guī)則。
①k值的選擇會(huì)對k近鄰算法的結(jié)果產(chǎn)生很大影響,如果k值過小,即使用較小鄰域內(nèi)的訓(xùn)練樣本點(diǎn)對新樣本進(jìn)行預(yù)測,則會(huì)使預(yù)測結(jié)果依賴近鄰的個(gè)別實(shí)例點(diǎn),從而產(chǎn)生過擬合現(xiàn)象;相反,如果k值過大,即使用較大鄰域內(nèi)的訓(xùn)練樣本點(diǎn)對新樣本進(jìn)行預(yù)測,則容易忽略訓(xùn)練樣本中與新樣本相似的樣本點(diǎn)的大量有用信息,使得k近鄰模型過于簡單,從而產(chǎn)生欠擬合現(xiàn)象。本文利用交叉驗(yàn)證法來選取對于該預(yù)測問題的最優(yōu)的k值。
②距離度量衡量兩個(gè)實(shí)例點(diǎn)之間的距離,用于判斷兩個(gè)點(diǎn)的相似程度。本文使用的是歐式距離,公式為:
其中,d(x,y)表示點(diǎn)x與點(diǎn)y的歐式距離,xi表示點(diǎn)x的第i項(xiàng)特征,yi表示點(diǎn)y的第i項(xiàng)特征。
③分類決策規(guī)則的作用為決定新輸入樣本點(diǎn)x的類別y,本文所采用的是多數(shù)表決,公式為:
其中 i=1,2,...,N ;j=1,2,...,K,Nk(x)為涵蓋k個(gè)最近的訓(xùn)練樣本點(diǎn)的x的鄰域。I為指示函數(shù), yi為新樣本標(biāo)簽,cj為第j類,當(dāng)yi=cj時(shí)I為1,否則為0。
k近鄰算法的模型是包含訓(xùn)練數(shù)據(jù)集所有樣本點(diǎn)的n維空間,其中n為樣本特征數(shù)。本文構(gòu)建該模型即把臭氧日數(shù)據(jù)集中2536個(gè)樣本根據(jù)其特征值輸入到維數(shù)為72的特征空間中。
通過信息采集得到一個(gè)某天的天氣相關(guān)數(shù)據(jù)指標(biāo),后將該數(shù)據(jù)傳入上文構(gòu)建完成的k近鄰機(jī)器學(xué)習(xí)算法模型中,計(jì)算出所有樣本點(diǎn)與新樣本點(diǎn)的歐式距離,并將距離由小到大排序,取與新本點(diǎn)距離最近的k個(gè)訓(xùn)練集樣本點(diǎn),所選取樣本點(diǎn)中哪個(gè)類別出現(xiàn)的頻率最多,新樣本點(diǎn)就被歸為哪個(gè)類別標(biāo)簽。
將臭氧日數(shù)據(jù)集分為訓(xùn)練集和測試集兩部分,分別為70%和30%,樣本個(gè)數(shù)分別為1775和761。其中,訓(xùn)練集用來構(gòu)建模型,測試集用來測試模型的準(zhǔn)確率。本研究k值在10至50內(nèi)選取,針對k的每個(gè)取值構(gòu)建模型,因此k近鄰模型個(gè)數(shù)為41,利用交叉驗(yàn)證計(jì)算每個(gè)模型的預(yù)測準(zhǔn)確率,選擇準(zhǔn)確率最高的模型作為本研究的臭氧日預(yù)測評(píng)估模型,其中準(zhǔn)確率表達(dá)式為:
其中m表示測試集被正確分類的樣本,m′為測試集總樣本。
本研究利用Python的sklearn機(jī)器學(xué)習(xí)庫來訓(xùn)練模型并得到模型的準(zhǔn)確度,將當(dāng)k取10至50時(shí)的模型訓(xùn)練結(jié)果即準(zhǔn)確率保存在名為kvalues的列表中,將列表中的最大值保存在max_value變量中,機(jī)器執(zhí)行結(jié)果如圖2所示。
圖2 執(zhí)行結(jié)果圖
由圖2可知,當(dāng)k取不同值時(shí),k近鄰模型準(zhǔn)確率在0.92和0.96之間,最好的準(zhǔn)確率為95.8%,程序運(yùn)行時(shí)間約為7.89秒,很好地體現(xiàn)了人工智能應(yīng)用于空氣質(zhì)量測定的高準(zhǔn)確度和及時(shí)性的優(yōu)點(diǎn)。
本研究流程圖如圖3所示。
圖3 總流程圖
整體流程分為兩大部分,即模型構(gòu)建階段和預(yù)測分析階段。
①模型構(gòu)建階段:本研究從臭氧日訓(xùn)練數(shù)據(jù)集出發(fā),利用k近鄰機(jī)器學(xué)習(xí)算法對該數(shù)據(jù)進(jìn)行建模分析,得到該系統(tǒng)的核心,即臭氧日預(yù)測概率模型。
②預(yù)測分析階段:收集某一天的大氣相關(guān)數(shù)據(jù),總結(jié)出數(shù)據(jù)集中所包含的72項(xiàng)特征,接著系統(tǒng)自動(dòng)將該特征值進(jìn)行格式化,即利用Excel電子表格進(jìn)行封裝。之后將封裝好的新樣本的特征傳入到第①階段所構(gòu)建的臭氧日預(yù)測概率模型中,經(jīng)過系統(tǒng)模型的分析,最終預(yù)測出樣本的標(biāo)簽(1或0),即表示該日是否臭氧超標(biāo)的結(jié)果。
隨著近年來人們生活水平的提高,人們對空氣質(zhì)量預(yù)測的要求也越來越高,但如今氣象預(yù)測不準(zhǔn)確、有延遲的弊端嚴(yán)重影響了人們的生活質(zhì)量。本研究從該角度入手,將人工智能與氣象領(lǐng)域進(jìn)行結(jié)合,以提高氣象預(yù)測的準(zhǔn)確率和時(shí)效性,從而使人們能夠享有較高質(zhì)量的生活。
但是,受到科技水平的限制,使得供機(jī)器學(xué)習(xí)使用的數(shù)據(jù)集不夠充分,格式也不夠規(guī)范,這兩個(gè)因素共同導(dǎo)致了本文機(jī)器學(xué)習(xí)模型預(yù)測不能達(dá)到完全正確。不過,隨著我國科技發(fā)展和國家政府對于氣象預(yù)測領(lǐng)域的重視,筆者相信,機(jī)器學(xué)習(xí)終將登上歷史的舞臺(tái),對人們的生活做出不可忽視的貢獻(xiàn)。