王敏亦 ,丁卉 ,徐銳 ,劉永紅
(1. 中山大學智能工程學院,廣東 廣州 510006;2. 廣東省交通環(huán)境智能監(jiān)測與治理工程技術研究中心,廣東 廣州 510275;3. 廣東省智能交通系統(tǒng)重點實驗室,廣東 廣州 510275)
隨著居民生活水平的提升,我國汽車保有量呈現(xiàn)出大幅增長態(tài)勢,機動車污染已成為我國空氣污染的重要來源,是造成空氣污染的重要原因[1];同時氣象條件也在影響空氣質量的變化,可以使空氣污染物發(fā)生稀釋、擴散等結果[2]。因此,掌握影響道路交通范圍的空氣污染物濃度變化的定量關聯(lián)規(guī)則,可為大氣環(huán)境管理決策者合理制定政策和措施提供參考依據(jù)。
目前,對空氣污染物濃度變化的研究方法主要有:數(shù)值模型法、統(tǒng)計學法和機器算法[3]等。數(shù)值模型利用典型的AMRMOD[4]、WRF-Chem[5]和CMAQ[6]等模型,可以對不同空間尺度的大氣擴散和化學反應有較好的模擬結果。但是在實際模擬過程中,模型的建立較復雜,且模型對物理場景做了很多參數(shù)的理想設置,例如:道路移動源排放中污染源排放高度、線源寬度等及實際污染物排放數(shù)據(jù)的設置都有不確定性[7-8],因此這些模型對空氣污染物濃度變化模擬有一定的偏差。而統(tǒng)計學方法主要有相關性分析、線性回歸等方法,主要的研究有:Shi 等[9]利用去趨勢互相關分析法提出了新的指標“擁塞長度”,分析了成都市空氣污染物NO2與交通擁堵的關系,以冪函數(shù)成正相關的相關性;Vienneau 等[10]利用主成分分析、聚類分析,對歷史SO2濃度數(shù)據(jù)進行分析,界定了SO2不隨空間和時間變化的區(qū)域;張丹[11]研究了北京市空氣質量與機動車尾氣排放量關系,采用灰色關聯(lián)度的方法發(fā)現(xiàn)機動車尾氣污染物氮氧化物、PM10、SO2排放量與北京市PM10排放總量的關聯(lián)度最高。這些方法雖然可以定性及半定量地描述影響因素和空氣污染物之間的線性關系[12-14],但是對深層次及復雜系統(tǒng)的非線性關聯(lián)性分析會造成較大誤差。
近年來機器學習算法被應用于關聯(lián)分析、預測等任務中,并且表現(xiàn)出良好的性能[15-17]。目前對空氣污染物的主要研究有:李光強等[2]利用時空挖掘方法找到了氣象因素對空氣污染物濃度變化的關聯(lián)規(guī)則;Karatzas 等[18]基于主成分分析法找出影響臭氧的主要因素,再基于影響因素利用BP 神經網絡對希臘塞薩洛尼的臭氧進行了預測,表明了機器算法在對空氣污染建模中的重要作用;Sfetsos等[19]利用積極矩陣分解降維、K-means聚類方法發(fā)現(xiàn)氣象模式與PM10超標的關系等。
因此如何將道路交通流和氣象因素相結合,共同作用于空氣污染物的變化,就需要利用機器算法——新的數(shù)據(jù)挖掘技術[20-26],建立道路交通與氣象對空氣質量影響的綜合關聯(lián)因素分析系統(tǒng),定量地表達聯(lián)動作用,引入支持度、置信度和提升度等評價參數(shù)對判別規(guī)則的重要性提供了量的依據(jù),對于空氣質量預測具有重要的科學價值?;诖?,本研究選取廣東省佛山市國家空氣質量監(jiān)測站點(南海區(qū)氣象局)周邊1.5 km 半徑區(qū)域為實驗區(qū)域,監(jiān)測2020 年5 月—2021 年3 月所有小時時間段內的實測數(shù)據(jù),利用優(yōu)化后的關聯(lián)規(guī)則算法,定量探究空氣質量監(jiān)測站不同方位的道路交通流,在氣象因素的影響下,分析空氣污染物濃度變化的過程及敏感性因素,為實現(xiàn)區(qū)域污染聯(lián)防聯(lián)控和改善空氣質量提供決策依據(jù)和技術支持。
本文選取了佛山市國家空氣質量監(jiān)測站點(南海區(qū)氣象局)周邊1.5 km 半徑區(qū)域為研究范圍(圖1),紅色標志為空氣質量監(jiān)測站點,路網內道路分別是:海三路、桂瀾路、南海大道北、佛平二路,可從圖1中查看到道路在空氣質量監(jiān)測站點的方位,分布在東南西北;而監(jiān)測站點到各道路的垂直距離從大到小排序是:佛平二路<海三路<桂瀾路<南海大道北。這四條道路均是城市主干道,道路交通流量較大,承載著城市區(qū)域內客貨運交通,以交通功能為主。
圖1 佛山市南海區(qū)氣象局空氣質量監(jiān)測站點及周邊道路分布圖
研究收集了佛山市國家空氣質量監(jiān)測站點(南海區(qū)氣象局)周邊1.5 km半徑區(qū)域,2020年5月—2021 年3 月所有小時時間段內的監(jiān)測數(shù)據(jù),主要包括空氣質量監(jiān)測站點內路網的信息數(shù)據(jù)(道路類型、道路長度等)、道路交通流量數(shù)據(jù)(卡口點位、方向等)、氣象數(shù)據(jù)(風速、風向、濕度、溫度和氣壓)和空氣質量數(shù)據(jù)(NO2濃度)。首先進行所有數(shù)據(jù)的預處理,即對各類監(jiān)測數(shù)據(jù)進行無效數(shù)據(jù)和錯誤數(shù)據(jù)去除處理,最終處理后的數(shù)據(jù)共有4 974條。
基于關聯(lián)規(guī)則分析,要在數(shù)據(jù)的取值范圍內設定若干個離散的劃分點,將取值范圍劃分為一些離散化的區(qū)間,最后用不同的符號代表落在每個子區(qū)間中的數(shù)據(jù)值。本研究利用統(tǒng)一權重法將各類數(shù)據(jù)進行區(qū)間等級劃分,根據(jù)數(shù)據(jù)的取值范圍,盡可能將每個區(qū)間離散的數(shù)量保持一致。將篩選后的數(shù)據(jù)按照表1 中的等級劃分進行符號轉化,為算法挖掘關聯(lián)規(guī)則提供事務項集,數(shù)據(jù)存儲如表2 所示。其中,字母符號區(qū)分各類屬性數(shù)據(jù),字母符號后的數(shù)字代表各類數(shù)據(jù)的等級劃分。
表1 數(shù)據(jù)等級表
表2 數(shù)據(jù)事務項集
關聯(lián)規(guī)則是反映一個事物與其他事物之間的相互依存性和關聯(lián)性,是數(shù)據(jù)挖掘的一個重要技術,用于從大量數(shù)據(jù)中挖掘出有價值的數(shù)據(jù)項之間的相關關系[27-28]。Apriori 算法是常用的用于挖掘出數(shù)據(jù)關聯(lián)規(guī)則的算法,它用來找出數(shù)據(jù)值中頻繁出現(xiàn)的數(shù)據(jù)集合[29-34]。
利用Apriori算法找到最大的K項頻繁集。預先設定兩個重要的參數(shù)指標:
Apriori 算法采用了逐層迭代的方法,主要流程包括:首先對數(shù)據(jù)庫中的每個項計數(shù),產生C1候選集,根據(jù)預設的最小支持度,得出L1頻繁項集的集合,再將頻繁項集L1的各個項連接,得到C2候選集,剪枝得到L2頻繁項集的集合,以此類推,迭代下去,直到無法找到頻繁(K+1)項集為止,對應的頻繁項集的LK集合即為算法的輸出結果。
從算法的流程可以看出,Apriori 算法每輪迭代都要掃描數(shù)據(jù)集,因此在數(shù)據(jù)集很大,數(shù)據(jù)種類很多的時候,算法效率很低。
3.2.1 結構的改進
傳統(tǒng)Apriori 算法每得到一次頻繁項集,需要掃描一次數(shù)據(jù)庫。針對算法計算效率低的問題,對算法結構進行了改進。
將原算法頻繁1 項集L1中的元素兩兩連接組合,得到候選集C2,為得到頻繁2 項集,需要第二次掃描原數(shù)據(jù)庫中的所有元素,對候選集C2中所有可能出現(xiàn)的項集求支持度。但是原數(shù)據(jù)庫中有一些元素(樣本)是無用的,不包含任何頻繁項集。因此我們將第二次掃描數(shù)據(jù)庫改變?yōu)閷︻l繁1 項集L1里的元素進行掃描(頻繁1項集L1的數(shù)量級遠比原數(shù)據(jù)庫的數(shù)量級少)。通過連接L1中的元素得到候選集C2,并對候選集C2中的元素組合進行支持度計算,再次與預設的最小支持度比較,剪枝得到頻繁2項集L2,依次循環(huán)操作,為得到頻繁K+1 項集,只需對上一候選集CK中的元素進行支持度計算。改進后的算法隨著高階頻繁K項集的數(shù)量越來越少,計算效率得到了很大程度的提高。
3.2.2 衡量指標的改進
傳統(tǒng)Apriori 算法得到的關聯(lián)規(guī)則,即使在達到最小置信度的要求下,得到的某些強關聯(lián)規(guī)則仍然是沒有規(guī)律可循的。雖然置信度可以衡量規(guī)則的可靠性,但是在關聯(lián)結果中發(fā)現(xiàn),只考慮置信度是欠缺的。例如共100 條數(shù)據(jù),A出現(xiàn)了60 次,B出現(xiàn)了80 次,A和B一起出現(xiàn)了40 次。那A和B一起出現(xiàn)的概率就是40%,在有A的前提下,B出現(xiàn)的概率是67%,而沒有A的前提下,B出現(xiàn)的概率是80%,這表明因為A的存在會降低B的概率,那A和B是沒有關聯(lián)的,因此只考慮置信度是無用的。為了在原算法的基礎上實現(xiàn)關聯(lián)規(guī)則挖掘效果的改進,本研究在改變掃描結構的同時,加入了新的衡量指標,從而使得算法能夠輸出更有價值的關聯(lián)規(guī)則。
因此改進算法引入的新指標是“提升度”:反映A出現(xiàn)對B出現(xiàn)的概率產生了多大的影響,計算公式為:
(1) 當lift=1 時,表明A和B沒有關系;(2) 當lift>1時,表明A和B是正相關;(3)當lift<1時,表明A和B是負相關。當lift>1時,出現(xiàn)的關聯(lián)規(guī)則還是冗余的。因此本研究設置的最小提升度為3(在一般數(shù)據(jù)挖掘中只有當提升度大于3才能保證關聯(lián)規(guī)則是有價值的)。
3.2.3 關聯(lián)規(guī)則的篩選
關聯(lián)規(guī)則的篩選條件:用數(shù)學模型表示y=f(x1,……,n),x1,……,n是影響因素,y是影響結果。關林規(guī)則的形式為A→B,A為前項,B為后項,原算法得到的關聯(lián)規(guī)則前項與后項是不區(qū)分影響因素和影響結果,因此結果處理較復雜。基于此篩選條件為:保留后項只有影響結果的規(guī)則,基于置信度和提升度一致的前提下,從前項低維(三維)到前項高維(四維)比較,如果前項低維(三維)包含的元素為x1、x2、x3,后項為y1,置信度為c1,提升度為l1,前項從三維上升到四維時,包含的元素分別為x1、x2、x3、x4,后項為y1,置信度為c1,提升度為l1,這是發(fā)現(xiàn)四維前項只增加x4,對后項、置信度和提升度都沒有變化,說明對y1真正產生影響的因素只有x1、x2、x3,因此需要刪除四維,只保留三維。
改進后的算法的主要步驟為:(1) 加載數(shù)據(jù)集TID1,……,n里面每一個元素,存為Database D;(2) 對數(shù)據(jù)庫掃描,并對每個元素項進行計數(shù),得到候選集C1。根據(jù)預先設置的最小支持度,對候選集C1進行剪枝,保留大于最小支持度的元素,得到頻繁1 項集L1;(3) 對頻繁L1進行連接,得到候選集C'1。這時掃描數(shù)據(jù)集C'1,對候選集C'1里面的元素進行計數(shù)得到候選集C'2,接著對C'2剪枝,得到頻繁2項集L'2……;(4) 依次往下執(zhí)行操作,重復剪枝、連接,直到找到頻繁(K+1)項集L'K+1;(5) 引入上一段增加的兩個指標進行規(guī)則篩選,當前項低維包含的元素可以概括所有的影響因子,只需保留低維規(guī)則。主要流程如圖2所示。
圖2 改進后算法的流程圖
根據(jù)改進的關聯(lián)規(guī)則算法,設置最小支持度、最小置信度和最小提升度剔除無意義數(shù)據(jù)和篩選出強關聯(lián)規(guī)則。在對算法進行多次調整參數(shù),發(fā)現(xiàn)支持度不大于0.1%時,重點關注的NO2處于高濃度等級的三維強關聯(lián)規(guī)則穩(wěn)定在一條,因此設定最小支持度為0.1%,最小置信度為0.85,最小提升度為3。
多維關聯(lián)規(guī)則的挖掘從二維關聯(lián)規(guī)則上升至高維關聯(lián)規(guī)則如圖3所示,其中二維關聯(lián)規(guī)則例如{[氣壓P1、風速W2]≥[NO2(N1)],92%},代表低等級氣壓和中等風速的組合,對NO2處于低等級產生92%概率的影響,三維關聯(lián)規(guī)則例如{[道路1 的交通流Q1、氣壓P1、風速W2]≥[NO2(N1)],91%},四維關聯(lián)規(guī)則例如{[道路1 的交通流Q1、道路2 的交通流Q2、濕度R1、風速W3]≥[NO2(N2)],95%}。若不設置參數(shù)限制,挖掘得到的關聯(lián)規(guī)則中,二維關聯(lián)規(guī)則的組合共有269 856個,三維關聯(lián)規(guī)則的組合共629 664 個,四維關聯(lián)規(guī)則的組合共944 496 個。根據(jù)改進后的算法,設置限制性參數(shù)得到的強關聯(lián)規(guī)則發(fā)現(xiàn),NO2為低、中、高濃度時的強關聯(lián)規(guī)則分別為13條、13條、21條。
圖3 多維關聯(lián)規(guī)則的挖掘
基于Apriori 算法得出的關聯(lián)規(guī)則,篩選出后項為NO2的關聯(lián)結果。通過對強關聯(lián)規(guī)則結果分析得到:當NO2處于低濃度值N1時,三維關聯(lián)規(guī)則當中包含所有的影響因素,不需要對更高維的關聯(lián)規(guī)則進行分析;而NO2處于偏高濃度時,生成的是四維關聯(lián)規(guī)則且包含所有的影響因素。但是這些規(guī)則中存在較多無效關聯(lián)規(guī)則,根據(jù)3.2 節(jié)對算法的改進:當后項為同一等級的對象且置信度相同時,低維關聯(lián)規(guī)則的前項向高維關聯(lián)規(guī)則遞增時,增加的其他因素,并沒有導致置信度發(fā)生變化,則剔除高維關聯(lián)規(guī)則,保留低維關聯(lián)規(guī)則。
3.4.1 NO2低濃度等級的強關聯(lián)規(guī)則
表3 為NO2濃度處于低濃度值(濃度低于20 μg/m3)時的強關聯(lián)規(guī)則,共13 條,具體的強關聯(lián)規(guī)則所構的交通物理場景如圖4 所示。從表3 可知,編號1~2中的二維強關聯(lián)規(guī)則直接表明氣象因素中的氣壓、風速、風向和氣溫對NO2的作用度最高,此時的氣壓小于1 006 hPa、風速大于2 m/s 及氣溫大于28 ℃,置信度都達到了100%;基于二維強關聯(lián)規(guī)則加入其他影響因素,到三維強關聯(lián)規(guī)則可以進一步發(fā)現(xiàn):氣壓(P)都處于最低等級、風速(W)和氣溫(T)都處于高等級,同時風向多處于X3(西南風)。
圖4 NO2低濃度值時各影響因素所構交通物理場景
表3 交通流、氣象與NO2低濃度的強關聯(lián)規(guī)則
從編號3~13 可知,加入道路交通流信息和方位信息,在氣象條件的影響下,所得的置信度偏差較小,可以表明氣象因素對空氣污染物的影響較大。進一步分析編號3~5 可得,海三路(A)位于空氣質量監(jiān)測站的正北方,雖然此時的道路流量處于最高等級(A4),小時流量超過了1 085 輛,由于道路處于下風向(X3)、氣壓較低(P1,小于1 006 hPa)、風速較高(W2,1~2 m/s)和氣溫較高(T3,大于28 ℃),不會導致NO2濃度的升高,置信度的范圍在97.11%~100%。編號6 表明,佛平二路(B)位于空氣質量監(jiān)測站的正南方,因為此時的道路流量較低(B1,小時車流量低于376 輛),車流量較低時大部分出現(xiàn)在凌晨,且氣象條件較好,NO2濃度也處于較低等級。編號7 表明,南海大道(C)位于空氣質量監(jiān)測站的正西方,且距離監(jiān)測站點較遠,雖然道路流量處于中等水平,在低氣壓,距離遠的條件下,NO2的濃度也不會升高。從編號9~13 發(fā)現(xiàn),桂瀾路位于空氣質量監(jiān)測站的正東方,隨著道路流量逐漸增加,也并沒有導致NO2的濃度等級的變化,主要是因為溫度高、風速快,對空氣污染物的擴散更快,然而置信度從100% 降到了90.34%,可見交通流量的增加也會影響NO2濃度的變化。
3.4.2 NO2中濃度等級的強關聯(lián)規(guī)則
表4 為NO2濃度處于中濃度值時(濃度范圍在[20,45]μg/m3)的強關聯(lián)規(guī)則,共13 條,部分強關聯(lián)規(guī)則所構的交通物理場景如圖5 所示。編號1~2 中的三維強關聯(lián)規(guī)則同表3 的二維強關聯(lián)規(guī)則相似,同樣表明道路流量有所上升,但是在氣壓、風速、氣溫的影響下,NO2的濃度也不會有太大的變化。從三維影響因素上升到四維影響因素可以進一步發(fā)現(xiàn):風向(X)較3.4.1 節(jié)有所轉變、氣壓(P)上升至中等級(1 006 hPa<P2≤1 015 hPa)和風速(W)基本保持不變。
圖5 NO2中等濃度值時各影響因素所構交通物理場景
表4 交通流、氣象與NO2中高濃度的強關聯(lián)規(guī)則
進一步分析可知,編號3~4表明,風向轉變?yōu)闁|北風(X1)時,海三路(A,小時交通流的范圍在[876,1 085])處于上風向、在氣溫較低(T1,低于21.2 ℃)和相鄰道路為高交通流的影響下,NO2濃度逐漸升高;隨著高風速(W3)的推導作用,雖然NO2濃度級別沒有改變,但是置信度從100%下降至90.91%,說明此時的溫度的作用較風速影響更大。隨著海三路(A)的車流量繼續(xù)增加,從編號5~6 可知,伴隨其他道路交通流的匯入,在高風速和高溫度的作用下,也可以加快污染物的擴散。
編號7~13 表明,當NO2濃度上升至N3 級別時(濃度范圍在[29,45]μg/m3),風速在慢慢下降,而此時各條道路都處于上風向,隨著道路交通流增大且氣壓達到最高(P3<1 015 hPa),使得NO2的濃度也在慢慢上升。其中置信度也存在差異,例如編號12~13,確定道路交通流不變時,風速下降(低于2 m/s)、濕度增加(高于66%)、從高氣壓轉變?yōu)槲鞅憋L(X4)時,污染物NO2的濃度置信度從88.74%升至100%,表明雖然道路在風的下風向,但是此時風速較小,導致污染物濃度也會增加。
3.4.3 NO2高濃度等級的強關聯(lián)規(guī)則
表5 為NO2濃度處于高濃度值時(濃度大于45 μg/m3)的強關聯(lián)規(guī)則,共21條,部分具體強關聯(lián)規(guī)則所構的交通物理場景如圖6 所示。氣壓(P)與3.4.2節(jié)的(N3)的現(xiàn)象相同,而風速(W)較3.4.2節(jié)的下降至最低(W1,低于1 m/s)等級。從編號2~12可知,隨著各條道路交通流的疊加,氣溫和風速都處于較低水平時,空氣擴散能力差,從而導致NO2處于較高等級。加入風向后,從編號13~21發(fā)現(xiàn),因為各條道路都處于上風向,同時氣象條件較差,也會導致NO2處于較高等級。
圖6 NO2高濃度值時各影響因素所構交通物理場景
表5 交通流、氣象與NO2高濃度的強關聯(lián)規(guī)則
從編號4~5、7~8、9~10 發(fā)現(xiàn)置信度有一定的偏差,當?shù)缆方煌饕恢?、溫度都為低溫時,將低風速(低于1 m/s)轉變?yōu)橹械葰鈮?1 006<P2≤1 015 hPa),發(fā)現(xiàn)置信度從100%降至88.72%,此時對NO2較敏感的因素是較低的風速;而當?shù)缆方煌饕恢?、較低風速時,將低氣溫轉變?yōu)檩^高氣壓,發(fā)現(xiàn)置信度從90.91%升至100%,此時說明對NO2較敏感的因素是較高的氣壓。將兩種現(xiàn)象結合,結果與上一段的現(xiàn)象一致。
基于以上對空氣污染物各等級劃分所得的強關聯(lián)規(guī)則可得出:影響NO2濃度變化的主要因素是風速、溫度和氣壓。因此將關聯(lián)規(guī)則所得影響較大因素與空氣污染物在SPSS 軟件中進行線性擬合(圖7)。并利用皮爾遜相關系數(shù)進行判定各因素與空氣污染物的相關程度,得到的系數(shù)分別為:I(風速)=-0.27、I(溫度)=-0.3、I(氣壓)=0.27、I(濕度)=-0.034。
圖7 氣象條件與NO2濃度的線性關系
計算結果發(fā)現(xiàn)風速、溫度與NO2呈負相關、氣壓與NO2呈正相關、濕度與NO2的關系不明顯,該結論與關聯(lián)規(guī)則算法得出的結果相同。
(1) 基于傳統(tǒng)的Apriori算法計算效率較低,改進后的算法效率有明顯的提升,且加入?yún)?shù)“提升度”和對關聯(lián)規(guī)則結果的篩選方法,改進后的結果更加可靠。
(2) 從NO2的濃度等級變化來看,影響空氣污染物濃度變化的主要關聯(lián)因素是風速、溫度和氣壓,隨著風速和溫度的降低,NO2濃度在逐漸增加;而氣壓與污染物濃度成正相關;濕度與污染物的關系不太明顯。且發(fā)現(xiàn)NO2濃度級別沒有改變,但是改變某個氣象因素,置信度會發(fā)生變化,說明這個氣象因素對NO2的影響更大。
(3) 道路交通流對空氣污染物的影響,需要考慮道路的方位、距離和風向等因素。當?shù)缆方煌鬏^大且位于下風向時,在氣象條件較好的情況下,也不會導致污染物迅速上升;當?shù)缆方煌鞑淮笄椅挥谏巷L向時,伴隨著較差的氣象條件,也會導致污染物逐漸累積。
(4) 為驗證關聯(lián)算法得到的影響空氣污染物NO2濃度變化較大的影響因素,將這些數(shù)據(jù)與NO2濃度數(shù)據(jù)進行線性擬合并計算皮爾遜相關系數(shù),所得結果與關聯(lián)規(guī)則算法的結論一致。表明基于改進的Apriori算法在關聯(lián)規(guī)則挖掘方面具有較高的準確性,也提高了關聯(lián)性分析的效率。
(5) 本研究主要是對道路總交通流做關聯(lián)分析,未考慮交通流的車隊結構,而NO2在夜間的主要來源是重性柴油車排放的NOx,因此在未來的研究當中,基于本研究需要拓展更多的影響因素,包括車隊結構(車型組成、排放標準)等因素。