閆 芳,舒 垚,李宗敏
(1.重慶交通大學(xué) 經(jīng)濟與管理學(xué)院,重慶 400074;2.四川大學(xué) 商學(xué)院,四川 成都 610065)
隨著城市和社會的發(fā)展,人們對城市環(huán)境衛(wèi)生的要求越來越高,同時城市化和消費水平的不斷提高,其帶來的生活垃圾量與日俱增,對城市環(huán)境和公眾健康構(gòu)成嚴(yán)重威脅,城市垃圾管理已經(jīng)成為城市發(fā)展所面臨的重要環(huán)境問題[1]。重慶是我國重要的中心城市之一,是國家重要的現(xiàn)代制造業(yè)基地,肩負(fù)著西南地區(qū)經(jīng)濟發(fā)展重任,其對內(nèi)的經(jīng)濟或?qū)ν獾拈_放發(fā)展都需要一個清潔衛(wèi)生、文明和諧的環(huán)境基礎(chǔ)。在旅游熱潮下,重慶市成為旅游地中的網(wǎng)紅城市,劇增的垃圾量給重慶市垃圾處理帶來了巨大的壓力,合理科學(xué)地預(yù)測垃圾量可為垃圾處理提供可靠的決策信息,而目前對重慶市垃圾量的研究較少[2]。對于垃圾量的預(yù)測,已有很多學(xué)者進(jìn)行了相關(guān)的研究,主要的預(yù)測方法包括神經(jīng)網(wǎng)絡(luò)模型[3-4]、系統(tǒng)動力學(xué)[5]、灰色預(yù)測[6-7]、組合預(yù)測[8]等模型,其中神經(jīng)網(wǎng)絡(luò)模型的應(yīng)用較為廣泛,具有預(yù)測精度高、高度自學(xué)習(xí)和自適應(yīng)等能力。王曉平等[9]利用遺傳算法優(yōu)化后的BP神經(jīng)網(wǎng)絡(luò)預(yù)測鎮(zhèn)農(nóng)產(chǎn)品冷鏈物流需求,預(yù)測精度高,所以筆者將選取GA-BP神經(jīng)網(wǎng)絡(luò)對重慶市垃圾量進(jìn)行預(yù)測。在對垃圾量進(jìn)行預(yù)測時,合理地篩選影響垃圾量因素,是準(zhǔn)確預(yù)測垃圾量的關(guān)鍵。于濤等[10]根據(jù)實際情況選取了非農(nóng)業(yè)人口、GDP、社會消費品零售總額、城市居民人均消費性支出、城市居民人均年可支配收入5個因素作為城市生活垃圾清運量的影響因素;陳藝蘭等[11]通過系統(tǒng)動力學(xué)理論選取戶籍人口、非戶籍人口、常住人口、GDP作為主要影響因素;任婉俠等[12]利用灰色關(guān)聯(lián)度選取了城市建成區(qū)面積、人均公共綠地面積、市區(qū)人口數(shù)量、人均消費支出為主要影響因素;HOANG 等[13]分析了氣候和社會經(jīng)濟因素對人工神經(jīng)網(wǎng)絡(luò)城市垃圾預(yù)測模型的影響。可見影響垃圾量的因素眾多且篩選影響因素的方法多樣,但同一模型不一定適用于所有的地區(qū)。因此,筆者將利用3種不同的方法進(jìn)行影響因素篩選,確定主要影響因素體系,結(jié)合ARIMA模型和GA-BP網(wǎng)絡(luò)模型對重慶市的垃圾量進(jìn)行預(yù)測,旨在探究主要影響因素,提高預(yù)測精度,為重慶市實現(xiàn)科學(xué)合理的一體化生活垃圾管理提供數(shù)據(jù)支撐。
據(jù)統(tǒng)計,重慶市累計建成生活垃圾處理設(shè)施62座,其中實際運行的垃圾處理設(shè)施有57座(含餐廚垃圾處理廠1座,規(guī)模1 000 t/d),城區(qū)的垃圾收運設(shè)施基本配備,具有較充足的垃圾收集和處理能力。此外,城市生活垃圾清運量是建設(shè)城市生活垃圾處理工程的重要依據(jù),故以城區(qū)垃圾清運量作為衡量重慶生活垃圾量的指標(biāo)進(jìn)行預(yù)測。重慶市2004—2018年城區(qū)生活垃圾清運量與年增長率如表1所示。
表1 2004—2018年重慶市垃圾清運量與年增長率
影響垃圾量因素的篩選,是預(yù)測垃圾量的重要步驟。為了更好確定對垃圾量影響較大的因素,且使垃圾預(yù)測更準(zhǔn)確,分別利用Lasso回歸分析、灰色關(guān)聯(lián)度分析、文獻(xiàn)總結(jié)分析3種方法來篩選影響因素,然后對不同方法篩選的因素進(jìn)行擬合比較,確定合適的因素。影響城市垃圾量的因素復(fù)雜多樣,主要包括內(nèi)在因素、自然因素、個體因素、社會因素4個方面[14]。其中,地域、自然、社會道德等不易具體考量,很難綜合全面地將4個方面的因素都考慮在內(nèi),故根據(jù)已有文獻(xiàn)及實際情況,分析了重要且可量化的重慶城市生活垃圾量影響因素,如表2所示。
表2 各影響因素及其數(shù)據(jù)
Lasso回歸分析(Least absolute shrinkage and selection operator)的原理與多元線性回歸相似,多元線性回歸的回歸系數(shù)使用的是OLS(最小二乘法),但變量過多時可能會導(dǎo)致多重共線性問題造成回歸系數(shù)的不顯著,甚至造成OLS估計的失效。而Lasso回歸在OLS回歸模型的損失函數(shù)基礎(chǔ)上加了不同的懲罰項,而Lasso回歸在OLS回歸模型的損失函數(shù)基礎(chǔ)上加了不同的懲罰項,該懲罰項由回歸系數(shù)的函數(shù)構(gòu)成,如式(1)所示。
(1)
式中:β為未知回歸系數(shù);X為自變量;Y為因變量;λ為懲罰系數(shù);p為樣本數(shù)。加入的懲罰項能識別出模型中不重要的變量,將不重要的變量系數(shù)壓縮為0,對模型起到簡化作用;且加入的懲罰項能讓模型變得可估計,避免多重共線性的問題。
Lasso回歸是沒有顯示解的,只能近似估計,利用K折交叉驗證的方法來選擇最佳的調(diào)整參數(shù),使得整個MSPE最小。利用Stata軟件實現(xiàn)Lasso回歸模型,進(jìn)而完成變量篩選。在回歸分析前需對變量進(jìn)行標(biāo)準(zhǔn)化處理,由于Stata每次只能對單個變量進(jìn)行標(biāo)準(zhǔn)化處理,故利用Matlab中的Zscore函數(shù)來對數(shù)據(jù)做標(biāo)準(zhǔn)化處理。其主要代碼為:CvLassoYX1X2X3X4X5X6X7X8X9X10X11X12X13X14X15X16X17X18X19X20,lopt seed(600)。其中,Y為垃圾清運量,X為各個影響因素,選擇項“l(fā)opt”表示選擇使MSPE最小的λ,多次調(diào)整,選擇隨機數(shù)種子數(shù)為600,默認(rèn)為10折交叉驗證。篩選出來的變量如表3所示,可知Lasso回歸分析最終選出的變量為:X4道路清掃保潔面積、X5金融業(yè)增加值、X10城市氣化率、X11社會零售額、X13人均綠地面積。
表3 Lasso回歸分析變量篩選結(jié)果
灰色關(guān)聯(lián)度分析基本思想是根據(jù)序列曲線的幾何形狀的相似程度來判斷其聯(lián)系緊密程度,根據(jù)緊密度大小對關(guān)聯(lián)度進(jìn)行排序。令垃圾清運量為分析數(shù)列的母序列,影響垃圾清運量的各指標(biāo)為子序列,則母序列與子序列的灰色關(guān)聯(lián)系數(shù)ξXi和關(guān)聯(lián)度γi為:
(2)
(3)
式中:Δ(min)為第二級最小差;Δ(max)為兩級最大差;ΔXi(k)為各數(shù)列Xi曲線上的每一個點與參考數(shù)列X0曲線上的每一個點的絕對差值;k為子序列序號,ρ為分辨系數(shù)。
關(guān)聯(lián)度γi值越接近1,說明相關(guān)性越好。選取關(guān)聯(lián)度大于0.75的影響因素,如表4所示,可知灰色關(guān)聯(lián)度分析篩選出的指標(biāo)為:X4道理清掃保潔面積、X6城鎮(zhèn)居民人均可支配收入、X7城鎮(zhèn)居民人均消費支出、X8城鎮(zhèn)人口數(shù)量、X12城市化率、X19教育程度。
表4 灰色關(guān)聯(lián)度分析變量篩選結(jié)果
為使指標(biāo)選取更全面,借鑒國內(nèi)外垃圾預(yù)測相關(guān)文獻(xiàn),將其中選取的指標(biāo)按4類羅列出,如表5所示??芍?,建模時經(jīng)常使用內(nèi)在因素;學(xué)者普遍認(rèn)為居民生活水平對垃圾產(chǎn)生影響是顯著的;城市經(jīng)濟中,國內(nèi)生產(chǎn)總值(GDP)是許多研究人員的首選,主要是因為更高的收入代表更高的潛在消費和產(chǎn)生更多的垃圾;人口也常常作為重要的影響垃圾量的指標(biāo),人口越多產(chǎn)生的生活垃圾也就越多;地域溫度是一個廣泛而有效的社會因素,但由于它的影響是難以計算的,因此很少將其納入預(yù)測模型中。
表5 垃圾預(yù)測文獻(xiàn)中所采用的指標(biāo)及與垃圾量的相關(guān)系數(shù)
綜合考慮內(nèi)在因素各個方面及重慶市垃圾清運量與各指標(biāo)間相關(guān)系數(shù),筆者選用年末常住人口、GDP、第三產(chǎn)業(yè)增加值、道路清掃保潔面積、金融業(yè)增加值、城鎮(zhèn)居民人均可支配收入和城鎮(zhèn)居民人均消費性支出7個影響因素。
通過不同方法進(jìn)行影響因素篩選后,得出了不同的影響因素體系,但需判斷哪個因素體系更能準(zhǔn)確預(yù)測垃圾量,從而選取最佳的影響因素體系進(jìn)行垃圾量預(yù)測。因此,構(gòu)建GA-BP神經(jīng)網(wǎng)絡(luò)先對所選出的因素體系分別進(jìn)行擬合,根據(jù)擬合程度選取影響因素體系,然后再進(jìn)行垃圾量預(yù)測。
BP神經(jīng)網(wǎng)絡(luò)具有學(xué)習(xí)、自組織、自適應(yīng)和較強的容錯性等特點,是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),是應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)。由于BP神經(jīng)網(wǎng)絡(luò)的每次訓(xùn)練都存在隨機性,為了減少這種隨機性及避免陷入局部極值,利用遺傳算法(GA)全局尋優(yōu)能力對神經(jīng)網(wǎng)絡(luò)的權(quán)值閾值進(jìn)行優(yōu)化,將優(yōu)化后的權(quán)值、閾值作為神經(jīng)網(wǎng)絡(luò)的固定權(quán)值、閾值,具體流程如圖1所示。神經(jīng)網(wǎng)絡(luò)模型由輸入層、隱含層和輸出層3層構(gòu)成,各層的傳輸函數(shù)均為默認(rèn)的函數(shù),網(wǎng)絡(luò)學(xué)習(xí)算法為LM算法,網(wǎng)絡(luò)訓(xùn)練函數(shù)為trainlm函數(shù)。最大訓(xùn)練次數(shù)設(shè)為2 000,訓(xùn)練的收斂均方誤差為0.001,隱含神經(jīng)元個數(shù)為10。
圖1 GA優(yōu)化BP神經(jīng)網(wǎng)絡(luò)閾值和權(quán)值
篩選出不同影響因素體系后,利用構(gòu)建好的GA-BP網(wǎng)絡(luò)對篩選的3種影響因素體系進(jìn)行網(wǎng)絡(luò)擬合,選出最佳的影響因素體系。選用2004—2016年的樣本數(shù)據(jù)為訓(xùn)練集,2017—2018年的樣本數(shù)據(jù)為測試集,隨機運行10次,擬合結(jié)果如表6所示。
表6 各因素體系擬合誤差結(jié)果
由表6可知,Lasso回歸分析篩選出指標(biāo)的擬合平均均方誤差最小,為10.554,平均相對誤差也最小,為0.024 7。故最終選用由Lasso回歸分析篩選出的5個影響因素作為GA-BP神經(jīng)網(wǎng)絡(luò)模型的輸入,影響因素及其回歸系數(shù)如表7所示,再次進(jìn)行擬合,網(wǎng)絡(luò)在第80次運行后,其均方誤差接近0。
表7 Lasso回歸分析篩選出的影響因素與其回歸系數(shù)
2017—2018年垃圾量擬合結(jié)果如表8所示,可知GA-BP模型擬合的平均相對誤差為0.215%,即該模型的擬合程度高,且經(jīng)GA優(yōu)化后的網(wǎng)絡(luò)性能優(yōu)于單純的BP網(wǎng)絡(luò)模型。
表8 2017—2018年垃圾量擬合結(jié)果
對于影響因素的預(yù)測,選用能準(zhǔn)確提取時間序列當(dāng)前值、過去值及誤差值之間回歸關(guān)系的能力的ARIMA模型。ARIMA(p,d,q)模型是依據(jù)時間序列數(shù)據(jù)的過去值及現(xiàn)在值預(yù)測未來值的著名時間序列預(yù)測方法。ARIMA中的專家建模器會根據(jù)序列的特點選取統(tǒng)計顯著關(guān)系的模型,必要時使用平方根、差分或自然對數(shù)轉(zhuǎn)換對模型的變量做適當(dāng)轉(zhuǎn)換。ARIMA模型可表示為:
(4)
式中:p為自回歸項數(shù);q為滑動平均項數(shù);d為使時間序列成為平穩(wěn)序列時所做的差分次數(shù);L為滯后算子。利用ARIMA模型對各個影響因素進(jìn)行預(yù)測后,對各殘差進(jìn)行白噪聲檢驗判斷殘差是否為白噪聲,若殘差是白噪聲,則表示該時間序列的規(guī)律能被所選的模型完全識別。該時間序列能被模型完全識別,所有滯后階數(shù)的自相關(guān)系數(shù)和偏自相關(guān)系數(shù)均與0沒有顯著的差異,即預(yù)測效果較好。各影響因素的預(yù)測結(jié)果如表9所示,其中對于X10城市氣化率的預(yù)測2021年為100.07%,根據(jù)現(xiàn)實意義將其改為100%。
表9 影響因素預(yù)測值
將5個指標(biāo)的預(yù)測值作為上述已訓(xùn)練好的GA-BP模型的輸入,利用優(yōu)化后的網(wǎng)絡(luò)權(quán)值閾值進(jìn)行最終的垃圾量預(yù)測,結(jié)果如表10所示,可知重慶市垃圾量在2021年將達(dá)到624.780萬t。
表10 重慶垃圾量預(yù)測結(jié)果
(1)提出利用Lasso回歸分析、灰色關(guān)聯(lián)度分析、文獻(xiàn)總結(jié)分析3種不同的方法對影響重慶垃圾量的因素進(jìn)行篩選,對比擬合結(jié)果后,選取Lasso回歸篩選出的影響因素體系,即道路清掃保潔面積、金融業(yè)增加值、城市氣化率、社會零售額、人均綠地面積作為影響垃圾量的主要因素。
(2)采用時間序列預(yù)測方法ARIMA模型對未來3年的主要影響因素的數(shù)據(jù)進(jìn)行預(yù)測,并對其進(jìn)行白噪聲殘差檢驗。將GA-BP神經(jīng)網(wǎng)絡(luò)模型引入到垃圾量預(yù)測中,對重慶市未來3年的垃圾量進(jìn)行預(yù)測,結(jié)果顯示未來3年重慶市垃圾量的預(yù)測值分別為574.523萬t、599.257萬t、624.780萬t。
(3)模型的擬合平均相對誤差低至0.215%,比文獻(xiàn)[2]對重慶市生活垃圾量預(yù)測的平均相對誤差(4.576 5%)降低了4.361 5%。所提出的模型和方法,可為實際中的垃圾管理措施提供相應(yīng)依據(jù)。