張曉峰,田英杰,金典琦,畢 軍,2,王付軍
(1.北京交通大學 交通運輸學院,北京 100044;2.綜合交通運輸大數(shù)據(jù)應(yīng)用技術(shù)交通運輸行業(yè)重點實驗室,北京 100044;3.深圳市城市公共安全技術(shù)研究院,廣東 深圳 518000)
近年來,隨著我國經(jīng)濟社會和城市建設(shè)的快速發(fā)展,尤其是城市軌道交通、舊城改造及大批重點工程項目的開工建設(shè),建筑廢棄物排放量呈爆炸式增長,現(xiàn)行的基于紙質(zhì)聯(lián)單建筑廢棄物監(jiān)管模式無法應(yīng)對日益增長的建筑廢棄物監(jiān)管需求。隨著車聯(lián)網(wǎng)、大數(shù)據(jù)等技術(shù)蓬勃發(fā)展,給建筑廢棄物全過程監(jiān)管提供了新思路?;陔娮勇?lián)單的建筑廢棄物全過程監(jiān)管模式應(yīng)運而生,根據(jù)工地和消納場的真實邊界在地圖上虛擬出電子圍欄,輔助判斷渣土車是否進入工地消納場區(qū)域。當渣土車識別到電子圍欄后,渣土車在電子圍欄內(nèi)的停留時長、車載設(shè)備狀態(tài)變化情況都會進入渣土車監(jiān)管系統(tǒng),在渣土車離開電子圍欄時,系統(tǒng)會生成一條包含統(tǒng)計結(jié)果信息的記錄。通過判斷該記錄中渣土車在工地和消納場內(nèi)是否有裝卸行為,識別渣土車運輸?shù)钠鹗键c和終點,最終實現(xiàn)建筑廢棄物產(chǎn)生地和消納位置自動識別、自動監(jiān)管,使每方建筑廢棄物都有跡可循。能體現(xiàn)渣土車在電子圍欄內(nèi)裝卸建筑廢棄物的記錄稱為電子聯(lián)單,渣土車經(jīng)過電子圍欄生成的記錄統(tǒng)計結(jié)果的信息被稱為節(jié)點?,F(xiàn)有判別電子聯(lián)單方法主要通過車載傳感器實時顯示渣土車的運輸狀態(tài)和運輸位置,當車輛到達工地電子圍欄內(nèi)并有裝卸土行為即判斷聯(lián)單開始,當渣土車到達消納場并有裝卸土行為即判斷聯(lián)單結(jié)束,包含這個過程的一條記錄即為一條電子聯(lián)單。這種判別方法在試運行初期,能夠保持一定的精度。然而,在運輸行為發(fā)生一段時間后,車載設(shè)備出現(xiàn)故障,使采用這種判別電子聯(lián)單的方法無法保證精度,大大降低了建筑廢棄物監(jiān)管效率。在此背景下,充分利用含有較多噪點的渣土車車載設(shè)備數(shù)據(jù),制定合理的電子聯(lián)單判別策略,對提升建筑廢棄物監(jiān)管水平具有現(xiàn)實意義。
目前,針對電子聯(lián)單判別的相關(guān)研究主要集中于人工輸入和自動識別2個方面。人工輸入方面,電子聯(lián)單就是紙質(zhì)聯(lián)單電子化的一種表示形式。文獻[1]中,運輸企業(yè)在危廢管理系統(tǒng)中登記電子聯(lián)單,包含危險廢物的產(chǎn)生地和消納地等信息,通過人為記錄的方式判別電子聯(lián)單。文獻[2]中,工地申報項目時在建廢管理系統(tǒng)中指定運輸單位和消納場,運輸廢棄物時,運輸車輛向系統(tǒng)輸入起點工地,在消納場所設(shè)置車牌識別等設(shè)備,自動檢測并生成電子聯(lián)單。文獻[3]中,電子聯(lián)單每個環(huán)節(jié)設(shè)置操作人員,利用PDA設(shè)備在每個階段進行聯(lián)單錄入管理系統(tǒng),渣土車消納完成以后錄入生成電子聯(lián)單。自動識別方面,利用物聯(lián)網(wǎng)設(shè)備自動識別渣土車。文獻[4]中,利用車載傳感器和GPS設(shè)備進行電子聯(lián)單自動判別,當渣土車GPS進入工地時檢測渣土車廂體是否變化,如果發(fā)生變化,則該工地作為電子聯(lián)單起始點,當渣土車到達消納場后,廂體狀態(tài)發(fā)生變化則該消納場為電子聯(lián)單結(jié)束點。文獻[5]中,在工地和消納場安設(shè)地磅和車牌識別模型的方法,判別車輛在工地和消納場內(nèi)是否存在裝卸土行為,以此作為電子聯(lián)單的起始點和結(jié)束點。
目前,關(guān)于電子聯(lián)單人為判別策略,就是將紙質(zhì)聯(lián)單電子化的過程,大多需要人為介入,比較繁瑣。而且建筑廢棄物運輸過程中,對運輸人員的管理存在較大漏洞,沒有考慮建筑廢棄物偷排偷放的問題?,F(xiàn)有的關(guān)于電子聯(lián)單自動判別的研究,沒有考慮渣土車車載設(shè)備的檢測精度和數(shù)據(jù)傳輸過程中的數(shù)據(jù)丟失問題。工地消納場安裝相關(guān)設(shè)備成本過高,無法監(jiān)測車輛運輸過程,無法杜絕偷排偷放行為的發(fā)生。在實際應(yīng)用場景中,渣土車車載設(shè)備傳回的數(shù)據(jù)存在較多噪聲和異常,僅僅依靠車載傳感器和GPS位置數(shù)據(jù)無法準確判別出電子聯(lián)單,極大影響政府監(jiān)管效率和企業(yè)生產(chǎn)效益。本文針對渣土車車載設(shè)備傳回的數(shù)據(jù)存在較多噪聲數(shù)據(jù),提出一種基于邏輯回歸的建筑廢棄物電子聯(lián)單自動判別模型,能夠高效準確地判別電子聯(lián)單。
本研究數(shù)據(jù)來源于深圳市建筑廢棄物智慧監(jiān)管系統(tǒng)真實運營數(shù)據(jù),時間跨度為2019年12月1日至2019年12月10日,共篩選出質(zhì)量較好的11個工地。這10 d指定工地的數(shù)據(jù)包含了判別策略所能考慮到的所有情形,也包含了所有的常見問題,在其他時間段內(nèi),其余工地的數(shù)據(jù)存在的規(guī)律和問題能夠在這10 d的數(shù)據(jù)中找到解決方案。這10 d數(shù)據(jù)對電子聯(lián)單判別策略的研究具有代表性。
這10 d數(shù)據(jù)主要包括進出渣土車軌跡數(shù)據(jù)、工地臺賬數(shù)據(jù)。臺賬數(shù)據(jù)包含工地車輛的車牌號、進入時間和離開時間等信息。渣土車軌跡數(shù)據(jù)包含車輛車牌信息、軌跡數(shù)據(jù)、車載設(shè)備實時檢測狀態(tài)。截取2019年12月1號至2019年12月10號的全部車輛軌跡數(shù)據(jù)約7 046萬條,部分工地臺賬數(shù)據(jù)選取了對應(yīng)時間段的數(shù)據(jù)共16 447條。
1.2.1 渣土車軌跡數(shù)據(jù)預處理
渣土車軌跡數(shù)據(jù)預處理主要包含2部分:節(jié)點生成和渣土車車載設(shè)備故障分析。因為本文研究目標是車載設(shè)備檢測數(shù)據(jù)不準確的情況下,電子聯(lián)單判別研究。首先對渣土車車載設(shè)備進行故障分析,明確渣土車的車載設(shè)備故障率。從設(shè)備異常次數(shù)和有聯(lián)單產(chǎn)生,但車載設(shè)備未檢測2個角度出發(fā),分析10 d內(nèi)渣土車舉升、載重和廂體傳感器數(shù)據(jù)和臺賬數(shù)據(jù),得到渣土車的故障率約為54%。渣土車各配件故障率如圖1所示。
圖1 渣土車故障統(tǒng)計分析結(jié)果圖
在劃分節(jié)點的時候,自動識別車輛GPS定位點是否在工地圍欄內(nèi),渣土車GPS定位點進入工地時作為節(jié)點起始時間,渣土車GPS定位點離開工地時作為節(jié)點離開時間。從全部10 d的車輛軌跡數(shù)據(jù)7 046萬條數(shù)據(jù)中,按照表1所示特征進行篩選,得到83 742條節(jié)點。
表1 樣本特征
1.2.2 人工臺賬數(shù)據(jù)預處理
人工臺賬中存在較多非納管車輛、車載設(shè)備損壞和記錄錯誤等問題,這些數(shù)據(jù)都是影響模型預測精度的錯誤數(shù)據(jù),為了保證模型訓練的精度,應(yīng)剔除錯誤數(shù)據(jù)(見表2)。在16 447條臺賬數(shù)據(jù)中有254輛車屬于非納管車輛,覆蓋了1 672條臺賬數(shù)據(jù);有1輛車當天無GPS軌跡且該車輛前后1周均無軌跡數(shù)據(jù),覆蓋了30條臺賬數(shù)據(jù);有273條臺賬記錄存在記錄錯誤的問題,在臺賬記錄期間,渣土車所在位置與工地圍欄不匹配。錯誤數(shù)據(jù)類型如表2所示。
表2 錯誤數(shù)據(jù)類型
1.2.3 節(jié)點數(shù)據(jù)預處理
篩選模型訓練數(shù)據(jù)集時,假設(shè)臺賬的起始時間段與節(jié)點的時間段有交叉,則認為兩者相匹配,即認為此時該節(jié)點被判別為電子聯(lián)單。利用臺賬中渣土車車牌信息篩選出臺賬記錄車輛對應(yīng)的所有節(jié)點,理論上渣土車從工地到消納場運輸廢棄物的過程中最多只有一條電子聯(lián)單,再利用臺賬中渣土車進、出工地時間,匹配出電子聯(lián)單所在的節(jié)點,打成正例標簽,該車輛在這個時間段內(nèi)其他節(jié)點均打成反例標簽。節(jié)點打標簽過程如圖2所示。
圖2 節(jié)點打標簽過程示意圖
邏輯回歸是一種用于解決二分類問題的機器學習方法,用于估計某種事物的可能性。邏輯回歸常用于分類預測建模中[6],在交通領(lǐng)域應(yīng)用廣泛,但在建筑垃圾管控領(lǐng)域應(yīng)用極少。節(jié)點的產(chǎn)生需要整合渣土車位置信息和車載設(shè)備信息等數(shù)據(jù),整合過程需要進行大量計算,實現(xiàn)電子聯(lián)單快速識別,判別策略的計算量不宜過大。邏輯回歸算法計算時間短,分類精度高,能夠線性化展示節(jié)點每個特征的重要程度,能夠滿足電子聯(lián)單打分策略的實際應(yīng)用需求。因此本文采用邏輯回歸模型作為電子聯(lián)單判別新策略。
通過分析渣土車車載設(shè)備存在較高故障率,僅僅依靠車載載重、舉升、廂體傳感器狀態(tài)變化完全不能判斷出車輛在電子圍欄內(nèi)是否有拉土行為,是否產(chǎn)生電子聯(lián)單。通過組織建筑行業(yè)經(jīng)驗豐富的管理人員參加座談會,從渣土車的申報狀態(tài)、停留時長等六大角度出發(fā),研究得出25項影響電子聯(lián)單準確判別的影響因素,并以此作為模型的自變量。模型自變量參數(shù)如表3所示。
表3 自變量參數(shù)
續(xù)表(表3)
邏輯回歸是以線性回歸為理論支持,通過Sigmod函數(shù)引入了非線性因素,將線性回歸的值域從(-∞,+∞)處理為(0,1),解決0/1分類問題[7]。
基于邏輯回歸的電子聯(lián)單判別模型[8]假設(shè)函數(shù)如下:
式中:g(x)是Sigmod函數(shù);x表示自變量的不同狀態(tài);θ表示每個自變量的不同狀態(tài)的重要程度,需要通過模型訓練得出。
本文采用二項邏輯回歸模型解決二分類問題。二項邏輯回歸模型的條件概率如下:
式中:k是邏輯回歸模型中Sigmod函數(shù)劃分正反例的閾值,閾值設(shè)置為0.5,當大于閾值0.5時,y=1該節(jié)點產(chǎn)生電子聯(lián)單,反之則y=0,該節(jié)點不產(chǎn)生電子聯(lián)單。
對于給定的訓練集數(shù)據(jù)T={(x1,y1),(x2,y2),…,(xm,ym)},其中xi∈Rn+1,i=1,2,…,m。為了衡量模型預測結(jié)果h(θ)與真實值y之間的差異,構(gòu)建代價函數(shù)J(θ),并采用梯度下降的方法不斷改變θ,從而得到不斷變小的J(θ),在理想情況下,當取到最小J(θ)時,得到最符合訓練樣本的模型,此時的θ即為最優(yōu)參數(shù)。
在邏輯回歸中,最常用的代價函數(shù)是交叉熵。交叉熵衡量的是在知道y的真實值時的平均偏離程度,當預測為產(chǎn)生電子聯(lián)單,而實際就是電子聯(lián)單時,偏離程度較低,反之則較高[9]。
邏輯回歸函數(shù)的損失函數(shù)表示為
經(jīng)過梯度下降方法[10]求解后,得到使J(θ)最小的參數(shù)θ為
將訓練集中的數(shù)據(jù)代入到模型參數(shù)估計式(5)中,得到邏輯回歸模型的權(quán)重系數(shù),如表4所示。
表4 模型系數(shù)
為了進一步方便描述模型結(jié)果,做出如下定義:
電子聯(lián)單準確率=臺賬對應(yīng)電子聯(lián)單數(shù)/電子聯(lián)單數(shù)
式中:Ebill_acc表示電子聯(lián)單準確率;Ebill_num表示電子聯(lián)單數(shù),判別策略篩選出的節(jié)點數(shù)據(jù)的數(shù)目;Cor_ebill_num表示臺賬對應(yīng)的電子聯(lián)單數(shù),電子聯(lián)單中滿足臺賬的數(shù)目。因為在實際應(yīng)用中,系統(tǒng)只篩選出符合判別策略的節(jié)點作為電子聯(lián)單,電子聯(lián)單中符合臺賬的即判別正確。用電子聯(lián)單準確率作為模型評價指標,能夠反映模型在實際應(yīng)用中的準確度,符合實際應(yīng)用場景的業(yè)務(wù)要求,具有較強的現(xiàn)實意義。模型評價指標如圖3所示。
圖3 模型評價指標示意圖
選取2019年12月11日至2019年12月31日的402 652條渣土車節(jié)點數(shù)據(jù)和56 341條臺賬數(shù)據(jù),對提出的基于邏輯回歸的電子聯(lián)單判別策略模型進行實例驗證。根據(jù)實際應(yīng)用場景設(shè)計的評價指標,當電子聯(lián)單準確率越高,則電子聯(lián)單判別模型的判別效果越好,電子聯(lián)單制度越容易被接受。深圳市建筑廢棄物智慧監(jiān)管系統(tǒng)現(xiàn)有采用電子聯(lián)單判別方案,以渣土車在電子圍欄內(nèi)停留時長超過5 min即認為產(chǎn)生電子聯(lián)單,在實例驗證中采用傳統(tǒng)方法電子聯(lián)單的準確率為53.24%,模型結(jié)果真值分布情況如表5所示。當以0.5作為Sigmod函數(shù)正反例概率取值時,采用基于邏輯回歸模型的電子聯(lián)單判別模型的電子聯(lián)單判別準確率為75.32%,模型結(jié)果真值分布情況如表6所示。
表5 按現(xiàn)有方法得出的精度情況
表6 按0.5為分閾時模型精度情況
充分考慮不同工地所屬類型不一致,如地鐵施工屬于交通類,土建工地屬于房建類。Sigmod函數(shù)對自變量預測值是個概率,邏輯回歸模型二分類的閾值為0.5,當高于0.5時,產(chǎn)生電子聯(lián)單類,反之則未產(chǎn)生電子聯(lián)單。為了進一步提升模型判別精度,對每個工地的閾值進行單獨分析,將每個工地閾值區(qū)間劃分為20份,確定出產(chǎn)生電子聯(lián)單數(shù)最多且電子聯(lián)單準確率最高的閾值,將此作為該工地產(chǎn)生電子聯(lián)單的Sigmod函數(shù)正反例概率取值。對每個工地適當降低分閾后,模型真值分布情況如表7所示。對所有節(jié)點進行判別,節(jié)點中判別為電子聯(lián)單的有55 181條,其中有臺賬對應(yīng)的是45 436條,電子聯(lián)單準確率為82.34%。
表7 按工地劃分適當降低分閾后模型真值分布情況
1)提出基于邏輯回歸的電子聯(lián)單判別模型,使用深圳市12月11日至12月31日的臺賬和節(jié)點數(shù)據(jù),對模型判別效果進行驗證,模型的準確率達75.32%??紤]不同工地間的差異性,按工地獨立劃分分閾,此時電子聯(lián)單準確率達到82.34%,相比于傳統(tǒng)電子聯(lián)單判別方案準確率提升29.1%,模型判別效果良好。
2)模型訓練集只選用了10 d的數(shù)據(jù),選用的模型是使用線性決策邊界的邏輯回歸模型,訓練集數(shù)據(jù)量較小,非線性變量對模型參數(shù)整定影響較大。在以后的研究中,將進一步增加訓練集數(shù)據(jù)量,同時選用非線性機器學習算法與邏輯回歸模型進行協(xié)同判別,優(yōu)化設(shè)計現(xiàn)有模型參數(shù),提升電子聯(lián)單判別的客觀性和準確性。