張秋壘,黃國鑫,王夏暉,畢二平,季國華,陳茜,盧然
1.生態(tài)環(huán)境部環(huán)境規(guī)劃院 2.中國地質(zhì)大學(xué)(北京)水資源與環(huán)境學(xué)院
目前,我國場地土壤和地下水污染風(fēng)險(xiǎn)管理正處在初始階段,面臨著場地污染風(fēng)險(xiǎn)管控和修復(fù)效果的不確定性較大,精準(zhǔn)化、智能化、高效化技術(shù)與管理水平欠缺,治理修復(fù)投入成本高,風(fēng)險(xiǎn)管控措施效率低,修復(fù)效果不理想,修復(fù)方案選擇不合理等突出問題[1-2]。
隨著大數(shù)據(jù)技術(shù)在環(huán)境領(lǐng)域應(yīng)用的日益廣泛和環(huán)境海量數(shù)據(jù)的日益增長[3-4],大數(shù)據(jù)技術(shù)與場地環(huán)境管理深度融合提高場地污染風(fēng)險(xiǎn)管控與修復(fù)的精準(zhǔn)化、智能化、高效化、低成本化成為亟待解決的技術(shù)問題。近年來,案例推理(case-based reasoning,CBR)在機(jī)器學(xué)習(xí)和環(huán)境應(yīng)急決策領(lǐng)域得到廣泛研究,如環(huán)境突發(fā)應(yīng)急決策[5-7]、突發(fā)化學(xué)品污染應(yīng)急處置[8]、地震類突發(fā)事件[9]和建筑成本預(yù)測[10]等,其中CBR增強(qiáng)了突發(fā)性環(huán)境污染事件中的快速反應(yīng)能力[11]。CBR是利用過去事件案例中求解問題的經(jīng)驗(yàn)和方法,結(jié)合新問題的特征進(jìn)行調(diào)整,從而獲得當(dāng)前問題求解的一種推理模式,即在求解問題時(shí),從案例庫的源案例中找出相似度高且成功的案例,直接復(fù)用或經(jīng)過調(diào)整、修改后復(fù)用,從而獲得目標(biāo)案例的解決方法[6,9-13]。但目前,案例推理乃至耦合大數(shù)據(jù)深度挖掘技術(shù)(如機(jī)器學(xué)習(xí))在場地土壤和地下水污染風(fēng)險(xiǎn)管控與修復(fù)方案推薦方面的研究鮮有報(bào)道,可以借鑒的經(jīng)驗(yàn)有限。
鑒于此,筆者借助大數(shù)據(jù)平臺(tái),通過基于案例推理的結(jié)構(gòu)化層次存儲(chǔ)和搜索技術(shù),基于CBR、K最近鄰算法(K-nearest neighbor,KNN)和層次分析法(analytic hierarchy process,AHP),構(gòu)建風(fēng)險(xiǎn)管控與修復(fù)方案推薦系統(tǒng)案例庫,開展場地污染風(fēng)險(xiǎn)管控與修復(fù)方案推薦系統(tǒng)的結(jié)構(gòu)設(shè)計(jì)和系統(tǒng)開發(fā),實(shí)現(xiàn)目標(biāo)場地案例的風(fēng)險(xiǎn)管控與修復(fù)方案推薦,以期為場地污染風(fēng)險(xiǎn)管理實(shí)踐提供理論依據(jù)和技術(shù)支持。
場地污染風(fēng)險(xiǎn)管控與修復(fù)方案推薦系統(tǒng)的目的是將已有的歷史風(fēng)險(xiǎn)管控和修復(fù)場地案例(源案例)組成案例庫,總結(jié)與分析案例庫中各源案例的各指標(biāo)因子,使檢索時(shí)能夠快速判定相似度最高的前3個(gè)案例,為新污染場地(目標(biāo)案例)制定風(fēng)險(xiǎn)管控與修復(fù)方案提供決策參考。
利用238個(gè)污染場地的風(fēng)險(xiǎn)管控和修復(fù)案例,考慮區(qū)域自然、經(jīng)濟(jì)、社會(huì)環(huán)境概況,場地基本情況,特征污染物,污染遷移途徑,敏感目標(biāo),風(fēng)險(xiǎn)管控和修復(fù)技術(shù)的環(huán)境、經(jīng)濟(jì)、社會(huì)指標(biāo),篩選確定24項(xiàng)場地特征指標(biāo),并構(gòu)建三級(jí)指標(biāo)體系(圖1)。其中,特征污染物主要關(guān)注GB 36600—2018《土壤環(huán)境質(zhì)量 建設(shè)用地土壤污染風(fēng)險(xiǎn)管控標(biāo)準(zhǔn)(試行)》中的85項(xiàng)污染物。
圖1 場地污染風(fēng)險(xiǎn)管控與修復(fù)方案推薦系統(tǒng)的指標(biāo)體系Fig.1 Index system of site pollution risk control and remediation scheme recommendation system
場地污染風(fēng)險(xiǎn)管控與修復(fù)方案推薦流程:首先,對于目標(biāo)場地經(jīng)過綜合分析生成待解決的問題,進(jìn)而生成案例特征屬性;其次,遍歷案例庫,計(jì)算目標(biāo)案例與源案例之間的相似度;再次,推薦相似度最高的前3個(gè)案例給決策者;最后,將匹配度、相似度最高的源案例的風(fēng)險(xiǎn)管控與修復(fù)方案寫入目標(biāo)案例中,存放于案例庫中間表中,待日后目標(biāo)案例的其他相關(guān)信息補(bǔ)充完全后,進(jìn)一步考慮是否將其加入案例庫中。
場地污染風(fēng)險(xiǎn)管控與修復(fù)方案推薦系統(tǒng)需包含以下內(nèi)容:1)案例簡介。出現(xiàn)在案例系統(tǒng)展示頁面首頁,介紹案例有關(guān)場地名稱、所在地區(qū)和行業(yè)分類,并提供每個(gè)案例的單獨(dú)鏈接,顯示案例詳情,如案例風(fēng)險(xiǎn)管控與修復(fù)方案信息。2)數(shù)據(jù)管理。進(jìn)行新案例的輸入、已有案例的編輯和各頁面信息的維護(hù)?;A(chǔ)功能包含案例信息的增加、刪除、修改、保存以及數(shù)據(jù)的導(dǎo)入和導(dǎo)出。3)檢索查詢。根據(jù)不同檢索需求,提供模糊查詢、條件查詢??芍苯訌陌咐龓熘蝎@取案例數(shù)據(jù),供查詢的因素有場地名稱、所在地區(qū)、行業(yè)分類等;亦可在目標(biāo)案例信息輸入頁面選擇輸入24項(xiàng)場地特征指標(biāo)信息,實(shí)現(xiàn)案例之間的相似度查詢。4)結(jié)果展示頁面。在方案推薦頁面,可瀏覽相似度最高的前3個(gè)案例,主要顯示源案例的基本情況、污染遷移途徑、敏感受體、風(fēng)險(xiǎn)管控與修復(fù)方案以及案例匹配相似度等信息。5)系統(tǒng)設(shè)置。用于系統(tǒng)用戶登錄與權(quán)限的管理、個(gè)人信息維護(hù)等。
圖2 場地污染風(fēng)險(xiǎn)管控與修復(fù)方案 推薦系統(tǒng)的層次結(jié)構(gòu)示意Fig.2 Hierarchical structure of site pollution risk control and remediation scheme recommendation system
根據(jù)數(shù)據(jù)需求分析,場地污染風(fēng)險(xiǎn)管控與修復(fù)方案推薦系統(tǒng)應(yīng)包括基礎(chǔ)信息數(shù)據(jù)庫、PostgreSQL數(shù)據(jù)庫、HBase數(shù)據(jù)庫和Impala數(shù)據(jù)倉庫。其中,基礎(chǔ)信息數(shù)據(jù)庫是由從案例的地塊調(diào)查、風(fēng)險(xiǎn)評估、風(fēng)險(xiǎn)管控或修復(fù)以及效果評估報(bào)告中獲取的場地概況、污染源、污染物遷移途徑、敏感受體、風(fēng)險(xiǎn)管控與修復(fù)技術(shù)、風(fēng)險(xiǎn)管控與修復(fù)方案、實(shí)施效果等方面的225個(gè)信息項(xiàng)匯總而成;HBase數(shù)據(jù)庫用于存儲(chǔ)基礎(chǔ)信息數(shù)據(jù)庫中案例的全部基礎(chǔ)信息,包括結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù);PostgreSQL作為地理數(shù)據(jù)庫存儲(chǔ)案例名稱和經(jīng)緯度坐標(biāo)相關(guān)信息,用作統(tǒng)計(jì)分析與展示;Impala數(shù)據(jù)倉庫提供數(shù)據(jù)分析與挖掘功能,為場地污染風(fēng)險(xiǎn)管控與修復(fù)方案推薦系統(tǒng)提供數(shù)據(jù)分析和邏輯計(jì)算支持。
基礎(chǔ)信息數(shù)據(jù)庫主要用于對案例的搜索、查詢、增加、刪減和修改,是整個(gè)系統(tǒng)平臺(tái)的基礎(chǔ)數(shù)據(jù)庫。通過對案例信息的分析,可以獲得統(tǒng)計(jì)性的結(jié)論和規(guī)律。為此,案例中信息的儲(chǔ)存方式顯得極其重要。本研究中案例記錄的信息主要通過數(shù)據(jù)和描述性語言2個(gè)方面來儲(chǔ)存。案例庫信息如表1所示。
表1 案例庫信息
案例表現(xiàn)部分包括源案例的大數(shù)據(jù)信息查詢和案例信息的描述。該模塊中每個(gè)案例包括場地概況、污染源、污染物遷移途徑、敏感受體、風(fēng)險(xiǎn)管控與修復(fù)技術(shù)、風(fēng)險(xiǎn)管控與修復(fù)方案、實(shí)施效果等方面的225個(gè)信息項(xiàng),同時(shí)該模塊也有新案例信息導(dǎo)入功能。案例展示和單個(gè)案例詳情展示頁面分別見圖3和圖4。
圖3 場地污染風(fēng)險(xiǎn)管控與修復(fù)方案案例展示頁面Fig.3 Case display page of site pollution risk control and remediation scheme
圖4 場地污染風(fēng)險(xiǎn)管控與修復(fù)方案單個(gè)案例詳情展示頁面Fig.4 Detailed case display page of site pollution risk control and remediation scheme
在案例的信息描述中對案例進(jìn)行編碼,確保檢索系統(tǒng)能夠高效、精準(zhǔn)、快速地進(jìn)行檢索。該模塊還具有新案例的輸入,已有案例的編輯、添加、刪除及導(dǎo)入與導(dǎo)出功能。
2.2.1案例檢索系統(tǒng)
案例推理的核心是案例的檢索系統(tǒng)。將案例檢索功能分為2種:1)通過對案例的主要信息(如企業(yè)名稱、所在地區(qū)和行業(yè)分類)進(jìn)行單項(xiàng)或多項(xiàng)混合查詢,輸出匹配的查詢結(jié)果;2)采用24個(gè)場地特征指標(biāo)進(jìn)行相似度計(jì)算,得出與目標(biāo)案例相似度高的前3個(gè)案例。
圖5 場地污染風(fēng)險(xiǎn)管控與修復(fù)方案推薦系統(tǒng)目標(biāo)案例信息輸入頁面Fig.5 Target case information input page of site pollution risk control and remediation scheme recommendation system
為實(shí)現(xiàn)案例檢索,檢索系統(tǒng)需能輸入目標(biāo)案例24項(xiàng)場地特征指標(biāo)信息(圖5),且檢索結(jié)果在案例推薦頁面中呈現(xiàn)(圖6)。在圖5所在地區(qū)項(xiàng)中,根據(jù)《國務(wù)院關(guān)于調(diào)整城市規(guī)模劃分標(biāo)準(zhǔn)的通知》[14]確定所選城市對應(yīng)的城市等級(jí);在所屬行業(yè)項(xiàng)中,分為化學(xué)原料和化學(xué)制品制造業(yè)、黑色金屬冶煉和壓延加工業(yè)、金屬制品業(yè)、醫(yī)藥制造業(yè)、有色金屬冶煉和壓延加工業(yè)和石油、煤炭及其他燃料加工業(yè)等子項(xiàng);在土地利用規(guī)劃項(xiàng)中,根據(jù)GB 36600—2018中的建設(shè)用地分類標(biāo)準(zhǔn),分為城鎮(zhèn)住宅用地、住宅用地、綠地與廣場用地、公園與綠地、居住用地、教育用地、商業(yè)用地、醫(yī)療衛(wèi)生用地、社會(huì)福利設(shè)施用地、工業(yè)用地、物流倉儲(chǔ)用地、商服用地、道路與交通設(shè)施用地、公用設(shè)施用地、公共管理與公共服務(wù)用地、除社區(qū)公園或兒童公園用地外的綠地與廣場用地子項(xiàng);在干濕指數(shù)項(xiàng)中,分為極端干旱、干旱、半干旱、半濕潤、濕潤、潮濕、過潮濕子項(xiàng);在特征污染物項(xiàng)中,根據(jù)GB 36600—2018的要求,涉及85項(xiàng)污染物;在包氣帶滲透系數(shù)最大巖性和含水層最主要巖性中,分為礫石、砂及砂卵礫石、粗砂、中砂、回填土、素填土、碎石土、細(xì)砂、石灰?guī)r、砂巖、砂質(zhì)粉土、雜填土、粉砂質(zhì)黏土、砂質(zhì)黏性土、粉土、粉質(zhì)黏土、黏土子項(xiàng)。
圖6 場地污染風(fēng)險(xiǎn)管控與修復(fù)方案推薦系統(tǒng)結(jié)果展示頁面Fig.6 Result display page of site pollution risk control and remediation scheme recommendation system
2.2.2案例檢索方法
相似度檢索時(shí),采用KNN計(jì)算源案例與目標(biāo)案例之間的相似度,實(shí)現(xiàn)從案例庫中檢索出與目標(biāo)案例相似度最高的前3個(gè)源案例。源案例與目標(biāo)案例相似度的計(jì)算采用歐式距離sim(s,t)公式,具體如下:
(1)
式中:i為檢索屬性編號(hào);m為檢索屬性的總個(gè)數(shù);wi為編號(hào)i檢索屬性的權(quán)重;Di(s,t)為源案例與目標(biāo)案例在編號(hào)i檢索屬性上歸一化處理后的距離。檢索屬性的數(shù)據(jù)類型有邏輯型和數(shù)值型2種,其Di(s,t)計(jì)算公式如下:
(2)
(3)
di(s,t)=|Psi-Pti|
(4)
式中:Psi為源案例編號(hào)i的屬性值,Pti為目標(biāo)案例編號(hào)i的屬性值s;di(s,t)為源案例和目標(biāo)案例在編號(hào)i檢索屬性上的距離;maxi為編號(hào)i的屬性值在案例庫中的最大值;mini為編號(hào)i的屬性值在案例庫中的最小值。
對于邏輯型指標(biāo),按照既定規(guī)則的文本型進(jìn)行匹配,當(dāng)2個(gè)案例的特征屬性完全匹配時(shí),得0分;不匹配時(shí),得1分,樣表見表2所示。其中,對于特征污染物指標(biāo),按照污染物類型進(jìn)行分類(圖1),以“、”進(jìn)行分割,每個(gè)類型中各污染物均作為獨(dú)立標(biāo)識(shí),判斷源案例與目標(biāo)案例的同類型污染物是否存在交集。當(dāng)有交集時(shí),賦值為0,否則為1,從而計(jì)算出待求解的目標(biāo)案例與案例庫中源案例之間的相似度。
表2 邏輯型指標(biāo)比選規(guī)則樣表
2.2.3 一致性檢驗(yàn)與權(quán)重賦值
采用層次分析法(AHP)確定各場地特征指標(biāo)的權(quán)重。先根據(jù)各場地特征指標(biāo)對方案推薦的影響程度確定其重要性,分為4個(gè)等級(jí):最重要、中等重要、重要和次重要(表3),進(jìn)而建立層次模型,構(gòu)建判斷矩陣(式5)。
表3 各特征因素的重要程度層次分值
(5)
判斷矩陣運(yùn)算過程中涉及2個(gè)重要參數(shù):
IC=(λmax-n)(n-1)
(6)
RC=ICIR
(7)
式中:λmax為判斷矩陣的最大特征根;n為構(gòu)建判斷矩陣的特征因素個(gè)數(shù);RC為一致性比率;IC為一致性指標(biāo);IR為隨機(jī)一致性指標(biāo)。
運(yùn)算式(5),生成判斷矩陣的λmax(26.236 73)和其對應(yīng)的特征向量;再根據(jù)式(6)、式(7)進(jìn)行判斷矩陣的一致性檢驗(yàn),確定IC為0.097 25,當(dāng)n=24時(shí),IR為1.651 1,RC為0.058 9(<0.1),表明一致性可接受[15-17];最后,通過歸一化處理得到各場地特征指標(biāo)的權(quán)重(表4)[7,18-19]。
表4 各場地特征指標(biāo)的權(quán)重
搜索結(jié)果呈現(xiàn)相似度最高的前3個(gè)案例(圖6),每個(gè)案例包括基本信息、污染情況、污染遷移途徑、敏感受體和其他指標(biāo),其中基本情況又包括修復(fù)方案、相似度、所屬行業(yè)、場地現(xiàn)狀等。此外,由圖6中左側(cè)不同顏色的旗幟,可查看圖4展示的相應(yīng)案例的詳細(xì)信息。
針對我國場地污染風(fēng)險(xiǎn)管控與修復(fù)方法體系的弊端和不足,借助大數(shù)據(jù)平臺(tái),通過基于結(jié)構(gòu)化層次存儲(chǔ)和搜索技術(shù),運(yùn)用案例推理和機(jī)器學(xué)習(xí),構(gòu)建了場地污染風(fēng)險(xiǎn)管控與修復(fù)方案推薦系統(tǒng)。通過研究案例庫實(shí)現(xiàn)途徑和內(nèi)容,進(jìn)行了方案推薦系統(tǒng)的結(jié)構(gòu)設(shè)計(jì)和系統(tǒng)開發(fā),建立了基于Web技術(shù)的案例檢索查詢頁面。采用KNN和AHP,計(jì)算目標(biāo)案例與源案例之間的相似度,進(jìn)而實(shí)現(xiàn)推薦相似度最高的前3個(gè)案例給決策者的功能。通過快速搜索與查找匹配源案例,提供了相對優(yōu)化的方案選取參考工具。研究成果有利于提高我國場地污染風(fēng)險(xiǎn)管理的精準(zhǔn)化、智能化、高效化和低成本化。在現(xiàn)有研究成果基礎(chǔ)上,建議后續(xù)加強(qiáng)風(fēng)險(xiǎn)管控與修復(fù)方案再用的分類研究。