關(guān)鍵詞:污染源;企業(yè)畫像;精準(zhǔn)監(jiān)管;數(shù)據(jù)挖掘
中圖分類號:X171.1 文獻(xiàn)標(biāo)志碼:A
前言
隨著工業(yè)化和城市化的快速發(fā)展,環(huán)境污染源的精準(zhǔn)監(jiān)管成為環(huán)境治理的關(guān)鍵環(huán)節(jié)。不少學(xué)者探討了企業(yè)污染的相關(guān)問題。如文獻(xiàn)[1]韋嘯等提出基于多通道分布式VOCs在線監(jiān)測質(zhì)譜系統(tǒng)精準(zhǔn)識別企業(yè)污染源的方法,建立了一個(gè)多通道分布式質(zhì)譜系統(tǒng),通過該系統(tǒng)在企業(yè)內(nèi)部和廠界設(shè)置多個(gè)在線監(jiān)測點(diǎn)位,連續(xù)監(jiān)測VOCs無組織排放污染源。運(yùn)用PMF模型解析廠區(qū)環(huán)境大氣VOCs的污染源因子,再結(jié)合CBPF方法識別各個(gè)污染源因子的地理位置信息。但是,該方法需要較高的初始投資用于購買和維護(hù)多通道監(jiān)測設(shè)備,且數(shù)據(jù)分析過程較為復(fù)雜,需要專業(yè)的技術(shù)人員進(jìn)行操作和維護(hù)。為解決深圳市生態(tài)環(huán)境局當(dāng)前污染源監(jiān)管“人少事多量大”的困難局面,避免污染源企業(yè)數(shù)據(jù)造假問題,提升污染源監(jiān)管效率。提出一種基于大數(shù)據(jù)和畫像的污染源精準(zhǔn)監(jiān)管方法。通過運(yùn)用大數(shù)據(jù)和人工智能、機(jī)器學(xué)習(xí)、知識圖譜等新技術(shù)構(gòu)建污染源企業(yè)環(huán)保全景多維度畫像體系,賦能污染源監(jiān)管執(zhí)法自動(dòng)推薦、不同用戶的個(gè)性化自動(dòng)推薦、主動(dòng)通過檢索快速查找到所需的污染源數(shù)據(jù),彌補(bǔ)監(jiān)管漏洞。從而實(shí)現(xiàn)污染源精準(zhǔn)化監(jiān)管、科學(xué)化決策、精細(xì)化管理。
1研究方法和主要思路
1.1研究方法
通過深圳市生態(tài)環(huán)境局用戶的實(shí)際調(diào)研,針對管理者、決策者和監(jiān)管人員的訪談充分了解用戶需求的基礎(chǔ)上,開展“企業(yè)環(huán)保畫像”場景實(shí)現(xiàn)污染源精準(zhǔn)監(jiān)管的應(yīng)用研究。
1.2主要思路
如圖1所示,污染源企業(yè)環(huán)保畫像體系的構(gòu)建,應(yīng)以生態(tài)環(huán)境大數(shù)據(jù)平臺(tái)整體框架為基礎(chǔ),匯聚污染源企業(yè)全域數(shù)據(jù),通過建模形成企業(yè)環(huán)保行為特征標(biāo)簽體系,為執(zhí)法應(yīng)用、個(gè)性化推薦、智能檢索等具像化應(yīng)用場景提供技術(shù)支撐,最終實(shí)現(xiàn)“千企千面”智慧化運(yùn)營和精準(zhǔn)監(jiān)管。同時(shí),借助污染源企業(yè)環(huán)保畫像建立以下四大“核心能力”。
(1)建立“動(dòng)態(tài)采集+數(shù)據(jù)認(rèn)證”的污染源數(shù)據(jù)收集網(wǎng)絡(luò)體系。
(2)建立“污染源企業(yè)+大數(shù)據(jù)+人工智能+知識圖譜”的能力核心。
(3)建立“執(zhí)法應(yīng)用+個(gè)性化推薦+智能檢索”的數(shù)據(jù)應(yīng)用場景模式。
(4)建立“數(shù)據(jù)庫+專家經(jīng)驗(yàn)智庫”的污染源權(quán)威評估和決策方式。
2總體框架和技術(shù)方案
2.1總體框架
系統(tǒng)包括管理平臺(tái)與畫像構(gòu)建及應(yīng)用兩個(gè)主要組成部分。
管理平臺(tái)主要對標(biāo)簽進(jìn)行管理,畫像應(yīng)用場景模型的構(gòu)建,模型成效分析、標(biāo)簽行為分析、標(biāo)簽數(shù)據(jù)生產(chǎn)計(jì)劃任務(wù)管理、系統(tǒng)用戶權(quán)限、日志管理等基礎(chǔ)功能。
畫像構(gòu)建及應(yīng)用,主要包括從數(shù)據(jù)采集、畫像構(gòu)建、畫像分析、畫像可視化到應(yīng)用場景模型、模型成效改進(jìn)等幾部分建設(shè)內(nèi)容。(見圖2)
2.2技術(shù)方案
實(shí)現(xiàn)基于生態(tài)環(huán)境大數(shù)據(jù)構(gòu)建“企業(yè)環(huán)保畫像”助力污染源精準(zhǔn)監(jiān)管,從數(shù)據(jù)準(zhǔn)備、企業(yè)環(huán)境畫像構(gòu)建、企業(yè)環(huán)境畫像可視化、企業(yè)環(huán)境畫像應(yīng)用等幾個(gè)步驟進(jìn)行實(shí)現(xiàn)。
2.2.1數(shù)據(jù)準(zhǔn)備
2.2.1.1數(shù)據(jù)基礎(chǔ)
構(gòu)建企業(yè)環(huán)境行為畫像,需要企業(yè)全生命周期高質(zhì)量數(shù)據(jù)作為支撐。針對深圳市,現(xiàn)有監(jiān)管污染源企業(yè)達(dá)九萬余家,包括重點(diǎn)污染源企業(yè)、一般污染源企業(yè)和已核發(fā)排污許可證企業(yè)等,生態(tài)環(huán)境大數(shù)據(jù)中心已經(jīng)匯聚了環(huán)評、許可證、執(zhí)法、行政處罰、監(jiān)測、申報(bào)等多元數(shù)據(jù),所擁有數(shù)量已達(dá)120億條,并且以每天5000萬條的數(shù)據(jù)產(chǎn)生量在持續(xù)增加。
2.2.1.2數(shù)據(jù)融合
由于政府各個(gè)部門、企業(yè)、三方機(jī)構(gòu)等的基礎(chǔ)數(shù)據(jù)存在差異,需提取基本屬性、污染排放、社會(huì)監(jiān)督、行政執(zhí)法等企業(yè)對環(huán)境產(chǎn)生影響的部分,基于這些數(shù)據(jù),采用ETL技術(shù)進(jìn)行數(shù)據(jù)抽取,清洗,創(chuàng)建企業(yè)環(huán)境行為畫像構(gòu)建需要的各類主題數(shù)據(jù)庫。
2.2.2標(biāo)簽體系構(gòu)建
2.2.2.1標(biāo)簽體系
數(shù)據(jù)準(zhǔn)備好后,通過調(diào)研與海量歷史數(shù)據(jù)分析結(jié)果,基于目的性、全面性、可獲取性、可比性原則確定標(biāo)簽體系,包括基本屬性、污染排放、社會(huì)監(jiān)督、行政執(zhí)法、環(huán)境風(fēng)險(xiǎn)、環(huán)境管理、生態(tài)保護(hù)等維度。其中,目的性原則即根據(jù)研究目的選取標(biāo)簽體系;全面性原則即選取的標(biāo)簽體系盡量涵蓋企業(yè)各個(gè)方面;可獲取性原則即可行性原則,確保選取的標(biāo)簽體系是容易獲得并具有代表性的;可比性原則即確保所有標(biāo)簽的量綱統(tǒng)一,使標(biāo)簽之間具有可比性。
2.2.2.2標(biāo)簽數(shù)據(jù)開發(fā)
根據(jù)“數(shù)倉分層建模理論”建立以上述7個(gè)維度為主的三級模糊標(biāo)簽指標(biāo)體系,通過將訓(xùn)練數(shù)據(jù)引入BERT(Bidirectional Encoder Representation from Transformers)即預(yù)訓(xùn)練語言表征模型,抽取不同維度的底層標(biāo)簽,并依據(jù)標(biāo)簽抽取的不同方法劃分標(biāo)簽類型,包括:(1)統(tǒng)計(jì)類標(biāo)簽,根據(jù)企業(yè)多維度數(shù)據(jù)進(jìn)行統(tǒng)計(jì)而來;(2)規(guī)則類標(biāo)簽,定義規(guī)則,設(shè)置定時(shí)任務(wù),根據(jù)規(guī)則進(jìn)行規(guī)則類標(biāo)簽的開發(fā);(3)數(shù)據(jù)挖掘類標(biāo)簽,通過數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)方法進(jìn)行標(biāo)簽的產(chǎn)生,一般通過監(jiān)測數(shù)據(jù)為主,融合其他數(shù)據(jù)進(jìn)行某種特定規(guī)律的發(fā)現(xiàn)、數(shù)據(jù)預(yù)測等。
2.2.2.3標(biāo)簽特征抽取
很多標(biāo)簽容易出現(xiàn)表達(dá)不明確的問題,為了使企業(yè)畫像更為精確,需要對模糊標(biāo)簽進(jìn)行特征提取。先利用BERT模型將模糊標(biāo)簽向量化,再通過特征融合方式,對多源標(biāo)簽進(jìn)行向量拼接,并根據(jù)標(biāo)簽打分結(jié)果計(jì)算該權(quán)重,對其賦予權(quán)重后得到特征融合后的企業(yè)信息;再將該向量信息引入BiLSTM(雙向長短期記憶網(wǎng)絡(luò),Bi-directional Long Short-Term Memory)網(wǎng)絡(luò)捕捉雙向語義依賴,得到更為準(zhǔn)確的次級標(biāo)簽,并構(gòu)建相應(yīng)的標(biāo)簽庫。例如,某化工企業(yè)被群眾投訴夜間排放污染廢水,投訴中包括企業(yè)具體違法行為、時(shí)間,將其向量化后乘以權(quán)重并與執(zhí)法記錄對應(yīng)的執(zhí)法時(shí)間及該企業(yè)處罰結(jié)果進(jìn)行向量拼接,得到企業(yè)“偷排”這一次級標(biāo)簽,并計(jì)算此標(biāo)簽權(quán)重。
統(tǒng)計(jì)類標(biāo)簽主要是管理標(biāo)簽的啟用/禁用狀態(tài);規(guī)則類標(biāo)簽可以修改標(biāo)簽的計(jì)算規(guī)則、啟用/禁用狀態(tài)等;數(shù)據(jù)挖掘類標(biāo)簽需要在標(biāo)簽管理中根據(jù)經(jīng)驗(yàn)與應(yīng)用進(jìn)行人工確認(rèn)與命名,例如:企業(yè)污染排放的規(guī)律、污染排放的周期性特征行為、排放數(shù)據(jù)造假行為等挖掘類標(biāo)簽。
2.2.3企業(yè)環(huán)境畫像構(gòu)建
利用數(shù)據(jù)挖掘、人工智能、機(jī)器學(xué)習(xí)等技術(shù)方法,分析企業(yè)環(huán)境行為特征,刻畫企業(yè)動(dòng)態(tài)標(biāo)簽,并根據(jù)建立的標(biāo)簽體系,構(gòu)建企業(yè)環(huán)境畫像。
根據(jù)各一級標(biāo)簽下二級標(biāo)簽的加權(quán)平均數(shù),得到一級標(biāo)簽的權(quán)重配比,即企業(yè)整體畫像中不同維度的貢獻(xiàn)率,構(gòu)建出整體企業(yè)畫像。例:社會(huì)監(jiān)督維度權(quán)重30%,即社會(huì)監(jiān)督維度在企業(yè)整體畫像的貢獻(xiàn)率為30%,則整體企業(yè)畫像中社會(huì)投訴生成的標(biāo)簽重要度為30%。同時(shí)也可以提取同一行業(yè)、同一區(qū)域等標(biāo)簽,根據(jù)含此類標(biāo)簽企業(yè)整體畫像進(jìn)一步構(gòu)建行業(yè)企業(yè)畫像或區(qū)域企業(yè)畫像等。
2.2.4應(yīng)用場景模型
結(jié)合用戶實(shí)際的應(yīng)用場景,通過標(biāo)簽的有機(jī)組合,形成各個(gè)應(yīng)用場景模型,通過應(yīng)用場景模型賦能相應(yīng)的業(yè)務(wù)系統(tǒng),使業(yè)務(wù)系統(tǒng)使用起來更智能化,同時(shí)通過業(yè)務(wù)系統(tǒng)使用的反饋數(shù)據(jù),如執(zhí)法系統(tǒng)推薦企業(yè)執(zhí)法命中率等數(shù)據(jù),進(jìn)一步調(diào)優(yōu)模型,使模型更精準(zhǔn)。
3案例應(yīng)用情況
深圳市生態(tài)環(huán)境局現(xiàn)有監(jiān)管污染源企業(yè)達(dá)九萬余家,包括重點(diǎn)污染源企業(yè)、一般污染源企業(yè)和已核發(fā)排污許可證企業(yè)等,其中需要重點(diǎn)監(jiān)管的企業(yè)有一萬多家,但是執(zhí)法人員僅有400余人,基本上每個(gè)執(zhí)法人員需要監(jiān)管約200家企業(yè),再加上現(xiàn)場執(zhí)法耗時(shí)長,平均一天執(zhí)法人員只能現(xiàn)場執(zhí)法3~4家企業(yè)。通過給污染源企業(yè)進(jìn)行特征標(biāo)簽,然后將標(biāo)簽中與違法情形掛鉤的標(biāo)簽有機(jī)組合,形成執(zhí)法推薦模型,可以有效地幫助監(jiān)管執(zhí)法人員在現(xiàn)場執(zhí)法過程中命中違法企業(yè),而非靠運(yùn)氣隨機(jī)發(fā)現(xiàn)違法企業(yè),大大提高了監(jiān)管執(zhí)法人員的工作效率,并有效地降低了企業(yè)違法的僥幸心理。另外,通過不斷的現(xiàn)場執(zhí)法實(shí)踐,反饋推薦企業(yè)中違法企業(yè)的數(shù)量、基本信息等數(shù)據(jù),可以幫助執(zhí)法推薦模型進(jìn)一步優(yōu)化,提升未來命中違法企業(yè)的準(zhǔn)確率。
4結(jié)束語
依托深圳大數(shù)據(jù)平臺(tái)匯集的各類企業(yè)生產(chǎn)經(jīng)營活動(dòng)中產(chǎn)生的數(shù)據(jù),利用規(guī)律計(jì)算、大數(shù)據(jù)挖掘算法、機(jī)器學(xué)習(xí)等方式,結(jié)合污染源監(jiān)管業(yè)務(wù)場景等需求,構(gòu)建完善、動(dòng)態(tài)的標(biāo)簽體系形成企業(yè)畫像,采集污染源企業(yè)環(huán)境行為特征體系,提取和識別污染源企業(yè)特征行為,幫助生態(tài)環(huán)境監(jiān)管部門構(gòu)建污染源企業(yè)環(huán)保標(biāo)簽體系,為業(yè)務(wù)系統(tǒng)賦能,使污染源監(jiān)管更智能,更精準(zhǔn)。企業(yè)畫像應(yīng)用場景豐富,改變了傳統(tǒng)企業(yè)檔案管理應(yīng)用模式,發(fā)揮了大數(shù)據(jù)平臺(tái)的價(jià)值,為生態(tài)環(huán)境監(jiān)管部門減輕工作壓力,針對污染源企業(yè)的監(jiān)管效率也大大提升。在大數(shù)據(jù)相關(guān)技術(shù)高速發(fā)展的時(shí)代,作為污染源企業(yè)監(jiān)管人員,應(yīng)當(dāng)積極轉(zhuǎn)變思維模式與工作方式,借助科技的手段,精準(zhǔn)有效的實(shí)現(xiàn)環(huán)保監(jiān)管。