王芷筠,常杪*,周黎,郭培坤,谷美楓
1.清華大學環(huán)境學院 2.攀枝花市生態(tài)環(huán)境局環(huán)境信息與技術(shù)評估服務中心
自1989年《中華人民共和國環(huán)境保護法》出臺以來,我國已制定并發(fā)布上百項國家級環(huán)境法律法規(guī)及數(shù)以萬計的各級環(huán)境保護政策。這些法律法規(guī)與政策構(gòu)成了我國環(huán)境保護政策法規(guī)體系,是政府及企事業(yè)單位環(huán)境管理人員處理各項環(huán)保工作的基本依據(jù)與行為準則,也是環(huán)境管理研究的重點對象。
然而,在政策應用方面,我國鮮有能全面覆蓋各級環(huán)境政策且不斷更新的政策法規(guī)庫來作為管理實踐的依據(jù)。在政策研究方面,傳統(tǒng)的內(nèi)容分析法也受限于人工編碼的巨大工作量,其覆蓋的政策文本量通常較小且局限于特定主題。如許陽等[1]抽樣選取161項與海洋環(huán)境保護相關(guān)的政策分析其整體演變趨勢;楊志軍等[2]基于中央政府發(fā)布的43個環(huán)境治理政策文本探討我國政府在環(huán)境治理工具選擇上的特征與偏好;Liao[3]以231項環(huán)境政策為研究對象,分析我國環(huán)境政策工具在環(huán)境創(chuàng)新方面的特征。隨著我國環(huán)境政策法規(guī)的不斷細化與政策數(shù)量的快速增加,純?nèi)斯し治龇椒ǖ木窒扌匀找嫱癸@。因此,通過文本挖掘等計算機技術(shù)輔助開展環(huán)境政策的信息提取、內(nèi)容分析以及智能化管理應用具有重要意義。
將文本挖掘技術(shù)應用于基于英文語料的環(huán)境類文本分析已有較為成熟的實踐。如Rivera等[4]運用文本挖掘技術(shù)從新聞中提取特定地區(qū)的可持續(xù)發(fā)展指標;Boussalis等[5]對超過16 000份與氣候變化相關(guān)的文本進行主題提取和計算。然而,由于中英文文本在單詞詞表和句法結(jié)構(gòu)的巨大差異,基于英文語料的研究方法和成果難以直接套用至中文語料。
目前,針對中文語料的文本挖掘研究通常依賴于開源的中文分詞工具。近年來,已經(jīng)有研究人員嘗試將這些工具應用于環(huán)境政策的文本分析。研究者通過對政策文本進行詞頻統(tǒng)計與計算,獲取環(huán)境政策的焦點變遷、時空分度、價值維度等多角度信息。如徐一方等[6]應用中國科學院研發(fā)的ICTCLAS漢語分詞系統(tǒng),對上海、重慶、天津3市的環(huán)境政策與江蘇、浙江、上海的水污染政策進行了詞頻計算與價值分析;張卉等[7]采用Jieba中文分詞包,對住房和城鄉(xiāng)建設(shè)部信息公開網(wǎng)站中,涉及“綠色改造”和“美麗鄉(xiāng)村”相關(guān)的政府文件進行分詞,其計算結(jié)果反映出政府村鎮(zhèn)建設(shè)工作重點從農(nóng)村基建向人居環(huán)境保護的轉(zhuǎn)變趨勢。
上述政策分析研究相比于傳統(tǒng)的內(nèi)容分析法擴大了研究文本的體量,使得研究結(jié)論具有更高的可信度。然而,由于現(xiàn)有分詞工具缺少環(huán)境類專業(yè)詞庫,政策文本分詞的準確度有待提升??紤]到政策文本的精準分詞是將非結(jié)構(gòu)化的政策內(nèi)容轉(zhuǎn)變?yōu)橛嬎銠C可處理的有效數(shù)據(jù)信息的必要條件,不完善的分詞結(jié)果局限了文本挖掘技術(shù)在環(huán)境政策分析與管理中的深度應用:如在政策分析方面,現(xiàn)有研究所覆蓋的文本量相對于環(huán)境政策總量仍相對較小,且難以捕捉基礎(chǔ)詞庫中缺失的環(huán)境領(lǐng)域新興概念;在政策智能化管理與應用方面,專業(yè)詞庫的缺失也限制了自動分類、關(guān)鍵詞提取、文本摘要等文本挖掘技術(shù)的應用效果。
為改善文本分詞效果,筆者以各省、自治區(qū)生態(tài)環(huán)境廳及各直轄市生態(tài)環(huán)境局政府網(wǎng)站公開的環(huán)境政策為語料基礎(chǔ),通過新詞發(fā)現(xiàn)算法與人工補充修正,構(gòu)建了環(huán)境管理領(lǐng)域?qū)I(yè)詞典,并以生態(tài)環(huán)境部信息公開文件為例,驗證了添加專業(yè)詞典對環(huán)境政策文本分詞、關(guān)鍵詞提取以及自動分類等文本挖掘算法的改善效果。
本研究旨在通過構(gòu)建環(huán)境管理領(lǐng)域的專業(yè)詞典,改善文本挖掘技術(shù)在環(huán)境政策分析與智能化管理中的應用效果。因此,全面獲取我國現(xiàn)有環(huán)境政策,構(gòu)建環(huán)境政策法規(guī)庫是研究分析的基礎(chǔ)。
經(jīng)Python爬蟲程序爬取、文本批量去重以及人工篩查3個環(huán)節(jié),共獲取生態(tài)環(huán)境部網(wǎng)站發(fā)布的8 543條環(huán)境政策法規(guī)文本,以及各省(區(qū)、市)生態(tài)環(huán)境廳(局)官網(wǎng)發(fā)布的26 279條環(huán)境政策法規(guī)文本。文本類型包括地方性法規(guī)、規(guī)章、規(guī)范性文件,環(huán)境標準,環(huán)保規(guī)劃,政策解讀及其他生態(tài)環(huán)境保護相關(guān)的信息公開文件等。從各地區(qū)政府網(wǎng)站爬取得到的政策數(shù)量見圖1,其發(fā)布年份分布見圖2。
圖1 由各省、自治區(qū)及直轄市生態(tài)環(huán)境廳(局)官網(wǎng)獲取的環(huán)境政策法規(guī)數(shù)量Fig.1 Number of environmental policies and regulations obtained from the official websites of China’s provincial departments (bureaus) of ecology and environment
圖2 各年份發(fā)布環(huán)境政策法規(guī)的數(shù)量Fig.2 Number of environmental policies and regulations issued every year
考慮到各省(區(qū)、市)環(huán)境政策公開的內(nèi)容范圍、完整度及系統(tǒng)性均存在較大差異,將以省(區(qū)、市)級環(huán)境政策作為構(gòu)建專業(yè)詞典的語料庫,以生態(tài)環(huán)境部網(wǎng)站發(fā)布的環(huán)境政策作為應用驗證的對象。
專業(yè)詞庫構(gòu)建可采用基于人工和基于計算機算法的2類方法。由于人工構(gòu)建詞庫存在主觀性強,工作量大,難以全面覆蓋各類專業(yè)詞匯等問題,而純計算機方法則難以保證構(gòu)建所得詞庫的專業(yè)性,本研究將以新詞發(fā)現(xiàn)算法為主要方法,輔助人工判斷和補充完善,構(gòu)建適用于環(huán)境管理與政策分析的專業(yè)詞庫。詞庫構(gòu)建流程如圖3所示。
圖3 環(huán)境管理專業(yè)詞庫構(gòu)建流程Fig.3 Process of developing environmental management lexicon
中文詞匯可根據(jù)是否已收錄至現(xiàn)有分詞工具的基礎(chǔ)詞典分為已登錄詞和未登錄詞。其中,未登錄詞又稱新詞,其存在是影響分詞準確度、限制文本挖掘技術(shù)應用的主要因素[8]。例如,現(xiàn)有分詞工具詞典中不含有“固廢”“再生水”等常見的環(huán)境專業(yè)詞匯,政策文本分詞在遇到上述專業(yè)詞匯時就容易出現(xiàn)錯誤,進行詞頻統(tǒng)計、關(guān)鍵詞提取、政策分類等時也難以捕捉相應詞匯所涵蓋的信息,進而影響了基于統(tǒng)計的環(huán)境政策分析效果。因此,發(fā)現(xiàn)新詞并應用于相應的專業(yè)領(lǐng)域是文本挖掘預處理的必要環(huán)節(jié)。
主流的新詞發(fā)現(xiàn)方法可分為基于統(tǒng)計和基于規(guī)則2種類型[8]。前者通常綜合考慮詞語內(nèi)部互信息與邊界信息熵[9],并根據(jù)不同的基礎(chǔ)語料,結(jié)合邏輯回歸模型[10]、Trie樹[11]等計算規(guī)則或計算方法優(yōu)化新詞發(fā)現(xiàn)的效率與結(jié)果。后者則依賴于人工構(gòu)建詞性與語義規(guī)則,一般應用于特定專業(yè)領(lǐng)域的新詞發(fā)現(xiàn)。
2.1.1內(nèi)部互信息篩選
點間互信息(pointwise mutual information,PMI)反映相鄰字或詞之間的緊密程度。其計算公式如下:
(1)
式中:x、y為相鄰的字串;xy為x和y組合而成的詞;p(x)、p(y)、p(xy)分別為x、y、xy在語料全文中出現(xiàn)的概率。PMI越高,說明相鄰字串的共現(xiàn)頻率的緊密程度越高,x、y二者越可能構(gòu)成一個固定詞匯。
對于較長的詞匯,詞串內(nèi)部應處處緊密。如PMI(源,解析)與PMI(源解,析)均超過閾值時,才能認為“源解析”是一個固定詞匯。因此在互信息計算的基礎(chǔ)上,引申出詞語內(nèi)部凝固程度的概念:對于二元詞串AB,其凝固度即為PMI(A,B);對于三元詞串ABC,其凝固度為min[PMI(A,BC),PMI(AB,C)];對于四元詞串ABCD,其凝固度為min[PMI(A,BCD),PMI(AB,CD),PMI(ABC,D)];以此類推。
為保證計算效率,環(huán)境政策文本的內(nèi)部凝固度計算參考了Github開源程序[12]。通過比對不同閾值的篩選效果,最終確定篩選規(guī)則為:對字串長度為N的詞串,其凝固度需大于等于N-1。該閾值在盡可能保留有效詞串的前提下,控制了無意義詞串的數(shù)量。
2.1.2邊界信息熵篩選
互信息反映了詞串內(nèi)部的緊密程度,而邊界信息熵則用于評判詞串是否有豐富的左右搭配。左、右信息熵計算公式如下:
(2)
(3)
式中:Hl(x)與Hr(x)分別為詞串x的左、右信息熵;sl與sr分別為詞串x的左鄰字集合和右鄰字集合;p(wlx|x)為詞串x出現(xiàn)時其左鄰字為wl的條件概率;p(xwr|x)為詞串x出現(xiàn)時其右鄰字為wr的條件概率。
詞串左、右信息熵越高,說明其左右相鄰字越不確定,該詞串越可能成為一個獨立的詞匯。研究在凝固度篩選得到詞串集合的基礎(chǔ)上,進行邊界信息熵計算,以校驗詞串是否獨立于其兩側(cè)文本。
2.1.3規(guī)則篩選
由于互信息與信息熵選用的閾值均優(yōu)先保證了詞庫的完整性,因此篩選得到的結(jié)果含有較多的無效詞匯?;谝韵?條語義相關(guān)規(guī)則對無效詞匯進行處理:1)剔除含有停用詞的詞匯結(jié)構(gòu)。停用詞指在文本中頻繁出現(xiàn),但本身不具有實際意義的字或詞[13],如“的”“這”“與”等停用詞,其對應的剔除詞匯包括“的決定”“這一系列”“運行與維護”等。2)詞頻篩選。專業(yè)詞庫所包含的詞匯應該具有一定的政策分析意義,因此,本研究的環(huán)境管理專業(yè)詞庫僅保留在語料庫中出現(xiàn)次數(shù)大于等于5次的詞匯。
由于上述新詞發(fā)現(xiàn)方法均依賴于詞串出現(xiàn)的頻率,而環(huán)境標準中出現(xiàn)的術(shù)語與指標通常具有專業(yè)性強、使用頻次低的特征,因此采用人工提取的方式,以匯總得到的2 195條環(huán)境標準為依據(jù),對常見環(huán)境指標和術(shù)語進行補充。
此外,經(jīng)上述篩選得到的詞庫仍包含個別無意義詞匯以及一些從文本分詞角度來看不必要保留的多詞元組合詞匯,如“采用國際標準”“提供司法保障”等,也需采用人工篩查的方式進行剔除。
經(jīng)上述計算與分析,得到18 633個環(huán)境政策文本常見詞匯。以常用的自動分詞工具,即Python編程語言Jieba分詞組件的自帶詞庫為對照,在所得環(huán)境管理專業(yè)詞匯中,10 166個詞匯為未登錄的新詞,占總詞庫的54.6%,其主要類型與舉例見表1。
表1 環(huán)境專業(yè)未登錄詞主要類型及舉例
由于文本挖掘的計算分析中,需要將專業(yè)詞庫與分詞工具自帶詞典整合,來作為分詞計算依據(jù),因此領(lǐng)域詞典構(gòu)建的重點在于補充的未登錄詞是否全面且具有實用意義。由表1可知,基于新詞發(fā)現(xiàn)算法與人工篩選補充得到的Jieba未登錄詞整體上呈現(xiàn)出較為明顯的專業(yè)特征,全面覆蓋環(huán)境管理的各個角度,且能體現(xiàn)出相對新穎和熱門的環(huán)境管理概念。
此外,通過計算與篩選得到的8 467個已登錄詞中,多數(shù)詞匯為日常生活中常見的基礎(chǔ)詞,如“小型”“奧運會”“人身安全”等,這些詞匯出現(xiàn)于環(huán)境政策文本中,但專業(yè)特征不明顯;也有少數(shù)詞匯呈相對明顯的環(huán)境專業(yè)特征,如“亂砍濫伐”“高污染”“水土流失”等等。
以生態(tài)環(huán)境部官網(wǎng)發(fā)布的環(huán)境政策法規(guī)文件為分析對象,結(jié)合中文分詞工具,對專業(yè)詞庫在環(huán)境政策法規(guī)文本信息提取與智能化管理方面的應用進行了以下實證。
常見的中文分詞工具包括Jieba、ICTCLAS、LTP、THULAC等[14]。這些工具均可通過Python編程語言加載使用。其中,Jieba分詞工具包含多種分詞模式,可滿足語句精準切分、詞串全面掃描、長詞二次切分等多樣化的研究需求;且經(jīng)少量文本測試,Jieba分詞工具對環(huán)境管理類用戶自定義詞典適配效果最佳。因此,本研究選用Jieba分詞工具精確分詞模式對環(huán)境政策法規(guī)文本進行切分。
3.2.1分詞結(jié)果舉例
以生態(tài)環(huán)境部辦公廳2020年發(fā)布的環(huán)辦水體函〔2020〕52號第二條[15]中部分內(nèi)容為例,在未添加環(huán)境管理專業(yè)詞典時,分詞結(jié)果如下:地方/生態(tài)環(huán)境/部門/要/督促/城鎮(zhèn)/污水/處理廠/切實加強/消毒/工作/,/結(jié)合實際/,/采取/投加/消毒劑/或/臭氧/、/紫外線/消毒/等/措施/,/確保/出水/糞/大腸菌群/數(shù)/指標/達到/《/城鎮(zhèn)/污水/處理廠/污染物/排放/標準/》/(/GB/18918/—/2002/)/要求/。
添加新詞后,上述語段分詞結(jié)果如下:地方/生態(tài)環(huán)境/部門/要/督促/城鎮(zhèn)污水處理廠/切實加強/消毒/工作/,/結(jié)合實際/,/采取/投加/消毒劑/或/臭氧/、/紫外線/消毒/等/措施/,/確保/出水/糞大腸菌群數(shù)/指標/達到/《/城鎮(zhèn)污水處理廠/污染物排放標準/》/(/GB/18918/—/2002/)/要求/。
可以看出,添加新詞后的分詞結(jié)果保留了更為緊密的詞串概念,如“城鎮(zhèn)污水處理廠”,且減少了原有分詞存在的錯誤,如原分詞結(jié)果將“糞大腸菌群數(shù)”切分為3個詞串。分詞效果的改善有利于文本數(shù)據(jù)處理與分析時更精準地提取信息單元。
3.2.2分詞效果評判
評判文本分詞效果的指標包括召回率(recall rate,R),準確率(precision rate,P),以及結(jié)合二者的綜合評價值(F)。其中,R為算法正確識別的詞數(shù)與實際詞數(shù)的比值,%;P為算法正確識別的詞數(shù)與分詞得到的總詞數(shù)的比值,%;F為準確率和召回率的調(diào)和平均值[16],%。F的計算公式如下:
F=2PR(P+R)
(4)
以隨機選取的50條政策文本為測試對象,比對人工分詞結(jié)果,得到未添加專業(yè)詞庫的分詞效果與添加專業(yè)詞庫分詞效果見表2。由表2可見,添加專業(yè)詞庫后,文本分詞效果有明顯的改善。
表2 文本分詞效果比較
政策文本分詞詞頻統(tǒng)計常用于分析政策熱點問題。結(jié)合原始文本的時間與空間信息,還可用于探究政策的發(fā)展演變趨勢與時空分布特征。
分別使用Jieba原有詞典與補充專業(yè)詞庫后的優(yōu)化詞典對生態(tài)環(huán)境部信息公開的政策文件進行分詞與詞頻統(tǒng)計,統(tǒng)計新增專業(yè)詞匯最高頻的前20項及其出現(xiàn)頻次見表3,對2種方法下計算得到的前100項高頻詞根據(jù)詞頻數(shù)繪制詞云見圖4。
表3 新增詞典高頻詞前20項及其詞頻
圖4 原有詞典分詞與優(yōu)化詞典分詞詞頻統(tǒng)計前100項高頻詞Fig.4 Top 100 high-frequency words based on original dictionary and optimized dictionary
相較于Jieba原始詞庫的計算結(jié)果,新增詞庫后所得分詞統(tǒng)計結(jié)果呈現(xiàn)出更為多樣的專業(yè)概念。同時,由于新增專業(yè)詞庫包含相對新穎和熱門的專業(yè)詞匯,詞頻計算結(jié)果也能更好地支撐各類環(huán)境政策的演變趨勢分析與地域性特征探究。
關(guān)鍵詞提取是文本挖掘技術(shù)應用的重要領(lǐng)域之一,也是文本摘要、文本檢索等技術(shù)的應用基礎(chǔ)[17]?;谖谋娟P(guān)鍵詞提取的詞頻統(tǒng)計與共現(xiàn)性計算常用于環(huán)境類文本的計量分析、聚類與可視化[18-19]。與詞頻分析類似,現(xiàn)有研究多受限于人工提取關(guān)鍵詞的較大工作量或人工設(shè)計關(guān)鍵詞的主觀性,研究過程與結(jié)論可通過結(jié)合關(guān)鍵詞自動提取技術(shù)進行優(yōu)化。
全面且有效的詞庫是準確提取關(guān)鍵詞的基礎(chǔ)。采用改進的TF-IDF算法,在過濾停用詞的基礎(chǔ)上,對生態(tài)環(huán)境部發(fā)布的政策文本進行關(guān)鍵詞提取,并比對了添加詞庫前后的提取效果。
3.4.1改進的TF-IDF算法
TF-IDF算法是無監(jiān)督文本關(guān)鍵詞提取的經(jīng)典算法之一[20]。TF(term frequency)指詞串在全文中出現(xiàn)的總詞頻。IDF(inverse document frequency)指逆文檔頻率,用于詞頻加權(quán),如果一個詞串在某些文本中出現(xiàn)頻率高,而在其他文本中出現(xiàn)頻率低,則認為該詞串具有較好的類別區(qū)分能力,應具有更高的權(quán)重。改進的TF-IDF算法將TF優(yōu)化為詞串在全文中出現(xiàn)的次數(shù)占比,以避免長文本造成TF過高的情況[21]。改進的TF-IDF的wdt計算公式如下:
式中:mdt為詞串t在文本d中出現(xiàn)的頻次;Md為文本d的總詞數(shù);N指用于關(guān)鍵詞提取的全部文本總數(shù);nt指詞串出現(xiàn)的文本總數(shù)。計算結(jié)果越大,說明該詞串在所出現(xiàn)的文本中越重要。
3.4.2關(guān)鍵詞提取效果對比
以生態(tài)環(huán)境部2020年發(fā)布的政策文本為研究對象,對每個政策文本提取5個關(guān)鍵詞,依加權(quán)計算得到的詞串重要性排序。相對于未添加專業(yè)詞庫的情景,添加專業(yè)詞庫后,多數(shù)政策文本的關(guān)鍵詞提取結(jié)果得到優(yōu)化,能更充分地體現(xiàn)原文核心內(nèi)容,且符合人工判斷的預期。關(guān)鍵詞提取結(jié)果舉例見表4。
表4 關(guān)鍵詞提取效果對比(舉例)
由于環(huán)境政策法規(guī)文本數(shù)量的不斷增加,人工進行文本分類與整理的難度也明顯上升。因此,文研究自動分類是文本挖掘技術(shù)在環(huán)境政策智能化管理方面的重要應用之一。
選取生態(tài)環(huán)境部發(fā)布的2 275項政策法規(guī)文本,根據(jù)其針對的環(huán)境要素分為水環(huán)境、大氣環(huán)境、土壤環(huán)境、聲環(huán)境、海洋環(huán)境、自然與生態(tài)環(huán)境、固體廢物、核與輻射、氣候變化、綜合類、其他共11個類別。其中,綜合類指涵蓋多種環(huán)境要素的政策文本,如政策法規(guī)同時涉及水環(huán)境與土壤環(huán)境問題。其他類指不明確涉及特定環(huán)境要素的政策文本,如“環(huán)境保護模范城市”“部門預算”等相關(guān)政策。各類政策數(shù)量見圖5。
圖5 政策法規(guī)人工分類結(jié)果Fig. 5 Result of manual policy classification
對上述人工分類結(jié)果,隨機選取其中80%的政策文本作為訓練集,將另外20%的政策法規(guī)文本作為測試集,采用TF-IDF加權(quán)方法將分詞后的政策法規(guī)文本轉(zhuǎn)化為向量,并分別選用3種常見的機器學習模型,即貝葉斯模型、邏輯回歸模型以及支持向量機模型[21]進行自動分類測試,將自動分類結(jié)果與人工分類結(jié)果進行比對,計算自動分類正確率,結(jié)果如表5所示。
上述分類模型在處理具有不同語言特征的語料時,其效果存在差異。計算結(jié)果表明,無論是否添加詞庫,支持向量機模型對環(huán)境政策法規(guī)文本的自動分類效果都為最優(yōu),因此實際應用中建議使用支持向量機模型進行自動分類處理。使用該模型時,新增詞庫有助于分類正確率的提升,自動分類錯誤的政策法規(guī)數(shù)量從22下降到17,分類誤判數(shù)量相對降低了22.7%。
表5 測試集自動分類正確率
為改善政策文本分詞效果,促進文本挖掘技術(shù)在環(huán)境政策分析與智能化管理的應用,通過新詞發(fā)現(xiàn)算法與人工補充修正構(gòu)建得到環(huán)境管理專業(yè)詞庫。詞庫構(gòu)建方法可用于領(lǐng)域?qū)I(yè)詞匯的持續(xù)更新,以滿足隨環(huán)境政策法規(guī)文本增加而不斷發(fā)展的政策分析和智能化管理需求。在詞庫構(gòu)建的基礎(chǔ)上,通過詞頻統(tǒng)計、分詞效果比對、關(guān)鍵詞提取、文本自動分類等應用實踐,驗證了詞庫的實用價值。