段長宇,胡裕民,趙志杰,李曉亮
(1.北京大學(xué)環(huán)境科學(xué)與工程學(xué)院,北京 100871;2.生態(tài)環(huán)境部環(huán)境規(guī)劃院,北京 100012)
隨著互聯(lián)網(wǎng)的普及化,環(huán)境信息頻繁出現(xiàn)于網(wǎng)絡(luò)新聞報(bào)道和社交平臺,形成了大量與環(huán)境相關(guān)的互聯(lián)網(wǎng)信息文本。這些文本包含了地區(qū)環(huán)境質(zhì)量、環(huán)境表現(xiàn)等信息,屬于一類重要的生態(tài)環(huán)境大數(shù)據(jù)[1]。利用互聯(lián)網(wǎng)環(huán)境傳播文本評價(jià)地區(qū)的環(huán)境表現(xiàn),有助于認(rèn)知當(dāng)?shù)氐沫h(huán)境問題,推進(jìn)城市的環(huán)境管理工作和可持續(xù)發(fā)展[2]。
與環(huán)境監(jiān)測數(shù)據(jù)不同,互聯(lián)網(wǎng)傳播文本結(jié)構(gòu)多樣、內(nèi)容復(fù)雜,收集和處理方法比較依賴于計(jì)算機(jī)文本處理技術(shù),即自然語言處理技術(shù)(natural language progressing,NLP)。自然語言處理指的是計(jì)算機(jī)批量處理文本的方法,其本質(zhì)與人類對文本的閱讀、統(tǒng)計(jì)和分析相同,被廣泛地運(yùn)用到機(jī)器翻譯、語音協(xié)助和文本識別等領(lǐng)域。自然語言處理技術(shù)的興起,使網(wǎng)絡(luò)文本處理的效率和精度大幅提升。
互聯(lián)網(wǎng)傳播文本形式多樣,包括社交媒體討論和環(huán)境新聞等,研究選取互聯(lián)網(wǎng)環(huán)境新聞作為研究對象。環(huán)境新聞也稱為環(huán)境報(bào)道,其定義并不明確??傮w而言,環(huán)境新聞可以看作是一種傳遞環(huán)境信息,反映環(huán)境問題的新聞報(bào)道。針對網(wǎng)絡(luò)環(huán)境新聞的研究集中于環(huán)境新聞的發(fā)展歷程[3]、環(huán)境新聞的分類框架以及環(huán)境傳播中特定媒體的表現(xiàn)作用[4]。除此之外,與地區(qū)相關(guān)的環(huán)境新聞,包含該地區(qū)的環(huán)境信息,可以用來分析特定主體的環(huán)境形象[5]。此類研究尚處于起步階段,相關(guān)研究分別針對省級區(qū)域[6]、政府主體以及國家層面進(jìn)行了概念闡述和探討[7-8]。
本文從互聯(lián)網(wǎng)新聞文本出發(fā),基于自然語言處理技術(shù),構(gòu)建地區(qū)環(huán)境形象評價(jià)方法,并針對長三角地區(qū)的環(huán)境新聞,探討方法的可行性。研究還根據(jù)互聯(lián)網(wǎng)環(huán)境文本的特點(diǎn),梳理分析了地區(qū)環(huán)境形象的整體特征,建立了環(huán)境領(lǐng)域的特有語料庫和評價(jià)指標(biāo),為文本類型的生態(tài)環(huán)境大數(shù)據(jù)處理提供一定參考。
環(huán)境形象指的是某一主體在環(huán)境領(lǐng)域?qū)姰a(chǎn)生的印象,是該主體環(huán)境行為的外在表現(xiàn)。以地區(qū)為例,環(huán)境形象代表了地區(qū)在環(huán)境領(lǐng)域的發(fā)展?fàn)顩r,包括該地區(qū)的重點(diǎn)環(huán)境問題、突出的環(huán)境事件以及公眾對該地區(qū)的環(huán)境評價(jià)。
環(huán)境形象評價(jià)方法的研究路線見圖1。第一步,利用網(wǎng)絡(luò)爬蟲從互聯(lián)網(wǎng)獲取與環(huán)境相關(guān)的網(wǎng)絡(luò)文本,清洗、過濾無關(guān)部分,剩余的環(huán)境文本主要包括該地區(qū)的環(huán)境新聞和社交媒體討論等。第二步,采用專家評測的方式,劃分環(huán)境評價(jià)的維度。將訓(xùn)練文本人工標(biāo)簽,構(gòu)建標(biāo)準(zhǔn)的分析語料庫。第三步,基于構(gòu)建的環(huán)境形象語料庫,采用支持向量機(jī)(SVM)、樸素貝葉斯(BAYES)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)3種算法,調(diào)整語料數(shù)量和訓(xùn)練模式,優(yōu)化評價(jià)模型。第四步,利用測試文本檢測不同環(huán)境評價(jià)模型的效果,最終構(gòu)建環(huán)境形象評價(jià)方法。
環(huán)境形象具有不同維度,與環(huán)境新聞的結(jié)構(gòu)和環(huán)境領(lǐng)域的特點(diǎn)相關(guān)?;ヂ?lián)網(wǎng)環(huán)境新聞分布廣泛、數(shù)量巨大,包含公眾的情感傾向。在傳播的過程中,環(huán)境新聞還產(chǎn)生了轉(zhuǎn)載、發(fā)布時(shí)間以及傳播鏈等信息。環(huán)境新聞的內(nèi)容一般會涉及明顯的環(huán)境要素,如水環(huán)境、大氣、土壤、固體廢物、重金屬等。環(huán)境新聞在來源上也具有一定差異,主要的來源包括:新聞門戶網(wǎng)站、政府公告和通報(bào)以及企業(yè)的環(huán)保宣傳等。
根據(jù)環(huán)境新聞的特點(diǎn)和地區(qū)環(huán)境分析的需要,研究從3 個(gè)維度對環(huán)境新聞進(jìn)行標(biāo)簽,分別是環(huán)境新聞包含的環(huán)境要素、新聞表現(xiàn)出的情感傾向以及環(huán)境新聞本身的文體來源。按照文本涉及的環(huán)境要素,新聞文本分為6 類標(biāo)簽,包括水、空氣、土壤、廢物、生物和噪聲。按照新聞的具體來源,新聞文本分為5 類標(biāo)簽,包括公司廣告、環(huán)境質(zhì)量公開、一般環(huán)境新聞、政府公告和其他。其基本內(nèi)容和來源如表1 所示。
按照文本內(nèi)容包含的情感傾向,環(huán)境新聞分為5 個(gè)等級,程度從負(fù)面到正面依次增加,分別為“非常負(fù)面”“較為負(fù)面”“無明顯傾向”“較為正面”和“非常正面”,其典型內(nèi)容和代表詞匯如表2 所示。
表2 情感傾向
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)在文本挖掘領(lǐng)域應(yīng)用廣泛,常用的算法包括樸素貝葉斯、卷積神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等[9]。在環(huán)境研究領(lǐng)域,互聯(lián)網(wǎng)環(huán)境文本格式不統(tǒng)一,內(nèi)容復(fù)雜。文本內(nèi)容經(jīng)常表現(xiàn)為社會-環(huán)境復(fù)合類型,處理難度較大。環(huán)境領(lǐng)域的研究主要利用文本分類和情感分析手段處理互聯(lián)網(wǎng)環(huán)境文本,挖掘其內(nèi)在信息,從而推進(jìn)環(huán)境管理工作。總體而言,環(huán)境文本的處理分析主要包含以下5 個(gè)研究方向:(1)環(huán)境管理政策的研究和優(yōu)化。在企業(yè)環(huán)境表現(xiàn)和環(huán)境績效評價(jià)上,通過詞義分析,可從文本中挖掘新的評價(jià)指標(biāo)[10],從而優(yōu)化傳統(tǒng)的環(huán)境評價(jià)方法[11]。(2)環(huán)境事件的傳播規(guī)律和應(yīng)對策略。與環(huán)境領(lǐng)域相關(guān)的輿情包含大量的情緒信息,利用自然語言處理技術(shù),可以快速分析公眾對環(huán)境事件的反映[12],更好地解決社會發(fā)展與環(huán)境保護(hù)之間的沖突[13]。互聯(lián)網(wǎng)環(huán)境討論文本在經(jīng)過情感分析和時(shí)空統(tǒng)計(jì)后,可以揭示公眾對環(huán)境事件(霧霾天氣)的關(guān)注程度與時(shí)間響應(yīng)狀態(tài),有助于政府了解公眾情緒,應(yīng)對環(huán)境危機(jī)[14]。(3)利用社交媒體信息預(yù)警和報(bào)告環(huán)境公共事件。2011 年,有研究者提出將互聯(lián)網(wǎng)討論作為新型傳感器的方法和概念,用以及時(shí)發(fā)現(xiàn)和報(bào)告自然災(zāi)害[15]。此后,相關(guān)概念和研究框架逐漸明晰,網(wǎng)絡(luò)社交媒體討論也被廣泛地應(yīng)用到多個(gè)環(huán)境場景識別領(lǐng)域[16]。此類研究主要集中于環(huán)境突發(fā)事件的管理,包括地震發(fā)生時(shí)震源和程度的識別[17]、山火的監(jiān)測和預(yù)警[18]、洪澇災(zāi)害強(qiáng)度的報(bào)告等[19]。(4)通過社交媒體促進(jìn)公眾環(huán)保行動[20]。社交媒體上存在大量與環(huán)境政策相關(guān)的討論。這些文本包含了公眾對環(huán)境政策的態(tài)度和認(rèn)知情況?;谶@類環(huán)境文本,可以調(diào)查公眾對生物防治政策的支持度[21]、公眾對氣候變化狀況的認(rèn)同感以及氣候變化在社交輿情上的傳播路徑和情感表現(xiàn)[22-24]。(5)補(bǔ)充傳統(tǒng)的環(huán)境質(zhì)量監(jiān)測手段[25]。環(huán)境空氣質(zhì)量的變化會在互聯(lián)網(wǎng)上引發(fā)討論。許多研究基于社交媒體上與天氣相關(guān)的討論文本,結(jié)合空氣質(zhì)量監(jiān)測數(shù)據(jù),建立響應(yīng)模型,從而對地區(qū)的空氣環(huán)境質(zhì)量進(jìn)行實(shí)時(shí)推算[26],類似研究已經(jīng)在推特以及新浪微博等社交媒體上得到驗(yàn)證[27-28]。
1.3.1 監(jiān)督式學(xué)習(xí)算法
研究采用監(jiān)督式學(xué)習(xí)算法構(gòu)建文本分類和情感分析模型。文本分詞算法選用結(jié)巴(JIEBA)分詞,計(jì)算詞頻權(quán)重時(shí)采用詞頻-逆文檔頻次算法(term frequency-inverse document frequency,TF-IDF)。詞頻-逆文檔頻次算法是一種基于統(tǒng)計(jì)的詞意權(quán)重計(jì)算方法。詞頻(TF)用于衡量詞匯出現(xiàn)的頻次,即一個(gè)詞在所有文檔中出現(xiàn)的次數(shù),見式(1)。逆文檔頻率(IDF)用于衡量詞匯的特異性,即該詞匯在不同文檔中頻次的分布情況。當(dāng)一個(gè)詞在特定文檔中出現(xiàn)的頻次遠(yuǎn)高于在所有文檔中的出現(xiàn)頻次,其對文檔的區(qū)分度越好,見式(2)。TF-IDF值即兩者的乘積,見式(3)。
在訓(xùn)練分類模型時(shí),采用3 種算法:支持向量機(jī)、樸素貝葉斯和卷積神經(jīng)網(wǎng)絡(luò)。對比3 種不同的分類算法,生成最優(yōu)分析模型。支持向量機(jī)(support vector machine,SVM)是一種在機(jī)器學(xué)習(xí)中應(yīng)用廣泛的分類算法。在自然語言處理中,文本在分詞后可以建立特征的詞向量集合。支持向量機(jī)通過建立最大間隔超平面,對數(shù)據(jù)集合進(jìn)行分類。樸素貝葉斯(naive Bayesian,BAYES)是基于貝葉斯定理和特征條件獨(dú)立假設(shè)的分類方法。其分類模式也建立在訓(xùn)練集合的基礎(chǔ)上?;谖谋痉衷~后生成的特征關(guān)鍵詞,求算特征詞條件聯(lián)合分布的概率,通過貝葉斯定理推算概率最大的輸出,即分類結(jié)果。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)是一種深度學(xué)習(xí)算法,其基本單元為人工神經(jīng)元,通常由輸入層、卷積層、池化層、全連接層和輸出層組成,在情感分析領(lǐng)域應(yīng)用廣泛[29]。本文在構(gòu)建CNN 算法時(shí),設(shè)置卷積核數(shù)目為256,卷積核尺寸為5,每批次訓(xùn)練抽取的文本數(shù)目為64 個(gè),總訓(xùn)練次數(shù)為100 次。
1.3.2 精度檢驗(yàn)指標(biāo)
在文本分類中,用于評價(jià)的指標(biāo)一般有精確率(Precision,P)、召回率(Recall,R)以及其調(diào)和平均值(F1-score),即PRF 值。精確率P是指分類為真的樣本占總樣本的比例,用于衡量分類的準(zhǔn)確度,計(jì)算方法見式(4);召回率R是指分類為真的樣本占所有真實(shí)樣本的比例,用于衡量分類的覆蓋程度,計(jì)算方法見式(5)。F1 值為準(zhǔn)確率和召回率的調(diào)和平均值,用于衡量分類方法的整體效果,計(jì)算方法見式(6)。其中,TP 指的是分類為真且實(shí)際為真的樣本個(gè)數(shù),F(xiàn)P 指的是分類為真但實(shí)際為假的樣本個(gè)數(shù),F(xiàn)N 指的是分類為假但實(shí)際為真的樣本個(gè)數(shù),TN 指的是分類為假且實(shí)際為假的樣本個(gè)數(shù)。
評價(jià)多分類模型的效果一般采用微平均值(micro F1-score)。微平均值計(jì)算每個(gè)分類子類的TP、FP、TN 和FN,然后按照二分類問題的統(tǒng)一計(jì)算PRF 值。環(huán)境形象評價(jià)方法有3 種分類維度:文本來源、環(huán)境要素和情感極性。這3 種分類均為多分類問題,即一種分類下存在兩個(gè)以上的類別。因此,環(huán)境形象評價(jià)方法采取微平均值(micro F1-score)作為評價(jià)指標(biāo)。
監(jiān)督式學(xué)習(xí)的算法需要構(gòu)建標(biāo)準(zhǔn)語料庫。本文根據(jù)環(huán)境領(lǐng)域的特點(diǎn)對語料分類和編碼,生成環(huán)境特有語料庫。語料庫的構(gòu)建流程如下:收集環(huán)境語料,導(dǎo)入分類系統(tǒng),人工篩選和編碼;分類原則保持一致,分類類別包括環(huán)境新聞的文體來源、涉及的環(huán)境要素以及情感傾向;分類遵循相互對照的原則,編碼結(jié)束后對語料庫進(jìn)行信度檢驗(yàn),分類一致的語料作為標(biāo)準(zhǔn)的環(huán)境語料庫,語料庫數(shù)量見表3。
表3 環(huán)境語料庫數(shù)量 單位:條
模型的優(yōu)化從3 個(gè)角度展開,一是選取最優(yōu)的分類算法,二是確定合適的訓(xùn)練集規(guī)模,三是調(diào)整環(huán)境形象分類類別。
為考察各模型在不同訓(xùn)練語料數(shù)量下的性能表現(xiàn),進(jìn)行20 組試驗(yàn),每次從標(biāo)準(zhǔn)語料庫中隨機(jī)抽出100、200、300 1 900、2 000 條訓(xùn)練語料構(gòu)成訓(xùn)練集,從訓(xùn)練語料之外抽取100 條語料構(gòu)成測試集。每組實(shí)驗(yàn)進(jìn)行10 次,取其結(jié)果的平均值作為最終結(jié)果。
3 種算法在不同訓(xùn)練語料數(shù)量下的微平均值(F1值)如圖2 所示。在文體來源的分類上,隨著訓(xùn)練語料數(shù)量的增加,3 種方法的分類效果均會在開始提高,后趨于穩(wěn)定。當(dāng)語料數(shù)量大于500 條時(shí),樸素貝葉斯的分類效果不再提升;當(dāng)語料數(shù)量大于700條時(shí),卷積神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)的分類效果逐漸穩(wěn)定;支持向量機(jī)算法的表現(xiàn)最好,F(xiàn)1 值可達(dá)0.90,卷積神經(jīng)網(wǎng)絡(luò)算法其次,F(xiàn)1 值可達(dá)0.88,樸素貝葉斯算法最差,F(xiàn)1 值則穩(wěn)定在0.85 左右。
在情感極性上,隨著訓(xùn)練語料數(shù)量的增加,3種算法的F1 值均會在開始時(shí)升高。當(dāng)訓(xùn)練語料數(shù)量超過1 600 條時(shí),3 種算法模型的F1 值趨于穩(wěn)定,支持向量機(jī)和卷積神經(jīng)網(wǎng)絡(luò)算法的F1 值均在0.75以上,樸素貝葉斯算法的F1 值遠(yuǎn)低于支持向量機(jī)和卷積神經(jīng)網(wǎng)絡(luò),在0.65 左右。在環(huán)境要素的分類上,隨著語料數(shù)量的增加,支持向量機(jī)和卷積神經(jīng)網(wǎng)絡(luò)算法的F1 值均先升高,后趨于穩(wěn)定。當(dāng)語料數(shù)量大于1 200 條時(shí),這兩種算法的F1 值不再升高,穩(wěn)定在0.68 左右;而樸素貝葉斯的分類效果隨語料數(shù)量增加提升并不明顯,分類效果也較差,F(xiàn)1 值在0.64左右。
圖2 不同語料規(guī)模下分類模型的F1 值
方法利用文本分類和情感分析等自然語言處理技術(shù)分析互聯(lián)網(wǎng)環(huán)境文本,生成特定的環(huán)境標(biāo)簽。分類數(shù)目也會對模型的效果產(chǎn)生影響。為考察環(huán)境維度劃分的合理性,研究對情感分析和環(huán)境要素的分類進(jìn)行了調(diào)整和測試。
在情感極性的分類上,合并“負(fù)面”“較為負(fù)面”類型,“正面”“較為正面”類型,分類數(shù)目從5類變?yōu)? 類,調(diào)整規(guī)則后情感極性共分為“負(fù)面”“中性”和“正面”3 種類型。選取2 000 條訓(xùn)練語料測試分類調(diào)整后的模型效果。如圖3 所示,在調(diào)整分類規(guī)則后,3 種方法的分類效果都有明顯提升,微平均值在調(diào)整后提高了0.1 左右。
圖3 調(diào)整情感極性分類后模型的F1 值
在環(huán)境要素的分類上,原有的分類模式為多分類,將環(huán)境文本劃分為水、大氣、土壤等6 個(gè)類別,模型分類時(shí)只對文本生成一個(gè)標(biāo)簽。不同類別的語料之間存在重合,多分類的效果較差,微平均值在0.7左右。因此,環(huán)境要素的分類更改為二分類的方式,即按照是否含有某一環(huán)境要素對環(huán)境文本進(jìn)行分類。測試結(jié)果如圖4 所示,二分類模型具有較高的微平均值,模型效果更好。訓(xùn)練語料數(shù)量超過500 條時(shí),F(xiàn)1 值逐漸趨于穩(wěn)定。在土壤、聲、生物這3 種要素的識別上,模型的微平均值可達(dá)0.90。在廢物、水環(huán)境、空氣這3 種要素的識別上,模型的微平均值也均在0.80 以上。
圖4 環(huán)境要素在二分類模式下的F1 值
從分類效果上看,樸素貝葉斯的微平均值明顯低于其他兩種算法。而在處理時(shí)間上,卷積神經(jīng)網(wǎng)絡(luò)算法的效率最高。因此,評價(jià)方法選取卷積神經(jīng)網(wǎng)絡(luò)作為模型構(gòu)建的內(nèi)在算法。在分類框架上,環(huán)境要素的二分類以及文體來源的多分類效果較好,微平均值隨著語料數(shù)目的增加趨于穩(wěn)定。因此,在環(huán)境要素的分類上,采用二分類的方式進(jìn)行模型訓(xùn)練。在情感分析上,不同分類的微平均值隨著訓(xùn)練語料的增加逐漸提高。因此,情感分析模型采用3種分類類別(正面、負(fù)面、中性)。模型構(gòu)建時(shí)的訓(xùn)練語料數(shù)量為2 000 條。
最終得到的環(huán)境形象評價(jià)流程如圖5 所示。環(huán)境要素分類模型的微平均值在0.80 到0.90 之間,情感分析模型的微平均值在0.80 以上,文體來源分類模型的微平均值在0.90 左右,分類的效果較好,基本滿足地區(qū)形象評價(jià)的要求。
圖5 基于互聯(lián)網(wǎng)傳播文本的環(huán)境形象評價(jià)流程
方法可以對地區(qū)的環(huán)境新聞進(jìn)行分類處理和情感分析。依托計(jì)算機(jī)自然語言處理技術(shù),方法可以快速分析互聯(lián)網(wǎng)生態(tài)環(huán)境大數(shù)據(jù),實(shí)時(shí)動態(tài)地展現(xiàn)地區(qū)的環(huán)境形象,為地區(qū)的環(huán)境管理提供科學(xué)化支持。為驗(yàn)證方法的可行性,研究搜集了長三角地區(qū)各城市的環(huán)境新聞,對不同城市的環(huán)境形象進(jìn)行評估。長三角各地區(qū)的環(huán)境新聞主要來自于網(wǎng)絡(luò)爬取,基于的網(wǎng)頁平臺為百度搜索。通過設(shè)置關(guān)鍵詞的形式,網(wǎng)絡(luò)爬蟲逐日搜索環(huán)境新聞,經(jīng)過篩選后存儲至服務(wù)器。存儲的文本信息包括新聞標(biāo)題、新聞內(nèi)容、新聞的產(chǎn)生時(shí)間和獲取時(shí)間以及該新聞所屬的地區(qū)。
環(huán)境新聞的檢索時(shí)間為2017 年1 月至2020 年12 月,來源網(wǎng)站主要包括人民網(wǎng)、新浪網(wǎng)、鳳凰新聞等。長三角地區(qū)的環(huán)境新聞共計(jì)733 393 條,其中上海市30 247 條,江蘇省257 910 條,浙江省247 602 條,安徽省197 634 條。方法對環(huán)境新聞進(jìn)行文本分類和情感分析,得到了地區(qū)關(guān)注的環(huán)境要素和環(huán)境情感形象。如圖6 所示,各省市關(guān)注的環(huán)境要素主要集中在“水環(huán)境”“空氣”以及“廢物”這3 類。其中,上海市涉及“廢物”的環(huán)境新聞?wù)急认鄬^高。這說明上海市的環(huán)境輿情對垃圾分類政策十分關(guān)注,反映了上海市在垃圾分類工作上的開展?fàn)顩r。
圖6 長三角省市各要素新聞數(shù)量占比
長三角地區(qū)城市的環(huán)境形象以正面為主,負(fù)面新聞在數(shù)量上占比相對較低。但負(fù)面新聞包含的環(huán)境信息更具代表性,更能反映地區(qū)的環(huán)境討論熱點(diǎn)。因此,基于2017 年至2020 年長三角地區(qū)的互聯(lián)網(wǎng)輿情,研究統(tǒng)計(jì)了長三角各城市的負(fù)面環(huán)境新聞?wù)急?,以此反映不同地區(qū)的環(huán)境形象。長三角地區(qū)的負(fù)面環(huán)境新聞平均占比為10%,不同城市之間差異較大,總體占比在3%至20%之間(見圖7)。環(huán)境形象較好的城市包括湖州市、南京市、黃山市、舟山市、嘉興市和上海市,負(fù)面新聞?wù)急染陀?%。而環(huán)境形象較差的城市包括鹽城市、溫州市、淮南市,負(fù)面新聞?wù)急染哂?5%。環(huán)境污染事件和環(huán)保督察政策對城市的環(huán)境形象影響很大。鹽城市的負(fù)面環(huán)境形象主要來自于響水企業(yè)爆炸事故和輝豐公司的污染報(bào)道。溫州市的負(fù)面環(huán)境形象主要來自于中央生態(tài)環(huán)境保護(hù)督察組的問責(zé)和通報(bào)。淮南市的負(fù)面環(huán)境形象則主要來自于重污染天氣相關(guān)報(bào)道以及環(huán)保督察的整改通知。
表4 長三角城市負(fù)面環(huán)境新聞?wù)急?/p>
針對環(huán)境文本的內(nèi)容,方法還可以進(jìn)行關(guān)鍵詞分析和熱點(diǎn)輿情提取。如圖7 所示,環(huán)境詞云圖展示了地區(qū)的熱點(diǎn)環(huán)境問題。巢湖市的環(huán)境熱點(diǎn)討論包含“污水”“濕地”“流域”等關(guān)鍵詞,黃山市的環(huán)境熱點(diǎn)討論包含“垃圾”“太平湖”等關(guān)鍵詞。
圖7 黃山市和巢湖市環(huán)境詞云
不同地區(qū)的討論主題存在城鄉(xiāng)差異。以安徽省合肥市為例,中心城區(qū)包括廬陽區(qū)、瑤海區(qū)、包河區(qū)、蜀山區(qū)等,周邊縣城包括長豐縣、肥東縣、肥西縣等。在環(huán)境形象關(guān)鍵詞上,中心城區(qū)集中出現(xiàn)“垃圾”“分類”等關(guān)鍵詞,而周邊農(nóng)村地區(qū)則集中出現(xiàn)“水污染”“臭水河”以及“生態(tài)治理”等關(guān)鍵詞(見表5)。
表5 合肥市各區(qū)縣的環(huán)境形象關(guān)鍵詞
(1)互聯(lián)網(wǎng)環(huán)境傳播文本包含了地區(qū)環(huán)境領(lǐng)域的相關(guān)信息。利用自然語言處理技術(shù),構(gòu)建地區(qū)環(huán)境傳播大數(shù)據(jù)的處理方法,對地區(qū)環(huán)境新聞進(jìn)行文本挖掘,可以用于評價(jià)地區(qū)的環(huán)境形象,識別地區(qū)的環(huán)境問題。
(2)環(huán)境形象分析方法采用有監(jiān)督式分類算法,能快速處理和分析地區(qū)環(huán)境文本大數(shù)據(jù),實(shí)現(xiàn)生態(tài)環(huán)境大數(shù)據(jù)的信息挖掘與應(yīng)用。
(3)環(huán)境形象評價(jià)模型主要采用卷積神經(jīng)網(wǎng)絡(luò)算法處理環(huán)境文本。文本分類模型和情感分析模型的微平均值在0.7~0.9 之間。
(4)方法評價(jià)了長三角地區(qū)各城市的環(huán)境形象,驗(yàn)證了其實(shí)際運(yùn)用的可行性。長三角地區(qū)的環(huán)境形象整體呈正面,不同地區(qū)在環(huán)境討論主題和環(huán)境要素分布上有一定差異。
(5)方法利用文本分類和情感分析手段,處理分析地區(qū)環(huán)境傳播大數(shù)據(jù),監(jiān)控地區(qū)環(huán)境輿情,評價(jià)地區(qū)環(huán)境形象,有助于地區(qū)環(huán)境管理和決策的科學(xué)化。