馬世榮
(珠江水利委員會珠江水利科學(xué)研究院,廣州 510630)
廣東省自2020 年起開始出現(xiàn)入汛早、區(qū)域性、旱澇交替等情況,各種風(fēng)險頻發(fā),導(dǎo)致防御形勢極為嚴(yán)峻復(fù)雜[1]。 因此,研究該地區(qū)的水旱災(zāi)害識別以及風(fēng)險評估十分迫切。
目前,自然語言處理(Natural Language Processing,NLP)是人工智能中發(fā)展與表現(xiàn)極好的技術(shù),可用于解決計算機與人類自然語言的交互問題,其在情感分析、人機對話及觀點挖掘等方面的應(yīng)用也很成熟[2]。
眾多學(xué)者對水旱災(zāi)害也進(jìn)行了相關(guān)研究。聶明秋等[3]為提升干旱風(fēng)險評估的準(zhǔn)確性,利用核參數(shù)密度估計法,建立了綜合干旱指數(shù)體系,探究干旱風(fēng)險的動態(tài)變化趨勢。 李蒙等[4]為探究云南小??Х犬a(chǎn)業(yè)發(fā)展與干旱災(zāi)害風(fēng)險狀況的關(guān)系,搭建了干旱風(fēng)險評估模型,為其產(chǎn)業(yè)發(fā)展提供針對性措施。 黃國如等[5]通過考慮近期城市洪澇災(zāi)害頻發(fā)的危險性,在綜合洪澇影響因素的基礎(chǔ)上,構(gòu)建模糊綜合風(fēng)險評估法,為洪澇災(zāi)害的管理提供科學(xué)依據(jù)。
綜上所述,有關(guān)水旱災(zāi)害風(fēng)險評估的研究已獲得許多成果,但隨著科學(xué)技術(shù)的發(fā)展,NLP 算法能實現(xiàn)更精準(zhǔn)的評估結(jié)果。 因此,本文基于文本分析與NLP 結(jié)合的方式,搭建水旱災(zāi)害風(fēng)險評估模型,以保障經(jīng)濟發(fā)展與社會安全穩(wěn)定。
近年來,全球氣候變暖,引發(fā)各地極端天氣頻繁產(chǎn)生,且水旱災(zāi)害呈現(xiàn)急劇增長的趨勢,已嚴(yán)重影響全球的經(jīng)濟發(fā)展和生存環(huán)境的保障。因此,本研究從時間維度與空間維度,確定水旱災(zāi)害的識別,使用文本挖掘與NLP 算法,對技術(shù)數(shù)據(jù)提取基礎(chǔ)數(shù)據(jù)的水旱災(zāi)害信息,分析引發(fā)水旱災(zāi)害的影響因素與災(zāi)害等級之間的關(guān)系。 首先對數(shù)據(jù)進(jìn)行預(yù)處理,后續(xù)分析與評估均以該階段的分詞結(jié)果為基礎(chǔ),因此確保其分詞的準(zhǔn)確性非常重要。 由于研究的數(shù)據(jù)多為史料文本數(shù)據(jù),因而建立停止詞詞典與水旱相關(guān)專有名詞,其中的停止詞詞典為文言文中無實意或意義很小的詞語,專有詞典詞庫由于洪澇和干旱各自的特性,分別建立兩個專有名詞詞典。 分詞方法原理的具體流程見圖1。
圖1 分詞方法的流程
分詞方法的流程如下:首先需要構(gòu)造前綴詞典,然后判斷劃分的詞是否在前綴詞典中。 若在前綴詞典中,則通過其切分輸入的本文數(shù)據(jù),構(gòu)建對應(yīng)的位置索引,劃分的尾端所構(gòu)成的列表是值的映射,再計算所有可能性的切分方式,就可搭建有向無環(huán)圖,然后使用動態(tài)規(guī)劃計算最大概率路徑,最后每到達(dá)一個節(jié)點,可得前面節(jié)點到終點的最大路徑,即可得到分詞結(jié)果。 若不在前綴詞典中,就將其作為觀察序列,結(jié)果作為狀態(tài)序列,在HMM 模型中輸入數(shù)據(jù)進(jìn)行訓(xùn)練,然后用Viterbi 算法求解,最終尋找對應(yīng)的狀態(tài)序列即可輸出分詞結(jié)果。 然后進(jìn)行詞頻分析,研究使用詞頻-逆向文件頻率算法(Word Frequency-Reverse File Frequency,WF-RFF),該算法是一種對字詞評估其對文本數(shù)據(jù)重要性的統(tǒng)計方法[6]。 其次使用共詞分析法確定關(guān)聯(lián)詞間的關(guān)聯(lián)強度,根據(jù)統(tǒng)計文檔中詞匯在一篇文檔中共同出現(xiàn)的次數(shù)情況,詞匯出現(xiàn)的頻率越多,表明兩個主題之間的關(guān)聯(lián)越緊密,以此創(chuàng)建共詞網(wǎng)絡(luò)圖,尋求其中蘊含的隱藏信息[7]。
研究使用的潛狄利克雷分配主題模型(Latent Dirichlet Allocation,LDA)是在詞與文檔間引入主題,解決一個詞組對應(yīng)多重含義以及一種含義對應(yīng)多個詞組的問題[8]。 基于LDA 的災(zāi)害等級確定步驟如下:首先將文本數(shù)據(jù)進(jìn)行分詞,計算每個詞的WF-RFF 值,以此得到文檔的向量化形式,構(gòu)建詞典形成矩陣;其次設(shè)置主題數(shù)與先驗參數(shù);然后統(tǒng)計每個詞對應(yīng)不同主題的頻率以及所有文檔中不同主題出現(xiàn)的頻率,對文檔中的每個詞與主題進(jìn)行采樣,計算某個位置的詞所屬全部主題的概率,文檔就可得到主題分布的后驗概率,通過樣本可得某位置所在詞對應(yīng)的主題,按照上述內(nèi)容可計算所有主題對應(yīng)的詞分布;最后設(shè)定最大循環(huán)次數(shù),檢查模型是否收斂,且得到最終的每一年災(zāi)害等級。 通過上述數(shù)據(jù)的預(yù)處理以及LDA 模型的構(gòu)建,即可得到在時間維度中基于文本分析的水旱災(zāi)害識別流程,見圖2。
圖2 在時間維度下基于文本分析的水旱災(zāi)害識別流程
水旱災(zāi)害不僅存在時間規(guī)律特性,還具有獨特的空間分布情況,在同一時間維度下,水旱災(zāi)害在空間的分布狀況是不同的,探究水旱災(zāi)害發(fā)生的空間維度,能為不同區(qū)域的預(yù)防和應(yīng)對措施提供科學(xué)有效的指導(dǎo)[9]。 研究基于語義檢索和活動窗口匹配算法進(jìn)行匹配檢索文本數(shù)據(jù),將識別的地名與相應(yīng)發(fā)生的災(zāi)害等級進(jìn)行匹配。 根據(jù)上述方法,可以統(tǒng)計廣東省各區(qū)域發(fā)生的不同災(zāi)害等級的水旱災(zāi)害次數(shù),進(jìn)而得到各區(qū)域水旱災(zāi)害的空間分布情況。 基于空間維度的水旱災(zāi)害等級識別過程如下:首先是數(shù)據(jù)的預(yù)處理,確保分詞過程中的準(zhǔn)確率;其次確定全部文本數(shù)據(jù)中表示洪水和干旱不同等級的詞;然后設(shè)定滑動窗口,匹配描述水旱等級的詞語與地點,統(tǒng)計各區(qū)域不同等級水旱災(zāi)害發(fā)生的頻率,對結(jié)果進(jìn)行補充與校正后,即可取得各區(qū)域水旱災(zāi)害發(fā)生的頻數(shù);最后將得到的災(zāi)害頻數(shù)按照發(fā)生的次數(shù)比例進(jìn)行劃分,就可得到洪澇與干旱的風(fēng)險分布情況。
在水旱災(zāi)害的風(fēng)險評估中,研究采用正態(tài)分布和伯努利大數(shù)定律,對數(shù)據(jù)進(jìn)行統(tǒng)計分析,以此評估水旱災(zāi)害發(fā)生的風(fēng)險。 水旱災(zāi)害的形成進(jìn)程中,會受到多種因素的影響或多因素共同作用,但根據(jù)文本數(shù)據(jù)情況,研究采用致災(zāi)因子的危險性作為水旱災(zāi)害風(fēng)險的評估指標(biāo)。 水旱災(zāi)害的風(fēng)險評估包含兩部分:一部分是運用時間序列對每年水旱災(zāi)害等級發(fā)生的概率進(jìn)行評估;另一部分是對研究各區(qū)域的不同等級水旱災(zāi)害發(fā)生頻數(shù)進(jìn)行統(tǒng)計。 使用伯努利大數(shù)定律確定各區(qū)域不同等級水旱災(zāi)害發(fā)生的概率,將這兩部分的內(nèi)容加權(quán)處理,就可準(zhǔn)確得到不同區(qū)域水旱災(zāi)害發(fā)生風(fēng)險的情況。 時間序列預(yù)測部分采用滑動平均法估計變量的局部均值,即可將更新變量同歷史取值關(guān)聯(lián),再設(shè)定時間窗口的大小,就可讓更新后的時間點的值使用之前一段時間的平均值[10]。 在運用伯努利大數(shù)定律的階段,隨機變量序列為{Un},且序列的均值和其數(shù)學(xué)期望E(Un)存在,若?ε>0,則有式(1):
式(1)表示隨機變量序列的均值收斂于其數(shù)學(xué)期望,代表 {Un}服從大數(shù)定律。 設(shè)nv為n次獨立重復(fù)試驗中V事件發(fā)生的次數(shù),p為V事件在每次獨立重復(fù)試驗中發(fā)生的概率,因此對任意正數(shù)ε都存在式(2):
式(3)中u存在4 種災(zāi)害等級,PD(u) 代表未來一年研究區(qū)域不同水旱災(zāi)害等級發(fā)生的概率。
綜合上述數(shù)據(jù)的預(yù)處理,通過在時間與空間維度的水旱災(zāi)害識別與風(fēng)險評估,就可得到水旱災(zāi)害風(fēng)險評估模型,流程見圖3。
為了驗證研究提出的基于文本分析與NLP結(jié)合的水旱災(zāi)害風(fēng)險評估模型的效果,首先干旱文本數(shù)據(jù)在經(jīng)過分詞預(yù)處理后,輸入到LDA 模型進(jìn)行計算。 根據(jù)以往的研究可知,干旱等級的分類至少為4 種,即輕旱、中旱、重旱和特旱,因而主題數(shù)目的設(shè)定至少在4 以上。 根據(jù)文本分析,就可得到不同主題參數(shù)的聚類效果,對比結(jié)果見圖4。
圖4 參數(shù)不同的干旱災(zāi)害聚類效果對比
將模型進(jìn)行可視化處理,將權(quán)值向量降維處理到三維向量,分別設(shè)置簇數(shù)為4 與5,最后通過k均值算法就可得到聚類結(jié)果。 從圖4 可以觀察到,當(dāng)K=4 時,模型的聚類效果不是很明顯,不同主題數(shù)均向各維度散開;當(dāng)K=5 時,模型的聚類效果十分明顯,5 種主題數(shù)目均聚集在一定的范圍中。
因此,在研究干旱的文本數(shù)據(jù)時,需要將LDA 模型的主題參數(shù)數(shù)目設(shè)定為5,就可以得到更好的干旱災(zāi)害聚類效果。 在處理有關(guān)洪澇的文本數(shù)據(jù)時,仍然按照上述過程,同樣根據(jù)以往的研究可得洪澇等級為4 種,分別為小、中、大和特大洪水,也就是主題數(shù)目的確定至少是4 以上。 采用文本分析,可得到不同主題參數(shù)的聚類效果,對比結(jié)果見圖5。
圖5 參數(shù)不同的洪澇災(zāi)害聚類效果對比
由圖5 可知,當(dāng)K=4 時,模型的聚類效果相對較好,4 種主題數(shù)目均聚集在一定的范圍中;當(dāng)K=5 時,模型的聚類效果表現(xiàn)較差,5 種主題數(shù)目的離散程度較大。 因此,在研究洪澇的文本數(shù)據(jù)時,需要將LDA 模型的主題參數(shù)數(shù)目設(shè)定為4,以此能得到更好的洪澇災(zāi)害聚類效果,為后續(xù)的災(zāi)害等級評估奠定堅實的基礎(chǔ)。 在得到水旱災(zāi)害風(fēng)險評估模型更好的參數(shù)設(shè)定后,就可確定能取得更優(yōu)秀的結(jié)果模型,然后將其應(yīng)用在實際情況中。
研究選擇廣東省作為應(yīng)用驗證區(qū)域,根據(jù)上述模型參數(shù)的確定,計算省內(nèi)各區(qū)域的干旱災(zāi)害風(fēng)險概率。 按照氣象5 種干旱等級進(jìn)行劃分,確定廣東省干旱風(fēng)險等級為低風(fēng)險、中低風(fēng)險、中風(fēng)險、中高風(fēng)險與高風(fēng)險5 種。 最后利用研究提出的水旱災(zāi)害風(fēng)險評估模型,計算干旱風(fēng)險發(fā)生概率以及干旱災(zāi)害風(fēng)險區(qū)劃分的界限值,就可得到廣東省干旱災(zāi)害風(fēng)險分布情況,結(jié)果見圖6。
圖6 廣東省各區(qū)域的干旱風(fēng)險分布情況
從圖6 可以看到,干旱低風(fēng)險區(qū)集中分布在韶關(guān)市、湛江市與東莞市;干旱中低風(fēng)險區(qū)集中分布在河源市、清遠(yuǎn)市、廣州市、珠海市和汕頭市;干旱中風(fēng)險區(qū)分布在深圳市、中山市、肇慶市和潮州市;干旱中高風(fēng)險區(qū)分布在梅州市、佛山市、云浮市、茂名市與陽江市;干旱高風(fēng)險區(qū)主要分布在江門市與揭陽市。 通過模型參數(shù)的確定,按照氣象4 種洪澇等級進(jìn)行劃分,可確定廣東省洪澇風(fēng)險等級為低風(fēng)險、中低風(fēng)險、中風(fēng)險、中高風(fēng)險與高風(fēng)險5 種。 最后利用水旱災(zāi)害風(fēng)險評估模型進(jìn)行計算與統(tǒng)計,即可得到廣東省洪澇災(zāi)害風(fēng)險與水系分布情況,結(jié)果見圖7。
由圖7 可知,洪澇低風(fēng)險區(qū)集中分布在茂名市、湛江市、陽江市、珠海市、中山市、深圳市與惠州市;洪澇中低風(fēng)險區(qū)集中分布在肇慶市、佛山市、汕尾市、揭陽市、汕頭市、東莞市和梅州市;洪澇中風(fēng)險區(qū)分布在陽江市、江門市、云浮市、廣州市、清遠(yuǎn)市與河源市;洪澇中高風(fēng)險區(qū)與高風(fēng)險區(qū)均分布在韶關(guān)市。 自古以來,北江水系的周圍區(qū)域極易發(fā)生洪澇災(zāi)害,這與研究通過文本分析得到的洪澇風(fēng)險分布結(jié)果保持一致。 根據(jù)上述研究結(jié)果,可以驗證研究提出的水旱災(zāi)害風(fēng)險評估模型的準(zhǔn)確性與實用性。
為了評估水旱災(zāi)害發(fā)生的風(fēng)險,協(xié)助高風(fēng)險區(qū)域制定保障安全措施,本文采用文本分析與NLP 結(jié)合的方法,構(gòu)建水旱災(zāi)害風(fēng)險評估模型。結(jié)果顯示,在該模型性能驗證部分,當(dāng)K=5 時,干旱的聚類效果最好;當(dāng)K=4 時,洪澇的聚類效果最好。 在檢驗該模型的使用效果時,廣東省干旱中高風(fēng)險區(qū)域集中分布在東北與西南地區(qū),洪澇中高風(fēng)險區(qū)域主要分布在西北地區(qū),均與實際情況保持一致。 表明研究提出的水旱災(zāi)害風(fēng)險預(yù)測模型在實際運用中表現(xiàn)十分優(yōu)異,準(zhǔn)確性極高。