亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合文本分析和NLP 的水旱災(zāi)害識別及風(fēng)險評估研究

        2023-10-20 08:30:46馬世榮
        水利科技與經(jīng)濟 2023年10期
        關(guān)鍵詞:文本模型研究

        馬世榮

        (珠江水利委員會珠江水利科學(xué)研究院,廣州 510630)

        0 引 言

        廣東省自2020 年起開始出現(xiàn)入汛早、區(qū)域性、旱澇交替等情況,各種風(fēng)險頻發(fā),導(dǎo)致防御形勢極為嚴(yán)峻復(fù)雜[1]。 因此,研究該地區(qū)的水旱災(zāi)害識別以及風(fēng)險評估十分迫切。

        目前,自然語言處理(Natural Language Processing,NLP)是人工智能中發(fā)展與表現(xiàn)極好的技術(shù),可用于解決計算機與人類自然語言的交互問題,其在情感分析、人機對話及觀點挖掘等方面的應(yīng)用也很成熟[2]。

        眾多學(xué)者對水旱災(zāi)害也進(jìn)行了相關(guān)研究。聶明秋等[3]為提升干旱風(fēng)險評估的準(zhǔn)確性,利用核參數(shù)密度估計法,建立了綜合干旱指數(shù)體系,探究干旱風(fēng)險的動態(tài)變化趨勢。 李蒙等[4]為探究云南小??Х犬a(chǎn)業(yè)發(fā)展與干旱災(zāi)害風(fēng)險狀況的關(guān)系,搭建了干旱風(fēng)險評估模型,為其產(chǎn)業(yè)發(fā)展提供針對性措施。 黃國如等[5]通過考慮近期城市洪澇災(zāi)害頻發(fā)的危險性,在綜合洪澇影響因素的基礎(chǔ)上,構(gòu)建模糊綜合風(fēng)險評估法,為洪澇災(zāi)害的管理提供科學(xué)依據(jù)。

        綜上所述,有關(guān)水旱災(zāi)害風(fēng)險評估的研究已獲得許多成果,但隨著科學(xué)技術(shù)的發(fā)展,NLP 算法能實現(xiàn)更精準(zhǔn)的評估結(jié)果。 因此,本文基于文本分析與NLP 結(jié)合的方式,搭建水旱災(zāi)害風(fēng)險評估模型,以保障經(jīng)濟發(fā)展與社會安全穩(wěn)定。

        1 水旱災(zāi)害風(fēng)險評估模型的構(gòu)建

        1.1 基于文本分析的水旱災(zāi)害識別

        近年來,全球氣候變暖,引發(fā)各地極端天氣頻繁產(chǎn)生,且水旱災(zāi)害呈現(xiàn)急劇增長的趨勢,已嚴(yán)重影響全球的經(jīng)濟發(fā)展和生存環(huán)境的保障。因此,本研究從時間維度與空間維度,確定水旱災(zāi)害的識別,使用文本挖掘與NLP 算法,對技術(shù)數(shù)據(jù)提取基礎(chǔ)數(shù)據(jù)的水旱災(zāi)害信息,分析引發(fā)水旱災(zāi)害的影響因素與災(zāi)害等級之間的關(guān)系。 首先對數(shù)據(jù)進(jìn)行預(yù)處理,后續(xù)分析與評估均以該階段的分詞結(jié)果為基礎(chǔ),因此確保其分詞的準(zhǔn)確性非常重要。 由于研究的數(shù)據(jù)多為史料文本數(shù)據(jù),因而建立停止詞詞典與水旱相關(guān)專有名詞,其中的停止詞詞典為文言文中無實意或意義很小的詞語,專有詞典詞庫由于洪澇和干旱各自的特性,分別建立兩個專有名詞詞典。 分詞方法原理的具體流程見圖1。

        圖1 分詞方法的流程

        分詞方法的流程如下:首先需要構(gòu)造前綴詞典,然后判斷劃分的詞是否在前綴詞典中。 若在前綴詞典中,則通過其切分輸入的本文數(shù)據(jù),構(gòu)建對應(yīng)的位置索引,劃分的尾端所構(gòu)成的列表是值的映射,再計算所有可能性的切分方式,就可搭建有向無環(huán)圖,然后使用動態(tài)規(guī)劃計算最大概率路徑,最后每到達(dá)一個節(jié)點,可得前面節(jié)點到終點的最大路徑,即可得到分詞結(jié)果。 若不在前綴詞典中,就將其作為觀察序列,結(jié)果作為狀態(tài)序列,在HMM 模型中輸入數(shù)據(jù)進(jìn)行訓(xùn)練,然后用Viterbi 算法求解,最終尋找對應(yīng)的狀態(tài)序列即可輸出分詞結(jié)果。 然后進(jìn)行詞頻分析,研究使用詞頻-逆向文件頻率算法(Word Frequency-Reverse File Frequency,WF-RFF),該算法是一種對字詞評估其對文本數(shù)據(jù)重要性的統(tǒng)計方法[6]。 其次使用共詞分析法確定關(guān)聯(lián)詞間的關(guān)聯(lián)強度,根據(jù)統(tǒng)計文檔中詞匯在一篇文檔中共同出現(xiàn)的次數(shù)情況,詞匯出現(xiàn)的頻率越多,表明兩個主題之間的關(guān)聯(lián)越緊密,以此創(chuàng)建共詞網(wǎng)絡(luò)圖,尋求其中蘊含的隱藏信息[7]。

        研究使用的潛狄利克雷分配主題模型(Latent Dirichlet Allocation,LDA)是在詞與文檔間引入主題,解決一個詞組對應(yīng)多重含義以及一種含義對應(yīng)多個詞組的問題[8]。 基于LDA 的災(zāi)害等級確定步驟如下:首先將文本數(shù)據(jù)進(jìn)行分詞,計算每個詞的WF-RFF 值,以此得到文檔的向量化形式,構(gòu)建詞典形成矩陣;其次設(shè)置主題數(shù)與先驗參數(shù);然后統(tǒng)計每個詞對應(yīng)不同主題的頻率以及所有文檔中不同主題出現(xiàn)的頻率,對文檔中的每個詞與主題進(jìn)行采樣,計算某個位置的詞所屬全部主題的概率,文檔就可得到主題分布的后驗概率,通過樣本可得某位置所在詞對應(yīng)的主題,按照上述內(nèi)容可計算所有主題對應(yīng)的詞分布;最后設(shè)定最大循環(huán)次數(shù),檢查模型是否收斂,且得到最終的每一年災(zāi)害等級。 通過上述數(shù)據(jù)的預(yù)處理以及LDA 模型的構(gòu)建,即可得到在時間維度中基于文本分析的水旱災(zāi)害識別流程,見圖2。

        圖2 在時間維度下基于文本分析的水旱災(zāi)害識別流程

        1.2 結(jié)合文本分析與NLP 的水旱災(zāi)害風(fēng)險評估模型

        水旱災(zāi)害不僅存在時間規(guī)律特性,還具有獨特的空間分布情況,在同一時間維度下,水旱災(zāi)害在空間的分布狀況是不同的,探究水旱災(zāi)害發(fā)生的空間維度,能為不同區(qū)域的預(yù)防和應(yīng)對措施提供科學(xué)有效的指導(dǎo)[9]。 研究基于語義檢索和活動窗口匹配算法進(jìn)行匹配檢索文本數(shù)據(jù),將識別的地名與相應(yīng)發(fā)生的災(zāi)害等級進(jìn)行匹配。 根據(jù)上述方法,可以統(tǒng)計廣東省各區(qū)域發(fā)生的不同災(zāi)害等級的水旱災(zāi)害次數(shù),進(jìn)而得到各區(qū)域水旱災(zāi)害的空間分布情況。 基于空間維度的水旱災(zāi)害等級識別過程如下:首先是數(shù)據(jù)的預(yù)處理,確保分詞過程中的準(zhǔn)確率;其次確定全部文本數(shù)據(jù)中表示洪水和干旱不同等級的詞;然后設(shè)定滑動窗口,匹配描述水旱等級的詞語與地點,統(tǒng)計各區(qū)域不同等級水旱災(zāi)害發(fā)生的頻率,對結(jié)果進(jìn)行補充與校正后,即可取得各區(qū)域水旱災(zāi)害發(fā)生的頻數(shù);最后將得到的災(zāi)害頻數(shù)按照發(fā)生的次數(shù)比例進(jìn)行劃分,就可得到洪澇與干旱的風(fēng)險分布情況。

        在水旱災(zāi)害的風(fēng)險評估中,研究采用正態(tài)分布和伯努利大數(shù)定律,對數(shù)據(jù)進(jìn)行統(tǒng)計分析,以此評估水旱災(zāi)害發(fā)生的風(fēng)險。 水旱災(zāi)害的形成進(jìn)程中,會受到多種因素的影響或多因素共同作用,但根據(jù)文本數(shù)據(jù)情況,研究采用致災(zāi)因子的危險性作為水旱災(zāi)害風(fēng)險的評估指標(biāo)。 水旱災(zāi)害的風(fēng)險評估包含兩部分:一部分是運用時間序列對每年水旱災(zāi)害等級發(fā)生的概率進(jìn)行評估;另一部分是對研究各區(qū)域的不同等級水旱災(zāi)害發(fā)生頻數(shù)進(jìn)行統(tǒng)計。 使用伯努利大數(shù)定律確定各區(qū)域不同等級水旱災(zāi)害發(fā)生的概率,將這兩部分的內(nèi)容加權(quán)處理,就可準(zhǔn)確得到不同區(qū)域水旱災(zāi)害發(fā)生風(fēng)險的情況。 時間序列預(yù)測部分采用滑動平均法估計變量的局部均值,即可將更新變量同歷史取值關(guān)聯(lián),再設(shè)定時間窗口的大小,就可讓更新后的時間點的值使用之前一段時間的平均值[10]。 在運用伯努利大數(shù)定律的階段,隨機變量序列為{Un},且序列的均值和其數(shù)學(xué)期望E(Un)存在,若?ε>0,則有式(1):

        式(1)表示隨機變量序列的均值收斂于其數(shù)學(xué)期望,代表 {Un}服從大數(shù)定律。 設(shè)nv為n次獨立重復(fù)試驗中V事件發(fā)生的次數(shù),p為V事件在每次獨立重復(fù)試驗中發(fā)生的概率,因此對任意正數(shù)ε都存在式(2):

        式(3)中u存在4 種災(zāi)害等級,PD(u) 代表未來一年研究區(qū)域不同水旱災(zāi)害等級發(fā)生的概率。

        綜合上述數(shù)據(jù)的預(yù)處理,通過在時間與空間維度的水旱災(zāi)害識別與風(fēng)險評估,就可得到水旱災(zāi)害風(fēng)險評估模型,流程見圖3。

        2 水旱災(zāi)害風(fēng)險評估模型的效果分析

        為了驗證研究提出的基于文本分析與NLP結(jié)合的水旱災(zāi)害風(fēng)險評估模型的效果,首先干旱文本數(shù)據(jù)在經(jīng)過分詞預(yù)處理后,輸入到LDA 模型進(jìn)行計算。 根據(jù)以往的研究可知,干旱等級的分類至少為4 種,即輕旱、中旱、重旱和特旱,因而主題數(shù)目的設(shè)定至少在4 以上。 根據(jù)文本分析,就可得到不同主題參數(shù)的聚類效果,對比結(jié)果見圖4。

        圖4 參數(shù)不同的干旱災(zāi)害聚類效果對比

        將模型進(jìn)行可視化處理,將權(quán)值向量降維處理到三維向量,分別設(shè)置簇數(shù)為4 與5,最后通過k均值算法就可得到聚類結(jié)果。 從圖4 可以觀察到,當(dāng)K=4 時,模型的聚類效果不是很明顯,不同主題數(shù)均向各維度散開;當(dāng)K=5 時,模型的聚類效果十分明顯,5 種主題數(shù)目均聚集在一定的范圍中。

        因此,在研究干旱的文本數(shù)據(jù)時,需要將LDA 模型的主題參數(shù)數(shù)目設(shè)定為5,就可以得到更好的干旱災(zāi)害聚類效果。 在處理有關(guān)洪澇的文本數(shù)據(jù)時,仍然按照上述過程,同樣根據(jù)以往的研究可得洪澇等級為4 種,分別為小、中、大和特大洪水,也就是主題數(shù)目的確定至少是4 以上。 采用文本分析,可得到不同主題參數(shù)的聚類效果,對比結(jié)果見圖5。

        圖5 參數(shù)不同的洪澇災(zāi)害聚類效果對比

        由圖5 可知,當(dāng)K=4 時,模型的聚類效果相對較好,4 種主題數(shù)目均聚集在一定的范圍中;當(dāng)K=5 時,模型的聚類效果表現(xiàn)較差,5 種主題數(shù)目的離散程度較大。 因此,在研究洪澇的文本數(shù)據(jù)時,需要將LDA 模型的主題參數(shù)數(shù)目設(shè)定為4,以此能得到更好的洪澇災(zāi)害聚類效果,為后續(xù)的災(zāi)害等級評估奠定堅實的基礎(chǔ)。 在得到水旱災(zāi)害風(fēng)險評估模型更好的參數(shù)設(shè)定后,就可確定能取得更優(yōu)秀的結(jié)果模型,然后將其應(yīng)用在實際情況中。

        研究選擇廣東省作為應(yīng)用驗證區(qū)域,根據(jù)上述模型參數(shù)的確定,計算省內(nèi)各區(qū)域的干旱災(zāi)害風(fēng)險概率。 按照氣象5 種干旱等級進(jìn)行劃分,確定廣東省干旱風(fēng)險等級為低風(fēng)險、中低風(fēng)險、中風(fēng)險、中高風(fēng)險與高風(fēng)險5 種。 最后利用研究提出的水旱災(zāi)害風(fēng)險評估模型,計算干旱風(fēng)險發(fā)生概率以及干旱災(zāi)害風(fēng)險區(qū)劃分的界限值,就可得到廣東省干旱災(zāi)害風(fēng)險分布情況,結(jié)果見圖6。

        圖6 廣東省各區(qū)域的干旱風(fēng)險分布情況

        從圖6 可以看到,干旱低風(fēng)險區(qū)集中分布在韶關(guān)市、湛江市與東莞市;干旱中低風(fēng)險區(qū)集中分布在河源市、清遠(yuǎn)市、廣州市、珠海市和汕頭市;干旱中風(fēng)險區(qū)分布在深圳市、中山市、肇慶市和潮州市;干旱中高風(fēng)險區(qū)分布在梅州市、佛山市、云浮市、茂名市與陽江市;干旱高風(fēng)險區(qū)主要分布在江門市與揭陽市。 通過模型參數(shù)的確定,按照氣象4 種洪澇等級進(jìn)行劃分,可確定廣東省洪澇風(fēng)險等級為低風(fēng)險、中低風(fēng)險、中風(fēng)險、中高風(fēng)險與高風(fēng)險5 種。 最后利用水旱災(zāi)害風(fēng)險評估模型進(jìn)行計算與統(tǒng)計,即可得到廣東省洪澇災(zāi)害風(fēng)險與水系分布情況,結(jié)果見圖7。

        由圖7 可知,洪澇低風(fēng)險區(qū)集中分布在茂名市、湛江市、陽江市、珠海市、中山市、深圳市與惠州市;洪澇中低風(fēng)險區(qū)集中分布在肇慶市、佛山市、汕尾市、揭陽市、汕頭市、東莞市和梅州市;洪澇中風(fēng)險區(qū)分布在陽江市、江門市、云浮市、廣州市、清遠(yuǎn)市與河源市;洪澇中高風(fēng)險區(qū)與高風(fēng)險區(qū)均分布在韶關(guān)市。 自古以來,北江水系的周圍區(qū)域極易發(fā)生洪澇災(zāi)害,這與研究通過文本分析得到的洪澇風(fēng)險分布結(jié)果保持一致。 根據(jù)上述研究結(jié)果,可以驗證研究提出的水旱災(zāi)害風(fēng)險評估模型的準(zhǔn)確性與實用性。

        3 結(jié) 論

        為了評估水旱災(zāi)害發(fā)生的風(fēng)險,協(xié)助高風(fēng)險區(qū)域制定保障安全措施,本文采用文本分析與NLP 結(jié)合的方法,構(gòu)建水旱災(zāi)害風(fēng)險評估模型。結(jié)果顯示,在該模型性能驗證部分,當(dāng)K=5 時,干旱的聚類效果最好;當(dāng)K=4 時,洪澇的聚類效果最好。 在檢驗該模型的使用效果時,廣東省干旱中高風(fēng)險區(qū)域集中分布在東北與西南地區(qū),洪澇中高風(fēng)險區(qū)域主要分布在西北地區(qū),均與實際情況保持一致。 表明研究提出的水旱災(zāi)害風(fēng)險預(yù)測模型在實際運用中表現(xiàn)十分優(yōu)異,準(zhǔn)確性極高。

        猜你喜歡
        文本模型研究
        一半模型
        FMS與YBT相關(guān)性的實證研究
        遼代千人邑研究述論
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        視錯覺在平面設(shè)計中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        在808DA上文本顯示的改善
        EMA伺服控制系統(tǒng)研究
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        粗大的内捧猛烈进出少妇| 精品中文字幕日本久久久| 亚洲一区二区三区在线高清中文| 高黄暴h日本在线观看| 女人扒开屁股爽桶30分钟| 一区二区无码中出| 国产大学生自拍三级视频| av免费播放网站在线| 亚洲av永久精品爱情岛论坛| 99国产精品视频无码免费| 中文字幕无线精品亚洲乱码一区 | 日本一曲二曲三曲在线| 久草青青91在线播放| 国产精品无码av天天爽| 日韩成人无码v清免费| 极品少妇一区二区三区四区视频| 国产精品久久国产精麻豆99网站 | 人妻无码一区二区三区| 久久久精品2019免费观看| 日韩av无卡无码午夜观看| 精品国产一区二区三区香| 国产精品女人呻吟在线观看| 93精91精品国产综合久久香蕉| av毛片一区二区少妇颜射| 日韩少妇人妻中文视频| 精品国产一区二区三区av片| 亚洲色欲大片AAA无码| 极品少妇一区二区三区| 少妇人妻中文字幕hd| 黄 色 人 成 网 站 免 费| 亚洲精品国产av一区二区| 国产一区二区三区在线观看完整版| 黑人巨大无码中文字幕无码| 狠狠丁香激情久久综合| 日本二区三区在线免费| 亚洲日韩欧美一区、二区| 99热在线精品播放| 国产自拍在线视频观看| 无码av中文一区二区三区桃花岛| 日韩一线无码av毛片免费| 好爽要高潮了在线观看|