摘" 要:隨著全球氣候變暖情況的嚴(yán)重,城市內(nèi)澇現(xiàn)象頻發(fā),對人們生活和城市運(yùn)行產(chǎn)生嚴(yán)重影響。通過社交媒體對數(shù)據(jù)進(jìn)行采集和挖掘,解決傳統(tǒng)的災(zāi)害信息收集效率低、全域覆蓋困難等問題,在災(zāi)害應(yīng)急管理中發(fā)揮著關(guān)鍵作用。圍繞對社交媒體內(nèi)澇數(shù)據(jù)的采集、主題挖掘的關(guān)鍵技術(shù)方法,梳理國內(nèi)外相關(guān)文獻(xiàn),進(jìn)行必要的評述分析。最后,對現(xiàn)有研究存在的問題和未來發(fā)展趨勢進(jìn)行總結(jié)與展望。旨在為城市內(nèi)澇數(shù)據(jù)采集、主題挖掘研究提供理論和方法支持,也為城市內(nèi)澇災(zāi)害分析和管理提供參考。
關(guān)鍵詞:社交媒體;災(zāi)害信息收集;城市內(nèi)澇;數(shù)據(jù)采集;主題挖掘
中圖分類號:P429" " " 文獻(xiàn)標(biāo)志碼:A" " " " " 文章編號:2095-2945(2024)32-0079-04
Abstract: With the serious global warming, urban waterlogging has occurred frequently, which has had a serious impact on people's lives and urban operations. Collecting and mining data through social media solves the problems of low efficiency and difficulty in full coverage of traditional disaster information collection, and plays a key role in disaster emergency management. Focusing on the key technical methods of collecting waterlogging data and mining topics on social media, this paper combs through relevant domestic and foreign literature and conducts necessary reviews and analyses. Finally, the problems existing in existing research and future development trends are summarized and prospected. It aims to provide theoretical and methodological support for urban waterlogging data collection and topic mining research, and also provide reference for urban waterlogging disaster analysis and management.
Keywords: social media; disaster information collection; urban flooding; data collection; topic mining
隨著極端天氣的增多和城市化進(jìn)程步伐的加快,城市內(nèi)澇現(xiàn)象頻發(fā),已經(jīng)嚴(yán)重影響到了城市居民生產(chǎn)生活以及城市經(jīng)濟(jì)社會的可持續(xù)發(fā)展,給人民的生命財(cái)產(chǎn)安全構(gòu)成了巨大的威脅[1]。因此,及時(shí)準(zhǔn)確地掌握城市內(nèi)澇信息,對災(zāi)害應(yīng)急管理和防災(zāi)減災(zāi)至關(guān)重要[2]。城市內(nèi)澇信息獲取途徑眾多,相比傳統(tǒng)的災(zāi)害信息獲取方法,社交媒體數(shù)據(jù)具有實(shí)時(shí)性強(qiáng)、基數(shù)大、來源廣泛、獲取成本低和內(nèi)容綜合程度高等優(yōu)點(diǎn)[3],被越來越多地應(yīng)用于災(zāi)害的監(jiān)測和災(zāi)情信息的獲取之中[4-5]。從海量的社交媒體數(shù)據(jù)中篩選出與內(nèi)澇相關(guān)的信息進(jìn)行主題挖掘,可以為城市的防汛救災(zāi)應(yīng)急管理提供決策支持,可以為災(zāi)情響應(yīng)和評估提供有力支持[6]。
1" 城市內(nèi)澇主題挖掘綜合架構(gòu)
數(shù)據(jù)采集是基于社交媒體城市內(nèi)澇主題挖掘整個架構(gòu)中的基礎(chǔ),采集到的原始數(shù)據(jù)需要先經(jīng)過預(yù)處理。主題挖掘是整個架構(gòu)中的核心,用于從預(yù)處理后的數(shù)據(jù)中自動識別和提取核心概念或主題,以便后續(xù)分析工作的進(jìn)行?;谏缃幻襟w數(shù)據(jù)的城市內(nèi)澇主題挖掘綜合結(jié)構(gòu)圖如圖1所示。
2" 城市內(nèi)澇數(shù)據(jù)采集技術(shù)
2.1" 網(wǎng)絡(luò)爬蟲
網(wǎng)絡(luò)爬蟲,用于自動化地在互聯(lián)網(wǎng)上搜集信息和提取數(shù)據(jù)。通過模擬用戶瀏覽器的行為,遍歷網(wǎng)站的不同頁面,從中提取、解析出有用的信息,并將其存儲以供后續(xù)使用[7]。在實(shí)際操作中,首先發(fā)送HTTP請求以獲取目標(biāo)網(wǎng)頁的數(shù)據(jù),可以通過編程語言中的網(wǎng)絡(luò)請求庫來實(shí)現(xiàn)。接下來解析數(shù)據(jù)以提取出所需的特定信息,最后將解析出來有用的數(shù)據(jù)存儲起來。爬蟲的框架眾多,如Selenium、Scrapy[8]、Crawley、Heritrix、StormCrawler等,每種都有其各自的優(yōu)缺點(diǎn),可以根據(jù)需求選擇合適的爬蟲程序。
2.2" 基于官方API接口
許多社交媒體平臺提供了官方開放的API接口,允許開發(fā)者通過這些接口獲取用戶公開的數(shù)據(jù)或經(jīng)過授權(quán)的私有數(shù)據(jù)。與網(wǎng)絡(luò)爬蟲相比,官方API提供了更加直接和結(jié)構(gòu)化的數(shù)據(jù)訪問途徑,更加簡潔方便和快速高效。例如,通過訪問微博官方提供的高級搜索API,地址為'https://s.weibo.com/weibo?q=大暴雨amp;typeall=1amp;suball=1amp;timescope=custom:2021-07-20-18:2021-07-21-18amp;Refer=g',可根據(jù)檢索條件設(shè)置初始的接口,獲取到更為精確的與城市內(nèi)澇相關(guān)的微博數(shù)據(jù)。
2.3" 基于第三方平臺
第三方平臺通常提供了用戶友好的界面和豐富的功能,顯著提升了數(shù)據(jù)獲取的靈活性和便捷性。例如,Hootsuite是一個流行的社交媒體管理平臺,支持多平臺的數(shù)據(jù)管理和分析;Sprout Social提供了社交媒體的管理、監(jiān)控、分析等功能,支持多個平臺的數(shù)據(jù)采集。在選擇適合的第三方平臺時(shí),用戶必須綜合考慮多個關(guān)鍵因素,包括平臺的穩(wěn)定性和可靠性,數(shù)據(jù)采集的全面性,平臺的易用性,以及成本因素。
上述3種采集技術(shù)的優(yōu)缺點(diǎn)見表1。
3" 城市內(nèi)澇主題挖掘技術(shù)
3.1" 基于語義分析
基于語義分析的方法在城市內(nèi)澇主題挖掘中,著重于深入理解社交媒體文本中的語義內(nèi)容。這種方法通過句法分析、語義詞典和本體等技術(shù),能夠揭示用戶對內(nèi)澇事件的復(fù)雜認(rèn)知和態(tài)度。適用于分析城市內(nèi)澇數(shù)據(jù)中用戶的情感、態(tài)度等潛在信息。通過句法分析,研究者可以識別出用戶對事件的不同看法和情感傾向,從而更準(zhǔn)確地把握公眾對城市內(nèi)澇問題的反應(yīng);此外,詞匯鏈分析通過追蹤特定主題或概念在社交媒體上的演變,有助于研究者理解公眾關(guān)注的焦點(diǎn)是如何隨時(shí)間變化的。然而在實(shí)際應(yīng)用中可能面臨數(shù)據(jù)量大、處理復(fù)雜度高的挑戰(zhàn)[9],需要結(jié)合其他方法提高主題挖掘的準(zhǔn)確率。
3.2" 基于統(tǒng)計(jì)特征
基于統(tǒng)計(jì)特征的方法主要依賴于對文本數(shù)據(jù)中詞匯的統(tǒng)計(jì)分析來識別主題和概念,通過分析社交媒體文本中關(guān)鍵詞出現(xiàn)的頻率來識別和評估詞匯的重要性。適用于快速發(fā)現(xiàn)城市內(nèi)澇數(shù)據(jù)中的熱點(diǎn)話題或趨勢,對城市內(nèi)澇關(guān)鍵詞進(jìn)行提取,以及熱點(diǎn)事件進(jìn)行監(jiān)控。通過詞頻統(tǒng)計(jì)進(jìn)行自動標(biāo)引,研究者可以識別文本中的高頻詞匯。TF-IDF是一種目前廣泛使用的詞頻加權(quán)技術(shù),用于提取關(guān)鍵詞或主題詞,快速識別出討論的熱點(diǎn)和趨勢[10];此外,共詞分析則進(jìn)一步揭示了不同詞匯之間的關(guān)聯(lián)性,幫助研究者發(fā)現(xiàn)社交媒體用戶關(guān)注的內(nèi)澇相關(guān)主題和議題;詞袋模型也是一種簡單而強(qiáng)大的文本表示方法,通過統(tǒng)計(jì)文檔中詞匯的出現(xiàn)次數(shù)來捕捉文本信息[11]。
3.3" 基于圖挖掘
圖挖掘?qū)W⒂趶膱D結(jié)構(gòu)數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的模式和信息,圖由節(jié)點(diǎn)和邊構(gòu)成,節(jié)點(diǎn)表示實(shí)體或?qū)ο?,邊則表示節(jié)點(diǎn)之間的關(guān)系或連接,能清晰反映文本中的對象和關(guān)系。適用于揭示社交媒體中用戶之間的互動模式或城市內(nèi)澇主題關(guān)聯(lián),對社交媒體輿情傳播進(jìn)行分析。通過構(gòu)建文本數(shù)據(jù)的圖結(jié)構(gòu)來識別城市內(nèi)澇關(guān)鍵主題和概念,郭紅梅等[12]基于圖挖掘的文本主題識別方法寫出研究綜述。TextRank模型是圖挖掘的經(jīng)典算法,通過評估文本中各個節(jié)點(diǎn)的重要性,識別出社交媒體討論中最為核心和關(guān)鍵的主題。
3.4" 基于機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)技術(shù)在城市內(nèi)澇主題挖掘中的應(yīng)用,主要體現(xiàn)在通過訓(xùn)練模型自動識別文本數(shù)據(jù)中的關(guān)鍵主題。適用于大規(guī)模城市內(nèi)澇數(shù)據(jù)的分類、主題聚類以及預(yù)測等任務(wù)?;谥黝}概率模型的機(jī)器學(xué)習(xí)主題挖掘算法,最為常見的有LDA,被廣泛應(yīng)用于發(fā)現(xiàn)和分析隱含的主題結(jié)構(gòu)。通過概率分布的方式,將文檔中的詞匯映射到潛在的主題空間,從而自動識別出一系列主題,并將文檔分配到相應(yīng)的主題中[13];此外,BTM模型特別適用于短文本數(shù)據(jù),能夠更有效地處理社交媒體短文本中的詞匯稀疏性問題[14];支持向量機(jī)算法可以用于提取社交媒體文本中的關(guān)鍵詞并分類,進(jìn)一步對內(nèi)澇信息聚合,可實(shí)現(xiàn)對新獲取的數(shù)據(jù)自動進(jìn)行主題分類[15]。雖然基于機(jī)器學(xué)習(xí)的主題挖掘模型和算法有很多,但可能面臨過擬合、模型泛化能力不足等問題,需要調(diào)整模型參數(shù)、選擇合適的特征和算法來優(yōu)化模型性能,進(jìn)一步提高準(zhǔn)確性和效率。
3.5" 基于深度學(xué)習(xí)
結(jié)合深度學(xué)習(xí)的強(qiáng)大表示能力和傳統(tǒng)主題模型的語義分析優(yōu)勢,可以從社交媒體文本中高精度地識別出與城市內(nèi)澇相關(guān)的信息。適用于復(fù)雜的文本處理任務(wù),如自動生成文本摘要、語義匹配和理解用戶情感等。利用神經(jīng)網(wǎng)絡(luò)的主題挖掘模型,使用神經(jīng)網(wǎng)絡(luò)來捕捉文檔中詞匯的語義信息,并用于主題建模[16];此外,基于雙向LSTM語義強(qiáng)化的概率主題模型,利用雙向長短時(shí)記憶網(wǎng)絡(luò)構(gòu)建文檔的語義向量,分別從文檔-主題、詞匯-詞匯2個角度進(jìn)行GPU強(qiáng)化[17]。實(shí)際應(yīng)用中需要考慮計(jì)算資源消耗大、數(shù)據(jù)需求量大、可解釋性差等多個方面,研究者需要在模型設(shè)計(jì)、訓(xùn)練策略、數(shù)據(jù)處理和評估方法等方面進(jìn)行創(chuàng)新和改進(jìn)。
上述5種技術(shù)的優(yōu)缺點(diǎn)見表2。
4" 結(jié)論
現(xiàn)有對社交媒體數(shù)據(jù)的城市內(nèi)澇主題挖掘取得了一定的進(jìn)展,但仍存在一些問題和挑戰(zhàn)。首先,社交媒體數(shù)據(jù)的噪聲和非結(jié)構(gòu)化特性使得數(shù)據(jù)預(yù)處理和清洗成為一項(xiàng)重要而復(fù)雜的任務(wù)。其次,不同社交媒體平臺的數(shù)據(jù)特性和訪問限制增加了數(shù)據(jù)采集的難度。此外,仍需進(jìn)一步提高準(zhǔn)確性和效率,尤其是在處理大規(guī)模數(shù)據(jù)集時(shí)。未來的發(fā)展趨勢可能包括:①開發(fā)更先進(jìn)的自然語言處理算法,以更好地理解和挖掘分析社交媒體數(shù)據(jù);②利用深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)技術(shù)來提高城市內(nèi)澇主題挖掘的準(zhǔn)確性和自動化程度;③結(jié)合地理信息系統(tǒng)和物聯(lián)網(wǎng)技術(shù),實(shí)現(xiàn)更精細(xì)化的時(shí)空分布規(guī)律分析;④加強(qiáng)跨學(xué)科合作,整合氣象、城市規(guī)劃、環(huán)境科學(xué)等領(lǐng)域的知識,以全面提升城市內(nèi)澇災(zāi)害管理的科學(xué)性和有效性。隨著技術(shù)的進(jìn)步和社會的發(fā)展,城市內(nèi)澇主題挖掘的研究將更加深入和廣泛,為城市管理和災(zāi)害響應(yīng)提供更有力的支持。
參考文獻(xiàn):
[1] 李雅嫻.基于社交媒體數(shù)據(jù)的極端天氣對城市公眾影響測度研究[D].西安:長安大學(xué),2023.
[2] 李智星.基于機(jī)器學(xué)習(xí)的城市內(nèi)澇快速模擬預(yù)報(bào)方法研究[D].西安:西安理工大學(xué),2024.
[3] 鄔柯杰,吳吉東,葉夢琪.社交媒體數(shù)據(jù)在自然災(zāi)害應(yīng)急管理中的應(yīng)用研究綜述[J].地理科學(xué)進(jìn)展,2020,39(8):1412-1422.
[4] 肖楊.基于微博文本的暴雨內(nèi)澇災(zāi)情判別與輿情研究[D].南京:南京信息工程大學(xué),2020.
[5] 胡文翰.城市內(nèi)澇脆弱性評估及時(shí)空分異研究[D].北京:北京建筑大學(xué),2024.
[6] 梁春陽.基于社交媒體的臺風(fēng)災(zāi)情信息抽取方法研究[D].福州:福建師范大學(xué),2020.
[7] 薄濤.基于社交媒體的地震災(zāi)情數(shù)據(jù)挖掘與烈度快速評估應(yīng)用[D].哈爾濱:中國地震局工程力學(xué)研究所,2020.
[8] 宋雅蓉,王譯啡.基于LDA模型和情感分析的網(wǎng)上教學(xué)輿情分析研究[J].網(wǎng)絡(luò)空間安全,2023,14(1):112-118.
[9] 周心悅,許項(xiàng)東.交通相關(guān)學(xué)科研究生學(xué)位論文主題挖掘與演化分析[J].交通與運(yùn)輸,2023,39(6):65-71.
[10] AWAJAN A. Keyword extraction from Arabic documents using term equivalence classes[J].ACM Transactions on Asian and Low-Resource Language Information Processing,2015,14(2):1-18.
[11] 閻亞亞.詞袋模型和TF-IDF在文本分類中的比較研究[J].電腦知識與技術(shù),2021,17(28):138-140.
[12] 郭紅梅,張智雄.基于圖挖掘的文本主題識別方法研究綜述[J].中國圖書館學(xué)報(bào),2015,41(6):97-108.
[13] 黃晶,李夢晗,康晉樂,等.基于社交媒體的暴雨災(zāi)情信息實(shí)時(shí)挖掘與分析——以2019年“4·11深圳暴雨”為例[J].水利經(jīng)濟(jì),2021,39(2):86-94,98.
[14] 何旭濤.基于BTM主題模型的微博輿情動態(tài)畫像研究[D].秦皇島:燕山大學(xué),2023.
[15] 周銳.基于社交媒體的城市內(nèi)澇災(zāi)害信息實(shí)時(shí)挖掘與分析[D].武漢:華中科技大學(xué),2021.
[16] 楊利君.微博用戶長短期興趣挖掘及推薦算法研究[D].邯鄲:河北工程大學(xué),2023.
[17] 彭敏,楊紹雄,朱佳暉.基于雙向LSTM語義強(qiáng)化的主題建模[J].中文信息學(xué)報(bào),2018,32(4):40-49.