摘" 要:隨著全球氣候變暖情況的嚴重,城市內(nèi)澇現(xiàn)象頻發(fā),對人們生活和城市運行產(chǎn)生嚴重影響。通過社交媒體對數(shù)據(jù)進行采集和挖掘,解決傳統(tǒng)的災害信息收集效率低、全域覆蓋困難等問題,在災害應(yīng)急管理中發(fā)揮著關(guān)鍵作用。圍繞對社交媒體內(nèi)澇數(shù)據(jù)的采集、主題挖掘的關(guān)鍵技術(shù)方法,梳理國內(nèi)外相關(guān)文獻,進行必要的評述分析。最后,對現(xiàn)有研究存在的問題和未來發(fā)展趨勢進行總結(jié)與展望。旨在為城市內(nèi)澇數(shù)據(jù)采集、主題挖掘研究提供理論和方法支持,也為城市內(nèi)澇災害分析和管理提供參考。
關(guān)鍵詞:社交媒體;災害信息收集;城市內(nèi)澇;數(shù)據(jù)采集;主題挖掘
中圖分類號:P429" " " 文獻標志碼:A" " " " " 文章編號:2095-2945(2024)32-0079-04
Abstract: With the serious global warming, urban waterlogging has occurred frequently, which has had a serious impact on people's lives and urban operations. Collecting and mining data through social media solves the problems of low efficiency and difficulty in full coverage of traditional disaster information collection, and plays a key role in disaster emergency management. Focusing on the key technical methods of collecting waterlogging data and mining topics on social media, this paper combs through relevant domestic and foreign literature and conducts necessary reviews and analyses. Finally, the problems existing in existing research and future development trends are summarized and prospected. It aims to provide theoretical and methodological support for urban waterlogging data collection and topic mining research, and also provide reference for urban waterlogging disaster analysis and management.
Keywords: social media; disaster information collection; urban flooding; data collection; topic mining
隨著極端天氣的增多和城市化進程步伐的加快,城市內(nèi)澇現(xiàn)象頻發(fā),已經(jīng)嚴重影響到了城市居民生產(chǎn)生活以及城市經(jīng)濟社會的可持續(xù)發(fā)展,給人民的生命財產(chǎn)安全構(gòu)成了巨大的威脅[1]。因此,及時準確地掌握城市內(nèi)澇信息,對災害應(yīng)急管理和防災減災至關(guān)重要[2]。城市內(nèi)澇信息獲取途徑眾多,相比傳統(tǒng)的災害信息獲取方法,社交媒體數(shù)據(jù)具有實時性強、基數(shù)大、來源廣泛、獲取成本低和內(nèi)容綜合程度高等優(yōu)點[3],被越來越多地應(yīng)用于災害的監(jiān)測和災情信息的獲取之中[4-5]。從海量的社交媒體數(shù)據(jù)中篩選出與內(nèi)澇相關(guān)的信息進行主題挖掘,可以為城市的防汛救災應(yīng)急管理提供決策支持,可以為災情響應(yīng)和評估提供有力支持[6]。
1" 城市內(nèi)澇主題挖掘綜合架構(gòu)
數(shù)據(jù)采集是基于社交媒體城市內(nèi)澇主題挖掘整個架構(gòu)中的基礎(chǔ),采集到的原始數(shù)據(jù)需要先經(jīng)過預處理。主題挖掘是整個架構(gòu)中的核心,用于從預處理后的數(shù)據(jù)中自動識別和提取核心概念或主題,以便后續(xù)分析工作的進行?;谏缃幻襟w數(shù)據(jù)的城市內(nèi)澇主題挖掘綜合結(jié)構(gòu)圖如圖1所示。
2" 城市內(nèi)澇數(shù)據(jù)采集技術(shù)
2.1" 網(wǎng)絡(luò)爬蟲
網(wǎng)絡(luò)爬蟲,用于自動化地在互聯(lián)網(wǎng)上搜集信息和提取數(shù)據(jù)。通過模擬用戶瀏覽器的行為,遍歷網(wǎng)站的不同頁面,從中提取、解析出有用的信息,并將其存儲以供后續(xù)使用[7]。在實際操作中,首先發(fā)送HTTP請求以獲取目標網(wǎng)頁的數(shù)據(jù),可以通過編程語言中的網(wǎng)絡(luò)請求庫來實現(xiàn)。接下來解析數(shù)據(jù)以提取出所需的特定信息,最后將解析出來有用的數(shù)據(jù)存儲起來。爬蟲的框架眾多,如Selenium、Scrapy[8]、Crawley、Heritrix、StormCrawler等,每種都有其各自的優(yōu)缺點,可以根據(jù)需求選擇合適的爬蟲程序。
2.2" 基于官方API接口
許多社交媒體平臺提供了官方開放的API接口,允許開發(fā)者通過這些接口獲取用戶公開的數(shù)據(jù)或經(jīng)過授權(quán)的私有數(shù)據(jù)。與網(wǎng)絡(luò)爬蟲相比,官方API提供了更加直接和結(jié)構(gòu)化的數(shù)據(jù)訪問途徑,更加簡潔方便和快速高效。例如,通過訪問微博官方提供的高級搜索API,地址為'https://s.weibo.com/weibo?q=大暴雨amp;typeall=1amp;suball=1amp;timescope=custom:2021-07-20-18:2021-07-21-18amp;Refer=g',可根據(jù)檢索條件設(shè)置初始的接口,獲取到更為精確的與城市內(nèi)澇相關(guān)的微博數(shù)據(jù)。
2.3" 基于第三方平臺
第三方平臺通常提供了用戶友好的界面和豐富的功能,顯著提升了數(shù)據(jù)獲取的靈活性和便捷性。例如,Hootsuite是一個流行的社交媒體管理平臺,支持多平臺的數(shù)據(jù)管理和分析;Sprout Social提供了社交媒體的管理、監(jiān)控、分析等功能,支持多個平臺的數(shù)據(jù)采集。在選擇適合的第三方平臺時,用戶必須綜合考慮多個關(guān)鍵因素,包括平臺的穩(wěn)定性和可靠性,數(shù)據(jù)采集的全面性,平臺的易用性,以及成本因素。
上述3種采集技術(shù)的優(yōu)缺點見表1。
3" 城市內(nèi)澇主題挖掘技術(shù)
3.1" 基于語義分析
基于語義分析的方法在城市內(nèi)澇主題挖掘中,著重于深入理解社交媒體文本中的語義內(nèi)容。這種方法通過句法分析、語義詞典和本體等技術(shù),能夠揭示用戶對內(nèi)澇事件的復雜認知和態(tài)度。適用于分析城市內(nèi)澇數(shù)據(jù)中用戶的情感、態(tài)度等潛在信息。通過句法分析,研究者可以識別出用戶對事件的不同看法和情感傾向,從而更準確地把握公眾對城市內(nèi)澇問題的反應(yīng);此外,詞匯鏈分析通過追蹤特定主題或概念在社交媒體上的演變,有助于研究者理解公眾關(guān)注的焦點是如何隨時間變化的。然而在實際應(yīng)用中可能面臨數(shù)據(jù)量大、處理復雜度高的挑戰(zhàn)[9],需要結(jié)合其他方法提高主題挖掘的準確率。
3.2" 基于統(tǒng)計特征
基于統(tǒng)計特征的方法主要依賴于對文本數(shù)據(jù)中詞匯的統(tǒng)計分析來識別主題和概念,通過分析社交媒體文本中關(guān)鍵詞出現(xiàn)的頻率來識別和評估詞匯的重要性。適用于快速發(fā)現(xiàn)城市內(nèi)澇數(shù)據(jù)中的熱點話題或趨勢,對城市內(nèi)澇關(guān)鍵詞進行提取,以及熱點事件進行監(jiān)控。通過詞頻統(tǒng)計進行自動標引,研究者可以識別文本中的高頻詞匯。TF-IDF是一種目前廣泛使用的詞頻加權(quán)技術(shù),用于提取關(guān)鍵詞或主題詞,快速識別出討論的熱點和趨勢[10];此外,共詞分析則進一步揭示了不同詞匯之間的關(guān)聯(lián)性,幫助研究者發(fā)現(xiàn)社交媒體用戶關(guān)注的內(nèi)澇相關(guān)主題和議題;詞袋模型也是一種簡單而強大的文本表示方法,通過統(tǒng)計文檔中詞匯的出現(xiàn)次數(shù)來捕捉文本信息[11]。
3.3" 基于圖挖掘
圖挖掘?qū)W⒂趶膱D結(jié)構(gòu)數(shù)據(jù)中發(fā)現(xiàn)有價值的模式和信息,圖由節(jié)點和邊構(gòu)成,節(jié)點表示實體或?qū)ο?,邊則表示節(jié)點之間的關(guān)系或連接,能清晰反映文本中的對象和關(guān)系。適用于揭示社交媒體中用戶之間的互動模式或城市內(nèi)澇主題關(guān)聯(lián),對社交媒體輿情傳播進行分析。通過構(gòu)建文本數(shù)據(jù)的圖結(jié)構(gòu)來識別城市內(nèi)澇關(guān)鍵主題和概念,郭紅梅等[12]基于圖挖掘的文本主題識別方法寫出研究綜述。TextRank模型是圖挖掘的經(jīng)典算法,通過評估文本中各個節(jié)點的重要性,識別出社交媒體討論中最為核心和關(guān)鍵的主題。
3.4" 基于機器學習
機器學習技術(shù)在城市內(nèi)澇主題挖掘中的應(yīng)用,主要體現(xiàn)在通過訓練模型自動識別文本數(shù)據(jù)中的關(guān)鍵主題。適用于大規(guī)模城市內(nèi)澇數(shù)據(jù)的分類、主題聚類以及預測等任務(wù)?;谥黝}概率模型的機器學習主題挖掘算法,最為常見的有LDA,被廣泛應(yīng)用于發(fā)現(xiàn)和分析隱含的主題結(jié)構(gòu)。通過概率分布的方式,將文檔中的詞匯映射到潛在的主題空間,從而自動識別出一系列主題,并將文檔分配到相應(yīng)的主題中[13];此外,BTM模型特別適用于短文本數(shù)據(jù),能夠更有效地處理社交媒體短文本中的詞匯稀疏性問題[14];支持向量機算法可以用于提取社交媒體文本中的關(guān)鍵詞并分類,進一步對內(nèi)澇信息聚合,可實現(xiàn)對新獲取的數(shù)據(jù)自動進行主題分類[15]。雖然基于機器學習的主題挖掘模型和算法有很多,但可能面臨過擬合、模型泛化能力不足等問題,需要調(diào)整模型參數(shù)、選擇合適的特征和算法來優(yōu)化模型性能,進一步提高準確性和效率。
3.5" 基于深度學習
結(jié)合深度學習的強大表示能力和傳統(tǒng)主題模型的語義分析優(yōu)勢,可以從社交媒體文本中高精度地識別出與城市內(nèi)澇相關(guān)的信息。適用于復雜的文本處理任務(wù),如自動生成文本摘要、語義匹配和理解用戶情感等。利用神經(jīng)網(wǎng)絡(luò)的主題挖掘模型,使用神經(jīng)網(wǎng)絡(luò)來捕捉文檔中詞匯的語義信息,并用于主題建模[16];此外,基于雙向LSTM語義強化的概率主題模型,利用雙向長短時記憶網(wǎng)絡(luò)構(gòu)建文檔的語義向量,分別從文檔-主題、詞匯-詞匯2個角度進行GPU強化[17]。實際應(yīng)用中需要考慮計算資源消耗大、數(shù)據(jù)需求量大、可解釋性差等多個方面,研究者需要在模型設(shè)計、訓練策略、數(shù)據(jù)處理和評估方法等方面進行創(chuàng)新和改進。
上述5種技術(shù)的優(yōu)缺點見表2。
4" 結(jié)論
現(xiàn)有對社交媒體數(shù)據(jù)的城市內(nèi)澇主題挖掘取得了一定的進展,但仍存在一些問題和挑戰(zhàn)。首先,社交媒體數(shù)據(jù)的噪聲和非結(jié)構(gòu)化特性使得數(shù)據(jù)預處理和清洗成為一項重要而復雜的任務(wù)。其次,不同社交媒體平臺的數(shù)據(jù)特性和訪問限制增加了數(shù)據(jù)采集的難度。此外,仍需進一步提高準確性和效率,尤其是在處理大規(guī)模數(shù)據(jù)集時。未來的發(fā)展趨勢可能包括:①開發(fā)更先進的自然語言處理算法,以更好地理解和挖掘分析社交媒體數(shù)據(jù);②利用深度學習和神經(jīng)網(wǎng)絡(luò)技術(shù)來提高城市內(nèi)澇主題挖掘的準確性和自動化程度;③結(jié)合地理信息系統(tǒng)和物聯(lián)網(wǎng)技術(shù),實現(xiàn)更精細化的時空分布規(guī)律分析;④加強跨學科合作,整合氣象、城市規(guī)劃、環(huán)境科學等領(lǐng)域的知識,以全面提升城市內(nèi)澇災害管理的科學性和有效性。隨著技術(shù)的進步和社會的發(fā)展,城市內(nèi)澇主題挖掘的研究將更加深入和廣泛,為城市管理和災害響應(yīng)提供更有力的支持。
參考文獻:
[1] 李雅嫻.基于社交媒體數(shù)據(jù)的極端天氣對城市公眾影響測度研究[D].西安:長安大學,2023.
[2] 李智星.基于機器學習的城市內(nèi)澇快速模擬預報方法研究[D].西安:西安理工大學,2024.
[3] 鄔柯杰,吳吉東,葉夢琪.社交媒體數(shù)據(jù)在自然災害應(yīng)急管理中的應(yīng)用研究綜述[J].地理科學進展,2020,39(8):1412-1422.
[4] 肖楊.基于微博文本的暴雨內(nèi)澇災情判別與輿情研究[D].南京:南京信息工程大學,2020.
[5] 胡文翰.城市內(nèi)澇脆弱性評估及時空分異研究[D].北京:北京建筑大學,2024.
[6] 梁春陽.基于社交媒體的臺風災情信息抽取方法研究[D].福州:福建師范大學,2020.
[7] 薄濤.基于社交媒體的地震災情數(shù)據(jù)挖掘與烈度快速評估應(yīng)用[D].哈爾濱:中國地震局工程力學研究所,2020.
[8] 宋雅蓉,王譯啡.基于LDA模型和情感分析的網(wǎng)上教學輿情分析研究[J].網(wǎng)絡(luò)空間安全,2023,14(1):112-118.
[9] 周心悅,許項東.交通相關(guān)學科研究生學位論文主題挖掘與演化分析[J].交通與運輸,2023,39(6):65-71.
[10] AWAJAN A. Keyword extraction from Arabic documents using term equivalence classes[J].ACM Transactions on Asian and Low-Resource Language Information Processing,2015,14(2):1-18.
[11] 閻亞亞.詞袋模型和TF-IDF在文本分類中的比較研究[J].電腦知識與技術(shù),2021,17(28):138-140.
[12] 郭紅梅,張智雄.基于圖挖掘的文本主題識別方法研究綜述[J].中國圖書館學報,2015,41(6):97-108.
[13] 黃晶,李夢晗,康晉樂,等.基于社交媒體的暴雨災情信息實時挖掘與分析——以2019年“4·11深圳暴雨”為例[J].水利經(jīng)濟,2021,39(2):86-94,98.
[14] 何旭濤.基于BTM主題模型的微博輿情動態(tài)畫像研究[D].秦皇島:燕山大學,2023.
[15] 周銳.基于社交媒體的城市內(nèi)澇災害信息實時挖掘與分析[D].武漢:華中科技大學,2021.
[16] 楊利君.微博用戶長短期興趣挖掘及推薦算法研究[D].邯鄲:河北工程大學,2023.
[17] 彭敏,楊紹雄,朱佳暉.基于雙向LSTM語義強化的主題建模[J].中文信息學報,2018,32(4):40-49.