白 華, 林勛國
(1.哈爾濱工業(yè)大學(xué) 管理學(xué)院,黑龍江 哈爾濱 150001;2.澳大利亞聯(lián)邦科工院,澳大利亞 堪培拉 2601)
?
基于中文短文本分類的社交媒體災(zāi)害事件檢測系統(tǒng)研究*
白華1, 林勛國2
(1.哈爾濱工業(yè)大學(xué) 管理學(xué)院,黑龍江 哈爾濱 150001;2.澳大利亞聯(lián)邦科工院,澳大利亞 堪培拉 2601)
摘要:隨著移動互聯(lián)業(yè)務(wù)的蓬勃發(fā)展,在災(zāi)害信息傳播的過程中,不同類型的社交媒體在一個個突發(fā)性災(zāi)害事件中顯示出了強大的力量。以微博為代表的在線社交媒體因在信息傳播速度、傳播內(nèi)容、傳播形式及傳播效果等方面的優(yōu)勢,確立了其在災(zāi)害應(yīng)急管理中特殊的傳播價值。鑒于此,利用成熟的文本挖掘技術(shù),面向中文新浪微博平臺,開發(fā)了高效的災(zāi)害事件即時檢測系統(tǒng),從而能充分利用近于實時的災(zāi)害博文數(shù)據(jù),使其更好地為災(zāi)害應(yīng)急管理過程服務(wù),有效提高災(zāi)害的應(yīng)急管理能力。
關(guān)鍵詞:社交媒體; 新浪微博; 災(zāi)害信息; 災(zāi)害檢測
進入到21世紀(jì)以來,自然災(zāi)害在世界范圍內(nèi)造成了嚴(yán)重的經(jīng)濟損失和人員傷亡,毋庸置疑,日益惡化的自然環(huán)境及不斷加快的城市化進程加重了這一趨勢。遺憾的是,許多突發(fā)重大災(zāi)害難以及時預(yù)測,災(zāi)害的影響區(qū)域及人群也難以準(zhǔn)確估計。由此,有效提高災(zāi)害的應(yīng)急管理能力至關(guān)重要。信息的收集、處理和交流是突發(fā)災(zāi)害應(yīng)急管理過程中的重大挑戰(zhàn)。充足、準(zhǔn)確、及時的災(zāi)害信息在防災(zāi)減災(zāi)過程中發(fā)揮著重要作用,可以有效降低災(zāi)害風(fēng)險,減少災(zāi)害損失。
隨著移動互聯(lián)業(yè)務(wù)的蓬勃發(fā)展,以微博為代表的社交媒體應(yīng)用已經(jīng)成為人們生活中不可缺少的重要組成部分,微博等社交媒體平臺也已成為災(zāi)害信息管理過程中的重要信息來源和溝通媒介。2004年亞洲海嘯事件中,許多第一手資料及統(tǒng)計來自社交網(wǎng)絡(luò),包括幸存者的經(jīng)歷、新聞信息的發(fā)布、救援努力、人道主義援助以及災(zāi)害情緒釋放等等[1];美國紅十字會的調(diào)研[2]表明,當(dāng)災(zāi)害事件發(fā)生后而911(應(yīng)急)電話無法接通時,20%的美國民眾通過移動應(yīng)用收到災(zāi)害信息,76%的美國民眾通過社交媒體發(fā)布求助信息,40%的美國民眾在災(zāi)害事件中采用社交媒體與親人取得聯(lián)系; 2013年10月,受臺風(fēng)“菲特”的影響,浙江余姚遭遇了建國以來的最大降雨量,由于部分通訊及交通基礎(chǔ)設(shè)置癱瘓,救援人員無法及時進入災(zāi)區(qū),余姚市部分縣鎮(zhèn)成為了一座座“孤島”,在無線網(wǎng)絡(luò)仍能發(fā)揮作用的情況下,社交網(wǎng)絡(luò)扮演了信息高架橋的角色。KCIS觀察發(fā)現(xiàn)[3],災(zāi)害發(fā)生一周內(nèi),關(guān)于“余姚水災(zāi)”的微博搜索超過30萬條,而且很多災(zāi)民利用評論及回復(fù)功能通過“@余姚發(fā)布”來發(fā)布受困求助信息。
近幾年,美國、澳大利亞、日本等國家先后開展相關(guān)領(lǐng)域的研究,并取得較大的進展。他們相繼開發(fā)了“Did You Feel it?”[4], “Toretter”[5-6], “Twicident”[7], “Tweet4act”[8], “CrisisTracker”[9], “Ushahidi platform”[10], “Twitter Earthquake Detector”[11], “Emergency Situation Awareness”[12], “EARS”[13]等面向互聯(lián)網(wǎng)用戶及社交媒體 (Twitter) 用戶的災(zāi)害事件檢測應(yīng)用系統(tǒng)。
中國幅員遼闊,人口眾多,自然災(zāi)害頻繁發(fā)生。近些年,隨著經(jīng)濟和科技的快速發(fā)展,越來越多的中國人擁有電腦和手機,并開始使用在線社交媒體。根據(jù)中國互聯(lián)網(wǎng)信息中心的報告[15],截至2013年末,中國微博用戶達(dá)到了2.81億,其中接近70%用戶用手機的方式登陸微博賬號。因此,中文災(zāi)害微博信息的研究勢在必行,并且具有充分的數(shù)據(jù)資源。
然而,當(dāng)前國內(nèi)對利用社交媒體來進行災(zāi)害信息管理的趨勢尚未足夠重視,相關(guān)研究成果較少。Qu 等[16]和Zhou 等[17]均對青海玉樹地震后的相關(guān)微博進行了研究,前者主要分析了災(zāi)害相關(guān)微博的內(nèi)容、趨勢和擴散路徑,后者則從救援角度采用貝葉斯算法將災(zāi)害博文分類,但是,二者均未涉及災(zāi)害事件的檢測方法研究。
基于此,本文利用自然語言處理及文本挖掘技術(shù),面向中文微博平臺,開發(fā)高效的災(zāi)害事件檢測方法,從而充分利用中文災(zāi)害微博數(shù)據(jù),使其更好地為災(zāi)害應(yīng)急管理過程服務(wù),有效提高災(zāi)害的應(yīng)急管理能力。
1中文短文本分類
1.1分類方法
經(jīng)過觀察可以發(fā)現(xiàn),災(zāi)害爆發(fā)后,微博平臺往往會在在短時間內(nèi)產(chǎn)生大量的相關(guān)博文,存在嚴(yán)重的信息冗余現(xiàn)象。因此,我們需要對相關(guān)博文進行文本分類,從而為后續(xù)救援提供及時、準(zhǔn)確的災(zāi)區(qū)信息。微博文本一般比較短,且在表達(dá)方式上非常口語化,經(jīng)常包含大量的表情符號、標(biāo)點符號及網(wǎng)絡(luò)用語等,這一特點為文本分類領(lǐng)域的研究提出了很大的挑戰(zhàn)。本研究過程中主要討論了四種常見的文本分類算法:支持向量機(Support Vector Machine)、樸素貝葉斯(Na?ve Bayes)、K近鄰(K Nearest Neighbor)及隨機森林(Random forests)。這四種方法均在傳統(tǒng)文本分類領(lǐng)域中取得了很好的分類效果,但在面對不同特征屬性的樣本時表現(xiàn)各異,各有優(yōu)劣[18-20]。
1.2訓(xùn)練集
為了訓(xùn)練事件分類器,需要收集歷史微博數(shù)據(jù)作為訓(xùn)練集。根據(jù)新浪微博API的調(diào)用方法,我們在新浪活躍用戶中隨機選擇50 000用戶作為采集目標(biāo),采集其最新的1 000條微博信息。由于很多用戶歷史微博信息數(shù)量尚未達(dá)到1 000條,最終,歷史數(shù)據(jù)集中包含了近2 600萬條微博信息。在此基礎(chǔ)上,我們采用關(guān)鍵詞(如“地震”等)過濾的方式獲取災(zāi)害微博數(shù)據(jù)集。然后,在這個數(shù)據(jù)集中進行人工篩選,抽取與災(zāi)害事件相對應(yīng)的即時災(zāi)害信息作為Positive 數(shù)據(jù)集 (標(biāo)簽“+”), 同時隨機抽取等量的不相關(guān)信息(此類信息也包含災(zāi)害關(guān)鍵詞但不為即時信息)作為Negative數(shù)據(jù)集(標(biāo)簽“-”)。篩選后的訓(xùn)練集如表1所示。經(jīng)過人工篩選及標(biāo)注,地震相關(guān)微博文本訓(xùn)練集合計包括了934條信息(其中467條含即時相關(guān)信息,另一半含非即時信息或非相關(guān)信息)。
1.3特征選擇
在對訓(xùn)練集數(shù)據(jù)進行觀察后,可以發(fā)現(xiàn)即時地震信息往往較短,包含問號或感嘆號,文字中經(jīng)常提到“晃”、“搖”等描寫地震感覺詞語。為了更好地進行特征提取,不遺漏重要特征,在分類器構(gòu)造過程中,我們采用了10-fold交叉方法對所有特征組合進行了測試。因此,針對每一個分類算法,我們進行了28-1=255次試驗,分別獲取了各個分類算法中任一特征組合的準(zhǔn)確率(Accuracy)、F1值、精確率(Precision)及召回率(Recall). 根據(jù)測試結(jié)果,最終為四個分類算法選取最優(yōu)特征組合如表2所示。
1.4訓(xùn)練集最優(yōu)規(guī)模測試
經(jīng)過上一節(jié)所示的特征提取過程后可以發(fā)現(xiàn),支持向量機分類器表現(xiàn)最為優(yōu)異,F(xiàn)1值達(dá)到了到0.890。但是,由于我們是預(yù)設(shè)的訓(xùn)練集,因此尚不確定訓(xùn)練集規(guī)模變化對各個分類器表現(xiàn)的影響,也不確定更大規(guī)模的訓(xùn)練集是否可以取得更好的分類精度。由此,需要進行最優(yōu)訓(xùn)練集規(guī)模測試,以確定不同大小的訓(xùn)練集規(guī)模對測試結(jié)果的影響。
從圖1中可以看出,地震數(shù)據(jù)集的最優(yōu)訓(xùn)練規(guī)模大致為600條信息,且隨著地震數(shù)據(jù)量的增加,準(zhǔn)確率、召回率及F1值之間的差異逐步縮小,這說明擴大訓(xùn)練集規(guī)模對提高分類器精度是無意義的。
表1 訓(xùn)練集示例
表2 最優(yōu)特征組合
圖1 最優(yōu)規(guī)模測試結(jié)果
2系統(tǒng)框架及其可視化
2.1系統(tǒng)框架
本文主要解決的問題是檢測災(zāi)害事件發(fā)生后的即時微博相關(guān)信息,從而為后續(xù)的救援過程提供幫助。因此基于網(wǎng)絡(luò)輿情計算的基本流程,本系統(tǒng)的基本框架設(shè)計如圖2所示。
圖2 新浪微博災(zāi)害事件檢測系統(tǒng)框架結(jié)構(gòu)
2.2數(shù)據(jù)采集
新浪微博API為開發(fā)者提供了不同目標(biāo)的數(shù)據(jù)調(diào)用接口,本文介紹的新浪微博災(zāi)害事件檢測系統(tǒng)中主要調(diào)用“statuses/public_timeline”接口,從而獲取最新的公共微博。根據(jù)新浪微博數(shù)據(jù)開放平臺介紹,這一接口單頁可以返回最多不超過200條信息(博文)。由此,基于新浪微博API 對用戶請求的限制(每小時不超過150次,即每24s可以發(fā)送一次請求),本系統(tǒng)系統(tǒng)近于實時的數(shù)據(jù)流量大致為每小時近30 000條或每天大約72萬條(如圖3所示)。采用這一方法方法獲取的公共微博是隨機的,沒有指定用戶,因此可以排除統(tǒng)計偏差。
圖3 數(shù)據(jù)采集量示意圖
2.3數(shù)據(jù)處理
數(shù)據(jù)處理模塊主要包括兩個步驟,一是實現(xiàn)數(shù)據(jù)的實時過濾,二是對過濾后的數(shù)據(jù)進行文本分類。由于系統(tǒng)采集的數(shù)據(jù)包括大量信息,其中僅含有部分相關(guān)信息,噪聲量巨大。為了簡化系統(tǒng)的計算過程,實現(xiàn)即時檢測目的,本研究采用關(guān)鍵詞過濾的方法實現(xiàn)對大量數(shù)據(jù)的實時過濾。在對歷史數(shù)據(jù)進行文本分析的基礎(chǔ)上,選取災(zāi)害密切相關(guān)的關(guān)鍵詞作為過濾詞。經(jīng)過測試,系統(tǒng)當(dāng)前采用的過濾詞如表3所示。
表3 系統(tǒng)預(yù)設(shè)關(guān)鍵詞列表
基于短文本分類實驗結(jié)果,系統(tǒng)當(dāng)前采用支持向量機作為文本分類算法,對過濾后的相關(guān)信息進行分類。除上文所述地震即時信息分類器外,我們使用相同的方法,在歷史數(shù)據(jù)的基礎(chǔ)上,面向火災(zāi)、暴雨、臺風(fēng)、洪水分別進行特征選擇和訓(xùn)練集規(guī)模測試,為各個災(zāi)種構(gòu)建了即時災(zāi)害信息分類器。
2.4可視化
為了更加直觀地呈現(xiàn)微博信息災(zāi)害檢測過程,我們面向新浪微博平臺開發(fā)了災(zāi)害事件檢測系統(tǒng)界面(SWIM,https://swim.csiro.au/swim/index.html)。如圖4所示,這一界面主要由四部分組成。
圖4 SWIM系統(tǒng)界面
(1)中國行政區(qū)劃圖。地圖起用于OpenStreetMap的界面,可以放大、縮小或移動,應(yīng)用者可以根據(jù)地圖選擇目標(biāo)省域,自定義檢測地區(qū)。如果選擇了一個省或市,系統(tǒng)的關(guān)鍵詞搜尋將集中在來源于這個地區(qū)的博文里進行,若應(yīng)用者未使用這一功能,則系統(tǒng)默認(rèn)在全網(wǎng)范圍內(nèi)進行災(zāi)害爆發(fā)檢測。
(2)自定義功能區(qū)。這一區(qū)域位于地圖下方,應(yīng)用者可以自定義檢測時間段及檢測關(guān)鍵詞。SWIM系統(tǒng)提供了“系統(tǒng)預(yù)設(shè)關(guān)鍵詞”及“用戶自定義關(guān)鍵詞”兩種關(guān)鍵詞過濾方法,提高了系統(tǒng)的靈活性,同時有效地擴大了系統(tǒng)的應(yīng)用范圍。此外,用戶還可以自定義搜索時間段。
(3)關(guān)鍵詞頻率(Keyword Counts /15 min)曲線。這一曲線直觀地呈現(xiàn)了包含災(zāi)害關(guān)鍵字的微博信息數(shù)量變化過程,顯示了關(guān)鍵詞的數(shù)目和時間的關(guān)系圖,如果關(guān)鍵詞相關(guān)災(zāi)害事件爆發(fā),很可能會產(chǎn)生峰波,增加了確認(rèn)事件發(fā)生的準(zhǔn)確度。
(4)相關(guān)微博示例區(qū)。系統(tǒng)界面右側(cè)顯示了在自定義地區(qū)、時間段、關(guān)鍵詞的情況下,系統(tǒng)自動采集的原始微博信息示例(當(dāng)前,系統(tǒng)設(shè)定最多可顯示1 500條信息)。顯示的每條原始博文還包括微博用戶名、頭像和注冊地區(qū)。如果用戶手機的GPS開啟,則博文后端顯示信息發(fā)送時用戶的具體位置。示例區(qū)的功能,提供了人工復(fù)查博文內(nèi)容的可能性,也擴展了本系統(tǒng)的應(yīng)用范圍。界面上,如果微博信息被標(biāo)注為紅色(地震),意味著博文經(jīng)上節(jié)所述分類器分類為即時災(zāi)害信息,且在右下角顯示了檢測系統(tǒng)運算出來的成功概率作為參考。
3結(jié)論與討論
現(xiàn)代社會,在自然災(zāi)害發(fā)生后,災(zāi)情信息的傳播過程高度依賴于互聯(lián)網(wǎng)社交媒體平臺。因此,社交媒體的災(zāi)害信息管理能力對于整體應(yīng)急救援響應(yīng)行動的開展至關(guān)重要。本文面向新浪微博平臺,探索高效的中文災(zāi)害微博信息分類算法,借鑒澳大利亞科學(xué)院研發(fā)的英文推特災(zāi)害實時預(yù)警系統(tǒng)(ESA)的經(jīng)驗,開發(fā)了新浪微博災(zāi)害事件檢測系統(tǒng)(SWIM),成功實現(xiàn)了基于社交媒體平臺的地震等災(zāi)害事件檢測。
中國曾被稱為“災(zāi)荒之國”,洪澇、干旱、臺風(fēng)、風(fēng)暴潮、地震、森林草原大火等自然災(zāi)害種類繁多,發(fā)生頻率高,分布地域廣。這一現(xiàn)狀為當(dāng)前的災(zāi)害事件檢測系統(tǒng)提出了更高的挑戰(zhàn)。首先,當(dāng)前的SWIM系統(tǒng)只實現(xiàn)了地震等既定災(zāi)害的爆發(fā)檢測,未來將探索更多種災(zāi)害的綜合分類器,以實現(xiàn)其他災(zāi)種及突發(fā)事件的實時檢測;其次,對SWIM系統(tǒng)應(yīng)繼續(xù)完善,開發(fā)后續(xù)的災(zāi)害預(yù)警模塊;第三,面向災(zāi)害救援響應(yīng)過程,擬探索中文短文本聚類方法,根據(jù)災(zāi)害救援需求,實現(xiàn)合理的話題聚類與分析,從而更好地利用社交媒體平臺的實時信息為救援減災(zāi)過程服務(wù)。
參考文獻(xiàn):
[1]Dorothy E Leidner, Gary Pan and Shan L Pan. The role of IT in crisis response: Lessons from the SARS and Asian tsunami disasters[J]. Strateg. Inf. Syst.,2009,18(2):80-99.
[2]American Red Cross. More Americans using mobile apps in emergencies [EB/OL]. (2012-08-31) [2013-04-10]. http://www.redcross.org/news/pressrelease/More-Americans-Using-Mobile-Apps-in-Emergencies.
[3]馬化展, 常媛媛, 陳澤然. 水災(zāi)7天:余姚的紅與黑[EB/OL].(2013-10-14)[2013-10-16]. http://www.kcis.cn/4409
[4]USGS. Did you feel it? [EB/OL]. (2005-03-21)[2012-09-26]. http://earthquake.usgs.gov/earthquakes/dyfi/.
[5]Takeshi Sakaki, Makoto Okazaki and Yutaka Matsuo. Earthquake shakes twitter users: real-time event detection by social sensors[C]//The 19th International Conference on World Wide Web, WWW’10. New York,ACM 2010:851-860.
[6]Takeshi Sakaki, Makoto Okazaki and Yutaka Matsuo. Tweet analysis for real-time event detection and earthquake reporting system development [J]. IEEE Transactions on Knowledge and Data Engineering, 2013, 25(4):919-931.
[7]Fabian Abel, Claudia Hauff, Geert-Jan Houben,et al. Twitcident: fighting fire with information from social web streams[C]//The 21st International Conference Companion on World Wide Web, WWW’12Companion. New York: ACM, 2012:305-308.
[8]Soudip Roy Chowdhury, Muhammad Imran, Muhammad Rizwan Asghar,et al. Tweet4act: Using incident-specific profiles for classifying crisis-related messages[C]// The 10th International Conference on Information Systems for Crisis Response and Management (ISCRAM). Kmstiansand: ISCRAM, 2013.
[9]Jakob Rogstadius, Maja Vukovic, Claudio Teixeira,et al. Crisistracker: Crowdsourced social media curation for disaster awareness[J]. IBM Journal of Research and Development, 2013, 57(5):411-413.
[10]Omidyar Network. Ushahidi: The African Software Platform Helping Victims in Global Emergencies[EB/OL]. (2013-1-22)[2013-7-08]. http://www.ushahidi.com/.
[11]Paul S Earle, Daniel C Bowden and Michelle Guy. Twitter earthquake detection: earthquake monitoring in a social world[J]. Annals of GeoPhysics, 2012, 54(6):708-715.
[12]Mark A Cameron, Robert Power, Bella Robinson, et al. Emergency situation awareness from Twitter for crisis management[C]//The 21st International Conference Companion on World Wide Web, WWW ’12 Companion. New York:ACM, 2012:695-698.
[13]Bella Robinson, Robert Power and Mark Cameron. An evidence based earthquake detector using twitter[C]//The Workshop on Language Processing and Crisis Information. Nagoya:LPCI, 2013:1-9.
[14]Marco Avvenuti, Stefano Cresci, Andrea Marchetti,et al. EARS (earthquake alert and report system): a real time decision support system for earthquake crisis management[C]//The 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD’14, New York:ACM, 2014: 1749-1758.
[15]中國互聯(lián)網(wǎng)絡(luò)信息中心.第33次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[EB/OL].(2014-01-16)[2014-01-20]. http://www.199it.com/archives/187745.html.
[16]Yan Qu, Chen Huang, Pengyi Zhang, et al. Microblogging after a major disaster in China: a case study of the 2010 Yushu earthquake[C]//The ACM 2011 Conference on Computer Supported Cooperative Work,Hangzhou,ACM 2011:25-34.
[17]Yanquan Zhou, Lili Yang, Bartel Van de Walle, et al. Classification of microblogs for support emergency responses: Case study Yushu earthquake in China[C]//The 46th Hawaii International Conference on System Sciences. Hawaii:IEEE, 2013: 1553-1562.
[18]Burbidge R, Trotter M, Buxton B, et al. Drug design by machine learning: support vector machines for pharmaceutical data analysis[J]. Computers and Chemistry. 2001, 26 (5):5-14.
[19]Beyer K, Goldstein J, Ramakrishnan R, et al. When is “nearest neighbor” meaningful?[C]//Database Theory-ICDT’99. Israel:IEEE,1999:217-235.
[20]Breiman L. Random forests[J]. Machine learning, 2001,45 (1): 5-32.
Sina Weibo Disaster Information Detection Based on Chinese Short Text Classification
Bai Hua1and Lin Xunguo2
(1.SchoolofManagement,HarbinInstituteofTechnologyUniversity,Harbin150001,China;2.CSIRODigitalProductivityFlagship,G.P.O.Box664,AustraliaCanberra,ACT2601)
Abstract:Weibo, a popular Chinese social media service, has received much attention recently. More and more people use Weibo as an information tool, especially when the disaster happens. We present a work to develop a disasters detector based on Sina Weibo messages. This system captures public messages from Sina Weibo platform at first, and then processes messages filter and text classification to determine if messages correspond to people experiencing a disaster. We also offer an interface for users to view the processed messages. Our long term aim is to develop a general alert stem for various disaster event types in China, and it would be very useful for the disaster rescue.
Key words:social media; Sina Weibo; disaster information; disaster detection
doi:10.3969/j.issn.1000-811X.2016.02.005
中圖分類號:X43
文獻(xiàn)標(biāo)志碼:A
文章編號:1000-811X(2016)02-0019-05
作者簡介:白華(1985- ),女,遼寧沈陽人,博士研究生,主要研究方向為災(zāi)害信息學(xué). E-mail: baihua1727@163.com
基金項目:國家自然科學(xué)基金資助項目(71372091),國家留學(xué)基金委公派聯(lián)合培養(yǎng)博士生資助項目(201306120166)
*收稿日期:2015-09-16修回日期:2015-11-07
白華,林勛國. 基于中文短文本分類的社交媒體災(zāi)害事件檢測系統(tǒng)研究[J].災(zāi)害學(xué), 2016,31(2):19-23.[ Bai Hua and Lin Xunguo. Sina Weibo Disaster Information Detection Based on Chinese Short Text Classification[J].Journal of Catastrophology, 2016,31(2):19-23.]