劉 昭 何賞璐 劉英舜
(南京理工大學(xué)自動(dòng)化學(xué)院 南京210094)
移動(dòng)互聯(lián)時(shí)代孕育出一批被數(shù)以億計(jì)的用戶所使用的社交網(wǎng)絡(luò)平臺(tái),例如,QQ、微信、微博、臉書(shū)(Facebook)、推特(Twitter)等等。用戶通過(guò)社交網(wǎng)絡(luò)平臺(tái)實(shí)時(shí)地分享所見(jiàn)所聞,其中,也蘊(yùn)藏了與交通突發(fā)事件相關(guān)的信息。盡管傳統(tǒng)的交通檢測(cè)技術(shù),如線圈、微波雷達(dá)、視頻等,已在交通事件監(jiān)測(cè)方面具有較多成熟的應(yīng)用,而伴隨高速公路路網(wǎng)的不斷壯大,傳統(tǒng)技術(shù)的檢測(cè)范圍局限等均催生了對(duì)交通事件監(jiān)測(cè)技術(shù)的更新和創(chuàng)新的需求。用戶在社交網(wǎng)絡(luò)平臺(tái)所共享的海量信息,為交通事件信息的挖掘提供了豐富的信息資源池,可發(fā)展作為獲取交通信息的1種補(bǔ)充手段[1]。
近些年來(lái),研究者們已嘗試了從不同社交網(wǎng)絡(luò)平臺(tái)挖掘交通相關(guān)信息。例如,鄭治豪等[2]使用網(wǎng)絡(luò)爬蟲(chóng),通過(guò)定位交通關(guān)鍵詞,從微博中抓取到交通主題文本,從中提取了事故內(nèi)容、時(shí)間、地點(diǎn)等關(guān)鍵信息。滕靖等[3]基于微博、微信和新聞客戶端,提取了交通事件輿情特征,構(gòu)建了交通事件的網(wǎng)絡(luò)輿情分析系統(tǒng)。張恒才等[4]將微博信息進(jìn)行路網(wǎng)匹配,采用模糊C聚類方法對(duì)微博信息進(jìn)行分析,獲取了所描述路段的暢通度水平。Gu等[5]聚焦于Twitter上的交通數(shù)據(jù)挖掘,通過(guò)Twitter rest API構(gòu)建起了1個(gè)交通事件分類系統(tǒng)。D"Andrea等[6]研究了Twitter Streaming API,用以抓取實(shí)時(shí)的交通事故和擁堵等事件數(shù)據(jù)。
既有研究反映出微博、Twitter具有信息短、發(fā)布快、傳播廣等特點(diǎn)的社交網(wǎng)絡(luò)平臺(tái)是研究者們主要關(guān)注的信息挖掘?qū)ο骩7]。據(jù)此,本文也將微博信息作為研究對(duì)象展開(kāi)挖掘方法的研究。然而,海量的微博信息中包含了諸多干擾項(xiàng),例如,某些主題與交通突發(fā)事件相似,但內(nèi)容卻毫不相關(guān)的干擾信息。微博文本內(nèi)容在語(yǔ)義和形式上的復(fù)雜性,增加了文本信息挖掘的難度,也是筆者研究的1個(gè)重點(diǎn)問(wèn)題。在既有的研究中,文本分類方法常被用于快速篩選出有效信息[8]。目前,常用的文本分類方法包括基于知識(shí)工程的人工分類法[9]、人工智能分類法等。其中,基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等人工智能方法受到了廣泛的關(guān)注,已在交通、金融、醫(yī)療等許多領(lǐng)域的文本信息處理中得到了應(yīng)用[10-11]。在基于機(jī)器學(xué)習(xí)的方法當(dāng)中,許多研究者將重點(diǎn)放在了特征詞的選擇上。宋呈祥等[12]提出1種改進(jìn)卡方統(tǒng)計(jì)(chi-square statistic,CHI)的特征詞選取方法,通過(guò)定義特征詞頻度分布相關(guān)性系數(shù)來(lái)提升不均衡數(shù)據(jù)集的分類指標(biāo)。吳小晴等[13]提出1種改進(jìn)TF-IDF的中文郵件識(shí)別算法,通過(guò)在傳統(tǒng)的TF-IDF算法里面加入CHI和位置影響因子來(lái)改善一些重要詞匯的權(quán)重。莊穆妮等[14]將LDA主題模型與Bert詞向量融合,優(yōu)化了主題向量的選取,在情感分類任務(wù)上,融合模型的分類性能優(yōu)于單一的LDA模型。也有許多研究者關(guān)注于分類器的選擇。曾奇[15]提出了基于相似度的K最近鄰(K-Nearest Neighbor,KNN)算法,該算法較單一的KNN算法在微博短文本分類上的表現(xiàn)效果更好。柳本民等[16]以美國(guó)公路的追尾事故數(shù)據(jù)為樣本,建立了基于支持向量機(jī)(support vector machine,SVM)的2車追尾事故與連環(huán)追尾事故二分類模型,結(jié)果顯示,SVM模型能較好地區(qū)分2車追尾事故與連環(huán)追尾事故。李曉峰等[17]針對(duì)淘寶商品自動(dòng)類目識(shí)別需求,使用了基于XGBoost的分類算法,該方法較SVM等傳統(tǒng)的分類算法有更高的分類準(zhǔn)確度。徐婷等[18]通過(guò)車載OBD設(shè)備獲取了貨車駕駛?cè)塑囕v行駛數(shù)據(jù),然后將k均值聚類分析后的結(jié)果作為分類指標(biāo)來(lái)訓(xùn)練AdaBoost分類器,結(jié)果顯示分類模型具有較高的準(zhǔn)確率。由此看來(lái),最佳的文本信息分類識(shí)別方法尚無(wú)明確的定論,需依據(jù)文本特征建立適合的分類模型,以實(shí)現(xiàn)更加準(zhǔn)確的信息挖掘。
交通突發(fā)事件表現(xiàn)為多種形式,包括交通擁堵、交通事故、封路、施工等。其中,封路、施工等道路管制信息,交通運(yùn)營(yíng)管理部門通常會(huì)提前發(fā)布相關(guān)預(yù)告和預(yù)警信息,公眾可提前做好出行規(guī)劃,減少出行影響。但是,諸如交通擁堵、交通事故等不可預(yù)測(cè)和規(guī)劃的信息,將影響公眾出行的安全,往往是公眾更為關(guān)心的問(wèn)題,而公眾也更愿意在微博上發(fā)布、討論此類相關(guān)信息??紤]到交通事故相較于道路擁堵具有更大的危害性,筆者將研究的突發(fā)事件類型聚焦在交通事故,后續(xù)相關(guān)方法可向擁堵等其它突發(fā)事件進(jìn)行推廣。
綜上,筆者以社交網(wǎng)絡(luò)平臺(tái)“微博”所發(fā)布的信息為研究對(duì)象,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù),采集到了與高速公路交通突發(fā)事件相關(guān)的文本?;陬A(yù)處理后文本特征,研究了基于特征權(quán)重的特征詞選取方法,該方法加強(qiáng)了特征詞與交通突發(fā)事件文本之間的映射,從而提高這些少數(shù)文本的分類精度??紤]到特征詞選擇方法在不同的分類器上的分類效果的差異性,筆者也對(duì)分類器的選擇進(jìn)行了研究。研究的整個(gè)過(guò)程希望為交通突發(fā)事件信息的獲取提供1種新的思路和方法。
從微博文本中挖掘交通突發(fā)事件信息,本文分以下步驟開(kāi)展,見(jiàn)圖1。
步驟1。爬取相關(guān)微博文本及預(yù)處理。本文提出了基于位置搜索和關(guān)鍵詞搜索的相關(guān)聯(lián)文本爬取方法。據(jù)此,利用Python工具,網(wǎng)頁(yè)爬蟲(chóng)“Beautiful Soup”從網(wǎng)頁(yè)的HTML語(yǔ)言中抽取到與高速公路交通突發(fā)事件相關(guān)聯(lián)的文本內(nèi)容。在對(duì)文本預(yù)處理時(shí),采用了正則匹配、重復(fù)度計(jì)算以及“0-1”標(biāo)記,以提高樣本集的質(zhì)量,為后續(xù)處理做準(zhǔn)備。
圖1 研究流程圖Fig.1 Flow for the study
步驟2。自然語(yǔ)言處理。將樣本集分為訓(xùn)練集和測(cè)試集。其中,訓(xùn)練集用于對(duì)后續(xù)文本分類器的標(biāo)定和訓(xùn)練,而測(cè)試集用于驗(yàn)證標(biāo)定后分類器對(duì)交通突發(fā)事件識(shí)別的效果。對(duì)于訓(xùn)練集,自然語(yǔ)言處理過(guò)程包括中文分詞、過(guò)濾停用詞、特征權(quán)重計(jì)算、特征詞選取。而對(duì)于測(cè)試集,特征權(quán)重計(jì)算、特征詞選取已完成,故這2個(gè)步驟可省略。
步驟3。文本分類器的構(gòu)建、對(duì)比與測(cè)試。本文分別構(gòu)建了基于SVM,KNN,AdaBoost和XGBoost算法的分類器,并將訓(xùn)練集的詞向量輸入到各個(gè)分類器中進(jìn)行訓(xùn)練,調(diào)節(jié)4種分類器參數(shù)以獲得最優(yōu)性能,最后,利用測(cè)試集對(duì)比分析4個(gè)分類器識(shí)別交通突發(fā)事件信息的效果。
許多學(xué)者在研究社交網(wǎng)絡(luò)交通類文本分類的時(shí)候,研究對(duì)象常聚焦于全國(guó)的交通狀況,優(yōu)勢(shì)是信息來(lái)源廣泛,更容易獲取到樣本集[19]。但是駕駛?cè)嘶蚪煌ü芾碚咄P(guān)注于自身所處區(qū)域的交通情況,而其他區(qū)域的交通信息會(huì)對(duì)駕駛?cè)嘶蚪煌ü芾碚叩呐袛喈a(chǎn)生干擾。在挖掘文本內(nèi)容時(shí),筆者通過(guò)限定搜索范圍,將所要研究的區(qū)域精確定位到江蘇省上,實(shí)現(xiàn)了交通突發(fā)事件在位置方位上的更精細(xì)化研究。采用“高速&事故”組合詞對(duì)突發(fā)事件進(jìn)行爬取,這個(gè)組合詞既能表征研究的范圍是“高速公路”,又能表征研究的對(duì)象是“交通事故”,相較于其它的詞組“事故”“高速”等,減少了多次重復(fù)爬取的過(guò)程,具有更強(qiáng)的針對(duì)性。通過(guò)這種方式,筆者從微博平臺(tái)中爬取了2019年全年和2020年6月—12月的相關(guān)微博文本信息(2020年上半年因疫情影響,多數(shù)高速公路處于管制狀態(tài),因此,不作為爬取的時(shí)間段)??紤]到樣本集的不均衡特性,沒(méi)有劃分驗(yàn)證集,將2019年的樣本作為訓(xùn)練集,2020年的樣本作為測(cè)試集。
在微博信息爬取過(guò)程中,筆者使用了網(wǎng)頁(yè)爬蟲(chóng)的“Beautiful Soup”。“Beautiful Soup”是1種可以從網(wǎng)頁(yè)HTML語(yǔ)言中快速提取文本內(nèi)容的Python庫(kù),而Python中的Requests庫(kù)可以方便地爬取到網(wǎng)頁(yè)的HTML語(yǔ)言。具體使用時(shí),通過(guò)“Beautiful Soup”遍歷標(biāo)簽名、屬性等提取文本信息。
爬取到相關(guān)信息后,在構(gòu)建樣本集之前,需對(duì)原始數(shù)據(jù)進(jìn)行清洗,以提升數(shù)據(jù)質(zhì)量,具體流程見(jiàn)圖2。
圖2 樣本集預(yù)處理流程圖Fig.2 Flow of preprocessing the sample set
樣本集的預(yù)處理主要包括:①文本去噪。包括文本格式上的噪聲(“ ”“ ”“空格”等)和字符噪聲(一些難以通過(guò)停用詞庫(kù)過(guò)濾的特殊字符等),采用正則匹配的方法,通過(guò)“re.compile(u"[^a-zA-Z0-9u4E00-u9F-A5]")”命令來(lái)去噪;②文本去重,即去掉重復(fù)度高的文本。以其中2個(gè)文本為例說(shuō)明:首先統(tǒng)計(jì)2個(gè)文本中重復(fù)出現(xiàn)的漢字總數(shù),然后分別計(jì)算重復(fù)數(shù)占2個(gè)文本總字?jǐn)?shù)的百分比,即重復(fù)度,如果文本重復(fù)度達(dá)到80%,則刪除字?jǐn)?shù)少的文本。③文本標(biāo)記。本文采用“0-1”方式來(lái)標(biāo)記訓(xùn)練集樣本,其中,“1”代表文本內(nèi)容與交通突發(fā)事件相關(guān)(以下簡(jiǎn)稱相關(guān)文本),“0”代表文本內(nèi)容與交通突發(fā)事件無(wú)關(guān)(以下簡(jiǎn)稱非相關(guān)文本)。非相關(guān)文本中主要包括3類:①與實(shí)際交通事故發(fā)生沒(méi)有關(guān)聯(lián)的文本;②官方事故文本;③非實(shí)時(shí)性文本(一般來(lái)說(shuō),這些文本中會(huì)出現(xiàn)表征過(guò)去時(shí)間狀態(tài)的特征)。表1展示 了樣本標(biāo)記示例。
表1 樣本“0-1”標(biāo)記示例Tab.1 Cases of“0-1”labeled samples
樣本集預(yù)處理后,得到2019年的樣本,共計(jì)1 350條,其中標(biāo)記為“1”的有345條;2020年的樣本共計(jì)726條,其中標(biāo)記為“1”的有216條。圖3~4為2019年全年和2020年下半年的相關(guān)文本分布情況。
圖3 2019年交通突發(fā)事件文本數(shù)量Fig.3 Number of texts on traffic emergencies in 2019
圖4 2020年交通突發(fā)事件文本數(shù)量Fig.4 Number of texts on traffic emergencies in 2020
從2019年和2020年樣本可看出,1月、2月和10月是交通突發(fā)事件文本數(shù)量較高的時(shí)期,可能是受春節(jié)假期和國(guó)慶假期高峰出行的影響,高速公路上的交通事故數(shù)量增加,加大了人們輿論的力度。
本文構(gòu)建的自然語(yǔ)言處理方法主要包括分詞和過(guò)濾停用詞、基于特征權(quán)重的特征詞選取。通過(guò)分詞和過(guò)濾停用詞,提高待處理文本的質(zhì)量;在此技術(shù)上,提出1種基于特征權(quán)重的特征詞選取方法,通過(guò)加強(qiáng)特征詞與相關(guān)文本間的映射關(guān)系,提高相關(guān)文本分類的準(zhǔn)確性。
筆者對(duì)訓(xùn)練集中的樣本進(jìn)行了分詞和過(guò)濾停用詞。在分詞的過(guò)程中,對(duì)比了Jieba分詞工具和LTP分詞工具。Jieba是Python中的中文分詞庫(kù),因其對(duì)中文文本良好的分詞功能,廣泛地用于中文文本分詞;LTP是哈爾濱工業(yè)大學(xué)開(kāi)源的1套中文語(yǔ)言處理系統(tǒng),因其在文本分詞中較好的處理性能,被廣泛應(yīng)用于各大比賽中。根據(jù)后續(xù)的測(cè)試效果,Jieba分詞速度遠(yuǎn)快于LTP分詞速度,但LTP分詞性能要優(yōu)于Jieba,故本文最終選擇了LTP分詞工具。經(jīng)過(guò)分詞后,訓(xùn)練集中仍存在著大量的無(wú)意義詞匯,被稱為停用詞,例如“的”“然后”“呀”等。筆者選用哈工大中文停用詞庫(kù)來(lái)對(duì)停用詞進(jìn)行過(guò)濾。以某條相關(guān)文本舉例,經(jīng)分詞和停用詞過(guò)濾后的形式見(jiàn)表2。
表2 分詞和過(guò)濾停用詞的結(jié)果示例Tab.2 A case for segmenting words and filtering stop words
傳統(tǒng)的特征詞選擇方法,比如TF-IDF、卡方檢驗(yàn)、LDA主題模型等,均同時(shí)關(guān)注樣本集的不同類別的特征,但當(dāng)樣本集類別數(shù)目不均衡時(shí),這些方法處理效果往往欠佳。訓(xùn)練集上,“1”和“0”樣本數(shù)量比例為1:3左右,樣本有較強(qiáng)的非均衡性。因此,本文建立了1種基于特征權(quán)重的特征詞選取方法,通過(guò)將注意力全部聚焦在相關(guān)文本,以建立相關(guān)文本和特征詞之間的精確映射,而不考慮非相關(guān)文本特征詞的影響。該方法的計(jì)算步驟如下。
步驟1。從訓(xùn)練集共計(jì)345條相關(guān)文本(已過(guò)濾停用詞)中提取到詞語(yǔ)集合,共9 312,去除重復(fù)詞語(yǔ)后,共2 311。
步驟2。通過(guò)式(1)~(2)計(jì)算詞語(yǔ)出現(xiàn)頻率的最大值和最小值;通過(guò)式(3)~(4)計(jì)算含有某個(gè)詞語(yǔ)的文本數(shù)占總文本比例的最大值和最小值。
式中:ni為第i個(gè)詞語(yǔ)在詞語(yǔ)集出現(xiàn)的總次數(shù);n為詞語(yǔ)集總詞數(shù);Nmax為詞頻序列的最大值;Nmin為詞頻序列的最小值;d i為含有第i個(gè)詞語(yǔ)的文本數(shù)量;d為文本總數(shù);Dmax為文本比例序列的最大值;Dmin為文本比例序列的最小值。
通過(guò)式(5)計(jì)算每個(gè)詞語(yǔ)的特征權(quán)重。
式中:Wi為第i個(gè)詞語(yǔ)的特征權(quán)重;w為權(quán)重因子。
步驟3。將Wi序列降序排序,根據(jù)Wi依次選取特征詞。后續(xù)通過(guò)選取不同的權(quán)重因子和特征詞數(shù)量來(lái)測(cè)試分類器分類性能。
步驟4。構(gòu)建詞向量矩陣。以某1條文本舉例:如果特征集合中的特征詞出現(xiàn)在了文本中,則將相對(duì)應(yīng)特征詞的位置上賦值該特征詞的特征權(quán)重。最終構(gòu)建的訓(xùn)練集的詞向量矩陣為[1 350,特征詞數(shù)量],測(cè)試集的詞向量矩陣為[726,特征詞數(shù)量]。
本文分別建立了基于KNN,SVM,AdaBoost,XGBoost的文本分類器。KNN算法無(wú)數(shù)據(jù)輸入假定,k的大小會(huì)影響分類精度,但k值選取沒(méi)有1個(gè)確定的標(biāo)準(zhǔn);SVM算法可以解決非線性的分類任務(wù),但對(duì)參數(shù)和核函數(shù)的選擇較敏感;AdaBoost和XGBoost屬于集成學(xué)習(xí),均基于Boosting算法,其中AdaBoost可以將不同的分類算法作為弱分類器,很好的利用了弱分類器進(jìn)行級(jí)聯(lián)運(yùn)算,但是數(shù)據(jù)不平衡會(huì)導(dǎo)致分類精度下降;XGBoost可以采取并行優(yōu)化策略,它加入了正則項(xiàng),可以降低過(guò)擬合,XGBoost也提供了調(diào)節(jié)樣本不均衡特性的參數(shù),但XGBoost需要調(diào)試的參數(shù)比較多。綜合來(lái)看,在分類器選擇上,并沒(méi)有1個(gè)確定的標(biāo)準(zhǔn)。本文利用訓(xùn)練集構(gòu)成的詞向量矩陣對(duì)各個(gè)分類器進(jìn)行訓(xùn)練,以獲得最優(yōu)的分類性能。
本文選取了精確率(P)、召回率(R),F(xiàn)1值(F1-Score)和AUC值4項(xiàng)常用指標(biāo)作為分類器評(píng)估標(biāo)準(zhǔn)。式(6)~(8)展示了前3項(xiàng)指標(biāo)的計(jì)算公式。
式中:TP為標(biāo)記為“1”且被分類為“1”的文本數(shù)量;FN為標(biāo)記為“1”但被分類為“0”的文本數(shù)量;TN為標(biāo)記為“0”且被分類為“0”的文本數(shù)量;FP為標(biāo)記為‘0’但被分類為‘1’的文本數(shù)量。
精確率越高,代表分類器識(shí)別出的所有相關(guān)文本中,真實(shí)值也是“1”的比例越高;而召回率越高,表示了能有更多真實(shí)值是“1”的文本被識(shí)別出來(lái),而遺漏的越少。F1值作為綜合指標(biāo),可以平衡精確率和召回率的影響,較為全面地評(píng)價(jià)1個(gè)分類器。AUC值定義為ROC曲線下方的面積。AUC值適合評(píng)價(jià)樣本不平衡中的分類器性能。AUC越大,表示分類器性能越好。
本文通過(guò)訓(xùn)練集構(gòu)建出的分類器來(lái)測(cè)試測(cè)試集上的文本分類性能。測(cè)試集上,將其他3種傳統(tǒng)特征詞選擇方法作了對(duì)比。表3~6展示了不同組合下的相關(guān)文本的分類指標(biāo)結(jié)果。
表3 ~6的對(duì)比結(jié)果證實(shí)了所提基于特征權(quán)重的特征詞選取方法的有效性,相較于其它方法,所提特征詞選取方法與XGBoost結(jié)合的方法綜合表現(xiàn)最優(yōu),具有最高的召回率值0.6481,最高的F1值0.663 5,以及最高的AUC值0.759 4。表7為在最優(yōu)組合下的參數(shù)設(shè)置情況(未列出的參數(shù)采用默認(rèn)值)。
表3 精確率對(duì)比Tab.3 Comparison of precision rates
表4 召回率對(duì)比Tab.4 Comparison of recall rates
表5 F1值對(duì)比Tab.5 Comparison of F1 values
表6 AUC值對(duì)比Tab.6 Comparison of AUC values
表7 參數(shù)設(shè)置Tab.7 Parameter settings
筆者也探討了不同特征詞數(shù)量對(duì)分類指標(biāo)的影響,結(jié)果見(jiàn)圖5。測(cè)試表明當(dāng)特征詞數(shù)量為150時(shí),分類器取得最優(yōu)性能。
圖5 不同特征詞數(shù)量下的指標(biāo)對(duì)比Fig.5 Comparison of indices under different eigenvalues
圖6 展示了由150個(gè)特征詞構(gòu)建出的詞云圖。其中,字號(hào)越大,代表了特征詞的特征權(quán)重越大。
圖6 詞云圖Fig.6 Word cloud
筆者隨機(jī)選取了2020年10月的相關(guān)文本來(lái)進(jìn)一步分析,共計(jì)約55條相關(guān)文本。與官方發(fā)布信息進(jìn)行對(duì)比,比對(duì)成功共計(jì)16起。圖7為其中1個(gè)匹配成功的案例。其中,圖7(a)是識(shí)別出的交通突發(fā)事件文本,圖7(b)是與之相應(yīng)的官方報(bào)道。某用戶于08:00發(fā)布的1條微博信息顯示在G2京滬高速上發(fā)生交通事故,官方微博于08:59才發(fā)布了該事件的相關(guān)報(bào)道??梢钥闯?,普通用戶在相對(duì)早的時(shí)間發(fā)布了事故信息,而官方微博發(fā)布時(shí)間相對(duì)晚,可能是官方需要確認(rèn)交通事故信息后才對(duì)外發(fā)布。然而,仍有39條交通突發(fā)事件信息未匹配到相關(guān)的官方信息,潛在的原因可能包括:①部分信息并不含有關(guān)于事件的具體地點(diǎn)定位;②在同1個(gè)時(shí)段內(nèi),部分信息定位到的地點(diǎn)無(wú)法與官方信息中提供的地點(diǎn)匹配。
圖7 交通事故識(shí)別與官方報(bào)道對(duì)比Fig.7 Comparison between traffic accident identification and official reports
綜上所述,所提出的交通突發(fā)事件識(shí)別方法可從社交網(wǎng)絡(luò)平臺(tái)微博文本中有效地挖掘出交通突發(fā)事件信息。由于微博信息發(fā)布的實(shí)時(shí)性特點(diǎn),從微博中挖掘出的信息,可為實(shí)時(shí)的交通突發(fā)事件監(jiān)測(cè)提供1種新的信息獲取方式。然而,由于用戶發(fā)布的信息在可靠性和嚴(yán)謹(jǐn)性等方面有所欠缺,因此,基于社交網(wǎng)絡(luò)數(shù)據(jù)的交通突發(fā)事件識(shí)別目前僅能作為1種輔助方法。在獲取識(shí)別結(jié)果后,仍需其他監(jiān)測(cè)方法對(duì)結(jié)果進(jìn)行核實(shí)。
為了實(shí)現(xiàn)從社交網(wǎng)絡(luò)平臺(tái)“微博”中挖掘出高速公路交通突發(fā)事件信息,提出了基于機(jī)器學(xué)習(xí)的文本識(shí)別方法,具體包括文本信息的爬取、預(yù)處理、分詞和過(guò)濾停用詞、特征權(quán)重計(jì)算、特征詞選取及分類器構(gòu)建。通過(guò)構(gòu)建不同的分類器進(jìn)行測(cè)試,并與其他3種傳統(tǒng)特征詞選擇方法對(duì)比,論證了基于特征權(quán)重的特征詞選取方法的有效性。該方法在XGBoost分類器上具有最高的分類性能。在案例分析時(shí),筆者發(fā)現(xiàn),通過(guò)所提出的挖掘方法識(shí)別出的高速公路交通突發(fā)事件,發(fā)布時(shí)間上會(huì)早于官方發(fā)布,在一定程度上可輔助高速公路交通運(yùn)營(yíng)和管理的相關(guān)單位和部門實(shí)現(xiàn)交通事件的監(jiān)測(cè)。在未來(lái)的研究中,研究擬從以下方面繼續(xù)深化:①提高文本識(shí)別的分類器性能;②考慮融合圖像數(shù)據(jù)來(lái)做交通突發(fā)事件的識(shí)別,例如某些用戶傾向于發(fā)布圖片來(lái)描述交通突發(fā)事件,而非文本說(shuō)明。