王志曉,李卓淳,閆文耀
(1.西安理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,陜西 西安 710048;2.陜西省網(wǎng)絡(luò)計(jì)算與安全技術(shù)重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710048;3.延安大學(xué) 西安創(chuàng)新學(xué)院,陜西 西安 710100)
公共安全危機(jī)包括人為災(zāi)難、自然災(zāi)難、社會(huì)安全事件和公共衛(wèi)生事件。這類(lèi)事件危害公共安全和社會(huì)秩序,造成公眾生命財(cái)產(chǎn)嚴(yán)重?fù)p失,公眾心理失衡,緊張和恐慌。因此快速準(zhǔn)確識(shí)別此類(lèi)事件可以最大程度地減少損失,保障社會(huì)穩(wěn)定。近年來(lái),社交媒體已成為一種人人都能分享事件和向公眾宣傳故事來(lái)提高認(rèn)知的工具[1],因此利用社交媒體來(lái)自動(dòng)監(jiān)測(cè)公共安全危機(jī)變得尤為有效。由于社交媒體在信息傳播中的優(yōu)勢(shì),其用途越來(lái)越廣泛,例如在洪水、地震、海嘯等災(zāi)難期間的危機(jī)準(zhǔn)備,響應(yīng)和恢復(fù),但是尚未意識(shí)到社會(huì)媒體識(shí)別和提供家庭暴力受害者即時(shí)支持的潛在好處[2]。
家庭暴力(domestic violence,DV)是女性受傷的主要原因之一,受害者通常不僅遭受身體虐待,而且遭受性,情感和言語(yǔ)虐待。這個(gè)問(wèn)題在世界范圍內(nèi)普遍存在,目前有不少國(guó)家和組織創(chuàng)建了家庭暴力危機(jī)服務(wù)(DVCS),以提供服務(wù)的組合,例如危機(jī)熱線,咨詢,倡導(dǎo)和緊急庇護(hù)給DV受害者。但是,受害者往往不能有效地利用服務(wù),因?yàn)樗鼈冃枰e極尋求這種支助。社交媒體的可用性使DV受害者可以分享他們的故事并獲得整個(gè)社會(huì)的支持,這為DVCS提供了一個(gè)主動(dòng)接觸和支持DV受害者的機(jī)會(huì)。
該文以公共安全危機(jī)中的家庭暴力危機(jī)為研究對(duì)象。目前而言在中國(guó)國(guó)內(nèi),幾乎沒(méi)有這方面的研究,雖然有很多基于深度學(xué)習(xí)框架下的課題和研究,但在識(shí)別家庭暴力這個(gè)方向上,還鮮有突破。在國(guó)外,關(guān)于DV的研究也是近五年才慢慢開(kāi)始并逐漸增多的,主要是大學(xué)的研究機(jī)構(gòu)和大型社交媒體公司如Facebook、Google等在進(jìn)行研究。通過(guò)收集社交媒體上的信息,用經(jīng)過(guò)相關(guān)訓(xùn)練的模型即可推斷出哪些人可能正在遭受家庭暴力。除此以外,還有一些社會(huì)非盈利組織推出了家庭暴力咨詢服務(wù)(DVCS),它們通過(guò)開(kāi)發(fā)相關(guān)APP來(lái)識(shí)別用戶社交媒體上的帖子或動(dòng)態(tài),判斷該用戶是否正在遭受家庭暴力或可能將會(huì)被家暴。但這類(lèi)APP很多存在竊取用戶隱私、識(shí)別不準(zhǔn)確等缺點(diǎn),因此目前許多機(jī)構(gòu)致力于如何更好地定義和更快更準(zhǔn)確地發(fā)現(xiàn)日常生活中的家庭暴力危機(jī)進(jìn)行研究。總體而言,家庭暴力危機(jī)識(shí)別的研究這幾年已經(jīng)有明顯上升趨勢(shì),越來(lái)越多的研究者致力于用深度學(xué)習(xí)的方法去識(shí)別DV危機(jī),改善受害者生活。
因此,該文主要完成了以下幾類(lèi)工作:(1)從Facebook上獲取家庭暴力受害者發(fā)出的帖子,將它們按是否存在家庭暴力危機(jī)的標(biāo)準(zhǔn)分類(lèi),有則標(biāo)記為1,無(wú)則標(biāo)記為0,并將它們清洗,做文本預(yù)處理;(2)采用Word2Vec生成詞向量模型;(3)采用CNN、RNN、LSTM和Bi-LSTM+self-Attention四種深度學(xué)習(xí)方法對(duì)數(shù)據(jù)集訓(xùn)練生成自動(dòng)識(shí)別家庭暴力危機(jī)模型;(4)保存模型與history,對(duì)模型訓(xùn)練過(guò)程繪圖并評(píng)估各模型表現(xiàn);(5)簡(jiǎn)述主要的研究?jī)?nèi)容。
深度學(xué)習(xí)是人工智能和機(jī)器學(xué)習(xí)研究的最新趨勢(shì)之一,同時(shí)它也是現(xiàn)在最流行的科學(xué)研究趨勢(shì)之一。深度學(xué)習(xí)方法為計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)帶來(lái)了革命性的進(jìn)步。新的深度學(xué)習(xí)技術(shù)正在不斷誕生,不斷刷新最先進(jìn)的機(jī)器學(xué)習(xí)和現(xiàn)有的深度學(xué)習(xí)技術(shù)紀(jì)錄。近年來(lái),全世界在這一領(lǐng)域取得了很多關(guān)鍵突破[3]。
有兩種主要的深度學(xué)習(xí)架構(gòu),即卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。兩種模型都把序列中的單詞嵌入作為輸入,輸出單詞的實(shí)值和連續(xù)特征向量。 CNN已應(yīng)用于句子級(jí)別的問(wèn)題和情感分類(lèi),與傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)相比,它們表現(xiàn)出更高的性能。而RNN可以對(duì)文本序列建模,對(duì)多任務(wù)學(xué)習(xí)提升較大[4]。目前RNN有很多改進(jìn)版本,例如長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)、門(mén)控循環(huán)單元(GRU)和雙向LSTM(Bi-LSTM),由于它們具有的長(zhǎng)期依賴性和能隨時(shí)間存儲(chǔ)歷史信息而廣泛用于NLP領(lǐng)域。目前深度學(xué)習(xí)技術(shù)已應(yīng)用于檢測(cè)關(guān)于歧視和仇恨言論,商品評(píng)價(jià),情感分析等方面。
總的來(lái)說(shuō),深度學(xué)習(xí)(DL)比以往任何時(shí)候都更快地推進(jìn)了世界的發(fā)展,但仍有許多方面值得研究。人們?nèi)匀粺o(wú)法完全理解深度學(xué)習(xí),如如何讓機(jī)器變得更智能,更接近或比人類(lèi)更聰明,或者像人類(lèi)一樣學(xué)習(xí)[5]。DL一直在解決許多問(wèn)題,同時(shí)將技術(shù)應(yīng)用到各行各業(yè)。當(dāng)今人類(lèi)仍然面臨著許多難題,例如仍有人死于饑餓和貧困,癌癥和其他致命的疾病等。希望人工智能和深度學(xué)習(xí)將更加致力于改善人類(lèi)的生活質(zhì)量,通過(guò)開(kāi)展最困難的科學(xué)研究,解決各行各業(yè)傳統(tǒng)方法無(wú)法解決的難題,讓世界變得更加美好。
文本分類(lèi)指的是用電腦對(duì)文本集(或其他實(shí)體或物件)按照一定的分類(lèi)體系或標(biāo)準(zhǔn)進(jìn)行自動(dòng)分類(lèi)標(biāo)記。從一個(gè)標(biāo)注完成的訓(xùn)練文本集合,尋找出一個(gè)關(guān)系模型,它能很好地反映文本類(lèi)別與文本表征之間的聯(lián)系,然后將此訓(xùn)練得到的關(guān)系模型應(yīng)用于新的未知文本用于分類(lèi)判斷[6]。分類(lèi)器的選擇與訓(xùn)練、文本的表達(dá)、分類(lèi)結(jié)果的評(píng)價(jià)與反饋等是文本分類(lèi)的主要應(yīng)用場(chǎng)景,而特征提取與文本預(yù)處理等步驟均是文本表達(dá)技術(shù)的分支[7-8]。隨著計(jì)算機(jī)科學(xué)技術(shù)的發(fā)展,統(tǒng)計(jì)學(xué)習(xí)方法在文本分類(lèi)領(lǐng)域占據(jù)絕對(duì)統(tǒng)治地位。由于人工智能的迅猛發(fā)展,文本分類(lèi)從依賴于知識(shí)的方法逐漸轉(zhuǎn)換為基于機(jī)器學(xué)習(xí)和統(tǒng)計(jì)的方法。扎實(shí)牢靠的理論基礎(chǔ)作為支撐,清晰準(zhǔn)確的評(píng)估指標(biāo)以及實(shí)際表現(xiàn)出色,都為其中很多技術(shù)的發(fā)展壯大提供了強(qiáng)有力的幫助。
文本分類(lèi)主要有兩大任務(wù):文本特征提取和標(biāo)簽預(yù)測(cè)[9]。特征提取的目的是從文本數(shù)據(jù)中提取重要的詞匯,并以合適的形式表示它們,這是機(jī)器學(xué)習(xí)算法進(jìn)行進(jìn)一步分析所必需的。主流的文本特征提取方法包括word n-gram,bag-of-opinions,syntactic relations,sentiment lexicon features,Bag-of-Words(BoW)和TF-IDF[10]等。標(biāo)簽預(yù)測(cè)任務(wù)通常涉及在真實(shí)標(biāo)簽數(shù)據(jù)集上訓(xùn)練學(xué)習(xí)模型,然后應(yīng)用訓(xùn)練后的模型對(duì)未標(biāo)簽新數(shù)據(jù)進(jìn)行分類(lèi)。計(jì)算機(jī)只有利用統(tǒng)計(jì)分類(lèi)算法得到由樣本數(shù)據(jù)轉(zhuǎn)化而來(lái)的向量表示后,才能開(kāi)始對(duì)這些向量進(jìn)行真正意義上的“學(xué)習(xí)”過(guò)程[11-12]。所以統(tǒng)計(jì)分類(lèi)算法是至關(guān)重要的,目前常用分類(lèi)算法有:SVC,KNN,神經(jīng)網(wǎng)絡(luò),Decision Tree[13]等。
本章將介紹如何構(gòu)建家庭暴力危機(jī)識(shí)別模型以及評(píng)價(jià)模型表現(xiàn)。由四個(gè)階段組成:數(shù)據(jù)提取與處理、特征提取、模型構(gòu)建、表現(xiàn)評(píng)估。在以下小節(jié)中將具體描述各個(gè)階段的詳細(xì)信息。
鑒于Facebook是一款全球流行的社交媒體并擁有龐大的用戶群體和帖子數(shù)量,該文使用了Sudha Subramani整理的DV數(shù)據(jù)集[1-2]??紤]到個(gè)人隱私等問(wèn)題,該文使用了公共頁(yè)面上的帖子內(nèi)容,未披露任何個(gè)人信息。
首先對(duì)獲取到的文本數(shù)據(jù)進(jìn)行清洗和標(biāo)記,去除未含任何文本內(nèi)容或全為無(wú)意義話語(yǔ)等帖子,然后對(duì)每條數(shù)據(jù)標(biāo)記。這些帖子由人工手動(dòng)標(biāo)記,存在家庭暴力危機(jī)標(biāo)記為1,不存在標(biāo)記為0,最終取得可用于后續(xù)模型構(gòu)建的數(shù)據(jù)共916條。
由于計(jì)算機(jī)無(wú)法直接理解文本,故需要將文本轉(zhuǎn)化為詞向量。假設(shè)輸入帖子表示為P={x1,x2,…,xn},其中xi是帖子P中的單個(gè)單詞。首先通過(guò)映射每個(gè)單詞到嵌入矩陣L的索引,將句子轉(zhuǎn)換到特征空間。因此,單詞嵌入矩陣表示為L(zhǎng)x∈RD×|V|,其中D是詞向量維數(shù),|V|是詞匯量[14]。目前有多種詞向量方法,如Word2Ve、GloVe、BERT等。該文采用Word2Vec構(gòu)建詞向量模型,并選擇以大量Twitter帖子為樣本的預(yù)訓(xùn)練模型。并對(duì)其50維和300維模型進(jìn)行了表現(xiàn)評(píng)估,最終決定使用表現(xiàn)更好的50維模型,作為下一步深度學(xué)習(xí)模型的嵌入層。
該文一共構(gòu)建四種模型,CNN、RNN、LSTM和Bi-LSTM+self-Attention。
2.3.1 CNN
在卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)中,模型的第一層為嵌入層,它提取信息量最大的n-gram特征并存儲(chǔ)每個(gè)單詞的單詞嵌入[15],該文選擇訓(xùn)練好的word2vec詞向量模型放置于此。卷積層有不同數(shù)量的計(jì)算單元,通過(guò)改變滑動(dòng)步幅可控制輸出特征向量尺寸。使用三個(gè)卷積層(三個(gè)不同濾波器),分別連接三個(gè)池化層,池化層將先前的卷積表示形式轉(zhuǎn)換為更高級(jí)別的抽象視圖,并生成固定大小的輸出[16]。再將結(jié)果連接concatenate層進(jìn)行整合,dropout層可有效防止過(guò)擬合問(wèn)題,flatten層用于將多維輸入一維化,最后采用兩個(gè)全連接層,將原本的多分類(lèi)輸出經(jīng)過(guò)relu和sigmoid激活函數(shù)處理,輸出變?yōu)?或1的二分類(lèi)。
2.3.2 RNN
循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)是一種時(shí)序性的遞歸神經(jīng)網(wǎng)絡(luò)。它最大的特點(diǎn)在于數(shù)據(jù)的輸入必須滿足時(shí)間序列的性質(zhì),并且采用遞歸的方法使得序列間進(jìn)行發(fā)展和推進(jìn)[17]。所循環(huán)單元的鏈?zhǔn)竭B接使得RNN具有記憶性、參數(shù)共享性等一系列與其他神經(jīng)網(wǎng)絡(luò)不同的特性,因此RNN十分適合對(duì)輸入數(shù)據(jù)為序列式的數(shù)據(jù)集的非線性特征進(jìn)行學(xué)習(xí)。具體運(yùn)行過(guò)程是t時(shí)刻輸入當(dāng)前信息并由神經(jīng)網(wǎng)絡(luò)模塊S接收,之后由S得到t時(shí)刻的輸出,并且將當(dāng)前時(shí)刻的部分信息傳遞到下一刻t+1[18]。
2.3.3 LSTM
在RNN中,由于只依靠一條主線記錄所有信息,因此在處理具有長(zhǎng)距離依賴關(guān)系的場(chǎng)景下表現(xiàn)不好,如對(duì)一個(gè)超長(zhǎng)句,RNN很難保持前后的時(shí)態(tài)一致。為改善提高RNN,出現(xiàn)了長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(long short-term memory,LSTM)。LSTM引入了細(xì)胞狀態(tài),并使用輸入門(mén)、遺忘門(mén)、輸出門(mén)三種門(mén)來(lái)控制和保持信息。遺忘門(mén)結(jié)合上一隱藏層狀態(tài)值ht-1和當(dāng)前輸入xt,通過(guò)sigmoid函數(shù)(σ)[19],決定舍棄哪些舊信息。sigmoid值域?yàn)?0,1),當(dāng)其值接近于1時(shí)保持信息,當(dāng)其值接近于0時(shí)丟棄一部分信息。其次,輸入門(mén)和tanh決定從上一時(shí)刻隱藏層激活值ht-1和當(dāng)前輸入值xt中保存哪些新信息,并得到候選值ct。然后,結(jié)合遺忘門(mén)和輸入門(mén)進(jìn)行信息的保存和舍棄,得到當(dāng)前時(shí)刻的細(xì)胞狀態(tài)ct。最后,輸出門(mén)結(jié)合tanh決定ct、ht-1、xt中哪些信息輸出為本時(shí)刻的隱藏層狀態(tài)ht[20]。LSTM通過(guò)上述的方式?jīng)Q定如何舍棄、保持和更新信息,因?yàn)樽詈蟮慕Y(jié)果ht是由多個(gè)函數(shù)作用并使用RNN未有的求和操作得來(lái)的,所以在反向傳播過(guò)程中不容易產(chǎn)生梯度消失問(wèn)題[21]。
2.3.4 Bi-LSTM+Attention
LSTM是一種前向傳播算法,序列化處理讓它在處理信息時(shí)必須遵循先后順序,所以常常只考慮了上文而忽略了下文。在家庭暴力語(yǔ)言環(huán)境中,上下文往往是高度關(guān)聯(lián)的,為了既考慮序列前值又考慮序列后值,該文引入了雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bidirectional long short term memory,Bi-LSTM),如圖1所示[22]。
圖1 Bi-LSTM模型示意圖
圖1中語(yǔ)句經(jīng)過(guò)嵌入層后,前向的LSTM提取當(dāng)前時(shí)刻的前文特征信息,后向的LSTM提取當(dāng)前時(shí)刻的后文特征信息。Bi-LSTM模型t時(shí)刻輸入的計(jì)算公式如下:
(1)
在有關(guān)家庭暴力帖子文本識(shí)別過(guò)程中,每條帖子字?jǐn)?shù)不同,并且存在一些簡(jiǎn)單重復(fù)的情感用語(yǔ)和對(duì)識(shí)別意義不大的詞語(yǔ)等。為提高識(shí)別準(zhǔn)確率,必須突出關(guān)鍵詞和重點(diǎn)詞匯,優(yōu)化特征詞提取過(guò)程,所以該文在Bi-LSTM的基礎(chǔ)上引入Attention機(jī)制。注意力機(jī)制模擬人腦注意力的特點(diǎn),核心思想是:對(duì)重要的內(nèi)容分配較多的注意力,對(duì)其他部分分配較少的注意力[24]。傳統(tǒng)Attention機(jī)制模型需要依賴部分外部信息,而self-Attention 機(jī)制不需要使用其他外部的信息,它會(huì)自動(dòng)從自身所給的信息訓(xùn)練來(lái)更新參數(shù)從而給不同信息分配不同的權(quán)重[25],因此該文采用self-Attention機(jī)制,計(jì)算方法如下:
(2)
其中,Q,K,V矩陣分別由輸入矩陣乘WQ,WK,WV權(quán)重矩陣而得到,計(jì)算結(jié)果為Attention層輸出[26]。
Bi-LSTM+self-Attention模型如圖2所示[27]。
圖2 基于self-Attention的Bi-LSTM模型結(jié)構(gòu)
最后一步是對(duì)每個(gè)模型識(shí)別家庭暴力有關(guān)帖子準(zhǔn)確率的評(píng)估,該文采用準(zhǔn)確率、精度、召回率和F1值作為分類(lèi)器的評(píng)估指標(biāo),這四個(gè)指標(biāo)是衡量機(jī)器學(xué)習(xí)模型性能公認(rèn)的四大指標(biāo)[28]。采用K折交叉驗(yàn)證的方法進(jìn)行訓(xùn)練測(cè)試,將樣本數(shù)據(jù)分為K份,對(duì)每份數(shù)據(jù)計(jì)算評(píng)估指標(biāo)值,對(duì)K次計(jì)算的結(jié)果取平均值得到最終評(píng)估結(jié)果[29],然后對(duì)四種模型訓(xùn)練過(guò)程中accuracy和loss率的變化繪圖,直觀展現(xiàn)和比較各模型訓(xùn)練和測(cè)試效果。
共從Facebook上獲取到家庭暴力相關(guān)帖子916條,并對(duì)它們進(jìn)行人工標(biāo)記,有家庭暴力危機(jī)標(biāo)記為1,無(wú)標(biāo)記為0,標(biāo)注后的數(shù)據(jù)樣例見(jiàn)表1。
表1 家庭暴力數(shù)據(jù)集樣例
在開(kāi)始訓(xùn)練前,需要對(duì)英文文本信息進(jìn)行分詞、清洗、標(biāo)準(zhǔn)化等預(yù)處理[30],神經(jīng)網(wǎng)絡(luò)中輸入的所有文本向量組需要有相同的維度,因此需要對(duì)文本進(jìn)行切割[11]。經(jīng)統(tǒng)計(jì)總單詞量為11 085,文本最大長(zhǎng)度4 507??紤]到絕大部分文本長(zhǎng)度在500以內(nèi)。在盡量保留文本信息的同時(shí)提高訓(xùn)練效率,該文截取500作為文本的長(zhǎng)度。取K為10,采取k-fold交叉驗(yàn)證方法生成后續(xù)模型的訓(xùn)練用例與測(cè)試用例。對(duì)訓(xùn)練集用wordcloud可視化,直觀反映不同詞的重要性特征,見(jiàn)圖3。
圖3 wordcloud對(duì)訓(xùn)練集可視化視圖
該文模型較多,具體參數(shù)見(jiàn)表2。其中模型的部分超參數(shù)主要是來(lái)自于先前論文研究中的經(jīng)驗(yàn),如學(xué)習(xí)速率、Dropout數(shù)值。一些參數(shù)是根據(jù)DV數(shù)據(jù)集的特性而設(shè)置,如最大句子長(zhǎng)度和詞匯量是統(tǒng)計(jì)數(shù)據(jù)集得到。另外,還有部分參數(shù)根據(jù)模型訓(xùn)練和硬件的條件配置,如batch、epoch以及優(yōu)化器的選擇。
表2 模型具體參數(shù)設(shè)置
設(shè)置了四個(gè)分類(lèi)器實(shí)驗(yàn)對(duì)照組,分別使用了CNN、RNN、LSTM和Bi-LSTM+self-Attention(SA-BiLSTM)。使用相同50維word2vec詞向量模型作為輸入,采用K折交叉驗(yàn)證(K=10)的方法進(jìn)行訓(xùn)練測(cè)試,將樣本數(shù)據(jù)分為10份,對(duì)每份數(shù)據(jù)計(jì)算評(píng)估指標(biāo)值,對(duì)10次計(jì)算的結(jié)果取平均值得到最終評(píng)估結(jié)果。使用準(zhǔn)確率(Accuracy)、精度(Precision)、召回率(Recall)和F1值作為分類(lèi)器的評(píng)估指標(biāo),最終評(píng)估結(jié)果見(jiàn)表3。
表3 模型評(píng)估結(jié)果
綜合表3實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),RNN在四種模型中各項(xiàng)評(píng)估值均為最低,這可能由于RNN梯度消失問(wèn)題所導(dǎo)致,在給定較長(zhǎng)序列的情況下,隨著新序列被輸入到RNN中,初始序列的信息逐漸消失[8]。CNN模型由于其獨(dú)特的卷積機(jī)制,在四項(xiàng)評(píng)估指標(biāo)上均表現(xiàn)良好,且訓(xùn)練時(shí)間是最少的。而RNN無(wú)法處理長(zhǎng)距離依賴的問(wèn)題,似乎被它的改進(jìn)模型LSTM和Bi-LSTM很好地解決了,通過(guò)引入細(xì)胞狀態(tài)和遺忘門(mén)等機(jī)制能讓它們選擇性遺忘信息。從結(jié)果來(lái)看,LSTM達(dá)到了最高的精度,為92.86%。而SA-BiLSTM由于引入了雙向LSTM和self-Attention機(jī)制,使得其對(duì)文本特征提取更快更精確,召回率、F1值和準(zhǔn)確率在四種模型中均為最高,對(duì)比來(lái)看明顯比LSTM提升了性能。接著以訓(xùn)練時(shí)期評(píng)估了各模型性能,希望訓(xùn)練時(shí)間越長(zhǎng),模型越穩(wěn)定。
然而深度學(xué)習(xí)模型往往需要很長(zhǎng)時(shí)間運(yùn)行,且與計(jì)算機(jī)算力高度相關(guān)[12]。因此繪制了各模型在epochs從1到20各時(shí)期的accuracy和loss,見(jiàn)圖4。
由圖4可以看到,RNN在20個(gè)周期的訓(xùn)練中accuracy和loss始終波動(dòng)較大,且較其他幾種模型而言明顯accuracy更低loss更高,說(shuō)明需要更多訓(xùn)練周期才可能收斂。CNN、LSTM和Bi-LSTM在訓(xùn)練開(kāi)始accuracy和loss有一定波動(dòng),隨著訓(xùn)練周期增加,accuracy和loss逐漸增加和下降,在平均17個(gè)周期后趨于穩(wěn)定,三種模型的accuracy和loss分別穩(wěn)定在0.9和0.3左右。
圖4 不同時(shí)期各模型的accuracy與loss
探索了用深度學(xué)習(xí)方法自動(dòng)識(shí)別公共安全危機(jī)問(wèn)題,以家庭暴力危機(jī)為特定研究對(duì)象,提出了基于Bi-LSTM+Attention的家庭暴力危機(jī)識(shí)別模型。首先從Facebook上獲取到相關(guān)數(shù)據(jù)集,構(gòu)建word2vec詞向量模型,然后將SA-BiLSTM模型與其他三種模型進(jìn)行了對(duì)比評(píng)估。結(jié)果表明除RNN外,CNN、LSTM和SA-BiLSTM三種模型表現(xiàn)均為良好,其中SA-BiLSTM綜合表現(xiàn)最好,相較其他模型在此問(wèn)題上有一定優(yōu)越性。
盡管該文實(shí)現(xiàn)了上述工作,還是有很多不足,可以在后續(xù)研究中加以改進(jìn)與提高。(1)數(shù)據(jù)集過(guò)小。受限于人工標(biāo)注,以及本題目的研究現(xiàn)狀,網(wǎng)絡(luò)上還沒(méi)有家庭暴力相關(guān)大型數(shù)據(jù)集。(2)數(shù)據(jù)集種類(lèi)單一。只有從Facebook上采集到的英文帖子,還可以從Twitter、微博等獲取更多語(yǔ)言種類(lèi)的相關(guān)帖子。對(duì)于中文語(yǔ)言,可以采用分詞軟件先進(jìn)行分詞等文本預(yù)處理,再訓(xùn)練生成對(duì)應(yīng)中文詞向量模型,調(diào)整神經(jīng)網(wǎng)絡(luò)模型相關(guān)參數(shù)以提高中文語(yǔ)料訓(xùn)練效果。(3)可進(jìn)一步對(duì)模型優(yōu)化,找到各類(lèi)最佳超參數(shù)以達(dá)到模型最好效果。(4)應(yīng)考慮將此模型推廣至其他公共安全危機(jī)識(shí)別問(wèn)題中。