孟曌 田生偉 禹龍 王瑞錦
摘 要:為提高對文本語境深層次信息的利用效率,提出了聯合分層注意力網絡(HAN)和獨立循環(huán)神經網絡(IndRNN)的地域欺凌文本識別模型——HACBI。首先,將手工標注的地域欺凌文本通過詞嵌入技術映射到低維向量空間中;其次,借助卷積神經網絡(CNN)和雙向長短期記憶網絡(BiLSTM)提取地域欺凌文本的局部及全局語義特征,并進一步利用HAN捕獲文本的內部結構信息;最后,為避免文本層次結構信息丟失和解決梯度消失等問題,引入IndRNN以增強模型的描述能力,并實現信息流的整合。實驗結果表明,該模型的準確率(Acc)、精確率(P)、召回率(R)、F1和AUC值分別為99.57%、98.54%、99.02%、98.78%和99.35%,相比支持向量機(SVM)、CNN等文本分類模型有顯著提升。
關鍵詞:地域欺凌;結構信息;分層注意力網絡;獨立循環(huán)神經網絡;詞向量;語境
中圖分類號:?TP391; TP181
文獻標志碼:A
Regional bullying recognition based on joint hierarchical attentional network and independent recurrent neural network
MENG Zhao1, TIAN Shengwei1*, YU Long2, WANG Ruijin3
1.School of Software, Xinjiang University, Urumqi Xinjiang 830008, China;
2.Network Center, Xinjiang University, Urumqi Xinjiang 830046, China;
3.School of Information and Software Engineering, University of Electronic Science and Technology of China, Chengdu Sichuan 611731, China
Abstract:?In order to improve the utilization efficiency of deep information in text context, based on Hierarchical Attention Network (HAN) and Independent Recurrent Neural Network (IndRNN), a regional bullying semantic recognition model called HACBI (HAN_CNN_BiLSTM_IndRNN) was proposed. Firstly, the manually annotated regional bullying texts were mapped into a low-dimensional vector space by means of word embedding technology. Secondly, the local and global semantic information of bullying texts was extracted by using Convolutional Neural Network (CNN) and Bidirectional Long Short-Term Memory (BiLSTM), and internal structure information of text was captured by HAN. Finally, in order to avoid the loss of text hierarchy information and solve the gradient disappearance problem, IndRNN was introduced to enhance the description ability of model, which achieved the integration of information flow. Experimental results show that the Accuracy (Acc), Precision (P), Recall (R), F1 (F1-Measure) and AUC (Area Under Curve) values are 99.57%, 98.54%, 99.02%, 98.78% and 99.35% respectively of this model, which indicates that the effectiveness provided by HACBI is significantly improved compared to text classification models such as Support Vector Machine (SVM) and CNN.
Key words:?regional bullying; structural information; Hierarchical Attention Network (HAN); Independent Recurrent Neural Network (IndRNN); word vector; context
0 引言
近年來,隨著互聯網的不斷發(fā)展和社交媒體的普遍應用,人們在網絡中對各類事物的參與程度前所未有。移動通信終端的普及進一步使人們的工作和生活融入到網絡中,QQ、微信等即時通信軟件,Wiki、Facebook、微博、貼吧等各類社交網站為世界范圍內的網民提供了相互交流的平臺,公眾廣泛參與到社會事件、政治活動、產品服務等方面的評論中。然而由于缺乏監(jiān)管和網絡天然的匿名特點,社交媒體帶給人們自由、便利和迅捷的同時,也帶來很多負面影響,由此產生了海量欺凌信息。在日常生活中,常出現針對特定地域或特定地域人群的欺凌性言論,而這些地域欺凌性言論發(fā)布和傳播不僅嚴重地損害了被欺凌地域的形象,影響該地域的發(fā)展,破壞社會和諧,還給受害人或群體帶來心理和情感上的嚴重傷害。目前國內地域欺凌語料庫較少,并不能滿足研究需求,因此構建地域欺凌語料庫是該研究的一項重要基礎任務。深度學習技術在自然語言處理、計算機視覺和機器翻譯等領域大放異彩,為地域欺凌文本的識別提供了一種全新的思路,因此,如何利用現有的特征工程和深度學習神經網絡來識別地域欺凌文本已成為一個重要的研究課題。
1 相關研究
欺凌言論的分析方法一般可以分為:基于淺層特征的方法、基于詞向量(word embedding)[1]的神經網絡方法、情感分析方法以及基于對網絡欺凌相關人員分析的方法等。為了檢測欺凌文本中攻擊性內容和識別社交媒體中潛在的攻擊性用戶,Chen等[2]提出詞匯和句法特征的檢測架構,但詞句分析需要人工參與設定各種規(guī)則,通用性有待商榷。Ashktorab等[3]從社交網站Ask.fm收集網絡欺凌文本,將其作為一種特殊的網絡優(yōu)化形式,以提高檢測的自動化程度,并從欺凌的程度、文本中出現的角色和欺凌的類別等方面對其進行細粒度分類。為捕捉不同文本環(huán)境中欺凌相關術語、上下文信息與Twitter上欺凌內容分類的關聯性,Burnap等[4]提出了基于規(guī)則的方法。為了進一步根據欺凌術語的相關強度以及對文本中角色的引用進行加權,Zhou等[5]通過把褻瀆、猥褻和貶義的詞作為特征來確定欺凌內容,建立機器學習模型來減小假陰率(False Negative, FN)。Dadvar等[6]使用第一和第二人稱代詞對YouTube上的欺凌行為進行分類,得到了良好的分類效果。針對詞袋模型(Bag of Words, BoW)[7]技術的局限性,Collier等[8]利用詞匯泛化方法將詞典以外的URL(Uniform Resource Locator)、標點符號和標記符號等作為附加特征,能進一步提高預測性能。為了進一步克服詞袋模型表現出的局限性,Djuric等[9]提出了基于詞向量的神經網絡方法,并使用詞向量模型來探索段落向量與段落內部信息之間的關系,與直接使用單詞向量法相比,識別效果更好。因網絡欺凌和情感分析中的負面情感具有一定的相似性,從而可將情感分析作為網絡欺凌分析的輔助方法。Wijeratne等[10]通過基于情感的分析算法設計了通用監(jiān)測平臺,但未考慮特定的社會媒體語言環(huán)境及其文化。Gitari等[11]使用分類器將不帶情感的文本略過,縮小研究范圍,提高欺凌文本的識別準確率。Mishra等[12]等通過對185名青少年網民進行問卷調查,將網民之間的交流階段分成建立聯系、信息分享、親密關系生成和欺凌的四個階段,基于網絡欺凌、信任和信息共享的關系模型探求發(fā)生欺凌原因,并對欺凌程度作了定量分析。
上述研究在分類準確度上有一定的效果,但是忽略了文本中深層語義特征和上下文語境,且大多是基于淺層機器學習[13],對文本分類問題的表征和泛化能力有限。本文利用分層注意力網絡(Hierarchical Attention Network, HAN)[14]從單詞和句子兩個層面來捕獲地域欺凌文本的內部結構語義信息,并與卷積神經網絡(Convolutional Neural Network, CNN)[15]、雙向長短期記憶網絡(Bidirectional Long Short-Term Memory, BiLSTM)和獨立循環(huán)神經網絡(Independent Recurrent Neural Network, IndRNN)[16]聯合提取文本中欺凌詞句和整體語義信息,以提高對地域欺凌文本的描述和識別能力。
綜上所述,本文的主要貢獻包括:
1)構建地域欺凌語料庫。通過對地域欺凌文本的上下文語境分析,將地域欺凌語料庫編制分為5個語境類別,各類語境共包含37個子類別。
2)本文提出聯合分層注意力網絡和獨立循環(huán)神經網絡的模型——HACBI(HAN_CNN_BiLSTM_IndRNN),采用HAN呈現出地域欺凌文本中關鍵單詞和句子的內部結構信息,用其捕獲上下文的相關性;借助IndRNN通過調節(jié)基于時間的梯度反向傳播,有效地解決梯度消失和梯度爆炸的問題,提高對地域欺凌文本的上下文語義信息描述能力。
2 語料構建
2.1 語境
在語言學中,王建華等[17]認為語境是與語用主體(關注使用語言的人)、話語實體(關注語言手段本身)相對而存在的語用三大要素之一,并定義語境為人們在語言交際中理解和運用語言所依賴的各種表現為言辭的上下文或不表現為言辭的主觀因素,因此,文本中要研究完整的文本語義,不僅要研究話語的本身意義,還要研究增生出的語境意義。
本文主要對地域欺凌文本的整體語境進行研究,特別是上下文語境信息。上下文語境由具體的話語組成,它的意義首先必須依賴于一個個具體話語的意義,每個話語的意義又需要由具體的上下文來顯現。
2.2 語料庫構建
構建地域欺凌語料庫,包括語料的獲取、標注體系及規(guī)范的建立、資源建設平臺的構建。構建的語料來源于微博、知乎、百度貼吧、今日頭條等中文網頁,為地域欺凌文本的識別提供基礎資源支撐。地域欺凌語料庫編制分為語言情境、情境語境、文化語境、背景語境和輔助語境5個語境類別。語言情境包括單詞語境和上下文語境,如例1所示。
例1? 小柳較胖,看起來腿較粗,被同學小麗和小冰談論:“你看小柳的大象腿?!毙”f:“對啊,腿可真粗啊?!?/p>
情境語境包括外部關系和內部關系兩個類別。文化語境包括社會因素、民族因素、歷史因素。如例2所示,“東方人”在美國有欺凌的含義,2016年奧巴馬政府出臺禁止“東方人”等含有欺凌情感的詞語,判斷得出“白人老板”稱“亞裔員工”為“東方人”是一種地域欺凌。
例2? 在美國一家工廠里,一位白人老板對一位近期工作效率低下的亞裔員工說:“你的表現足以表明你是東方人?!?/p>
背景語境包括背景知識、社會常識和專業(yè)知識。輔助語境即言語表達者的表情、姿態(tài)、動作及某些信號等。
語料標注結構如表1所示。
2.3 欺凌特征
根據地域欺凌文本的內容,本文選取了10類特征作為地域欺凌文本特征,包括欺凌程度、情感極性、欺凌指示詞詞性、欺凌類別、依存句法分析、語義依存分析和語義角色七類傳統(tǒng)手工特征和欺凌角色、欺凌指示詞、欺凌表現形式三類特征。三類特征具體描述如下:
1)欺凌角色。Xu等[18]指出,除面對面接觸外,地域欺凌也可以通過口頭和其他相關形式發(fā)生。欺凌事件發(fā)生的主要原因之一是認知上的差異。欺凌事件角色如圖1所示。
其中,實心圓圈代表社會科學中的傳統(tǒng)角色,虛線圓圈代表社交媒體增加的新角色。邊代表角色之間的相互作用強度,實線的作用強度大于虛線。
2)欺凌指示詞。欺凌指示詞能反映該地域欺凌文本的主題,具有很強的欺凌指向性,因此本文選擇欺凌指示詞作為特征。如例3所示,“粗鄙”“鄉(xiāng)巴佬”等為欺凌指示詞。
例3? 卡帕多西亞人可能族源是安納托利亞的土著,在拜占庭生活的卡帕多西亞人行為粗獷,拜占庭人談論:“卡帕多西亞人是粗鄙的鄉(xiāng)巴佬,貪婪且暴力?!?/p>
3)欺凌表現形式。針對地域欺凌文本,其表現形式有三種,包括反語、隱喻和顯式欺凌。
3? 聯合分層注意力網絡和獨立循環(huán)神經網絡的 HACBI模型
3.1 文本的層次結構信息
文本具有層次結構,即詞語形成句子,句子形成文本。首先,以句子的形式聚合成地域欺凌文本的表示形式;其次,考慮到文本中不同的單詞和句子包含著不同的信息,而且單詞和句子的結構信息高度依賴于上下文,起著不同的作用,因此為了進一步刻畫地域欺凌文本的結構信息,本文引入HAN從單詞和句子兩個層面來捕獲地域欺凌文本的內部結構語義信息。
本文利用HAN呈現地域欺凌文本中關鍵單詞和句子內部結構信息,并用其捕獲上下文之的相關性,而不是通過上下文信息對地域欺凌文本的序列進行簡單的過濾以獲取全局語義信息。
3.2 HACBI模型
為使模型更好地描述地域欺凌文本的內部結構信息,將通過詞嵌入技術(Word2Vec)和手工標注所得到的地域欺凌文本輸入HAN中。詞嵌入是一種詞的分布式表示,將每個詞表示成一個連續(xù)實數值的向量。詞嵌入技術分為兩部分:第一部分為建立模型,第二部分是通過網絡獲取詞向量。當網絡對地域欺凌文本訓練完成后,便可得到所有詞語對應的詞向量,并可以從地域欺凌文本中提取有效的上下文語義特征。在HACBI中,首先,通過CNN和BiLSTM對其進行空間和時間上的擴展,并提取地域欺凌文本的局部、全局特征;其次,考慮到文本中欺凌詞組對句子的表示有著關鍵性作用,本文利用詞“注意力”提取地域欺凌詞在句子中的語義信息,并計算該單詞在句子中的權重,然后對其語義特征進行加權合并,還引入句“注意力”來刻畫句子對文本的表示形式,對其提取的語義信息進行加權求和以及非線性映射和歸一化處理;最后,借助IndRNN的跨層連接原理(網絡內部各個神經元之間相互獨立)實現信息流的整合,以增強該HACBI對地域欺凌文本中上下文語義信息的描述能力和對語義信息在神經元上傳遞的可解釋性,避免了層次結構語義特征在層間傳遞的丟失并解決梯度消失等問題,并用Softmax進行地域欺凌文本的分類。聯合分層注意力網絡和獨立循環(huán)神經網絡的模型HACBI網絡結構如圖2所示。
圖2中, H 代表模型的隱含層,且由CNN和BiLSTM構成; w 和 s 分別代表著地域欺凌文本中的詞組和簡短句子。
獨立循環(huán)神經網絡(IndRNN)中Hadamard信息流處理,具體計算如式(1)所示:
h t=σ( ω? x t+ λh t-1+ b ) (1)
其中: h t∈ R N和 x t∈ R M分別代表時間步長T的輸入和隱藏狀態(tài); ω ∈ R N*M、 λ ∈ R N*N和 b ∈ R N分別代表當前輸入的權重矩陣、循環(huán)權重矩陣和偏置值;σ是神經元的激活函數;N是該神經網絡層中神經元的數目,是Hadamard乘積。
而對于第n個神經元,隱藏狀態(tài) h n,t可以通過式(2)計算得出:
h n,t=σ( ω n x t+ λ n h n,t-1+bn) (2)
其中, ω n和 λ n分別代表輸入權重矩陣和循環(huán)權重矩陣的第n行。由于每層中各個神經元相互獨立,因此神經元之間的鏈接可以通過堆疊兩層或更多層的IndRNN神經元來實現。每個神經元僅在前一時間步從輸入或它自己的隱藏狀態(tài)中接收信息,即隨著時間的推移(通過 λ )獨立地聚集空間模式(通過 ω )。
綜上所述,聯合分層注意力網絡和獨立循環(huán)神經網絡模型HACBI的具體算法步驟如下:
1)利用詞嵌入技術和詞性標注工具提取欺凌文本中的語義和特征提取,并映射成相應的低維向量。初始化模型參數θ。對詞向量 α 進行Dropout處理,經過CNN層BiLSTM層進一步提取文本的局部特征 β 和全局以及上下文語義特征 υ 。根據式(3)計算其關鍵特征的注意力概率 a ij,具體公式如下:
e ij= λ a·tanh( λ b· f i+ λ c· f j+ b k)
a ij=exp( e ij) /( ∑ T k=1 exp( e ij) )?? (3)
其中: e ij代表經過分層注意力網絡的輸出特征,? f i和 f j代表隱藏層輸出特征, a ij代表第j個特征對第i個特征的注意力概率, λ a、 λ b、 λ c代表分層注意力網絡的權值矩陣, b k代表分層注意力網絡的偏置向量。第i種特征向量的新輸出特征 e new_i計算如式(4)所示:
e new_i=∑ n j=1? e ij· e j (4)
同理,可求取第j個特征向量的新特征值。
2)根據式(5)將局部和全局語義特征進行融合:
e ′= βυ? (5)
其中: e ′代表經過注意力獲取語義特征的編碼向量,代表向量拼接。
3)得出分類結果g,即g=1為地域欺凌文本,g=0為非地域欺凌文本。
3.3 HACBI性能分析
為了評估該模型在計算平臺上的理論性能,對HACBI的性能進行分析。HACBI性能分析如表2所示。
其中:CPU、GPU內存占用表示的是運行程序時所占用的計算機內存的字節(jié)數;CPU、GPU內存占用比表示運行程序時占用計算機內存的百分比;模型耗時代表模型運行150次迭代時所耗時間。
從表2中可以看出,本文所提模型算法在訓練過程中,每次迭代僅耗費約20s,因此,當有新的訓練數據需要進行訓練時,較少的訓練時間能夠滿足模型快速訓練的要求,并且對CPU和GPU的占用較少,可滿足對地域欺凌文本的快速分類識別的要求。
4 實驗結果與分析
4.1 實驗數據
首先,通過網絡爬蟲技術下載中文網頁中的地域欺凌文本;其次,對其進行去重、去噪等一系列處理;最后,篩選出11833篇包含地域欺凌的新聞報道或網友評論作為實驗文本,其中地域欺凌文本正負例比例為1∶ 5。在對實驗文本數據進行預處理時,采用jieba分詞法,即一種詞典分詞法,將句子拆成字,然后字和字組合進入詞典中匹配。
4.2 實驗結果
本文從以下幾方面對實驗的準確率(Accuracy, Acc)、精確率(Precision, P)、召回率(Recall, R)、F1(F1-Measure)和AUC(Area Under Curve)值進行分析。
4.2.1 實驗超參數設置
HACBI參數不合理設置會影響對特征的有效利用及對地域欺凌文本中語義信息的描述。超參數設置如表3所示。
本文使用簡單高效、對參數更新時不受梯度伸縮變化影響的Adam優(yōu)化器。其中,Dropout表示Dropout損失率為0.25;Filter size(C)表示卷積核窗口大小為5,Kernel size(P)表示池化核窗口大小為2。
4.2.2? CNN層數、BiLSTM層數和IndRNN層數 不同層類型及層數對模型性能的影響
HACBI模型中隱含層數直接影響模型對地域欺凌文本中的語義識別能力。以4.2.1節(jié)中的初始化參數為基礎驗證HACBI性能,其中詞向量維度設置為150維。不同CNN層數、BiLSTM層數和IndRNN層數對模型性能的影響如表4所示。
由表4可知,在CNN為2層、BiLSTM為1層和IndRNN層數為2層時,Acc、P、R、F1和AUC值效果最好。隨著BiLSTM層數增加,模型加入了大量與文本無關的噪聲和參數,計算效率降低,并出現過擬合現象。隨著CNN層數和IndRNN層數的增加,各項指標呈現先增后減的趨勢。當層數太少時,不能學習到更好的特征,特征的表征能力不足;當層數過多時,提取的深層特征更抽象,在丟失大量細節(jié)信息的同時也使特征的表征能力下降,模型在特征學習時出現了可能會出現過擬合現象,降低模型對文本的識別效果。
4.2.3 詞向量維度和語料數量對模型性能的影響
詞向量維度和語料數量對模型性能的影響如表5所示。
由表5可知,當詞向量維度為150維和語料數據量為11833篇時,各項指標呈現出最優(yōu)結果。當詞向量維度太小時,原始數據映射到低維空間中會丟失大量的細節(jié)信息,特征不能很好地描述文本的語義信息。詞向量維度過大時,詞向量過于稀疏,增加很多非相關信息。隨著訓練數據量增多時,模型能更多地學習到文本中欺凌詞和欺凌語句的上下文信息,從而使模型具有更好泛化能力和識別能力。
4.2.4 面向欺凌特征對象的比較
在現有文獻對面向“欺凌”特征對象的研究中,本文除提取七類傳統(tǒng)手工(Traditional Manual, TM)特征外,還提取欺凌角色“A”、欺凌指示詞“B”和欺凌表現形式“C”,TM與A、B、C的組合“M(Manual)”即本文手工特征,并結合詞向量“W(Word2Vec)”對地域欺凌文本內容進行描述,“W+M(Word2Vec+Manual)”是本文提出的特征工程。詞向量維度設置為150維,不同欺凌特征對模型性能的影響如表6所示。
由表6可知,本文提出的手工特征與詞向量結合的特征工程,各項指標最優(yōu)。單用手工特征對文本的描述簡單,不能很好地學習文本深層特征,而且需要人工參與進行標注,文本處理效率降低。單獨用詞向量特征不能很好地體現文本的細節(jié)內容。
4.2.5 與現有識別模型的比較
為了進一步驗證HACBI對地域欺凌文本有更好的識別效果,將與支持向量機(Support Vector Machine, SVM)、CNN、BiLSTM、IndRNN、注意力機制(Attention Mechanism, AM)、CNN和BiLSTM的聯合模型(CNN_BiLSTM)、CNN和IndRNN的聯合模型(CNN_IndRNN)、BiLSTM和IndRNN的聯合模型(BiLSTM_IndRNN)及AM、CNN和BiLSTM的聯合模型(AM_CNN_BiLSTM, ACB)進行對比,并分析執(zhí)行耗時。對不同模型中層數及超參數的設置保持一致。不同模型對比如表7所示。
表7中SVM使用徑向基函數(Radial Basis Function, RBF),當gamma和懲罰系數C分別為1E-4和10時,其識別效果達到最優(yōu)。
由表7可知,HACBI相比實驗中其他模型在Acc、P、R、F1和AUC值均取得最優(yōu)。AM對文本的語義信息進行提取,起到信息流整合的作用,但未對句子中的關鍵詞進行特征加權求和,模型對文本的描述能力和對各個神經元的可解釋性不足。CNN能提取局部特征,但丟失了全局語義信息。BiLSTM可提取全局語義特征,但忽略了大量局部信息,影響模型對文本內容的描述。盡管SVM淺層機器學習在各項指標上均優(yōu)于本節(jié)實驗的其他模型,但僅僅對地域欺凌文本進行簡單分類,并未捕獲文本內部的結構信息,與HACBI相比,各項指標分別降低了2.41個百分點、8.94個百分點、4.39個百分點、6.73個百分點和3.19個百分點。
在模型參數相同的條件下,與BiLSTM相比,CNN耗時減少了87.95%,IndRNN耗時減少了76.78%。BiLSTM在計算文本的雙向特征時,將每個詞作為了時間點,而CNN在參數微調(finetune)過程時只會對文本中的部分關鍵詞進行更新。SVM對數據規(guī)模較小的文本進行分類效果好且耗時短。HACBI使用分層思想,在對文本特征學習時采用自根節(jié)點向下逐層獲取上下文語義信息的方法,與SVM相比,HACBI耗時減少了53.19%,在縮短耗時的同時提高了對文本的識別效果。
5 結語
針對現有的文本分類模型在識別地域欺凌文本時存在忽略文本內部層次結構信息以及模型在訓練過程中出現的梯度消失等問題,本文提出HACBI地域欺凌文本識別模型。實驗結果表明,該算法優(yōu)于SVM、CNN等文本分類模型。其創(chuàng)新點在于HACBI模型采用詞“注意力”和句“注意力”的HAN來捕獲地域欺凌文本的內部結構信息,以增強文本中上下文之間的語義相關性,并引入IndRNN有效地避免信息在層間傳遞的丟失和解決梯度消失等問題。接下來在增加語料的同時也會從細粒度分類方面進行下一步實驗。
參考文獻
[1]?HU K, WU H, QI K, et al. A domain keyword analysis approach extending term frequency-keyword active index with Google Word2Vec model [J]. Scientometrics, 2018, 114(3): 1031-1068.
[2]?CHEN M, LIU W, YANG Z, et al. Automatic prosodic events detection using a two-stage SVM/CRF sequence classifier with acoustic features [C]// Proceedings of the 2012 Chinese Conference on Pattern Recognition, CCIS 321. Berlin: Springer, 2012: 572-578.
[3]?ASHKTORAB Z, HABER E, GOLBECK J, et al. Beyond cyberbullying: self-disclosure, harm and social support on ASKfm [C]//Proceedings of the 2017 ACM on Web Science Conference. New York: ACM, 2017: 3-12.
[4]?BURNAP P, COLOMBO G, AMERY R, et al. Multi-class machine classification of suicide-related communication on Twitter [J]. Online Social Networks and Media, 2017, 2: 32-44.
[5]?ZHOU Y T, DU Z G, ZHANG D, et al. Retrospective observational study about reducing the false negative rate of the sentinel lymph node biopsy: never underestimate the effect of subjective factors [J]. Medicine, 2017, 96(34): e7787.
[6]?DADVAR M, TRIESCHNINGG D, de JONG F. Experts and machines against bullies: a hybrid approach to detect cyberbullies [C]// Proceedings of the 27th Canadian Conference on Artificial Intelligence, LNCS 8436. Cham: Springer, 2014: 275-281.
[7]?FIRUZI K, VAKILIAN M, DARABAD V P, et al. A novel method for differentiating and clustering multiple partial discharge sources using S transform and bag of words feature[J]. IEEE Transactions on Dielectrics and Electrical Insulation, 2018, 24(6):3694-3702.
[8]??COLLIER N, NOBATA C, TSUJII J. Automatic acquisition and? classification of terminology using a tagged corpus in the molecular biology domain[J]. Terminology, 2001, 7(2): 239-257.
[9]??DJURIC N, ZHOU J, MORRIS R, et al. Hate speech detection? with comment embeddings[C]// Proceedings of the 24th International Conference on World Wide Web. New York: ACM, 2015: 29-30.
[10]?WIJERATNE S, DORAN D, SHETH A, et al. Analyzing the social media footprint of street gangs[C]// ISI 2015: Proceedings of the 2015 IEEE International Conference on Intelligence and Security Informatics. Piscataway, NJ: IEEE, 2015: 91-96.
[11]?GITARI N D, ZUPING Z, DAMIEN H, et al. A lexicon-based approach for hate speech detection[J]. International Journal of Multimedia and Ubiquitous Engineering, 2015, 10(4): 215-230.
[12]?MISHRA M K, KUMAR S, VAISH A, et al. Quantifying degree of cyber bullying using level of information shared and associated trust[C]//? INDICON 2015:? Proceedings of the 2015 Annual IEEE India Conference. Piscataway, NJ: IEEE, 2015: 1-6.
[13]?OGUZLAR A. With R programming, comparison of performance of different machine learning algorithms[J]. European Journal of Multidisciplinary Studies, 2018, 3(2): 172-172.
[14]?YANG Z, YANG D, DYER C, et al. Hierarchical attention networks for document classification[C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2016: 1480-1489.
[15]?李洋,董紅斌.基于CNN和BiLSTM網絡特征融合的文本情感分析[J].計算機應用,2018,38(11):3075-3080. (LI Y, DONG H B. Text sentiment analysis based on feature fusion of convolution neural network and bidirectional long short-term memory network [J]. Journal of Computer Applications, 2018, 38(11): 3075-3080.)
[16]?LI S, LI W, COOK C, et al. Independently recurrent neural network (IndRNN): building a longer and deeper RNN[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2018: 5457-5466.
[17]?王建華,周明強,盛愛萍.現代漢語語境研究[M].杭州:浙江大學出版社,2002:59. (WANG J H, ZHOU M Q, SHENG A P. On the Context of Modern Chinese[M]. Hangzhou: Zhejiang University Press, 2002: 59.)
[18]?XU J M, JUN K S, ZHU X, et al. Learning from bullying traces in social media[C]// Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2012: 656-666.