郭博露 熊旭輝
摘 ?要:冒犯性語言在社會化媒體上頻繁出現(xiàn),為了建立友好的網(wǎng)絡(luò)社區(qū),研究高效而準(zhǔn)確的冒犯性語言檢測方法具有重要意義。文章首先闡述冒犯性語言的定義,然后分析各種檢測方式的特點與基于預(yù)訓(xùn)練的深度學(xué)習(xí)檢測方法的潛力和優(yōu)勢。隨后對現(xiàn)階段常見的預(yù)處理方法及幾種典型的深度學(xué)習(xí)模型的利弊、現(xiàn)狀進行介紹。最后對冒犯性語言檢測領(lǐng)域面臨的挑戰(zhàn)和期望進行歸納總結(jié)。
關(guān)鍵詞:深度學(xué)習(xí);冒犯性語言;文本分類;數(shù)據(jù)預(yù)處理
中圖分類號:TP391.1 ? ? ? ?文獻標(biāo)識碼:A文章編號:2096-4706(2022)05-0005-06
A Review of Offensive Language Detection Methods Based on Deep Learning
GUO Bolu, XIONG Xuhui
(College of Computer and Information Engineering, Hubei Normal University, Huangshi ?435002, China)
Abstract: Offensive language appears frequently in social media. In order to establish a friendly online community, it is of great significance to study efficient and accurate offensive language detection methods. This paper explains the definition of offensive language firstly, and analyzes the characteristic of each detection method and the advantages and potentiality of deep learning detection method based on pre-training. Then the paper introduces the advantages and disadvantages and current situation of common pre-processing methods at the present stage and several typical deep learning models. Finally, it concludes and summarizes the challenges and expectations of the field of offensive language detection.
Keywords: deep learning; offensive language; text classification; data preprocessing
0 ?引 ?言
隨著社會化網(wǎng)絡(luò)應(yīng)用的高速發(fā)展,網(wǎng)絡(luò)社交媒體由于其公共性、虛擬性及匿名性等特點吸引了數(shù)量龐大的用戶。以微博、Twitter為代表的網(wǎng)絡(luò)社交媒體已經(jīng)成為人們交流信息的一個重要渠道[1]。而網(wǎng)絡(luò)社交媒體中言論自由的界限模糊,冒犯性語言甚至攻擊性語言在網(wǎng)絡(luò)平臺上頻繁出現(xiàn)。因此,為了約束用戶的言論進行和建立網(wǎng)絡(luò)友好社區(qū),有必要研究網(wǎng)絡(luò)社交媒體冒犯性語言的高效、準(zhǔn)確檢測方法[2]。
關(guān)于冒犯性語言的定義,現(xiàn)代漢語詞典將冒犯解釋為:言語或行動沒有禮貌,沖撞了對方。對于語言接受者而言,包含威脅、辱罵、負(fù)面評價等言語的段落都可以被稱為冒犯性語言[3]。而社交媒體中的冒犯性語言常表現(xiàn)為辱罵性語言、網(wǎng)絡(luò)欺凌及仇恨言論等方面[4-6]。
目前,冒犯性語言的檢測方法分為人工檢測與自動化檢測兩種類型[7]。人工檢測方法雖然準(zhǔn)確率高,但是,效率低、反應(yīng)速度慢,難以滿足海量的社交媒體數(shù)據(jù)的實時檢測要求[8]。因此,社交媒體中的攻擊性、冒犯性語言的自動化檢測是網(wǎng)絡(luò)環(huán)境凈化的關(guān)鍵,通??梢苑譃槿N方法:
(1)機器學(xué)習(xí)檢測方法。以SVM為代表的機器學(xué)習(xí)方法是基于概率、規(guī)則、空間等分類器實現(xiàn)的,同時可以使用詞向量、攻擊性詞語、情感分?jǐn)?shù)等特征輔助檢測手段,從而提高準(zhǔn)確率[9,10]。在該類方法中,人工完成特征的提取和選擇,其結(jié)果作為機器學(xué)習(xí)算法參數(shù)訓(xùn)練的前置數(shù)據(jù),因此需要大量的人力和時間完成準(zhǔn)備工作,同時,得到的機器學(xué)習(xí)模型的健壯、魯棒性較低[11]。
(2)傳統(tǒng)深度學(xué)習(xí)檢測方法。傳統(tǒng)深度學(xué)習(xí)方法一般是指基于RNN、CNN、LSTM等模型的檢測方法[12,13]。社交媒體中,網(wǎng)絡(luò)用語變化極快,具有很強的時效性,因此要求模型具有很高的魯棒性。相比于機器學(xué)習(xí)檢測方法,傳統(tǒng)深度學(xué)習(xí)檢測方法是基于骨干特征提取網(wǎng)絡(luò)獲取特征數(shù)據(jù),因此在魯棒性方面具有更好的表現(xiàn)[14]。該類模型通常只依賴于上文信息識別語義,然而語言的含義常常也和下文相關(guān),因此,即使雙向LSTM等方法具備了一定的感知能力,但仍然難以解決長文本、長距離依賴關(guān)系中的上下文信息的提取問題[15,16]。
(3)基于預(yù)訓(xùn)練模型的檢測方法?;赥ransformer的預(yù)訓(xùn)練模型近年來受到廣泛關(guān)注,其代表模型有BERT和XLNet等[17,18]。Transformer結(jié)構(gòu)通過Multi-Headed Attention捕獲上下文關(guān)系,同時僅關(guān)注詞語間緊密程度,忽略文本的位置信息,解決了傳統(tǒng)機器學(xué)習(xí)中長文本信息缺失的問題。此外,Transformer增加了Positional Encoding來處理Multi-Headed Attention中忽略的位置信息[19]。
基于預(yù)訓(xùn)練模型的檢測方法解決了傳統(tǒng)的人工檢測方法效率低下及深度學(xué)習(xí)模型特征提取不全面等問題,憑借其強大的學(xué)習(xí)能力和特征提取能力成為自動化檢測社交媒體中的冒犯性語言領(lǐng)域廣受關(guān)注的方法,也是當(dāng)前的研究主流。因此,下面重點介紹社交網(wǎng)絡(luò)冒犯性語言的數(shù)據(jù)預(yù)處理及幾種典型的深度學(xué)習(xí)語言冒犯性檢測方法[20],主要包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和Transformer等深度學(xué)習(xí)模型。
1 ?預(yù)處理方法
冒犯性語言檢測任務(wù)通常使用攻擊性語言識別數(shù)據(jù)集(OLID)[21],該數(shù)據(jù)集一共包含14 100條文本數(shù)據(jù),取其中13 240條作為訓(xùn)練集,860條作為測試集。OLID數(shù)據(jù)集采用三層的分層標(biāo)注模式,每條文本數(shù)據(jù)的攻擊目標(biāo)和冒犯言論的類型都進行了人工標(biāo)注。
冒犯性語言檢測包含三個子任務(wù)。首先,子任務(wù)A的目標(biāo)是區(qū)分冒犯性推文(OFF)和非冒犯性推文(NOT)。其次,子任務(wù)B的目標(biāo)是對推文中的攻擊性內(nèi)容的類型進行分類,主要分為針對個人、團體或其他的侮辱類型(TIN)和非針對的咒罵(UNT)等類型。最后,對于子任務(wù)B中的劃分出來的TIN類型,在子任務(wù)C中再對攻擊目標(biāo)進行詳細區(qū)分。子任務(wù)C分為針對個人的冒犯(IND)、針對群體的冒犯(GRP)和針對事件/現(xiàn)象/問題的冒犯言論(OTH)。在社交媒體中,仇恨言論通常是指針對群體的侮辱,而網(wǎng)絡(luò)欺凌通常針對個人。表1為OLID數(shù)據(jù)集在三個子任務(wù)中標(biāo)簽的分布情況。
1.1 數(shù)據(jù)增強
通過數(shù)據(jù)增強方法,可以增加訓(xùn)練數(shù)據(jù)數(shù)量、避免樣本不均衡、提升模型的魯棒性,避免過擬合。在一定程度上,數(shù)據(jù)增強能夠解決OLID數(shù)據(jù)集較小,樣本不足的問題。數(shù)據(jù)增強可以分為文本改寫、增加噪聲和采樣等三種方法。其中,文本改寫是指對句子中的詞、短語、句子結(jié)構(gòu)進行更改,利用詞典通過隨機將一組詞替換為具有相似語義內(nèi)容的詞,從而獲得少數(shù)群體的合成樣本;增加噪聲是在保證分類標(biāo)簽不變的同時,增加一些離散或連續(xù)的噪聲,在不影響語義信息的同時提升模型的魯棒性;采樣旨在根據(jù)目前的數(shù)據(jù)分布選取新的樣本,生成更豐富的數(shù)據(jù)。
1.2 ?數(shù)據(jù)清洗
OLID數(shù)據(jù)集中的文本數(shù)據(jù)來自社交平臺Twitter,包含錯誤拼寫、Emoji表情、特殊符號、俚語、冗余信息等各種混雜信息,對模型的預(yù)測結(jié)果產(chǎn)生干擾,因此必須進行數(shù)據(jù)預(yù)處理。這類問題常見的預(yù)處理方法有以下6種:
(1)拼寫糾錯。拼寫糾錯,即自動識別和糾正自然語言中出現(xiàn)的錯誤。拼寫糾錯主要分為拼寫錯誤識別和拼寫錯誤糾正兩個子任務(wù)。英文拼寫糾錯按照錯誤類型不同,可以分為Non-word Errors和Real-word Errors。Non-word Errors是指拼寫錯誤后的單詞本身就不合法,而Real-word Errors是表示那些拼寫錯誤后的單詞仍然是正確的詞匯,但是表達含義有誤差的情況。中文糾錯單個字為單位,分為同音字錯誤和同形字錯誤兩種,需要結(jié)合語境以及上下文之間的關(guān)系進行檢錯糾錯。常用的方法有:基于規(guī)則、統(tǒng)計和特征的技術(shù)進行糾錯、基于深度學(xué)習(xí)算法進行糾錯、命名實體識別等。
(2)Emoji替換。在網(wǎng)絡(luò)社交語言中,Emoji表情的使用現(xiàn)象十分普遍,直接過濾表情可能會造成語義表達的缺失。通過預(yù)處理將表情統(tǒng)一映射為替換短語,可以保留原本的語義信息。例如,將豎大拇指的表情替換成同義短語“thumbs up”。
(3)大小寫轉(zhuǎn)換。英文單詞有大小寫區(qū)分,社交媒體中的文本輸入存在不規(guī)范使用大小寫的情況。在進行預(yù)處理時一般需要將所有的詞都轉(zhuǎn)化為小寫,例如將“Home”轉(zhuǎn)換成“home”。
(4)停止詞、非文本部分刪除。停止詞即信息檢索中的虛字、非檢索用字,對語義表達并沒有實際含義。OLID數(shù)據(jù)集中的文本除了含有停用詞之外,還包含用于定義網(wǎng)頁內(nèi)容的含義和結(jié)構(gòu)的超文本標(biāo)記語言標(biāo)簽(HTML標(biāo)簽)以及包含用戶名的標(biāo)簽@USER和標(biāo)點符號等內(nèi)容。刪除標(biāo)點、重復(fù)字符等內(nèi)容可以過濾無意義的信息。
(5)詞干提取。詞干提取是去除一個詞的詞綴得到它的詞根形式的過程。詞干提取的主要目的在于避免單詞的時態(tài)和單復(fù)數(shù)形式對于文本處理的精度造成影響。例如詞干提取可以簡化詞“finishes”“finishing”和“finished”為同一個詞根“finish”,去除文章里的多種詞性變化,減少計算量,提高效率。詞干提取的常用方法有Porter Stemmer、Lancaster Stemmer和Snowball Stemmer。
(6)詞形還原。詞形還原是一種基于詞典的、將單詞的復(fù)雜形態(tài)轉(zhuǎn)變成一般形式形態(tài),實現(xiàn)語義的完整表達。與詞干提取不同,詞形還原不是簡單地剝離單詞的前后綴,而是轉(zhuǎn)換單詞的形態(tài)。因此,詞干提取的結(jié)果完整的、具有意義的詞。例如“is”“are”和“been”詞干提取的結(jié)果為“be”詞形還原一般可以使用TreeTagger和WordNet詞形還原方法。
1.3 ?類不平衡
在OLID數(shù)據(jù)集中,類不平衡問題表現(xiàn)為每個子任務(wù)的標(biāo)簽分布不均衡,少數(shù)標(biāo)簽的樣本數(shù)目稀少。在訓(xùn)練模型時,類不平衡問題會對訓(xùn)練結(jié)果產(chǎn)生一定干擾,影響模型的分類性能。過采樣、調(diào)整閾值和調(diào)節(jié)樣本權(quán)重等方法可以緩解類不均衡問題對訓(xùn)練結(jié)果產(chǎn)生的影響。過采樣方法通過增加分類中少數(shù)類樣本的數(shù)量來實現(xiàn)樣本均衡,最直接的方法是簡單復(fù)制少數(shù)類樣本形成多條記錄,這種方法的缺點是如果樣本特征少而可能導(dǎo)致過擬合的問題;經(jīng)過改進的過抽樣方法通過在少數(shù)類中加入隨機噪聲、干擾數(shù)據(jù)或通過一定規(guī)則產(chǎn)生新的合成樣本,例如SMOTE算法。調(diào)整閾值是根據(jù)實際情況調(diào)整劃分類別的閾值,對不均衡的樣本數(shù)據(jù),根據(jù)正負(fù)樣本的比例對閾值進行適當(dāng)調(diào)整。調(diào)節(jié)樣本權(quán)重即對訓(xùn)練集里的每個類別或者樣本加一個權(quán)重。如果該類別的樣本數(shù)多,那么它的權(quán)重就低,反之則權(quán)重就高。
2 ?深度學(xué)習(xí)模型
2.1 ?CNN
1987年由Alexander Waibel等人[22]提出的時間延遲網(wǎng)絡(luò)(Time Delay Neural Network, TDNN),這是卷積神經(jīng)網(wǎng)絡(luò)(CNN)出現(xiàn)的開端。卷積神經(jīng)網(wǎng)絡(luò)是一種包含卷積運算的深度神經(jīng)網(wǎng)絡(luò),主要由輸入層、卷積層、池化層、全連接層、輸出層5個部分構(gòu)成。近年來,CNN在圖像處理及自然語言處理領(lǐng)域中應(yīng)用十分普遍。
在文本分類中,卷積神經(jīng)網(wǎng)絡(luò)處理的對象是以短文本為主,其算法流程主要分為四步:(1)首先將一句話中的每一個詞使用word2vec拼接,構(gòu)成句子的特征矩陣,作為神經(jīng)網(wǎng)絡(luò)的輸入。(2)進入卷積層,與卷積核進行卷積運算,用于特征提取和特征映射,捕捉更高層次的特征。(3)通過池化層進行下采樣,對特征進行壓縮、去除冗余信息、抽取最重要的特征(4)形成了特征向量后,使用dropout規(guī)則化,防止過擬合,再采用全連接層使用Softmax分類器完成多分類任務(wù)。卷積神經(jīng)網(wǎng)絡(luò)用于文本分類的模型框架如圖1所示。
卷積神經(jīng)網(wǎng)絡(luò)具有強大的局部特征提取能力,但卷積運算和池化導(dǎo)致信息的丟失,同時也會忽略掉整體與部分之間的關(guān)聯(lián)。其應(yīng)用場景包括機器學(xué)習(xí)、語音識別、文檔分析、語言檢測和圖像識別等領(lǐng)域。
2.2 ?RNN
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是一類用于處理序列數(shù)據(jù)的遞歸神經(jīng)網(wǎng)絡(luò)。為了處理序列建模問題,循環(huán)神經(jīng)網(wǎng)絡(luò)引入了隱藏態(tài)的概念,由輸入層、隱藏層和輸出層組成,可以對序列型的數(shù)據(jù)提取特征,接著再轉(zhuǎn)換為輸出。隱藏層的值不僅僅取決于當(dāng)前輸入值,還取決于上一個時間點的隱藏層信息。
循環(huán)神經(jīng)網(wǎng)絡(luò)對文本的處理有著出色的表現(xiàn),可以通過利用輸入序列的上下文,提取具有上下文語境信息的文本特征。圖2是循環(huán)神經(jīng)網(wǎng)用于文本分類的模型架構(gòu)。
圖2 ?循環(huán)神經(jīng)網(wǎng)絡(luò)用于文本分類的模型框架
循環(huán)神經(jīng)網(wǎng)絡(luò)的常用領(lǐng)域有圖像處理、機器翻譯、情緒分析、文本生成和語音識別等。理論上,循環(huán)神經(jīng)網(wǎng)絡(luò)可以記憶任意長度序列的信息,其記憶單元中可以保存此前很長時刻網(wǎng)絡(luò)的狀態(tài),但是實際應(yīng)用中的記憶能力存在局限性,通常只能記住最近幾個時刻的網(wǎng)絡(luò)狀態(tài)。
為了解決長距離依賴的缺陷,長短期記憶網(wǎng)絡(luò)(LSTM)在循環(huán)神經(jīng)網(wǎng)絡(luò)隱藏層的基礎(chǔ)上,再增加一個狀態(tài),讓它保存長期記憶的能力。長短時記憶網(wǎng)絡(luò)通過“記憶門”和“遺忘門”實現(xiàn)了對重要內(nèi)容的保留和對不重要內(nèi)容的去除,普遍用于文本生成、機器翻譯、語音識別和圖像描述等領(lǐng)域。
2.3 ?Transformer
Transformer是谷歌于2017年提出的一個深度學(xué)習(xí)模型框架[23]。它提出了一種基于注意力的特征抽取機制,大幅提升了模型的準(zhǔn)確率和運算效率。不同于基于RNN的seq2seq模型框架,Transformer采用注意力(Attention)機制代替RNN來搭建整體模型框架。此外,模型提出了多頭注意力(Multi-headed attention)機制方法,在模型結(jié)構(gòu)中大量地使用了多頭注意力機制,廣泛應(yīng)用于NLP領(lǐng)域,例如機器翻譯、問答系統(tǒng)、文本摘要和語音識別等。
Transformer模型采用了encoder-decoder架構(gòu),如圖3所示。編碼器(encoder)將輸入序列(x1,…,xn)轉(zhuǎn)換為一個包含特征信息的序列Z=(z1,…,zn),然后解碼器再基于該序列生成輸出序列(y1, …, ym)。
Transformer結(jié)構(gòu)的核心是自注意力(Self-Attention)機制。該機制計算輸入序列中每個單詞與該序列中所有單詞的相互關(guān)系,然后根據(jù)計算過后的相互關(guān)系來調(diào)整每個單詞的權(quán)重,得到包含上下文單詞信息的新序列。采用該機制得到的單詞向量既包含單詞本身含義又具有該詞與其他詞之間的關(guān)系,因此,這種方式可以學(xué)習(xí)到序列內(nèi)部的長距離依賴關(guān)系。計算方法如式(1)所示。其中,Q表示查詢向量;K表示鍵向量;V表示值向量;dk示輸入向量維度。
(1)
自注意力機制只能捕獲一個維度的信息,因此,在Transformer中采用了多頭注意力機制。多頭注意力機制通過多個不同的線性變換對Q,K,V進行投影,然后分別計算attention,最后再將所有特征矩陣拼接起來,從而獲得多個維度的信息。計算公式如式(2)所示。
MultiHead(Q,K,V)=Concat(head1,…,headh)(2)
這里,
Transformer模型的多頭注意力機制有助于網(wǎng)絡(luò)捕捉到更豐富的特征,但架構(gòu)中沒有循環(huán)以及卷積結(jié)構(gòu),缺少輸入序列中單詞順序的解釋方法。為了使模型能夠利用序列的順序,捕獲的順序信息,額外引入了位置向量和段向量來區(qū)分兩個句子的先后順序。
型忽略單詞之間的距離直接計算依賴關(guān)系,這種計算方法所需的操作次數(shù)不隨單詞之間距離的增加而增長。與基于RNN的方法相比,Transformer不需要循環(huán),突破了RNN模型不能并行計算的限制,可以并行處理序列中的所有單詞或符號。同時利用自注意力機制將上下文與較遠的單詞結(jié)合起來,并讓每個單詞在多個處理步驟中注意到句子中的其他單詞。Transformer方便并行計算,能解決長距離依賴問題,在自然語言處理領(lǐng)域應(yīng)用廣泛。
2.4 ?BERT
BERT是谷歌團隊Jacob Devlin等人于2018年提出的一種基于Transformer模型的編碼器的大規(guī)模掩碼語言模型[24]。BERT采用了Transformer的encoder框架,并且堆疊了多個Transformer模型,并通過聯(lián)合調(diào)節(jié)所有層中的雙向Transformer來預(yù)先訓(xùn)練雙向深度表示。
目前將預(yù)訓(xùn)練的語言模型應(yīng)用到NLP任務(wù)主要有兩種策略,一種是基于特征信息的語言模型,如ELMo模型;另一種是基于微調(diào)的語言模型,如OpenAI GPT。
BERT模型與OpenAI GPT模型均采用了Transformer的結(jié)構(gòu)。BERT使用的是Transformer的encoder框架,由于自注意力機制,模型上下層直接全部互相連接的。而OpenAI GPT基于Transformer的decoder框架,是一個從左及右的Transformer結(jié)構(gòu),只能捕獲前向信息。ELMo模型使用的是雙向LSTM,將同一個詞的前向隱層狀態(tài)和后向隱層狀態(tài)拼接在一起,可以進行雙向的特征提取。但是ELMo模型僅在兩個單向的LSTM的最高層進行簡單的拼接,并非并行執(zhí)行的雙向計算,上文信息和下文信息在訓(xùn)練的過程中并沒有發(fā)生交互。ELMo這種分別進行l(wèi)eft-to-right和right-to-left的模型實際上是一種淺層雙向模型。BERT、OpenAI GPT和ELMo模型對比如圖4所示。因此,只有BERT具有深層的雙向表示,是其中僅有的深層雙向語言模型,能同時對上下文的信息進行預(yù)測。
BERT模型是在來自不同來源的大量語料庫上進行預(yù)訓(xùn)練,使用的兩個無監(jiān)督任務(wù)分別是掩碼語言模型(Masked LM)和下一個句子預(yù)測(NSP)。
掩碼語言模型通過隨機使用[MASK]標(biāo)記掩蓋句子中的部分詞語,然后使用上下文對掩蓋的詞語進行預(yù)測。這個方式融合了雙向的文本信息,并且由解決了多層累加的自注意力機制帶來信息泄露的問題,因而可以預(yù)訓(xùn)練深度雙向的Transformer模型。
傳統(tǒng)語言模型并沒有對句子之間的關(guān)系進行考慮。為了獲取比詞更高級別的句子級別的語義表征,讓模型學(xué)習(xí)到句子之間的關(guān)系,BERT提出了第二個目標(biāo)任務(wù)就是下一個句子預(yù)測。下一個句子預(yù)測通過預(yù)測上下句的連貫性來判斷上下句的關(guān)系。最后整個BERT模型預(yù)訓(xùn)練的目標(biāo)函數(shù)就是這兩個任務(wù)的取和求似然。使用BERT模型不需要人工標(biāo)注,降低了訓(xùn)練語料模型的成本。通過大規(guī)模語料預(yù)訓(xùn)練后,預(yù)訓(xùn)練的BERT模型可以通過一個額外的輸出層來進行微調(diào),很大程度上緩解了具體任務(wù)對模型結(jié)構(gòu)的依賴,能適應(yīng)多種任務(wù)場景,并且不需要做更多重復(fù)性的模型訓(xùn)練工作。
然而BERT也存在缺陷,使得模型的有一定局限性。例如,BERT模型在預(yù)訓(xùn)練中對被[MASK]標(biāo)記替換掉的單詞進行獨立性假設(shè),即假設(shè)被替換的單詞之間是條件獨立的,實際中這些被替換的單詞可能存在相互關(guān)系。此外,BERT模型在預(yù)訓(xùn)練中使用[MASK]標(biāo)記,但這種人為的符號在調(diào)優(yōu)時在真實數(shù)據(jù)中并不存在,會導(dǎo)致預(yù)訓(xùn)練與調(diào)優(yōu)之間的差異。
2.5 ?XLNet
XLNet改進自BERT,是一種自回歸預(yù)訓(xùn)練模型[25]。XLNet針對BERT的缺點從三個方面進行了優(yōu)化:(1)使用自回歸語言模型,解決[MASK]標(biāo)記帶來的負(fù)面影響;(2)采用雙流自注意力(Two-Stream Self-Attention)機制;(3)引入Transformer-xl。
XLNet首先通過亂序語言模型(Permutation Language Model,PLM)隨機排列文本的語句,再使用自回歸語言模型(Autoregressive Language Model)進行訓(xùn)練,將上下文信息和token的依賴納入學(xué)習(xí)范圍。同時,XLNet還引入Transformer-xl模型擴大了上下文信息的廣度。
BERT作為自編碼語言模型,可以結(jié)合上下文的語義進行雙向預(yù)測,而不是僅僅依據(jù)上文或者下文進行單向的預(yù)測。同時也導(dǎo)致BERT受[MASK]的負(fù)面影響,忽略了被替換的詞之間的相互關(guān)系。因此,XLNet在單向的自回歸語言模型的基礎(chǔ)上,構(gòu)建了亂序語言模型,使用因式分解的方法,獲取所有可能的序列元素的排列順序,最大化其期望對數(shù)似然,提取上下文語境的信息。XLNet提出的亂序語言模型,避免使用[MASK]標(biāo)記來替換原有單詞,保留了BERT模型中替換詞之間的存在依賴關(guān)系,又解決了BERT不同目標(biāo)詞依賴的語境趨同問題。
由于因式分解進行重新排列,采用標(biāo)準(zhǔn)的Transformer結(jié)構(gòu)會導(dǎo)致不同位置的目標(biāo)得到相同的分布結(jié)果,因此,XLNet使用新的目標(biāo)分布計算方法,目標(biāo)感知表征的雙流自注意力來解決這一問題。
對于長文本數(shù)據(jù),BERT使用絕對位置編碼,當(dāng)前位置的信息僅針對某一片段,而不是文本整體。相對位置編碼基于文本描述位置信息,可以很好的解決這一問題。因此,XLNet集成了Transformer-xl的相對位置編碼與片段循環(huán)機制。在計算當(dāng)前時刻的隱藏信息的過程中,片段循環(huán)機制通過循環(huán)遞歸的方式,將上一時刻較淺層的隱藏狀態(tài)拼接至當(dāng)前時刻進行計算,增加了捕獲長距離信息的能力,加快了計算速度。
3 ?結(jié) ?論
人為篩選冒犯性語言的工作繁瑣且十分有限。冒犯性語言檢測最初的目的是凈化網(wǎng)絡(luò)環(huán)境,在冒犯性語言出現(xiàn)在社交平臺之前,自動檢測并限制這些內(nèi)容的出現(xiàn)。許多研究工作都致力于實現(xiàn)這一任務(wù)的自動檢測,傳統(tǒng)學(xué)習(xí)和深度學(xué)習(xí)在這項任務(wù)上得到了廣泛的應(yīng)用。就目前的發(fā)展?fàn)顩r,基于深度學(xué)習(xí)的方法對這些充滿仇恨、暴力的言論進行識別分類是非常具有前景的手段。雖然冒犯性語言檢測分類的任務(wù)上有表現(xiàn)優(yōu)異的算法模型,取得了很多優(yōu)秀的研究成果,但仍然有些問題亟待解決:
(1)跨語種分類。由于源語言與目標(biāo)語言的特征空間存在差異,且語言特征不盡相同,對不同語言進行識別分類的技術(shù)仍需突破。目前冒犯性檢測的數(shù)據(jù)集采用的單一語言文本,跨語種或者多語種的文本分類還不是很成熟。
(2)自動檢測精確度不足?,F(xiàn)階段很多優(yōu)秀的模型在冒犯性語言檢測上表現(xiàn)出優(yōu)異的性能,取得了很大進展,但和人為篩選的準(zhǔn)確率相比還有很大差距。尋找高效、準(zhǔn)確的檢測方法,提出新的算法模型,有效彌補自動檢測精確度不足的缺陷。
(3)數(shù)據(jù)集挑戰(zhàn)。冒犯性語言檢測的數(shù)據(jù)集相對較小,且存在類不平衡問題,容易導(dǎo)致過擬合。對數(shù)據(jù)集進行數(shù)據(jù)擴充或特征增強可以一定程度上緩解樣本過小的壓力,但是容易引入噪聲數(shù)據(jù),對分類效果產(chǎn)生負(fù)面影響。需要構(gòu)建一個更大規(guī)模的冒犯性語言檢測數(shù)據(jù)集。
(4)衡量算法性能與效率。目前冒犯性語言檢測任務(wù)中不僅僅只考慮提升算法精確度的問題,提升算法的運行效率也同樣值得關(guān)注?,F(xiàn)有的深度學(xué)習(xí)模型都需要在大規(guī)模數(shù)據(jù)上預(yù)訓(xùn)練,當(dāng)訓(xùn)練樣本總數(shù)變大時,會使計算復(fù)雜度增高,導(dǎo)致運行效率降低。如何在不犧牲太多精度的情況下提升運行效率依然是值得研究的課題。
冒犯性語言檢測這項任務(wù)中,文本數(shù)據(jù)嘈雜、訓(xùn)練樣本不均衡、預(yù)測精確度以及模型的優(yōu)化等問題仍然需要研究和突破。因此,探索的有效方法,產(chǎn)生更好的性能是這一任務(wù)未來研究的目標(biāo)。
參考文獻:
[1] 臧敏,徐圓圓,程春慧.社交媒體對網(wǎng)絡(luò)新聞傳播的影響分析——以微博為例 [J].赤峰學(xué)院學(xué)報(漢文哲學(xué)社會科學(xué)版),2024,35(4):121–122.
[2] WANG S H,LIU J X,YANG X O,et al. Galileo at SemEval-2020 Task 12: Multi-lingual Learning for Offensive Language Identification Using Pre-trained Language Models [J/OL].arXiv:2010.03542 [cs.CL].[2021-12-25].https://doi.org/10.48550/arXiv.2010.03542.
[3] 冉永平,楊巍.人際沖突中有意冒犯性話語的語用分析 [J].外國語(上海外國語大學(xué)學(xué)報),2011,34(3):49-55.
[4] DAVIDSON T,WARMSLEY D, MacyM,et al.Automated hate speech detection and the problem of offensive language [J/OL].arXiv:1703.04009 [cs.CL].[2021-12-24].https://doi.org/10.48550/arXiv.1703.04009.
[5] DADVAR M, TRIESCHNIGG D,ORDELMAN R,et al. Improving Cyberbullying Detection withUserContext [EB/OL].[2012-12-25].https://link.springer.com/chapter/10.1007/978-3-642-36973-5_62.
[6] MALMASI S,ZAMPIERI M. Challenges in Discriminating Profanity from Hate Speech [J/OL].arXiv:1803.05495[cs.CL].[2021-12-25].https://doi.org/10.48550/arXiv.1803.05495.
[7] SINGH P,CHAND S. Identifying and Categorizing Offensive Language in Social Media.using Deep Learning [C]//Proceedings of the 13th International Workshop on Semantic Evaluation.Minneapolis:Association for Computational Linguistics,2019:727–734.
[8] 高玉君,梁剛,蔣方婷,等.社會網(wǎng)絡(luò)謠言檢測綜述 [J].電子學(xué)報,2020,48(7):1421-1435.
[9] BURNAP P,WILLIAMS M L. Cyber hate speech on twitter:An application of machine classification and statistical modeling for policy and decision making [J].Policy & Internet,2015,7(2):121-262.
[10] MODHA S, MAJUMDER P,MANDL T,et al. Filtering Aggression from the Multilingual Social Media Feed [C]//Proceedings of the First Workshop on Trolling, Aggression and Cyberbullying (TRAC-2018),Santa Fe:Association for Computational Linguistics,2018:199–207.
[11] 李康,李亞敏,胡學(xué)敏,等.基于卷積神經(jīng)網(wǎng)絡(luò)的魯棒高精度目標(biāo)跟蹤算法 [J].電子學(xué)報,2018,46(9):2087-2093.
[12] BANSAL H,NAGEL D,SOLOVEVA A. Deep Learning Analysis of Offensive Language on Twitter:Identification and Categorization [C]//Proceedings of the 13th International Workshop on Semantic Evaluation.Minneapolis:Association for Computational Linguistics,2019:622-627.
[13] GAMBACK B,SIKDAR U K. Using convolutional neural networks to classify hatespeech[EB/OL].[2021-12-25].https://aclanthology.org/W17-3013.pdf.
[14] GOODFELLOW I,BENGIO Y,COURVILLE A.Deep Learning [EB/OL].[2021-12-25].https://www.deeplearningbook.org/.
[15] ZHANG Y J,XU B,ZHAO T J.CN-HIT-MI.T at SemEval-2019 Task 6:Offensive Language Identification Based on BiLSTM with Double Attention [C]//Proceedings of the 13th International Workshop on Semantic Evaluation,Minneapolis:Association for Computational Linguistics,2019:564–570.
[16] ALTIN L S M,SERRANO à B,SAGGION H. LaSTUS/TALN at SemEval-2019 Task 6:Identification and Categorization of Offensive Language in Social Media with Attention-based Bi-LSTM model [C]//Proceedings of the 13th International Workshop on Semantic Evaluation.Minneapolis:Association for Computational Linguistics,2019:672–677.
[17] DEVLIN J,CHANG M W,LEE K,et al. Bert: Pre-training of deep bidirectional transformers for language understanding [J/OL].arXiv:1810.04805 [cs.CL].[2021-12-25].https://arxiv.org/abs/1810.04805.
[18] YANG Z L,DAI Z H,YANG Y M,et al. XLNet:Generalized Autoregressive Pretraining for Language Understanding [EB/OL].[2021-12-25].https://zhuanlan.zhihu.com/p/403559991.
[19] VASWANI A,SHAZEER N,PARMAR N,et al. Attention Is All You Need [J/OL].arXiv:1706.03762 [cs.CL].[2021-12-25].https://arxiv.org/abs/1706.03762v1.
[20] ZAMPIERI M,MALMASI S,NAKOV P,et al. NULI at SemEval-2019 Task 6: Transfer Learning for Offensive Language Detection using Bidirectional [C]//Transformers2019.Proceedings of the 13th International Workshop on Semantic Evaluation,Minneapolis:Association for Computational Linguistics,2019:75–86.
[21] ZAMPIERI M,MALMASI S,NAKOV P,et al. Predicting the Type and Target of Offensive Posts in Social Media [J/OL].arXiv:1902.09666[cs.CL].[2021-12-25].https://arxiv.org/abs/1902.09666.
[22] WAIBEL A,HANAZAWA T,HINTON G,et al. Phoneme recognition using time-delay neural networks [J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1989,37(3):328-339.
[23] VASWANI A,SHAZEER N,PARMA N,et al. Attention is All you Need [J/OL].arXiv:1706.03762 [cs.CL].[2012-12-25].https://arxiv.org/abs/1706.03762v1.
[24] DEVLIN J,CHANG M W,LEE K,et al. BERT:Pre-training of deep bidirectional transformers for language understanding [J/OL].arXiv:1810.04805 [cs.CL].[2012-12-26].https://arxiv.org/abs/1810.04805.
[25] YANG Z L,DAI Z H,YANG Y M,et al. XLNet:Generalized Autoregressive Pretraining for Language Understanding[J/OL].arXiv:1906.08237 [cs.CL].[2021-12-26].https://doi.org/10.48550/arXiv.1906.08237.
作者簡介:郭博露(1999—),女,漢族,湖北荊州人,碩士研究生在讀,主要研究方向:自然語言處理;通訊作者:熊旭輝(1971—),男,漢族,湖北黃石人,副教授,碩士生導(dǎo)師,工學(xué)博士,主要研究方向:計算機系統(tǒng)結(jié)構(gòu)、自然語言處理。