亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多語BERT的無監(jiān)督攻擊性言論檢測

        2022-11-30 07:29:58師夏陽張風遠袁嘉琪黃敏
        計算機應用 2022年11期
        關鍵詞:攻擊性言論文本

        師夏陽,張風遠,袁嘉琪,黃敏*

        基于多語BERT的無監(jiān)督攻擊性言論檢測

        師夏陽1,張風遠1,袁嘉琪2,黃敏1*

        (1.鄭州輕工業(yè)大學 軟件學院,鄭州 450001; 2.鄭州輕工業(yè)大學 數學與信息科學學院,鄭州 450001)(?通信作者電子郵箱huangmin@zzuli.edu.cn)

        攻擊性言論會對社會安定造成嚴重不良影響,但目前攻擊性言論自動檢測主要集中在少數幾種高資源語言,對低資源語言缺少足夠的攻擊性言論標注語料導致檢測困難,為此,提出一種跨語言無監(jiān)督攻擊性遷移檢測方法。首先,使用多語BERT(mBERT)模型在高資源英語數據集上進行對攻擊性特征的學習,得到一個原模型;然后,通過分析英語與丹麥語、阿拉伯語、土耳其語、希臘語的語言相似程度,將原模型遷移到這四種低資源語言上,實現對低資源語言的攻擊性言論自動檢測。實驗結果顯示,與BERT、線性回歸(LR)、支持向量機(SVM)、多層感知機(MLP)這四種方法相比,所提方法在丹麥語、阿拉伯語、土耳其語、希臘語這四種語言上的攻擊性言論檢測的準確率和F1值均提高了近2個百分點,接近目前的有監(jiān)督檢測,可見采用跨語言模型遷移學習和遷移檢測相結合的方法能夠實現對低資源語言的無監(jiān)督攻擊性檢測。

        跨語言模型;攻擊性言論檢測;BERT;無監(jiān)督方法;遷移學習

        0 引言

        網絡社交媒體中時常存在著大量的攻擊性言論,如網絡欺凌、網絡攻擊和仇恨言論等[1-2]。社交媒體中的攻擊性言論會嚴重影響人們的正常交流,更有甚者可能煽動群眾情緒,對社會穩(wěn)定造成不良的影響。因此,檢測和過濾網絡中的攻擊性言論顯得格外重要,成為自然語言處理領域的一個研究熱點[3]。

        目前攻擊性言論檢測的研究主要集中在高資源語言(如英語)中,這是因為高資源的數據集資源、單語詞典和預訓練語言模型成果豐富[4]。然而,在社交媒體平臺上,往往存在著多種語言的攻擊性言論(例如:不同國家的語言、不同民族的語言和不同地區(qū)的方言),而對語言進行攻擊性言論檢測研究大多基于有限的數據集上,因此低資源語言攻擊性言論檢測的研究面臨巨大的挑戰(zhàn)[5-6]。

        攻擊性言論檢測是分類任務中的一項具體應用,往往將分類任務分為上游的語言建模和下游的分類特征學習兩階段。神經網絡語言模型(Neural Network Language Model, NNLM)通過構建神經網絡的方式來探索和建模自然語言內在的依賴關系,能夠用向量表征一個單詞或者句子,優(yōu)良表征能夠提高下游模型泛化能力。檢測方法泛化能力往往建立在龐大的數據資源基礎上,因此,當建模語言對象為低資源語言時,由于可用資源很少,無法學習到語言對象中內在的依賴關系,也就無法對低資源語言中的文本語義特征進行有效的語義編碼學習。研究表明可以通過跨語言詞向量結合遷移學習(Transfer Learning, TL)實現對低資源語言上的文本語義編碼[7]。此外,下游階段模型的泛化能力決定分類性能的優(yōu)劣,而可用數據資源的多少又決定了下游階段的泛化能力;同時,也造成了下游分類模型無法依靠這些低資源數據得到一個有效的攻擊性言論檢測模型。

        低資源的攻擊性言論檢測面臨兩大挑戰(zhàn):一是由于可用資源少,無法單獨對低資源語言中的文本語義進行有效編碼;二是無法對低資源語言中的攻擊性特征進行有效訓練?;谏鲜龇治?,本文采用遷移學習架構,在BERT(Bidirectional Encoder Representation from Transformers)模型的基礎上,多語言預訓練語言模型——多語BERT(multilingual BERT, mBERT)進行在低資源語言中的遷移學習,使模型具備對低資源語言的文本語義編碼能力[8]。此外,通過探索不同語言之間的語言相似程度,再次對低資源語言進行遷移,實現對低資源語言的攻擊性言論的跨語言檢測,使模型具有一定的對低資源語言的攻擊性言論檢測的泛化能力。

        本文的主要工作包括:

        1)提出了一種融合mBERT的跨語言攻擊性言論遷移檢測方法,通過探索不同語言之間的語言相似度,將在高資源語言上訓練的模型遷移到其他低資源語言中來檢測該低資源語言中的攻擊性;

        2)使用BERT模型作為語言模型,通過對BERT微調,保證了對自然語言的語義編碼能力;

        3)利用mBERT進行不同語言的遷移學習,保留了mBERT模型對不同語言的語義編碼特征,以便于探索不同語言之間的語言相似程度。

        1 相關工作

        進行攻擊性言論識別的早期工作依賴于手動提取不同類型的特征和基于知識的功能以及多模式信息[9-10],如:Saroj等[11]使用四種機器學習分類器:多項式樸素貝葉斯(Multinomial Naive?Bayes, MNB)、隨機梯度下降(Stochastic Gradient Descent,SGD)、線性支持向量機(Linear Support Vector Machine, LSVM)和線性回歸(Linear Regression,LR)來識別社交媒體中印地語中的攻擊性言論;Pathak等[12]通過提取文本語言中的?gram特征,使用機器學習中的分類和回歸方法來學習這些攻擊性言論的特征。但是這種基于特征的方法在文本表示中的能力相對較弱,往往需要構建高維的特征對復雜文本進行特征學習,在進行相關計算時耗費大量資源,且特征的冗余會影響分類的實際效果[13]。受Zampieri 等[14]的啟發(fā),Howard等[15]借助BERT,利用ULMFiT(Universal Language Model Fine?tuning for Text classification, ULMFiT)方法經過預訓練的語言模型成功實現了遷移學習在攻擊性言論檢測的應用,由于性能較好,該類方法成為用于解決攻擊性言論識別任務的主流。在2019年OffensEval競賽[16]中,參加任務A的前10個團隊中,有7個使用了BERT,僅在參數設置和預處理步驟有所不同[17-18]。目前利用跨語言預訓練模型進行攻擊性言論檢測大多數都以預訓練跨語言模型基礎[19-21]。這類方法最大的優(yōu)點是:通過這種無監(jiān)督的跨語言預訓練模型,能夠實現低資源語言的攻擊性言論檢測。Ayo等[22]提出基于支持向量機(Support Vector Machine, SVM)和BERT的方法構建跨語言攻擊性言論和厭女性(Misogynist)言論檢測模型。Kapil等[23]在跨語言預訓練模型的基礎上加入了遷移學習,將豐富資源的攻擊性言論檢測任務知識遷移到低資源語言上,可以有效提高低資源語言的攻擊性言論檢測準確率,但上述方法的檢測性能并不令人滿意。

        2 融合mBERT與TL的攻擊性言論檢測方法

        本文提出的方法包括兩個方面:第一是單語攻擊性言論檢測學習;第二是跨語言遷移檢測。對于給定的單語攻擊性言論樣本集,首先,使用mBERT模型在單語攻擊性言論樣本集中進行遷移學習,得到單語攻擊性言論檢測器。對于給定的低資源語種文本,將單語攻擊性言論檢測器遷移到低資源語言,檢測低資源語言文本中的攻擊性言論。融合mBERT與TL的攻擊性言論檢測方法結構如圖1所示。

        2.1 單語攻擊性言論檢測學習

        由于給定的單語攻擊性言論樣本集較小,不足以支撐構建一個相對完整的模型表達這些言論中的文本語義信息,但跨語言遷移學習方法能夠利用其他語言提供的更大的可用數據集。通過遷移學習將已經學到的模型參數(也可理解為模型學到的知識)通過某種方式來分享給新模型,從而提高模型的學習效率,避免了多數網絡從零學習的缺點。

        mBERT為Google發(fā)布的基于BERT模型訓練的多語言預訓練模型,由12個堆疊的Transformer組成,其中一個隱藏層大小為768,還包括12個自注意力頭。mBERT模型經過預先訓練,將104種不同語言的單語維基百科數據(包括英語、印地語、土耳其語、馬拉雅拉姆語等)與一個共享的詞匯表(該詞匯表包括12萬個單詞)進行連接,使得所有字符編碼共享一個嵌入空間和編碼器,方便應用于不同的語言任務中[24]。Kudugunta等[25]和Kondratyuk等[26]驗證了在下游任務上(如詞性標注、命名實體識別等)可以實現從跨語言預訓練模型中提取相關特征,獲取在特定任務上的基于語言知識的信息。Kumar等[27]在德語和印地語任務中,使用了預訓練模型mBERT,通過對BERT模型微調在德語和印地語的識別仇恨和冒犯性任務上取得了顯著的效果。Libovicky等[28]證明了基于上下文的mBERT可以捕捉語言之間的相似性,并將語言按語種進行聚類,且跨語言微調后不會破壞這個屬性。換句話說,mBERT可以將語言信息的一部分按照嵌入空間中的位置進行編碼,將每種語言的編碼集中起來,可以實現一定程度的跨語言性。

        圖 1 本文方法的結構

        受到前面工作的啟發(fā),本文利用mBERT模型的跨語言性使得檢測器可以捕獲不同語言的文本特征,通過遷移學習將mBERT學到的有關各種語言的知識信息分享給新模型,在mBERT模型參數的基礎上進行檢測器模型的訓練,從而提高模型的學習效率。本文方法使用BERT模型作為構建攻擊性言論檢測模型的基礎結構,將mBERT的模型參數作為上述攻擊性言論檢測模型的初始參數,在此基礎上,通過對BERT模型進行微調,完成攻擊性言論檢測器的訓練。

        最后,使用交叉熵函數作為該任務的損失函數。該損失函數如式(3)所示:

        通過使用遷移學習,將mBERT跨語言預訓練模型的權重參數遷移到單語攻擊性言論檢測模型中作為單語攻擊性言論檢測模型的初始參數,在這基礎上進行攻擊性言論中的攻擊性特征的學習,最后得到一個單語攻擊性言論檢測模型。

        2.2 跨語言檢測

        2.1節(jié)中得到的單語攻擊性言論檢測模型不僅可以解釋高資源攻擊性言論中的攻擊性特征,還繼承了遷移到mBERT預訓練模型對多種語言的語義編碼能力。這種能力使單語攻擊性言論檢測模型可以對未參與攻擊性特征學習的語言直接進行檢測。本文將使用訓練好的單語攻擊性言論檢測模型對未參與攻擊性特征學習的語言進行檢測的方法稱為跨語言檢測。

        為觀察語言之間的關系,從每種語言中隨機抽取了1 000個樣本,并使用tSNE(t?distributed Stochastic Neighbor Embedding)可視化了它們的句子嵌入(見圖2)[29]。從可視化中觀察到,這些例子基于它們的語言形成了一個粗略的聚類,但是英語和丹麥語的集群彼此靠近。這進一步說明了利用嵌入空間的這種接近性來提高對低資源語言攻擊性文本檢測的可能性。

        需要特別指出的是,本文方法并未使用上述單語攻擊性言論檢測模型在低資源數據上進行再遷移學習,因此該方法可以稱無監(jiān)督的跨語言檢測。

        對于某些語種(如丹麥語、阿拉伯語和印地語等),由于這些語種的攻擊性言論樣本資源極少,在對現有資源進行跨語言遷移學習時,這些樣本量不足以訓練一個完整的針對該語言的攻擊性言論檢測器。通過觀察表1,發(fā)現這些語言之間或多或少都有些相似之處,如:丹麥語和英語之間,在實際生活中,丹麥語中也包含大部分的英語;又發(fā)現如英語、土耳其語這些語言,構成文本的字符較為相似;而印地語、阿拉伯語和希臘語這些語言的字符之間差異較大,這些差異也決定了這些語言間的相似性不高。因此,提出一種通過探索不同語言之間的語言相似度,選取合適的單語攻擊性言論檢測器,用來檢測低資源語種文本中的攻擊性言論。

        為了定量估計兩種語言的語義相似性,本文使用了Patra等[30]提出的GH(Gromov?Hausdroff)距離度量兩個單詞之間嵌入空間距離的方法。與文獻[30]中不同語言的單詞所映射到的嵌入空間不同的情況相反,通過跨語言預訓練模型mBERT編碼的嵌入編碼都映射在同一空間內,且通過編碼可視化(編碼可視化如圖2所示)可以看出不同語言的編碼聚集在不同區(qū)域。因此,本文只需計算兩種語言嵌入編碼在不同區(qū)域的等距距離,以此來定量兩種語言的語義相似程度。

        表1 各語種的樣本數據

        具體來說,GH距離定義如式(4)所示:

        3 實驗設置

        3.1 數據設置

        為了驗證本文方法的性能,使用了如表2所示的公開可用的攻擊性言論檢測數據集。對于豐富的資源語言,本文使用2019年OffensEval共享任務6中發(fā)布的英文標記數據集(EN?OLID)[31],OLID(EN?OLID)是最流行的英語語言數據集之一。對于其他資源匱乏的語言,選擇使用在2020年OffensEval共享任務12中發(fā)布的丹麥語(Danish)、阿拉伯語(Arabic)、土耳其語(Turkish)和希臘語(Greek)數據集。其中,OLID數據集包括三個子任務。子任務A:檢測語言文本具有攻擊性或不具有攻擊性,以及兩者樣本總和;子任B:將攻擊語言文本的攻擊類型分類為有針對性的侮辱(TIN)、有針對性的威脅(TTH)或無針對性的(UNT);子任務C:將攻擊目標確定為個人(IND)、人群(GRP)、組織或實體(ORG)及其他(OTH)。而阿拉伯語、丹麥語、希臘語和土耳其語只包含子任務A。本文實驗只針對上述所有任務A數據進行探討。此外,實驗中設置訓練集樣本量和測試集樣本量的比例為9∶1。

        表2 樣本數據分布

        3.2 參數設置

        詞向量維度:設置本方法中的模型詞向量維度為768維。

        詞表:設置mBERT預訓練模型對應的詞表作為文本實驗中的共享詞表,其中,該詞表包括104種語言,共有12萬詞匯。

        跨語言遷移學習:經過對樣本的數據分析,發(fā)現大部分數據長度在120個詞以內,因此設置句子最大長度為120。設置Softmax層的隱藏層單元為標簽類別個數2。

        模型訓練:設置訓練batch為64,epoch為10。

        優(yōu)化器設置:設置優(yōu)化器為Adam。

        優(yōu)化參數設置:設置隱藏層dropout參數為0.01,固定學習率為0.000 02。

        4 實驗及結果分析

        4.1 度量標準

        度量標準主要包括模型預測的準確率(Accuracy)、精確率(Precision)、召回率(Recall)、宏平均macro F1值(后文統(tǒng)稱F1值)。

        4.2 對比實驗分析

        首先實驗驗證所提方法對于低資源語言攻擊性言論檢測的有效性。先抽取英語樣本集做跨語言遷移學習,接著將訓練好的攻擊性言論檢測器遷移到其他語言樣本中,用來檢測文本中的攻擊性。同時設置幾個單語模型作為對比,單語模型設置如下:

        BERT:直接遷移mBERT預訓練模型權重參數到低資源語言上進行攻擊性特征的學習。

        LR:使用詞頻?逆向文檔頻率(Term Frequency?Inverse Document Frequency,TF?IDF)提取語言文本特征信息,接著使用Logistic Regression算法構建攻擊性言論分類器。

        SVM:使用TF?IDF提取語言文本中的特征信息,使用SVM來學習特征信息中的文本特征。

        MLP:使用多層感知機(Multi?Layer Perceptron, MLP)來構建攻擊性文本分類器。

        實驗結果如表3所示。表3顯示,與所設置的4種方法相比,本文方法不論是準確率還是F1值都有所提升,進一步驗證了本文提出的跨語言遷移檢測方法要優(yōu)于基于單語模型的檢測方法。從以下兩方面分析原因:

        1)理論上,可以通過對BERT模型進行微調來自動檢測攻擊性言論,但要達到上述目標需要大量的語料,而由于語料不足,模型無法很好地對文本中的攻擊性特征進行表示學習;類似地,在使用TF?IDF表示文本特征時,數據集極少的情況下并不能將文本中的多元信息很好地表示出來,所以這些單語模型盡管可以學習到一些攻擊性特征,但在測試過程中的檢測性能表現一般。

        2)在數據資源極少的情況下,由于組成不同語言的單詞不同,可能差異很大。這導致將其他語言的文本作為單語檢測器的輸入時,該檢測器對上述所能表示的信息量與對訓練語言相同的文本表示的信息量相差懸殊,不利于遷移檢測。而對mBERT的遷移學習使該檢測器對不同的語言都有一定的表示能力,可以縮小文本表示階段的信息量差距,這有利于將單語檢測器學習到的特征遷移到其他語言做檢測。

        表3 不同模型的實驗結果對比

        經驗上,對可用數據資源極少的語言收集工作和標記工作都是極耗費人力物力的,從而導致這些語言的可用資源很少;而使用跨語言遷移檢測方法能夠將從別的語言上學習到的攻擊性特征遷移到低資源語言上檢測包含攻擊性的言論,擴大了該方法的使用范圍。

        實驗也驗證了跨語言遷移檢測方法可以檢測低資源語言中的攻擊性言論。觀察表3,可以看到基于英語數據集的攻擊性言論檢測器在不同語言上的遷移檢測實驗結果并不一致。相比其他語言,在丹麥語上的遷移檢測結果最好。通過觀察表3中的原數據,發(fā)現不同的單語檢測模型在不同語言的遷移檢測效果是不同的??梢缘贸鼋Y論,在兩種語義相近的語言上做遷移檢測可以解決低資源的攻擊性言論檢測問題。為進一步驗證本文方法的有效性,通過式(4)計算兩個語言的GH距離作為判斷最佳遷移檢測模型的效果,結果如表4所示。表4計算了樣本量最高的三種語言(英語、土耳其語和希臘語)和其他語言之間的單詞向量的GH距離來衡量不同語種之間的語言相似度。其中,兩種不同語言對應的值越小,表明這兩種語言越相似。從表4中可以看出英語與丹麥語相似度更高,而希臘語與丹麥語、土耳其語與阿拉伯語相似度高,這也符合人們對語言的觀測。

        4.3 語義相似度對遷移效果的影響分析

        為了分析語義相似度對遷移效果的影響,設置樣本量最高的三種語言訓練單語檢測模型,并遷移到其他語言中做遷移檢測實驗,檢測不同單語檢測模型對不同語言的遷移檢測效果。

        首先,分別在英語、土耳其語和希臘語三個語言的數據集上進行攻擊性言論檢測模型的訓練,得到英語檢測模型、土耳其語檢測模型和希臘語檢測模型;接著,將這三個檢測模型分別在其他語言上進行檢測實驗,實驗結果圖3所示,其中en、da、ar、tr、和el表示英語、丹麥語、阿拉伯語、土耳其語和希臘語。

        圖3 五種語言模型的準確度、召回率、精確度和F1性能比較

        從圖3可以看出,對于丹麥語、阿拉伯語和土耳其語的F1以及Recall,使用英語檢測器的檢測結果對應的四個評價指標基本優(yōu)于另外兩個分類器(在本次分析中,使用土耳其語檢測器檢測土耳其語和使用希臘語檢測器檢測希臘語的結果不參與分析),且這三種語言與英語之間的GH距離也遠小于其他兩種語言之間的GH距離。對于Accuracy和Precision,土耳其語對應的柱狀圖要高于英語對應的柱狀圖,表明這種方法在一定程度上利用了語言上的相似性,使在語義相似的語言間遷移時達到信息損失最小化,進一步說明了判斷語義相似度在跨語言檢測中的重要性??梢岳眠@種特性,選擇與低資源語言語義相似度最高的高資源數據進行單語攻擊性言論檢測模型的訓練,進而可以更好地實現對低資源語言中的攻擊性判斷。

        4.4 訓練資源的多少對遷移效果的影響分析

        設置不同的訓練樣本量以分析樣本量變化過程中遷移檢測效果的變化,結果如圖4??梢钥闯觯S著訓練樣本量的增多,遷移檢測效果的性能也不斷提升。觀察圖4發(fā)現,當訓練樣本量小于3 000時,對各個語言的遷移檢測性能指標均低于0.35,此時模型處于不夠理想的狀態(tài);隨著訓練樣本量的增加,模型的遷移檢測性能指標也隨之上升,當訓練樣本量增加到12 000時,圖中各指標處于緩慢增長甚至穩(wěn)定狀態(tài)。而且相較于其他語言,與英語語義相似度最高的丹麥語的檢測性能指標增長最快。所以訓練樣本越多,用這些訓練樣本訓練得到的模型遷移到其他語言中的效果越好,但當樣本量超過一定值時,訓練資源的多少帶來的影響就會很??;而且與高資源語言相似度最高的低資源語言的檢測性能的變化最明顯。由此,本文認為語言之間的相似性是使遷移效果更優(yōu)的主要原因,兩種語言越相似,遷移檢測效果越好。

        4.5 與有監(jiān)督方法的對比實驗分析

        本文方法主要是基于mBERT的無監(jiān)督檢測方法,為了進一步探究語言相似性對低資源語言任務中的影響,將無監(jiān)督方法與一組有監(jiān)督方法作對比實驗。具體實現為在得到英語這種高資源語言對應的檢測模型后,在有限的低資源語言中做進一步的遷移學習,實驗結果如表5。由表5可以看出,本文的無監(jiān)督方法效果接近有監(jiān)督的方法,并且不同語言之間的接近程度有一定的差異。值得注意的是,丹麥語中的有監(jiān)督方法比無監(jiān)督方法在Accuracy和F1兩種評價指標中分別高0.029和0.090。同時發(fā)現,與英語相似度更高的丹麥語無論是各指標值還是接近程度都要優(yōu)于其他語言,這也進一步驗證了語言相似性對低資源語言任務中的影響一致性。

        圖 4 訓練樣本量不同時的模型遷移檢測對比

        表5 本文方法與有監(jiān)督方法的對比

        5 結語

        本文采用跨語言模型遷移學習和遷移檢測相結合方式構建了攻擊性言論監(jiān)測器,實現了對低資源語言的攻擊性檢測。通過在BERT模型中遷移跨語言預訓練語言模型mBERT,保證模型對多種語言的語義編碼能力,且減少多語語言模型訓練過程中資源的耗費。對BERT模型微調,實現在該語言中的攻擊性言論檢測。通過探索不同語言之間的語言相似度,提高在低資源語種中的攻擊性言論遷移檢測有效性。實驗結果表明,本文方法確實能有效提高對低資源語種的遷移檢測效果。在今后的研究中,會嘗試將這種方法應用在多種任務上,如其他自然語言處理領域的機器翻譯、文本生成等。

        [1] MALMASI S, ZAMPIERI M. Challenges in discriminating profanity from hate speech[J]. Journal of Experimental and Theoretical Artificial Intelligence, 2018. 30(2): 187-202.

        [2] KUMAR R, OJHA A K, MALMASI S, et al. Benchmarking aggression identification in social media[C]// Proceedings of the 1st Workshop on Trolling, Aggression, and Cyberbullying. Stroudsburg, PA: Association for Computational Linguistics, 2018: 1-11.

        [3] NOBATA C, TETREAULT J, THOMAS A, et al. Abusive language detection in online user content[C]// Proceedings of the 25th International Conference on World Wide Web. Republic and Canton of Geneva: International World Wide Web Conferences Steering Committee, 2016: 145-153.

        [4] ROSENTHAL S, ATANASOVA P, KARADZHOV G, et al. SOLID: a large?scale semi?supervised dataset for offensive language identification[C]// Findings of the Association for Computational Linguistics: ACL?IJCNLP 2021. Stroudsburg, PA: Association for Computational Linguistics, 2021: 915-928.

        [5] MUBARAK H, RASHED A, DARWISH K, et al. Arabic offensive language on Twitter: analysis and experiments[C]// Proceedings of the 6th Arabic Natural Language Processing Workshop. Stroudsburg, PA: Association for Computational Linguistics, 2021: 126-135.

        [6] ??LTEKIN ?. A corpus of Turkish offensive language on social media[C]// Proceedings of the 12th Language Resources and Evaluation Conference. Paris: European Language Resources Association, 2020: 6174-6184.

        [7] CASULA C, PALMERO APROSIO A, MENINI S, et al. FBK?DH at SemEval-2020 Task 12: using multi?channel BERT for multilingual offensive language detection[C]// Proceedings of the 14th Workshop on Semantic Evaluation. [S.l.]: International Committee for Computational Linguistics, 2020: 1539-1545.

        [8] FENG F X Y,YANG Y F, CER D, et al. Language?agnostic BERT sentence embedding[C]// Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2022: 878-891.

        [9] PAMUNGKAS E W, PATTI V. Cross?domain and cross?lingual abusive language detection: a hybrid approach with deep learning and a multilingual lexicon[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop. Stroudsburg, PA: Association for Computational Linguistics,2019: 363-370.

        [10] WARNER W, HIRSCHBERG J. Detecting hate speech on the world wide web[C]// Proceedings of the 2nd Workshop on Language in Social Media. Stroudsburg, PA: Association for Computational Linguistics, 2012: 19-26.

        [11] SAROJ A, PAL S. An Indian language social media collection for hate and offensive speech[C]// Proceedings of the 1st Workshop on Resources and Techniques for User and Author Profiling in Abusive Language. Paris: European Language Resources Association, 2020: 2-8.

        [12] PATHAK V, JOSHI M, JOSHI P A, et al. KBCNMUJAL@ HASOC?Dravidian?CodeMix?FIRE2020: using machine learning for detection of hate speech and offensive code?mixed social media text[EB/OL]. (2021-02-19)[2021-08-10].https://arxiv.org/ftp/arxiv/papers/2102/2102.09866.pdf.

        [13] 蘇金樹,張博鋒,徐昕. 基于機器學習的文本分類技術研究進展[J]. 軟件學報, 2006, 17(9): 1848-1859.(SU J S, ZHANG B F, XU X. Advances in machine learning based text categorization[J]. Journal of Software, 2006, 17(9):1848-1859.)

        [14] ZAMPIERI M, NAKOV P, ROSENTHAL S, et al. SemEval-2020 Task 12: multilingual offensive language identification in social media (OffensEval 2020)[C]// Proceedings of the 14th Workshop on Semantic Evaluation. [S.l.]: International Committee for Computational Linguistics, 2020: 1425-1447.

        [15] HOWARD J, RUDER S. Universal language model fine?tuning for text classification[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2018: 328-339.

        [16] LIU P, LI W, ZOU L. NULI at SemEval-2019 Task 6: transfer learning for offensive language detection using bidirectional transformers[C]// Proceedings of the 13th International Workshop on Semantic Evaluation. Stroudsburg, PA: Association for Computational Linguistics, 2019: 87-91.

        [17] PITENIS Z, ZAMPIERI M, RANASINGHE T. Offensive language identification in Greek[C]// Proceedings of the 12th Language Resources and Evaluation Conference. Paris: European Language Resources Association, 2020: 5113-5119.

        [18] NIKOLOV A, RADIVCHEV V. Nikolov?Radivchev at SemEval-2019 Task 6: offensive tweet classification with BERT and ensembles[C]// Proceedings of the 13th International Workshop on Semantic Evaluation. Stroudsburg, PA: Association for Computational Linguistics, 2019: 691-695.

        [19] MAHESHAPPA P, MATHEW B, SAHA P. Using knowledge graphs to improve hate speech detection[C]// Proceedings of the 3rd ACM India Joint International Conference on Data Science and Management of Data. New York: ACM, 2021: 430-430.

        [20] PHAM Q H, NGUYEN V A, DOAN L B, et al. From universal language model to downstream task: improving RoBERTa?based Vietnamese hate speech detection[C]// Proceedings of the 12th International Conference on Knowledge and Systems Engineering. Piscataway: IEEE, 2020: 37-42.

        [21] AL?MAKHADMEH Z, TOLBA A . Automatic hate speech detection using killer natural language processing optimizing ensemble deep learning approach[J]. Computing, 2020, 102(2):501-522.

        [22] AYO F E, FOLORUNSO O, IBHARALU F T, et al. Hate speech detection in Twitter using hybrid embeddings and improved cuckoo search?based neural networks[J]. International Journal of Intelligent Computing and Cybernetics,2020, 13(4):485-525.

        [23] KAPIL P, EKBAL A. A deep neural network based multi?task learning approach to hate speech detection[J]. Knowledge?Based Systems, 2020, 210: No.106458.

        [24] COLLA D, CASELLI T, BASILE V, et al. GruPaTo at SemEval-2020 Task 12: retraining mBERT on social media and fine?tuned offensive language models[C]// Proceedings of the 14th Workshop on Semantic Evaluation. [S.l.]: International Committee for Computational Linguistics, 2020: 1546-1554.

        [25] KUDUGUNTA S, BAPNA A, CASWELL I, et al. Investigating multilingual NMT representations at scale[C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2019: 1565-1575.

        [26] KONDRATYUK D, STRAKA M. 75 languages, 1 model: parsing universal dependencies universally[C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2019: 2779-2795.

        [27] KUMAR A, SAUMYA S, SINGH J P . NITP?AI?NLP@HASOC? FIRE2020: fine tuned BERT for the hate speech and offensive content identification from social media[C]// Proceedings of the 12th Meeting of Forum for Information Retrieval Evaluation. Aachen: CEUR?WS.org, 2020: 266-273.

        [28] LIBOVICKY J, ROSA R, FRASER A. How language?neutral is multilingual BERT?[EB/OL]. (2019-11-08)[2021-08-10].https://arxiv.org/pdf/1911.03310.pdf.

        [29] ABE M, MIYAO J, KURITA T. q?SNE: visualizing data using q?Gaussian distributed stochastic neighbor embedding[C]// Proceedings of the 25th International Conference on Pattern Recognition. Piscataway: IEEE, 2021: 1051-1058.

        [30] PATRA B, MONIZ J R A, GARG S, et al. Bilingual lexicon induction with semi?supervision in non?isometric embedding spaces[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Stroudsburg, PA: Association for Computational Linguistics, 2019: 184-193.

        [31] ZAMPIERI M, MALMASI S, NAKOV P, et al. SemEval-2019 Task 6: identifying and categorizing offensive language in social media (OffensEval)[C]// Proceedings of the 13th International Workshop on Semantic Evaluation. Stroudsburg, PA: Association for Computational Linguistics, 2019: 75-86.

        Detection of unsupervised offensive speech based on multilingual BERT

        SHI Xiayang1, ZHANG Fengyuan1, YUAN Jiaqi2, HUANG Min1*

        (1,,450001,;2,,450001,)

        Offensive speech has a serious negative impact on social stability. Currently, automatic detection of offensive speech focuses on a few high?resource languages, and the lack of sufficient offensive speech tagged corpus for low?resource languages makes it difficult to detect offensive speech in low?resource languages. In order to solve the above problem, a cross?language unsupervised offensiveness transfer detection method was proposed. Firstly, an original model was obtained by using the multilingual BERT (multilingual Bidirectional Encoder Representation from Transformers, mBERT)model to learn the offensive features on the high?resource English dataset. Then, by analyzing the language similarity between English and Danish, Arabic, Turkish, Greek, the obtained original model was transferred to the above four low?resource languages to achieve automatic detection of offensive speech on low?resource languages. Experimental results show that compared with the four methods of BERT, Linear Regression (LR), Support Vector Machine (SVM) and Multi?Layer Perceptron (MLP), the proposed method increases both the accuracy and F1 score of detecting offensive speech of languages such as Danish, Arabic, Turkish, and Greek by nearly 2 percentage points, which are close to those of the current supervised detection, showing that the combination of cross?language model transfer learning and transfer detection can achieve unsupervised offensiveness detection of low?resource languages.

        cross?language model; offensive speech detection; BERT (Bidirectional Encoder Representation from Transformers); unsupervised method; Transfer Learning (TL)

        This work is partially supported by Key Research and Development and Promotion Project of Henan Province (212102210547).

        SHI Xiayang, born in 1978,Ph. D., lecturer. His research interests include natural language processing, machine translation.

        ZHANG Fengyuan, born in 1998. Her research interests include natural language processing, machine translation.

        YUAN Jiaqi, born in 1996, M. S. candidate. Her research interests include natural language processing, multimodal machine translation.

        HUANG Min, born in 1972, Ph. D., professor. His research interests include data mining, information processing.

        TP391.1

        A

        1001-9081(2022)11-3379-07

        10.11772/j.issn.1001-9081.2021112005

        2021?11?25;

        2021?12?31;

        2022?01?14。

        河南省重點研發(fā)與推廣專項(212102210547)。

        師夏陽(1978—),男,河南魯山人,講師,博士,CCF會員,主要研究方向:自然語言處理、機器翻譯;張風遠(1998—),女,河南許昌人,主要研究方向:自然語言處理、機器翻譯;袁嘉琪(1996—),女,河南許昌人,碩士研究生,主要研究方向:自然語言處理、多模態(tài)機器翻譯;黃敏(1972—),男,河南南陽人,教授,博士,主要研究方向:數據挖掘、信息處理。

        猜你喜歡
        攻擊性言論文本
        3-6歲幼兒攻擊性行為的現狀及對策
        重要言論
        重要言論
        幼兒攻擊性行為的誘因及干預策略
        甘肅教育(2020年21期)2020-04-13 08:08:28
        在808DA上文本顯示的改善
        他們的言論
        智族GQ(2019年12期)2019-01-07 09:08:57
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        “愛”的另類表達,嬰兒的攻擊性行為
        母子健康(2015年1期)2015-02-28 11:21:51
        如何快速走進文本
        語文知識(2014年1期)2014-02-28 21:59:13
        亚洲国产精品一区亚洲国产| 久久久无码人妻精品一区| 又色又污又爽又黄的网站| 久久精品亚洲中文无东京热| 澳门精品一区二区三区| 三级国产精品久久久99| 高清不卡一区二区三区| 欧美精品中文| 国产女主播在线免费观看| 亚洲精品午夜久久久九九| 亚洲av午夜国产精品无码中文字| 久久久精品3d动漫一区二区三区 | 国产在线一区二区三区乱码| 亚洲成a∨人片在线观看无码 | 国产一区二区三区毛片| 久久亚洲国产成人精品性色| 亚洲欧美在线观看一区二区| 精品中文字幕久久久人妻| 国语自产视频在线| 国产一区二区三区影院| 一区二区三区福利在线视频| 国产在线视频一区二区三区不卡| 国产成人无码精品久久久免费| 天天爽夜夜爽夜夜爽| 无码av一区在线观看| 国产精品一区二区夜色不卡| 国产成人av乱码在线观看| 1717国产精品久久| 久久成人黄色免费网站| 国产一级二级三级在线观看视频| 2018国产精华国产精品| 国产成人啪精品午夜网站| 亚洲综合有码中文字幕| 妺妺跟我一起洗澡没忍住| 1717国产精品久久| 亚洲毛片av一区二区三区| 久久久免费看少妇高潮| 亚洲av成人无码网站大全| 亚洲欧美在线视频| 中文字幕人妻精品一区| 精品国内在视频线2019|