臧義
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)
網(wǎng)絡(luò)社區(qū)是指網(wǎng)上論壇、貼吧、微博、博客、網(wǎng)絡(luò)游戲聊天區(qū)等公共平臺(tái),在這些平臺(tái)上用戶可以隨意通過發(fā)布帖子或者評(píng)論帖子來發(fā)表自己的言論。臟話作為人們的一種非正式語言,在現(xiàn)實(shí)生活中經(jīng)常出現(xiàn)?;ヂ?lián)網(wǎng)的便利和虛擬性質(zhì)更加助長了臟話的泛濫,尤其是在娛樂性質(zhì)比較強(qiáng)的平臺(tái)如網(wǎng)絡(luò)游戲聊天區(qū)是臟話言論的高發(fā)地,在缺乏完善的監(jiān)管之前,人們幾乎不會(huì)為自己所發(fā)表的臟話言論承擔(dān)責(zé)任,這為維護(hù)健康的網(wǎng)絡(luò)公共環(huán)境、凈化網(wǎng)絡(luò)風(fēng)氣造成了風(fēng)險(xiǎn)。因此,研究針對(duì)一段文本來自動(dòng)識(shí)別其是否為臟話的系統(tǒng)具有十分重要的現(xiàn)實(shí)意義。
臟話言論是指針對(duì)某個(gè)人或者某個(gè)群體的辱罵或者發(fā)表攻擊性言論的行為,根據(jù)辱罵內(nèi)容的不同又可以細(xì)分為:性別歧視、種族歧視、仇恨言論、個(gè)人人身共計(jì)、諷刺、欺凌、褻瀆等方面,我們這里研究的臟話是指廣義方面的臟話。網(wǎng)絡(luò)社區(qū)的臟話言論一般具有以下特點(diǎn):①臟話的書寫往往不規(guī)范,辱罵者一般為了規(guī)避敏感詞檢測(cè)系統(tǒng),會(huì)采用縮寫、更換為其他語言等方式來表達(dá)同樣意思的臟話言論;②臟話的語言更新發(fā)展速度較快;③為了表達(dá)情緒,臟話相比于正式書面文本往往會(huì)伴隨一些表情符號(hào)或者不規(guī)范用法的標(biāo)點(diǎn)符號(hào);④部分臟話詞存在非臟話詞的意思,通過關(guān)鍵字匹配來屏蔽臟話詞并不一定能夠有效屏蔽臟話。
臟話識(shí)別可以看作一個(gè)文本二分類的任務(wù),即針對(duì)一段聊天或評(píng)論文本判斷它是否是臟話言論。在實(shí)際應(yīng)用中,臟話識(shí)別較為復(fù)雜的任務(wù),主要表現(xiàn)在以下幾個(gè)方面:①由于臟話的表達(dá)形式豐富以及部分臟話詞存在非臟話意思,所以通過關(guān)鍵字匹配的方法往往效果不理想;②在語法上,臟話言論可能也比較流利,例如仇恨言論或方面;③存在模糊或者比擬手法等比較隱晦的臟話用法;④根據(jù)各細(xì)分領(lǐng)域的不同,臟話的文本風(fēng)格也不相同。
早期對(duì)于臟話識(shí)別的技術(shù)主要是基于敏感詞過濾的方法,該方法事先要建立過濾敏感詞詞典,根據(jù)輸入的句子進(jìn)行分詞,然后根據(jù)敏感詞詞典進(jìn)行機(jī)器匹配,如果匹配到敏感詞則被認(rèn)為這一段文本是臟話,該方法于精確率和召回率都不高,并且可能造成誤判,因此在實(shí)際應(yīng)用中會(huì)影響用戶正常信息的發(fā)布。這是由于臟話語言更新速度較快、用戶變換臟話的形式以及部分臟話詞存在非臟話意思所導(dǎo)致的結(jié)果,所以敏感詞過濾的方法需要人為經(jīng)常更新敏感詞詞典。S.O.Sood、J.Antin等人[1]通過使用眾包來標(biāo)注了臟話行為,采用敏感詞過濾的方式褻瀆檢測(cè),該方法由于無法適應(yīng)臟話語言自身的特點(diǎn),對(duì)于臟話識(shí)別具有一定的局限性。
基于敏感詞過濾的方法不能兼顧到臟話詞本身快速發(fā)展的特點(diǎn),并且還可能會(huì)因?yàn)榕K話詞在某些上下文中當(dāng)非臟話詞意思使用的情況而導(dǎo)致本身不應(yīng)為臟話的樣例被誤分類臟話。和敏感詞過濾方法相比,機(jī)器學(xué)習(xí)方法可以考慮人工設(shè)計(jì)加入更多更豐富的特征,例如N-Gram、詞匯特征、句法特征、用戶特定特征,等等?;谠~匯的檢測(cè)方法會(huì)將所有出現(xiàn)臟話詞的文本分類為臟話而造成的低精確率,而臟話詞在表達(dá)臟話詞意思的時(shí)候,往往帶有固定地句法搭配。考慮捕捉臟話詞及其使用搭配的句法特征,有助于提升臟話識(shí)別的效果。Thomas Davidson[2]和Zeerak Waseem[3]等人考慮引入N-Gram 的詞性特征來捕捉句法特征,并且還加入了一條推文中的hashtag 數(shù)量、提及用戶的數(shù)量、URL 數(shù)量等特征,最后采用了邏輯回歸模型來分類。William Warner 等人[4]也使用通過支持向量機(jī)來對(duì)捕捉的N-Gram 特征進(jìn)行分分類。
傳統(tǒng)機(jī)器學(xué)習(xí)方法雖然取得不錯(cuò)的效果,但是該方法依然存在以下缺點(diǎn):①人工特征工程需要較大的時(shí)間成本和人力成本;②人工特征方法的模型在任務(wù)目標(biāo)各異的臟話識(shí)別領(lǐng)域的通用性能較差,換一個(gè)數(shù)據(jù)集或者任務(wù),則可能模型效果降低而導(dǎo)致部分特征需要重新設(shè)計(jì)。由于神經(jīng)網(wǎng)絡(luò)方法具有自動(dòng)學(xué)習(xí)特征的優(yōu)勢(shì),越來越多的研究人員使用神經(jīng)網(wǎng)絡(luò)方法運(yùn)用于臟話識(shí)別領(lǐng)域。
針對(duì)用戶故意對(duì)單詞進(jìn)行混淆以規(guī)避臟話檢測(cè)系統(tǒng)的現(xiàn)象,Ji Ho Park 等人[5]考慮捕捉臟話詞字符層面的特征,采用基于詞級(jí)和字符級(jí)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型來分別抽取基于詞和字符的局部特征,再將兩部分特征進(jìn)行融合,再通過一個(gè)CNN 抽取特征后進(jìn)行分類。Mishra 等人[6]通過循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來捕捉字符級(jí)別的特征。Zhang 等人[7]考慮捕捉臟話詞的共現(xiàn)現(xiàn)象(即臟話詞及其附近固定用詞搭配),例如:(muslim refugees, deported)和(muslim refugees, not welcome)。而近兩年來,研究人員考慮使用更加復(fù)雜的模型以及引入輔助知識(shí)來提高臟話識(shí)別效果。研究人員發(fā)現(xiàn)單獨(dú)從一段文本尤其是在文本字?jǐn)?shù)和信息較少的情況下很難去判斷該文本是否為臟話,作者的社區(qū)信息或者元數(shù)據(jù)包括作者之前的發(fā)文相關(guān)信息、個(gè)人信息以及基于社會(huì)網(wǎng)絡(luò)的信息,往往有作案前科的臟話言論者在社區(qū)信息或元數(shù)據(jù)特征上會(huì)有一個(gè)傾向性,捕捉這種特征的傾向性,有助于判斷該作者發(fā)文是臟話的準(zhǔn)確率,提升臟話識(shí)別的效果。Mishra 等人[8]在N-Gram 字符級(jí)特征的基礎(chǔ)上考慮再加上作者的社區(qū)信息作為特征,F(xiàn)ounta 等人[9]以文本和文本作者的元數(shù)據(jù)作為模型的兩個(gè)輸入,分別通過RNN 和多層感知機(jī)(MLP)抽取各自的隱藏特征,并使用一個(gè)拼接層將兩部分特征融合起來再作分類。作者在前期實(shí)驗(yàn)中發(fā)現(xiàn)兩條輸入路徑存在收斂速率不同的情況,在論文的實(shí)驗(yàn)中,作者使用遷移學(xué)習(xí)的思想,分別單獨(dú)訓(xùn)練兩條路徑,保留拼接層以上的參數(shù),重新初始化拼接層,重新訓(xùn)練整個(gè)模型且只對(duì)之前保留的拼接層以上的參數(shù)進(jìn)行微調(diào)。Rajamanickam 等人[10]基于《褻瀆心理學(xué)》[11]中的“臟話行為跟發(fā)表臟話者的心理狀態(tài)和情緒是息息相關(guān)的”這一理論,提出用多任務(wù)學(xué)習(xí)框架對(duì)臟話識(shí)別和情緒分類聯(lián)合建模,其中主任務(wù)是臟話識(shí)別,輔助任務(wù)是情緒分類。兩個(gè)任務(wù)采用交替學(xué)習(xí)的方式,在主任務(wù)訓(xùn)練的時(shí)候,將兩個(gè)任務(wù)編碼端的信息進(jìn)行融合再進(jìn)行分類,并且同時(shí)更新兩個(gè)任務(wù)編碼端的參數(shù);在輔助任務(wù)訓(xùn)練的時(shí)候,僅更新輔助任務(wù)編碼端的參數(shù)。通過實(shí)驗(yàn)證明,加入情緒分類的輔助任務(wù)的確有助于提升臟話識(shí)別的效果,而且相比于采用遷移學(xué)習(xí)的方式來訓(xùn)練,交替訓(xùn)練方式能夠更多保留輔助任務(wù)編碼端中隊(duì)臟話識(shí)別有幫助的信息。
目前臟話識(shí)別領(lǐng)域的數(shù)據(jù)集的概況有以下幾個(gè)特點(diǎn):①公開可用的數(shù)據(jù)集較少。臟話識(shí)別領(lǐng)域大多數(shù)數(shù)據(jù)集只是作為研究人員各自的研究工作所用,并沒有對(duì)外公開,導(dǎo)致該領(lǐng)域數(shù)據(jù)集眾多,但是可以直接在網(wǎng)上下載的只有寥寥幾個(gè)。Waseem and Hovy 2016 數(shù)據(jù)集來自文獻(xiàn)工作[12],該工作主要檢測(cè)與宗教,性,性別和少數(shù)民族相關(guān)的常用誹謗和粗話,數(shù)據(jù)集來自推文,總共有16,202 條數(shù)據(jù),標(biāo)注分為三種:種族主義(占比12%),性別歧視(19.4%)或兩者都不存在(68.6%)。OffensEval 2019[13]數(shù)據(jù)集來自SemEval 2019 比賽第六個(gè)任務(wù),旨在檢測(cè)社交媒體上的攻擊性言論,這里的攻擊性言論包含令人反感的語言或針對(duì)性的攻擊,包括侮辱,威脅,褻瀆性語言和臟話。該數(shù)據(jù)集共有13,240條推文,其中33%為攻擊性言論,另外67%為非攻擊性言論;②數(shù)據(jù)集的標(biāo)注各異。由于研究人員根據(jù)各自的研究工作的任務(wù)不同,各自工作所用的數(shù)據(jù)集標(biāo)注類別也各異,這就造成了目前臟話領(lǐng)域數(shù)據(jù)集雜亂的情況。并且由于各任務(wù)之間的數(shù)據(jù)分布差異,使得臟話領(lǐng)域中還沒有可以作為大量引用的標(biāo)準(zhǔn)化數(shù)據(jù)集;③標(biāo)注數(shù)據(jù)困難。一方面臟話在數(shù)據(jù)分布中的比例較少,要標(biāo)注一定量的正例(臟話)需要較大的工作量;另一方面,眾包模式可以解決標(biāo)注工作量的問題,但是同時(shí)也存在著標(biāo)注質(zhì)量低的問題。
本文對(duì)網(wǎng)絡(luò)社區(qū)臟話識(shí)別的研究進(jìn)展進(jìn)行了介紹,簡單介紹了臟話識(shí)別的應(yīng)用價(jià)值、臟話的特點(diǎn)和臟話識(shí)別任務(wù)的難點(diǎn),重點(diǎn)介紹了臟話識(shí)別領(lǐng)域方法的發(fā)展歷程以及最新研究成果。臟話識(shí)別作為一個(gè)極具研究價(jià)值和現(xiàn)實(shí)意義的課題,該領(lǐng)域目前的研究水平還不夠充分,尤其深度學(xué)習(xí)的快速發(fā)展能夠?yàn)榕K話識(shí)別領(lǐng)域的研究帶來重大突破。當(dāng)下階段臟話識(shí)別領(lǐng)域不僅僅有難以獲取數(shù)據(jù)集的困難,而且大部分工作都集中在以英語為主要語言的領(lǐng)域,而在其他語言領(lǐng)域的研究極具匱乏,這些挑戰(zhàn)和研究空缺都需要研究人員去進(jìn)一步探索新的解決方法。