王振雪,程剛,2,曹許洋,賈宇恒,劉春波
(1.華北科技學(xué)院(中國煤礦安全技術(shù)培訓(xùn)中心)計算機(jī)學(xué)院,北京 101601;2.南京大學(xué)地球科學(xué)與工程學(xué)院,南京 210023)
隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,海量網(wǎng)絡(luò)資源觸手可及,新聞輿情傳播迅速,網(wǎng)上論壇在線評論自由開放度高,呈現(xiàn)出全民參與新時代網(wǎng)絡(luò)媒體互動交流的發(fā)展現(xiàn)狀。圖1為近5年我國網(wǎng)民規(guī)模及互聯(lián)網(wǎng)普及率。
圖1 2015—2020年我國網(wǎng)民規(guī)模及互聯(lián)網(wǎng)普及率
網(wǎng)絡(luò)跟帖評論已經(jīng)成為網(wǎng)民互動交流、表達(dá)意見及輿論監(jiān)督的重要方式,然而伴隨著追求“過度自由”的個性化時代特征,加之監(jiān)督及審核制度的缺失,導(dǎo)致網(wǎng)民在行使話語權(quán)時經(jīng)常出現(xiàn)失態(tài)現(xiàn)象,使網(wǎng)絡(luò)空間成為傳播網(wǎng)絡(luò)謠言、散布污言穢語、發(fā)布違法違規(guī)信息的平臺[1]。早期用戶發(fā)表評論需要人工審核通過后才能發(fā)布公開,人工方法不僅耗時耗力,且效率低下,無法滿足當(dāng)前網(wǎng)絡(luò)刷新的時效性,更達(dá)不到用戶即時評論與在線討論的需求?;诋?dāng)今互聯(lián)網(wǎng)傳播便捷迅速,且言論呈現(xiàn)復(fù)雜多樣性特征,利用多功能融合技術(shù)研究一種智能化攔截惡意的不正當(dāng)評論方法,為廣大網(wǎng)民營造一個和諧純凈的評論與交流空間,已成為互聯(lián)網(wǎng)自由規(guī)范化發(fā)展的必由之路。因此,開發(fā)一種基于多功能融合的人工智能評論審核系統(tǒng)對在線留言與評論進(jìn)行智能化檢測與處理操作是新時代互聯(lián)網(wǎng)發(fā)展的迫切需求。目前,基于智能化的評論審核功能已被逐漸應(yīng)用于互聯(lián)網(wǎng)各大主流網(wǎng)站,諸如用戶評論情感分析、評論特征提取、主題挖掘文本分析等方法研發(fā)的安全檢測系統(tǒng)也被應(yīng)用于互聯(lián)網(wǎng)各類評論審核系統(tǒng)[2-4]。2019年,李貝貝開展了關(guān)于《紐約時報》從傳統(tǒng)的人工審核評論到通過自動化技術(shù)進(jìn)行篩選排序研究,結(jié)合人工進(jìn)行評論管理的模式創(chuàng)新[5],證明該創(chuàng)新模式不僅大大減輕了人工審核的工作量,提升用戶評論審核的通過率,而且實(shí)現(xiàn)了內(nèi)容盈利的模式創(chuàng)新。2021年,涂正維等基于機(jī)器學(xué)習(xí)對影視劇評論進(jìn)行情感傾向性分析[6],受限于評論數(shù)據(jù)類型和分類器性能特點(diǎn)不同,所得出的分類結(jié)果準(zhǔn)確度存在一定的差異性。因此,該方法對小規(guī)模數(shù)據(jù)會產(chǎn)生較好的分類效果??v觀互聯(lián)網(wǎng)評論審核系統(tǒng)的研究現(xiàn)狀,均未直接將用戶心理健康識別作為一個功能模塊融入至互聯(lián)網(wǎng)評論的智能化審核中。因此,本文通過研發(fā)一種基于多功能融合的人工智能評論審核系統(tǒng),實(shí)現(xiàn)準(zhǔn)確的智能化評論審核機(jī)制,為過濾互聯(lián)網(wǎng)虛假異常信息和暢通評論交流提供技術(shù)支撐。表1為人工智能評論審核系統(tǒng)的各項核心目標(biāo)。
表1 人工智能評論審核系統(tǒng)目標(biāo)
人工智能評論審核系統(tǒng)(artificial intelligence comment detection system,AICDS)可用于微博、微信朋友圈、QQ空間、嗶哩嗶哩、知乎評論區(qū)內(nèi)容的審核與處理。為了使得AICDS對評論語句的識別判斷精準(zhǔn)度能夠不斷滿足互聯(lián)網(wǎng)詞庫迭代發(fā)展的要求,因此需通過預(yù)先爬取互聯(lián)網(wǎng)中各大主流網(wǎng)站的核心評論與留言數(shù)據(jù),并對其進(jìn)行自學(xué)習(xí)數(shù)據(jù)訓(xùn)練,同時對評論審核系統(tǒng)算法進(jìn)行優(yōu)化。通過一定的功能優(yōu)化與自學(xué)習(xí)后,亦可用于微信公眾號內(nèi)容審核、微信轉(zhuǎn)發(fā)內(nèi)容審核,以及為政府門戶網(wǎng)站互動內(nèi)容及官微發(fā)布內(nèi)容審核提供技術(shù)支持。該系統(tǒng)的主要工作流程為:首先通過微信提供的端口獲得需要審核的文字?jǐn)?shù)據(jù),其次進(jìn)入循環(huán)中進(jìn)行識別運(yùn)算處理,并予以等級評定,最后通過等級劃分標(biāo)準(zhǔn)進(jìn)行權(quán)限分配,授權(quán)能否發(fā)送或評論可見級別。本系統(tǒng)共分為四個核心功能處理模塊,圖2為該系統(tǒng)功能框架。
圖2 AICDS功能框架
(1)數(shù)據(jù)處理模塊。系統(tǒng)接收到用戶提交的數(shù)據(jù)后首先對其進(jìn)行預(yù)處理操作,在該模塊中數(shù)據(jù)主動進(jìn)行尋找反饋攔截,之后該模塊將對數(shù)據(jù)反饋進(jìn)行分類打包,返回識別結(jié)果。
(2)心理健康識別模塊。該模塊記憶庫采用標(biāo)記模式。對被識別的問題開展評論,直接進(jìn)行標(biāo)記。審核時,對已經(jīng)存在相關(guān)標(biāo)記下的發(fā)言,予以特殊處理,提高評論審核標(biāo)準(zhǔn)。
(3)人工智能與數(shù)據(jù)記憶模塊。該模塊主要實(shí)現(xiàn)評論的實(shí)時監(jiān)控、訓(xùn)練學(xué)習(xí)和預(yù)測數(shù)據(jù)庫關(guān)鍵詞語發(fā)展趨勢等功能,從而防止評論者刻意規(guī)避系統(tǒng)檢查。該模塊的自行緊急處理包括兩種方式:先斬后奏型(即先屏蔽再上報)、先奏后斬行(即先上報再屏蔽)。
(4)檢測及對比篩選模塊。該模塊主要用于對文字內(nèi)容進(jìn)行關(guān)鍵詞提取,對比篩選已有的不可發(fā)布詞庫或者不適合發(fā)布的關(guān)鍵詞庫,并進(jìn)行言論評價和評級。
AICDS系統(tǒng)主要使用Python語言,利用jieba庫進(jìn)行分詞,將文本分析成詞語列表,然后對該列表中每個詞匯的出現(xiàn)頻率進(jìn)行統(tǒng)計并確定主要的關(guān)鍵詞,清洗多頻的正常詞語,隨后將剩余詞匯與系統(tǒng)詞庫中的“違規(guī)詞匯庫”數(shù)據(jù)進(jìn)行對比,符合相似條件則攔截該詞匯的發(fā)布行為,并給出攔截原因解釋信息提示;反之則認(rèn)為通過系統(tǒng)審核,給予放行。
鑒于中華漢字博大精深,伴隨著應(yīng)用場景的不同,部分詞匯往往具有截然不同的含義。此種情況下,如何識別表達(dá)場景,智能化而非程序化的機(jī)械判斷成為該系統(tǒng)研發(fā)亟需突破的關(guān)鍵問題之一。AICDS系統(tǒng)通過人工智能推斷、數(shù)據(jù)記憶、特殊詞庫定義、特征語法習(xí)慣檢測等多功能融合方法,利用前置關(guān)聯(lián)詞匯將詞匯表達(dá)所屬場景納入數(shù)據(jù)處理分析中,實(shí)現(xiàn)更為精準(zhǔn)的智能化審核授權(quán)機(jī)制。圖3展示了該系統(tǒng)優(yōu)化前后針對應(yīng)用場景做出的智能判斷識別處理結(jié)果。對于“干得漂亮”一詞,本身有夸贊之意,但若將該詞運(yùn)用于負(fù)面場景或人物之中便會產(chǎn)生有損社會風(fēng)氣的行為結(jié)果,十分不利于社會文明的發(fā)展。通過AICDS系統(tǒng)的智能化檢測實(shí)現(xiàn)了潛規(guī)詞語的自過濾,為營造風(fēng)清氣正的互聯(lián)網(wǎng)環(huán)境提供了技術(shù)保障。
圖3 AICDS優(yōu)化前后場景識別對比
本文介紹了一個基于Python語言結(jié)合機(jī)器學(xué)習(xí)算法的人工智能評論審核系統(tǒng),旨在對網(wǎng)絡(luò)中污言穢語的精準(zhǔn)識別并進(jìn)行審核攔截反饋,為營造良好的網(wǎng)絡(luò)評論交流環(huán)境做出技術(shù)保障。通過建立數(shù)據(jù)處理模塊、心理健康識別模塊、人工智能與數(shù)據(jù)記憶模塊以及檢測及對比篩選模塊多功能融合的人工智能評論審核系統(tǒng),實(shí)現(xiàn)了多重審查和智能審核的交叉互補(bǔ),提高了審核結(jié)果的精準(zhǔn)性。該系統(tǒng)能夠較好的實(shí)現(xiàn)對惡意評論、不當(dāng)言論的審查過濾功能,且對于諧音詞、藏頭詩等不明顯詞匯以及詞語不同使用場景的不同含義均可做出判斷識別,為新時代互聯(lián)網(wǎng)評論與留言互動的審核提供了一種創(chuàng)新方法。
然而,隨著大數(shù)據(jù)和人工智能的不斷深入融合,未來基于大數(shù)據(jù)的評論即時性自檢測技術(shù)將引領(lǐng)互聯(lián)網(wǎng)評論審核系統(tǒng)進(jìn)入一個全新的時代,下一步將在本文研究的基礎(chǔ)上,結(jié)合大數(shù)據(jù)、關(guān)聯(lián)規(guī)則、模糊算法與語義分析技術(shù)開展跨領(lǐng)域、網(wǎng)紅詞和多語義的聯(lián)合分析,融合權(quán)重分配方法進(jìn)行深度優(yōu)化分析研究評論審核的即時精準(zhǔn)自檢測技術(shù)。