關鍵詞: 網絡欺凌; 文本檢測; LIME 算法; 算法解釋; 數據故事化
DOI:10.3969 / j.issn.1008-0821.2024.09.005
〔中圖分類號〕TP391.1 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2024) 09-0059-12
網絡欺凌檢測研究是一個融合心理學、教育學、行為科學和信息技術等多學科的社會科學研究, 基于檢測模型監(jiān)管網絡欺凌行為符合信息資源管理領域對于數據規(guī)范、隱私管理和信息合規(guī)性檢驗的要求。聯合國指出, 網絡欺凌是“使用數字技術的欺凌, 它可以在社交媒體、消息傳遞平臺、游戲平臺和手機上進行, 這是重復的行為, 旨在嚇唬、激怒或羞辱那些被針對的人”[1] 。從我國關于加強網絡文明建設的建議中得知[2] , 網絡欺凌行為會對個人身心健康、社會穩(wěn)定甚至國家安全造成潛在威脅,實現對欺凌行為的準確識別和有效應對具有戰(zhàn)略和現實意義。因此, 本研究旨在通過對網絡欺凌檢測模型結果進行算法解釋, 并以數據故事方式呈現欺凌文本, 為實現實時性、局部性和精準化的網絡信息內容生態(tài)治理提供參考依據, 有助于維護網絡秩序和構建良好的網絡環(huán)境。
提高結果的可解釋性是促進算法模型廣泛應用于社會科學研究的重要舉措, 可有效增強研究人員對模型決策的認可、信任與理解。通過對用戶信息行為合規(guī)性檢驗與隱私權保護的思考, 本研究構建了一個識別網絡欺凌文本特征、算法解釋方法和故事化呈現的理論框架。該框架將故事化解釋方法與情報學領域的信息檢索相結合, 是數據故事化方法在網絡治理方面的應用拓展。目前, 網絡欺凌檢測研究大多關注用戶特征[3] 、語言類型[4] 、檢測方法[5] 等內容, 并取得了一定的研究進展, 但對網絡欺凌檢測的可解釋性以及故事化呈現方面的探索有待加強。本研究試圖回答以下研究問題: ①網絡欺凌檢測模型的高準確性是否代表其具有高應用價值與可信度? 如何權衡檢測模型準確性與可解釋性之間的關系? ②增強算法解釋對于指導網絡欺凌模型實踐應用有何價值? ③故事化方法在網絡欺凌檢測結果解釋中發(fā)揮了何種作用? 如何將模型預測結果和解釋結果應用于故事化框架中?
1相關研究
1.1網絡欺凌檢測模型
網絡欺凌檢測模型是一種用于自動識別和分類網絡欺凌行為的算法程序, 能夠分析文本、圖像、音視頻或其他形式的欺凌內容。為分析現有研究中涉及的網絡欺凌檢測模型分析對象, 本研究在Webof Science Core Collection、中國知網CNKI 等核心數據庫中進行檢索與篩選, 以“主題=網絡欺凌檢測模型”“主題=網絡欺凌檢測模型AND 主題=文本”“主題=網絡欺凌檢測模型AND 主題=圖像”“主題=網絡欺凌檢測模型AND 主題=音視頻” 檢索式在中國知網數據庫中進行檢索, 分別得到4篇、4篇、0篇、0篇文獻。并以Topic=“cyberbullying de?tection model”、Topic=“cyberbullying detection mod?el” And Topic=“text”、Topic=“cyberbullying detec?tion model” And Topic=“image”、Topic=“cyberbul?lying detection model” And Topic=“Audio or video”檢索式在Web of Science 核心數據庫進行主題檢索,分別獲得文獻144 篇、78 篇、24篇和13篇。其中, 文獻類型、發(fā)表時間不做限制。在已發(fā)表文獻中, 網絡欺凌檢測模型不同分析對象分布如圖1 所示??梢姡?文本分析在網絡欺凌檢測模型研究中占比最高, 這是因為文本內容相較于其他形式對判斷網絡欺凌行為更加方便、直觀。因此, 本研究重點對網絡欺凌文本進行算法分析與案例研究。
現有研究多利用智能傳感設備和機器學習方法對用戶行為進行檢測, 通過尋找關鍵敏感特征或訓練檢測模型識別網絡欺凌行為。①智能傳感設備主要通過語音或行為判斷是否屬于欺凌行為, 例如,Ye L 等[6] 通過傳感器數據(文本或音視頻)識別用戶的運動類型, 并結合分析音頻源的情感識別方法,為辨別欺凌任務或行動提供一種新方法。Zhao Z H等[7] 基于智能傳感器的活動識別、基于情緒的語氣識別, 使用主成分分析算法識別哪些特征空間對欺凌行為分類最具辨別力。Gattulli V 等[8] 基于手機傳感器方法識別用戶欺凌行為, 利用人類活動識別(Human Activity Recognition, HAR)模型將用戶分類為欺凌、網絡欺凌、欺凌受害者和網絡欺凌受害者。②機器學習方法利用上下文內容、情感傾向和情緒特征等信息識別網絡欺凌。Paruchuri V L等[9] 提出了具有N 元語法特征選擇的七層卷積神經網絡模型, 可在基于辱罵詞的單詞級別和基于同義詞的字符級別檢測網絡欺凌。已有學者總結分析了現有的基于深度學習的網絡欺凌檢測技術, 調查發(fā)現, 深度學習憑借高效處理大規(guī)模多元數據、隱藏層自動提取特征等優(yōu)勢[10] , 在識別網絡欺凌上超越了傳統(tǒng)的機器學習算法。亦有研究提出了自訓練的ELMo ( Embeddings from Language Models) -TextCNN 檢測模型[11] 和跨層連接的多通道DBiSAC網絡欺凌檢測模型[12] , 通過提取文本特征和分析語義信息實現對網絡欺凌文本的檢測。綜上所述,詞向量、文本特征和上下文語義信息是識別網絡欺凌文本的關鍵。
1.2面向網絡欺凌檢測模型的解釋方法
可解釋性方法是用戶理解并信任模型檢測結果的技術手段之一。對于未知的文本內容, 僅依靠模型準確性指標評估網絡欺凌分類結果并不可信, 應提供支持文本分類結果的關鍵特征。通過解釋特定特征的分類, 可用于監(jiān)控和識別網絡欺凌。面向網絡欺凌檢測模型的可解釋性方法有特征重要性分析[13] 、局部解釋方法[14] 、梯度類激活圖[15] 和因果解釋[16] 等。其中, ①特征重要性分析方法通過計算或獲取每個特征的重要性分數(分數代表特征對于模型決策的影響程度), 了解數據特征與網絡欺凌的關聯程度, 來識別可能的欺凌特征; ②局部解釋方法用于解釋網絡欺凌檢測模型在特定樣本或數據點上的決策, 以幫助理解模型是如何判斷某個輸入是否屬于網絡欺凌的; ③梯度類激活圖等可視化方法利用梯度信息表示欺凌類別與神經元的關聯程度, 并以熱力圖形式顯示對于預測結果有重要影響的關鍵特征; ④因果解釋方法使用因果圖、潛在因果模型或其他因果推斷技術, 幫助人們理解輸入特征與欺凌行為之間的因果關系。研究發(fā)現, 單一的可解釋性方法并不能滿足網絡欺凌檢測模型的解釋需求, 往往需要多種技術結合起來。例如, 在一項仇恨言論檢測研究中, Ansari G 等[14] 提出, 通過文本的數據增強來提高深度學習模型的性能和可解釋性, 并采用LIME(Local Interpretable Model-Ag?nostic Explanations)和積分梯度方法識別與預測類(是否仇恨)相關的重要關鍵字, 生成深度學習模型的局部解釋。
機器學習模型與可解釋性方法相結合,可以為網絡欺凌檢測提供有效的解決方案?;跈C器學習方法(如隨機森林、深度神經網絡模型)檢測網絡欺凌行為, 面臨可解釋性差、缺乏合乎道德和無偏見工具的支持等難題。為解決上述困難, GoldfederB 等[17] 提出, 基于面向服務的架構(Service-Orien?ted Architecture,SOA)的網絡欺凌檢測新方法, 允許基于類的Softmax 輸出進行更好的人工解釋。通過提供一組透明且可解釋的圖表, 使用戶能夠獲得制定決策所需的關鍵信息, 以提高非專業(yè)人士對模型輸出結果的可理解性、信任和接受度。提供決策解釋的網絡欺凌檢測模型在醫(yī)療健康、政府政策以及軍事情報等領域均能發(fā)揮重要作用, 如情報機構可以使用網絡欺凌檢測技術收集和分析網絡威脅情報, 包括識別潛在的網絡攻擊、漏洞、惡意軟件與黑客活動, 便于情報機構實時跟蹤事件、話題和情報來源, 從而幫助情報機構快速響應潛在威脅和網絡攻擊, 并采取及時的防御措施。
1.3數據故事化呈現方式
數據故事化是一種將數據及數據洞見以故事形式進行敘述的過程[18] , 該過程可使用可視化圖表、故事板或儀表盤、基于增強現實的數據動畫、故事流程圖等方式進行呈現。呈現方式的差異展示了不同的故事化解釋效果。
1) 可視化圖表是數據故事的一種呈現形式, 旨在向非專業(yè)人士解釋數據規(guī)律并使其信任分析結果。作為一種呈現數據洞見的媒介, Lee B 等[19] 介紹了一種支持數據的敘事可視化工具——SketchStory,可以借鑒現有的敘事手段, 如漫畫、海報等, 并通過擴展白板動畫的敘事功能以發(fā)展出一種更具吸引力的故事化形式?;诳梢暬瘓D表促進交互式探索,有助于快速輕松地創(chuàng)建個性化和富有表現力的數據圖表。
2) 故事板或儀表盤是一種結合文本、圖片、音頻或視頻來講述數據故事的多媒體顯示方式, 可以幫助將數據可視化與數據洞見組織成有連貫性的故事。例如, Tableau Public[20] 支持在Web 上發(fā)布交互式可視化, 從而借助帶有圖表注釋的故事面板實現故事講述。從社會數據中提取知識和獲得見解,對于改善政府服務和預測情報活動具有重要價值,而數據故事化有助于理解和呈現嵌入在數據中的見解。為實現“理解社會數據” 這一目標, BeheshtiA 等[21] 實施了一個交互式講故事儀表板, 即iSto?ry,實現基于重要特征的智能敘事構建, 并使用摘要技術從多個級別和不同視圖講述故事。
3) 數據動畫通過時間軸的動態(tài)變化展示數據的變化和趨勢。增強現實(Augmented Reality, AR)技術能在現有呈現設備的基礎上添加數據和增強功能, 通過使用AR 顯示器的多模態(tài)輸入和輸出, 設計師可以制作數據驅動的故事, 讓受眾沉浸在故事中。已有研究提出了一種新穎的HydrogenAR 演示工具, 利用數據驅動的故事敘述和沉浸式AR 的優(yōu)勢來解釋氫氣分配器的可靠性問題[22] , 從而為用戶帶來更具吸引力的體驗和數據理解。
4) 故事流程圖通過引入數據背后的人物與模型, 將數據處理過程及分析結果作為事件點, 并按照一定邏輯進行情景化呈現。故事流程圖需依托特定的數據故事模型與結構, 如五元素模型[23] 、SPSN模型[24] 、金字塔結構[25] 和向下鉆取模型[26] 等, 并按照收集理解數據、明確故事目的、確定關鍵要素(人物、事件和情節(jié))、選擇故事模型、敘述故事等步驟進行故事呈現, 從而幫助目標受眾理解和記憶數據故事。
綜上, 數據故事化呈現方式具有多種類型, 已在市場營銷、數據新聞和社交娛樂等領域開展實踐研究, 并且數據故事形式可輔助網絡安全監(jiān)管部門更好地理解、分析和應對欺凌事件。通過數據故事化呈現, 網絡言論治理團隊可以更容易地分析欺凌數據, 理解欺凌事件的發(fā)展和影響, 從而采取適當的措施來管理網絡言論。
2 網絡欺凌檢測模型的解釋與應用
LIME 算法可應用于網絡欺凌檢測模型, 以解釋模型對于特定實例的決策, 從而增強模型行為的可解釋性和透明度。此外, LIME 算法具有模型無關與局部解釋特性, 因此該算法適用于解釋各種網絡欺凌檢測模型的特定實例。
2.1 LIME 解釋算法的選擇依據
現有研究的網絡欺凌檢測模型種類繁多且可解釋性較差, 選擇何種解釋方法需要考慮兩個方面。一方面, 準確識別欺凌行為和增強模型可信度的關鍵是在檢測模型未知的情況下實現對輸出結果的合理解釋, 即“模型無關”; 另一方面, 網絡欺凌檢測模型的研究對象通常是某一具體的實例數據, 單個樣本點的局部關鍵特征有助于判斷是否屬于欺凌行為, 即“局部解釋”。同時, 考慮網絡欺凌數據類型的多樣性, 選擇的可解釋性算法應適用于多種數據類型。已知的模型無關局部解釋技術包括局部特征重要性分析、局部代理模型、敏感性分析、LIME、SHAP 和可視化技術等。相較于其他模型無關局部解釋技術, LIME 算法具有解釋模型簡單、采樣方法適用于高維復雜數據、模型適應性廣、支持分類和回歸任務的優(yōu)勢。LIME 是一種模型無關局部可解釋方法, 算法思想是基于訓練的局部代理模型實現對單個樣本點的預測[27] , 并且LIME 可用于表格數據、圖像和文本的解釋。因此, 本研究采用LIME 方法作為網絡欺凌檢測模型的解釋手段。
2.2 基于LIME 算法的文本解釋原理
基于現有文獻發(fā)現, 文本分析在網絡欺凌模型中應用廣泛。因此, 本研究將文本數據作為欺凌模型解釋的重點研究對象。通過LIME 算法, 用戶可以針對特定輸入文本解釋網絡欺凌檢測模型的決策, 了解模型是如何基于不同特征做出決策的。這有助于識別重要特征、證明模型可靠性以及輔助檢測模型治理不良文本。
LIME 算法在網絡欺凌檢測模型中的應用方式如下: ①選擇一個特定的待解釋輸入樣本, 并在特定樣本鄰域擾動生成新的樣本集; ②使用原始網絡欺凌檢測模型對生成的擾動樣本進行預測, 并基于擾動樣本與預測標簽訓練一個簡單的可解釋模型(線性模型或決策樹), 這個模型將用于近似原始網絡欺凌檢測模型在目標樣本附近的行為; ③通過局部模型的系數得知哪些特征對于模型的輸出具有積極或消極的影響, 以及它們的相對重要性; ④可視化局部可解釋模型的權重和特征重要性。以文本數據為例, LIME 算法的文本解釋原理示意如圖2所示。
面向文本內容的算法解釋原理可描述為: ①選定某一特定文本作為解釋對象, 將文本內容分割為一個個字符串并賦予索引值, 實現文本到字符串特征的可解釋性表示; ②通過隨機刪除特征的方式對特定文本進行擾動, 進而生成新的樣本集, 并利用余弦相似度計算待解釋樣本與擾動樣本間的距離作為權重; ③利用原始黑盒模型對新樣本數據進行預測得到其標簽信息, 基于擾動數據及標簽訓練簡單的可解釋性模型(結合擾動數據、標簽和距離權重,返回對特定文本的解釋)。
2.3LIME 算法在網絡欺凌檢測模型中的“ 鉆石結構式”應用流程
LIME 算法是針對網絡欺凌檢測模型預測結果進行解釋, 從而幫助用戶了解模型是如何基于不同特征做出決策的。LIME 算法在網絡欺凌檢測模型的“鉆石結構式” 應用流程如圖3 所示, 包括文本采集、模型訓練與預測、LIME 算法解釋以及故事化應用4 步。首先, 利用公開數據集、網絡爬蟲和API 接口等方式采集欺凌文本數據集, 經過數據清洗、數據預處理與加工、模型訓練與測試等步驟得到欺凌檢測模型。其次, 選擇特定文本作為網絡欺凌檢測模型的輸入樣本, 若模型預測結果判斷為欺凌行為, 則采用LIME 算法識別出欺凌特征并可視化, 理解哪些特征對于模型的輸出具有積極或消極的影響, 以及它們的相對重要性, 進而實現對文本預測結果的解釋; 若模型預測結果判斷為非欺凌行為, 則對非欺凌結果進行解釋性描述并可視化。最后, 對具有欺凌行為的文本及解釋結果進行故事化呈現, 通過明確故事目的、確定故事背景和故事人物、選擇數據故事模型、填充故事事件與情節(jié)等步驟實現模型解釋的故事化呈現。
2.4基于欺凌模型預測及解釋結果的故事化呈現框架
基于文本預測及解釋的故事化呈現框架旨在將模型解釋結果轉化為數據故事, 有利于進一步提高結果的可解釋、可理解。根據數據故事化基本流程與模型解釋任務特性, 本研究將故事化框架分為數據層、模型層、解釋層和敘事層4 部分, 如圖4 所示。①數據層: 對提取的欺凌文本數據進行加工處理, 并將其劃分為訓練集和測試集用于欺凌模型構建; ②模型層: 旨在開展多模型(邏輯回歸、樸素貝葉斯、支持向量機、神經網絡、隨機森林、梯度提升模型)性能與解釋效果對比研究; ③解釋層: 提供特定文本在各類欺凌模型中的預測結果解釋功能,利用LIME 算法輔助解釋, 選擇性能較好、解釋可靠的模型進行故事化框架搭建; ④敘事層: 在明確故事目標的前提下, 將解釋結果轉化為故事要素,并選擇適當故事結構進行數據呈現和故事敘述。
3實驗與分析
為驗證網絡欺凌檢測模型解釋和故事化呈現框架的有效性, 更好地呈現LIME算法在不同檢測模型中的解釋效果, 本研究將通過實驗對上述框架與方案進行實證研究, 隨機選擇數據集樣本進行結果解釋和故事化呈現。
3.1數據準備
考慮到通過網絡爬蟲手段獲取媒體平臺文本內容的方式牽涉?zhèn)€人隱私,并且自獲取數據缺乏判斷網絡欺凌的標簽信息, 因此本研究采用Kaggle 中網絡欺凌分類任務的公開數據集[28] 。該數據集包含47 692條帶有欺凌類別標記的推文, 欺凌類別包括年齡、種族、性別、宗教、其他類型網絡欺凌和非網絡欺凌6 種。通過去除停用詞、刪除標點符號、表情符號處理、刪除空值和去重等數據預處理操作,得到45143條數據, 如圖5 所示, 各欺凌類型分布相對均衡, 能夠用于訓練可識別模型。
3.2模型選擇
網絡欺凌類型檢測通過多分類模型實現, 為選擇性能與效果較好的網絡欺凌檢測模型, 實現準確性與可解釋性之間的權衡, 本研究采用了邏輯回歸(主要參數: 優(yōu)化算法選擇參數solver = “saga”)、支持向量機(采用默認參數)、隨機森林(主要參數: 決策樹個數n_estimators= 128, random_state =42)、梯度提升(弱學習器的最大迭代次數n_esti?mators= 200, random_state = 42)、樸素貝葉斯(采用默認參數)和神經網絡(主要參數: 激活函數ac?tivation= “logistic”, 最大迭代次數max_iter = 10,學習率learning_rate_int=0 002)等多種分類模型進行欺凌預測, 并通過半網格搜索原理(HalvingGrid?SearchCV)進行超參數調優(yōu), 實現不同模型的預測性能與解釋效果比較。
3.3模型性能與解釋效果度量指標
對網絡欺凌檢測模型的預測結果及解釋結果進行指標衡量, 對于評估模型準確性、可靠性和可解釋性具有關鍵作用。依據指標度量有助于發(fā)現模型弱點和選擇合適的模型類型, 并將其應用于數據故事中以實現更好地解釋。
使用機器學習模型進行網絡欺凌檢測, 常見的性能評估指標包括準確率(Accuracy)、F1 分數(F1score)、精度(Precision)、召回率(Recall) 和受試者工作特征—曲線下區(qū)域(ROC-AUC)分數等, 對于解釋效果的衡量指標有保真度、復雜度等, 各指標名稱及含義如表1 所示。
各指標可通過預測結果進行統(tǒng)計性計算, 其方法如式(1) ~ (4) 所示[29] 。其中, TP 表示真陽性, 即預測結果與真實結果均為欺凌; TN 表示真陰性, 即預測結果與真實結果均為非欺凌; FP 表示假陽性, 即預測結果為欺凌, 真實結果卻為非欺凌; FN 表示假陰性, 即預測結果為非欺凌, 真實結果卻為欺凌。
通過調研網絡欺凌檢測文獻發(fā)現, 衡量網絡欺凌檢測模型的預測效果并不僅僅采用單一指標, 而是計算多個指標值綜合檢驗模型性能。例如, RafiqR I 等[30] 提出了一種多階段網絡欺凌檢測模型, 實現了0.71 的精度和0.66 的召回率, 為解決網絡欺凌檢測系統(tǒng)的可擴展性和及時性提供方案。由式(4)可知, F1 分數具有衡量模型在精度和召回率之間平衡的能力, 并在數據集標簽存在高度不平衡現象時, 僅使用準確性指標并不可靠, 因此越來越多的網絡欺凌檢測文獻使用F1 分數作為評估網絡欺凌檢測模型性能的關鍵指標。例如, Dani H 等[31] 提出一種情緒知情網絡欺凌檢測框架, 使用數據中情緒分數的分布來區(qū)分網絡欺凌帖子和正常帖子的情緒, 實現AUC 得分為0.80,F1 得分為0.68。Agrawal S 等[32] 使用DNN 模型與遷移學習相結合的方法, 檢測3 個社交媒體平臺上的網絡欺凌數據集, 實現部分樣本集上最高的準確率為0.92,召回率為0.99, F1 得分為0.95。Zhao R 等[33] 使用語義增強邊緣化去噪自動編碼器進行網絡欺凌檢測,利用MySpace 數據集在分類上的平均結果準確度達到89.7%, F1 分數達到77.6%。
3.4模型性能及解釋效果評估
為全面客觀地評價模型性能, 本研究采用準確率(Acc)和F1 分數(F1)作為衡量指標。網絡欺凌數據集在不同模型下的預測性能如表2 所示。除樸素貝葉斯外, 各模型的準確率相對較高, 并且梯度提升具有最大的準確率; 而對于F1分數, 性能由高到低分別為梯度提升、隨機森林、支持向量機、邏輯回歸、神經網絡和樸素貝葉斯。
為更好地理解各個模型在網絡欺凌檢測任務上是如何進行預測的, 采用LIME 算法對單個實例結果進行解釋, 在欺凌樣本子集中隨機選擇部分樣本點, 輸出對結果影響較大的文本特征, 解釋結果如表3 所示。
從上述LIME 算法解釋結果看, 對文本Ⅰ的預測結果為“ethnicity”(種族欺凌), 而文本中的“nigger”是最能識別欺凌類型的關鍵特征, 其他諸如“fuck”“bitch” “ass”“shit”等詞匯則帶有濃烈的侮辱性含義, 對于判斷種族欺凌具有積極作用; 但“terrorist”“pedophile”“rapist” 對于判斷種族欺凌并沒有很大幫助, 因此通過考慮這些關鍵特征, 各模型的LIME 解釋效果由高到低排序為梯度提升>隨機森林>支持向量機>邏輯回歸>神經網絡>樸素貝葉斯。對文本Ⅱ的預測結果為“reli?gion”(宗教欺凌), 由語義分析可知,“idiot”和“muslims”是判斷宗教欺凌的核心詞匯, 基于LIME解釋結果發(fā)現, 神經網絡與隨機森林對于文本Ⅱ的預測具有合理的可解釋性證據, 而其他4 類模型僅識別出部分關鍵特征。文本Ⅲ是對一些事實的客觀闡述, 實際預測結果應為“not cyberbullying”, 但模型解釋結果出現了差異, 由LIME 解釋結果發(fā)現,僅隨機森林模型作出了正確預測。因此, 本研究采用隨機森林模型開展數據故事呈現研究。上述研究也回答了研究問題(1) 和(2), 即模型預測結果的高準確性不能代表更高的模型應用價值與可信度, 可解釋性技術輔助復雜模型預測有利于權衡模型準確性與可解釋性之間的關系。同時, 算法解釋結果可檢驗模型預測的可靠程度, 通過可視化關鍵特征來判斷模型做出預測的正確性, 實現算法的可理解、可解釋。
3.5基于網絡欺凌模型解釋結果的故事化呈現
為更好地展示LIME 算法對于網絡欺凌檢測模型的解釋結果, 本研究采用五元素模型(人物、場景、情節(jié)、沖突、解決方案)[34] 作為故事呈現方式,如表4 所示。本研究將基于五元素模型的網絡欺凌解釋故事生成分為4 個階段: ①對于網絡欺凌文本數據集, 通過訓練、測試、參數調優(yōu)等方式確立合適的網絡欺凌檢測模型和可解釋性技術(場景);②選擇單個實例作為待解釋文本(人物), 利用LIME等解釋技術可視化文本關鍵特征; ③通過刪除關鍵詞匯、變動詞匯排列等擾動方法促使預測結果發(fā)生由“欺凌” 到“非欺凌” 的轉變(沖突), 其中,單次特征改變發(fā)生的預測概率變化可看作一個事件點, 不同事件點的有序排列構成故事情節(jié)(情節(jié));④在先驗知識的驅動下, 突出識別真實預測結果的關鍵特征, 進而生成數據故事, 最后基于解釋結果給出預防欺凌行為的方法和建議(解決方案)。
對于網絡欺凌檢測, 數據故事的生成目的是幫助社交媒體平臺從源頭上剔除不良用戶, 有效避免網絡欺凌的發(fā)生。表4展示了某一欺凌文本數據通過特征改變成為非欺凌文本的故事化呈現過程。研究發(fā)現, LIME解釋算法對于識別文本欺凌特征起到關鍵作用, 而故事化呈現為非專業(yè)用戶解釋模型預測結果、增強數據理解提供了可行路徑。同時,2.2 與3.4分別從理論與實踐角度回答了研究問題(3), 即故事化方法從用戶層面增強了預測結果的可理解性和普適性, 模型預測及解釋結果可作為數據故事的生成要素, 輔助實現故事易于記憶、易于理解、易于表達的目的。
4結論
對網絡欺凌模型開展算法解釋及故事化呈現研究, 可輔助社交媒體平臺開發(fā)“在線反欺凌工具”,通過識別負面敏感信息來規(guī)范用戶發(fā)言和指導平臺文明建設。本研究從網絡欺凌檢測模型、模型結果解釋方法和故事化呈現方式3 個方面出發(fā), 明確了3 個研究問題, 并確定了研究對象(網絡欺凌文本)、研究方法(多個檢測模型、LIME解釋技術)、應用流程和呈現框架(故事化呈現), 最后實驗驗證故事化呈現框架的可行性。具體而言, 本研究提出了LIME 算法在欺凌檢測模型中的“鉆石結構式” 應用流程, 并構建了基于欺凌模型預測及解釋結果的故事化呈現框架。針對上述3個研究問題, 本研究的研究價值與創(chuàng)新體現在: ①基于LIME算法對網絡欺凌檢測模型的預測結果進行解釋, 并采用數據故事化方式呈現解釋結果; ②探索和提出一種新的面向網絡欺凌文本檢測的解釋方法, 為決策者提出關于網絡言論治理、用戶隱私保護和安全保障之間的平衡建議提供參考; ③提出了一個融合網絡欺凌文本特征、結果解釋和故事化呈現的理論框架, 其研究成果可為日后的網絡治理實踐提供指導。
本研究提供了面向網絡欺凌文本檢測模型的解釋新方案與新形式, 但也受限于單一語言文本數據集, 未囊括多語種、多地區(qū)的欺凌數據類型。已有研究發(fā)現, BERT作為基于自注意力機制的語言模型, 是一種先進的網絡欺凌檢測模型和深度學習模型[29] 。因此, 未來一方面可繼續(xù)對不同語種及數據類型進行研究; 另一方面可對BERT等檢測模型進行探索, 為網絡欺凌行為的快速識別與響應, 以及實時性、局部性和精準化的網絡言論管理做出貢獻。