饒安琪,宋 斌、2,*,張晨光,趙展鵬,王楷文
(1.河南科技大學(xué) 信息工程學(xué)院,河南 洛陽 471023;2.河南科技大學(xué) 河南省網(wǎng)絡(luò)空間安全應(yīng)用國際聯(lián)合實驗室,河南 洛陽 471023)
根據(jù)調(diào)研國內(nèi)外對社交網(wǎng)絡(luò)安全問題的研究,目前基于社交網(wǎng)絡(luò)平臺獨特應(yīng)用特質(zhì),人們面臨的網(wǎng)絡(luò)風險隱患除傳統(tǒng)安全威脅外主要包括四類:敏感信息檢測、虛假信息傳播、惡意用戶識別以及云存儲的數(shù)據(jù)安全性。本文創(chuàng)新性地提出基于細粒度情感的文本敏感分類檢測方法、多模態(tài)融合敏感分類檢測方法、動態(tài)數(shù)組多分支樹的云數(shù)據(jù)完整性驗證方案、多用戶下的云數(shù)據(jù)完整性驗證方案,構(gòu)建云數(shù)據(jù)護盾下的社交網(wǎng)絡(luò)安全衛(wèi)士平臺。
該平臺可適用于政府互聯(lián)網(wǎng)安全監(jiān)管機構(gòu)和網(wǎng)絡(luò)信息安全行業(yè)企業(yè),政府機構(gòu)和企業(yè)與本團隊達成合作后,需提供社交平臺的數(shù)據(jù)接口,通過調(diào)用接口實現(xiàn)其平臺的安全檢測及控制功能,為社交平臺安全以及用戶使用體驗提供更優(yōu)質(zhì)的服務(wù)以及更舒適的用戶體驗。云數(shù)據(jù)護盾下的社交網(wǎng)絡(luò)安全衛(wèi)士平臺功能流程圖如圖1 所示。
圖1 社交網(wǎng)絡(luò)安全衛(wèi)士平臺功能流程圖
隨著社交網(wǎng)絡(luò)的極速發(fā)展和網(wǎng)絡(luò)用戶的增長,信息呈指數(shù)級增長,并呈現(xiàn)方式多樣化、內(nèi)容海量化等特點,大量含有涉黃、涉政、涉恐、辱罵言論、賭博等類型的敏感信息充斥在互聯(lián)網(wǎng)環(huán)境中,對社會和諧安定造成了極大危害。因此,及時檢測互聯(lián)網(wǎng)中的敏感信息是保障互聯(lián)網(wǎng)健康發(fā)展的迫切需要。
社交網(wǎng)絡(luò)中的信息以多種形態(tài)呈現(xiàn),其中敏感信息主要存在于文本和圖片中,所以對敏感類文本和圖片的檢測是網(wǎng)絡(luò)不良信息檢測的重要組成部分?,F(xiàn)有對敏感信息檢測的研究大都是采用單模態(tài)特征進行敏感識別,即所謂的單模態(tài)數(shù)據(jù)分析,很少考慮多模態(tài)在敏感信息檢測中的應(yīng)用,如文本、圖片、表情、音視頻等多模態(tài)敏感信息的融合判斷,不能從整體上判斷推文的全局敏感性,識別效果和準確率還有待提高,所以加強社交網(wǎng)絡(luò)敏感信息檢測對凈化網(wǎng)絡(luò)、防止惡意傳播極其重要。
針對現(xiàn)有的基于圖片或文本的單模態(tài)敏感信息檢測方法存在檢測結(jié)果無法充分反映推文整體敏感性的問題,本技術(shù)提出基于深度學(xué)習(xí)的多模態(tài)融合敏感信息分類檢測方法[1]。
該方法首先使用FastText作為文本敏感分類模型,通過引入文本情感極性,提高文本敏感信息分類檢測準確率。然后將在大規(guī)模圖片數(shù)據(jù)集上進行預(yù)訓(xùn)練好的InceptionV3模型參數(shù)進行遷移,然后對其進行參數(shù)微調(diào),使用敏感圖像數(shù)據(jù)集訓(xùn)練敏感圖片分類模型,本技術(shù)主要將圖片檢測結(jié)果分為四類:涉黃類、涉政類、涉恐(暴)類和其他類。最后在決策層進行數(shù)據(jù)融合,設(shè)計了模型融合公式,將文本敏感分類模型的結(jié)果和圖片敏感分類模型的結(jié)果根據(jù)融合公式進行計算。本技術(shù)提出的多模態(tài)敏感信息分類檢測方法大致可分為三個階段:圖文敏感特征提取階段、圖文特征融合階段和敏感檢測分類階段。完整架構(gòu)如圖2 所示。
圖2 多模態(tài)融合的敏感信息分類檢測框架
針對在線社交網(wǎng)絡(luò)用戶發(fā)布的信息呈現(xiàn)內(nèi)容多樣化、多模態(tài)等特點,擬研究提出基于深度學(xué)習(xí)的多模態(tài)融合敏感信息檢測方法,從而有效控制社交網(wǎng)絡(luò)敏感信息的發(fā)布和傳播,以實現(xiàn)社交平臺敏感信息監(jiān)督和治理。
1) 基于細粒度情感的文本敏感分類檢測方法
我們針對傳統(tǒng)的關(guān)鍵字匹配方法準確率低、檢測速度慢等問題,設(shè)計了結(jié)合語義分析的快速敏感信息識別方法。該方法中敏感詞庫包含大量敏感詞,在使用過程中,用戶也可根據(jù)需要進行敏感詞的增刪改查等操作[2]。利用FastText快速文本處理方法,結(jié)合敏感詞庫和語義分析對文本進行敏感性檢測,在進行文本敏感性判定的同時,引入情感極性因子,提出一種基于情感詞和敏感詞共現(xiàn)分析的敏感信息識別方法。
2) 多模態(tài)融合敏感分類檢測方法
針對傳統(tǒng)敏感圖像檢測的二分類問題,設(shè)計敏感圖像分類檢測模型,將圖像分為四類:涉黃、涉政、涉恐和其他類圖像。為解決單模態(tài)文本或圖片的敏感信息檢測方法不能充分挖掘社交網(wǎng)絡(luò)敏感信息內(nèi)容的問題,擬提出一種圖文融合多模態(tài)敏感信息檢測方法,采用決策層融合策略,根據(jù)概率分配和相關(guān)閾值的設(shè)定,進行圖片和文本的融合分類[3]。
近年來,在線社交網(wǎng)絡(luò)中的虛假信息傳播給政治、經(jīng)濟和生活等多個領(lǐng)域帶來嚴重的負面影響,引發(fā)了學(xué)術(shù)界與產(chǎn)業(yè)界對這一科學(xué)問題的持續(xù)關(guān)注。通過對國內(nèi)外虛假信息傳播研究成果調(diào)研發(fā)現(xiàn),虛假信息傳播研究可以追溯到早期復(fù)雜網(wǎng)絡(luò)和小世界網(wǎng)絡(luò)中的謠言傳播動力學(xué)模型研究[4],且持續(xù)到近幾年來關(guān)于社交自然人和社交機器人的混合型、交互式傳播模式研究。虛假信息傳播模型的研究主要針對傳播動力學(xué)模型、獨立級聯(lián)模型和線性閾值模型等。虛假信息傳播行為模式的研究主要是通過發(fā)布、轉(zhuǎn)發(fā)、提及、評論等多種混合式行為方式進行虛假信息傳播。如何綜合應(yīng)用社交情境安全分析和新一代人工智能技術(shù),挖掘社交用戶群體在傳播過程中的內(nèi)在特征、產(chǎn)生機理與傳播規(guī)律成為目前亟需解決的重要問題。
面向社會化媒體平臺虛假信息傳播控制,重點圍繞社交用戶虛假信息傳播意圖檢測與傳播趨勢識別,通過利用社會情境分析和人工智能技術(shù),擬提出傳播行為和潛在意圖的計算分析方法,實現(xiàn)社交用戶傳播前和傳播中及時有效的控制。虛假信息傳播控制主要用于定時預(yù)測社交平臺中用戶傳播虛假信息的潛在風險等級,根據(jù)社交平臺中用戶發(fā)布動態(tài)、發(fā)起話題的數(shù)量,預(yù)測用戶傳播虛假信息的潛在風險等級(用戶傳播虛假信息的意愿強度等級分為強、中、弱三類),以實現(xiàn)社交平臺對虛假信息傳播的事前和事中控制。
虛假信息檢測分為特征提取和模型構(gòu)建兩個階段。特征提取階段是以形式化的數(shù)學(xué)結(jié)構(gòu)來表示信息內(nèi)容和社交上下文相關(guān)輔助信息。模型構(gòu)建階段是進一步構(gòu)建基于特征表示的信息內(nèi)容模型、社交上下文模型和混合模型,來更好地檢測虛假信息和真實信息。虛假信息傳播訪問控制體系結(jié)構(gòu)如圖3 所示。
圖3 虛假信息傳播訪問控制體系結(jié)構(gòu)
訪問控制模型主要分為基于角色的訪問控制模型、基于屬性的訪問控制模型和基于關(guān)系的訪問控制模型[5]。這些模型分別將角色、屬性和關(guān)系作為主要元素來控制對信息的訪問。在 OSNs 信息分享過程中,基于角色的訪問控制通常利用多重關(guān)系、關(guān)系強度、方向關(guān)系、用戶到用戶的關(guān)系和用戶到資源的關(guān)系等來控制信息的傳播[5]?;陉P(guān)系的訪問控制根據(jù)社交用戶之間的各種關(guān)系進行授權(quán)訪問,來實現(xiàn)社交用戶對資源的傳播控制,提高了信息共享的安全性。虛假信息傳播使用控制模型如圖4 所示。
圖4 虛假信息傳播使用控制模型
傳統(tǒng)惡意用戶檢測算法的成功應(yīng)用都是建立在社交大數(shù)據(jù)基礎(chǔ)上的,而在實際應(yīng)用場景中,惡意用戶呈現(xiàn)分散性、潛伏性、復(fù)雜性等特征,單方的社交用戶數(shù)據(jù)無法滿足檢測要求,需要雙方乃至多方的用戶數(shù)據(jù)。因此,怎樣在保護普通用戶信息安全的情況下結(jié)合多方信息進行建模計算、進行惡意流量的精準監(jiān)測,是在線社交互聯(lián)網(wǎng)技術(shù)中亟待解決的難題。
針對在線社交網(wǎng)絡(luò)中惡意用戶檢測,擬提出一種基于縱向聯(lián)邦學(xué)習(xí)的社交網(wǎng)絡(luò)跨平臺惡意用戶檢測方案和面向多方隱私保護的惡意用戶檢測算法,該方案對多源異構(gòu)數(shù)據(jù)進行預(yù)處理,采用加密樣本對齊和加密模型訓(xùn)練方法[6],構(gòu)建如圖5 所示的數(shù)據(jù)預(yù)處理層、樣本對齊層、聯(lián)邦學(xué)習(xí)層、數(shù)據(jù)應(yīng)用層等層次化社交網(wǎng)絡(luò)跨平臺惡意用戶檢測架構(gòu),可在保障用戶隱私的前提下,實現(xiàn)對惡意用戶的精確檢測。
圖5 社交網(wǎng)絡(luò)跨平臺惡意用戶檢測架構(gòu)
云存儲是通過虛擬化的技術(shù)以較低的成本擴充用戶的存儲空間,以此來減輕用戶管理和存儲數(shù)據(jù)的成本,并且可使用戶隨時隨地訪問云端的數(shù)據(jù)。但是,當用戶把數(shù)據(jù)存儲到云端的同時也失去了對云數(shù)據(jù)的物理控制能力[7],云端數(shù)據(jù)可能會因為受到硬件或者人為等不確定因素的影響而有所缺失,云服務(wù)提供商也可能會為了利益而丟棄一些用戶不常訪問的數(shù)據(jù)以節(jié)約存儲成本[7]。然而,出于維護自己聲譽或者避免賠償?shù)膯栴},云服務(wù)提供商可能會隱瞞這些事故。這些數(shù)據(jù)安全問題極大地降低了人們對云存儲服務(wù)的信任度,嚴重地影響了云存儲服務(wù)的推廣和應(yīng)用。所以,云端數(shù)據(jù)完整性驗證成為了亟待研究的問題。
擬將葉子節(jié)點設(shè)置為數(shù)組結(jié)構(gòu),降低樹的高度,提高節(jié)點的利用率,簡化動態(tài)更新的過程,縮短數(shù)據(jù)塊的查詢時間,從而有效減少驗證過程中的通信開銷和計算開銷,提高驗證效率。
擬將多個用戶考慮進來,設(shè)計一種多用戶下的數(shù)據(jù)完整性驗證算法,方案利用聚合簽名的性質(zhì),將多個用戶的多個標簽聚合成一個短標簽來進行完整性驗證,從而提高驗證效率。
為驗證和保持云計算環(huán)境數(shù)據(jù)完整性,如圖6所示,擬提出一種動態(tài)數(shù)組多分支樹的云數(shù)據(jù)完整性驗證方案和多用戶下的云數(shù)據(jù)完整性驗證方案,以提高人們對云存儲服務(wù)的信任度。
圖6 數(shù)據(jù)完整性驗證系統(tǒng)模型圖
現(xiàn)如今社交網(wǎng)絡(luò)在人們的生活中扮演著重要的角色,它已成為網(wǎng)絡(luò)時代人們生活的重要部分,在為人們提供便利和歡樂的同時,其安全和隱私等問題日益凸顯。侵犯個人隱私、竊取個人信息等違法犯罪行為時有發(fā)生,網(wǎng)上黃賭毒、網(wǎng)絡(luò)謠言等屢見不鮮,已經(jīng)成為影響國家公共安全的突出問題。檢測敏感信息、控制虛假信息、分析惡意行為、云數(shù)據(jù)安全技術(shù)已經(jīng)是當前研究亟需解決的重要問題,關(guān)于社交網(wǎng)絡(luò)安全的研究具有非常廣闊的前景,也需要更多的技術(shù)迭代達到最佳的效果。因此,構(gòu)建云數(shù)據(jù)護盾下的社交網(wǎng)絡(luò)安全衛(wèi)士平臺既是時代的選擇,也是人們的需求。