陳宏揚
(廣東輕工職業(yè)技術(shù)學(xué)院,廣東 廣州 510300)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,視頻數(shù)據(jù)逐漸成為教育、娛樂、社交和商業(yè)領(lǐng)域的重要信息媒介。視頻數(shù)據(jù)不僅包含豐富的視覺信息,還包含大量語言信息,如對話、字幕和評論等。這些語言信息對視頻數(shù)據(jù)的理解和利用具有重要的作用,但同時也存在敏感、隱私和易變等問題。然而,視頻數(shù)據(jù)的傳輸、存儲、處理和使用過程中可能存在安全風(fēng)險,例如個人信息、商業(yè)機密和政治觀點等敏感內(nèi)容可能被泄露或篡改,導(dǎo)致經(jīng)濟損失、聲譽損害和法律風(fēng)險等后果。因此,對視頻類數(shù)據(jù)進行安全風(fēng)險評估是保障視頻數(shù)據(jù)安全和合規(guī)性的重要手段。
然而,目前對視頻類數(shù)據(jù)安全風(fēng)險評估的研究還比較缺乏,現(xiàn)有的方法主要集中在對視頻數(shù)據(jù)中的圖像信息進行分析和處理,往往忽視視頻數(shù)據(jù)中的語言信息。這些模型無法準(zhǔn)確地識別和評估視頻數(shù)據(jù)中存在的各種語言相關(guān)安全風(fēng)險,也無法有效地利用語言信息來提高視頻數(shù)據(jù)安全風(fēng)險評估的效率和效果。
為了解決這一問題,本文提出了一種基于自然語言處理技術(shù)的視頻類數(shù)據(jù)安全風(fēng)險評估模型,該模型用Transformer技術(shù)對視頻數(shù)據(jù)中的語音、文本等語言信息進行預(yù)處理、特征提取和融合,并進行安全風(fēng)險評估,實現(xiàn)視頻類數(shù)據(jù)資產(chǎn)的自動化、智能化和精準(zhǔn)化風(fēng)險評估。
本文提出的模型具有以下優(yōu)勢和創(chuàng)新點:(1)充分利用視頻數(shù)據(jù)中的語言信息,提高風(fēng)險評估的準(zhǔn)確性和有效性;(2)采用Transformer等先進的自然語言處理技術(shù),提高風(fēng)險評估的效率和性能;(3)適用于多種類型和場景的視頻類數(shù)據(jù),提高風(fēng)險評估的通用性和適應(yīng)性。
參照信息安全風(fēng)險評估方法,以視頻存儲設(shè)備、監(jiān)控攝像頭等視頻類數(shù)據(jù)資產(chǎn)為評估對象,視頻類數(shù)據(jù)處理活動中所面臨的風(fēng)險為評估內(nèi)容,視頻類數(shù)據(jù)安全風(fēng)險評估流程包括以下5個步驟。
從不同的來源和渠道收集視頻類資產(chǎn)的數(shù)據(jù),如視頻標(biāo)題、內(nèi)容、元數(shù)據(jù)、標(biāo)簽、用戶行為、情感、敏感度等,并構(gòu)建特征向量表示視頻類資產(chǎn)的屬性。
對視頻數(shù)據(jù)進行清洗、格式轉(zhuǎn)換、分割等操作,將視頻數(shù)據(jù)轉(zhuǎn)化為適合自然語言處理技術(shù)的形式,如文本、語音等,并根據(jù)創(chuàng)建的視頻類資產(chǎn)安全評估指標(biāo),對視頻類資產(chǎn)進行標(biāo)注,并添加安全等級的標(biāo)簽,例如G級(適合所有觀眾)、PG級(需要家長指導(dǎo))、R級(限制級)等,形成有監(jiān)督的訓(xùn)練數(shù)據(jù)集。
根據(jù)數(shù)據(jù)的特點和任務(wù)的需求,設(shè)計合適的自然語言處理模型,例如基于神經(jīng)網(wǎng)絡(luò)、注意力機制、Transformer等技術(shù)的模型。模型能夠從視頻類資產(chǎn)的元數(shù)據(jù)中提取有效的特征,并根據(jù)特征判斷視頻類資產(chǎn)的安全等級。
通過訓(xùn)練數(shù)據(jù)集對模型進行訓(xùn)練,以優(yōu)化模型的參數(shù),并評估模型的性能,例如準(zhǔn)確率、召回率、F1值等指標(biāo)。訓(xùn)練過程中可以使用一些技巧來提高模型的效果,例如預(yù)訓(xùn)練、微調(diào)、數(shù)據(jù)增強等。
將訓(xùn)練好的模型部署到實際應(yīng)用場景中,例如高校MOOC及SPOC平臺、短視頻平臺、長視頻平臺、內(nèi)容審核系統(tǒng)等。部署過程中需要考慮模型的可擴展性、可維護性、可解釋性等因素,并定期對模型進行更新和改進。
根據(jù)風(fēng)險評估的結(jié)果,生成視頻類資產(chǎn)安全風(fēng)險報告,包括風(fēng)險等級、風(fēng)險因素、風(fēng)險影響、風(fēng)險應(yīng)對措施等內(nèi)容,以便于相關(guān)人員及時了解和處理風(fēng)險。
視頻類資產(chǎn)的安全風(fēng)險評估模型指標(biāo)需要考慮以下幾個方面。
標(biāo)題長度應(yīng)該適中,一般在10~20個字。標(biāo)題內(nèi)容應(yīng)該與視頻內(nèi)容相符,沒有虛假或夸大的信息,也沒有侮辱、誹謗、歧視或煽動性的言論。標(biāo)題風(fēng)格應(yīng)該與視頻類型和目標(biāo)受眾相匹配,不用過于正式或過于隨意的語氣,也不用過于專業(yè)或過于俗氣的詞匯。
內(nèi)容主題應(yīng)該符合視頻的類型和目的,不要涉及違法、反動、暴力、色情、賭博等敏感或禁止的主題。內(nèi)容質(zhì)量應(yīng)該保證視頻的清晰度、流暢度、穩(wěn)定度等技術(shù)參數(shù),以及視頻的邏輯性、連貫性、完整性等結(jié)構(gòu)參數(shù)。內(nèi)容創(chuàng)意應(yīng)該體現(xiàn)視頻的獨特性、新穎性、趣味性等藝術(shù)參數(shù)以及視頻的互動性、參與性、引導(dǎo)性等社會參數(shù)。
元數(shù)據(jù)是指描述視頻屬性和特征的數(shù)據(jù),例如作者、日期、時長、格式、分辨率等。在元數(shù)據(jù)完整度上應(yīng)該保證元數(shù)據(jù)包含了所有必要和重要的信息,沒有缺失或錯誤的數(shù)據(jù)。在元數(shù)據(jù)準(zhǔn)確度上應(yīng)該保證元數(shù)據(jù)與視頻實際情況一致,沒有虛假或誤導(dǎo)的數(shù)據(jù)。在元數(shù)據(jù)規(guī)范度上應(yīng)該保證元數(shù)據(jù)遵循了統(tǒng)一和標(biāo)準(zhǔn)的格式和語言,沒有混亂或不一致的數(shù)據(jù)。
用于分類和標(biāo)記視頻主題和內(nèi)容的關(guān)鍵詞或短語,例如“喜劇”“動作”“教育”等。
標(biāo)簽數(shù)量應(yīng)該適當(dāng),不要過多或過少,一般在3~10個。標(biāo)簽內(nèi)容應(yīng)該與視頻主題和內(nèi)容相關(guān),沒有無關(guān)或不恰當(dāng)?shù)臉?biāo)簽。標(biāo)簽風(fēng)格應(yīng)該與視頻類型和目標(biāo)受眾相匹配,不使用過于專業(yè)或過于俗氣的詞匯,也不用過于敏感或過于激進的詞匯。
用戶在觀看視頻時的操作和反饋,例如點贊、評論、分享、收藏等。在用戶行為頻率上應(yīng)該反映視頻的受歡迎程度和影響力,沒有異?;虍惓8叩男袨閿?shù)據(jù)。在用戶行為內(nèi)容上應(yīng)該反映用戶對視頻的真實和合理的意見和建議,沒有惡意或無意義的行為數(shù)據(jù)。在用戶行為風(fēng)格上應(yīng)該反映用戶對視頻的禮貌和尊重,沒有侮辱、誹謗、歧視或煽動性的行為數(shù)據(jù)。
用戶情感是指用戶在觀看視頻時產(chǎn)生的情緒和態(tài)度,例如喜悅、悲傷、憤怒、恐懼等。在用戶情感強度上應(yīng)該反映視頻對用戶的情緒激發(fā)程度,沒有過于強烈或過于弱的情緒反應(yīng)。在用戶情感極性上應(yīng)該反映視頻對用戶的情緒傾向,沒有過于正面或過于負面的情緒評價。在用戶情感穩(wěn)定性上應(yīng)該反映視頻對用戶的情緒變化,沒有過于波動或過于單一的情緒狀態(tài)。
根據(jù)以上的安全風(fēng)險評估指標(biāo),設(shè)計了視頻類資產(chǎn)安全風(fēng)險等級分類表,如表1所示。
表1 視頻類資產(chǎn)安全風(fēng)險等級分類
根據(jù)視頻類資產(chǎn)的各項指標(biāo)計算其安全風(fēng)險等級,定義一個綜合評分函數(shù)來計算視頻類資產(chǎn)的安全風(fēng)險等級,如下所示:
其中,S為視頻類資產(chǎn)的綜合評分;wi為第i個指標(biāo)的權(quán)重系數(shù);wifi(xi)為第i個指標(biāo)對應(yīng)的評分函數(shù);xi為第i個指標(biāo)對應(yīng)的元數(shù)據(jù)或用戶行為或用戶情感。綜合評分S越高,則表示視頻類資產(chǎn)的安全風(fēng)險等級越低;反之,則表示視頻類資產(chǎn)的安全風(fēng)險等級越高。
選擇基于Transformer的模型架構(gòu),Transformer是一種強大且靈活的神經(jīng)網(wǎng)絡(luò)模型,可以有效地處理序列數(shù)據(jù),如文本和音頻。Transformer利用了注意力機制,可以捕捉序列中不同位置之間的相關(guān)性,并實現(xiàn)并行計算,提高效率和性能。
將視頻類資產(chǎn)的元數(shù)據(jù)作為模型的輸入,將其轉(zhuǎn)換為數(shù)值向量,作為Transformer編碼器部分的輸入。使用預(yù)訓(xùn)練的詞嵌入來表示文本類型的元數(shù)據(jù),如標(biāo)題、標(biāo)簽等,使用數(shù)值歸一化來表示數(shù)值類型的元數(shù)據(jù),如時長、分辨率等,使用獨熱編碼來表示類別類型的元數(shù)據(jù),如格式、作者等。
將視頻類資產(chǎn)的安全等級作為模型的輸出,將其轉(zhuǎn)換為數(shù)值標(biāo)簽,作為Transformer解碼器部分的輸出。使用交叉熵損失函數(shù)來衡量模型輸出和真實標(biāo)簽之間的差異,并使用梯度下降算法來優(yōu)化模型參數(shù)。
使用預(yù)處理后的數(shù)據(jù)集或已有的視頻類資產(chǎn)數(shù)據(jù)集來訓(xùn)練模型,例如Tencent Video Dataset,是一個由騰訊提供的大規(guī)模中文多類型的視頻數(shù)據(jù)集,包含了10萬個騰訊視頻及其元數(shù)據(jù)和標(biāo)簽,涵蓋了1 000多個類別,如“愛情”“懸疑”“歷史”等。這些數(shù)據(jù)集包含了大量的視頻類資產(chǎn)及其元數(shù)據(jù)和安全等級標(biāo)簽。使用隨機劃分或交叉驗證的方法來劃分訓(xùn)練集、驗證集和測試集,并使用批量梯度下降或隨機梯度下降的方法來更新模型參數(shù)。
使用準(zhǔn)確率或F1得分等指標(biāo)來評估模型在測試集上的表現(xiàn),并與其他基準(zhǔn)模型進行比較。并使用混淆矩陣或ROC曲線等可視化工具來分析模型在不同安全等級上的分類效果,并找出模型的優(yōu)勢和不足。
視頻類數(shù)據(jù)安全風(fēng)險評估模型的輸入、輸出和中間過程如圖1所示。
圖1 視頻類數(shù)據(jù)安全風(fēng)險評估模型的結(jié)構(gòu)
為了驗證本文提出的模型的有效性,使用Python語言和PyTorch框架實現(xiàn)了模型,并在Tencent Video Dataset上進行實驗。使用BERT作為預(yù)訓(xùn)練的詞嵌入,使用Transformer作為模型的主體結(jié)構(gòu),使用Softmax作為模型的輸出層。使用Adam作為優(yōu)化器,使用交叉熵作為損失函數(shù),使用準(zhǔn)確率和F1值作為評估指標(biāo)。將數(shù)據(jù)集劃分為80%的訓(xùn)練集,10%的驗證集和10%的測試集,并使用10個批次和20個迭代進行訓(xùn)練。將本文提出的模型與以下3種基準(zhǔn)模型進行了比較:(1)基于CNN的模型,使用卷積神經(jīng)網(wǎng)絡(luò)對視頻類資產(chǎn)的元數(shù)據(jù)進行特征提取和分類;(2)基于RNN的模型,使用循環(huán)神經(jīng)網(wǎng)絡(luò)對視頻類資產(chǎn)的元數(shù)據(jù)進行特征提取和分類;(3)基于SVM的模型,使用支持向量機對視頻類資產(chǎn)的元數(shù)據(jù)進行特征提取和分類。實驗結(jié)果如表2所示。
表2 實驗結(jié)果
可以看出,本文提出的模型在準(zhǔn)確率和F1值上均優(yōu)于基準(zhǔn)模型,說明本文提出的模型可以有效地利用視頻類資產(chǎn)的元數(shù)據(jù)進行安全風(fēng)險評估,并具有較高的性能和效果。
本文構(gòu)建了一種基于Transformer的視頻類數(shù)據(jù)安全風(fēng)險評估模型,利用自然語言處理技術(shù)對視頻類數(shù)據(jù)中的語言信息進行分析和處理,實現(xiàn)了視頻類數(shù)據(jù)資產(chǎn)的自動化、智能化和精準(zhǔn)化風(fēng)險評估。本文也存在一些不足,例如數(shù)據(jù)集來源較為單一,只使用了騰訊視頻數(shù)據(jù)集,可能存在一定的偏差和局限性。未來可以考慮使用更多來源和類型的視頻數(shù)據(jù)集,以提高模型的泛化能力和適應(yīng)性。