亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SSI-GuidedLDA模型的引導(dǎo)式網(wǎng)絡(luò)敏感信息識別研究*

        2023-11-23 13:11:14吳樹芳侯曉舟
        情報(bào)雜志 2023年11期
        關(guān)鍵詞:博文語義聚類

        吳樹芳 楊 強(qiáng) 侯曉舟 尹 萌

        (1.河北大學(xué)管理學(xué)院 保定 071000;2.河北大學(xué)外國語學(xué)院 保定 071000)

        0 引 言

        網(wǎng)絡(luò)敏感信息的泛濫會導(dǎo)致輿情失控、引起公眾恐慌、加劇社會矛盾,從而嚴(yán)重威脅到國家安全和社會穩(wěn)定[1-2]。因此,有效識別出網(wǎng)絡(luò)敏感信息具有極大的價值,已經(jīng)引起國內(nèi)外學(xué)者的廣泛關(guān)注。

        為了更加準(zhǔn)確、高效地識別網(wǎng)絡(luò)敏感信息,研究者們進(jìn)行了大量研究,提出了多種識別方法,包括基于敏感詞匹配的網(wǎng)絡(luò)敏感信息識別、基于傳統(tǒng)機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)敏感信息識別和基于深度學(xué)習(xí)的網(wǎng)絡(luò)敏感信息識別,這些研究為網(wǎng)絡(luò)輿情監(jiān)測、社交媒體管理和網(wǎng)絡(luò)信息安全等領(lǐng)域提供了有力的技術(shù)支持。

        1 相關(guān)研究

        目前已有網(wǎng)絡(luò)敏感信息識別研究主要從以下三方面展開:

        一是基于敏感詞匹配的網(wǎng)絡(luò)敏感信息識別,該類方法通過構(gòu)建敏感詞庫并與待檢測文本進(jìn)行匹配來識別網(wǎng)絡(luò)敏感信息,如楊忠[3]提出在網(wǎng)絡(luò)直播活動中審核禁忌性詞語,通過敏感詞匹配的審核方式對網(wǎng)絡(luò)敏感信息進(jìn)行把關(guān);付聰?shù)萚4]利用敏感詞的拼音、簡稱和拆分三種變形體優(yōu)化擴(kuò)充敏感詞庫,有效提高了敏感詞匹配的全面性;Fu等[5]通過對敏感詞進(jìn)行語義擴(kuò)展來解決敏感詞數(shù)量不足的問題,并利用拼音匹配方法識別縮寫、字符分割以及字符替換等形式的敏感詞變形體;劉聰?shù)萚6]構(gòu)建了暴恐敏感詞典,在此基礎(chǔ)上將敏感觸發(fā)事件與敏感詞之間的文本相似度進(jìn)行匹配實(shí)現(xiàn)了網(wǎng)絡(luò)敏感信息識別;李瀛等[7]通過人工篩選詞向量模型輸出的敏感詞及其相關(guān)詞構(gòu)建新聞敏感詞庫,利用敏感詞匹配識別新聞中的敏感信息;吳樹芳等[8]通過融合敏感先驗(yàn)概率、敏感語義相關(guān)性和復(fù)合共現(xiàn)優(yōu)化擴(kuò)展敏感詞典,提高了敏感詞匹配的全面性和準(zhǔn)確性?;诿舾性~匹配的研究方法實(shí)現(xiàn)簡單,但是過度依賴于敏感詞典的構(gòu)建,而敏感詞典的更新需要耗費(fèi)大量人力物力。

        二是基于傳統(tǒng)機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)敏感信息識別,該類研究突破了對敏感詞典的依賴,如Li等[9]根據(jù)敏感信息特征獲取有效的支持向量來訓(xùn)練支持向量機(jī),提高了網(wǎng)絡(luò)敏感信息識別的速度和準(zhǔn)確率;Xu等[10]依據(jù)各類網(wǎng)絡(luò)敏感信息的特征,對比得出SVM比樸素貝葉斯和決策樹擁有更好的網(wǎng)絡(luò)敏感信息識別能力;余敦輝等[11]通過分析敏感詞的結(jié)構(gòu)和讀音等特征,構(gòu)建敏感詞決策樹識別拼音、簡稱和拆分三種敏感詞變形體;王藝皓等[12]等結(jié)合敏感詞的文字特征和決策樹的特點(diǎn)構(gòu)建敏感信息決策樹,實(shí)現(xiàn)了對網(wǎng)絡(luò)敏感信息的檢測和過濾;陳祖琴等[13]通過提取網(wǎng)絡(luò)敏感信息中的實(shí)體特征、信息詞特征和情景特征,使用樸素貝葉斯分類器生成網(wǎng)絡(luò)敏感信息與情景間的映射關(guān)系,分析了網(wǎng)絡(luò)敏感信息的情景畫像,以期提高網(wǎng)絡(luò)敏感信息的識別效果;Xu等[14]在LDA模型基礎(chǔ)上,通過加權(quán)提高敏感詞的分布權(quán)重,在特定類型的新聞數(shù)據(jù)集上提取出了敏感主題特征,實(shí)現(xiàn)了網(wǎng)絡(luò)敏感信息主題識別。然而,基于傳統(tǒng)機(jī)器學(xué)習(xí)的研究方法在進(jìn)行語義挖掘時十分困難,尤其是在多特征學(xué)習(xí)中。

        三是基于深度學(xué)習(xí)的網(wǎng)絡(luò)敏感信息識別,深度學(xué)習(xí)的多特征學(xué)習(xí)能力為解決基于傳統(tǒng)機(jī)器學(xué)習(xí)進(jìn)行網(wǎng)絡(luò)敏感信息識別的不足提供了堅(jiān)實(shí)的基礎(chǔ),如Xu等[15]利用Text-CNN文本分類模型的上下文語義特征學(xué)習(xí)能力,提高了網(wǎng)絡(luò)敏感信息的識別效率;Li等[16]通過引入局部卷積特征和全局語義特征,提出了一種多級卷積神經(jīng)網(wǎng)絡(luò)和計(jì)算敏感詞權(quán)重相結(jié)合的方法,利用局部及全局語義信息與相應(yīng)敏感詞權(quán)重之間的關(guān)系構(gòu)建敏感信息的特征,在此基礎(chǔ)上實(shí)現(xiàn)了網(wǎng)絡(luò)敏感信息的識別。Liu等[17]利用圖卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制提取敏感詞的特征并用于檢測文本中的敏感詞,從而實(shí)現(xiàn)網(wǎng)絡(luò)敏感信息識別;Ding等[18]將BERT模型應(yīng)用于網(wǎng)絡(luò)敏感信息識別,通過對模型參數(shù)進(jìn)行微調(diào),取得了較好的識別效果;Cong等[19]通過結(jié)合預(yù)訓(xùn)練的知識圖譜中文實(shí)體嵌入模型和CNN分類模型,對中文文本輸入中的實(shí)體進(jìn)行特征提取,有效地實(shí)現(xiàn)了網(wǎng)絡(luò)敏感信息識別;高浩鑫等[20]通過將BERT模型學(xué)習(xí)到的敏感文本語義特征與圖卷積網(wǎng)絡(luò)學(xué)習(xí)到的敏感文本全局共現(xiàn)特征相結(jié)合,以提高網(wǎng)絡(luò)敏感信息識別效果。

        上述研究中,基于敏感詞匹配和基于傳統(tǒng)機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)敏感信息識別方法在構(gòu)建敏感信息特征時依賴于人的經(jīng)驗(yàn)和判斷,導(dǎo)致敏感信息特征構(gòu)建不全面。基于深度學(xué)習(xí)的網(wǎng)絡(luò)敏感信息識別方法雖然可以自動構(gòu)建一組特征來反映敏感信息,但由于深度學(xué)習(xí)屬于無監(jiān)督學(xué)習(xí),故學(xué)習(xí)到的特征的準(zhǔn)確性有待提升。GuidedLDA主題模型可以通過種子詞自動引導(dǎo)生成有傾向性的敏感主題特征,有效解決上述研究存在的不足。如果直接將GuidedLDA主題模型用于網(wǎng)絡(luò)敏感信息識別存在如下問題:由于敏感種子詞數(shù)量有限,可能導(dǎo)致引導(dǎo)式生成的敏感主題不夠全面和準(zhǔn)確,為解決該問題,本文在已有研究的基礎(chǔ)上,提出了一種融合敏感語義信息的引導(dǎo)式LDA模型SSI-GuidedLDA(Guided LDA with Sensitive Semantic Information),以實(shí)現(xiàn)對網(wǎng)絡(luò)敏感信息的有效識別,并實(shí)驗(yàn)驗(yàn)證了研究內(nèi)容的有效性。

        2 引導(dǎo)式網(wǎng)絡(luò)敏感信息識別

        2.1 研究設(shè)計(jì)

        本文的研究框架主要包括三部分:敏感種子詞及敏感語義相關(guān)詞獲取、構(gòu)建引導(dǎo)式主題模型SSI-GuidedLDA和基于SSI-GuidedLDA模型的網(wǎng)絡(luò)敏感信息識別,如圖1所示。

        圖1 網(wǎng)絡(luò)敏感信息識別研究框架

        基于SSI-GuidedLDA模型的引導(dǎo)式網(wǎng)絡(luò)敏感信息識別方法首先需要獲取敏感種子詞及敏感語義相關(guān)詞,以此構(gòu)建敏感特征;然后將構(gòu)建的敏感特征融入GuidedLDA主題模型,實(shí)現(xiàn)SSI-GuidedLDA模型的構(gòu)建;最后基于該模型實(shí)現(xiàn)網(wǎng)絡(luò)敏感信息識別,具體步驟如下:

        第1步,敏感種子詞及敏感語義相關(guān)詞獲取:從各種網(wǎng)絡(luò)資源中篩選出敏感種子詞,并采用K-means方法對敏感種子詞進(jìn)行聚類得到C類敏感種子詞集。利用詞向量模型計(jì)算敏感種子詞和爬取的網(wǎng)絡(luò)資源中其它詞的相似度,得到種子詞的敏感語義相關(guān)詞。

        第2步,構(gòu)建引導(dǎo)式主題模型SSI-GuidedLDA:在GuidedLDA主題模型的基礎(chǔ)上,將分類后的敏感種子詞集和敏感語義相關(guān)詞集融入SSI節(jié)點(diǎn),實(shí)現(xiàn)對SSI-GuidedLDA主題模型的構(gòu)建,該模型依據(jù)輸入的網(wǎng)絡(luò)資源引導(dǎo)生成C個敏感主題以及無監(jiān)督生成K-C個非敏感主題。

        第3步,網(wǎng)絡(luò)敏感信息識別:根據(jù)SSI-GuidedLDA主題模型可以得到待識別博文的博文-主題分布,將該分布下概率最大的主題作為博文的主題分配結(jié)果,通過判斷主題分配結(jié)果是否為敏感主題實(shí)現(xiàn)對網(wǎng)絡(luò)敏感信息的精準(zhǔn)識別。

        2.2 敏感種子詞及敏感語義相關(guān)詞獲取

        2.2.1敏感種子詞獲取

        由于目前沒有公開的敏感詞列表,本文將通過搜集和篩選網(wǎng)絡(luò)上的敏感資源獲取敏感種子詞:首先從一些影響力較大的網(wǎng)絡(luò)平臺中搜集敏感資源,如微博、百度、知乎中的敏感信息以及發(fā)布在GitHub上的敏感詞典;然后將網(wǎng)絡(luò)敏感資源中的敏感詞作為查詢在新浪微博中進(jìn)行檢索,篩選出檢索反饋結(jié)果為“根據(jù)相關(guān)法律法規(guī)和政策,搜索結(jié)果未予顯示”的敏感詞作為敏感種子詞。本文最終得到1323個敏感種子詞,并將其構(gòu)建為敏感種子詞集合S。

        為了引導(dǎo)生成不同類別的敏感主題,我們將對獲取到的敏感種子詞進(jìn)行聚類分析。K-means算法是經(jīng)典的聚類算法之一,其算法穩(wěn)定,能夠克服短文本內(nèi)容稀疏的問題[21],而本文聚類的對象主要是短文本,故采用K-means算法進(jìn)行聚類。為了得到較好的聚類結(jié)果,本文通過手肘法來確定最優(yōu)聚類數(shù):即隨著聚類數(shù)的增加,核心指標(biāo)值下降幅度由驟減到平緩拐點(diǎn)所對應(yīng)的聚類數(shù)為最優(yōu)聚類數(shù)。手肘法的核心指標(biāo)為誤差平方和SSE[22],其準(zhǔn)則函數(shù)定義為

        (1)

        其中,C是聚類數(shù),Ci表示第i個類,p表示Ci中的樣本點(diǎn),mi表示Ci中的均值點(diǎn)。

        本文計(jì)算得到不同聚類數(shù)下的誤差平方和如圖2所示,圖中橫坐標(biāo)是不同聚類數(shù)量,縱坐標(biāo)為不同聚類數(shù)對應(yīng)的誤差平方和SSE。

        圖2 不同聚類數(shù)下的SSE值

        觀察圖2,根據(jù)手肘法[22]可以確定最優(yōu)聚類數(shù)為7。通過分析各類別敏感種子詞的語義特征,種子詞集的7類敏感詞分別為:S1政治敏感類、S2暴恐類、S3邪教封迷類、S4色情類、S5賭博類、S6違禁品類和S7欺詐類,聚類結(jié)果與我國2020年實(shí)施的《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》[23]描述一致,說明我們實(shí)驗(yàn)爬取的數(shù)據(jù)比較全面,基本覆蓋了所有類別的網(wǎng)絡(luò)敏感信息,本文爬取的敏感種子詞規(guī)模如表1所示。

        表1 敏感種子詞信息

        2.2.2敏感語義相關(guān)詞獲取

        當(dāng)前,在詞向量訓(xùn)練模型當(dāng)中,Word2Vec訓(xùn)練得到的詞向量語義豐富,能夠較好地表達(dá)不同詞之間的相似度和類比關(guān)系[24-25],故本文采用該模型進(jìn)行詞向量訓(xùn)練,將詞映射到高維向量空間中,其中詞wi訓(xùn)練后的向量表示如式(2)所示。

        wi=(wi1,…,wir,…,wiR)

        (2)

        其中,wir表示詞向量wi的第r維元素,R表示詞向量的維度。獲取詞語的向量表示后,詞wi,wj的相似度采用公式(3)計(jì)算:

        (3)

        通過設(shè)置語義相似度閾值λ來判斷種子詞的敏感語義相關(guān)詞,考慮到不同類的敏感種子詞閾值不同,論文將在實(shí)驗(yàn)部分獲取7類敏感種子詞的不同相似度閾值λi(i=1,2,…,7)。當(dāng)詞語與種子詞之間的語義相似度大于等于λi時,認(rèn)為該詞是第i類種子詞的敏感語義相關(guān)詞。本文最終獲取得到7類敏感語義相關(guān)詞集SSk。

        2.3SSI-GuidedLDA主題模型的構(gòu)建

        GuidedLDA通過引入種子詞集合,將無監(jiān)督的LDA主題模型更改為半監(jiān)督的主題模型,來引導(dǎo)生成與種子詞相關(guān)聯(lián)的主題[26]。但是在基本的GuidedLDA中沒有考慮敏感種子詞的敏感語義信息,語義信息的融入可以生成更加全面、準(zhǔn)確的敏感主題特征來描述網(wǎng)絡(luò)敏感信息?;诖?本文構(gòu)建了SSI-GuidedLDA主題模型,模型圖及其符號描述如圖3所示。

        圖3 SSI-GuidedLDA模型圖

        SSI-GuidedLDA主題模型以類別劃分后的敏感種子詞集及其敏感語義相關(guān)詞集作為SSI節(jié)點(diǎn)的輸入,輸入形式為

        SSI={SSI1:[S1,SS1],…,SSI7:[S7,SS7],SSI8:[ ],…,SSIK:[ ]}

        以爬取的網(wǎng)絡(luò)資源數(shù)據(jù)作為SSI-GuidedLDA主題模型的輸入,即D條由詞語特征組成的文本文檔。第一次迭代是對D條文檔中的每個特征初始化主題,如果當(dāng)前特征w存在于SSIk中,則通過種子置信度SC的值增加當(dāng)前特征w初始化為主題k的概率,因此,初始化主題完成后的第k個主題特征分布當(dāng)中,存在于SSIk中的特征相比于其它特征概率更大。主題初始化過程表明SSIk中敏感詞在引導(dǎo)生成主題k當(dāng)中的作用大小由種子置信度SC確定,置信度越大,SSIk中敏感詞引導(dǎo)生成的主題k傾向于敏感詞所屬類型的概率越高,依據(jù)文獻(xiàn)[27]將SC設(shè)置為0.8。

        在每一次進(jìn)一步迭代中,需要為每個特征的主題進(jìn)行采樣,采樣公式如下:

        (4)

        其中,zi表示為當(dāng)前特征i抽取的主題;i表示除i以外;V表示訓(xùn)練數(shù)據(jù)集的詞表特征數(shù);表示除i以外,主題k下特征t的數(shù)量;表示除i以外,文檔d中主題為k的特征數(shù)量;依據(jù)文獻(xiàn)[27]將α和β分別設(shè)置為0.1和0.01。

        根據(jù)式(5),迭代過程中以最大化文檔-主題相關(guān)度和主題-特征相關(guān)度的乘積為目標(biāo),為每個特征抽取主題。因?yàn)閷儆谥黝}k的特征中,SSIk中的敏感詞有更高的概率,所以SSIk中敏感詞抽取到主題k的概率變大。

        模型經(jīng)過多次迭代達(dá)到收斂,迭代完成后的主要輸出為:主題-特征分布,即每個主題由其詞語特征分布定義,如表2所示。通過分析SSI-GuidedLDA主題模型的迭代過程可以發(fā)現(xiàn),該模型可以通過SSIk中的敏感詞引導(dǎo)生成有傾向性的敏感主題特征分布:當(dāng)k∈{1,…,7}時,該模型依據(jù)SSIk中的敏感詞引導(dǎo)生成相應(yīng)類型的敏感主題,即政治敏感主題、暴恐主題、邪教封迷主題、色情主題、賭博主題、違禁品主題和欺詐主題;當(dāng)k大于7時,SSIk中沒有敏感詞,故相應(yīng)主題為無引導(dǎo)生成的主題,為非敏感主題。

        表2 主題特征分布矩陣

        SSI-GuidedLDA在主題生成過程中,不僅考慮了通過敏感種子詞引導(dǎo)生成敏感主題,還考慮了種子詞的敏感語義信息,通過融合敏感語義信息,使種子詞的敏感語義相關(guān)詞也參與引導(dǎo)生成敏感主題,提高了相關(guān)敏感詞被分類到同一主題中的概率,提升了敏感主題表示的完備性和準(zhǔn)確性。

        2.4 網(wǎng)絡(luò)敏感信息識別

        基于SSI-GuidedLDA模型的網(wǎng)絡(luò)敏感信息識別流程如下:

        a.將待識別博文進(jìn)行預(yù)處理,包括分詞、除去停用詞等。

        b.將待識別博文輸入到主題模型中,可以得到每篇博文的博文-主題分布,即每篇博文blog屬于各主題的概率:blog={k=1:P1,…,k=7:P7,…,k=K:PK}。一個主題概率越大則表示博文內(nèi)容屬于這個主題類型的概率越高,將博文-主題分布下概率最高的主題表示為博文的主題分配,可以提取得到每篇博文的主題分配結(jié)果Result。

        c.根據(jù)待識別博文的主題分配結(jié)果和主題定義進(jìn)行網(wǎng)絡(luò)敏感信息識別:若一篇博文的主題分配結(jié)果Result∈{1,…,7},則該博文屬于敏感信息;若一篇博文的主題分配結(jié)果Result∈{8,…,K},則該博文屬于非敏感信息。

        3 實(shí) 驗(yàn)

        3.1 數(shù)據(jù)集

        為驗(yàn)證基于SSI-GuidedLDA模型的引導(dǎo)式網(wǎng)絡(luò)敏感信息識別方法的有效性,采用新浪微博數(shù)據(jù)作為實(shí)證研究數(shù)據(jù)集。我們共爬取微博195110條,運(yùn)用德爾菲法[28]從中篩選出29383條敏感博文,并對其敏感類型進(jìn)行了標(biāo)注。為了更有效地進(jìn)行實(shí)驗(yàn),對采集到的數(shù)據(jù)進(jìn)行分詞和除去停用詞,在分詞過程中,為了防止敏感種子詞被分詞處理,將種子詞添加到用戶詞典中,以此來保證分詞結(jié)果更加準(zhǔn)確。

        3.2 評價指標(biāo)

        本文采用分類模型中常用的三種評價指標(biāo):準(zhǔn)確率、召回率和F1值進(jìn)行評價[29]。其中,F1值為權(quán)衡準(zhǔn)確率和召回率的評估度量值,指標(biāo)取值越大表示識別性能越好。準(zhǔn)確率、召回率、F1值可以通過公式(5)、公式(6)、公式(7)計(jì)算得到:

        (5)

        (6)

        (7)

        其中,TP表示被識別為敏感信息,實(shí)際也為敏感信息的個數(shù);FP表示被識別為敏感信息,但實(shí)際為非敏感信息的個數(shù);FN表示被識別為非敏感信息,但實(shí)際為敏感信息的個數(shù)。

        3.3 參數(shù)設(shè)置

        本文方法的關(guān)鍵參數(shù)為:語義相似度閾值λ和Word2Vec訓(xùn)練參數(shù)。在Word2Vec詞向量訓(xùn)練時,本文將詞向量維度vector_size設(shè)置為300,選擇CBOW訓(xùn)練模型sg=0,將min_count設(shè)置為0,以此來保證一些出現(xiàn)次數(shù)極低的敏感詞不被忽略。

        關(guān)于語義相似度閾值λ:當(dāng)設(shè)置較大λ時,可以將敏感語義相關(guān)詞限制為一組與敏感種子詞高度相關(guān)的單詞,然而,設(shè)置一個高相似度界限,可能會遺漏一些敏感語義相關(guān)詞;當(dāng)設(shè)置較小λ時,則難以保證敏感語義相關(guān)詞與敏感種子詞的相關(guān)性。為了確定合適的λ值,本文將在數(shù)據(jù)集上根據(jù)不同閾值參數(shù)的分類結(jié)果,分別計(jì)算識別各類網(wǎng)絡(luò)敏感信息的F1值,以此確定各個語義相似度閾值。具體地,首先在[0.1,1]區(qū)間內(nèi)以步長0.1分別取各個語義相似度閾值,觀察發(fā)現(xiàn),當(dāng)閾值為0.8或0.9時,F1值較大,然后,進(jìn)一步在[0.8,0.95]區(qū)間內(nèi)以步長0.03取閾值進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖4所示:

        圖4 各個類別隨閾值調(diào)整對應(yīng)的F1值

        通過圖4可以觀察得到,當(dāng)政治敏感、暴恐、邪教封迷、色情、賭博、違禁品和欺詐類語義相似度閾值分別為0.86、0.86、0.86、0.89、0.90、0.83和0.83時,F1值達(dá)到最大,故本文將λ1、λ2、λ3、λ4、λ5、λ6和λ7依次設(shè)置為上述值。

        3.4 結(jié)果與分析

        為了驗(yàn)證SSI-GuidedLDA主題模型的有效性,選取了3種基線模型與本文方法進(jìn)行對比,模型簡寫及其解釋如表3所示:

        表3 模型簡寫及其解釋

        采用準(zhǔn)確率、召回率和F1值衡量網(wǎng)絡(luò)敏感信息識別性能,借鑒文獻(xiàn)[31]的實(shí)驗(yàn)思路,將主題數(shù)K依次設(shè)置為10、30、50。通過實(shí)驗(yàn)可以得到各個模型識別網(wǎng)絡(luò)敏感信息的整體效果,從而對不同模型的網(wǎng)絡(luò)敏感信息識別性能進(jìn)行客觀的衡量和比較。實(shí)驗(yàn)結(jié)果如圖5所示:

        通過圖5可知,SSI-GuidedLDA在不同主題數(shù)條件下的識別性能均表現(xiàn)良好,相比于LDA、SW-LDA和GuidedLDA在準(zhǔn)確率上分別平均提高7.67%、6.12%、4.31%;在召回率上分別平均提高13.70%、12.10%、7.13%;在F1值上分別平均提高10.36%、8.78%、5.55%。這是因?yàn)镾SI-GuidedLDA通過融入種子詞的敏感語義信息,利用種子詞及其敏感語義相關(guān)詞引導(dǎo)敏感主題的生成,最大程度地提高了敏感主題特征質(zhì)量,從而能夠表現(xiàn)出良好的識別性能。LDA由于不能根據(jù)數(shù)據(jù)集的特點(diǎn)監(jiān)督敏感主題的生成,因此其得到的敏感主題特征質(zhì)量較低,難以準(zhǔn)確識別出網(wǎng)絡(luò)敏感信息;SW-LDA僅利用加權(quán)提高敏感詞的分布權(quán)重,未從根本上提高敏感主題特征質(zhì)量;GuidedLDA雖然可以通過種子詞引導(dǎo)生成敏感主題,但未深入挖掘敏感詞的敏感語義信息,而本文提出的模型在上述模型的基礎(chǔ)上融入了敏感語義信息。

        為了未來能得到更好的識別效果,我們深入分析了本文識別錯誤的實(shí)例,以下為三個識別錯誤的博文示例:

        示例1:揭開“全能神”邪教畫皮。

        示例2:王洪光中將霸氣表態(tài):美國在臺灣部署薩德?他敢?!那就是解放臺灣之日!……,港獨(dú),臺獨(dú),合流的話就一塊干掉啊!

        示例3:阿彌陀佛!誦《乾隆大藏經(jīng)》之《大般若波羅蜜多經(jīng)》第三十五卷,諸佛菩薩加持,……,法輪常轉(zhuǎn),正法久住!

        上述三個示例中包含敏感詞“邪教”、“臺獨(dú)”和“法輪”等,因此SSI-GuidedLDA模型會將這些博文識別為敏感信息。但該類博文并未涉及任何違反道德或法律規(guī)定的內(nèi)容,只是表達(dá)了宣傳警示、對國家的信仰、以及一些佛教用語和祈愿語,因此不屬于網(wǎng)絡(luò)敏感信息。產(chǎn)生錯誤識別的原因是由于論文提出的識別方法僅通過詞語概率獲得主題和博文的概率分布,沒有挖掘上下文語境,未來我們將對此展開深入研究。

        4 結(jié) 語

        考慮到現(xiàn)有網(wǎng)絡(luò)敏感信息識別方法存在的不足,本文將敏感語義信息和引導(dǎo)式主題模型相結(jié)合,提出了一種融合敏感語義信息的引導(dǎo)式主題模型SSI-GuidedLDA,并基于該模型實(shí)現(xiàn)了網(wǎng)絡(luò)敏感信息的精準(zhǔn)識別。本文雖然在一定程度上提高了網(wǎng)絡(luò)敏感信息識別性能,但尚存不足之處,后續(xù)研究擬圍繞以下內(nèi)容展開:a.本文以離線形式的新浪微博作為數(shù)據(jù)集,而網(wǎng)絡(luò)敏感信息識別的目的是即時發(fā)現(xiàn)并阻斷其傳播,故后續(xù)研究我們擬使用數(shù)據(jù)流形式的微博數(shù)據(jù)對網(wǎng)絡(luò)敏感信息識別模型進(jìn)行改進(jìn)。b.本文中的敏感語義信息僅考慮了敏感種子詞的語義信息,但還有其他多個方面有利于敏感語義信息的豐富,如:上下文語境、情感信息和用戶信息等,故后續(xù)研究將深入挖掘其他有效信息,進(jìn)一步提高敏感語義信息的準(zhǔn)確性,進(jìn)而提高網(wǎng)絡(luò)敏感信息識別性能。

        猜你喜歡
        博文語義聚類
        第一次掙錢
        語言與語義
        誰和誰好
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
        基于改進(jìn)的遺傳算法的模糊聚類算法
        一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
        認(rèn)知范疇模糊與語義模糊
        打電話2
        综合激情五月三开心五月| 日本一卡2卡3卡4卡无卡免费网站| 亚洲成在人线视av| 国产午夜伦鲁鲁| 无码精品a∨在线观看十八禁| 最近中文字幕完整版| 国产内射合集颜射| 亚洲另类激情综合偷自拍图| 国产内射XXXXX在线| 永久无码在线观看| 亚洲无码毛片免费视频在线观看| 日本在线一区二区在线| 在线观看国产激情免费视频| 男女深夜视频网站入口| 男女调情视频在线观看| 蜜臀av一区二区三区免费观看| 91超精品碰国产在线观看| 性高朝久久久久久久3小时| 天天爽夜夜爽人人爽| 最新国产精品久久精品| 国产绳艺sm调教室论坛| 亚洲一区精品无码色成人| 成年女人毛片免费观看97| 在线观看av手机网址| 少妇爽到爆视频网站免费| 超短裙老师在线观看一区二区| 国产一区白浆在线观看| 欧美又大粗又爽又黄大片视频| 天天夜碰日日摸日日澡性色av| 国产乡下三级全黄三级| 在线播放亚洲第一字幕| 久久精品国产亚洲AⅤ无码剧情| 一区二区三区亚洲免费| 亚洲乱码无人区卡1卡2卡3| 蜜臀av无码人妻精品| 国产精品无码成人午夜电影| 亚洲va在线∨a天堂va欧美va| 2021年国产精品每日更新| 蜜臀av人妻一区二区三区| 国产白浆一区二区三区佳柔| 本道天堂成在人线av无码免费 |