亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于Word2vec的敏感內(nèi)容識(shí)別技術(shù)*

        2019-12-04 03:27:26金貴濤石元兵劉峻豪
        通信技術(shù) 2019年11期
        關(guān)鍵詞:分詞語(yǔ)料敏感度

        金貴濤,石元兵,魏 忠,王 雍,劉峻豪

        (衛(wèi)士通信息產(chǎn)業(yè)股份有限公司,四川 成都 610041)

        0 引 言

        大數(shù)據(jù)時(shí)代,數(shù)據(jù)的重要性逐步提高。隨著數(shù)據(jù)量的爆炸式增長(zhǎng),數(shù)據(jù)安全保護(hù)工作的難度不斷增加,尤其是文本數(shù)據(jù)的安全防護(hù)工作面臨的挑戰(zhàn)越來(lái)越嚴(yán)峻。要做到文本數(shù)據(jù)全面的安全防護(hù),需要準(zhǔn)確識(shí)別文本內(nèi)容,識(shí)別文本是否存在敏感或者保密內(nèi)容,防止文本在傳輸以及使用過(guò)程中泄密。常見(jiàn)的內(nèi)容識(shí)別方法是通過(guò)人工設(shè)定批量的敏感詞,對(duì)文本內(nèi)容進(jìn)行精確匹配。這種方法的問(wèn)題在于,通常詞語(yǔ)都會(huì)有相似詞,而人工設(shè)置敏感詞不能窮盡所有詞,所以在對(duì)內(nèi)容進(jìn)行精確匹配時(shí)會(huì)有遺漏等。例如,敏感詞設(shè)定為“科研成果”,如果文本內(nèi)容存在“研究成果”“研發(fā)成果”“技術(shù)成果”等與“科研成果”具有相似含義的詞語(yǔ),將無(wú)法被精確匹配識(shí)別出來(lái),增加了泄密風(fēng)險(xiǎn)。

        針對(duì)上述存在的問(wèn)題,提出一種基于Word2vec的敏感詞識(shí)別方法,可以識(shí)別文本中存在相似詞的情形,并且可以確定敏感文本的敏感等級(jí)。本文根據(jù)保密數(shù)據(jù)業(yè)務(wù)設(shè)定了三級(jí)自定義敏感詞,使用TextRank算法提取文本關(guān)鍵詞及其得分值,通過(guò)Word2vec技術(shù)將詞語(yǔ)向量化后,計(jì)算與人工設(shè)定的不同等級(jí)敏感詞的相似度,結(jié)合給出的敏感度算法模型計(jì)算文本的敏感度,最終確定敏感文本的敏感級(jí)別。

        1 詞向量Word2vec

        1.1 詞向量Word2vec技術(shù)介紹

        Word2vec是Google在2013年提出的簡(jiǎn)單、高效的詞語(yǔ)向量化工具。它的特點(diǎn)是將詞語(yǔ)向量化,以便精確度量不同詞語(yǔ)之間的聯(lián)系或關(guān)系,如詞語(yǔ)“美麗”和“漂亮”是兩個(gè)相似詞,經(jīng)常出現(xiàn)的語(yǔ)義環(huán)境(上下文語(yǔ)境)是相似的。兩個(gè)詞語(yǔ)本身具有很高的相似性,詞語(yǔ)向量化后“美麗”“漂亮”在向量空間中表示為兩個(gè)點(diǎn),則可以通過(guò)度量?jī)牲c(diǎn)之間的cosine距離定量表示兩個(gè)詞語(yǔ)的語(yǔ)義相似性。不同的詞語(yǔ)在向量空間中的距離越近,相似性越高。此外,Word2vec還表現(xiàn)出一個(gè)有趣的現(xiàn)象vector(“King”)-vector(“Man”)+vector(“Woman”)=vector(“Queen”)[1]??梢钥闯?,Word2vec在文本語(yǔ)義表示上擁有很好的效果。

        Word2vec是對(duì)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(Neural Network Language Model,NNLM)算法[2]的改進(jìn)。NNLM算法模型參數(shù)過(guò)多,訓(xùn)練時(shí)收斂速度慢,不適合大型語(yǔ)料庫(kù)。Word2vec對(duì)NNLM存在的缺點(diǎn)進(jìn)行改進(jìn),可以快速有效地訓(xùn)練詞向量。

        1.2 Word2vec訓(xùn)練詞向量

        Word2vec針對(duì)NNLM模型計(jì)算復(fù)雜度高的缺點(diǎn)進(jìn)行改進(jìn),主要體現(xiàn)在3個(gè)方面。第一,模型目標(biāo)的轉(zhuǎn)變。NNLM模型的出發(fā)點(diǎn)是為解決n元語(yǔ)法模型的缺點(diǎn),最終得到語(yǔ)言模型和副產(chǎn)品詞向量。Word2vec為減小模型復(fù)雜度,將其進(jìn)行切分,直接以構(gòu)建詞向量為目標(biāo)。第二,網(wǎng)絡(luò)結(jié)構(gòu)上的改進(jìn)。Word2vec取消了隱藏層結(jié)構(gòu),縮減了大量計(jì)算量,加快了訓(xùn)練速度。此外,還將輸出層的結(jié)構(gòu)改成Huffman樹(shù)結(jié)構(gòu),對(duì)Huffman樹(shù)采用分層softmax方法計(jì)算,替換掉NNLM模型中softmax層,即將輸出層的線性結(jié)構(gòu)改成樹(shù)形結(jié)構(gòu),減小了計(jì)算量。第三,對(duì)輸入的改進(jìn)。Word2vec不再是單純利用當(dāng)前詞的前n-1個(gè)詞的上文信息,而是利用了當(dāng)前詞前后各c個(gè)詞的上下文信息。

        Word2vec有兩種訓(xùn)練模型,分別是連續(xù)詞袋模型(Continuous Bag-of-Words Model,CBOW)和Skip-gram模型[1](模型結(jié)構(gòu)如圖1所示)。從圖1可以看到,兩種模型的網(wǎng)絡(luò)結(jié)構(gòu)都由輸入層、投影層和輸出層組成。但是,CBOW模型是利用詞語(yǔ)wt的前后各c個(gè)詞語(yǔ)預(yù)測(cè)當(dāng)前詞語(yǔ)wt,而skip-gram模型與之相反,是利用當(dāng)前詞語(yǔ)wt去預(yù)測(cè)前后各c個(gè)詞語(yǔ)。預(yù)測(cè)方法是,大規(guī)模語(yǔ)料經(jīng)過(guò)預(yù)處理,輸入詞語(yǔ)通過(guò)投影操作利用softmax進(jìn)行分類(lèi)預(yù)測(cè),CBOW要求中心詞的softmax值最高,Skip-gram希望是上文詞語(yǔ)的softmax值比非上下文詞語(yǔ)的高。Word2vec提供了兩種優(yōu)化方法來(lái)提高訓(xùn)練效率,分別是 Hierachy Softmax與 Negative Sampling[3]。

        圖1 Word2vec模型

        以CBOW+Hierarchical Softmax為例,說(shuō)明Word2vec的訓(xùn)練過(guò)程。CBOW+Hierarchical Softmax的訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖2所示。

        圖2 CBOW+HS訓(xùn)練框架

        以“我喜歡足球運(yùn)動(dòng)”為例來(lái)說(shuō)明CBOW+Hierarchical Softmax的訓(xùn)練過(guò)程。

        第一步,對(duì)訓(xùn)練語(yǔ)料做預(yù)處理并統(tǒng)計(jì)詞頻。對(duì)訓(xùn)練的語(yǔ)料進(jìn)行分詞操作,并統(tǒng)計(jì)每個(gè)詞語(yǔ)在整個(gè)語(yǔ)料庫(kù)中出現(xiàn)的頻次。假設(shè)統(tǒng)計(jì)的詞語(yǔ)“我”“喜歡”“足球”“運(yùn)動(dòng)”的頻次分別為15、4、3、2。

        第二步,根據(jù)統(tǒng)計(jì)的頻次構(gòu)建Huffman樹(shù)。Huffman樹(shù)是一種二叉樹(shù),樹(shù)的每個(gè)葉子節(jié)點(diǎn)表示一個(gè)語(yǔ)料中的詞語(yǔ),葉節(jié)點(diǎn)的權(quán)重是每個(gè)詞語(yǔ)在語(yǔ)料中出現(xiàn)的次數(shù),且在語(yǔ)料中出現(xiàn)次數(shù)越多的詞語(yǔ)的Huffman編碼越短。以“我”“喜歡”“足球”“運(yùn)動(dòng)”為語(yǔ)料詞典構(gòu)建Huffman樹(shù),如圖3所示。

        圖3 “我喜歡足球運(yùn)動(dòng)”Huffman樹(shù)

        在Huffman樹(shù)結(jié)構(gòu)中,葉節(jié)點(diǎn)上的數(shù)字表示所在葉節(jié)點(diǎn)的詞語(yǔ)在語(yǔ)料中出現(xiàn)的次數(shù),節(jié)點(diǎn)旁邊的數(shù)字(0/1)表示節(jié)點(diǎn)的哈夫曼編碼,則“足球”的哈夫曼編碼為”010”。

        第三步,輸入層。取當(dāng)前詞語(yǔ)上文作為輸入,先將上下文各c個(gè)詞語(yǔ)以one-hot編碼,再通過(guò)隨機(jī)初始化矩陣D映射后作為模型的輸入。取當(dāng)前詞語(yǔ)為“足球”,c為1即取上下各一個(gè)詞語(yǔ)“喜歡”和“運(yùn)動(dòng)”作為輸入,用以預(yù)測(cè)輸出“足球”。設(shè)語(yǔ)料corpus=[“我”,“喜歡”,“足球”,“運(yùn)動(dòng)”],則one-hot編碼如下:

        上下文通過(guò)初始化矩陣映射后得到輸入向量:

        第四步,投影層。將輸入層的2c個(gè)向量相加求和。將“足球”的上下文v喜歡+v運(yùn)動(dòng)得到投影層輸出向量xw。

        第五步,輸出層。輸出層的結(jié)構(gòu)是Huffman樹(shù)結(jié)構(gòu),通過(guò)目標(biāo)詞語(yǔ)的Huffman碼找到目標(biāo)詞語(yǔ)在Huffman樹(shù)中的節(jié)點(diǎn)路徑。在這條路徑中,每個(gè)內(nèi)部節(jié)點(diǎn)(非葉節(jié)點(diǎn))包含一個(gè)與向量xw維度相同的參數(shù)向量θl,其中l(wèi)是路徑上內(nèi)部節(jié)點(diǎn)的個(gè)數(shù)。根據(jù)路徑及路徑上節(jié)點(diǎn)的參數(shù)向量,計(jì)算到達(dá)目標(biāo)葉節(jié)點(diǎn)的概率p(w|context(w))并使其值最大,使用隨機(jī)梯度上升法迭代更新路徑上的參數(shù)向量θl以及xw、上下文向量vcontext(即更新矩陣D)。其中,在計(jì)算p(w|context(w))時(shí),將路徑上的節(jié)點(diǎn)轉(zhuǎn)移(圖3中黑色虛線)視為一個(gè)二分類(lèi),計(jì)算每個(gè)節(jié)點(diǎn)到下一個(gè)節(jié)點(diǎn)的概率,然后將路徑上的所有的概率相乘得到p(w|context(w))。

        對(duì)應(yīng)于示例,則為:

        hi表示路徑上第i個(gè)內(nèi)部節(jié)點(diǎn)的Huffman碼值(根節(jié)點(diǎn)沒(méi)有Huffman碼值),σ(x)為sigmod函數(shù)??梢詫⒏怕矢膶?xiě)為:

        通過(guò)梯度上升法求解式(8),迭代更新xw、θi、矩陣D,最后得到的矩陣D為詞向量矩陣。

        Word2vec對(duì)NNLM模型進(jìn)行多方面改進(jìn),提升了訓(xùn)練速度,得到的詞向量不僅將詞語(yǔ)向量化,還保留了詞語(yǔ)與詞語(yǔ)之間的語(yǔ)義特性。

        利用訓(xùn)練的Word2vec模型,將詞語(yǔ)以向量表示,可以方便計(jì)算兩個(gè)向量之間的cosine相似度,以“密碼”與“加密”、“密碼”與“足球”之間的cosine相似度作為示例說(shuō)明。

        詞語(yǔ)A=“密碼”

        詞語(yǔ)B=“加密”

        詞語(yǔ)C=“足球”

        Vector(A)=[0.063 663,0.219 666,0.097 406,-0.161 454,0.162 652,…,-0.075 780,-0.218 963,0.069 732]

        Vector(B)=[0.316 791,0.075 463,-0.148 636,0.113 711,-0.095 390,…,0.407 958,-0.082 742,0.068 211]

        Vector(C)=[0.119 676,0.081 286,0.369 913,-0.189 710,0.269 805,…,-0.321 999,0.033 219,0.111 683]

        從表1可以看到,詞語(yǔ)“密碼”與“加密”的相似度大于“密碼”與“足球”之間的相似度。利用Word2vec對(duì)詞語(yǔ)向量化,可以獲得詞語(yǔ)的相似詞,而本文提出的方法也正是基于這一特性。

        表1 詞語(yǔ)之間的相似度

        2 基于Word2vec的敏感內(nèi)容識(shí)別

        2.1 算法設(shè)計(jì)

        數(shù)據(jù)安全業(yè)務(wù)對(duì)于敏感信息的判斷要求越來(lái)越高,精確匹配敏感詞的方式已經(jīng)不滿足業(yè)務(wù)需求。對(duì)于一個(gè)文本,更希望從文本語(yǔ)義上判斷是否屬于敏感信息。本文基于Word2vec技術(shù)將文本詞語(yǔ)與敏感詞集進(jìn)行敏感度計(jì)算,從語(yǔ)義上判斷文本的敏感度,從而識(shí)別敏感文本。

        為了表征不同的敏感程度,對(duì)敏感詞集進(jìn)行等級(jí)標(biāo)注,即將敏感詞集根據(jù)實(shí)際業(yè)務(wù)場(chǎng)景劃分為不同的等級(jí),如“秘密”“機(jī)密”“絕密”等。對(duì)敏感詞集進(jìn)行等級(jí)標(biāo)注,能夠減少文檔敏感度計(jì)算的誤差。例如,對(duì)于輿情管控業(yè)務(wù),一篇包含敏感詞“法輪功”的文檔與一篇包含敏感詞“偷盜”的文檔,按照單一敏感詞等級(jí)會(huì)得到相同的敏感度,但明顯包含“法輪功”的文檔在輿情管控業(yè)務(wù)上的敏感度要比后者大。對(duì)敏感詞集進(jìn)行等級(jí)標(biāo)注,有利于文檔的敏感度區(qū)分。本文在敏感詞集的等級(jí)庫(kù)創(chuàng)建時(shí),創(chuàng)建3個(gè)敏感等級(jí)l1、l2、l3,其中l(wèi)1表示最低等級(jí),l3表示最高等級(jí)。等級(jí)越高,敏感度越高。

        本文提出的敏感詞識(shí)別方法利用文本信息以及Word2vec模型構(gòu)建文本四元組(w,v,s,l),通過(guò)本文提出的模型計(jì)算文本的敏感度。其中,w表示文本詞語(yǔ);v表示該詞語(yǔ)在文本中的重要程度(關(guān)鍵度),通過(guò)TextRank算法[4]提取關(guān)鍵詞得到,該算法通過(guò)構(gòu)建詞語(yǔ)網(wǎng)絡(luò)結(jié)構(gòu)圖,以詞語(yǔ)共現(xiàn)分享權(quán)重、迭代計(jì)算詞語(yǔ)的得分、得分排名與得分值分別決定關(guān)鍵詞及其關(guān)鍵度;s表示該詞語(yǔ)與敏感詞集中詞語(yǔ)基于Word2vec向量化后的最大cosine相似度,即該詞語(yǔ)與敏感詞集中每個(gè)詞語(yǔ)求基于Word2vec的cosine相似度,取最大值作為該詞語(yǔ)的相似度s,l表示與該文本詞語(yǔ)相似的敏感詞的敏感等級(jí)。通過(guò)綜合考慮文本詞語(yǔ)自身對(duì)文本語(yǔ)義主題的關(guān)鍵程度以及與敏感詞的相似程度,對(duì)文本的語(yǔ)義敏感度做出判斷。變量vi、si、li對(duì)應(yīng)文本中第i個(gè)詞語(yǔ)wi的四元組(w,v,s,l),定義文本的敏感度為式(9),其中N表示文本中詞語(yǔ)的總數(shù)。

        本文稱si×li為敏感因子,表示一個(gè)詞wi的敏感度。一篇文本是由詞語(yǔ)構(gòu)成,構(gòu)成文本的所有詞語(yǔ)的敏感度相加即可表示文本自身的敏感度。但是,從語(yǔ)義上看,每個(gè)詞語(yǔ)對(duì)表達(dá)文本主題的貢獻(xiàn)程度是有區(qū)別的,所以本文考慮給與文本中每個(gè)詞語(yǔ)以不同的權(quán)重2vi,其中vi為詞語(yǔ)wi在文本中的關(guān)鍵度,此處為減小不同詞語(yǔ)之間的權(quán)重差距考慮為2vi(在歸一化后vi取值在0~1之間)。式(9)中的分子部分表示根據(jù)文本中每個(gè)詞語(yǔ)的敏感因子及其權(quán)重計(jì)算文本的敏感度。每篇文本的長(zhǎng)度一般不同。一般情況下,文本越長(zhǎng),組成文本的詞會(huì)越多,在相加求和時(shí)得到的值將會(huì)越大。為了消除文本長(zhǎng)度對(duì)敏感度的影響,需除以詞的總數(shù)N計(jì)算得到文本敏感度后將結(jié)果send縮放到0~1之間,根據(jù)閾值劃分判定文本的敏感等級(jí)。本文根據(jù)實(shí)驗(yàn)將閾值劃分為send≤0.2為L(zhǎng)1等級(jí),0.2<send≤0.5為L(zhǎng)2等級(jí),0.5<send≤1為L(zhǎng)3等級(jí),示例如表2~表4所示。

        表2 敏感詞集

        表3 個(gè)人信息安全原數(shù)據(jù)截取

        表4 敏感度計(jì)算詳情

        示例中,表2為3個(gè)等級(jí)的敏感詞,表3為待測(cè)文本的內(nèi)容(論文中的部分內(nèi)容),表4生成的四元組信息(表中數(shù)據(jù)均四舍五入保留兩位)。根據(jù)式(9)以及表4四元組信息,將結(jié)果縮放到0~1之間后,可得到敏感度SEN=0.145。根據(jù)閾值劃分,取文本敏感等級(jí)為L(zhǎng)1等級(jí)。

        2.2 算法實(shí)現(xiàn)

        本文提出的基于Word2vec敏感詞識(shí)別方法可以分為數(shù)據(jù)預(yù)處理、提取關(guān)鍵詞和敏感詞識(shí)別3個(gè)步驟,流程如圖4所示。

        2.2.1 前期準(zhǔn)備——訓(xùn)練Word2vec模型

        為了Word2vec訓(xùn)練的模型有良好表現(xiàn),在訓(xùn)練語(yǔ)料的選取上需要具有代表性,即選取與需求相關(guān)的領(lǐng)域內(nèi)的文本集作為訓(xùn)練語(yǔ)料。使用業(yè)務(wù)相關(guān)領(lǐng)域文本作為訓(xùn)練語(yǔ)料比通用訓(xùn)練語(yǔ)料在語(yǔ)義表現(xiàn)的性能上更好,在計(jì)算詞語(yǔ)語(yǔ)義相似度時(shí)表現(xiàn)得更加“專(zhuān)業(yè)”。本實(shí)驗(yàn)將做信息安全相關(guān)領(lǐng)域的敏感詞識(shí)別,故選取1.8G信息安全領(lǐng)域相關(guān)文檔為訓(xùn)練語(yǔ)料創(chuàng)建詞向量模型。

        2.2.2 數(shù)據(jù)預(yù)處理

        在對(duì)文本詞語(yǔ)求相似度之前,先對(duì)文本做預(yù)處理,可以消除部分噪音數(shù)據(jù)提高準(zhǔn)確度。對(duì)于中文文本因詞語(yǔ)與詞語(yǔ)之間沒(méi)有明顯的分割符,需要對(duì)中文進(jìn)行分詞,本文采用jieba分詞工具對(duì)中文文本分詞。分詞之前對(duì)文本做命名實(shí)體識(shí)別,文本中通常含有人名、地名、組織機(jī)構(gòu)名,這些專(zhuān)有名詞會(huì)造成分詞結(jié)果不準(zhǔn)確。例如,組織機(jī)構(gòu)名為“中國(guó)信息通信研究院”通常會(huì)被分詞工具分為“中國(guó)”“信息”“通信”“研究院”,這樣的分詞結(jié)果會(huì)干擾敏感詞的識(shí)別結(jié)果。同時(shí),在信息安全領(lǐng)域會(huì)存在一些保密的項(xiàng)目,這些項(xiàng)目名稱或代號(hào)也有被設(shè)定為敏感詞的可能性。要做到準(zhǔn)確識(shí)別文本中的項(xiàng)目名稱及其項(xiàng)目代號(hào),需要做好準(zhǔn)確分詞。因此,分詞之前做好命名實(shí)體識(shí)別非常必要。去除文本中識(shí)別出的專(zhuān)有名詞后再對(duì)文本進(jìn)行分詞,然后去除對(duì)確定文本敏感度沒(méi)有幫助的停用詞,如“的”“地”等詞語(yǔ)。本文采用哈工大的停用詞表來(lái)去除停用詞。對(duì)敏感詞集中所有詞語(yǔ)預(yù)先獲取每個(gè)敏感詞相似度最高的topN個(gè)相似詞,并記錄最小相似度,用以確定每個(gè)詞語(yǔ)的最小相似度閾值。本文通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),相似度較小時(shí)對(duì)文本敏感度判定有較大的干擾性,故文本詞語(yǔ)與敏感詞集中最大相似度小于該閾值時(shí),認(rèn)為該詞語(yǔ)為非敏感詞不計(jì)入公式計(jì)算。

        圖4 工作流程

        2.2.3 關(guān)鍵詞提取

        文本的語(yǔ)義主題由詞語(yǔ)來(lái)表達(dá),每個(gè)詞語(yǔ)對(duì)表達(dá)文本主題的貢獻(xiàn)度不盡相同。例如,在一篇描述密碼學(xué)對(duì)保護(hù)信息安全的重要性為主題的文本中,“密碼”“算法”“信息安全”等詞語(yǔ)對(duì)表達(dá)文本主題的重要性遠(yuǎn)遠(yuǎn)大于“增長(zhǎng)”“保持”等詞語(yǔ)。提取出對(duì)文本主題重要性大的詞語(yǔ),能更準(zhǔn)確地從文本語(yǔ)義層面判定文本的敏感度。提取關(guān)鍵詞的算法有很多,如TF-IDF[5]、Textrank等,本文采用textrank算法提取文本關(guān)鍵詞。根據(jù)章節(jié)2.2.2預(yù)處理結(jié)果,使用textrank算法獲取文本關(guān)鍵詞及其關(guān)鍵度(wi,vi)。

        2.2.4 計(jì)算文本敏感度

        遍歷章節(jié)2.2.3所得結(jié)果,分別對(duì)敏感詞集中所有詞語(yǔ)求相似度,取具有最大相似度的詞語(yǔ)作為相似詞,并記錄相關(guān)信息組成四元組(w,v,s,l)。按照式(9)計(jì)算整篇文章的敏感度,計(jì)算之前先過(guò)濾掉相似度小于閾值的詞語(yǔ),避免干擾計(jì)算結(jié)果。得到文本的敏感度后,根據(jù)實(shí)際業(yè)務(wù)進(jìn)行驗(yàn)證。選取適當(dāng)?shù)拈撝底鳛榕袛辔谋镜拿舾械燃?jí)條件,計(jì)算結(jié)果大于指定閾值則判定為相對(duì)應(yīng)的敏感等級(jí)。判定結(jié)果之前,可先對(duì)計(jì)算結(jié)果進(jìn)行歸一化,以便于結(jié)果的判定。

        3 實(shí)驗(yàn)及結(jié)果

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)數(shù)據(jù)來(lái)源于知網(wǎng)的信息安全領(lǐng)域期刊論文,人工將論文分為4個(gè)類(lèi)別用于實(shí)驗(yàn),如表5所示,敏感詞集的設(shè)置如表6所示。

        表5 實(shí)驗(yàn)數(shù)據(jù)

        表6 敏感詞集

        實(shí)驗(yàn)中,首先采用自然語(yǔ)言處理工具NLTK做命名實(shí)體識(shí)別,提取文本中的人名、地名和組織機(jī)構(gòu)名。之后,使用jieba中文分詞工具對(duì)文本進(jìn)行分詞,再對(duì)分詞結(jié)果去除停用詞。然后,使用文本關(guān)鍵詞提取算法Textrank提取文本的關(guān)鍵詞及其關(guān)鍵度,基于Word2vec向量化后計(jì)算每個(gè)詞語(yǔ)與人工設(shè)定的敏感詞的cosine相似度,并記錄與文本關(guān)鍵詞相似最大的敏感詞,組成四元組信息(w,v,s,l)。最后,由四元組信息計(jì)算文本的敏感度值,依據(jù)對(duì)敏感等級(jí)值的劃分,判斷文本的敏感度值屬于哪個(gè)等級(jí)范疇。

        3.2 實(shí)例分析

        下面給出實(shí)驗(yàn)結(jié)果,以表5數(shù)據(jù)類(lèi)型以及表6所示敏感詞的設(shè)定為例,本文對(duì)敏感詞集的topN參數(shù)取值為20(根據(jù)本文所選取實(shí)驗(yàn)數(shù)據(jù),實(shí)驗(yàn)得到表現(xiàn)較好的參數(shù)值)。下面給出敏感詞識(shí)別測(cè)試實(shí)例,敏感詞識(shí)別詳情如表7所示。

        表7 敏感詞識(shí)別結(jié)果

        表7中個(gè)人信息安全類(lèi)型數(shù)據(jù)精確識(shí)別只能識(shí)別一個(gè)詞語(yǔ),而本文提出的語(yǔ)義識(shí)別出3個(gè)詞語(yǔ),并根據(jù)計(jì)算得到的敏感度,判定為L(zhǎng)1等級(jí)的敏感文本。企業(yè)信息安全類(lèi)型數(shù)據(jù)和國(guó)家信息安全類(lèi)型數(shù)據(jù),精確識(shí)別沒(méi)有識(shí)別到詞語(yǔ),而語(yǔ)義識(shí)別識(shí)別出了文本中的相似詞語(yǔ)。

        可以看出,本文提出的基于Word2vec的語(yǔ)義匹配,可以從語(yǔ)義層面對(duì)文本中的詞語(yǔ)進(jìn)行識(shí)別,識(shí)別方位廣。精確匹配如果想要達(dá)到相應(yīng)的效果,需要窮舉所有敏感詞,但人工窮舉所有敏感詞的方式不可能實(shí)現(xiàn)??梢?jiàn),本文提出的方法可以避免窮舉的缺點(diǎn),通過(guò)對(duì)文本詞語(yǔ)義的理解判識(shí)別出敏感詞及其同義詞,提升識(shí)別效果。

        4 結(jié) 語(yǔ)

        本文提出的基于Word2vec的和文本關(guān)鍵詞提取相結(jié)合的敏感詞識(shí)別方法,綜合考慮了敏感詞集的語(yǔ)義以及文本詞語(yǔ)相對(duì)文本的重要程度兩個(gè)重要的特征實(shí)現(xiàn),實(shí)現(xiàn)了對(duì)文本敏感詞的識(shí)別和敏感度的劃分。實(shí)驗(yàn)結(jié)果表明,這種方法對(duì)文本中敏感詞的識(shí)別更全面、細(xì)化,而且對(duì)人工設(shè)定敏感詞集要求更低。

        猜你喜歡
        分詞語(yǔ)料敏感度
        全體外預(yù)應(yīng)力節(jié)段梁動(dòng)力特性對(duì)于接縫的敏感度研究
        結(jié)巴分詞在詞云中的應(yīng)用
        電視臺(tái)記者新聞敏感度培養(yǎng)策略
        新聞傳播(2018年10期)2018-08-16 02:10:16
        在京韓國(guó)留學(xué)生跨文化敏感度實(shí)證研究
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        值得重視的分詞的特殊用法
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        Diodes高性能汽車(chē)霍爾效應(yīng)閉鎖提供多種敏感度選擇
        《苗防備覽》中的湘西語(yǔ)料
        國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類(lèi)型與收集方法
        自拍偷拍一区二区三区四区| 日本乱子人伦在线视频| 91精品国产91久久久无码95| 日本最新在线一区二区| 日韩美女亚洲性一区二区| aⅴ精品无码无卡在线观看| 色妺妺视频网| 欧美在线Aⅴ性色| 久久这里都是精品99| 亚洲乱亚洲乱妇| 人妻丰满av∨中文久久不卡| 久久婷婷免费综合色啪| 在教室轮流澡到高潮h免费视| 亚洲男同gay在线观看| 少妇的丰满3中文字幕| 中文字幕人成乱码中文乱码| 国产日产桃色精品久久久| 中国少妇内射xxxx狠干| 91高清国产经典在线观看| 中文字幕二区三区在线| 青青草成人在线免费视频| 又爽又黄又无遮挡网站动态图| 久久久精品国产亚洲AV蜜| 色噜噜色哟哟一区二区三区| 国产av熟女一区二区三区| 制服丝袜人妻中文字幕在线| A亚洲VA欧美VA国产综合| 中文字幕人妻互换av| 妺妺窝人体色www看美女| 久久夜色撩人精品国产小说| 一级午夜理论片日本中文在线| 国产18禁黄网站免费观看| 日韩精品一区二区三区免费视频| 国内视频偷拍一区,二区,三区| av在线一区二区三区不卡| 国产精品av在线| japanese无码中文字幕| 精品视频一区二区杨幂| 成人影院在线视频免费观看| 国产免费av片在线观看播放| 香蕉亚洲欧洲在线一区|