亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Transformer的電網(wǎng)企業(yè)文件密級分類系統(tǒng)

        2023-01-17 09:00:44楊振宇
        關(guān)鍵詞:密級注意力向量

        董 添, 李 廣, 楊振宇, 張 博, 于 波, 王 巍

        (國網(wǎng)吉林省電力有限公司 黨委辦公室, 長春 130021)

        0 引 言

        作為企業(yè)的無形資產(chǎn), 企業(yè)秘密包含巨大的經(jīng)濟(jì)利益, 它不僅是一個企業(yè)安全運營的根本, 更代表了企業(yè)的核心競爭力。只有抓好定密工作, 才能抓住保密工作的源頭, 扼住保密管理過程的“咽喉”, 最大限度地確保企業(yè)秘密的安全[1], 進(jìn)而保障電網(wǎng)運行安全, 確保企業(yè)利益不受損害。電子文檔的定密本質(zhì)上是根據(jù)一定的規(guī)則, 將電子文檔劃分到不同的類別里。不同類別的電子文檔, 根據(jù)所含不同程度的領(lǐng)域信息, 對企業(yè)重要程度也不盡相同。比如電網(wǎng)企業(yè)將文檔劃分為核心商密、 普通商密和非秘密3種不同的類別。因此, 對企業(yè)文件密級分類即是對電子文檔進(jìn)行的文本分類[2]。

        2014年Kim[3]運用卷積神經(jīng)網(wǎng)絡(luò)(CNN: Convolutional Neural Network)設(shè)計出針對文本的Text-CNN模型, 首次全面超越支持向量機(jī)(SVM: Support Vector Machine)。2015年Zhang等[4]在此基礎(chǔ)上給出了關(guān)于參數(shù)調(diào)節(jié)的經(jīng)驗, 并強(qiáng)調(diào)了過濾器大小和數(shù)量是兩個最重要參數(shù)。Henaff等[5]在ICLR2017上基于記憶網(wǎng)絡(luò)(Memory Network)在問答模型成功經(jīng)驗基礎(chǔ)上提出了循環(huán)獨立網(wǎng)絡(luò)(Recurrent Entity Network), Yang等[6]提出了多層注意力網(wǎng)絡(luò)(Hierachical Attention Networks), 通過兩層將字、 句和段聯(lián)系, 證明了循環(huán)神經(jīng)網(wǎng)絡(luò)在文本領(lǐng)域的可行性。Joulin等[7]在EACL2017上提出FastText, 開啟高效基于詞嵌入的分類模型。目前國內(nèi)在基于機(jī)器學(xué)習(xí)的文本定密方法上已有很多研究, 其經(jīng)典方法主要包括: 決策樹算法[8]、 樸素貝葉斯算法[9]、K近鄰算法[10]、 SVM[11-12]和神經(jīng)網(wǎng)絡(luò)[13]等。近幾年, 也有許多學(xué)者利用深度學(xué)習(xí)方法對文本分類進(jìn)行研究, 如多層異構(gòu)注意力機(jī)制[14]、 圖卷積[15]、 混合注意力Seq2seq模型[16]、 半監(jiān)督學(xué)習(xí)算法[17]和卷積神經(jīng)網(wǎng)絡(luò)[18]等。

        目前, 國網(wǎng)吉林省電力有限公司均依靠保密人員對文件的密級進(jìn)行標(biāo)注, 標(biāo)注的準(zhǔn)確性依賴相關(guān)人員的業(yè)務(wù)素質(zhì)。隨著人工智能理論與技術(shù)的發(fā)展, 利用先進(jìn)的機(jī)器學(xué)習(xí)方法對公司文件進(jìn)行自動定密, 能減少人為因素造成的標(biāo)密不準(zhǔn)的問題, 實現(xiàn)文件秘密信息的智能化管理, 是未來電網(wǎng)公司保密管理重要的發(fā)展方向。為此, 筆者構(gòu)建一種基于Transformer模型的企業(yè)文件密級分類系統(tǒng), 該系統(tǒng)能自動提取文本密級信息的特征表達(dá), 對企業(yè)秘密文件進(jìn)行智能輔助定密的決策。

        1 系統(tǒng)整體結(jié)構(gòu)

        基于Transformer的電網(wǎng)企業(yè)文件密級分類系統(tǒng)依托Word2Vec[19]的CBOW(Continuous Bag-of-Word Model)模型對涉密文件信息關(guān)鍵詞進(jìn)行詞嵌入向量訓(xùn)練, 利用基于長短期記憶網(wǎng)絡(luò)(LSTM: Long Short-Term Memory)[20]和條件隨機(jī)場(CRF: Conditional Random Field)[21]的中文分詞技術(shù), 實現(xiàn)文本詞句的劃分, 再利用Transformer神經(jīng)網(wǎng)絡(luò)模型[22]對文本密級信息的特征進(jìn)行學(xué)習(xí), 最后利用訓(xùn)練好的模型進(jìn)行密級信息的自動分類, 整體流程如圖1所示。

        圖1 整體研究流程框圖Fig.1 The workflow of the system

        首先將現(xiàn)有的涉密文件庫中的每個文件進(jìn)行人工密級標(biāo)注, 得到含有核心商密、 普通商密、 非秘密3種密級信息的文本庫; 其次通過LSTM結(jié)合CRF對涉密文件庫中的語料進(jìn)行中文分詞, 并將訓(xùn)練好的詞嵌入矩陣集成到這些詞句中; 然后將這些數(shù)據(jù)集中的句子依次輸入構(gòu)建好的Transformer神經(jīng)網(wǎng)絡(luò)模型, 學(xué)習(xí)密級信息的特征, 得到訓(xùn)練好的模型; 最后將詞嵌入后的待測文本中的句子送入訓(xùn)練好的Transformer神經(jīng)網(wǎng)絡(luò)模型, 判定所輸入的句子的密級信息特征, 從而實現(xiàn)對文本密級信息的分類。

        2 企業(yè)文件的詞嵌入向量訓(xùn)練

        Word2Vec利用一定的方式將中文詞語或句子進(jìn)行多維向量的表示, 通過訓(xùn)練一個淺層神經(jīng)網(wǎng)絡(luò), 將每個詞語或句子都表示為一個事先設(shè)定的固定維度的詞向量[23], 這些詞向量能表示詞語或句子之間的關(guān)系。使用普通的統(tǒng)計學(xué)方法, 依據(jù)表示這些詞的向量空間構(gòu)建詞與詞之間的關(guān)系。通過訓(xùn)練CBOW模型對其進(jìn)行建模獲得詞與詞之間關(guān)系向量。CBOW模型的網(wǎng)絡(luò)結(jié)構(gòu)是只包含一個隱藏層的多輸入單輸出神經(jīng)網(wǎng)絡(luò), 網(wǎng)絡(luò)中不包含激活函數(shù), 根據(jù)從涉密文件庫中獲取的句子, 將其上下文詞語輸入CBOW神經(jīng)網(wǎng)絡(luò)中, 并輸出對當(dāng)前詞語的預(yù)測信息。在訓(xùn)練CBOW模型過程中, 需事先對網(wǎng)絡(luò)中的權(quán)重向量進(jìn)行隨機(jī)初始化。通過訓(xùn)練數(shù)據(jù)的不斷輸入, 利用隨機(jī)梯度下降算法對誤差不斷進(jìn)行反向傳播更新網(wǎng)絡(luò)中的權(quán)重參數(shù)。經(jīng)多次迭代訓(xùn)練后, CBOW神經(jīng)網(wǎng)絡(luò)模型中輸入層和隱含層之間的參數(shù)權(quán)重就是訓(xùn)練好的詞向量, 流程如圖2所示。將這些詞向量集成到文件數(shù)據(jù)庫中, 對相應(yīng)的句子或詞語進(jìn)行向量化表示。

        圖2 CBOW模型的詞嵌入流程框圖Fig.2 The workflow of word embedding for CBOW model

        3 基于自注意力網(wǎng)絡(luò)的密級分類模型

        經(jīng)典Transformer結(jié)構(gòu)包含編碼器(Encoder)和解碼器(Decoder)兩部分。其中解碼器屬于生成式模型, 常用于自然語言的生成, 因此在文本密級分類的任務(wù)中只使用編碼部分, 不使用解碼部分?;谧宰⒁饬W(wǎng)絡(luò)的密級分類模型包含嵌入層、 位置編碼、 多頭注意力機(jī)制、 殘差連接以及層歸一化等主要部分, 如圖3所示。模型根據(jù)長度為n的輸入序列X=[x1,x2,x3,…,xn]的每個單詞創(chuàng)建3個向量, 即查詢向量Q=[q1,q2,q3,…,qn]、 鍵向量K=[k1,k2,k3,…,kn]和值向量V=[v1,v2,v3,…,vn], 則有

        利用得到的Q和K并采用相乘的方式計算每兩個輸入向量之間的相關(guān)性, 即計算注意力值

        (4)

        注意力值矩陣A中的每個元素表示對應(yīng)的兩個輸入向量的注意力大小。矩陣A經(jīng)過softmax操作, 得到歸一化的注意力值矩陣A′, 其與V相乘計算每個輸入向量X對應(yīng)的自注意力層的輸出向量O=[b1,b2,b3,…,bn], 即

        O=VA′

        (5)

        具體地, 第i個輸入對應(yīng)的輸出向量為

        (6)

        圖3 基于Transformer的密點標(biāo)注模型結(jié)構(gòu)Fig.3 The structure of the Transformer-based secret information annotation model

        4 實驗結(jié)果

        4.1 包含不同企業(yè)密級文件的數(shù)據(jù)庫

        筆者共收集了國網(wǎng)吉林省電力有限公司2017-2020年財務(wù)、 發(fā)展、 紀(jì)檢和物資等核心商密文件95個, 發(fā)展和審計等普通商密文件67個以及各類非涉密文件60個。隨機(jī)選取63個核心商密文件、 43個普通商密文件、 40個非涉密文件, 構(gòu)成訓(xùn)練集。訓(xùn)練集的所有樣本用于模型的訓(xùn)練, 將其余的32個核心商密文件、 24個普通商密文件和20個非秘密文件組成測試集, 用于模型的測試與驗證。

        4.2 CBOW模型和自注意力網(wǎng)絡(luò)的參數(shù)設(shè)置

        訓(xùn)練CBOW模型時, 將網(wǎng)絡(luò)的輸出單元設(shè)為1 000, 即每個詞的嵌入向量維度為1 000。網(wǎng)絡(luò)中所有參數(shù)均隨機(jī)初始化, 學(xué)習(xí)率設(shè)置為0.015, 利用Adam優(yōu)化算法, 對交叉熵?fù)p失函數(shù)獲得的誤差進(jìn)行反向傳播及梯度下降, 經(jīng)100次的訓(xùn)練迭代, 其損失下降的曲線如圖4a所示。

        在訓(xùn)練基于自注意力網(wǎng)絡(luò)的企業(yè)文件密級分類模型時, 首先要對所有的詞進(jìn)行詞向量嵌入。對網(wǎng)絡(luò)中的參數(shù)進(jìn)行隨機(jī)初始化, 學(xué)習(xí)率為0.022, 構(gòu)建交叉熵?fù)p失函數(shù), 并利用Adam算法優(yōu)化對網(wǎng)絡(luò)的參數(shù)進(jìn)行學(xué)習(xí)訓(xùn)練, 經(jīng)70次的訓(xùn)練迭代, 其每次訓(xùn)練的損失值如圖4b所示。

        圖4 不同迭代次數(shù)下的損失下降曲線Fig.4 The loss reduction with the number of iterations

        4.3 對企業(yè)文件進(jìn)行密級分類的結(jié)果

        首先對測試集中文本的詞進(jìn)行詞嵌入編碼, 然后按順序輸入到訓(xùn)練好的文本密級分類模型中, 每個測試文本輸出3個測試分?jǐn)?shù), 按分?jǐn)?shù)被判定為屬于核心商密、 普通商密或非秘密。根據(jù)測試結(jié)果, 繪制3分類混淆矩陣, 如表1所示, 并以此計算模型的準(zhǔn)確率與召回率, 結(jié)果如表2所示。

        表1 模型測試的混淆矩陣

        表2 模型的測試準(zhǔn)確率和召回率

        訓(xùn)練好的Transformer模型只有2個文件分類錯誤, 準(zhǔn)確率為97.37%, 表明模型達(dá)到了較高的識別效果。召回率為98.67%, 說明模型對涉密文本的識別比較準(zhǔn)確, 有效防止了密點信息的泄露。

        5 結(jié) 語

        筆者針對目前企業(yè)對文本密級進(jìn)行智能化分類的需求, 提出了一種基于自注意力網(wǎng)絡(luò)的電網(wǎng)企業(yè)文件密級分類系統(tǒng)。通過涉密文件庫的構(gòu)建、 文本預(yù)處理、 中文分詞、 詞向量構(gòu)建和密級特征提取與分類等步驟, 在國網(wǎng)吉林省電力有限公司內(nèi)部核心商密文件、 普通商密文件和非涉密文件構(gòu)建的數(shù)據(jù)集上的準(zhǔn)確率為97.37%, 召回率為98.67%, 表明模型達(dá)到了較高的識別效果, 且模型對秘密文件的識別準(zhǔn)確, 有效防止了秘密文件的泄露。

        參考文獻(xiàn):

        [1]許琦敏. 企業(yè)商業(yè)秘密保護(hù)框架建立初探 [D]. 上海: 上海交通大學(xué)法學(xué)院, 2016.

        [2]章茜, 劉厚麗. 信息時代電網(wǎng)企業(yè)保密問題初探 [J]. 辦公室業(yè)務(wù), 2021(2): 109-110.

        ZHANG Qian, LIU Houli. On the Confidentiality of Power Grid Enterprises in the Information Age [J]. Office Operations, 2021(2): 109-110.

        [3]KIM Y. Convolutional Neural Networks for Sentence Classification [J/OL]. (2014-08-25)[2021-06-09]. https:∥arxiv.org/abs/1408.5882.

        [4]ZHANG Y, WALLACE B. A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification [J/OL]. (2015-10-13)[2021-06-09]. https:∥arxiv.org/abs/1510.03820.

        [5]HENAFF M, WESTON J, SZLAM A, et al. Tracking the World State with Recurrent Entity Networks [J/OL]. (2016-12-12)[2021-06-09]. https:∥arxiv.org/abs/1612.03969v1.

        [6]YANG Z, YANG D, DYER C, et al. Hierarchical Attention Networks for Document Classification [C]∥Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. [S.l.]: Idiap, 2016: 1480-1489.

        [7]JOULIN A, GRAVE E, BOJANOWSKI P, et al. Bag of Tricks for Efficient Text Classification [J/OL]. (2016-07-06)[2021-06-09]. https:∥arxiv.org/abs/1607.01759v3.

        [8]LU H, SETIONO R, LIU H. Neurorule: A Connectionist Approach to Data Mining [J/OL]. (2017-01-05)[2021-06-09]. https:∥arxiv.org/abs/1701.01358v1.

        “十二五”時期,我國面臨著經(jīng)濟(jì)發(fā)展方式轉(zhuǎn)型、產(chǎn)業(yè)結(jié)構(gòu)升級的緊迫任務(wù),經(jīng)濟(jì)發(fā)達(dá)地區(qū)應(yīng)該走在前列.經(jīng)濟(jì)發(fā)達(dá)地區(qū)在國內(nèi)直至國際上具有一定影響力的傳統(tǒng)產(chǎn)業(yè)將如何發(fā)展,是這些地區(qū)面臨的問題.梳理發(fā)展傳統(tǒng)產(chǎn)業(yè)的理論基礎(chǔ),借鑒國際經(jīng)驗,分析傳統(tǒng)產(chǎn)業(yè)發(fā)展現(xiàn)狀,有利于厘清我國特別是經(jīng)濟(jì)發(fā)達(dá)地區(qū)傳統(tǒng)產(chǎn)業(yè)今后的發(fā)展趨向.

        [9]BIJALWAN V, KUMAR V, KUMARI P, et al. KNN Based Machine Learning Approach for Text and Document Mining [J]. International Journal of Database Theory and Application, 2014, 7(1): 61-70.

        [10]吳宗卓. 基于圖和K近鄰的文本分類算法 [J]. 微型電腦應(yīng)用, 2021, 37(10): 46-49.

        WU Zongzhuo. Text Classification Algorithm Based on Graph andK-Nearest Neighbor [J]. Micorcomputer Applications, 2021, 37(10): 46-49.

        [11]FU J H, LEE S L. A Multi-Class SVM Classification System Based on Learning Methods from Indistinguishable Chinese Official Documents [J]. Expert Systems with Applications, 2012, 39(3): 3127-3134.

        [12]WANG Z Q, SUN X, ZHANG D X, et al. An Optimal SVM-Based Text Classification Algorithm [C]∥2006 International Conference on Machine Learning and Cybernetics. [S.l.]: IEEE, 2006: 1378-1381.

        [13]ZENG D, LIU K, LAI S, et al. Relation Classification via Convolutional Deep Neural Network [J/OL]. (2015-08-05)[2021-06-09]. https:∥arxiv.org/abs/1508.01006.

        [14]武淵, 徐逸卿. 基于多層異構(gòu)注意力機(jī)制和深度學(xué)習(xí)的短文本分類方法 [J/OL]. 中北大學(xué)學(xué)報(自然科學(xué)版): 1-9. [2021-06-11]. http:∥kns.cnki.net/kcms/detail/14.1332.TH.20211012.1131.002.html.

        WU Yuan, XU Yiqing. Short Text Classification Method Based on Multi-Layer Heterogeneous Attention Mechanism and Deep Learning [J/OL]. Journal of North University of China(Natural Science Edition): 1-9. [2021-06-11]. http:∥kns.cnki.net/kcms/detail/14.1332.TH.20211012.1131.002.html.

        [15]張虎, 柏萍. 融入句子中遠(yuǎn)距離詞語依賴的圖卷積短文本分類方法 [J/OL]. 計算機(jī)科學(xué): 1-11. [2021-06-11]. http:∥kns.cnki.net/kcms/detail/50.1075.TP.20211012.1417.010.html.

        ZHANG Hu, BAI Ping. Graph Convolutional Networks with Long-Distance Words Dependency in Sentences for Short Text Classification [J/OL]. Computer Science: 1-11. [2021-06-11]. http:∥kns.cnki.net/kcms/detail/50.1075.TP.20211012.1417.010.html.

        [16]陳千, 韓林, 王素格, 等. 基于混合注意力Seq2seq模型的選項多標(biāo)簽分類 [J/OL]. 計算機(jī)工程與應(yīng)用:1-10. [2021-06-11]. http:∥kns.cnki.net/kcms/detail/11.2127.TP.20210927.2339.016.html.

        CHEN Qian, HAN Lin, WANG Suge, et al. Multi-Label Classification of Options Based on Seq2seq Model of Hybrid Attention [J/OL]. Computer Engineering and Applications: 1-10. [2021-06-11]. http:∥kns.cnki.net/kcms/detail/11.2127.TP.20210927.2339.016.html.

        [17]張曉龍, 支龍, 高劍, 等. 一個半監(jiān)督學(xué)習(xí)的金融新聞文本分類算法 [J/OL]. 大數(shù)據(jù): 1-12. [2021-06-11]. http:∥kns.cnki.net/kcms/detail/10.1321.G2.20210918.1606.002.html.

        ZHANG Xiaolong, ZHI Long, GAO Jian, et al. A Semi-Supervised Learning Financial News Classification Algorithm [J/OL]. Big Data Research: 1-12. [2021-06-11]. http:∥kns.cnki.net/kcms/detail/10.1321.G2.20210918.1606.002.html.

        [18]顧凱文. 基于集成算法的密級文本分類系統(tǒng)設(shè)計 [D]. 南京: 南京郵電大學(xué)計算機(jī)學(xué)院, 2018.

        GU Kaiwen. Design of Security Text Classification System Based on Ensemble Algorithm [D]. Nanjing: School of Computer Science, Nanjing University of Posts and Telecommunications, 2018.

        [19]QUOC L E, TOMAS MIKOLOV. Distributed Representations of Sentences and Documents [C]∥Proceedings of the 31st International Conference on International Conference on Machine Learning (ICML). Beijing: ACM, 2014: Ⅱ-1188-Ⅱ-1196.

        [20]HOCHREITER S, SCHMIDHUBER J. Long Short-Term Memory [J]. Neural Computation, 1997, 9(8): 1735-1780.

        [21]JOHN D LAFFERTY, ANDREW MCCALLUM, FERNANDO C N PEREIRA, et al. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data [C]∥ Proceedings of the 18th International Conference on Machine Learning (ICML). Williamstown: ACM, 2001: 282-289.

        [22]VASWANI A, SHAZEER N, PARMAR N, et al. Attention Is All You Need [C]∥ Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS). Long Beach: MIT Press, 2017: 6000-6010.

        [23]KOWSARI, MEIMANDI J, HEIDARYSAFA, et al. Text Classification Algorithms: A Survey [J]. Information, 2019, 10(4): 150.

        猜你喜歡
        密級注意力向量
        基于VBA電子文檔標(biāo)定密級軟件的設(shè)計與實現(xiàn)
        工程與試驗(2022年3期)2022-09-27 12:42:30
        向量的分解
        讓注意力“飛”回來
        聚焦“向量與三角”創(chuàng)新題
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        高校密級檔案管理問題探析
        文件密級標(biāo)識全程管控系統(tǒng)的設(shè)計與實現(xiàn)
        人妻少妇久久中中文字幕| 亚洲AV无码乱码1区久久| 久久久调教亚洲| 国产亚洲专区一区二区| 亚洲av永久无码精品一福利| 老熟妇乱子伦av| 狠狠干视频网站| 高清成人在线视频播放| 午夜精品一区二区久久做老熟女| 国产午夜免费啪视频观看| 免费人成视频网站在线不卡| 色88久久久久高潮综合影院| 国产aⅴ无码专区亚洲av麻豆| 边做边流奶水的人妻| 国产精品亚洲A∨天堂不卡| 国产精品av网站在线| 国产高清一区二区三区四区色| 亚洲日韩在线中文字幕综合| 亚洲成a人片在线观看无码| 国产精品乱子伦一区二区三区| 精品亚洲一区二区三洲| 午夜精品久久久久久久无码| 蜜桃臀无码内射一区二区三区 | 日本午夜剧场日本东京热| av永久天堂一区二区三区| 国产97在线 | 免费| 久久中文字幕日韩无码视频| 国产一区二区三区精品毛片| 亚洲蜜臀av一区二区三区| 性欧美videofree高清精品| 欧美视频九九一区二区| 日本一区二区三区看片| 日本久久精品中文字幕| 国产精品视频露脸| 亚洲丁香五月激情综合| 蜜桃av在线播放视频| 疯狂做受xxxx高潮视频免费| 欧美日韩亚洲精品瑜伽裤| 大量老肥熟女老女人自拍| 日韩有码在线一区二区三区合集| 欧美精品欧美人与动人物牲交|