亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)信息安全防范與Web數(shù)據(jù)挖掘系統(tǒng)的設(shè)計與實現(xiàn)

        2017-03-23 21:19:09趙悅品
        現(xiàn)代電子技術(shù) 2017年4期
        關(guān)鍵詞:安全防范網(wǎng)絡(luò)信息數(shù)據(jù)挖掘

        趙悅品

        摘 要: 傳統(tǒng)的信息挖掘方法挖掘面窄,擴展性差,無法有效挖掘出網(wǎng)絡(luò)中的不安全信息。因此,設(shè)計并實現(xiàn)了網(wǎng)絡(luò)信息安全防范與Web數(shù)據(jù)挖掘系統(tǒng),其由Web文本采集模塊、文本分類模塊和類別判斷模塊構(gòu)成。Web文本采集模塊從網(wǎng)絡(luò)Web網(wǎng)頁中采集文本信息,并將信息反饋給文本分類模塊。文本分類模塊由訓練模塊、分類模塊和分類器構(gòu)成。訓練模塊采用完成分類的文本對文本分類模型進行訓練,獲取不同類別特征詞間的關(guān)聯(lián)性,塑造向量空間模型。分類模塊對將要進行分類的Web文本進行分詞處理,通過向量描述文本特征詞。分類器運算待分類文本特征向量同各類中心向量間的相似度,確保Web文本被劃分到具有最高相似度的文本類型中。類別判斷模塊辨識待分析的網(wǎng)絡(luò)文本信息是否屬于不安全信息類,并通過報警模塊對不安全信息進行報警。軟件部分給出了系統(tǒng)的功能結(jié)構(gòu)以及文本分類模塊的程序?qū)崿F(xiàn)代碼。實驗結(jié)果表明,所設(shè)計系統(tǒng)具有較高的查全率、查準率和較高的檢測性能。

        關(guān)鍵詞: 網(wǎng)絡(luò)信息; 安全防范; Web數(shù)據(jù); 數(shù)據(jù)挖掘

        中圖分類號: TN711?34; TP309 文獻標識碼: A 文章編號: 1004?373X(2017)04?0061?05

        Design and implementation of network information security protection and

        Web data mining system

        ZHAO Yuepin

        (Hebei Jiaotong Vocational and Technical college, Shijiazhuang 050091, China )

        Abstract: The traditional information mining method has narrow mining face and poor scalability, so it cannot effectively dig out the unsafety information in the network. Therefore, the network information security protection and Web data mining system was designed and realized. It is composed of Web text acquisition module, text classification module and category judgment module. The Web text acquisition module is used to collect text information from the Internet Web pages, and feeds the information back to text classification module. The text classification module is made up of training module, classification module and classifier. The training module adopts the text completing classification to train text classification model to obtain the correlation among different category feature words and establish vector space model. The classification module is used to conduct the segmentation processing of words in Web text under classification and diescribe the text feature words through vector. The classifier is used to operate the similarity between the character vector of the text under classification and all kinds of central vector to ensure that the Web text is divided into the text type with the highest similarity. The category judgment module identifies whether the network text information under analysis belongs to the unsafety information, and gives an alarm for the unsafety information through the alarm module. The system function structure and program implementation code of the text categorization module are given in the software section. The experimental results indicate that the designed system has a high recall ratio, high precision ratio and high detection performance.

        Keywords: network information; security protection; Web data; data mining

        0 引 言

        隨著網(wǎng)絡(luò)信息技術(shù)的快速發(fā)展,其在人們的生產(chǎn)和生活中發(fā)揮著越來越重要的作用。網(wǎng)絡(luò)信息技術(shù)的發(fā)展促使網(wǎng)絡(luò)經(jīng)濟發(fā)展速度提升,網(wǎng)絡(luò)信息安全問題限制了網(wǎng)絡(luò)經(jīng)濟的發(fā)展。因此,尋求有效的方法,確保網(wǎng)絡(luò)信息安全,成為相關(guān)人員分析的熱點問題[1?3]。傳統(tǒng)的信息挖掘方法,挖掘面窄,擴展性差,無法有效挖掘出網(wǎng)絡(luò)中的不安全信息。而在網(wǎng)絡(luò)中充分運用Web 數(shù)據(jù)挖掘技術(shù),可大大增強網(wǎng)絡(luò)信息安全的監(jiān)測質(zhì)量,具有重要應用意義[4?6]。

        當前針對網(wǎng)絡(luò)不安全信息的挖掘方法大都存在一定的問題,如文獻[7]分析依據(jù)規(guī)則的網(wǎng)絡(luò)不安全信息檢測方法,其采用人工事先設(shè)置好的推理規(guī)則,對Web資料進行推理分析,檢測出不安全信息。但是該方法對待檢測資料的可理解性要求較高,存在一定的局限性。文獻[8]分析了基于回歸模型檢測網(wǎng)絡(luò)不安全信息,其統(tǒng)計不安全信息發(fā)生的概率,塑造概率的回歸模型,完成不安全信息的歸類。該方法可在實際運用中獲取滿意的結(jié)果,但是需要大量的數(shù)據(jù)為分析依據(jù),且檢測效率較低。文獻[9]通過基于連接的形式,實現(xiàn)網(wǎng)絡(luò)不安全信息的檢測。其通過一定的算法模擬人的思維,完成網(wǎng)絡(luò)信息的有效分類。但是該方法檢測到的結(jié)果較為粗糙,存在較高的誤差。文獻[10]提出了基于向量的網(wǎng)絡(luò)不安全信息挖掘方法,塑造網(wǎng)絡(luò)信息的向量空間,通過分析網(wǎng)絡(luò)信息向量空間的相似度,挖掘出不安全信息。但其檢測精度較低,無法獲取令人滿意的檢測效果。

        針對上述問題,設(shè)計并實現(xiàn)了網(wǎng)絡(luò)信息安全防范與Web數(shù)據(jù)挖掘系統(tǒng),其由Web文本采集模塊、文本分類模塊和類別判斷模塊構(gòu)成。實驗結(jié)果表明,所設(shè)計系統(tǒng)具有較高的查全率、查準率和較高的檢測性能。

        1 網(wǎng)絡(luò)信息安全防范與Web數(shù)據(jù)挖掘系統(tǒng)

        1.1 系統(tǒng)的體系結(jié)構(gòu)

        塑造的網(wǎng)絡(luò)信息安全防范與Web數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)如圖1所示。

        圖1描述的系統(tǒng)體系結(jié)構(gòu)由Web文本采集模塊、文本分類模塊和類別判斷模塊構(gòu)成。Web文本采集模塊從網(wǎng)絡(luò)Web網(wǎng)頁中采集文本信息,同時將獲取的Web文本信息傳輸給文本分類模塊。文本分類模塊包括訓練模塊、分類模塊以及分類器,訓練模塊采用完成分類的文本對文本分類模型進行訓練,獲取不同類別特征詞間的關(guān)聯(lián)性,塑造向量空間模型。分類模塊對將要進行分類的文本進行分詞處理,過濾其中的停用詞,采集其中的特征詞,并通過向量描述獲取特征詞。分類器對比待分類文本特征向量同各類中心向量間的相似度,將Web文本劃分到最高相似度的文本種類內(nèi)。類別判斷模塊分析待分析的網(wǎng)絡(luò)文本信息是否屬于不安全信息類,并通過報警模塊對網(wǎng)絡(luò)不安全信息進行報警,同時通知管理人員對不安全信息進行相關(guān)的處理。

        1.2 Web文本采集模塊設(shè)計

        Web文本數(shù)據(jù)采集流程如圖2所示。

        圖2 Web文本信息自動采集流程圖

        其中的Spider采集模塊位于Web 信息采集中底層,其通過不同Web協(xié)議自主采集互聯(lián)網(wǎng)網(wǎng)頁中的信息。Web 頁面的采集,應先過濾Web頁面的圖像、聲音等非結(jié)構(gòu)數(shù)據(jù),再從頁面采集鏈接、文本的標題以及正文,確保在Web網(wǎng)頁中僅存在文本信息。

        超鏈接采集獲取URL,按照超鏈接分析算法,分析Web頁面種類,刪除無價值的分析鏈接頁面,保留頁面種類為“tex/html”的分析連接頁面。按照應答頭以及URL的文件擴展名分析頁面的種類。

        規(guī)范文本將Web文本信息劃分成文章的標題和主體,確保分類模塊可基于不同的標題和主體,設(shè)置相應的參數(shù)。具體的過程如下:

        (1) 分析正文開始位置,順次檢索文章的段落,直至某段長高于設(shè)置的正文最小長度,則說明該段文字為正文中的某段。

        (2) 在正文位置向文章開始處檢索,按照字體大小,是否居中等特征,獲取最滿意的一段文字,將其當成標題。

        (3) 檢索文章直至獲取非文字字符,將對應的內(nèi)容當成文本的主體。

        (4) 將獲取的標題和主體存儲到數(shù)據(jù)庫或格式文件內(nèi)。

        1.3 文本分類模塊設(shè)計

        文本分類模型由訓練模塊、分類模塊和分類器構(gòu)成。訓練模塊通過大量完成分類的文本進行訓練,獲取文本分類模型,獲取不同類型特征詞間的關(guān)聯(lián)性,塑造向量空間模型SVM。分類模塊將待分類的Web文本進行分詞處理,過濾其中的停用詞,獲取其中的特征詞,同時通過向量描述文本特征詞。分類器可運算待分類文本特征向量同各類中心向量間的相似度,將Web文本劃分到具有最高相似度的文本類型中。塑造的文本自動分類模塊的結(jié)構(gòu)圖如圖3所示。

        圖3中,本文訓練模塊通過分類文本訓練對文本分類模型進行訓練,獲取不同類別特征詞的關(guān)聯(lián)性,塑造向量空間模型。新文本分類模塊過濾將要進行類型劃分的文本中的分詞,獲取文本中的特征詞,并通過向量描述該特征詞。對比將要分類的文本特征向量同各類中心向量的相似度,確保文本被分類到具有最高相似度的種類中。文本訓練模塊持續(xù)進行自我學習,并接收新文本分類模塊反饋的訓練文本,提高文本分類精度。

        其中的語料搜集是從積累的大規(guī)模不安全網(wǎng)絡(luò)信息資料中,采集代表性的文本資料,將其當成訓練分類模型的語料。按照不同的文本類別塑造各類專業(yè)詞表,其中含有文本的專業(yè)詞編號、所屬類別以及專業(yè)詞等內(nèi)容。采用逆向最大匹配法采集Web文本中的最大符號串,并將其同詞典中的單詞條目進行匹配,若匹配不成功,則過濾一個漢字,再次進行匹配,直至在詞典中獲取相關(guān)的單詞,最終獲取Web文本的中文分詞。

        將新文本劃分到分類體系中的某一類時,因為分類體系中的各類別間具有一定相似性,因此需要對各類別確定合理的閾值,若Web文本在該類的閾值之上,則將文本歸類到該類中,設(shè)置的分類類別閾值為65%。

        2 軟件設(shè)計

        0 引 言

        隨著網(wǎng)絡(luò)信息技術(shù)的快速發(fā)展,其在人們的生產(chǎn)和生活中發(fā)揮著越來越重要的作用。網(wǎng)絡(luò)信息技術(shù)的發(fā)展促使網(wǎng)絡(luò)經(jīng)濟發(fā)展速度提升,網(wǎng)絡(luò)信息安全問題限制了網(wǎng)絡(luò)經(jīng)濟的發(fā)展。因此,尋求有效的方法,確保網(wǎng)絡(luò)信息安全,成為相關(guān)人員分析的熱點問題[1?3]。傳統(tǒng)的信息挖掘方法,挖掘面窄,擴展性差,無法有效挖掘出網(wǎng)絡(luò)中的不安全信息。而在網(wǎng)絡(luò)中充分運用Web 數(shù)據(jù)挖掘技術(shù),可大大增強網(wǎng)絡(luò)信息安全的監(jiān)測質(zhì)量,具有重要應用意義[4?6]。

        當前針對網(wǎng)絡(luò)不安全信息的挖掘方法大都存在一定的問題,如文獻[7]分析依據(jù)規(guī)則的網(wǎng)絡(luò)不安全信息檢測方法,其采用人工事先設(shè)置好的推理規(guī)則,對Web資料進行推理分析,檢測出不安全信息。但是該方法對待檢測資料的可理解性要求較高,存在一定的局限性。文獻[8]分析了基于回歸模型檢測網(wǎng)絡(luò)不安全信息,其統(tǒng)計不安全信息發(fā)生的概率,塑造概率的回歸模型,完成不安全信息的歸類。該方法可在實際運用中獲取滿意的結(jié)果,但是需要大量的數(shù)據(jù)為分析依據(jù),且檢測效率較低。文獻[9]通過基于連接的形式,實現(xiàn)網(wǎng)絡(luò)不安全信息的檢測。其通過一定的算法模擬人的思維,完成網(wǎng)絡(luò)信息的有效分類。但是該方法檢測到的結(jié)果較為粗糙,存在較高的誤差。文獻[10]提出了基于向量的網(wǎng)絡(luò)不安全信息挖掘方法,塑造網(wǎng)絡(luò)信息的向量空間,通過分析網(wǎng)絡(luò)信息向量空間的相似度,挖掘出不安全信息。但其檢測精度較低,無法獲取令人滿意的檢測效果。

        針對上述問題,設(shè)計并實現(xiàn)了網(wǎng)絡(luò)信息安全防范與Web數(shù)據(jù)挖掘系統(tǒng),其由Web文本采集模塊、文本分類模塊和類別判斷模塊構(gòu)成。實驗結(jié)果表明,所設(shè)計系統(tǒng)具有較高的查全率、查準率和較高的檢測性能。

        1 網(wǎng)絡(luò)信息安全防范與Web數(shù)據(jù)挖掘系統(tǒng)

        1.1 系統(tǒng)的體系結(jié)構(gòu)

        塑造的網(wǎng)絡(luò)信息安全防范與Web數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)如圖1所示。

        圖1描述的系統(tǒng)體系結(jié)構(gòu)由Web文本采集模塊、文本分類模塊和類別判斷模塊構(gòu)成。Web文本采集模塊從網(wǎng)絡(luò)Web網(wǎng)頁中采集文本信息,同時將獲取的Web文本信息傳輸給文本分類模塊。文本分類模塊包括訓練模塊、分類模塊以及分類器,訓練模塊采用完成分類的文本對文本分類模型進行訓練,獲取不同類別特征詞間的關(guān)聯(lián)性,塑造向量空間模型。分類模塊對將要進行分類的文本進行分詞處理,過濾其中的停用詞,采集其中的特征詞,并通過向量描述獲取特征詞。分類器對比待分類文本特征向量同各類中心向量間的相似度,將Web文本劃分到最高相似度的文本種類內(nèi)。類別判斷模塊分析待分析的網(wǎng)絡(luò)文本信息是否屬于不安全信息類,并通過報警模塊對網(wǎng)絡(luò)不安全信息進行報警,同時通知管理人員對不安全信息進行相關(guān)的處理。

        1.2 Web文本采集模塊設(shè)計

        Web文本數(shù)據(jù)采集流程如圖2所示。

        圖2 Web文本信息自動采集流程圖

        其中的Spider采集模塊位于Web 信息采集中底層,其通過不同Web協(xié)議自主采集互聯(lián)網(wǎng)網(wǎng)頁中的信息。Web 頁面的采集,應先過濾Web頁面的圖像、聲音等非結(jié)構(gòu)數(shù)據(jù),再從頁面采集鏈接、文本的標題以及正文,確保在Web網(wǎng)頁中僅存在文本信息。

        超鏈接采集獲取URL,按照超鏈接分析算法,分析Web頁面種類,刪除無價值的分析鏈接頁面,保留頁面種類為“tex/html”的分析連接頁面。按照應答頭以及URL的文件擴展名分析頁面的種類。

        規(guī)范文本將Web文本信息劃分成文章的標題和主體,確保分類模塊可基于不同的標題和主體,設(shè)置相應的參數(shù)。具體的過程如下:

        (1) 分析正文開始位置,順次檢索文章的段落,直至某段長高于設(shè)置的正文最小長度,則說明該段文字為正文中的某段。

        (2) 在正文位置向文章開始處檢索,按照字體大小,是否居中等特征,獲取最滿意的一段文字,將其當成標題。

        (3) 檢索文章直至獲取非文字字符,將對應的內(nèi)容當成文本的主體。

        (4) 將獲取的標題和主體存儲到數(shù)據(jù)庫或格式文件內(nèi)。

        1.3 文本分類模塊設(shè)計

        文本分類模型由訓練模塊、分類模塊和分類器構(gòu)成。訓練模塊通過大量完成分類的文本進行訓練,獲取文本分類模型,獲取不同類型特征詞間的關(guān)聯(lián)性,塑造向量空間模型SVM。分類模塊將待分類的Web文本進行分詞處理,過濾其中的停用詞,獲取其中的特征詞,同時通過向量描述文本特征詞。分類器可運算待分類文本特征向量同各類中心向量間的相似度,將Web文本劃分到具有最高相似度的文本類型中。塑造的文本自動分類模塊的結(jié)構(gòu)圖如圖3所示。

        圖3中,本文訓練模塊通過分類文本訓練對文本分類模型進行訓練,獲取不同類別特征詞的關(guān)聯(lián)性,塑造向量空間模型。新文本分類模塊過濾將要進行類型劃分的文本中的分詞,獲取文本中的特征詞,并通過向量描述該特征詞。對比將要分類的文本特征向量同各類中心向量的相似度,確保文本被分類到具有最高相似度的種類中。文本訓練模塊持續(xù)進行自我學習,并接收新文本分類模塊反饋的訓練文本,提高文本分類精度。

        其中的語料搜集是從積累的大規(guī)模不安全網(wǎng)絡(luò)信息資料中,采集代表性的文本資料,將其當成訓練分類模型的語料。按照不同的文本類別塑造各類專業(yè)詞表,其中含有文本的專業(yè)詞編號、所屬類別以及專業(yè)詞等內(nèi)容。采用逆向最大匹配法采集Web文本中的最大符號串,并將其同詞典中的單詞條目進行匹配,若匹配不成功,則過濾一個漢字,再次進行匹配,直至在詞典中獲取相關(guān)的單詞,最終獲取Web文本的中文分詞。

        將新文本劃分到分類體系中的某一類時,因為分類體系中的各類別間具有一定相似性,因此需要對各類別確定合理的閾值,若Web文本在該類的閾值之上,則將文本歸類到該類中,設(shè)置的分類類別閾值為65%。

        2 軟件設(shè)計

        0 引 言

        隨著網(wǎng)絡(luò)信息技術(shù)的快速發(fā)展,其在人們的生產(chǎn)和生活中發(fā)揮著越來越重要的作用。網(wǎng)絡(luò)信息技術(shù)的發(fā)展促使網(wǎng)絡(luò)經(jīng)濟發(fā)展速度提升,網(wǎng)絡(luò)信息安全問題限制了網(wǎng)絡(luò)經(jīng)濟的發(fā)展。因此,尋求有效的方法,確保網(wǎng)絡(luò)信息安全,成為相關(guān)人員分析的熱點問題[1?3]。傳統(tǒng)的信息挖掘方法,挖掘面窄,擴展性差,無法有效挖掘出網(wǎng)絡(luò)中的不安全信息。而在網(wǎng)絡(luò)中充分運用Web 數(shù)據(jù)挖掘技術(shù),可大大增強網(wǎng)絡(luò)信息安全的監(jiān)測質(zhì)量,具有重要應用意義[4?6]。

        當前針對網(wǎng)絡(luò)不安全信息的挖掘方法大都存在一定的問題,如文獻[7]分析依據(jù)規(guī)則的網(wǎng)絡(luò)不安全信息檢測方法,其采用人工事先設(shè)置好的推理規(guī)則,對Web資料進行推理分析,檢測出不安全信息。但是該方法對待檢測資料的可理解性要求較高,存在一定的局限性。文獻[8]分析了基于回歸模型檢測網(wǎng)絡(luò)不安全信息,其統(tǒng)計不安全信息發(fā)生的概率,塑造概率的回歸模型,完成不安全信息的歸類。該方法可在實際運用中獲取滿意的結(jié)果,但是需要大量的數(shù)據(jù)為分析依據(jù),且檢測效率較低。文獻[9]通過基于連接的形式,實現(xiàn)網(wǎng)絡(luò)不安全信息的檢測。其通過一定的算法模擬人的思維,完成網(wǎng)絡(luò)信息的有效分類。但是該方法檢測到的結(jié)果較為粗糙,存在較高的誤差。文獻[10]提出了基于向量的網(wǎng)絡(luò)不安全信息挖掘方法,塑造網(wǎng)絡(luò)信息的向量空間,通過分析網(wǎng)絡(luò)信息向量空間的相似度,挖掘出不安全信息。但其檢測精度較低,無法獲取令人滿意的檢測效果。

        針對上述問題,設(shè)計并實現(xiàn)了網(wǎng)絡(luò)信息安全防范與Web數(shù)據(jù)挖掘系統(tǒng),其由Web文本采集模塊、文本分類模塊和類別判斷模塊構(gòu)成。實驗結(jié)果表明,所設(shè)計系統(tǒng)具有較高的查全率、查準率和較高的檢測性能。

        1 網(wǎng)絡(luò)信息安全防范與Web數(shù)據(jù)挖掘系統(tǒng)

        1.1 系統(tǒng)的體系結(jié)構(gòu)

        塑造的網(wǎng)絡(luò)信息安全防范與Web數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)如圖1所示。

        圖1描述的系統(tǒng)體系結(jié)構(gòu)由Web文本采集模塊、文本分類模塊和類別判斷模塊構(gòu)成。Web文本采集模塊從網(wǎng)絡(luò)Web網(wǎng)頁中采集文本信息,同時將獲取的Web文本信息傳輸給文本分類模塊。文本分類模塊包括訓練模塊、分類模塊以及分類器,訓練模塊采用完成分類的文本對文本分類模型進行訓練,獲取不同類別特征詞間的關(guān)聯(lián)性,塑造向量空間模型。分類模塊對將要進行分類的文本進行分詞處理,過濾其中的停用詞,采集其中的特征詞,并通過向量描述獲取特征詞。分類器對比待分類文本特征向量同各類中心向量間的相似度,將Web文本劃分到最高相似度的文本種類內(nèi)。類別判斷模塊分析待分析的網(wǎng)絡(luò)文本信息是否屬于不安全信息類,并通過報警模塊對網(wǎng)絡(luò)不安全信息進行報警,同時通知管理人員對不安全信息進行相關(guān)的處理。

        1.2 Web文本采集模塊設(shè)計

        Web文本數(shù)據(jù)采集流程如圖2所示。

        圖2 Web文本信息自動采集流程圖

        其中的Spider采集模塊位于Web 信息采集中底層,其通過不同Web協(xié)議自主采集互聯(lián)網(wǎng)網(wǎng)頁中的信息。Web 頁面的采集,應先過濾Web頁面的圖像、聲音等非結(jié)構(gòu)數(shù)據(jù),再從頁面采集鏈接、文本的標題以及正文,確保在Web網(wǎng)頁中僅存在文本信息。

        超鏈接采集獲取URL,按照超鏈接分析算法,分析Web頁面種類,刪除無價值的分析鏈接頁面,保留頁面種類為“tex/html”的分析連接頁面。按照應答頭以及URL的文件擴展名分析頁面的種類。

        規(guī)范文本將Web文本信息劃分成文章的標題和主體,確保分類模塊可基于不同的標題和主體,設(shè)置相應的參數(shù)。具體的過程如下:

        (1) 分析正文開始位置,順次檢索文章的段落,直至某段長高于設(shè)置的正文最小長度,則說明該段文字為正文中的某段。

        (2) 在正文位置向文章開始處檢索,按照字體大小,是否居中等特征,獲取最滿意的一段文字,將其當成標題。

        (3) 檢索文章直至獲取非文字字符,將對應的內(nèi)容當成文本的主體。

        (4) 將獲取的標題和主體存儲到數(shù)據(jù)庫或格式文件內(nèi)。

        1.3 文本分類模塊設(shè)計

        文本分類模型由訓練模塊、分類模塊和分類器構(gòu)成。訓練模塊通過大量完成分類的文本進行訓練,獲取文本分類模型,獲取不同類型特征詞間的關(guān)聯(lián)性,塑造向量空間模型SVM。分類模塊將待分類的Web文本進行分詞處理,過濾其中的停用詞,獲取其中的特征詞,同時通過向量描述文本特征詞。分類器可運算待分類文本特征向量同各類中心向量間的相似度,將Web文本劃分到具有最高相似度的文本類型中。塑造的文本自動分類模塊的結(jié)構(gòu)圖如圖3所示。

        圖3中,本文訓練模塊通過分類文本訓練對文本分類模型進行訓練,獲取不同類別特征詞的關(guān)聯(lián)性,塑造向量空間模型。新文本分類模塊過濾將要進行類型劃分的文本中的分詞,獲取文本中的特征詞,并通過向量描述該特征詞。對比將要分類的文本特征向量同各類中心向量的相似度,確保文本被分類到具有最高相似度的種類中。文本訓練模塊持續(xù)進行自我學習,并接收新文本分類模塊反饋的訓練文本,提高文本分類精度。

        其中的語料搜集是從積累的大規(guī)模不安全網(wǎng)絡(luò)信息資料中,采集代表性的文本資料,將其當成訓練分類模型的語料。按照不同的文本類別塑造各類專業(yè)詞表,其中含有文本的專業(yè)詞編號、所屬類別以及專業(yè)詞等內(nèi)容。采用逆向最大匹配法采集Web文本中的最大符號串,并將其同詞典中的單詞條目進行匹配,若匹配不成功,則過濾一個漢字,再次進行匹配,直至在詞典中獲取相關(guān)的單詞,最終獲取Web文本的中文分詞。

        將新文本劃分到分類體系中的某一類時,因為分類體系中的各類別間具有一定相似性,因此需要對各類別確定合理的閾值,若Web文本在該類的閾值之上,則將文本歸類到該類中,設(shè)置的分類類別閾值為65%。

        2 軟件設(shè)計

        猜你喜歡
        安全防范網(wǎng)絡(luò)信息數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        老年病人輸液的護理安全防范與管理
        銀行金融系統(tǒng)中的安全防范技術(shù)
        網(wǎng)絡(luò)信息下高中生投資理財觀念培養(yǎng)
        時代金融(2016年27期)2016-11-25 18:33:25
        透視網(wǎng)絡(luò)信息對中國共產(chǎn)黨和政府的隱性攻擊分析方法研究
        網(wǎng)絡(luò)發(fā)展對大學生思政教育帶來的挑戰(zhàn)及應對策略
        對計算機網(wǎng)絡(luò)信息和網(wǎng)絡(luò)安全及其防護策略的探討
        社會反恐形勢與大學生安全防護能力分析
        淺談醫(yī)院網(wǎng)絡(luò)安全
        科技視界(2016年6期)2016-07-12 15:12:27
        无码午夜成人1000部免费视频| 国产亚洲精品综合在线网站| 日韩精品免费视频久久| 午夜福利一区在线观看中文字幕| 国产丝袜美女一区二区三区| 啪啪无码人妻丰满熟妇| 国产短视频精品区第一页| 99热久久只有这里是精品 | 亚洲一区二区三区免费的视频| 日本午夜理论片在线观看| 亚洲欧美日韩另类精品一区| 国产99视频精品免视看9| 国产精品白浆视频一区| 午夜黄色一区二区不卡| 黄片视频大全在线免费播放| 亚洲综合av永久无码精品一区二区| 欧美野外疯狂做受xxxx高潮| 久久男人av资源网站无码| 区二区三区亚洲精品无| 国内自拍色第一页第二页| 国产乱子伦| 伊人久久综合精品无码av专区| 久久人妻av无码中文专区| 一本色道精品亚洲国产一区| 亚洲av无码成h在线观看| 免费人成视频在线| 98精品国产综合久久| 一本色道久久88综合亚精品| 亚洲综合日韩一二三区| 国产高跟黑色丝袜在线| 色拍拍在线精品视频| 一区二区视频网站在线观看 | 无码中文字幕av免费放| 成人免费毛片立即播放| 国产高清乱码又大又圆| 日韩亚洲欧美中文在线| 日本精品网| 亚洲中文字幕乱码免费看| 久久免费看黄a级毛片| 国产精品视频露脸| 久久精品国产亚洲综合色|