亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        移動(dòng)IP化網(wǎng)絡(luò)文本分類聚類模型

        2014-07-29 02:13:11戴麗貞
        中國新通信 2014年2期
        關(guān)鍵詞:文本分類

        戴麗貞

        【摘要】 隨著移動(dòng)運(yùn)營商網(wǎng)絡(luò)IP化改造日益深入,運(yùn)營商內(nèi)部積累了大量跟IP化網(wǎng)絡(luò)相關(guān)的文本,現(xiàn)有處理移動(dòng)IP化網(wǎng)絡(luò)文本的方法一般是采用人工分類歸檔的方式,這種手工的方法有很多不盡如人意的地方,本文在基于文本分類、聚類算法的基礎(chǔ)上,提出了一套移動(dòng)IP化網(wǎng)絡(luò)文本分類聚類模型,該模型能夠?qū)σ苿?dòng)IP化網(wǎng)絡(luò)文本進(jìn)行自動(dòng)分類,并進(jìn)行系統(tǒng)化管理。實(shí)驗(yàn)結(jié)果表明,該模型的文本分類準(zhǔn)確率很高,改變了中國移動(dòng)在開展IP化過程中缺乏智能化分析系統(tǒng)的現(xiàn)狀,提高了網(wǎng)絡(luò)維護(hù)的針對性、主動(dòng)性、和前瞻性。

        【關(guān)鍵詞】 IP化網(wǎng)絡(luò)文本 文本分類 文本聚類 組織框架

        一、引言

        隨著移動(dòng)運(yùn)營商網(wǎng)絡(luò)IP化改造日益深入,運(yùn)營商內(nèi)部積累了大量跟IP化網(wǎng)絡(luò)相關(guān)的文本,而如果移動(dòng)IP化網(wǎng)絡(luò)文本無法快速、準(zhǔn)確地進(jìn)行分類,將會(huì)直接造成網(wǎng)絡(luò)維護(hù)工作無章可循,進(jìn)而影響到網(wǎng)絡(luò)的安全性?,F(xiàn)有處理移動(dòng)IP化網(wǎng)絡(luò)文本的方法一般是采用人工分類歸檔的方式,這種手工的方法有很多不盡如人意的地方,因此,迫切需要人們研究出相關(guān)工具以對大規(guī)模的文本信息進(jìn)行有效的過濾并進(jìn)行自動(dòng)分類組織。

        本文在基于文本分類[1] [3]、聚類算法的基礎(chǔ)上實(shí)現(xiàn)了一種建立移動(dòng)IP化網(wǎng)絡(luò)文本組織框架的方法,提出了一套完備且可完善的文本組織框架:采用人工聚類與機(jī)器聚類相結(jié)合的方式得到了一套科學(xué)合理的文本組織方法;采用重復(fù)分類訓(xùn)練學(xué)習(xí)過程及定期重復(fù)框架聚類過程的方式實(shí)現(xiàn)了該套文本組織框架的動(dòng)態(tài)完善;將移動(dòng)IP化網(wǎng)絡(luò)文本進(jìn)行系統(tǒng)化管理,網(wǎng)管人員可隨時(shí)根據(jù)需要從文本庫中搜索和查詢所需要的文本,獲取相關(guān)知識(shí)。對文本分類聚類模型進(jìn)行測試,結(jié)果顯示,多聚類算法得出的第二文本框架與專家分類框架具有很大區(qū)分特征[8-11],文本分類的正確率達(dá)到了70%以上,基于內(nèi)容的索引搜索效率很高,提高了文本管理人員查找文本的效率。系統(tǒng)的部署與應(yīng)用,改變了中國移動(dòng)在開展IP化過程中缺乏智能化分析系統(tǒng)的現(xiàn)狀,提高了網(wǎng)絡(luò)維護(hù)的針對性、主動(dòng)性和前瞻性。

        二、文本分類聚類技術(shù)模型設(shè)計(jì)

        2.1 現(xiàn)有文本處理方式存在的問題

        現(xiàn)有處理移動(dòng)IP化網(wǎng)絡(luò)文本的方法一般是采用人工分類歸檔的方式,網(wǎng)管人員通過查看一定數(shù)量的移動(dòng)IP化網(wǎng)絡(luò)文本的全部內(nèi)容、摘要或關(guān)鍵字根據(jù)個(gè)人的工作經(jīng)驗(yàn)、理解預(yù)先建立移動(dòng)IP化網(wǎng)絡(luò)文本組織框架,然后根據(jù)建立的移動(dòng)IP化網(wǎng)絡(luò)文本組織框架以及新的移動(dòng)IP化網(wǎng)絡(luò)文本中包含的相關(guān)內(nèi)容,對該新文本進(jìn)行手工分類歸檔,并通過不定期的檢查和整理的方式維護(hù)分類歸檔的移動(dòng)IP化網(wǎng)絡(luò)文本。當(dāng)需要查詢IP化網(wǎng)絡(luò)相關(guān)文本時(shí),輸入相關(guān)搜索特征詞,系統(tǒng)從移動(dòng)IP化網(wǎng)絡(luò)文本組織框架的相應(yīng)分類中查詢特征詞對應(yīng)的文本,并輸出給查詢?nèi)藛T。

        有上述可見,現(xiàn)有移動(dòng)IP化網(wǎng)絡(luò)文本(以下簡稱為文本)處理方式存在以下缺點(diǎn):(1)文本組織框架缺乏科學(xué)性及一致性?,F(xiàn)有的文本處理方式屬于粗放式的文檔管理方式,文本組織框架以及文檔的整理分類完全取決于網(wǎng)管人員的專業(yè)知識(shí)水平、業(yè)務(wù)能力及工作態(tài)度,分類的方式受個(gè)人主觀因素影響較大,不同的人有不同的看法,在這樣的方式下,很難保證各個(gè)網(wǎng)管人員構(gòu)建的文本組織框架采用統(tǒng)一客觀的分類標(biāo)準(zhǔn),缺乏科學(xué)合理性。(2)效率較低,準(zhǔn)確率不能保證。人工歸檔的方式需要消耗較多的時(shí)間,尤其在文本數(shù)量較大的情況下,不能實(shí)現(xiàn)較高的處理效率;并且這種人工歸檔的分類方式還會(huì)受到一些個(gè)人因素的影響,如專業(yè)知識(shí)水平、人為判斷的失誤等的影響,使得分類準(zhǔn)確率不高[2]。(3)不利于網(wǎng)管人員的檢索、利用現(xiàn)有文本知識(shí)。采用現(xiàn)有的處理方式處理移動(dòng)IP化網(wǎng)絡(luò)文本,即網(wǎng)管人員按照自身已經(jīng)建立的文本組織框架以及閱讀文本后的理解來對文本分類,使得不同專業(yè)人員的分類方式存在偏差。由于未能采用統(tǒng)一客觀的分類標(biāo)準(zhǔn),從而使得相應(yīng)的網(wǎng)管人員對該文本的搜索、查詢與利用變得十分困難,致使文本知識(shí)的利用率低下,而且,檢索得到的文本出現(xiàn)重復(fù),也增加了檢索所需的時(shí)間,浪費(fèi)了系統(tǒng)資源。

        2.2 文本分類聚類模型的設(shè)計(jì)思路

        該模型的主要理論基礎(chǔ)是文件聚類和文本分類算法,前者的基礎(chǔ)是先把文本進(jìn)行分詞[4]和向量化表示[5] [6],即預(yù)處理過程,之后根據(jù)一定的聚類算法把具有相似性質(zhì)的文本歸為一類,以此為基礎(chǔ)可形成文本組織框架;分類的過程則是在已有文本框架的基礎(chǔ)上進(jìn)行數(shù)據(jù)的訓(xùn)練過程,形成一定的分類器模型,當(dāng)有新文本進(jìn)來時(shí)可以自動(dòng)根據(jù)文本內(nèi)容進(jìn)行文本分類。具體過程如圖1所示。

        為了改變目前IP化網(wǎng)絡(luò)文本管理過程中的不足,本文在對文本挖掘進(jìn)行較為廣泛的探索與研究的基礎(chǔ)上,結(jié)合人工分類及基于統(tǒng)計(jì)方法的文本聚類與文本分類方法,設(shè)計(jì)了一種面向IP化網(wǎng)絡(luò)文本挖掘算法模型。該模型充分利用了IP化網(wǎng)絡(luò)中專業(yè)術(shù)語較多的特點(diǎn),通過總結(jié)歸納這些術(shù)語,形成分詞庫,抽取文本的特征詞[8-11],計(jì)算文本特征向量[8-11],實(shí)現(xiàn)文本聚類及文本分類算法的應(yīng)用。

        2.3 文本分類聚類模型

        對文本數(shù)據(jù)的建模和處理思路如圖2所示。

        (1)模型數(shù)據(jù)源

        IP承載網(wǎng)建設(shè)與維護(hù)相關(guān)OA文、維護(hù)管理辦法、建設(shè)文檔等。核心網(wǎng)VOIP改造相關(guān)OA文、維護(hù)管理辦法、建設(shè)文檔等。

        (2)模型大致流程

        首先為保證所形成的文本組織框架的質(zhì)量,需要選擇精度高、適應(yīng)性強(qiáng)的聚類算法作為聚類工具,在流程的開始階段需要進(jìn)行小樣本的數(shù)據(jù)實(shí)驗(yàn),對K-means[7]、模糊C、蟻群以及層次聚類算法所形成的文本框架進(jìn)行比較,并結(jié)合人工分類框架進(jìn)行評估,最后選出蟻群算法這種最適合IP化網(wǎng)絡(luò)安全文本的聚類算法作為后續(xù)流程的主要聚類算法。

        在選出最優(yōu)的聚類算法之后開始使用該算法對全部的文本集進(jìn)行聚類,形成初步的文本組織框架;該框架作為分類的先驗(yàn)知識(shí)進(jìn)行分類的訓(xùn)練形成分類器,訓(xùn)練方法有很多,本文采用了支撐向量機(jī)(SVM [6])和KNN[7]兩種方法進(jìn)行訓(xùn)練,通過比較發(fā)現(xiàn)前者較優(yōu)。

        分類器形成之后,當(dāng)有新的文本進(jìn)來時(shí),分類器會(huì)自動(dòng)根據(jù)文本內(nèi)容對其進(jìn)行分類,并將文本歸入相應(yīng)的文件夾下。每周一段時(shí)間可以結(jié)合專家知識(shí)對誤判率進(jìn)行計(jì)算和評估,如果誤判率高于臨界值,就說明原來的文本框架已經(jīng)不再適用于新的文本集,需要對現(xiàn)有的全部文本集進(jìn)行重新聚類形成新的文本分類框架,這樣就實(shí)現(xiàn)了文本組織框架的更新和完善過程。基于所形成的文本框架,網(wǎng)絡(luò)安全維護(hù)人員可以進(jìn)行方便快捷的檢索和學(xué)習(xí)。

        (3)模型預(yù)期效果

        ①可優(yōu)選一種與人工分類結(jié)果較為接近的文本聚類算法,可實(shí)現(xiàn)大數(shù)據(jù)量文本的準(zhǔn)確聚類;②可對新增文本進(jìn)行較為準(zhǔn)確的分類,減輕網(wǎng)管人員進(jìn)行文本管理的壓力;③可實(shí)現(xiàn)對文本的多為搜索,幫忙網(wǎng)管人員更為精確地找到所需要的文本。

        三、文本分類聚類技術(shù)模型的實(shí)現(xiàn)

        3.1 文本分類聚類技術(shù)模型實(shí)現(xiàn)概述

        所述的數(shù)據(jù)輸入模塊用于采集IP化網(wǎng)絡(luò)安全文本數(shù)據(jù);所述的數(shù)據(jù)分析模型用于接收數(shù)據(jù)輸入模塊傳遞來的數(shù)據(jù),并且對接收到的數(shù)據(jù)進(jìn)行挖掘分析,形成四個(gè)數(shù)據(jù)分析子模塊;所述的分析結(jié)果輸出模塊用于把數(shù)據(jù)分析模塊分析的結(jié)果結(jié)合輸出要求呈現(xiàn)給輸出端;在模型中,所述的移動(dòng)IP化網(wǎng)絡(luò)文本數(shù)據(jù)包括設(shè)備指標(biāo)文本、IP承載網(wǎng)文本、交換設(shè)備文本、全網(wǎng)業(yè)務(wù)文本及安全管理與網(wǎng)管支撐文本;所述的數(shù)據(jù)分析模塊中的四個(gè)數(shù)據(jù)分析子模塊分別是:專家處理子模塊、多聚類算法子模塊、文本分類及文本框架完善子模塊和文本組織框架合成模塊。具體如圖3所示。

        本文同時(shí)提供上述文本數(shù)據(jù)分析模型的實(shí)現(xiàn)方法,具體步驟如圖4所示。

        下面結(jié)合實(shí)例給予說明:

        1.數(shù)據(jù)輸入步驟:通過數(shù)據(jù)輸入模塊導(dǎo)入IP化網(wǎng)絡(luò)文本數(shù)據(jù),IP化網(wǎng)絡(luò)文本數(shù)據(jù)包括集團(tuán)公司、省公司、地市公司的很多發(fā)文、管理辦法和不同地方網(wǎng)絡(luò)維護(hù)案例文本及不同部門交流文本數(shù)據(jù)。

        2. 數(shù)據(jù)分析步驟:

        A.專家處理子模塊步驟:本文的方法以IP化網(wǎng)絡(luò)文本數(shù)據(jù)為基礎(chǔ),先通過專家處理子模塊讓專家對現(xiàn)有小樣本的文本數(shù)據(jù)進(jìn)行整理,得出IP化網(wǎng)絡(luò)文本數(shù)據(jù)的分類框架。比如框架第一層氛圍分為指標(biāo)類材料、IP承載網(wǎng)類材料、交換設(shè)備類材料、全網(wǎng)業(yè)務(wù)材料、安全管理與網(wǎng)管支撐材料五大類,每一大類都又分為不同子類。如表1所示。

        B.多聚類算法處理子模塊:通過聚類算法子模塊采用不同的聚類算法對小樣本的IP化網(wǎng)絡(luò)文本數(shù)據(jù)進(jìn)行分析,得出不同的分類結(jié)果;比如通過k-means聚類算法、模糊c均值聚類算法、蟻群聚類算法、層次聚類算法等不同聚類方法進(jìn)行聚類計(jì)算,并輸出聚類結(jié)果。通過對小數(shù)據(jù)樣本聚類得出的結(jié)果作為評價(jià)來選出適合IP化網(wǎng)絡(luò)文本的聚類算法,當(dāng)遇到大的數(shù)據(jù)樣本時(shí),應(yīng)用已經(jīng)選出的聚類算法進(jìn)行挖掘。比如小樣本中蟻群聚類算法結(jié)果最為貼近專家分類結(jié)果,后面的聚類方法就都采用蟻群聚類算法來進(jìn)行挖掘。

        C.文本組織框架合成模塊:把聚類算法子模塊輸出的分類結(jié)果和專家分類結(jié)果比對,采用專家分類結(jié)果作為文本數(shù)據(jù)分類的框架,將小樣本的專家分類結(jié)果作為指導(dǎo),將和專家分類結(jié)果最相近的聚類算法的聚類結(jié)果填入專家分類結(jié)果中,實(shí)現(xiàn)全部文本數(shù)據(jù)的合理分類。

        D.文本分類及文本框架完善子模塊:新的文本進(jìn)來,文本分類及文本框架完善模塊會(huì)依據(jù)現(xiàn)有合理的文本組織通過文本分類算法對新進(jìn)入的文本進(jìn)行分類,專家判斷錯(cuò)誤率到達(dá)了多少,如果錯(cuò)誤率高于閾值,就會(huì)記錄為誤判,把所有的數(shù)據(jù)用在階段最優(yōu)的算法重新進(jìn)行聚類計(jì)算,然后通過文本組織框架合成模塊合成新的文本組織框架;具體的邏輯框架圖如圖5所示。

        3.分析結(jié)果輸出步驟:在數(shù)據(jù)分析結(jié)果輸出模塊,用戶可以根據(jù)自己的需求通過樹形框架結(jié)構(gòu)找到自己想要的文本,也可以通過關(guān)鍵詞搜索,得到最相關(guān)的搜索結(jié)果。大大提高對公司現(xiàn)有文本資源的利用效率。

        3.2 文本分類聚類技術(shù)模型的具體實(shí)現(xiàn)

        本模型是一種建立移動(dòng)IP化網(wǎng)絡(luò)文本組織框架的方法。該方法根據(jù)預(yù)先設(shè)定的樣本量建立第一文本組織框架,應(yīng)用多聚類算法對所述預(yù)先設(shè)定的樣本量進(jìn)行聚類,選定與所述建立的第一文本組織框架最為相似的聚類算法建立的第二文本組織框架,根據(jù)所述第一文本組織框架和所述第二文本組織框架建立文本組織框架。本模型在實(shí)現(xiàn)過程中具體流程如圖6所示。

        步驟1:根據(jù)預(yù)先設(shè)定的樣本量建立第一文本組織框架。本步驟中,預(yù)先設(shè)定的樣本量為一定數(shù)量的IP化網(wǎng)絡(luò)文本,本實(shí)驗(yàn)中,預(yù)先設(shè)定的樣本量為小樣本量,IP化網(wǎng)絡(luò)領(lǐng)域內(nèi)的專業(yè)技術(shù)人員根據(jù)已有的專業(yè)技術(shù)框架、自身的工作過程中積累的經(jīng)驗(yàn)及對文本的理解來實(shí)現(xiàn)IP化網(wǎng)絡(luò)文本組織框架的制定,比如,根據(jù)各文本的文本特征向量[8-11],建立五大類的IP化網(wǎng)絡(luò)文本組織框架,即文本組織框架包括:指標(biāo)類材料、IP承載網(wǎng)類材料、交換設(shè)備類材料、全網(wǎng)業(yè)務(wù)材料及安全管理與網(wǎng)管支撐材料,并計(jì)算每類對應(yīng)的分類文本特征向量[8-11]。當(dāng)然,實(shí)際應(yīng)用中,也可以根據(jù)實(shí)際的需要,按照文本特征向量[8-11]構(gòu)造其他類型的IP化網(wǎng)絡(luò)文本組織框架,比如,將IP化網(wǎng)絡(luò)文本按照集團(tuán)公司、省公司、地市公司的發(fā)文、管理辦法、不同地方網(wǎng)絡(luò)維護(hù)案例文本及不同部門交流文本數(shù)據(jù)進(jìn)行劃分,構(gòu)造相應(yīng)類別的IP化網(wǎng)絡(luò)文本組織框架。

        在模型實(shí)現(xiàn)過程中,對于IP化網(wǎng)絡(luò)文本組織框架下的每個(gè)大類,又可以分為不同的子類并設(shè)置每個(gè)子類對應(yīng)的子分類文本特征向量[8-11],比如,將IP化承載網(wǎng)類材料分為五大子類,分別為:設(shè)備建設(shè)方案、日常維護(hù)管理辦法、安全評估與巡檢、省際IP承載網(wǎng)相關(guān)文件、網(wǎng)絡(luò)改造與調(diào)整;交換設(shè)備類材料分為工程建設(shè)方案及管理辦法、專項(xiàng)提升活動(dòng)等子類;全網(wǎng)業(yè)務(wù)材料分為網(wǎng)絡(luò)運(yùn)行維護(hù)實(shí)施、應(yīng)急處理與重大故障等子類;安全管理與網(wǎng)管支撐材料分為賬號(hào)與口令安全管理辦法、其他安全管理辦法及文件等子類。請參見表2所示的IP化網(wǎng)絡(luò)文本組織框架示例。

        本步驟中,由于專業(yè)技術(shù)人員具有良好的專業(yè)技術(shù)水平及豐富的經(jīng)驗(yàn),對文本的理解較為全面、準(zhǔn)確,使得對文本進(jìn)行分類的準(zhǔn)確性高,描述各個(gè)分類的文本特征向量[8-11]恰當(dāng)、準(zhǔn)確性高。從而使得建立的文本組織框架科學(xué)性強(qiáng)、可信度高,可作為優(yōu)選聚類算法的主要依據(jù);同時(shí),由于預(yù)先設(shè)定的樣本數(shù)量不會(huì)太多,分類、歸檔所需的時(shí)間較少,屬于在人工可處理的范圍內(nèi)。

        步驟2:應(yīng)用多聚類算法對預(yù)先設(shè)定的樣本量進(jìn)行聚類,選定與所述建立的第一文本組織框架最為相似的聚類算法作為優(yōu)選聚類算法。

        該優(yōu)選聚類算法將在第一文本組織框架已無法進(jìn)行準(zhǔn)確分類的情況下,啟動(dòng)計(jì)算,得出第二文本組織框架,用于文本分類。

        本步驟中,多聚類算法(文本挖掘算法)包括:k-means[7]聚類算法(k-means Clustering Algorithm)、模糊c均值聚類算法(Fuzzy C-means Clustering Algorithm)、蟻群聚類算法(Ant Colony Optimization Algorithm)、層次聚類算法(Hierarchical Clustering Algorithm)等。各算法及對文本的聚類流程屬于現(xiàn)有技術(shù),其詳細(xì)描述請參見相關(guān)技術(shù)文獻(xiàn),在此不再累贅。

        實(shí)際應(yīng)用中,由于不同的聚類算法對相同數(shù)量的樣本進(jìn)行聚類時(shí),其聚類結(jié)果可能存在較大的差別,且各聚類算法的聚類結(jié)果真實(shí)可靠性也無從評估,因而,采用不同的聚類算法將對聚類結(jié)果產(chǎn)生實(shí)質(zhì)性的影響。本示例中,通過選用不同的聚類算法對預(yù)先設(shè)定的相同數(shù)量的樣本進(jìn)行聚類,對聚類結(jié)果(文本組織框架)與第一步中建立的IP化網(wǎng)絡(luò)文本組織框架進(jìn)行比較,選取與人工分類結(jié)果的相近程度最好的聚類算法結(jié)果對應(yīng)的聚類算法,作為優(yōu)選聚類算法。

        步驟3:以第一為文本組織框架作為文本分類依據(jù)。本步驟中,在得到第一文本組織框架及優(yōu)選的聚類算法的基礎(chǔ)。

        步驟4:根據(jù)所述文本組織框架,對新文本進(jìn)行分類。本步驟中,導(dǎo)入IP化網(wǎng)絡(luò)文本數(shù)據(jù)后,按照每個(gè)樣本包含的內(nèi)容,抽取文本中的關(guān)鍵詞,構(gòu)造各文本的文本特征向量[8-11],以文本組織框架為依據(jù),將新文本的文本特征值與文本組織框架中各類包含的文本特征值進(jìn)行匹配,將該新文本分類至文本組織框架中相應(yīng)的類別中。

        被分類的樣本經(jīng)過預(yù)處理,抽取文本中的特征詞[8-11],獲取各文本的文本特征向量,與文本組織框架中各子類包含的文本特征向量進(jìn)行匹配,將各文本分類到文本組織框架中相應(yīng)的子類;于此同時(shí),抽取新增的部分文本進(jìn)行人工分類,比較人工分類與自動(dòng)分類的誤差,當(dāng)誤差超過閾值時(shí),啟動(dòng)已選出的優(yōu)選聚類算法建立的第二文本組織將文本分類,比如,上述示例第二步中,假設(shè)蟻群聚類算法對預(yù)先設(shè)定的樣本的算法結(jié)果(第二文本組織框架)最為貼近建立的第一文本框架。當(dāng)誤差超過閾值時(shí),重新啟動(dòng)蟻群聚類算法計(jì)算第二文本組織框架。

        本模型實(shí)現(xiàn)過程中,還可以利用文本分類結(jié)果,對所建立的文本組織框架進(jìn)行調(diào)整,參見步驟5。

        步驟5:從新的文本中,選取一定數(shù)量的文本,根據(jù)第一文本組織框架進(jìn)行人工分類;本步驟中,選取的這一定數(shù)量的文本,在步驟4中已進(jìn)行了自動(dòng)分類,將自動(dòng)分類結(jié)果與人工分類結(jié)果進(jìn)行比較。

        步驟6:將自動(dòng)分類結(jié)果與人工分類結(jié)果進(jìn)行比較,如果自動(dòng)分類結(jié)果誤差大于預(yù)先設(shè)定的閾值,啟動(dòng)優(yōu)選聚類算法,計(jì)算新文本組織框架,作為第二文本組織框架,代替第一文本組織框架。本步驟中,預(yù)先設(shè)定的閾值可以是自動(dòng)分類結(jié)果與人工分類結(jié)果中包含的相異的文本個(gè)數(shù)與人工分類結(jié)果包含的文本個(gè)數(shù)之比。如果沒有超出該閾值,表明當(dāng)前建立的文本組織框架運(yùn)行良好,可靠性高;如果超出該閾值,需要按照人工分類結(jié)果調(diào)整文本組織框架中各大類相應(yīng)子類對應(yīng)的文本特征向量[8-11],或者重新應(yīng)用前述優(yōu)選的聚類算法對所有文本(新舊文本)進(jìn)行聚類,得到新的文本組織框架,用該新的文本組織框架代替原有的文本組織框架,當(dāng)自動(dòng)分類結(jié)果誤差大于預(yù)先設(shè)定的閾值時(shí),重新啟動(dòng)優(yōu)選的聚類算法進(jìn)行聚類得到新的文本組織框架。

        實(shí)際應(yīng)用中,上述對所建立的文本組織框架進(jìn)行調(diào)整,主要是在利用第一文本組織框架對新文本分類時(shí),由于建立的第一文本組織框架是基于有限的樣本量,因而,在大樣本量的情況下,可能存在一定的分類誤差,而且隨著樣本量的不斷增大,其誤差可能也越來越大,因而,通過人工評估,當(dāng)誤差超出預(yù)先設(shè)定的閾值時(shí),可以用前述的優(yōu)選文本聚類算法結(jié)合人工評估結(jié)果重新生成文本組織框架,以替換該第一文本組織框架。

        當(dāng)然,在建立文本組織框架后,網(wǎng)管人員就可以利用該文本組織框架進(jìn)行搜索和查詢,獲取所需的文本,例如,網(wǎng)管人員可以輸入搜索特征詞,文本組織框架查詢關(guān)鍵詞對應(yīng)的文本特征值[8-11],將該文本特征值所屬的搜索結(jié)果(文本概述等信息以及文本所屬的大類及子類)輸出給網(wǎng)管人員,這樣,與傳統(tǒng)的關(guān)鍵詞的搜索方式不同,由于可根據(jù)文本特征值進(jìn)行搜索,搜索情況更接近文本的內(nèi)容,每個(gè)文本可供搜索的內(nèi)容更多,使用文本搜索更貼近文本內(nèi)容。

        四、測試與分析

        通過模塊層次圖和數(shù)據(jù)流圖的進(jìn)一步設(shè)計(jì),基于VC編程環(huán)境,本研究將設(shè)計(jì)的模型進(jìn)一步在機(jī)器上實(shí)現(xiàn),開發(fā)出IP化文本分類組織框架和基于文本內(nèi)容的搜索。測試結(jié)果表明多聚類算法得出的第二文本組織框架與專家分類框架具有很大區(qū)分特征[8-11],文本分類的正確率達(dá)到了70%以上,基于內(nèi)容的索引搜索效率很高,提高了文本管理人員查找文本的效率。

        4.1 測試系統(tǒng)

        對于中國運(yùn)營商來說,3G的日益臨近,網(wǎng)絡(luò)IP化成為一種不可逆轉(zhuǎn)的趨勢。通過對現(xiàn)有網(wǎng)絡(luò)進(jìn)行IP化的改造來實(shí)現(xiàn)多網(wǎng)融合最終完成3G網(wǎng)絡(luò)的建設(shè)已經(jīng)成為國內(nèi)外各大運(yùn)營商的共識(shí),IP化網(wǎng)絡(luò)在核心網(wǎng)的比重越來越大。目前,對計(jì)算機(jī)IP網(wǎng)絡(luò)的評估已經(jīng)有一些研究成果及應(yīng)用系統(tǒng)。但是,針對運(yùn)營商中IP化網(wǎng)絡(luò)具體特點(diǎn),建立科學(xué)、可行的安全評估模型但成了擺在中國運(yùn)營商面前的一個(gè)重要的問題,同時(shí)也是在地市公司在從事具體維護(hù)工作中不得不去思考的一個(gè)問題。

        目前,對于IP網(wǎng)絡(luò)的評估方法一般需要一些先驗(yàn)知識(shí),如威脅出現(xiàn)的概率、無形資產(chǎn)賦值等,而準(zhǔn)備獲得這些數(shù)據(jù)是存在困難的,為此,已有的模糊、神經(jīng)網(wǎng)絡(luò)等方法建立的安全估計(jì)模型只能對于局部系統(tǒng)進(jìn)行評價(jià),且多局限的理論的說明,未能有一些全面的,可行的安全評估模型及可投入使用的評估系統(tǒng)的產(chǎn)生。因此,本產(chǎn)品希望從移動(dòng)運(yùn)營商IP化網(wǎng)絡(luò)的運(yùn)營實(shí)際出發(fā),從技術(shù)、管理、安全意識(shí)等更加宏觀的層面來審視安全評估問題,并依托省網(wǎng)管已經(jīng)建立的“網(wǎng)絡(luò)運(yùn)營支撐平臺(tái)”,建立基于粗糙集的IP化網(wǎng)絡(luò)安全評估系統(tǒng)。

        對于地市公司公司來說,隨著公司網(wǎng)絡(luò)集中化建設(shè)的進(jìn)行,地市公司對IP網(wǎng)絡(luò)的維護(hù)權(quán)限多停留在設(shè)備的維護(hù)方面,維護(hù)行為也多以被動(dòng)實(shí)施為主,往往缺乏對自身網(wǎng)絡(luò)安全性的科學(xué)及客觀的把握。為此,該系統(tǒng)所采用的模型也從地市公司IP化網(wǎng)絡(luò)的具體建設(shè)及維護(hù)實(shí)踐出發(fā),采用粗糙集的理論來建立網(wǎng)絡(luò)的安全模型、采用粗糙集理論來分析網(wǎng)絡(luò)各項(xiàng)安全因素的輕重關(guān)系,輸出決策規(guī)則,建立IP網(wǎng)絡(luò)下客戶感知及網(wǎng)絡(luò)質(zhì)量的共同提升模型,從而建立起一套科學(xué)完善的IP網(wǎng)絡(luò)評估算法,從而為地市公司從事IP化網(wǎng)絡(luò)的建設(shè)和維護(hù)提供指導(dǎo),變被動(dòng)為主動(dòng),全面提升IP化網(wǎng)絡(luò)建設(shè)與維護(hù)的有效性。

        本文設(shè)計(jì)的文本挖掘模塊作為該系統(tǒng)中重要的一個(gè)組成部分,對于IP化安全文的深入挖掘,實(shí)現(xiàn)IP化網(wǎng)絡(luò)的安全保障起著重要的作用。對于粗糙集實(shí)現(xiàn)網(wǎng)絡(luò)安全評估方面因?yàn)椴皇钦撐牡闹饕獌?nèi)容。因此不作主要描述。本文重點(diǎn)描述了一種面向IP化網(wǎng)絡(luò)文本挖掘模型在系統(tǒng)中的具體實(shí)現(xiàn)。

        文本模塊從文本導(dǎo)入、文本框架導(dǎo)入、聚類方法選擇、文本聚類、文本分類、文本搜索和瀏覽等方面把模型中的主要功能分別在不同模塊中實(shí)施。其中聚類方法選擇模塊中集成了K-means聚類算法、模糊C聚類算法、分層聚類算法和蟻群聚類算法,是模塊中的核心部分。系統(tǒng)的模塊層次如圖7所示。

        在系統(tǒng)的模型層次圖的基礎(chǔ)上,進(jìn)一步設(shè)計(jì)研究了系統(tǒng)的數(shù)據(jù)流圖,從數(shù)據(jù)輸入層、數(shù)據(jù)預(yù)處理層、核心算法層、用戶使用層等層面圍繞文本組織框架為核心全面鋪開。找出系統(tǒng)輸入、處理、輸出過程中的關(guān)鍵數(shù)據(jù)存儲(chǔ)和邏輯處理,理清了內(nèi)部邏輯的相互關(guān)系。系統(tǒng)的數(shù)據(jù)流圖如圖8所示。

        4.2 系統(tǒng)相關(guān)模塊的功能說明

        在系統(tǒng)實(shí)現(xiàn)過程中,主要實(shí)現(xiàn)了如下幾個(gè)模塊:IP化網(wǎng)絡(luò)安全文本數(shù)據(jù)導(dǎo)入模塊、第一文本組織框架處理模塊、多聚類算法模塊、聚類結(jié)果匹配模塊、以及文本組織框架生成模塊,各模型具體功能如下:(1) IP化網(wǎng)絡(luò)安全文本數(shù)據(jù)導(dǎo)入模塊:用于導(dǎo)入IP化網(wǎng)絡(luò)安全文本數(shù)據(jù),分別輸出至第一文本組織框架處理模塊和多聚類算法模塊;(2) 第一文本組織框架處理模塊:用于對接收的文本進(jìn)行分類整理,建立第一移動(dòng)IP化網(wǎng)絡(luò)文本組織框架,并將建立的第一移動(dòng)IP化網(wǎng)絡(luò)文本組織框架信息分別輸出至聚類結(jié)果匹配模塊及文本組織框架生成模塊;(3)多聚類算法模塊:用于根據(jù)預(yù)先設(shè)置的多聚類算法對接收的文本進(jìn)行聚類,向聚類結(jié)果匹配模塊輸出聚類結(jié)果;(4) 聚類結(jié)果匹配模塊:用于根據(jù)接收的第一移動(dòng)IP化網(wǎng)絡(luò)文本組織框架信息匹配來自多聚類算法模塊的聚類結(jié)果,將與第一文本組織框架最為相似的聚類算法的聚類結(jié)果信息輸出至文本組織框架生成模塊;(5) 文本組織框架生成模塊:用于根據(jù)接收的第一移動(dòng)IP化網(wǎng)絡(luò)文本組織框架信息以及聚類結(jié)果信息建立文本組織框架。

        IP化網(wǎng)絡(luò)安全文本數(shù)據(jù)導(dǎo)入模塊、第一文本組織框架處理模塊、多聚類算法模塊、聚類結(jié)果匹配模塊、以及文本組織框架生成模塊等5模塊具體邏輯關(guān)系如圖9所示。

        在實(shí)現(xiàn)過程中,該模塊可以進(jìn)一步包括如下可擴(kuò)展模塊:(1)文本分類模塊,用于依據(jù)文本組織框架生成模塊中存儲(chǔ)的文本組織框架信息,對來自IP化網(wǎng)絡(luò)文本數(shù)據(jù)導(dǎo)入模塊的文本進(jìn)行自動(dòng)分類。(2)文本組織框架調(diào)整模塊,用于接收來自文本分類模塊的自動(dòng)分類結(jié)果、以及來自第一文本組織框架處理模塊對同批量文本的人工分類結(jié)果并進(jìn)行比較,如果自動(dòng)分類結(jié)果誤差大于預(yù)先設(shè)定的閾值,按照人工分類結(jié)果調(diào)整文本組織框架生成模塊存儲(chǔ)的文本組織框架信息。(3)搜索和查詢模塊,用于接收來自外部的搜索關(guān)鍵詞,發(fā)送至文本組織框架生成模塊,將文本組織框架生成模塊根據(jù)存儲(chǔ)的文本組織框架信息查詢得到的關(guān)鍵詞對應(yīng)的文本信息進(jìn)行輸出。

        系統(tǒng)中各模塊相互協(xié)同共同完成模型所要求的功能,流程如下:(1)IP化網(wǎng)絡(luò)文本數(shù)據(jù)導(dǎo)入模塊、第一文本組織框架處理模塊、多聚類算法模塊、聚類結(jié)果匹配模塊、以及文本組織框架生成模塊,其中,IP化網(wǎng)絡(luò)文本數(shù)據(jù)導(dǎo)入模塊,用于導(dǎo)入IP化網(wǎng)絡(luò)文本數(shù)據(jù),分別輸出至第一文本組織框架處理模塊和多聚類算法模塊;(2)第一文本組織框架處理模塊,主要有領(lǐng)域?qū)<襾硗瓿桑I(lǐng)域?qū)<彝ㄟ^人工的方式來獲取接收的文本信息中包含的關(guān)鍵詞,根據(jù)關(guān)鍵詞構(gòu)造各文本的文本特征向量[8-11],利用文本特征向量對所述預(yù)先設(shè)定的樣本量的IP化網(wǎng)絡(luò)文本進(jìn)行分類整理,建立第一IP化網(wǎng)絡(luò)文本組織框架,并將建立的第一IP化網(wǎng)絡(luò)文本組織框架信息分別輸出至聚類結(jié)果匹配模塊及文本組織框架生成模塊;(3)多聚類算法處理模塊,用于根據(jù)預(yù)先設(shè)置的多聚類算法對接收的文本進(jìn)行聚類,向聚類結(jié)果匹配模塊輸出聚類結(jié)果;聚類結(jié)果匹配模塊,用于根據(jù)接收的第一IP化網(wǎng)絡(luò)文本組織框架信息匹配來自多聚類算法模塊的聚類結(jié)果,將與第一文本組織框架最為相似的聚類算法的聚類結(jié)果信息輸出至文本組織框架生成模塊;(4)文本組織框架生成模塊,用于根據(jù)接收的第一IP化網(wǎng)絡(luò)文本組織框架信息以及聚類結(jié)果信息建立文本組織框架。

        4.3 系統(tǒng)相關(guān)模塊的功能說明

        通過移動(dòng)公司的IP化網(wǎng)絡(luò)文本測試了本研究設(shè)計(jì)的功能模塊,測試結(jié)果顯示文本框架與專家分類框架具有很大區(qū)分特征,文本分類的正確率達(dá)到70%以上,基于內(nèi)容的索引搜索效率很高,提高了文本管理人員查找文本的效率。

        4.3.1 文本聚類測試結(jié)果分析

        該部分通過文本聚類實(shí)現(xiàn)文本框架的形成。系統(tǒng)提供四種聚類方法的實(shí)現(xiàn):K-means[7]、模糊C聚類、層次聚類、蟻群聚類算法;每種聚類之后,都將在下方的顯示框中展示聚類的結(jié)果,也即文本組織框架。之后通過比較不同聚類的聚類結(jié)果,選出最優(yōu)的聚類算法。

        K-means[7]聚類算法可以調(diào)整三個(gè)參數(shù):聚類數(shù)目、最大迭代次數(shù)、文檔向量維數(shù)。現(xiàn)有文本專家聚類分為3類:IP承載網(wǎng)、全網(wǎng)業(yè)務(wù)、安全管理與網(wǎng)管支撐。

        模糊C均值聚類算法可以調(diào)整五個(gè)參數(shù):聚類數(shù)目、誤差限、參數(shù)m、最大迭代次數(shù)、文檔向量維數(shù)。其中參數(shù)m的調(diào)整范圍為1.5~2.5。如圖10所示。

        其中K-means[7]聚類算法將文本通過迭代1000次,采用100個(gè)特征詞提取出文檔向量,分出第一類的文本數(shù)量為67,第二類的文本數(shù)量為2,第三類文本數(shù)量為1。如圖11所示。

        4.3.2 文本分類測試結(jié)果分析

        該部分暫時(shí)無需選擇路徑,僅采用樣本數(shù)據(jù)實(shí)現(xiàn),因?yàn)閷<曳诸愇臋n沒有經(jīng)過聚類算法,提取不出特征值,無法作為分類;此環(huán)節(jié)耗時(shí)較長,可能需2-3分鐘,各機(jī)器性能不一可能略有差別。

        本部分工作的基礎(chǔ)是使用上一步驟選取最優(yōu)的聚類算法對所有文本進(jìn)行聚類形成合理的文本組織框架并訓(xùn)練形成分類器。分類器形成后,就可以對新進(jìn)入的文本進(jìn)行分類,一般分類正確率在70%以上。

        圖12展示了對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分類的結(jié)果,對34個(gè)文本進(jìn)行分類,分類正確率達(dá)到80%。證明該文本框架所形成的分類器具有較好的分類能力。圖中標(biāo)紅的文本本分到了錯(cuò)誤的類別中了,其余是被正確分類的文本;分完后可以查看通過上面的選擇查看單個(gè)文本分類情況,如圖13。

        4.3.3 文本搜索測試結(jié)果分析

        本部分是基于前述文本組織框架的文本搜索模塊,目前系統(tǒng)可供使用的檢索詞包括發(fā)文單位(集團(tuán)、省公司、使公司)、文本類別(通知、申請、報(bào)告、自查報(bào)告、緊急通知等)、文件名(輸入要找的關(guān)鍵詞,系統(tǒng)將使用該關(guān)鍵詞在所有文本的文件名中進(jìn)行檢索)、發(fā)文時(shí)間等。系統(tǒng)正在實(shí)現(xiàn)的功能是基于特征詞的檢索,在文本分詞階段每一個(gè)文本都被分成若干特征詞所表示的向量,輸入特征詞就可以實(shí)現(xiàn)基于內(nèi)容的檢索,大大提高了檢索的效率和準(zhǔn)確度。

        其中基于內(nèi)容的特征詞的搜索是一個(gè)創(chuàng)新,通過文本訓(xùn)練,提取出所有搜索范圍內(nèi)的文本的特征詞,通過特征詞的頻率來確定不同文本的區(qū)別,如100維特征詞的訓(xùn)練結(jié)果就將不同文本通過挑選出來的100個(gè)文本特征詞的頻率來表示,實(shí)現(xiàn)文本的向量化,如果某一特征詞在文本中沒有出現(xiàn),則向量這個(gè)點(diǎn)上的取值為0。訓(xùn)練后的文本集就形成了一張二維表,一個(gè)維度是文本,一個(gè)維度是特征詞,這個(gè)二維表是基于文本內(nèi)容訓(xùn)練出來的,通過此二維表的特征詞來搜索文本比其他幾個(gè)維度效率更好,效果更好。

        如圖14所示,搜索范圍選擇IP化安全管理系統(tǒng)文件夾中的clusters文件夾(因?yàn)橐谔卣髟~搜索需要有能提供特征詞的文件夾)。

        查詢得到的文本可直接在檢索結(jié)果欄中打開閱讀。如圖15所示。

        五、結(jié)束語

        本文主要圍繞運(yùn)營商內(nèi)部積累的數(shù)量驚人的IP化網(wǎng)絡(luò)安全相關(guān)文本的智能化處理這一問題展開討論。針對人工處理的方式迅速慢、準(zhǔn)確率低,耗時(shí)長,不利共享這一難題,創(chuàng)造性地將文本聚類與文本分類算法用于該問題的解決。

        猜你喜歡
        文本分類
        基于樸素貝葉斯的Web文本分類及其應(yīng)用
        基于組合分類算法的源代碼注釋質(zhì)量評估方法
        基于貝葉斯分類器的中文文本分類
        基于蟻群智能算法的研究文本分類
        基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
        基于K—means算法的文本分類技術(shù)研究
        文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
        科技視界(2016年24期)2016-10-11 09:36:57
        不同情境下中文文本分類模型的表現(xiàn)及選擇
        基于內(nèi)容的英語錄音教材標(biāo)注研究與應(yīng)用
        多核SVM文本分類研究
        軟件(2015年5期)2015-08-22 08:02:45
        日韩精品一区二区三区中文| 国产自拍一区在线视频| 内射中出后入内射极品女神视频| 巨乳av夹蜜桃站台蜜桃机成人| 日韩中文字幕久久久经典网| 亚洲AV无码乱码一区二区三区| 亚洲一区二区三区中文视频| 加勒比一本大道大香蕉| 人妻中文字幕一区二区三区| 日本国产一区二区在线| 国产亚洲午夜精品久久久| 亚洲精品中文字幕乱码影院| www夜片内射视频在观看视频| 狠狠97人人婷婷五月| 18禁无遮拦无码国产在线播放| av一区二区三区人妻少妇| 7777精品伊人久久久大香线蕉| 亚洲AV日韩AV无码A一区| 久久久久久无中无码| 亚洲人av毛片一区二区| 免费人成网站在线观看| 久久精品亚洲精品国产区| 久久婷婷综合缴情亚洲狠狠| 男女肉粗暴进来动态图| 国产特级毛片aaaaaa视频| 亚洲国产精品日韩av不卡在线| 国语少妇高潮对白在线| 欧美v日韩v亚洲综合国产高清| 亚洲成在人网站天堂日本| 最新中文字幕亚洲一区| 人妻夜夜爽天天爽三区丁香花| 少妇性bbb搡bbb爽爽爽| 野外少妇愉情中文字幕| 国产小屁孩cao大人| 中文字幕精品亚洲二区| 最新国产精品国产三级国产av| 国产人妻熟女高跟丝袜| 内射少妇36p亚洲区| 台湾佬娱乐中文22vvvv| 久久99精品久久久久久国产人妖| 日本女同视频一区二区三区|