汪曉玫 姜 浩
(國網(wǎng)新源水電有限公司新安江水力發(fā)電廠,浙江 建德 311608)
配置命令本質(zhì)上就是一個(gè)模式識別的進(jìn)程,在操作過程中具有樣本數(shù)量龐大以及向量維數(shù)高等特征。在對配置命令進(jìn)行分類的過程中,目前比較常用的有互信息、期望交叉熵、信息增益以及詞頻方法等算法。這些算法分別針對不同種類的文本類型,其應(yīng)用效果也略有不同。在對配置命令進(jìn)行分類時(shí),如果只是簡單的運(yùn)用一種算法,就會存在配置命令權(quán)重繁雜或者過度冗余等情況。想要在網(wǎng)絡(luò)煩瑣的信息中精確找到需要定位的訊息,并且對文本命令進(jìn)行有效修改,其中智能匹配占據(jù)著極其重要的地位,其可以精確管理并組織這些信息,大幅提升信息搜索的速度,為了更好地對配置命令進(jìn)行分類,技術(shù)人員在傳統(tǒng)算法的基礎(chǔ)上引入了信息熵進(jìn)行改革優(yōu)化,從而提出一種新算法,根據(jù)實(shí)驗(yàn)可以發(fā)現(xiàn),運(yùn)用信息熵對網(wǎng)絡(luò)設(shè)備進(jìn)行智能修復(fù)會更加精準(zhǔn)、效率更高。
最早熵的概念是由克勞德·香農(nóng)提出的,其實(shí)熵最開始是應(yīng)用在熱力學(xué)統(tǒng)計(jì)中的,對熵的數(shù)值進(jìn)行計(jì)算,可以判定出一個(gè)系統(tǒng)中的混亂程度,熵的數(shù)值越小,表示其系統(tǒng)越穩(wěn)定、混亂程度越低。在熱力學(xué)統(tǒng)計(jì)中,使用的是熵增原理[1]。對于文本信息來說,要求熵的數(shù)值只能減少,使用的是熵不增原理。
從隨機(jī)過程角度來看,熵的概念為:假設(shè)X是一組隨機(jī)發(fā)生的事件:x1、x2、x3…xn,其中它們出現(xiàn)的概率為p(xi)=pi(0≤pi≤1),則p1+p2+p3+…pn=1,那么這組隨機(jī)事件的信息熵便是其信息量的平均統(tǒng)計(jì)值,則H(x)=E(-log2Pi),其中E為統(tǒng)計(jì)平均值。
在實(shí)際應(yīng)用過程中,對于無序結(jié)構(gòu)來說,熵比較實(shí)用。一個(gè)非負(fù)熵的數(shù)值可以充分表現(xiàn)信息的不確定程度,熵是一個(gè)全局變量,其數(shù)值大小直接決定了樣本中信息的重要程度,同時(shí)可以利用熵值對純度進(jìn)行表述,通常情況下數(shù)值越小,純度越高。
從信息熵的起源來看,信息論之父克勞德·香農(nóng)在長期的研究過程中逐步對信息熵的性質(zhì)進(jìn)行概括,其基本性質(zhì)主要體現(xiàn)在3個(gè)方面。1)單調(diào)性。事件發(fā)生概率與其所對應(yīng)攜帶的信息量之間存在著緊密聯(lián)系,發(fā)生概率越高時(shí),其對應(yīng)所攜帶的信息量越低。2)非負(fù)性。信息熵可以直接作為一種廣度量,非負(fù)性是一種合理的、必然的趨勢。3)累加性。多隨機(jī)事件同時(shí)發(fā)生存在的不確定性總量度與各個(gè)事件不確定性的量度和一樣,這一表現(xiàn)形式也充分體現(xiàn)了信息熵的廣度量特性。
從理論角度來對信息熵的基本型性質(zhì)進(jìn)行理解,信息熵的單調(diào)性主要指的是當(dāng)一個(gè)事件發(fā)生的概率越低的情況下,在該事件發(fā)生時(shí)所給出的信息量也就越大,從一個(gè)相對特殊的事件來看,例如“太陽從西邊升起”所攜帶的信息量會遠(yuǎn)遠(yuǎn)高于“太陽從東邊升起”所攜帶的信息量,這主要是“太陽從東邊升起”是一個(gè)亙古不變的事實(shí),不需要特別強(qiáng)調(diào),而“太陽從西邊升起”是根本不可能發(fā)生的,當(dāng)出現(xiàn)這一現(xiàn)象時(shí),就說明存在更多的不可預(yù)測性,例如太陽系的異常變化、物理法的變化等。從這個(gè)角度來看,信息熵的單調(diào)性特性也從側(cè)面暗含了一種對信息含量的先驗(yàn)假設(shè),也就是在一些特定的時(shí)候,假定某些事實(shí)是不含信息量的,這種情況下,將默認(rèn)定標(biāo)該情況的信息量為0。對累加性特性的理解方面,主要是由于信息熵的定義中涉及了對事件發(fā)生概率的考慮,那么,可以假設(shè)信息熵是事件發(fā)生概率的函數(shù):
式中:H(X)表示為某一事件X的信息熵,H(p(x))表示為某一事件X發(fā)生的概率。
對于2個(gè)相對獨(dú)立的事件X=A,Y=B來說,其同時(shí)發(fā)生的概率可以表示為:
式中:P(X=A,Y=B)表示獨(dú)立事件X=A,Y=B同時(shí)發(fā)生的概率。
而在這一條件下,同時(shí)發(fā)生的信息熵,根據(jù)其累加性,可以表示為:
在式(3)中,滿足2個(gè)變量乘積的函數(shù)值等于2個(gè)變量函數(shù)值的綜合,那么根據(jù)這一特性,只有對數(shù)函數(shù)滿足這一特點(diǎn)。由于概率都≤1,在取對數(shù)之后的值<0,由于信息熵具有非負(fù)性,因此需要在前邊加上負(fù)號。
例如有一組演示數(shù)據(jù),見表1。
表1 每匹馬的獲勝概率
在賭馬比賽之中,每1一匹馬獲勝的概率見表1。所示,之后,我們將哪匹馬獲勝作為最后的隨機(jī)變量X,我們需要用最少的二元問題對隨機(jī)變量的值進(jìn)行選取。
例如問題1是A獲勝了嗎?問題2是B獲勝了嗎?問題3是C獲勝了嗎?我們最多用3個(gè)二元問題,就可以推斷出哪批匹馬最終贏得了比賽。
直線度誤差的評定一般有最小條件法、兩端點(diǎn)連線法兩種[5]。用最小二乘法最容易實(shí)現(xiàn)最小條件[6]。根據(jù)測量點(diǎn)數(shù)x和輪廓最低點(diǎn)到評定基準(zhǔn)的距離y可以得到最小二乘直線的方程和參數(shù)為:
如果X=A,那么我們需要問1次二元問題(問題1),獲勝概率為1/2。
如果X=B,那么我們需要問2次二元問題(問題1與2),獲勝概率為1/4。
如果X=C,那么我們需要問3次二元問題(問題1、2與3),獲勝概率為1/8。
如果X=D,那么我們需要問3次二元問題(問題1、2與3),獲勝概率為1/8。
那么在該此種例題中,為了確定X取值詢問的問題數(shù)量為:
根據(jù)信息熵計(jì)算公式,可以發(fā)現(xiàn)信息熵計(jì)算為:
熵的一個(gè)最為突出的應(yīng)用就是,在一些領(lǐng)域,通過最大化熵的應(yīng)用,可以確定科學(xué)和工程中眾多現(xiàn)象相聯(lián)系的原始分布,例如均勻分布,作為一種特殊的分布形式,其并不是唯一的,而是存在一定的約束條件,而其他的分布可以最大化熵。在很多領(lǐng)域,信息熵有著廣泛的應(yīng)用,為發(fā)揮熵在問題處理方面的作用,一些專業(yè)人員會將基于離散概率的信息熵推廣到基于概率密度函數(shù)的信息熵,這種信息熵理論基礎(chǔ)的轉(zhuǎn)變,為信息熵價(jià)值的發(fā)揮創(chuàng)造了良好的前提條件。
3.1.1 分類模型
使用信息熵對網(wǎng)絡(luò)設(shè)備配置命令的分類進(jìn)行算法設(shè)計(jì)時(shí),主要運(yùn)用了信息熵?cái)?shù)值的大小對已有配置的命令短語是否具有相同或者相似進(jìn)行判定[2]。當(dāng)信息熵的數(shù)值為0且檢測到配置命令文本時(shí),需要先對特征向量進(jìn)行處理,在該基礎(chǔ)上,在運(yùn)用信息熵技術(shù),對已經(jīng)處理提出的特征向量進(jìn)行優(yōu)化,并將最終取得的結(jié)果在配置命令集中進(jìn)行保存。在優(yōu)化過程中,信息熵直接決定了在配置命令集中的一條命令短語是否存在。
其算法流程如下。設(shè)定一個(gè)一定類別C中具有k個(gè)配置文本命令的集合,其特征詞集合為{fi1、fi2、fi3…fin}(i=1、2、3…k),其中等待加入的配置文本是xk+1,其特征詞的集合為{d(k+1,1),d(k+1,2),d(k+1,3)…d(k+1,n)}。
依據(jù)預(yù)處理的流程步驟,對配置命令文本抽選特征向量,可以得到特征詞集合為{fi1、fi2、fi3…fin}。
對各個(gè)命令配置中的特征詞詞頻進(jìn)行統(tǒng)計(jì),并且設(shè)立一個(gè)閾值。在這個(gè)閾值下的特征詞需要直接忽略,高于這個(gè)閾值的特征詞才會計(jì)入統(tǒng)計(jì),并且可以對已經(jīng)選出的特征詞進(jìn)行排序。之后運(yùn)用信息熵技術(shù)原理,對每一個(gè)特征詞計(jì)算熵值,當(dāng)特征詞的熵值是0或者接近0時(shí),要取消該特征詞。
對于新進(jìn)入的配置文本命令,要依據(jù)以上流程對特征詞進(jìn)行選取,并對特征詞的信息熵進(jìn)行計(jì)算,對于符合要求的特征詞進(jìn)行保留,從而實(shí)現(xiàn)對配置命令的合理分配。
將配置命令文本分類好后,將其特征詞加入詞庫中,并對每一個(gè)特征詞計(jì)算信息熵,之后再次對命令文本進(jìn)行分類。在整個(gè)操作過程中,可以根據(jù)實(shí)際情況,在命令該文分類之后對信息熵的閾值進(jìn)行動態(tài)調(diào)整。
3.1.2 分類算法
在該算法中,應(yīng)當(dāng)使用詞頻方法對特征詞進(jìn)行初步選取,并且結(jié)合信息熵技術(shù)原理,對已經(jīng)選出的特征詞的信息熵?cái)?shù)值進(jìn)行計(jì)算,將其數(shù)值與閾值進(jìn)行比較,當(dāng)數(shù)值低于閾值時(shí),直接忽略該特征詞,對不重要的文本進(jìn)行有效排除,保證文本原有數(shù)據(jù)的特征。
對于已經(jīng)給定的文本信息,要對其關(guān)鍵短語進(jìn)行劃分,利用關(guān)鍵短語文本可以鮮明地表述文本內(nèi)容,可以從3個(gè)方面對關(guān)鍵短語進(jìn)行確定。1)結(jié)構(gòu)上,關(guān)鍵短語應(yīng)當(dāng)具備優(yōu)良的凝固性。2)語義上,關(guān)鍵短語應(yīng)當(dāng)具備完整性與專指性。3)統(tǒng)計(jì)上,關(guān)鍵短語應(yīng)當(dāng)具備可重用性。在配置命令文本中,通常英文表達(dá)較多,因此對于英文分詞進(jìn)行劃分極為重要。但是英文分詞系統(tǒng)主要負(fù)責(zé)基礎(chǔ)檢測劃分,沒有必要針對每一個(gè)信息的應(yīng)用領(lǐng)域都建設(shè)英文分詞系統(tǒng)。這樣做不僅浪費(fèi)資源,而且分詞效果不佳。因此可以直接使用DAG思想配置元集無關(guān)性算法。DAG是指有向無環(huán)圖,其主要描述含有公共子式的表達(dá)式或系統(tǒng)運(yùn)行的過程。其算法描述分為5步。1)將集合設(shè)為S,利用掃描器對配置文本進(jìn)行預(yù)處理。1)如過S為非空集合,就可在T(狀態(tài)轉(zhuǎn)換樹)中選取一條命令L,如果不是非空集合,則退出程序。3)如過L為非空,則對L中的一個(gè)單詞順勢進(jìn)行讀取,為W。如果L為空,且可以在T中尋查到終態(tài)葉子節(jié)點(diǎn),則可以完成對L的識別標(biāo)注,且轉(zhuǎn)換到2)執(zhí)行。4)如果L的第一個(gè)單詞就是W,則在T中、Root直接節(jié)點(diǎn)上、尋查到W中的字符。如果L的第一個(gè)單詞不是W,則應(yīng)順次向下查找匹配。如果以上2種現(xiàn)象,均無法找到匹配字符,則需轉(zhuǎn)換到5)執(zhí)行。5)如果產(chǎn)生無法匹配的現(xiàn)象,觀測兄弟節(jié)點(diǎn)中是否存在“¥”或者“$ ”的符號,如果存在,則視W詞性進(jìn)行匹配,并轉(zhuǎn)換到3)執(zhí)行。
以上算法可以有效識別集合之中的命令文本,從而為設(shè)備智能診斷奠定基礎(chǔ)。
該種算法更容易提取特征項(xiàng)、配置命令。對配置命令文本進(jìn)行預(yù)處理,主要可以劃分短語,為之后關(guān)鍵短語的確定奠定基礎(chǔ),處理的最終結(jié)果會將非結(jié)構(gòu)化配置命令變得結(jié)構(gòu)化,大幅提升短語的匹配效率。操作流程主要分為2步。1)運(yùn)用非漢字符號以及英文標(biāo)點(diǎn)符號,對英文表述的配置命令進(jìn)行切分,將其切分為比較短的短語。2)運(yùn)用漢字的標(biāo)點(diǎn)符號進(jìn)行切分,同時(shí)使用連接詞庫,將“or”、“and”等單詞去除,進(jìn)一步切分文本句子。
在對配置命令文本進(jìn)行預(yù)處理后,會導(dǎo)致原有的文本變?yōu)橐粋€(gè)個(gè)分割的短語,為了方便處理,可以將這些短語集中放入一個(gè)集合T之中。并對T不斷進(jìn)行掃描,將最終確定下來的短語放入keys Set集合中進(jìn)行保存,其掃描處理過程是對已經(jīng)進(jìn)行過預(yù)處理的配置命令文本中的分詞詞頻進(jìn)行統(tǒng)計(jì),并將對已經(jīng)達(dá)到閾值的分詞進(jìn)行提取,而后將其保存到keys Set集合中。對于不存在完整意義的分詞,對停用詞庫進(jìn)行查看,如果其中含有無法運(yùn)用的單詞直接刪除,如果不含無法運(yùn)用的單詞,則進(jìn)行下一步。對給定的配置命令文本由前向后按照順序掃描,直至所有短語處理結(jié)束。對于keys Set集合中的詞語運(yùn)用信息熵原理,進(jìn)行優(yōu)化,從而實(shí)現(xiàn)分類處理。
圖2 信息熵結(jié)構(gòu)框架
要分別對不同網(wǎng)絡(luò)設(shè)備之中的配置命令文本進(jìn)行統(tǒng)計(jì),將不一致的關(guān)鍵詞集組成各類的關(guān)鍵詞組進(jìn)行描述。對配置命令文本的處理大致包括建設(shè)特征庫、訓(xùn)練樣本、測試短語、分類4個(gè)部分,即建設(shè)特征庫、訓(xùn)練樣本、測試短語和分類,其系統(tǒng)框架如圖2所示。
在真實(shí)網(wǎng)絡(luò)設(shè)備的故障診斷過程中,有待處理的信息量非常龐大,但是其中可以幫助故障診斷的只占據(jù)極小的一部分?;谛畔㈧貙W(wǎng)絡(luò)系統(tǒng)進(jìn)行智能修復(fù),可以有效提升檢錯(cuò)效率、縮短響應(yīng)時(shí)間,為后續(xù)修復(fù)提供強(qiáng)有力的保障。