亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        智能化網(wǎng)格電信系統(tǒng)的故障預(yù)測(cè)方法

        2018-07-03 10:37:48蔡珩戈磊
        電信科學(xué) 2018年6期
        關(guān)鍵詞:日志進(jìn)程分類器

        蔡珩,戈磊

        ?

        智能化網(wǎng)格電信系統(tǒng)的故障預(yù)測(cè)方法

        蔡珩,戈磊

        (中國(guó)電信股份有限公司上海分公司,上海 200042)

        嘗試用基于深度學(xué)習(xí)的相關(guān)人工智能技術(shù),分析服務(wù)器集群上的進(jìn)程和端口網(wǎng)絡(luò),并對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行狀態(tài)預(yù)測(cè)。具體地,結(jié)合運(yùn)維過程中的先驗(yàn)知識(shí)對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)的特征進(jìn)行細(xì)致選擇,預(yù)測(cè)網(wǎng)絡(luò)中各個(gè)進(jìn)程和端口的異常(崩潰)狀態(tài)。實(shí)驗(yàn)結(jié)果表明,進(jìn)程節(jié)點(diǎn)的運(yùn)行信息(如CPU和內(nèi)存使用率)、進(jìn)程間的通信情況以及進(jìn)程節(jié)點(diǎn)在整個(gè)網(wǎng)絡(luò)中的結(jié)構(gòu)特征對(duì)于判斷該節(jié)點(diǎn)的狀態(tài)具有一定的指導(dǎo)價(jià)值,而這些特征在時(shí)間維度上的變化量同樣反映了進(jìn)程/端口的狀態(tài)。

        故障預(yù)測(cè);深度學(xué)習(xí);二分類

        1 引言

        隨著信息技術(shù)的發(fā)展,大規(guī)模服務(wù)器集群和網(wǎng)絡(luò)設(shè)備的部署和使用日益廣泛,在集群上運(yùn)行各種服務(wù)[1]逐漸成為大型企業(yè)的選擇。同時(shí),對(duì)集群上各種資源的監(jiān)視和管理也得到學(xué)術(shù)界和工業(yè)界的大量關(guān)注。

        人們總是希望部署一個(gè)可靠穩(wěn)定的服務(wù)器集群,然而事與愿違,大部分集群上還是會(huì)出現(xiàn)如進(jìn)程崩潰[2]、端口流量過大、端口阻塞[3]等異常情況。人們往往采取人工查看服務(wù)器日志的方式,通過各個(gè)進(jìn)程和端口的狀態(tài)判斷哪些進(jìn)程或端口可能會(huì)發(fā)生異常并采取相應(yīng)的措施,但是這種方式耗時(shí)耗力,并且人工查看具有時(shí)限性和一定的誤差。

        本文將采用一些基于深度學(xué)習(xí)的方法,對(duì)服務(wù)器集群上的進(jìn)程和端口網(wǎng)絡(luò)進(jìn)行分析,并對(duì)該網(wǎng)絡(luò)上的節(jié)點(diǎn)即某個(gè)進(jìn)程或端口的狀態(tài)進(jìn)行預(yù)測(cè)。

        本文首先對(duì)服務(wù)器集群上的進(jìn)程網(wǎng)絡(luò)進(jìn)行建模,而和被廣泛關(guān)注的社交網(wǎng)絡(luò)[4-8]不同的是,缺乏對(duì)該進(jìn)程網(wǎng)絡(luò)上節(jié)點(diǎn)的了解,比如一個(gè)進(jìn)程何時(shí)會(huì)與周圍的進(jìn)程產(chǎn)生通信、為什么會(huì)產(chǎn)生通信以及本文的預(yù)測(cè)目標(biāo):一個(gè)進(jìn)程是否會(huì)發(fā)生崩潰,因?yàn)檫M(jìn)程間的通信通常依賴于某個(gè)進(jìn)程的具體功能和實(shí)際服務(wù)的使用情況。即便如此,本文還是可以類比社交網(wǎng)絡(luò)中節(jié)點(diǎn)的相關(guān)性質(zhì),對(duì)該進(jìn)程網(wǎng)絡(luò)中的節(jié)點(diǎn)做出如下分析。

        ??將某個(gè)進(jìn)程的占用CPU、內(nèi)存情況看作進(jìn)程節(jié)點(diǎn)的“固有屬性”。

        ??進(jìn)程之間的通信看作進(jìn)程網(wǎng)絡(luò)中的邊,那么,節(jié)點(diǎn)在網(wǎng)絡(luò)中的中心度[9-10]可以衡量節(jié)點(diǎn)的活躍程度以及與外界聯(lián)系的緊密程度。

        ??把進(jìn)程崩潰視作一個(gè)進(jìn)程的行為,那么進(jìn)程崩潰這一現(xiàn)象可以類比為社交網(wǎng)絡(luò)中信息的擴(kuò)散[11-12]。

        基于以上分析,本文把一個(gè)進(jìn)程或端口發(fā)生崩潰、阻塞等異常的現(xiàn)象定義為網(wǎng)絡(luò)中一個(gè)節(jié)點(diǎn)的狀態(tài);在給定的時(shí)間戳下,網(wǎng)絡(luò)中的節(jié)點(diǎn)可以被分為兩類:處于異常狀態(tài)的節(jié)點(diǎn)和處于正常狀態(tài)的節(jié)點(diǎn)。因此,預(yù)測(cè)網(wǎng)絡(luò)中節(jié)點(diǎn)的異常[13]可以轉(zhuǎn)化為針對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)的二分類問題[14]。本文仔細(xì)地選取節(jié)點(diǎn)的相關(guān)屬性作為節(jié)點(diǎn)分類的特征,用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[15]對(duì)該模型進(jìn)行分類,并得到了較為可信的結(jié)果。

        2 相關(guān)定義

        2.1 進(jìn)程網(wǎng)絡(luò)

        本文對(duì)服務(wù)器集群上的進(jìn)程網(wǎng)絡(luò)以及該網(wǎng)絡(luò)中的節(jié)點(diǎn)、邊和節(jié)點(diǎn)狀態(tài)做出如下定義。

        定義1 (進(jìn)程標(biāo)識(shí)符)用一個(gè)進(jìn)程的如下信息作為其標(biāo)識(shí)符:本地IP地址、本地主機(jī)名、本地進(jìn)程組、進(jìn)程描述以及進(jìn)程號(hào)。換句話說,上述5個(gè)字段可以唯一地確定一個(gè)進(jìn)程。

        如果兩條日志記錄中進(jìn)程的標(biāo)識(shí)符完全一致,則認(rèn)為是同一進(jìn)程的記錄。

        定義5 (遠(yuǎn)端進(jìn)程)把在日志記錄中本地IP地址或本地主機(jī)名為空的進(jìn)程定義為遠(yuǎn)端進(jìn)程。由于日志記錄是由本地probe(探針)對(duì)正在運(yùn)行的進(jìn)程進(jìn)行遍歷得到的,因此,日志記錄中本地IP地址或主機(jī)名為空可以視作該進(jìn)程不在這個(gè)服務(wù)器集群上,將這類進(jìn)程稱為遠(yuǎn)端進(jìn)程。

        2.2 端口網(wǎng)絡(luò)

        定義6 (端口標(biāo)識(shí)符)用一個(gè)端口的如下信息作為其標(biāo)識(shí)符:主機(jī)名、端口名。如果兩條日志記錄中主機(jī)名和端口名一致,認(rèn)為這是同一端口的記錄。

        3 數(shù)據(jù)觀察

        在對(duì)進(jìn)程和端口狀態(tài)進(jìn)行預(yù)測(cè)前,先從整體上對(duì)數(shù)據(jù)做一些基本的分析。

        3.1 進(jìn)程網(wǎng)絡(luò)

        ?3.1.1 數(shù)據(jù)量

        ?3.1.2 靜態(tài)特征分布

        ??CPU占用率;

        ??內(nèi)存使用量;

        ??與之存在通信的進(jìn)程數(shù)量(即進(jìn)程網(wǎng)絡(luò)中節(jié)點(diǎn)的度);

        ??與其他進(jìn)程的通信總量(即進(jìn)程網(wǎng)絡(luò)中節(jié)點(diǎn)的邊權(quán)之和);

        ??存在通信的遠(yuǎn)端進(jìn)程數(shù)量;

        如圖1所示,正負(fù)樣本在CPU這一“固有屬性”上存在一定的差異:對(duì)于負(fù)樣本即正常進(jìn)程,它們的CPU使用率集中在20%以下和100%以上;而正樣本(異常進(jìn)程)的CPU使用率分布較為分散。根據(jù)經(jīng)驗(yàn),這種分布是可以理解的,因?yàn)閷?duì)于正在運(yùn)行的進(jìn)程,如果是計(jì)算密集型的,CPU使用量會(huì)較高,否則一般不會(huì)太多地占用CPU資源。

        圖1 CPU占比的整體分布

        圖2為存在通信的進(jìn)程數(shù)量這一非結(jié)構(gòu)特征的整體分布。可以看到,存在通信的進(jìn)程數(shù)量在正負(fù)樣本之間沒有顯著區(qū)別(進(jìn)程網(wǎng)絡(luò)中節(jié)點(diǎn)的度大多為1);進(jìn)程節(jié)點(diǎn)的帶權(quán)重的度以及遠(yuǎn)端通信進(jìn)程數(shù)量這兩個(gè)特征的結(jié)果也和圖2類似。也就是說,正負(fù)樣本在這3個(gè)非結(jié)構(gòu)特征上沒有明顯差異。

        圖2 存在通信的進(jìn)程數(shù)量的整體分布

        對(duì)該進(jìn)程網(wǎng)絡(luò)中的結(jié)構(gòu)特征的分布情況進(jìn)行考察。再次回到本文的目標(biāo):對(duì)于給定的進(jìn)程,其是否為崩潰狀態(tài)。對(duì)于較大規(guī)模的服務(wù)器集群,其上運(yùn)行著大量進(jìn)程,不難想象,一個(gè)進(jìn)程關(guān)聯(lián)的其他進(jìn)程越多,該進(jìn)程就越重要,其對(duì)服務(wù)器的負(fù)載就越重,崩潰的可能性就越大。

        因此,選擇進(jìn)程網(wǎng)絡(luò)圖上的結(jié)構(gòu)特征來衡量一個(gè)進(jìn)程的重要性或者核心程度,希望通過進(jìn)程節(jié)點(diǎn)的中心度[9-10]來幫助對(duì)進(jìn)程狀態(tài)進(jìn)行分析。圖3給出了進(jìn)程節(jié)點(diǎn)的中心度的分布情況。其中,橫坐標(biāo)為中心度的十進(jìn)對(duì)數(shù),縱坐標(biāo)為累積分布概率。

        圖3 中心度的整體分布

        可以看到,相對(duì)于正常進(jìn)程,正樣本(異常進(jìn)程)的中心度偏小,但整體分布是相似的,緊密性也是類似的結(jié)果。但這并不意味著“中心度高的重要進(jìn)程更容易崩潰”這一假設(shè)不正確,因?yàn)橥粋€(gè)中心進(jìn)程崩潰會(huì)導(dǎo)致與其存在通信的其他進(jìn)程或者該進(jìn)程的子進(jìn)程產(chǎn)生異常,而日志記錄是在某個(gè)特定的時(shí)間點(diǎn)通過探針生成的,因此很有可能在生成日志記錄的時(shí)候,以該中心進(jìn)程為核心的進(jìn)程組都進(jìn)行了重啟,因此正樣本的中心度分布和樣本的整體分布沒有較大區(qū)別。

        值得注意的是,中心度和緊密性具有一定的相關(guān)性,二者作為特征訓(xùn)練分類器的效果也許會(huì)有意想不到的效果,在實(shí)驗(yàn)中也將看到這一點(diǎn)。

        ?3.1.3 時(shí)間間隔分布

        前文對(duì)進(jìn)程的靜態(tài)特征做了整體分析,但是還應(yīng)當(dāng)注意到,進(jìn)程的崩潰是一個(gè)過程,時(shí)間維度上的特征也許會(huì)較好地反映進(jìn)程的狀態(tài)。

        本文考慮進(jìn)程從正常狀態(tài)到崩潰狀態(tài)的時(shí)間間隔,體現(xiàn)在日志記錄中即同一進(jìn)程的進(jìn)程號(hào)兩條不同的連續(xù)日志記錄的時(shí)間戳的差。如果進(jìn)程一直保持著正常狀態(tài)(沒有崩潰),則傾向于認(rèn)為其在日志記錄中出現(xiàn)的時(shí)間戳應(yīng)當(dāng)是比較穩(wěn)定的,即不會(huì)突然在一段時(shí)間內(nèi)沒有日志記錄。而對(duì)于發(fā)生崩潰的進(jìn)程,由于其重啟等因素,可能會(huì)有較長(zhǎng)時(shí)間間隔沒有日志記錄的現(xiàn)象。

        圖4為正負(fù)樣本的時(shí)間間隔的整體分布。其中,橫坐標(biāo)為進(jìn)程距離上次出現(xiàn)在探針日志中的時(shí)間間隔(分鐘),縱坐標(biāo)為累積分布概率。

        再一次地,可以發(fā)現(xiàn)在時(shí)間間隔這一特征上沒有顯著區(qū)別。由于探針每3 min采樣一次,因此時(shí)間戳的差集中在3、6或9等數(shù)值上。

        圖4 時(shí)間間隔的整體分布

        3.2 端口網(wǎng)絡(luò)

        ?3.2.1 數(shù)據(jù)量

        ?3.2.2 端口特征

        對(duì)具體某個(gè)端口,定義以下特征:

        圖5為端口在前一天各個(gè)小時(shí)中的平均入口流量分布??梢钥吹疆惓6丝诤驼6丝诘牟罹嗍禽^為明顯的:相對(duì)于正常端口,異常端口各個(gè)小時(shí)的平均流量有明顯的下降,可以猜測(cè)發(fā)生了端口阻塞,導(dǎo)致異常端口在同時(shí)段內(nèi)流量較少。

        同樣地,如圖6所示,異常端口和正常端口在前3天的出口流量方差這一指標(biāo)上也是區(qū)別顯著:相對(duì)于正常端口,異常端口的出口流量在一天內(nèi)的方差很大(很可能是因?yàn)楫惓6丝跁r(shí)斷時(shí)續(xù)地進(jìn)行工作,出入流量的方差相比正常端口自然要大一些)。圖7是端口在前3天出現(xiàn)告警次數(shù)的平均值??梢钥吹?,如果當(dāng)天端口出現(xiàn)異常情況,那么在前3天這個(gè)端口也很有可能已經(jīng)出現(xiàn)了異常情況。

        圖5 前一天平均入口流量分布

        圖6 前3天出口流量方差

        值得注意的是,圖5和圖6的結(jié)果是在2017年4月份的數(shù)據(jù)集上得出的,不同時(shí)間段內(nèi)異常端口的表現(xiàn)可能不一致,如異常端口可能會(huì)出現(xiàn)出入口流量方差較小的情況(和圖6恰恰相反),這有可能是因?yàn)楫惓6丝诒蛔枞?,流量在一天的大部分時(shí)間內(nèi)恒定地處于較低水平,表現(xiàn)出方差較小的情況。但經(jīng)過大量數(shù)據(jù)的測(cè)試,發(fā)現(xiàn)異常端口和正常端口在出入口流量方差和小時(shí)總量這兩個(gè)指標(biāo)上總是有較為顯著的區(qū)別。

        圖7 前3天告警次數(shù)分布

        4 實(shí)驗(yàn)方法

        將用分類問題的思路判斷給定進(jìn)程或端口的狀態(tài)。進(jìn)一步地,由于狀態(tài)只有異常和正常兩種,因此目標(biāo)簡(jiǎn)化為二分類[14-18]問題:給定一個(gè)進(jìn)程/端口的相關(guān)描述,輸出該進(jìn)程/端口所處的狀態(tài)(異常與否)。

        4.1 訓(xùn)練方法

        ?4.1.1 進(jìn)程網(wǎng)絡(luò)

        根據(jù)樣本的輸入特征,在訓(xùn)練集上訓(xùn)練得到CNN,對(duì)測(cè)試集中的每個(gè)進(jìn)程或輸出判斷結(jié)果,用準(zhǔn)確率、召回率和F1得分來衡量分類器的優(yōu)劣。

        其中,由于正負(fù)樣本比過?。ㄕ龢颖具^少),本文采用過采樣(over-sampling)[20]的方法生成訓(xùn)練集,用交叉驗(yàn)證(cross-validation)[21-22]的方式對(duì)分類器進(jìn)行訓(xùn)練,然后對(duì)正樣本極少的原始數(shù)據(jù)集進(jìn)行測(cè)試。

        ?4.1.2 端口網(wǎng)絡(luò)

        類似地,對(duì)于端口的異常預(yù)測(cè)這一問題,人工提取第3.2節(jié)中提及的各個(gè)特征作為輸入,通過訓(xùn)練集得到一個(gè)CNN分類器,對(duì)測(cè)試集中的每個(gè)進(jìn)程或輸出判斷結(jié)果,用準(zhǔn)確率、召回率和F1得分來衡量分類器的優(yōu)劣。

        同樣,由于正負(fù)樣本比過?。ㄕ龢颖具^少),本文采用部分隨機(jī)采樣(partly-random sampling)的方法對(duì)負(fù)樣本進(jìn)行采樣,以平衡正負(fù)樣本比生成訓(xùn)練集,然后用交叉驗(yàn)證的方式對(duì)分類器進(jìn)行訓(xùn)練,對(duì)正樣本極少的原始數(shù)據(jù)集進(jìn)行測(cè)試。

        4.2 標(biāo)簽的提取

        對(duì)于進(jìn)程網(wǎng)絡(luò),按照定義4給出的方式,人工從原始數(shù)據(jù)集中提取進(jìn)程標(biāo)簽(正負(fù)樣本)。即首先過濾日志得到常駐進(jìn)程,對(duì)每個(gè)常駐進(jìn)程,判斷其上一條時(shí)間戳的日志記錄的進(jìn)程號(hào)是否與當(dāng)前時(shí)間戳的進(jìn)程號(hào)一致。若不一致,則認(rèn)為在當(dāng)前時(shí)間戳該進(jìn)程發(fā)生崩潰,采集為正樣本,否則為負(fù)樣本。

        而端口網(wǎng)絡(luò)數(shù)據(jù)集中含有標(biāo)簽信息,直接提取即可。

        5 實(shí)驗(yàn)結(jié)果

        5.1 進(jìn)程網(wǎng)絡(luò)

        本數(shù)據(jù)集(上海電信CSB服務(wù)器集群的進(jìn)程日志)時(shí)間跨度為2016年8月30日14—18時(shí),共2 858 063條日志記錄。其中,常駐進(jìn)程973個(gè),進(jìn)程崩潰次數(shù)為25次,正負(fù)樣本比為0.16‰。

        本文隨機(jī)地對(duì)正負(fù)樣本進(jìn)行分割,使訓(xùn)練集和測(cè)試集的大小一致。由于正負(fù)樣本比過低,本文采用正樣本過采樣和交叉驗(yàn)證的方式進(jìn)行訓(xùn)練,每次訓(xùn)練和測(cè)試過程重復(fù)10次,結(jié)果取平均值。

        首先考慮具體的某個(gè)基本特征對(duì)分類效果的影響。

        圖8給出了不同特征對(duì)分類結(jié)果的影響的比較。橫向地和沒有剔除任何特征的分類器相比,可以發(fā)現(xiàn),CPU、內(nèi)存使用量以及遠(yuǎn)端進(jìn)程數(shù)量這3個(gè)特征對(duì)區(qū)分正負(fù)樣本的作用是顯著的,剔除其中任何一個(gè)都會(huì)使F1得分有明顯的下降。這個(gè)結(jié)果和特征的分布具有一致性,因?yàn)檎?fù)樣本的CPU占用率和內(nèi)存使用量的分布有著明顯的區(qū)別;而對(duì)于剔除節(jié)點(diǎn)的度、邊權(quán)和以及圖的結(jié)構(gòu)化特征中心度和緊密性,可以發(fā)現(xiàn)隨著正負(fù)樣本比的降低,F(xiàn)1得分反而在增加。

        圖8 單個(gè)特征對(duì)結(jié)果的影響

        進(jìn)一步地,為了考慮不同特征之間的相關(guān)性的影響,把上述的特征分為3類:進(jìn)程的運(yùn)行信息,即CPU和內(nèi)存使用情況;進(jìn)程的通信情況,體現(xiàn)為進(jìn)程網(wǎng)絡(luò)中節(jié)點(diǎn)的度(或帶權(quán)重的邊權(quán)和)以及存在通信的遠(yuǎn)端進(jìn)程數(shù)量;進(jìn)程網(wǎng)絡(luò)中節(jié)點(diǎn)的結(jié)構(gòu)特征,即中心度和緊密性。

        圖9展示了不同特征對(duì)分類結(jié)果的影響??梢钥吹?,第二類特征即進(jìn)程的通信情況,極大地提高了分類器的召回率,但是準(zhǔn)確率很低,這是因?yàn)橛写罅康呢?fù)樣本在該特征上和正樣本具有相同的值,在只有第二類特征的條件下,分類器傾向于認(rèn)為大部分樣本都是正樣本。因而崩潰預(yù)測(cè)在沒有第二類特征的分類器上達(dá)到了最好的效果。

        圖9 單組特征和組合特征對(duì)分類的影響

        而第一類和第三類特征都可以在一定程度上反映進(jìn)程的狀態(tài)。這是因?yàn)檎缭趫D9中,正負(fù)樣本的CPU和內(nèi)存使用情況的分布不同,而第三類特征即進(jìn)程節(jié)點(diǎn)的中心度,盡管分布相似,但二者具有緊密的相關(guān)性,結(jié)合在一起考慮便可以作為崩潰檢測(cè)的指標(biāo)之一。

        圖10 不同特征變化量對(duì)應(yīng)的F1得分

        這說明進(jìn)程的崩潰不是突然的,一個(gè)進(jìn)程在發(fā)生崩潰的前后,其CPU、內(nèi)存使用情況以及和其他進(jìn)程的通信等屬性往往會(huì)有突出的變化:比如在PC(個(gè)人計(jì)算機(jī))上,往往一個(gè)進(jìn)程占用內(nèi)存過大會(huì)出現(xiàn)崩潰,崩潰前內(nèi)存使用量增加的趨勢(shì)則反映了其崩潰的可能性。

        實(shí)驗(yàn)結(jié)果表明,將時(shí)間信息加入進(jìn)程的特征進(jìn)行訓(xùn)練,得到了效果更好的分類器以對(duì)進(jìn)程的崩潰進(jìn)行檢測(cè)。

        5.2 端口網(wǎng)絡(luò)

        本文選取了上海電信IDC的2017年4月份的端口流量監(jiān)控記錄,日活躍端口數(shù)量均值為6 175.5。

        本文將4月1—13日的數(shù)據(jù)作為訓(xùn)練集訓(xùn)練分類器,用4月14—20日的數(shù)據(jù)作為測(cè)試集。

        如表1所示,訓(xùn)練得到的分類器對(duì)測(cè)試集的預(yù)測(cè)是較為準(zhǔn)確的,平均F1得分可以達(dá)到0.8左右。

        表1 端口網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果

        6 結(jié)束語

        本文針對(duì)上海電信的進(jìn)程網(wǎng)絡(luò)和網(wǎng)絡(luò)端口,分析了網(wǎng)絡(luò)中節(jié)點(diǎn)的有關(guān)屬性,選取節(jié)點(diǎn)的特征進(jìn)行訓(xùn)練以對(duì)節(jié)點(diǎn)的異常狀態(tài)進(jìn)行預(yù)測(cè)。

        通過仔細(xì)地選取特征和相應(yīng)的預(yù)測(cè)結(jié)果,可以得到如下結(jié)論。

        ??由于數(shù)據(jù)集上正樣本的稀疏性,訓(xùn)練數(shù)據(jù)的正負(fù)樣本比對(duì)訓(xùn)練結(jié)果有顯著的影響。

        ??相比于進(jìn)程的通信情況,進(jìn)程節(jié)點(diǎn)的結(jié)構(gòu)特征以及進(jìn)程運(yùn)行信息(如CPU占用率、內(nèi)存使用量等)對(duì)于判斷一個(gè)進(jìn)程是否會(huì)崩潰更具參考價(jià)值。

        ??從時(shí)間的維度看,進(jìn)程的運(yùn)行和通信信息的變化量更能反映該進(jìn)程的狀態(tài)。

        ??從時(shí)間的維度看,端口過去3天的告警次數(shù)和出入流量方差更能區(qū)分其是否異常。

        針對(duì)進(jìn)程故障預(yù)測(cè)這一問題,未來還可以從以下兩方面著手考慮。

        ??類比社交網(wǎng)絡(luò)中的信息擴(kuò)散[11-12],可以把進(jìn)程崩潰看作進(jìn)程的一種行為,通過對(duì)進(jìn)程節(jié)點(diǎn)之間的影響力進(jìn)行建模,可以預(yù)測(cè)進(jìn)程的崩潰情況。同樣的,對(duì)于網(wǎng)絡(luò)端口來說,對(duì)網(wǎng)絡(luò)上的邊進(jìn)行建模(如端口的通信),也可以將端口出現(xiàn)異常視作在端口網(wǎng)絡(luò)中擴(kuò)散的一種行為。

        ??除了人工地選取進(jìn)程特征進(jìn)行訓(xùn)練,還可以運(yùn)用圖表示[23]的方法對(duì)進(jìn)程和端口網(wǎng)絡(luò)進(jìn)行建模,用embedding的結(jié)果作為特征訓(xùn)練分類器。

        [1] DAMANI O P, CHUNG P E, HUANG Y, et al. ONE-IP: techniques for hosting a service on a cluster of machines[J]. Computer Networks and ISDN Systems, 1997, 29(8-13): 1019-1027.

        [2] MOOLENBROEK D V C, APPUSWAMY R, TANENBAUM A S. Integrated system and process crash recovery in the loris storage stack[C]//Networking, Architecture and Storage(NAS), 2012 IEEE 7th International Conference, October 14-17, 2012, Seoul, Korea (South). Piscataway: IEEE Press, 2012: 1-10.

        [3] MOHAMED E, ABDEL-WAHAB H, SALAMA I. Multicast address management in the internet: a study of the port blocking problem[R]. 1999.

        [4] NEWMAN M, BARABASI A L, WATTS D J. The structure and dynamics of networks[M]. Princeton: Princeton University Press, 2006: 419-421.

        [5] GRANOVETTER M. The strength of weak ties[J]. American Journal of Sociology, 1973, 78(6): 1360-1380.

        [6] ONNELA J P, SARAMAKI J, HYVONEN J, et al. Structure and tie strengths in mobile communication networks[J]. The National Academy of Sciences, 2007, 104(18): 7332-7336.

        [7] CHORMANSKI K, MATUSZAK M, MIEKISZ J. Scale-free graph with preferential attachment and evolving internal vertex structure[J]. Journal of Statistical Physics, 2013, 151(6): 1175- 1183.

        [8] MILGRAM S. The small world problem[J]. Psychology Today, 1967, 2(1): 185-195.

        [9] FREEMAN L. A set of measures of centrality based on betweenness[J]. Sociometry, 1977, 40(1): 35-41.

        [10] NEWMAN M. Networks: an introduction[M]. Oxford: Oxford University Press, 2010.

        [11] GOMEZ-RODRIGUEZ M, LESKOVEC J, KRAUSE A. Inferring networks of diffusion and influence[J]. ACM Transactions on Knowledge Discovery from Data, 2010, 5(4): 1-37.

        [12] RODRIGUEZ M G, BALDUZZI D, SCHOLKOPF B. Uncovering the temporal dynamics of diffusion networks[C]//The 28th International Conference on Machine Learning (ICML), June 28-July 2, 2011, Bellevue, Washington, USA. [S.l.:s.n.], 2011: 561-568.

        [13] LIBEN-NOWELL D, KLEINBERG J. The link prediction problem for social networks[J]. Journal of the Association for Information Science & Technology, 2007, 58(7): 1019-1031.

        [14] LAST M. Kernel methods for pattern analysis[M]. Beijing: China Machine Press, 2005.

        [15] KIM I. Convolutional neural networks for sentence classification[J]. arXiv: 1408.5882, 2014.

        [16] CONKLIN J D. Applied logistic regression[J]. Technometrics, 2013, 44(1): 81-82.

        [17] BRANDES U. A faster algorithm for betweenness centrality[J]. Journal of Mathematical Sociology, 2001, 25(2): 163- 177.

        [18] SABIDUSSI G.The centrality index of a graph[J]. Psychometrika, 1966, 31(4): 581-603.

        [19] JAPKOWICZ N. The class imbalance problem: significance and strategies[C]//The 2000 International Conference on Artificial Intelligence(IC-AI’2000), June 26-29, 2000, Las Vegas, USA. [S.l.:s.n.], 2000.

        [20] GEISSER S. Predictive inference: an introduction [M]. New York: Chapman and Hall, 1993.

        [21] KOHAVI R. A study of cross-validation and bootstrap for accuracy estimation and model selection[C]//The Fourteenth International Joint Conference on Artificial Intelligence, August 20-25, 1995, Montreal, Quebee, Canada. New York: ACM Press, 1995: 1137-1143.

        [22] LEIKE, A. Demonstration of the exponential decay law using beer froth[J]. European Journal of Physics, 2002, 23(1): 21.

        [23] MOHAR B. A linear time algorithm for embedding graphs in an arbitrary surface[J]. SIAM Journal on Discrete Mathematics, 2006, 12(1): 6-26.

        Intelligent fault prediction method of telecom system

        CAI Heng, GE Lei

        Shanghai Branch of China Telecom Co., Ltd., Shanghai 200042, China

        Some approaches based on deep learning would be used to analyze the process and port network on a server cluster. Specifically, the features of nodes were carefully selected in server cluster network, by combining the prior knowledge from actual operations, and the abnormal state of processes or ports on the cluster was predicted. According to the research, the running information such as loads of CPU and memory, communications between processes and the structural features in the process network was valuable in predicting the states of processes and ports; furthermore, the changes of features mentioned above in the time dimension reflected the states of processes or ports, too.

        fault prediction, deep learning, binary classification

        TP391.1

        A

        10.11959/j.issn.1000?0801.2018118

        蔡珩(1976?),女,中國(guó)電信股份有限公司上海分公司工程師,主要研究方向?yàn)镮T智慧運(yùn)營(yíng)、利用大數(shù)據(jù)技術(shù)提升系統(tǒng)運(yùn)維的智能化。

        戈磊(1973?),男,中國(guó)電信股份有限公司上海分公司企業(yè)信息化部高級(jí)項(xiàng)目經(jīng)理,主要研究方向?yàn)樵朴?jì)算、開源架構(gòu)、大數(shù)據(jù)分析、Devops運(yùn)營(yíng)、流程生命周期管控等。

        2017?10?17;

        2018?02?05

        猜你喜歡
        日志進(jìn)程分類器
        一名老黨員的工作日志
        扶貧日志
        心聲歌刊(2020年4期)2020-09-07 06:37:14
        債券市場(chǎng)對(duì)外開放的進(jìn)程與展望
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        游學(xué)日志
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
        社會(huì)進(jìn)程中的新聞學(xué)探尋
        一種基于粗集和SVM的Web日志挖掘模型
        国产成人午夜精品免费视频| 中文字幕日韩精品有码视频| 亚洲va中文字幕无码毛片| 亚洲av色香蕉一区二区三区| 99久久精品国产一区二区三区| 亚洲av男人的天堂在线观看| 97福利视频| 亚洲女同一区二区久久| 国产成人一区二区三区影院| 精品人妻av一区二区三区| 国产精品成人久久电影| 无遮高潮国产免费观看| 免费一区啪啪视频| 青青草视全福视频在线| 91精品国产92久久久| 小荡货奶真大水真多紧视频| 国产精品美女白浆喷水| 少妇人妻偷人中文字幕| 久久久久人妻精品一区二区三区| 国内女人喷潮完整视频| 九九热在线视频观看这里只有精品 | 国产女主播大秀在线观看| 18禁止进入1000部高潮网站| 国产av一区二区三区传媒| 99视频这里有精品| 日韩乱码精品中文字幕不卡| 国产精品一区二区久久国产| 国产免费丝袜调教视频| 国产一区二区三区国产精品| 中文字幕精品乱码一二三区| 久久精品国产亚洲av精东 | 亚洲一区二区三区偷拍女厕| 日本一区不卡高清在线观看| 亚洲国产精品一区二区毛片| 大肉大捧一进一出视频出来呀| 久久精品国产精品青草色艺| 亚洲中文字幕永久网站| 国产一区二区三区精品免费av| 日韩亚洲av无码一区二区不卡| 免费在线观看一区二区| 亚洲av香蕉一区二区三区av|