楊靖凡,孔繁鵬,韓立強
(中鐵信(北京)網(wǎng)絡技術研究院有限公司,北京 100038)
隨著信息技術的不斷發(fā)展和深入應用,信息系統(tǒng)運維成為企業(yè)信息化建設中不可或缺的一環(huán)。然而,隨著系統(tǒng)規(guī)模的逐漸擴大、復雜性的增加,傳統(tǒng)的手工運維方式帶來了更多新的挑戰(zhàn)和風險,已經(jīng)難以滿足管理和優(yōu)化的需求[1]。知識圖譜作為一種新型的智能化技術,可以通過對大量異構數(shù)據(jù)進行語義建模和圖論分析,實現(xiàn)知識的自動獲取、處理和推理,實現(xiàn)信息系統(tǒng)運維的問題快速發(fā)現(xiàn)并解決,提升運維效率和服務質(zhì)量[2]。因此,知識圖譜在信息系統(tǒng)運維領域中的應用研究,具有重要的研究意義和實際應用價值。
作為一種能夠廣泛結構化各類知識的通用技術,知識圖譜已在學術界及工業(yè)界取得了廣泛關注。知識圖譜是一種表示知識的語義網(wǎng)絡,它能夠將各種不同來源、不同類型、不同格式的數(shù)據(jù)進行融合和鏈接,并通過語義化建模來實現(xiàn)知識的自動獲取、處理和分析[3]。
知識圖譜通常由基本的三元組構成,即實體、屬性和關系。實體指現(xiàn)實世界中相對獨立存在且可區(qū)分的事物,如人、物與地點等,每個實體在知識圖譜中都有具有唯一性;屬性針對實體而言,主要描述實體的各類特征,如名字、顏色、價格等,與此同時屬性也可以作為實體使用,因為它們也可以擁有自己的進一步屬性描述;關系指知識圖譜中實體之間的關聯(lián),其主要負責描述實體間的語義聯(lián)系,例如關聯(lián)關系、工作關系、位于關系等[4]。
知識圖譜作為一種新型的智能化技術,可以通過三元組概念將各類數(shù)據(jù)結構化,實現(xiàn)實體間的關系檢索及聯(lián)動分析[5]。而在企業(yè)信息系統(tǒng)系統(tǒng)中,信息系統(tǒng)設備具有數(shù)量眾多、關系繁雜的特點。知識圖譜的技術特性很好地適配了這一情況,可以使運維人員在運維工作中快速檢索設備間的關系,同時縮短故障處置時間,綜合提升運維效率與服務質(zhì)量文。
(1) 更強大的知識抽取與融合能力
本質(zhì)上,知識圖譜是建立在知識抽取和數(shù)據(jù)融合上的綜合技術。知識抽取可以實現(xiàn)對非結構化數(shù)據(jù)的知識重構,自動化提取出使用者感興趣的相關信息,并以實體、屬性及關系等三元組形式進行展現(xiàn);而數(shù)據(jù)融合則將來自不同來源的數(shù)據(jù)進行清洗,清除重復信息,并形成清晰統(tǒng)一的語義空間。這兩項技術的結合使得知識圖譜更加具有可擴展性、靈活性和豐富性。
(2) 更易理解的知識結構
知識圖譜的體系架構往往包含了多領域的各類知識,在提供全面豐富的知識檢索服務的同時,繁雜的知識體系往往帶來知識的難以理解以及整合困難,而知識圖譜的特質(zhì)可優(yōu)化這一問題。知識圖譜可將實體和關系進行結構化組織與標注,使內(nèi)容更易被人理解,同時具有更好的組織性和可讀性。另外對于機器而言,相較于傳統(tǒng)的數(shù)據(jù)處理方式,知識圖譜獨有的結構化表示方式更容易被機器理解和處理,從而提升了系統(tǒng)在語義理解和深度挖掘方向上的分析能力。
(3) 更強的適用性
相比于其他數(shù)據(jù)分析技術,知識圖譜在多領域都具有更強的適用性。目前知識圖譜技術在醫(yī)療、金融、教育及物聯(lián)網(wǎng)等多種行業(yè)中都得到了廣泛應用并取得了較好效果,究其原因是各領域基礎設施均能普遍抽象為系統(tǒng)中的三元組,配合獨有的分析及展現(xiàn)方式,使其具備極佳的易用性及適用性,另外在提供基礎關系服務的同時還能進一步提升數(shù)據(jù)分析和挖掘的效率與價值,為用戶提供清晰便捷的展現(xiàn)方案。
(4) 更便捷的可視化與交互模式
知識圖譜在數(shù)據(jù)的存儲和管理方面具有一定創(chuàng)新性,數(shù)據(jù)一般以有向圖形式用專有的圖數(shù)據(jù)庫存儲,這種方式使圖數(shù)據(jù)庫在數(shù)據(jù)存儲和圖遍歷能力上極具優(yōu)勢,可以快速檢索和查閱知識圖譜中的實體間關系,從而更好地支撐可視化和交互技術,以更直觀、易懂且智能的方式呈現(xiàn)給用戶。一般知識圖譜會提供多種形式的可視化與交互方式,如圖形界面、查詢接口、API等,從而滿足不同用戶的使用需求。
隨著各大企業(yè)信息系統(tǒng)系統(tǒng)規(guī)模逐步擴大,其運行環(huán)境也越來越復雜,涉及的不同技術及平臺種類也在不斷增加,這增加了運維工作的難度。而當設備或某業(yè)務出現(xiàn)故障時,如何快速定位故障并提供相應故障鏈,明確故障影響范圍,是當前亟需解決的痛點問題。
在設備故障層面,需在定位故障的同時,快速確定故障影響的范圍,明確連帶遭受影響的相關設備;在業(yè)務故障層面,需在修復故障的同時,明確本次故障涉及的全部硬件設備及系統(tǒng)。當前相關運維工具能夠較好地實現(xiàn)對單一設備或業(yè)務的故障診斷,但缺乏故障影響范圍分析及聯(lián)動計算能力。故需提出一種覆蓋全面、易于理解的運維方法,解決上述問題。
信息網(wǎng)絡由網(wǎng)絡設備、計算設備以及將之串聯(lián)起來的傳輸網(wǎng)絡等信息化基礎設施組成。在知識圖譜的框架下各類設備以及網(wǎng)段等可以構成圖譜中的實體,而這些實體之間基于物理、邏輯的連接可以視為圖譜之中的關系。因此,信息網(wǎng)絡中各類物理設備和邏輯網(wǎng)段便可以基于連接關系構成運維圖譜。
基于以上架構,多層級運維知識圖譜應運而生,其抽象OSI模型中的關鍵層級即覆蓋設備層、物理層、轉發(fā)層、路由層及應用層,多角度覆蓋網(wǎng)絡系統(tǒng)實體,同時在各類運維監(jiān)控系統(tǒng)的數(shù)據(jù)加持下可以動態(tài)地呈現(xiàn)該實體和關系的變化狀況,客觀反應當前實體運行狀況以及連接關系。其各層級主要設計內(nèi)容如下。
(1) 設備層
設備層是整個運維知識圖譜的最底層,該層的視角主要聚焦在單臺的物理設備上。在該層里,每個物理設備可分解為本體實體和多個組件實體。其中,本體實體為設備物理層面的本體,組件實體則指代設備運行所依賴的各個組件、模塊的實體。而組件實體也被分為兩類:一類包括該設備物理組件,如端口、CPU、內(nèi)存、風扇、電源等;另一類為表征設備正常運行的邏輯功能實體,如溫度、轉發(fā)表、路由表、進程表等。設備層示例如圖1所示。
圖1 運維知識圖譜設備層示例
(2) 物理層
在物理層中,存在兩種類型的實體:第一種是設備實體,設備的實體屬性來源于設備層的信息;第二種是鏈路實體,鏈路為連接各設備實體的網(wǎng)絡線路實體,其物理表現(xiàn)形式可以為光纖、網(wǎng)線、同軸電纜,也可以是無線通道。設備實體和鏈路實體之間通過自動發(fā)現(xiàn)技術自動構建動態(tài)的拓撲連接,進而展現(xiàn)當前網(wǎng)絡整體的實時物理層連接狀態(tài),并展現(xiàn)整體網(wǎng)絡物理層運行態(tài)勢,并在出現(xiàn)異常的連接或鏈接斷開后能夠快速感知。物理層示例如圖2所示。
圖2 運維知識圖譜物理層示例
(3) 轉發(fā)層
轉發(fā)層對應網(wǎng)絡的數(shù)據(jù)鏈路層。網(wǎng)絡內(nèi)配置了多少個二層VLAN域,便有多少個相互獨立的轉發(fā)層,每個獨立的二層廣播域對應一個獨立的轉發(fā)層。從整體來看,轉發(fā)層是一個由轉發(fā)設備和端設備構成的樹狀網(wǎng)絡。轉發(fā)層主要面對的是抽象化的物理設備,所展示的也主要是單一轉發(fā)域內(nèi)的連接關系。轉發(fā)層示例如圖3所示。
(4) 路由層
該層級對應網(wǎng)絡的路由層,該層級將每個轉發(fā)層的轉發(fā)域上卷為一個網(wǎng)段實體。若干網(wǎng)段實體由路由設備連接,共同構成一張路由網(wǎng)絡。從某一個網(wǎng)段出發(fā),到其他任意網(wǎng)段,都會建立一條由中間若干臺路由設備串聯(lián)起來的路由路徑,即路由層展現(xiàn)的是端到端的有方向的路徑。該層級主要對網(wǎng)段之間的路由異常及路由狀態(tài)進行檢測。路由層示例如圖4所示。
圖4 運維知識圖譜路由層示例
(5) 應用層
該層級對應網(wǎng)絡的應用層,主要結合以上層級的綜合信息,依托每臺設備標記的IP地址,將服務器等應用實體進行統(tǒng)一納管,構建應用層級的知識圖譜架構。由于每臺服務器都有IP地址作為身份標識,轉發(fā)層域內(nèi)管理以及跨網(wǎng)段管理更加便捷。應用層示例如圖5所示。
圖5 運維知識圖譜應用層示例
多層級運維知識圖譜可面向實際運維場景,針對性進行問題溯源提示。結合以下示例可對其工作模式進行呈現(xiàn)。
在某業(yè)務系統(tǒng)中,由“交換機1”作為核心連接著業(yè)務、管理和終端三個二層區(qū)域,其中每個區(qū)域都有一臺交換設備作為匯聚交換機同時承擔網(wǎng)關職責,各區(qū)域均布屬帶外管理。該系統(tǒng)在業(yè)務區(qū)部署了探測設備,在管理區(qū)域部署了應用服務器和存儲服務器,并在終端區(qū)部署了終端進行訪問。場景中,探測設備需要向應用服務器傳遞探測信息,終端具有訪問應用服務器需求,同時應用服務器會與同網(wǎng)段的存儲服務器進行交互。其架構示例如圖6所示。
圖6 某業(yè)務系統(tǒng)架構示例
此時業(yè)務部門反應某應用訪問異常,可觀察多層級知識圖譜對于這一問題所做出的連鎖反應。
針對應用層,以IP地址作為標記探測出在“交換機3”與應用服務器出現(xiàn)故障;下探至物理層,“交換機3”、應用服務器與二者中間鏈路均為不健康的狀態(tài),提示其部分參數(shù)出現(xiàn)異常;轉發(fā)層也可觀測到應用服務器斷開連接;再次下探至設備層,觀測到交換機某網(wǎng)絡端口異常,查看其下聯(lián)參數(shù)時端口狀態(tài)為DOWN狀態(tài),最終判斷該故障為應用服務器端口中斷。運維知識圖譜分析邏輯如圖7所示。
圖7 運維知識圖譜分析邏輯
多層級運維知識圖譜可從多角度剖析實際運維問題,輔助運維人員將各類運維數(shù)據(jù)進行有機串聯(lián),同時通過時序數(shù)據(jù)存儲,使運維人員可以回溯故障時段的網(wǎng)絡運行狀態(tài),為運維事件處置與運維經(jīng)驗積累打下基礎。
運維知識圖譜是一種新型的知識表示和管理方法,其憑借強大的知識抽取與融合能力,以及便捷的用戶交互模式,在運維領域得到了廣泛關注。與此同時,運維知識圖譜仍存在數(shù)據(jù)來源不充分、知識表達方式有限等問題。相信在未來應用場景持續(xù)擴展、數(shù)據(jù)質(zhì)量不斷提高的大背景下,運維知識圖譜將進一步迭代優(yōu)化,并取得更好的應用效果。