孫杰賢
“7X24”,“3個9或5個9”,這是IT運維管理的一些基本要求,尤其是在電信、航空、金融等運營性和服務(wù)性領(lǐng)域。相對應(yīng),有著IT消防員之稱的IT運維管理人員的工作狀態(tài)是這樣的:疲于奔命、加班熬夜、壓力山大、出力不討好。“累死累活一個月下來,雖然忙得手腳不著地,可挨領(lǐng)導(dǎo)的批評也更多了,因為雖然問題是解決了,卻收到了更多的投訴:找不到人、反應(yīng)速度太慢、相似的問題總出現(xiàn)、沒有預(yù)防措施......”
運維之困
當(dāng)企業(yè)乃至整個社會對IT的依賴不斷提高,企業(yè)IT系統(tǒng)在變得日趨重要的同時也變得龐大而復(fù)雜。由此導(dǎo)致系統(tǒng)警報和故障的發(fā)現(xiàn)、排除和管理變得更加困難。在縱橫交錯的IT系統(tǒng)中、在浩瀚無邊的數(shù)據(jù)流里發(fā)現(xiàn)故障所在無異于大海撈針,更不要說發(fā)現(xiàn)潛在的問題。如果完全依靠人海戰(zhàn)術(shù),既不現(xiàn)實也不是長久之計。以前,十幾名IT運維管理人員可以維護(hù)管理幾百個節(jié)點;現(xiàn)在,節(jié)點的數(shù)量猛增到幾萬個,顯然,IT運維管理人員數(shù)量不可能相應(yīng)進(jìn)行上百倍的增加,即使增加,也不一定能夠解決問題。
怎么辦?答案便在人工智能和機(jī)器學(xué)習(xí),將這兩項技術(shù)引入IT運維管理從而真正實現(xiàn)自動化和智能化運維,解放IT管理員們。據(jù)Gartner預(yù)測,到2020年,近50%的企業(yè)將在他們的業(yè)務(wù)和IT運維方面采用人工智能和機(jī)器學(xué)習(xí)技術(shù),遠(yuǎn)高于2017年的5%。
隨著“互聯(lián)網(wǎng)+”的普及和“軟件定義”的興起,應(yīng)用性能管理APM已經(jīng)成為IT運維管理最重要也是最主要的環(huán)節(jié)之一。APM通過監(jiān)測和診斷復(fù)雜應(yīng)用程序的性能問題,來保證軟件應(yīng)用程序的運行性能和可用性從而確保用戶體驗。
安吉星,一家企業(yè),一款產(chǎn)品,一套應(yīng)用——涉及碰撞自動求助、緊急救援、安全保障、車況檢測以及車輛被盜協(xié)尋等多種服務(wù)?!鞍布堑脑妇笆峭ㄟ^創(chuàng)新科技建構(gòu)‘人-車-生活的智能互聯(lián),導(dǎo)航和安全控制只是安吉星的應(yīng)用服務(wù)之一。在C端,安吉星還可以提供車主生活助理服務(wù),比如酒店、餐廳、代駕等預(yù)約服務(wù)以及智能家居服務(wù);在B端,安吉星提供車隊管理以及金融等服務(wù)。” 安吉星應(yīng)用監(jiān)控項目負(fù)責(zé)人茅燁雋在接受本刊采訪時表示,“安吉星即應(yīng)用、即服務(wù),因此確保應(yīng)用的性能和可用性從而提高服務(wù)水平和消費體驗是安吉星的根本訴求。這也是為什么安吉星中國在成立之初便引入Dynatrace的APM系統(tǒng),讓被動的維護(hù)變成主動的管理?!?/p>
突破與改變
茅燁雋提到的Dynatrace公司連續(xù)八年入圍Gartner應(yīng)用性能監(jiān)測套件(APM)魔力象限領(lǐng)導(dǎo)者象限,是該領(lǐng)域絕對的領(lǐng)軍者。在第五屆Dynatrace Perform 2018大中華區(qū)用戶大會上,該公司推出了一款面向企業(yè)云環(huán)境的人工智能全棧式監(jiān)控運維平臺,目的只有一個,那就是實現(xiàn)企業(yè)IT的智能化運維管理,從而讓DevOps理念真正落地。對于該平臺的發(fā)布,Dynatrace全球銷售高級副總裁Stephen Pace 如此表示:“六年前,我們便預(yù)測到,云計算、物聯(lián)網(wǎng)、微服務(wù)等引發(fā)的變革將對應(yīng)用和基礎(chǔ)設(shè)施市場產(chǎn)生巨大的影響,于是我們決定重塑監(jiān)控,打造一個以人工智能技術(shù)為核心的性能管理平臺?,F(xiàn)在,這一平臺將真正幫助用戶利用領(lǐng)先的AI技術(shù)實現(xiàn)更高效、智能的性能管理,在迅猛發(fā)展的云市場中搶占業(yè)務(wù)先機(jī)。同時,該平臺的發(fā)布也正式宣告Dynatrace全面轉(zhuǎn)型為一家軟件智能公司?!?/p>
我們來簡單看一下該平臺的技術(shù)突破和價值。技術(shù)突破有四點,主要集中在全棧式、自動化和智能化這幾大特征上:人工智能和機(jī)器學(xué)習(xí)技術(shù)的深度應(yīng)用,直接提供給企業(yè)可解決性能問題的答案,而不只是性能數(shù)據(jù)報表;以單一代理方式,涵蓋全棧式應(yīng)用,并提供實時依賴關(guān)系模型;面向整個生態(tài)系統(tǒng)的應(yīng)用編程接口,可推動和激發(fā)企業(yè)自動化IT管理 ;通過真實用戶體驗與回放技術(shù),讓用戶可以洞察并掌控全程。應(yīng)用價值如下:更快實現(xiàn)性能管理、更少的管理工具、更少的資源占用、更少的修復(fù)時間以及彈性的智能監(jiān)控。
可見,人工智能帶給IT運維管理的改變是巨大的,它可以填補(bǔ)我們?nèi)祟惛棋南到y(tǒng)數(shù)據(jù)之間的空白,提供給IT運維管理人員必要的操作智能和速度,大大減輕了人工故障排除和實時決策的負(fù)擔(dān)??梢韵胂笠幌拢憾嗌倌暌院?,IT運維管理領(lǐng)域出現(xiàn)了更高級的人工智能服務(wù),這個新的人工智能服務(wù)完全可以自動檢查IT設(shè)備和系統(tǒng)的故障并自主進(jìn)行故障排除和系統(tǒng)恢復(fù),于是,幾乎大大小小的企業(yè)和組織全部都在使用這樣的機(jī)器服務(wù),以至于世界上所有的IT運維工程師們都面臨轉(zhuǎn)型的挑戰(zhàn)。