文/張方知
近年來(lái),云計(jì)算在國(guó)內(nèi)外發(fā)展迅猛,并得以廣泛應(yīng)用,人工智能、區(qū)塊鏈、大數(shù)據(jù)、云計(jì)算、云存儲(chǔ)和云安全等熱門技術(shù)層出不窮,而其中云計(jì)算可以說(shuō)是其他各門技術(shù)的基礎(chǔ)。隨著云計(jì)算技術(shù)的不斷創(chuàng)新,數(shù)據(jù)中心向整合化方向邁進(jìn),虛擬化技術(shù)向軟硬協(xié)同方向發(fā)展,大規(guī)模分布式存儲(chǔ)技術(shù)進(jìn)入創(chuàng)新高峰,分布式計(jì)算技術(shù)不斷完善和提升,云計(jì)算前景一片光明,IT世界進(jìn)入云計(jì)算時(shí)代。在IT技術(shù)變革演進(jìn)的過(guò)程中,云上運(yùn)維(Operation and maintenance on Cloud)應(yīng)運(yùn)而生。
云計(jì)算的蓬勃發(fā)展,使得用戶對(duì)云的接受度越來(lái)越高,特別是中小型企業(yè),其業(yè)務(wù)越來(lái)越多地向云端遷移。隨著更多的企業(yè)將應(yīng)用系統(tǒng)遷移到各類由云服務(wù)商提供的云計(jì)算平臺(tái),諸如亞馬遜云、阿里云、騰訊云、華為云等,帶來(lái)了應(yīng)用系統(tǒng)開發(fā)和架構(gòu)部署的變化,傳統(tǒng)以網(wǎng)絡(luò)、主機(jī)、數(shù)據(jù)庫(kù)、中間件等基礎(chǔ)設(shè)施和獨(dú)立IT組件為核心的監(jiān)控系統(tǒng)已經(jīng)無(wú)法滿足對(duì)應(yīng)用系統(tǒng)性能、業(yè)務(wù)連續(xù)性和最終用戶體驗(yàn)等方面的管理需求,IT運(yùn)行維護(hù)模式需要適應(yīng)新的變化,因此對(duì)IT運(yùn)維也需要重新理解并通過(guò)實(shí)踐重構(gòu)認(rèn)識(shí)。
談到運(yùn)維,不得不先說(shuō)說(shuō)運(yùn)維工作的價(jià)值和目標(biāo)。個(gè)人認(rèn)為,無(wú)論傳統(tǒng)運(yùn)維還是云上運(yùn)維,運(yùn)維的核心價(jià)值和最終目標(biāo)都是在于保障業(yè)務(wù)系統(tǒng)的連續(xù)性、可用性、可靠性和安全性,并最大限度地提升系統(tǒng)的性能。
傳統(tǒng)運(yùn)維的工作以機(jī)房建設(shè)、網(wǎng)絡(luò)規(guī)劃、硬件采購(gòu)、軟件選型測(cè)試、系統(tǒng)裝機(jī)、應(yīng)用部署、中間件維護(hù)、監(jiān)控處理、自動(dòng)化運(yùn)維等多種形態(tài)存在。為了達(dá)到核心價(jià)值和目標(biāo),運(yùn)維人員需要花費(fèi)大量的人力、物力和時(shí)間參與底層IT基礎(chǔ)建設(shè)等諸多非業(yè)務(wù)事項(xiàng),這明顯偏離了運(yùn)維技術(shù)人員的專注點(diǎn)和特長(zhǎng)。因此,很多局外人容易把運(yùn)維工作看作是一種打雜的工作,負(fù)責(zé)的都是重復(fù)又繁雜的工作,甚至很多運(yùn)維人也看不到自身的價(jià)值。相比而言,云上運(yùn)維或許更能體現(xiàn)運(yùn)維工程師的價(jià)值感。依托于云服務(wù)商提供的基礎(chǔ)設(shè)施資源,IT人員可以更加專注于業(yè)務(wù)系統(tǒng)的建設(shè)、日常維護(hù)、系統(tǒng)優(yōu)化等工作。
從服務(wù)器管理模式來(lái)講,傳統(tǒng)運(yùn)維一般是采用自有機(jī)房或IDC服務(wù)器托管方式管理服務(wù)器,云上運(yùn)維則是利用云服務(wù)提供商提供的云主機(jī)和云數(shù)據(jù)庫(kù)來(lái)管理服務(wù)器。從職能來(lái)講,無(wú)論是傳統(tǒng)運(yùn)維還是云上運(yùn)維,都非常關(guān)注穩(wěn)定、高效、安全、成本等因素。下面從多個(gè)角度逐一分析云上運(yùn)維和傳統(tǒng)運(yùn)維的不同。
機(jī)房方面。傳統(tǒng)運(yùn)維的機(jī)房要么自建要么租用,對(duì)于租用機(jī)房,運(yùn)維人員首先要做的工作就是IDC機(jī)房的調(diào)研、測(cè)試和選擇,要從機(jī)房位置、線路質(zhì)量、服務(wù)響應(yīng)時(shí)間、QoS等多方面進(jìn)行考量,同時(shí)要做多個(gè)機(jī)房的網(wǎng)絡(luò)性能對(duì)比測(cè)試,最后選擇一個(gè)適合自己企業(yè)的IDC機(jī)房?,F(xiàn)在的IDC機(jī)房品質(zhì)參差不齊,在眾多IDC機(jī)房中選擇性價(jià)比高并適合自己企業(yè)業(yè)務(wù)特點(diǎn)的機(jī)房并不容易。而云上運(yùn)維機(jī)房的選擇工作已經(jīng)由云服務(wù)提供商為用戶做好了,一個(gè)成熟的云服務(wù)提供商提供的機(jī)房都是經(jīng)過(guò)專業(yè)團(tuán)隊(duì)嚴(yán)格測(cè)試才會(huì)上線運(yùn)營(yíng)的,整體品質(zhì)一般要優(yōu)于運(yùn)維人員自己選擇的IDC機(jī)房,運(yùn)維人員只需要根據(jù)業(yè)務(wù)需要選擇合適的服務(wù)商和合適地域的機(jī)房即可,這就為運(yùn)維人員節(jié)省了大量時(shí)間,降低了成本。但缺點(diǎn)是運(yùn)維人員并不了解機(jī)房的內(nèi)部情況。
硬件方面。傳統(tǒng)運(yùn)維時(shí),運(yùn)維人員需要考慮防火墻、路由器、交換機(jī)、服務(wù)器、存儲(chǔ)等設(shè)備的選型、采購(gòu)、上架、日常維護(hù)、故障檢修、保修、保外維修等一系列硬件相關(guān)的問(wèn)題。而云上運(yùn)維時(shí),運(yùn)維人員不需要考慮硬件相關(guān)的事務(wù),這些事務(wù)是云服務(wù)提供商考慮的范疇,為運(yùn)維人員節(jié)省了時(shí)間,降低了成本。
軟件方面。傳統(tǒng)運(yùn)維時(shí),運(yùn)維人員要申請(qǐng)進(jìn)入機(jī)房入室維護(hù),為服務(wù)器安裝操作系統(tǒng),既費(fèi)時(shí)又費(fèi)力。如果選擇遠(yuǎn)程安裝既需要硬件支持,同時(shí)IDC機(jī)房工作人員要配合操作,網(wǎng)絡(luò)安裝速度慢會(huì)耗費(fèi)更長(zhǎng)的時(shí)間。對(duì)于數(shù)據(jù)庫(kù)來(lái)說(shuō),要部署和維護(hù)主主復(fù)制和自動(dòng)接管這種高可用數(shù)據(jù)庫(kù)架構(gòu),則需要運(yùn)維人員完成部署、優(yōu)化、監(jiān)控、排錯(cuò)等一系列復(fù)雜的工作。而云上運(yùn)維只需要在選擇云服務(wù)器的時(shí)候,選擇需要的操作系統(tǒng),在選擇云數(shù)據(jù)庫(kù)的時(shí)候選擇適合的數(shù)據(jù)庫(kù)版本,為企業(yè)降低了人力、維護(hù)和時(shí)間等成本。
網(wǎng)絡(luò)方面。傳統(tǒng)運(yùn)維時(shí),對(duì)于租用多機(jī)柜、采用雙線或多線BGP線路的企業(yè)來(lái)說(shuō),運(yùn)維人員要設(shè)計(jì)合理高效的網(wǎng)絡(luò)架構(gòu)并配置合理的策略路由,當(dāng)出現(xiàn)網(wǎng)絡(luò)問(wèn)題時(shí)還要有很強(qiáng)的網(wǎng)絡(luò)排錯(cuò)能力。而云上運(yùn)維時(shí),運(yùn)維人員只需要配置好VPC專有網(wǎng)絡(luò),選擇合適的帶寬,而網(wǎng)絡(luò)故障完全交給云服務(wù)提供商來(lái)解決。
安全方面。傳統(tǒng)運(yùn)維時(shí),所有的IT基礎(chǔ)設(shè)施和數(shù)據(jù)都由用戶自己掌控,從心理上來(lái)講用戶感覺(jué)更安全,對(duì)公網(wǎng)的暴露面也更小。但運(yùn)維人員要考慮諸如病毒、黑客等不同形式的攻擊防范,有些IDC只支持小流量的流量清洗,遭遇大流量DDoS攻擊時(shí)只能關(guān)閉受攻擊的服務(wù)器以避免影響其他客戶。而云上運(yùn)維時(shí),雖然用戶會(huì)感覺(jué)自己到了戰(zhàn)場(chǎng)一樣,但運(yùn)維人員只需要考慮云服務(wù)提供商是否提供防火墻、高防IP及大流量清洗等服務(wù)即可,防護(hù)和清洗工作交給云服務(wù)提供商來(lái)完成,有效降低了安全風(fēng)險(xiǎn)和維護(hù)難度。
穩(wěn)定方面。無(wú)論是傳統(tǒng)運(yùn)維還是云上運(yùn)維,穩(wěn)定性都是運(yùn)維人員需要考慮的關(guān)鍵問(wèn)題。傳統(tǒng)運(yùn)維時(shí),要保證網(wǎng)絡(luò)穩(wěn)定和硬件環(huán)境穩(wěn)定,運(yùn)維人員要做好硬件選型、硬件評(píng)測(cè)和提前預(yù)警,同時(shí)要做好架構(gòu)容災(zāi),關(guān)鍵物理單元要有冗余,否則一旦發(fā)生硬件故障就會(huì)導(dǎo)致應(yīng)用服務(wù)中斷,企業(yè)會(huì)面臨經(jīng)濟(jì)損失、用戶體驗(yàn)下降和用戶評(píng)價(jià)度降低等風(fēng)險(xiǎn)。如果企業(yè)保證了網(wǎng)絡(luò)和硬件環(huán)境穩(wěn)定,那勢(shì)必會(huì)增加IT成本,而成本也是運(yùn)維人員需要考慮的關(guān)鍵問(wèn)題。而云上運(yùn)維時(shí),穩(wěn)定性是由云服務(wù)提供商負(fù)責(zé)的。由于云自帶冗余屬性,企業(yè)在使用云服務(wù)時(shí),無(wú)須考慮網(wǎng)絡(luò)和硬件故障導(dǎo)致的服務(wù)中斷,因此極大地提高了服務(wù)穩(wěn)定性,同時(shí)降低了IT成本。
監(jiān)控方面。傳統(tǒng)運(yùn)維時(shí),運(yùn)維人員要構(gòu)建服務(wù)器監(jiān)控系統(tǒng),通過(guò)部署各種監(jiān)控工具,做到接口層、網(wǎng)絡(luò)層、傳輸層、應(yīng)用層監(jiān)控并實(shí)現(xiàn)提前預(yù)警,這是一項(xiàng)復(fù)雜的工作,運(yùn)維人員技術(shù)水平和能力的高低也會(huì)影響監(jiān)控系統(tǒng)的準(zhǔn)確性和易用性。而云上運(yùn)維時(shí),云服務(wù)提供商已經(jīng)為云產(chǎn)品提供了專業(yè)的監(jiān)測(cè)工具,全面、準(zhǔn)確地對(duì)多種指標(biāo)進(jìn)行監(jiān)控并實(shí)現(xiàn)提前預(yù)警,為用戶節(jié)省大量時(shí)間的同時(shí)提高了監(jiān)控的準(zhǔn)確性和易用性。
操作方面。傳統(tǒng)運(yùn)維需要大量人工干預(yù),實(shí)時(shí)性差。比如新增服務(wù)器時(shí),運(yùn)維人員要考慮采購(gòu)周期、上架、機(jī)柜空間、機(jī)柜電壓和電流是否超標(biāo)、交換機(jī)端口是否夠用、安裝操作系統(tǒng)等問(wèn)題,整個(gè)流程耗費(fèi)時(shí)間比較長(zhǎng),如果企業(yè)對(duì)外提供的服務(wù)有時(shí)限性要求,傳統(tǒng)運(yùn)維模式就顯得力不從心了。在遇到業(yè)務(wù)升級(jí)和硬件更換時(shí),通常會(huì)選擇在半夜進(jìn)行,且多少會(huì)造成業(yè)務(wù)中斷。而云上運(yùn)維徹底改變了傳統(tǒng)的高成本運(yùn)維服務(wù)模式,可以快速部署運(yùn)維。云服務(wù)提供商會(huì)提供給企業(yè)運(yùn)維人員操作界面友好的控制后臺(tái),通過(guò)瀏覽器就可以對(duì)云主機(jī)進(jìn)行各種管理,新增云主機(jī)只需要很短的時(shí)間就可以完成租用、部署和上線工作,可以隨時(shí)隨地租用或刪除云主機(jī),操作更加便捷、高效、靈活。在方案準(zhǔn)備充足的情況下,可隨時(shí)進(jìn)行業(yè)務(wù)升級(jí),平滑無(wú)中斷。
云運(yùn)維的不足與建議。說(shuō)了這些云運(yùn)維的優(yōu)點(diǎn),有必要說(shuō)點(diǎn)不足之處。世界上并無(wú)絕對(duì)安全可靠之地,云也如此。多年來(lái),阿里云、騰訊云等坍塌事件時(shí)有發(fā)生,一旦崩潰,用戶則無(wú)能為力。俗話說(shuō)得好,不要把所有的雞蛋放在一個(gè)籃子里!云平臺(tái)不同于傳統(tǒng)的自建物理平臺(tái),客戶無(wú)法通過(guò)監(jiān)控工具進(jìn)行運(yùn)維的早期預(yù)警,它高度依賴云服務(wù)商宣稱的健壯性。表面上看,云節(jié)省了運(yùn)維成本,但故障一旦發(fā)生往往就是致命性的,對(duì)敏感和重要的業(yè)務(wù)而言,無(wú)疑是一個(gè)新的風(fēng)險(xiǎn)點(diǎn),所以必須做好災(zāi)備方案。因此,使用云平臺(tái)承載重要業(yè)務(wù)時(shí),盡可能選擇多個(gè)云服務(wù)商,做成主備模式,減少風(fēng)險(xiǎn)。有條件的企業(yè)可以考慮“云+傳統(tǒng)”相結(jié)合的方式,采用自建機(jī)房或IDC服務(wù)器托管方式托管一批服務(wù)器,然后利用開源軟件如Open Stack或Cloud Stack等自行構(gòu)建私有云,充分利用現(xiàn)有硬件資源,通過(guò)吸收傳統(tǒng)運(yùn)維和云上運(yùn)維的優(yōu)勢(shì),結(jié)合企業(yè)自身業(yè)務(wù)特點(diǎn)創(chuàng)建具有自身特色的私有云運(yùn)維模式,在降低IT成本和保障業(yè)務(wù)可靠?jī)蓚€(gè)方面做個(gè)折中。
云時(shí)代給大家?guī)Я撕芏鄼C(jī)遇,同時(shí)也帶來(lái)了很多挑戰(zhàn)。有人認(rèn)為,隨著云的普及,運(yùn)維人員將會(huì)最終消失。雖然這個(gè)觀點(diǎn)不免有些偏激,但云時(shí)代的確給運(yùn)維帶來(lái)了很多不同,也讓運(yùn)維從業(yè)人員必須思考很多問(wèn)題。
云環(huán)境下要求的運(yùn)維能力,不僅是技術(shù)能力,還要有先進(jìn)的運(yùn)維理念和方法,需要不斷積累豐富的經(jīng)驗(yàn),積累經(jīng)過(guò)反復(fù)測(cè)試的應(yīng)急預(yù)案,能夠快速發(fā)現(xiàn)故障點(diǎn)、準(zhǔn)確定位故障原因,最終達(dá)到快速恢復(fù)業(yè)務(wù)。所以,相比傳統(tǒng)運(yùn)維,運(yùn)維人員需要掌握的知識(shí)可能更多,需要的技能可能還要超過(guò)傳統(tǒng)運(yùn)維。云計(jì)算使運(yùn)維工作更加高效,也改變了傳統(tǒng)運(yùn)維的工作內(nèi)容。這是一場(chǎng)涉及運(yùn)維工作的變革,運(yùn)維人員必須跟上變革的腳步,需要思想的轉(zhuǎn)變和技能的提高,需要從操作性質(zhì)轉(zhuǎn)變到創(chuàng)新性質(zhì),個(gè)人綜合能力(專業(yè)技能、溝通能力、思維能力)必須升華。
云時(shí)代的機(jī)會(huì)。傳統(tǒng)運(yùn)維時(shí),IT運(yùn)維人員經(jīng)常把精力都浪費(fèi)到設(shè)備選型、設(shè)備采購(gòu)、設(shè)備上架、日常維護(hù)、故障檢修、部署優(yōu)化、設(shè)計(jì)維護(hù)IDC網(wǎng)絡(luò)、安全防范、構(gòu)建監(jiān)控系統(tǒng)等工作中,對(duì)付這些已經(jīng)疲于奔命,想要學(xué)些新知識(shí)則經(jīng)常有心無(wú)力。而云上運(yùn)維減少了傳統(tǒng)的機(jī)房、網(wǎng)絡(luò)設(shè)備、服務(wù)器、強(qiáng)弱電系統(tǒng)、UPS等設(shè)備維護(hù),使得IT運(yùn)維人員能從上述紛繁復(fù)雜的工作中解脫出來(lái),利用云計(jì)算服務(wù)商提供的管理工具,可以更便捷、更高效、更靈活地完成基本運(yùn)維任務(wù),這樣就能抽出更多的時(shí)間學(xué)習(xí)Go、Python、Awk、Sed和Shell等編程語(yǔ)言和其他新技能,利用適用的開源工具實(shí)現(xiàn)運(yùn)維自動(dòng)化、快速應(yīng)用部署和實(shí)時(shí)監(jiān)控。這種機(jī)會(huì)帶來(lái)了雙贏的效果,既提高了IT運(yùn)維人員自身的技術(shù)水平和業(yè)務(wù)能力,又充分提高了企業(yè)的服務(wù)質(zhì)量。
云時(shí)代的挑戰(zhàn)。云上運(yùn)維增加了新的維護(hù)內(nèi)容,如要求運(yùn)維人員在云平臺(tái)上實(shí)現(xiàn)應(yīng)用的快速部署、更新和實(shí)時(shí)監(jiān)控,這就需要了解和掌握運(yùn)維自動(dòng)化技術(shù)和一些開發(fā)工具,才能做到云端輕松配置、部署和管理。公有云在基礎(chǔ)架構(gòu)安全性方面遠(yuǎn)超一般用戶自建IDC,但在某些方面也會(huì)面臨一些新的安全風(fēng)險(xiǎn)和挑戰(zhàn),公有云的運(yùn)維管理工作都必須通過(guò)互聯(lián)網(wǎng)去完成,如何安全地運(yùn)維公有云上的系統(tǒng)也是運(yùn)維人員需要解決的問(wèn)題。
云時(shí)代,運(yùn)維人員不光要有從事傳統(tǒng)運(yùn)維的理論知識(shí)基礎(chǔ)、靈活的應(yīng)變能力、快速的學(xué)習(xí)能力,還要具備業(yè)務(wù)思維、系統(tǒng)思維和運(yùn)營(yíng)化、過(guò)程化管理能力。供給側(cè)改革才是治本,業(yè)務(wù)是企業(yè)發(fā)展的根本。從業(yè)務(wù)角度關(guān)注運(yùn)維,運(yùn)維人員應(yīng)該對(duì)業(yè)務(wù)有充分的了解,熟悉業(yè)務(wù)邏輯、數(shù)據(jù)流向和業(yè)務(wù)架構(gòu)及其短板。運(yùn)維人員應(yīng)具備整合各種資源輔助運(yùn)維工作,甚至獨(dú)立開發(fā)運(yùn)維工具的DevOps(開發(fā)+測(cè)試+運(yùn)維)能力,同時(shí)應(yīng)該深化推進(jìn)DevOps理念,把易運(yùn)維能力作為評(píng)價(jià)運(yùn)維開發(fā)質(zhì)量的重要因素。運(yùn)維人員要用運(yùn)營(yíng)化、過(guò)程化管理來(lái)做運(yùn)維,做到提前預(yù)見(jiàn)故障,并推動(dòng)開展運(yùn)維風(fēng)險(xiǎn)評(píng)估和后續(xù)整改與應(yīng)急響應(yīng)工作,通過(guò)持續(xù)改進(jìn)和迭代,將運(yùn)維工作逐步標(biāo)準(zhǔn)化、自動(dòng)化、智能化。
在云計(jì)算蓬勃發(fā)展的今天,IT運(yùn)維人員只有通過(guò)不斷學(xué)習(xí)和積累,才能在云計(jì)算的大潮中提升自身價(jià)值,適應(yīng)未來(lái)云計(jì)算運(yùn)維的發(fā)展要求。因此,運(yùn)維人員不能故步自封,要順應(yīng)運(yùn)維發(fā)展,不斷學(xué)習(xí)和構(gòu)建自己的知識(shí)體系,并結(jié)合業(yè)務(wù)實(shí)際有重點(diǎn)、有針對(duì)性地深入學(xué)習(xí)和提升專業(yè)技能,了解和學(xué)習(xí)KVM、Docker、Hadoop、Open Stack等運(yùn)維領(lǐng)域知識(shí),學(xué)習(xí)和熟練掌握Shell、Python、Go等開發(fā)語(yǔ)言和工具,站在運(yùn)維技術(shù)前沿,提高自身生產(chǎn)力,這樣才能在云時(shí)代發(fā)展中不被淘汰,為企業(yè)創(chuàng)造更大的價(jià)值。
任爾風(fēng)起云涌,我自淡定從容;不驚去留寵辱,坐看云卷云舒。