文/高杰欣
中南民族大學(xué): 數(shù)據(jù)中心機(jī)房搬遷策略
文/高杰欣
搬遷實(shí)施方案必須貼近實(shí)際,在內(nèi)容上周密細(xì)致、切實(shí)可行,其中重點(diǎn)是如何保障網(wǎng)絡(luò)遷移的平滑。
隨著近些年信息化建設(shè)步伐的加快,舊的機(jī)房已逐漸無法適應(yīng)現(xiàn)代化的信息化應(yīng)用和管理,新建容災(zāi)機(jī)房,改造舊機(jī)房等新需求正變?yōu)楝F(xiàn)實(shí)。相對(duì)來說,在經(jīng)費(fèi)充足的情況下,新建或改造一座機(jī)房并不是那么困難,如何搬機(jī)房才是真正的難點(diǎn)。我們或許考慮過兩座機(jī)房該如何容災(zāi),考慮過業(yè)務(wù)系統(tǒng)如何高可用,考慮過單點(diǎn)故障時(shí)有哪些可應(yīng)急的方案,但是,當(dāng)我們要搬移這些網(wǎng)絡(luò)和計(jì)算設(shè)備時(shí),之前的所有考慮都還能管用么?
毫無疑問,機(jī)房的搬遷工作是一項(xiàng)復(fù)雜的工程,不僅要把網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)等各類生產(chǎn)設(shè)備安全遷移到新機(jī)房,而且要求網(wǎng)絡(luò)系統(tǒng)的遷移和集中存儲(chǔ)系統(tǒng)的遷移必須安全、平穩(wěn),甚至達(dá)到不停機(jī),不影響業(yè)務(wù)系統(tǒng)應(yīng)用的要求?;诖耍瑱C(jī)房搬遷的風(fēng)險(xiǎn)點(diǎn)更加難以控制,技術(shù)難點(diǎn)也比初始部署或技術(shù)改造更為繁瑣。
雖然高校的業(yè)務(wù)還尚未達(dá)到極致的24小時(shí)×7天的連續(xù)性需求,但保證業(yè)務(wù)連續(xù)性仍然是數(shù)據(jù)中心搬遷過程最核心的要求,網(wǎng)絡(luò)保障則是機(jī)房搬遷成敗的關(guān)鍵。
中南民族大學(xué)原有舊機(jī)房建于1999年,面積約70平方米,在配電、空調(diào)制冷、機(jī)柜容量、潔凈度等方面已遠(yuǎn)遠(yuǎn)落后于當(dāng)前信息化發(fā)展水平。經(jīng)過“十二五”期間的數(shù)字化校園建設(shè),逐漸改造或新建了邊界網(wǎng)絡(luò)、核心網(wǎng)絡(luò)、數(shù)據(jù)中心網(wǎng)絡(luò)、數(shù)據(jù)中心計(jì)算資源池等關(guān)鍵基礎(chǔ)設(shè)施。在學(xué)校的大力支持下,于2014年末立項(xiàng)新建了兩座機(jī)房,分別位于校內(nèi)相隔1千米的兩座建筑物內(nèi),功能上分為容災(zāi)機(jī)房和新的主機(jī)房,每座機(jī)房面積約120平方米,至2015年兩座機(jī)房分別竣工,將舊機(jī)房設(shè)備和業(yè)務(wù)分別遷移到兩座新機(jī)房,最后拆除舊機(jī)房。
按照機(jī)房和數(shù)字化校園的建設(shè)規(guī)劃,網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)等主體架構(gòu)設(shè)施都是雙活設(shè)計(jì),雙活的實(shí)現(xiàn)也成為本次搬遷可利用的技術(shù)要點(diǎn)和有利條件,它使搬遷具備了不停機(jī)、不斷網(wǎng)的可能。
總體來說,本次搬遷規(guī)劃分為兩個(gè)階段:第一個(gè)階段為舊機(jī)房搬遷到容災(zāi)機(jī)房,使容災(zāi)機(jī)房具備完全獨(dú)立承載全校網(wǎng)絡(luò)和業(yè)務(wù)的能力;第二個(gè)階段為舊機(jī)房斷電,剩余全部設(shè)備搬遷到主機(jī)房并與容災(zāi)機(jī)房一起雙活運(yùn)行。整個(gè)搬遷過程按照不斷網(wǎng),不停業(yè)務(wù)的高標(biāo)準(zhǔn)進(jìn)行組織安排,工期安排在暑假進(jìn)行。圖1所示為校園總體網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。
網(wǎng)絡(luò)方面,自無線控制器,核心交換機(jī)、認(rèn)證BRAS、防火墻,到邊界交換機(jī)均以IEEE802.3ad協(xié)議實(shí)現(xiàn)雙設(shè)備雙活配置連接,所需做的重點(diǎn)是梳理線路連接,確保分拆到兩座機(jī)房后立即正確接好心跳線,避免腦裂導(dǎo)致的網(wǎng)絡(luò)異常,之后逐條接好匯聚到核心的雙上行鏈路,確保雙上行鏈路在割接過程中至少有一條不斷開,用戶不會(huì)感知到網(wǎng)絡(luò)中斷。數(shù)據(jù)中心的計(jì)算資源方面,已有兩套刀片服務(wù)器,絕大多數(shù)關(guān)鍵應(yīng)用和服務(wù)都創(chuàng)建在兩套刀片組成的一個(gè)虛擬化集群內(nèi),在兩個(gè)搬遷階段中分別將全部業(yè)務(wù)漂移到一組不搬的計(jì)算環(huán)境就能確保業(yè)務(wù)不斷條件下的搬遷實(shí)施。存儲(chǔ)方面,已在2014年末采購了雙活存儲(chǔ)網(wǎng)關(guān),一直等待新機(jī)房完工,圖1所示的存儲(chǔ)拓?fù)錇榘徇w完后規(guī)劃的存儲(chǔ)拓?fù)洹kp活存儲(chǔ)網(wǎng)關(guān)和一套新存儲(chǔ)在搬遷過程中部署在容災(zāi)機(jī)房,先與舊機(jī)房存儲(chǔ)做好雙活同步,使新舊兩套存儲(chǔ)都具有完整的數(shù)據(jù),再將搬到容災(zāi)機(jī)房的刀片服務(wù)器、新存儲(chǔ)、雙活存儲(chǔ)網(wǎng)關(guān)接通,使容災(zāi)機(jī)房的服務(wù)器與存儲(chǔ)能全部接管全部業(yè)務(wù),達(dá)到舊機(jī)房存儲(chǔ)停機(jī)條件,將舊機(jī)房存儲(chǔ)搬遷到新主機(jī)房,從而保障業(yè)務(wù)運(yùn)行的同時(shí)也兼顧了存儲(chǔ)的搬遷工作。除此之外,還剩余一些非關(guān)鍵業(yè)務(wù)的服務(wù)器或交換機(jī),則在需要搬遷時(shí)短暫停機(jī)。
圖1 校園總體網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
根據(jù)上述搬遷思路規(guī)劃,不僅可以在實(shí)踐中檢驗(yàn)雙活架構(gòu)真正做到業(yè)務(wù)和網(wǎng)絡(luò)不中斷的效果,還有額外的優(yōu)勢(shì)在于:第一,所有的搬遷和割接工作都可安排在白天進(jìn)行,實(shí)施人員可在頭腦清醒的狀態(tài)下投入工作,降低人為誤操作的機(jī)率;第二,由于是不間斷網(wǎng)絡(luò)和業(yè)務(wù)的搬遷,所以不存在搬遷的窗口時(shí)間,實(shí)施過程的時(shí)間壓力減小很多,尤其對(duì)于機(jī)器設(shè)備存在搬動(dòng)后硬件故障的可能,更是無法掌握的時(shí)間因素;第三,割接過程萬一出現(xiàn)預(yù)料之外的差錯(cuò),用戶會(huì)在最短的時(shí)間反饋給實(shí)施人員,以便及時(shí)調(diào)整和解決,若在夜間進(jìn)行搬遷和割接因無法得到用戶反饋,即使準(zhǔn)備了相應(yīng)的驗(yàn)證條件,也可能獲得有偏差的結(jié)果,到白天又付出更多回退和中斷事件才能找到癥結(jié)。
搬遷的風(fēng)險(xiǎn)是客觀存在的,總體上也有三個(gè)方面。技術(shù)方面,雖然有高可用性技術(shù)作為支撐,但仍可能存在意料之外的問題,因此必須制定一些策略,將業(yè)務(wù)對(duì)技術(shù)所依賴的各個(gè)方面都考慮進(jìn)來,在搬遷前進(jìn)行驗(yàn)證性測(cè)試和檢查,以縮短萬一出現(xiàn)的停機(jī)時(shí)間。硬件遷移方面,很多設(shè)備可能都會(huì)導(dǎo)致搬運(yùn)過程中遭到損壞,策略之一是提前聯(lián)系好供貨商,在質(zhì)保期內(nèi)還可及時(shí)提供備件的更換,策略之二則是對(duì)該硬件承載的功能提前做出預(yù)判和備用,確保損壞真的發(fā)生時(shí)能減少損失。數(shù)據(jù)方面,不停機(jī)的搬遷在數(shù)據(jù)層面一直是活動(dòng)的,提前的備份并不能持續(xù)跟蹤變化的數(shù)據(jù)存儲(chǔ),但備份仍然是不可缺少的,我們可以采取業(yè)務(wù)系統(tǒng)只讀等措施來減少搬遷期間的數(shù)據(jù)變化,以兼顧網(wǎng)絡(luò)服務(wù)的持續(xù)使用和數(shù)據(jù)可恢復(fù)能力。
根據(jù)前文的搬遷思路,搬遷方案的擬定對(duì)于搬遷的順利實(shí)施至關(guān)重要,圖2所示為搬遷方案的幾個(gè)主要方面。
圖2 搬遷方案的幾個(gè)主要方面
背景情況主體是對(duì)當(dāng)前已具備條件的梳理和搬遷規(guī)劃,已確認(rèn)事項(xiàng)實(shí)際包含所有準(zhǔn)備性工作清單,該清單不分巨細(xì)列舉技術(shù)性、事務(wù)性、物品準(zhǔn)備等情況,比如只關(guān)注尾纖數(shù)量卻遺漏兩端接口類型都會(huì)導(dǎo)致搬遷的延誤。設(shè)備上架布局則不僅僅是設(shè)備與機(jī)柜容量的占用規(guī)劃,還包含線纜的路徑和機(jī)柜功能區(qū)規(guī)劃等。
工序安排實(shí)則是整個(gè)搬遷工作的計(jì)劃安排,其中不僅需要明確每個(gè)階段搬遷的先后順序,還要進(jìn)一步明確每一步驟的工作內(nèi)容、負(fù)責(zé)人、用時(shí)估計(jì)等信息,使所有參與人員了解和熟悉自己在搬遷工作中的角色和任務(wù),以更好地相互配合。每一項(xiàng)搬遷以功能或設(shè)備集群?jiǎn)瘟幸粋€(gè)工序安排,最后再將同時(shí)搬移的設(shè)備合并到一個(gè)安排表中,以進(jìn)一步梳理同時(shí)搬移的細(xì)節(jié)。
工作細(xì)則是對(duì)工序安排的深化,每搬遷一項(xiàng)硬件功能,都要嚴(yán)格仔細(xì)地對(duì)照細(xì)則展開工作,并在各個(gè)環(huán)節(jié)做好信息記錄與整理,比如驗(yàn)證測(cè)試基本模擬了搬遷時(shí)設(shè)備單邊運(yùn)行的情況,需要仔細(xì)觀察和收集測(cè)試的情況,只有每個(gè)步驟落到實(shí)處才能確保搬遷整體的順利進(jìn)行。
風(fēng)險(xiǎn)控制的落腳點(diǎn)應(yīng)在控制二字。設(shè)備搬運(yùn)時(shí)首要遵循輕拿輕放、不可倒置、避免靜電等原則,可以減少損壞的機(jī)率。應(yīng)用啟停則需提前聯(lián)系好相關(guān)系統(tǒng)的承建商做好應(yīng)急保障,如果不發(fā)生停機(jī),則無須進(jìn)行應(yīng)用啟停和檢查。數(shù)據(jù)丟失的風(fēng)險(xiǎn)點(diǎn)主要在存儲(chǔ)搬運(yùn)的過程,對(duì)關(guān)鍵的系統(tǒng),尤其是數(shù)據(jù)庫提前備份到兩套存儲(chǔ)之外的第三處還是很有必要的。關(guān)于容災(zāi),在雙活的技術(shù)架構(gòu)下,兩個(gè)機(jī)房的硬件其實(shí)是互為容災(zāi)、負(fù)載均衡的,風(fēng)險(xiǎn)的出現(xiàn)在于兩個(gè)搬遷的進(jìn)行時(shí),那時(shí)都是依靠一邊機(jī)房的單套設(shè)備運(yùn)行,一旦出現(xiàn)故障,只能中斷搶修,因此對(duì)容災(zāi)風(fēng)險(xiǎn)的控制,主要落腳在搬前的驗(yàn)證測(cè)試。關(guān)于回退,在搬之前要備份所有配置,明確回退的時(shí)間底線,當(dāng)?shù)竭_(dá)回退時(shí)間且不能恢復(fù)時(shí),都要確保單邊環(huán)境能正常運(yùn)行,縮短停機(jī)時(shí)間也就是給自己爭(zhēng)取排查時(shí)間。
機(jī)房搬遷能否順利進(jìn)行,準(zhǔn)備工作是真正的考驗(yàn),大致可以歸納分為兩類。
第一類——信息采集
1. 搬遷出發(fā)地到目的地的空間距離,車輛可靠近建筑物的位置,拖車可用的位置,是否可用電梯,樓梯的寬度與梯高,規(guī)劃合適的路徑,確保人員安全和設(shè)備安全,在搬遷開始前帶全體人員熟悉地形。
2.灰層清理是吹灰還是吸灰,每個(gè)設(shè)備是只吹表面還是需要拆卸后徹底清理,除塵在機(jī)房外什么區(qū)域,該區(qū)域是否有配電給除塵設(shè)備供電,是否有適合墊放設(shè)備的木板泡沫。
3.兩座機(jī)房之間已有的可用裸光纖芯數(shù),統(tǒng)計(jì)搬遷過程中每次跳接裸光纖所需數(shù)量和剩余數(shù)量,當(dāng)數(shù)量不足時(shí)擬定臨時(shí)的跳接辦法。
4.被搬遷設(shè)備的重量評(píng)估,提前準(zhǔn)備扁擔(dān)、麻繩、拖車,以及明確每個(gè)設(shè)備不可受力擠壓的位置。
5.ODF柜到網(wǎng)絡(luò)柜的路由長度,網(wǎng)絡(luò)柜到每個(gè)設(shè)備柜的路由長度,只接本機(jī)房交換機(jī)的多模尾纖數(shù)量,只接遠(yuǎn)端機(jī)房的單模尾纖數(shù)量,尾纖兩端接口類型的統(tǒng)計(jì)。
6.檢查待搬運(yùn)設(shè)備是否都安裝有導(dǎo)軌,缺少導(dǎo)軌的設(shè)備擬定上架安裝方式。檢查待搬遷設(shè)備的電源線接口型號(hào)、線徑、數(shù)量,PDU的插座型號(hào)。
7.列表交換機(jī)或服務(wù)器每個(gè)接口信息,包括使用的模塊,接口的速率,配置的地址,通斷狀態(tài)等,依據(jù)表格信息逐接口檢查和確認(rèn)對(duì)端連線是否一致,與原標(biāo)簽是否一致。
8.規(guī)劃待搬遷設(shè)備在目標(biāo)機(jī)房的上架位置,尤其對(duì)體積較大的設(shè)備還需考慮柜內(nèi)上架先后順序。
9.根據(jù)經(jīng)驗(yàn)列舉搬遷期間需要保障的業(yè)務(wù)系統(tǒng)或用網(wǎng)需求,提前告知全校用戶搬遷計(jì)劃,以便反饋重要的用網(wǎng)信息,搬遷時(shí)避開這些時(shí)間段。
第二類——物料準(zhǔn)備
1.根據(jù)清點(diǎn)的導(dǎo)軌數(shù)量情況,購置與設(shè)備相匹配的導(dǎo)軌。
2.干凈的純棉抹布,清理設(shè)備上污漬和搬運(yùn)工指印,干凈并且最好是新的,避免人體或其他動(dòng)植物油脂,非純棉材料摩擦?xí)a(chǎn)生靜電對(duì)設(shè)備產(chǎn)生破壞。
3.根據(jù)統(tǒng)計(jì)的尾纖數(shù)量情況,購置長短合適,接口合適的尾纖,減少尾纖在柜內(nèi)或橋架上的盤曲。
4.根據(jù)統(tǒng)計(jì)的電源線數(shù)量和接口型號(hào),購置轉(zhuǎn)接頭或長短適當(dāng)?shù)碾娫淳€,減少電源線盤曲發(fā)熱。
5.準(zhǔn)備質(zhì)量較好的機(jī)柜卡扣一批,準(zhǔn)備長短粗細(xì)不同的扎帶一批,確保新搬入設(shè)備順利上架和綁扎。
6.準(zhǔn)備打標(biāo)機(jī)標(biāo)簽?zāi)0甯袷?,確保標(biāo)簽信息豐富準(zhǔn)確,準(zhǔn)備顏色各異標(biāo)簽紙一批,準(zhǔn)備標(biāo)簽機(jī)打印耗材。
7.準(zhǔn)備自動(dòng)螺絲刀或稱手的不同型號(hào)螺絲刀,提高拆卸和安裝效率。
8.根據(jù)統(tǒng)計(jì)的模塊數(shù)量和類型,減去已有模塊數(shù)量,購置所缺的模塊,并預(yù)留一定數(shù)量備用。
9.機(jī)房間高質(zhì)量心跳裸光纖準(zhǔn)備,機(jī)房間業(yè)務(wù)光纖熔接和準(zhǔn)備,提前測(cè)試每一芯光衰質(zhì)量,做到心中有數(shù),有效縮短搬遷過程的調(diào)試時(shí)間。
經(jīng)過較長時(shí)間的準(zhǔn)備和多輪分析討論,此次機(jī)房搬遷最終得以順利進(jìn)行,對(duì)所有參加搬遷的人員來說,既是一次考驗(yàn),也是一次勇敢的嘗試。通過此次搬遷,也使我們對(duì)機(jī)房建設(shè)和管理汲取了許多寶貴的經(jīng)驗(yàn),主要有以下幾個(gè)關(guān)鍵點(diǎn)。
1.搬遷實(shí)施方案必須貼近實(shí)際,在內(nèi)容上周密細(xì)致、切實(shí)可行,其中重點(diǎn)是如何保障網(wǎng)絡(luò)遷移的平滑。網(wǎng)絡(luò)的遷移是最基礎(chǔ)的工作,只有在網(wǎng)絡(luò)暢通的前提下才能從容地應(yīng)對(duì)其他的搬遷事宜。同時(shí),網(wǎng)絡(luò)遷移又勢(shì)必造成單節(jié)點(diǎn)運(yùn)行的臨時(shí)狀況,維護(hù)的重心隨之轉(zhuǎn)移,緊急時(shí)刻要能立即切斷有問題的設(shè)備,將中斷時(shí)間空間在15~30分鐘內(nèi),將受影響的范圍縮小,這些都有賴于前期的信息收集與整理。因此線路割接、交換機(jī)調(diào)整等網(wǎng)絡(luò)遷移先于其他遷移操作,待核心網(wǎng)絡(luò)、認(rèn)證BRAS、邊界網(wǎng)絡(luò)都割接成功,再集中精力處理服務(wù)器與存儲(chǔ)的遷移,雖犧牲了一定時(shí)間,但最大程度保障了網(wǎng)絡(luò)的平滑,降低了遷移的風(fēng)險(xiǎn)。
2.要提前預(yù)測(cè)搬遷風(fēng)險(xiǎn)。通過對(duì)兄弟院校搬遷機(jī)房的經(jīng)驗(yàn)調(diào)查,我們總結(jié)出對(duì)于數(shù)據(jù)中心機(jī)房的搬遷主要存在4方面的風(fēng)險(xiǎn),包括:設(shè)備故障風(fēng)險(xiǎn),即設(shè)備在搬遷過程中所出現(xiàn)的損壞;操作風(fēng)險(xiǎn),即線路割接、上聯(lián)路由交換的切換、集中存儲(chǔ)系統(tǒng)遷移、關(guān)鍵應(yīng)用數(shù)據(jù)遷移(包括數(shù)據(jù)備份與恢復(fù))等均屬于高風(fēng)險(xiǎn)操作,這些環(huán)節(jié)雖經(jīng)反復(fù)論證在理論上可實(shí)施,但操作復(fù)雜且無法進(jìn)行演練,在搬遷過程中很可能由于操作問題帶來安全隱患;人員風(fēng)險(xiǎn),即在搬遷過程中的技術(shù)人員既要負(fù)責(zé)搬遷工作,又要負(fù)責(zé)日常生產(chǎn)運(yùn)行的維護(hù)管理,搬遷人員少或精力不夠也容易產(chǎn)生風(fēng)險(xiǎn);其余不可預(yù)知風(fēng)險(xiǎn),如系統(tǒng)的意外癱瘓、線路問題等。在預(yù)知這些風(fēng)險(xiǎn)以后才能提前做好預(yù)防工作。
3.充分調(diào)動(dòng)一切資源。機(jī)房搬遷是一項(xiàng)極為復(fù)雜的工作,不僅涉及部門內(nèi)眾多的技術(shù)人員,還涉及相關(guān)業(yè)務(wù)部門、系統(tǒng)集成商、搬運(yùn)公司等各個(gè)方面的人員及各種搬遷所用的器材,每一項(xiàng)可調(diào)動(dòng)的資源都為搬遷的順利進(jìn)行推波助瀾。我們除了與各業(yè)務(wù)部門密切分工協(xié)作外(業(yè)務(wù)部門負(fù)責(zé)分發(fā)公告、配合業(yè)務(wù)啟停),還提前召集主要業(yè)務(wù)系統(tǒng)的系統(tǒng)集成商進(jìn)行了方案討論,并要求各集成商最大限度地準(zhǔn)備技術(shù)支持人員和相關(guān)配件。另外,在充分總結(jié)兄弟院校搬遷經(jīng)驗(yàn)的基礎(chǔ)上,我們?cè)谘b箱、搬運(yùn)、除塵、上架等比較耗時(shí)的環(huán)節(jié)上增加了人力、工具、通信,極大提高了搬遷效率。
4.采用流程化搬遷方式。搬遷前,實(shí)施人員專門繪制圖紙,詳細(xì)對(duì)比搬遷前后的情況;提前規(guī)劃各個(gè)機(jī)柜、各個(gè)網(wǎng)絡(luò)設(shè)備與服務(wù)器的擺放位置,適當(dāng)區(qū)別柜子的用途,測(cè)量好設(shè)備的具體尺寸,對(duì)所有設(shè)備進(jìn)行編號(hào),尤其是可拆解的大設(shè)備的每個(gè)模塊部件都逐一做好標(biāo)記,按規(guī)劃機(jī)器的具體擺放位置,以合理、充分地利用機(jī)房的有效空間。分別在新舊機(jī)房設(shè)立調(diào)度人員,由該人員擬定每次搬遷調(diào)度和流程,負(fù)責(zé)不同工序的指揮與溝通協(xié)調(diào),確保搬遷流程的有條不紊,在實(shí)際搬遷時(shí)均未出現(xiàn)銜接問題或誤操作。
5.做好測(cè)試的充分驗(yàn)證和事務(wù)性準(zhǔn)備。根據(jù)每一批搬遷的設(shè)備功能,我們提前發(fā)布公告或主動(dòng)聯(lián)系相關(guān)業(yè)務(wù)部門,由業(yè)務(wù)部門根據(jù)在遷移時(shí)間內(nèi)對(duì)業(yè)務(wù)的影響程度及時(shí)向外發(fā)布公告,測(cè)試所反映的問題往往是遷移時(shí)無法回避的。對(duì)事務(wù)性的準(zhǔn)備是需要耐心和細(xì)心的,準(zhǔn)備的工作越是細(xì)致,遇到問題時(shí)可應(yīng)對(duì)的彈性也就越大,所幸在整個(gè)搬遷過程中未發(fā)生影響應(yīng)用的問題。
(作者單位為中南民族大學(xué))