王仁詮
(江西銅業(yè)集團(tuán)有限公司 貴溪冶煉廠,江西 貴溪 335424)
在科學(xué)技術(shù)不斷發(fā)展的推動(dòng)下,信息化技術(shù)取得了很多優(yōu)秀的成果,其中云計(jì)算技術(shù)尤為突出,該技術(shù)自發(fā)展完善后已經(jīng)被廣泛地應(yīng)用到各行各業(yè)中,不僅提高了工作質(zhì)量,提升了工作效率,同時(shí)提高了管理水平,為各個(gè)行業(yè)與領(lǐng)域帶來(lái)了變化與創(chuàng)新。隨著中國(guó)制造2025規(guī)劃的發(fā)布,智能制造在各個(gè)行業(yè)紛紛開(kāi)展試點(diǎn),工業(yè)和信息化部也印發(fā)了《關(guān)于開(kāi)展智能制造試點(diǎn)示范2016專項(xiàng)行動(dòng)的通知》。在這種背景下,貴冶也開(kāi)展了智能工廠的試點(diǎn)工作。
云計(jì)算的核心思想,是采用網(wǎng)絡(luò)連接的方式,將大量的計(jì)算資源進(jìn)行統(tǒng)一管理和調(diào)度,從而構(gòu)成一個(gè)計(jì)算資源池并按照用戶需求提供服務(wù)。而提供資源的網(wǎng)絡(luò)被稱為“云”。這些計(jì)算資源能夠被快速提供,僅需投入很少的管理工作,從而方便用戶進(jìn)行使用和管理。
云計(jì)算技術(shù)的實(shí)踐結(jié)合了:虛擬化、分布式計(jì)算、網(wǎng)絡(luò)計(jì)算[1]。其核心技術(shù)主要包括以下四個(gè)方面:
2.2.1 平臺(tái)的優(yōu)化和管理
優(yōu)化和管理是提高云平臺(tái)的運(yùn)行質(zhì)量和平臺(tái)性能的核心技術(shù)。其核心技術(shù)有:
(1)云服務(wù)資源管理。研究底層物理設(shè)備、虛擬機(jī)與集群的按用戶所需管理以及虛擬分區(qū)直接的隔離機(jī)制;
(2)云平臺(tái)內(nèi)的任務(wù)管理。研究云計(jì)算平臺(tái)的任務(wù)調(diào)度、高效使用、負(fù)載均衡、任務(wù)管理與容錯(cuò)機(jī)制等;
(3)數(shù)據(jù)管理。研究不同類型的數(shù)據(jù),如結(jié)構(gòu)化、非結(jié)構(gòu)化、以及多媒體等數(shù)據(jù)的建模、存儲(chǔ)、歸類、備份、搜索、和離線保護(hù)等數(shù)據(jù)技術(shù)[4];
(4)平臺(tái)內(nèi)的應(yīng)用探索。研究云計(jì)算對(duì)應(yīng)用的負(fù)載均衡、各類任務(wù)監(jiān)控,與云平臺(tái)底層任務(wù)的互相兼容性;
(5)數(shù)據(jù)安全及個(gè)人隱私保護(hù)。對(duì)于個(gè)人用戶支持的功能、性能以及出現(xiàn)故障后的恢復(fù)和隔離機(jī)制,研究用戶身份驗(yàn)證和個(gè)人隱私數(shù)據(jù)的保護(hù),支持監(jiān)督機(jī)構(gòu)的接口等。
2.2.2 云計(jì)算應(yīng)用部署與系統(tǒng)集成
云計(jì)算應(yīng)用部署與系統(tǒng)集成是向最終用戶提供環(huán)境交付的關(guān)鍵。其主要技術(shù)如:虛擬資源池、網(wǎng)絡(luò)虛擬化、集成技術(shù)。
2.2.3 云計(jì)算平臺(tái)不間斷運(yùn)行
對(duì)于用戶的關(guān)鍵業(yè)務(wù),云計(jì)算平臺(tái)環(huán)境的穩(wěn)定且持續(xù)運(yùn)行是基本要求,國(guó)內(nèi)外大型云資源提供商,其不間斷穩(wěn)定運(yùn)行要求,一般都在99.99%以上,因此對(duì)于云計(jì)算平臺(tái)的不間斷運(yùn)行技術(shù),主要在:
(1)云計(jì)算平臺(tái)底層物理設(shè)備和虛擬化資源的異常監(jiān)控;
(2)云計(jì)算平臺(tái)各類進(jìn)程和服務(wù)的監(jiān)控、云計(jì)算底層應(yīng)用和租用用戶的監(jiān)控;
(3)對(duì)于監(jiān)控中出現(xiàn)的故障進(jìn)行評(píng)估、異常做應(yīng)對(duì)性處理、容錯(cuò)和及時(shí)恢復(fù)機(jī)制,以及軟件的實(shí)時(shí)切換技術(shù)等;
(4)關(guān)注云計(jì)算平臺(tái)中虛擬主機(jī)出錯(cuò)后的快速切換機(jī)制、虛擬化集群的容錯(cuò)、虛擬主機(jī)安全防護(hù)等。
2.2.4 云計(jì)算平臺(tái)的客戶端接入技術(shù)
云平臺(tái)的計(jì)算是以數(shù)據(jù)、最終用戶和提供的服務(wù)為基礎(chǔ),在云端的各用戶之間的共存、互動(dòng)是云平臺(tái)架構(gòu)的發(fā)展趨勢(shì)。而云客戶端訪問(wèn)會(huì)有如:PC機(jī)、筆記本、手機(jī)、掌上電腦等智能移動(dòng)設(shè)備。面向云計(jì)算行業(yè)用戶的各種應(yīng)用需求,需要提供多種模式,以及未來(lái)5G環(huán)境下的各種移動(dòng)端接入技術(shù),為最終用戶提供多樣的云計(jì)算服務(wù)。
考慮到貴冶生產(chǎn)數(shù)據(jù)的私密性,我們采用私有云的方式來(lái)建設(shè)貴冶的云計(jì)算平臺(tái)。
對(duì)于部署方式來(lái)說(shuō),我們采用圖1的架構(gòu)設(shè)計(jì)來(lái)確保冗余性和安全性。
圖1 邏輯架構(gòu)設(shè)計(jì)
私有云解決方案的平臺(tái)構(gòu)建是在底層服務(wù)器硬件的基礎(chǔ)上進(jìn)行的[3],同時(shí)考慮到生產(chǎn)環(huán)境中網(wǎng)絡(luò)的重要性,所以方案中對(duì)于網(wǎng)絡(luò)設(shè)備采用雙路冗余的設(shè)計(jì)。以下是方案的重點(diǎn)。
(1)圖1中所有連線默認(rèn)均為10Gbps連接。
(2)交換機(jī)之間進(jìn)行兩兩堆疊,接入交換機(jī)之間也進(jìn)行兩兩堆疊,即虛擬成一個(gè)邏輯的交換機(jī),為 active-active。
(3)為確保冗余和高速,所有接入設(shè)備均分別上聯(lián)2臺(tái)交換機(jī)。
(4)管理與備份區(qū)單站點(diǎn)推薦采用4臺(tái)物理服務(wù)器,其中3臺(tái)作為管理KS服務(wù),2臺(tái)復(fù)用作為VBR備份與鏡像服務(wù)。
(5)云平臺(tái)VG虛擬網(wǎng)關(guān)區(qū)采用2臺(tái)物理服務(wù)器,承擔(dān)云內(nèi)與云外邊界及負(fù)載集群服務(wù)。
(6)計(jì)算存儲(chǔ)區(qū)但站點(diǎn)推薦采用8臺(tái)4路融合型物理服務(wù)器設(shè)備,用于分布式計(jì)算、分布式存儲(chǔ)和分布式網(wǎng)絡(luò)服務(wù)。
虛擬資源池是基礎(chǔ)設(shè)施層的具體應(yīng)用,主要模塊有計(jì)算存儲(chǔ)資源模塊(計(jì)算存儲(chǔ)節(jié)點(diǎn))、網(wǎng)絡(luò)資源模塊(網(wǎng)絡(luò)設(shè)備)和業(yè)務(wù)管理系統(tǒng)(管理節(jié)點(diǎn))。
3.3.1 計(jì)算存儲(chǔ)資源模塊
服務(wù)器是搭建云平臺(tái)重要的組成設(shè)備之一,所以方案中底層的服務(wù)器資源也采用傳統(tǒng)的X86架構(gòu)的服務(wù)器。底層虛擬化技術(shù)采用國(guó)際最主流的KVM, KVM目前已成為學(xué)術(shù)界的主流VMM之一,是基于硬件的完全虛擬化,因此性能一舉超過(guò)其他的虛擬化技術(shù),經(jīng)過(guò)調(diào)優(yōu)之后的KVM更是將這種性能發(fā)揮到極致,虛擬資源的能力可以達(dá)到98%的物理資源的能力。
正是因?yàn)椴捎昧薑VM這樣全虛擬化的技術(shù),云平臺(tái)系統(tǒng)可以為其用戶提供支持QoS策略保障虛擬機(jī)資源分配,不會(huì)造成用戶之間共享物理資源時(shí)相互干擾,這是以前半虛擬化技術(shù)所不能達(dá)到的[6]。多點(diǎn)、跨域自動(dòng)化調(diào)度是云平臺(tái)系統(tǒng)另外一個(gè)特點(diǎn),支持x86架構(gòu)服務(wù)器的管理數(shù)量無(wú)設(shè)計(jì)上限,實(shí)現(xiàn)多地的統(tǒng)一管理。
要讓這些虛擬機(jī)正常工作,還需要為他們提供映像(image)。映像是一個(gè)包含了軟件及必要配置的機(jī)器模版。對(duì)于基礎(chǔ)軟件操作系統(tǒng)是必須的,也可以根據(jù)自己的需求將任何應(yīng)用軟件(比如,數(shù)據(jù)庫(kù)、中間件等)放入映像中。所以映像分為兩類:其一是系統(tǒng)提供的,稱之為“系統(tǒng)映像”,包括了各種Linux、Windows等操作系統(tǒng);其二是用戶通過(guò)捕獲一個(gè)主機(jī)來(lái)自行創(chuàng)建的,名為“自有映像”。系統(tǒng)映像全局可見(jiàn)可用,自有映像只有用戶本人可見(jiàn)可用。在映像中用戶可以自行開(kāi)發(fā)和測(cè)試各種服務(wù)和應(yīng)用,并通過(guò)系統(tǒng)提供的映像功能,建立、配置并捕獲模板,用于提供給不同的團(tuán)隊(duì)與項(xiàng)目使用。
存儲(chǔ)資源也是搭建云平臺(tái)重要的組成設(shè)備之一。云平臺(tái)存儲(chǔ)資源目前主要針對(duì)塊存儲(chǔ)設(shè)備(磁盤(pán)),會(huì)將所有的磁盤(pán)構(gòu)成一個(gè)全局的塊存儲(chǔ)系統(tǒng),由它為云平臺(tái)上的用戶統(tǒng)一提供存儲(chǔ)服務(wù)。
在存儲(chǔ)資源模塊設(shè)計(jì)時(shí),根據(jù)實(shí)際運(yùn)營(yíng)的經(jīng)驗(yàn)數(shù)據(jù),建議配置的存儲(chǔ)系統(tǒng)可以支持多種類型的磁盤(pán):SSD型磁盤(pán)、SAS型磁盤(pán)、SATA型磁盤(pán),正如物理世界中的磁盤(pán)。SSD型磁盤(pán)適用于對(duì)I/O要求特別高的應(yīng)用,例如數(shù)據(jù)庫(kù)等在線業(yè)務(wù);SAS型磁盤(pán)適用于跑一般的虛擬機(jī)和對(duì)I/O有比較高要求的應(yīng)用,SATA型磁盤(pán)擁有更大的單塊磁盤(pán)容積,適用于對(duì)容量要求較高的應(yīng)用,例如文檔存儲(chǔ)等離線業(yè)務(wù)。
存儲(chǔ)資源中提供的磁盤(pán)獨(dú)立于主機(jī)的生命周期而存在,可以被連接到任意運(yùn)行中的主機(jī)上,為主機(jī)提供持久化的、塊級(jí)存儲(chǔ),并可以隨時(shí)解除連接,轉(zhuǎn)接至其他主機(jī),如此還可以實(shí)現(xiàn)數(shù)據(jù)的快速轉(zhuǎn)移。
除了磁盤(pán),還提供了備份服務(wù)。備份(Snapshot)用于在塊設(shè)備級(jí)別(block device level)上進(jìn)行磁盤(pán)的備份與恢復(fù),可以同時(shí)對(duì)多張磁盤(pán)做備份(包括系統(tǒng)盤(pán)和數(shù)據(jù)盤(pán)),也可以對(duì)正在運(yùn)行的主機(jī)做在線備份。一張磁盤(pán)可以有多個(gè)備份鏈,每條備份鏈包括一個(gè)全量備份點(diǎn)以及多個(gè)增量備份點(diǎn),用戶可以隨時(shí)從任意一個(gè)備份點(diǎn)恢復(fù)數(shù)據(jù)。
3.3.2 網(wǎng)絡(luò)資源模塊
盡管網(wǎng)絡(luò)資源模塊也是搭建云平臺(tái)重要的組成設(shè)備之一,但是在云平臺(tái)對(duì)于網(wǎng)絡(luò)設(shè)備的使用都只當(dāng)做為二層(鏈路層)設(shè)備來(lái)使用,物理網(wǎng)絡(luò)設(shè)備只是解決連通性問(wèn)題,無(wú)需使用任何三層(網(wǎng)絡(luò)層)的協(xié)議。這樣的好處是在確保性能最優(yōu)的前提下,無(wú)需復(fù)雜的配置,無(wú)論是工程實(shí)施,還是后期維護(hù),工作量都大大減少了。
為了提升整個(gè)云平臺(tái)的高可靠性,系統(tǒng)中設(shè)計(jì)了多重實(shí)時(shí)副本,一旦發(fā)生硬件設(shè)備故障時(shí),異地的實(shí)時(shí)副本就會(huì)自動(dòng)開(kāi)始工作,確保用戶數(shù)據(jù)不會(huì)丟失,甚至上層的業(yè)務(wù)系統(tǒng)也不會(huì)下線。正是為了在內(nèi)部支撐網(wǎng)絡(luò)中高效傳送多重實(shí)時(shí)副本,以及確保虛擬機(jī)之間的通信帶寬,強(qiáng)烈建議采購(gòu)方采用萬(wàn)兆(10Gb/s)以太網(wǎng)交換機(jī)來(lái)構(gòu)建后端的網(wǎng)絡(luò)系統(tǒng)。這些萬(wàn)兆網(wǎng)絡(luò)設(shè)備都只以二層設(shè)備方式工作,把所有物理服務(wù)器連接起來(lái),并且與互聯(lián)網(wǎng)進(jìn)行連通即可。
除了后端支撐網(wǎng)絡(luò)系統(tǒng)外,網(wǎng)絡(luò)資源模塊設(shè)計(jì)還包括用戶層面的網(wǎng)絡(luò)服務(wù)。提供了多種組網(wǎng)方式:VPC虛擬私有云網(wǎng)絡(luò)、與現(xiàn)有企業(yè)網(wǎng)直連的基礎(chǔ)網(wǎng)絡(luò)。
基礎(chǔ)網(wǎng)絡(luò)的好處是簡(jiǎn)單,無(wú)需用戶做任何配置與管理即可直接使用, 但正因?yàn)樗侨志W(wǎng)絡(luò),所以其安全保障需要依靠防火墻(Security Group)來(lái)實(shí)現(xiàn)的。
VPC私有網(wǎng)絡(luò)需要用戶創(chuàng)建并管理,VPC之間是100%隔離的,以滿足對(duì)安全的100%追求。
私有網(wǎng)絡(luò)類似物理世界中使用交換機(jī)(L2 Switch)將多臺(tái)服務(wù)器連接在一起,組成的局域網(wǎng)[5]。VPC用于多個(gè)受管私有網(wǎng)絡(luò)之間互聯(lián),并提供多項(xiàng)附加服務(wù):DHCP服務(wù)、端口轉(zhuǎn)發(fā)、VPN、隧道服務(wù)和訪問(wèn)控制,涵蓋了常用的網(wǎng)絡(luò)配置與管理工作。如果提供的VPC功能仍然無(wú)法滿足網(wǎng)絡(luò)管理的需求,可以創(chuàng)建自管私有網(wǎng)絡(luò),并自行配置和管理該網(wǎng)絡(luò)。
IP地址的管理也是網(wǎng)絡(luò)資源模塊設(shè)計(jì)中的一個(gè)重要部分。彈性IP地址是在互聯(lián)網(wǎng)(或企業(yè)內(nèi)部辦公網(wǎng)絡(luò))上合法的靜態(tài)IP地址。在系統(tǒng)中,彈性IP地址與用戶的賬戶而非特定的資源關(guān)聯(lián),用戶可以將申請(qǐng)到的彈性IP地址分配到任意主機(jī)、負(fù)載均衡器和VPC中的資源,并隨時(shí)可以解綁、再分配到其他資源,如此可以快速替換用戶的對(duì)外資源。
3.3.3 業(yè)務(wù)管理系統(tǒng)
在規(guī)劃好計(jì)算資源、存儲(chǔ)資源和網(wǎng)絡(luò)資源后,還需要規(guī)劃智能管理系統(tǒng),這部分功能可以運(yùn)行在物理服務(wù)器上。作為管理節(jié)點(diǎn),主要負(fù)責(zé):
(1)物理機(jī)器的管理。每臺(tái)物理機(jī)器都需要分配獨(dú)有的ID,并能標(biāo)識(shí)出物理機(jī)器的狀態(tài)(活躍、待命、修復(fù)、不可用)。
(2)機(jī)器人管理。在P2P機(jī)器人社區(qū)中有各種類型的機(jī)器人,為這些機(jī)器人分配獨(dú)有的ID,并能標(biāo)識(shí)出機(jī)器人所處的狀態(tài)[2]。
(3)區(qū)域管理。系統(tǒng)支持多地域的部署,需要為每個(gè)部署做個(gè)命名與標(biāo)識(shí)。
(4)控制臺(tái)管理??刂婆_(tái)與多地域也是具備獨(dú)立生命周期的,既可以為每個(gè)地域的部署配置控制臺(tái),也可以讓1個(gè)控制臺(tái)服務(wù)于多個(gè)地域。
(5)API管理。對(duì)于通過(guò)API方式進(jìn)行資源調(diào)度與管理的用戶,需要管理訪問(wèn)的Quota以及密鑰。
在分布式虛擬機(jī)和虛擬磁盤(pán)上采用多副本機(jī)制保證了數(shù)據(jù)的安全。這些副本都要是實(shí)時(shí)副本,而且至少包含1份異地副本,即數(shù)據(jù)的寫(xiě)入只有在多個(gè)副本上都完成后才算成功,實(shí)時(shí)副本可以保證硬件設(shè)備出現(xiàn)問(wèn)題時(shí)數(shù)據(jù)不丟失,這樣即使源數(shù)據(jù)所在的主機(jī)突然出現(xiàn)問(wèn)題,通過(guò)異地副本也能快速恢復(fù)。1份原始數(shù)據(jù)有多份實(shí)時(shí)副本,這也是系統(tǒng)熱遷移的技術(shù)基礎(chǔ)。構(gòu)建在低延遲無(wú)損耗的物理專線上的跨數(shù)據(jù)中心異地副本也能快速恢復(fù)。
備份快照用于在虛擬磁盤(pán)塊設(shè)備級(jí)別上進(jìn)行磁盤(pán)的備份與恢復(fù),可以同時(shí)對(duì)多張磁盤(pán)做備份(包括系統(tǒng)盤(pán)和數(shù)據(jù)盤(pán)),也可以對(duì)正在運(yùn)行的主機(jī)做在線備份。1張磁盤(pán)可以有多個(gè)備份鏈,每條備份鏈包括1個(gè)全量備份點(diǎn)以及多個(gè)增量備份點(diǎn),可以隨時(shí)從任意一個(gè)備份點(diǎn)恢復(fù)數(shù)據(jù)。
通過(guò)云計(jì)算平臺(tái),我們可以實(shí)現(xiàn)虛擬化平臺(tái)、云平臺(tái)管理軟件、SDN分布式網(wǎng)絡(luò)和SDS分布式存儲(chǔ),支持硬件的自動(dòng)發(fā)現(xiàn)與配置,支持通過(guò)簡(jiǎn)單的增加節(jié)點(diǎn)、連線、上電完成云平臺(tái)的部署和擴(kuò)容,滿足業(yè)務(wù)大規(guī)模發(fā)展的需求。云平臺(tái)提供的服務(wù)涉及IT基礎(chǔ)設(shè)施層所有元素:計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)和安全,還包括自動(dòng)監(jiān)控和運(yùn)維,在云平臺(tái)系統(tǒng)中可以一站式解決。
在本次云平臺(tái)的建設(shè)中還有很多不足,例如:(1)對(duì)于虛擬化環(huán)境,需要建立一套適應(yīng)江銅內(nèi)部管理和運(yùn)維的新流程。(2)自動(dòng)化是云平臺(tái)的一個(gè)重要組成部分,但隨著自動(dòng)化的不斷完善會(huì)變得逐漸復(fù)雜,這就要求IT團(tuán)隊(duì)不斷更新和儲(chǔ)備知識(shí)。(3)私有云平臺(tái)對(duì)外是一個(gè)相對(duì)封閉的平臺(tái),日后第三方的軟件在接口對(duì)接上需要不斷完善。
貴冶的云平臺(tái)建設(shè)可以減少新系統(tǒng)上線的初期投資成本、降低業(yè)務(wù)部門(mén)整體運(yùn)營(yíng)成本,從而實(shí)現(xiàn)業(yè)務(wù)快速上線能力,最終提升貴冶的整體創(chuàng)新能力。