王亮 魯曉帆 郭邦圣 劉鑫 高曉佳
摘 ?要:高可用集群環(huán)境構(gòu)建中,部署應(yīng)用的流程,主要由管理進程資源組中的帶入和帶出任務(wù),修改資源刪除資源測試資源。當客戶端訪問時,支持手動切換資源調(diào)集。應(yīng)用過程中,支持魯棒測試,如熱插拔、關(guān)機、進程殺掉;測試過程中支持分布式和單元測試。經(jīng)過一系列的部署、安裝和測試,發(fā)現(xiàn)不當配置與應(yīng)用效果,需進一步完善機制與策略控制,再次進行大規(guī)模應(yīng)用與監(jiān)測。
關(guān)鍵詞:高可用 ? 安全存儲 ? 集群構(gòu)建 ? 應(yīng)用研究
中圖分類號:P209 ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A文章編號:1672-3791(2021)08(c)-0011-03
Application Research on the Construction of High Available Secure Storage Cluster
WANG Liang ?LU Xiaofan ?GUO Bangsheng ?LIU Xin ?GAO Xiaojia
(Jilin University of Architecture and Technology, Changchun, Jilin Province, 130114 China)
Abstract: In the construction of high availability cluster environment, the process of deploying applications is mainly carried in and out by the tasks in the management process resource group, modify resources, delete resources and test resources. When the client accesses, it supports manual switching of resource mobilization. During the application process, it supports robust testing, such as hot plug, shutdown, process kill, and distributed and unit testing. After a series of deployment in the test, found the improper configuration and application effect need to further improve the mechanism and strategy control, and carry out large-scale application and monitoring again.
Key Words: High availability; Secure storage; Cluster construction; Application research
在大數(shù)據(jù)、人工智能領(lǐng)域開展深入研究,實現(xiàn)高校服務(wù)器采用HA(High Available)高可用及高可用安全存儲集群構(gòu)建,一旦發(fā)生服務(wù)器陣列故障,則面臨多個單點服務(wù)故障或校園多樣服務(wù)大數(shù)據(jù)(教務(wù)系統(tǒng)數(shù)據(jù)、網(wǎng)站系統(tǒng)數(shù)據(jù)、監(jiān)控系統(tǒng)數(shù)據(jù)、學(xué)科平臺科研建設(shè)數(shù)據(jù)等)損毀及停頓。因此,要實現(xiàn)業(yè)務(wù)數(shù)據(jù)的高可靠性,必然要保證存儲高可用性,針對這類情況,提出高可用安全存儲集群構(gòu)建應(yīng)用研究[1]。
1 ?高可用集群系統(tǒng)
當前,大學(xué)校園或中小企業(yè)對信息化高度重視,大都建立了計算機應(yīng)用系統(tǒng),支持其自身的環(huán)境、運營和管理工作。然而不論是校園還是企業(yè),最重視的核心問題是如何建立并維護其系統(tǒng)的運行持續(xù)性及穩(wěn)定性。由此,高可用對于計算機應(yīng)用系統(tǒng)極其重要。在正常的業(yè)務(wù)運行過程當中,軟硬件系統(tǒng)不可避免地會發(fā)生故障,可能還會導(dǎo)致系統(tǒng)的整體癱瘓,這樣會影響用戶的響應(yīng)請求及用戶的信任,損失會難以估計,所以采取必要的防范和應(yīng)用措施來保證計算機系統(tǒng)的高可用和不間斷業(yè)務(wù)服務(wù)等,來保障系統(tǒng)的安全性、穩(wěn)定性[2]。
2 ?RoseHA概述
RoseHA高可用系統(tǒng)是實現(xiàn)兩節(jié)點的集群構(gòu)建環(huán)境,用戶只需在原有系統(tǒng)上附加同類服務(wù)器及IP-SAN即可,通過監(jiān)控系統(tǒng)的卷資源、別名資源、繪畫資源、存儲資源及應(yīng)用程序和操作系統(tǒng),各類計算機硬件和軟件資源的運行狀態(tài),實現(xiàn)某個關(guān)鍵核心業(yè)務(wù)的高可用性。當某個活動節(jié)點不工作或宕機,RoseHA將活動業(yè)務(wù)的系統(tǒng)主機遷移至備援主機,有效地降低計劃內(nèi)外的主機非正常運轉(zhuǎn)時間,提高業(yè)務(wù)系統(tǒng)穩(wěn)定性和高可用性[3]。
3 ?RoseHA的產(chǎn)品結(jié)構(gòu)與工作原理
支持動態(tài)卷切換,增強卷切換的工作效率及支持LINUX系統(tǒng)平臺下的邏輯卷設(shè)備切換。針對不同的特定應(yīng)用代理程序,將服務(wù)監(jiān)控按照實際有效的方式切換,提供API用戶開發(fā)代理程序,針對企業(yè)編寫特定專用的代理程序,指定與專用服務(wù)相關(guān)的狀態(tài)診斷與錯誤恢復(fù)機制。集群具有容錯可靠,具有兩個或多個核心進程,互相監(jiān)控,如果其中一個失敗,另一個進程自動執(zhí)行恢復(fù),避免單點故障發(fā)生在自身服務(wù)。支持多心跳路徑,避免心跳故障單點產(chǎn)生,支持仲裁資源,使集群節(jié)點全部通信斷開,通過仲裁確定集群運行狀態(tài),避免節(jié)點競爭[4]。
4 ?基于ORACLE+RoseHA的高可用安全存儲集群構(gòu)建
4.1 ORACLE的構(gòu)建部署
啟動實例的過程是加載內(nèi)存的過程,將主服務(wù)部署聯(lián)機共享,部署后刪除主實例后部署的備用服務(wù)器,常規(guī)劃于RAID磁盤陣列中,磁盤陣列隸屬于當前某個活動的基于ISCSI映射連接的磁盤空間中,啟動數(shù)據(jù)庫:startup nomount:啟動實例;startup mount:只允許本地操作;startup open:打開數(shù)據(jù)庫,所有用戶可使用;startup restrict:以受限模式打開數(shù)據(jù)庫。Alter database db01 mount轉(zhuǎn)換數(shù)據(jù)庫狀態(tài)Alter database db01 only read把數(shù)據(jù)庫轉(zhuǎn)換成只讀的Start database restrict數(shù)據(jù)庫受限狀態(tài)。構(gòu)建集群狀態(tài)下的核心數(shù)據(jù)庫,具體情況如圖1所示。
4.2 RoseHA的構(gòu)建部署
服務(wù)器主備均需安裝RHA,可無序安裝,部署向?qū)е?,根?jù)實際需要進行路徑和模塊選擇。在配置上,首先訪問RHA的控制中心,通過默認密碼webadmin訪問,創(chuàng)建方案選擇活動SERVER,根據(jù)活動服務(wù)器的狀態(tài)及網(wǎng)絡(luò)虛擬指定的IP,作為指定服務(wù)器的IP地址,根據(jù)登錄界面輸入ROSE的內(nèi)置密碼,設(shè)置注冊碼,復(fù)制主備server的ID,通過注冊碼將授權(quán)導(dǎo)入。
配置鏈路,添加鏈路,選擇心跳IP,根據(jù)經(jīng)驗需要兩組心跳效果最好。結(jié)合需求,選擇數(shù)據(jù)庫的應(yīng)用類型,添加數(shù)據(jù)庫后,根據(jù)“磁盤列表”選擇磁盤ID,確認并格式化磁盤。若安裝lvm或multi-path,需手動輸入仲裁設(shè)備名,IP-SAN網(wǎng)絡(luò)存儲需要ISCSI連接成為本地磁盤后格式化磁盤,進行仲裁加入。卷資源添加后磁盤ID要保持一直,在掛載和驅(qū)動器號上,指定分區(qū)盤符。IP資源處選擇添加,網(wǎng)卡處掛在活動的網(wǎng)卡,在資源處輸入activety的IP地址和掩碼。根據(jù)應(yīng)用類型,RHA自動添加系統(tǒng)服務(wù),進程資源是根據(jù)配置需要添加的.exe程序,默認無監(jiān)控端口[5]。
集群環(huán)境部署應(yīng)用設(shè)計過程。(1)帶入:需主機開啟活動IP,啟動每個業(yè)務(wù)服務(wù)系統(tǒng),數(shù)據(jù)實現(xiàn)實時同步,集群中的備機會自動停止。(2)帶出:當前Active主機會休眠所有同步業(yè)務(wù)系統(tǒng),實時監(jiān)聽同步數(shù)據(jù),暫停全部活動數(shù)據(jù)及業(yè)務(wù),屬于對等層業(yè)務(wù)的暫停執(zhí)行。(3)資源切換:處于正常與非正常狀態(tài)的切換資源方式,主機業(yè)務(wù)正常,但主機資源需要硬件維護或其他使用目的,則強制切換資源給備機使用,同步會通過心跳線路將IP資源、別名資源、會話資源、RAID卷資源及所有服務(wù)資源切換給備機運行。當主機出現(xiàn)異常宕機或其他非正常運行狀況,則主機自動實現(xiàn)帶出全部資源,將主動權(quán)資源切換給備機,主機離線狀態(tài),也會把所有資源權(quán)限全部帶出交付給備機,使其處于活動狀態(tài)。主機關(guān)機及主機心跳或鏈路被拔掉及主機進程被KILL掉,則全部資源自動被帶出,交付備機接管,備機接收后按照RoseHA的自定向下服務(wù)執(zhí)行模式,將資源接管,繼續(xù)為用戶提供連續(xù)不間斷服務(wù)業(yè)務(wù)[6]。
4.3 單元與分布式測試
4.3.1 單元測試
(1)結(jié)合該項目實例,根據(jù)集群關(guān)鍵業(yè)務(wù),通過RoseHA啟動,JOB是否被正常運行、停止。
(2)通過RoseHA進行Take Over測試是否正常。
(3)通過RoseHA進行Fail Over測試是否正常。
(4)通過RoseHA進行Agent功能保護測試是否正常。
(5)網(wǎng)卡保護功能測試,拔除AS心跳線路測試是否提示出現(xiàn)Fail Over,并進行遷出操作,立即插上后,AS是否恢復(fù)主機關(guān)鍵服務(wù)業(yè)務(wù)。
4.3.2 分布式測試
(1)修改活動IP,選中配置好的RESOURCES池,執(zhí)行帶出操作,停止整個業(yè)務(wù)集群幾桶,在RESOURCES lists里,選中IP資源,操作屬性中修改IP地址,修改后保存執(zhí)行代入資源測試。
(2)新增監(jiān)控資源,在資源列表里如新增NT服務(wù),依賴關(guān)系處選擇依賴資源配置后執(zhí)行帶入,然后立即監(jiān)控。
(3)刪除部分資源,在選中配置好的資源組中帶出并停止真?zhèn)€集群服務(wù)業(yè)務(wù),在資源列表中刪除某個測試資源,操作-刪除,刪除后,選中資源組,執(zhí)行帶入。
4.4 故障排錯與解決方案
主機狀態(tài)顯示主機離線,備機心跳紅色,確認備機take in成功,此時故障情況為服務(wù)器網(wǎng)絡(luò)中斷或主機宕機,解決網(wǎng)絡(luò)中斷或服務(wù)器宕機問題即可。
卷資源顯示故障,則OS提示無法連接本地RAID,檢測RAID指示燈是否異常,RAID是否解散,RAID成員是否故障,連接服務(wù)器的RAID光纖鏈路狀態(tài)及操作系統(tǒng)是否正常。
應(yīng)用服務(wù)主題資源顯示故障,部分資源無法正常使用與運行,在資源列表中查看無法與運行的主體應(yīng)用服務(wù)。
心跳故障顯示為紅色或者黃色標識,心跳無法正常通信在接管與遞交資源過程中是無法實現(xiàn)實時通信的,選擇某個心跳查看具體故障。
如果為Linux系統(tǒng),則采取日志收集方式,在RoseHA的INFO文件中,默認路徑為/opt/HA/info,如果是windows系統(tǒng)則路徑為c:\Program Files\HA\info,執(zhí)行g(shù)atherinfo,運行需要一段時間。在info目錄下生成host.rar的日志和配置壓縮包文件。分別在RoseHA集群的服務(wù)器上執(zhí)行相同操作,獲取這2臺服務(wù)器的配置和日志信息。
5 ?結(jié)語
通過高可用安全存儲集群的構(gòu)建實現(xiàn)各類高校及中小企業(yè)的集群服務(wù),保障業(yè)務(wù)的連續(xù)性迫在眉睫,目前對高可用集群與安全存儲這類信息化建設(shè)較薄弱,原因在于意識不夠和構(gòu)建成本較高,因此需要把高可用及安全存儲列入常規(guī)運維中,這樣不僅可以加強信息化的建設(shè),而且對后期維護與安全性會起到重要的保護作用。
參考文獻
[1] 冷迪.基于集群架構(gòu)的物聯(lián)網(wǎng)動態(tài)數(shù)據(jù)安全存儲方法[J].中國新通信,2020,22(6):136.
[2] 吳俊鵬,劉曉東.一種基于集群的動態(tài)負載均衡算法研究[J].電子設(shè)計工程,2021,29(16):75-78.
[3] 鄭增乾,王錕,趙濤,等.帶寬和時延受限的流媒體服務(wù)器集群負載均衡機制[J].計算機科學(xué),2021,48(6):261-267.
[4] 吳天宇,馮蕊,楊翠.Oracle數(shù)據(jù)庫批量數(shù)據(jù)無損遷移技術(shù)[J].電子技術(shù)與軟件工程,2021(8):204-205.
[5] 葛鈺,李洪赭,李賽飛.一種web服務(wù)器集群自適應(yīng)動態(tài)負載均衡設(shè)計與實現(xiàn)[J].計算機與數(shù)字工程,2020,48(12):3002-3007.
[6] 張鳳瓊.基于云計算技術(shù)的計算機網(wǎng)絡(luò)安全存儲技術(shù)[J].數(shù)字技術(shù)與應(yīng)用,2021,39(8):176-178.
基金項目:吉林省教育廳“十三五”科學(xué)技術(shù)研究項目《高可用安全存儲集群構(gòu)建應(yīng)用研究》階段成果(項目編 ? ? ? ? ? ? ? ?號:JJKH20201232KJ)。
作者簡介:王亮(1986—),男,碩士,實驗師,研究方向為高可用集群、網(wǎng)絡(luò)工程。