亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        高性能計算集群系統(tǒng)的運行與管理

        2017-09-27 17:21:52吳琳覃奇志
        課程教育研究·新教師教學 2015年21期
        關(guān)鍵詞:維護管理安全管理

        吳琳++覃奇志

        摘要:武漢大學水資源與水電工程科學國家重點實驗室建立了以科學計算為基礎(chǔ)的高性能計算集群系統(tǒng)。高性能計算集群系統(tǒng)是一種投入較大、設(shè)備更新速度較快的大型儀器設(shè)備系統(tǒng)。如何進行高效運行和可持續(xù)維護管理,是一個值得探索的問題。本文對實驗室進行高性能計算集群系統(tǒng)的建設(shè)、運行、安全和維護管理等方面的經(jīng)驗與特點進行介紹。

        關(guān)鍵詞:高性能計算;高效運行;安全管理;維護管理

        【中圖分類號】O4-39

        武漢大學水資源與水電工程科學國家重點實驗室(以下簡稱“實驗室”), 于2009 年成立了高性能計算中心,配備了HP刀片系統(tǒng),理論計算峰值大于1萬億次浮點運算/秒,大大改善實驗室和水利水電學院從事大型數(shù)值模擬計算的硬件條件。為了更好地為更多的用戶服務(wù),如何高效利用和有效管理這個系統(tǒng)就至關(guān)重要。

        1.系統(tǒng)介紹

        高性能計算集群主要用于處理復雜的計算問題,應用在需要大規(guī)??茖W計算的環(huán)境中。高性能計算集群上運行的應用程序一般使用并行算法,把一個大的普通問題根據(jù)一定的規(guī)則分為許多小的子問題,在集群內(nèi)的不同節(jié)點上進行計算,而這些小問題的處理結(jié)果,經(jīng)過處理可合并為原問題的最終結(jié)果。由于這些小問題的計算一般是可以并行完成的,從而可以縮短問題的處理時間。

        高性能計算集群在計算過程中,各節(jié)點是協(xié)同工作的,它們分別處理大問題的一部分,并在處理中根據(jù)需要進行數(shù)據(jù)交換,各節(jié)點的處理結(jié)果都是最終結(jié)果的一部分。高性能計算集群的處理能力與集群的規(guī)模成正比,是集群內(nèi)各節(jié)點處理能力之和。

        1.1硬件配置

        高性能計算機集群采用機架式,可動態(tài)擴展。現(xiàn)有節(jié)點18個,其中14個計算節(jié)點,2個管理節(jié)點,2個I/O節(jié)點,1個存儲陣列。此外包括:機柜、供電系統(tǒng)、布線系統(tǒng)、散熱系統(tǒng),主控制臺,KVM等。

        圖1 系統(tǒng)結(jié)構(gòu)圖

        計算節(jié)點:HP BL460c G6 CTO Blade

        CPU:Intel Xeon E5530四核64位處理器,2.4GHz×2顆

        內(nèi)存:16G

        硬盤:146GB

        網(wǎng)絡(luò):InfiniBand網(wǎng)卡

        管理節(jié)點:HP DL380R06 CTO Chassis

        存儲節(jié)點:HP DL380R06 CTO Chassis

        存儲陣列:EVA4400--Hard Disk

        高速光纖硬盤: 4TB

        SATA硬盤: 8TB

        1.2軟件配置

        操作系統(tǒng):Redhat Enterprise Linux 5

        作業(yè)調(diào)度系統(tǒng):Sun SGE

        編譯器: Intel C++、Fortran等,GNU系列

        通用數(shù)學庫: LAPACK和ScaLAPACK,包括BLAS、PBLAS、BLACS等基本線性代數(shù)庫函數(shù)、并行庫函數(shù)和通信庫函數(shù)

        并行環(huán)境: Infiniband MPI并行環(huán)境(MPICH1/2)

        應用軟件:目前安裝Fluent、Abaqus和Ansys等軟件

        1.3高性能計算集群的特點

        根據(jù)以上配置的硬件設(shè)備和軟件環(huán)境,實驗室建立的高性能計算集群具有以下特點:

        (1)高可用性。本身互為冗余節(jié)點,能夠為用戶提供不間斷的服務(wù),由于系統(tǒng)中包括了多個結(jié)點,當一個結(jié)點出現(xiàn)故障的時候,整個系統(tǒng)仍然能夠繼續(xù)為用戶提供服務(wù);

        (2)高可擴展性。在集群系統(tǒng)中可以動態(tài)地加入新的服務(wù)器和刪除需要淘汰的服務(wù)器,從而能夠最大限度地擴展系統(tǒng)以滿足不斷增長的應用的需要;

        (3)多用戶和多任務(wù)。Linux系統(tǒng)是一個分時多任務(wù)環(huán)境,它可以同時做多個事情。Linux系統(tǒng)可以處理一個用戶的多個同時的要求,并支持多個人同時活動。

        2.系統(tǒng)運行

        在CPU 的數(shù)目有限(可供計算的CPU共112個),而用戶多的情況下, 如何利用現(xiàn)有的資源,合理地安排作業(yè)運行,使設(shè)備高效運行,對系統(tǒng)管理人員是一個嚴峻的挑戰(zhàn)。根據(jù)近一年來的運行情況統(tǒng)計顯示,共有近4千個程序在機器上運行過,發(fā)現(xiàn)了如下一些問題:

        (1)自編程序未在工作站或PC 機上進行預先試驗性運行, 就匆忙提交到集群管理節(jié)點上,致使運算工作量大大加重,并且有些計算未得到任何有用結(jié)果。運行程序未經(jīng)仔細檢查,存在固有的錯誤, 導致長時間死循環(huán)運行或計算結(jié)果錯誤, 浪費了大量的CPU 時間。

        (2)提交作業(yè)的運算工作量太大,致使在集群上運行時間過長,并造成計算節(jié)點宕機,以致在沒有得到任何有用結(jié)果情況下不得不中止運算。運算作業(yè)量過大,造成大量作業(yè)排隊現(xiàn)象,很擁擠,也會致使運算效率相應降低。

        為了提高高性能計算集群的運行效率,縮短用戶作業(yè)的時間,我們鼓勵提交程序可靠、運算時間短或中等的作業(yè),以提高有用研究成果的產(chǎn)出率。我們通過不斷與用戶的溝通和協(xié)調(diào),制定了高性能計算集群的使用規(guī)范,其基本原則是:

        (1)限制每個用戶只能同時運行二個作業(yè),超過的作業(yè)將會自動處在排隊狀態(tài)。每個用戶排隊的作業(yè)數(shù)目不超過3個。

        (2)限制每個作業(yè)最多只能使用24個CPU,直至供計算112個CPU被占用完。其后提交的作業(yè)按時間先后處在排隊狀態(tài)。

        (3)鼓勵提交運行時間短的作業(yè)。

        3.安全管理

        高性能計算集群系統(tǒng)是置于網(wǎng)絡(luò)中的一臺具有服務(wù)器功能,并能進行大型數(shù)值模擬計算的大型設(shè)備;按用戶需求,此大型設(shè)備需保證常年7*24小時不間斷運行。因此,我們高度重視它的網(wǎng)絡(luò)安全和運行安全,并采取了一系列的措施。

        3.1網(wǎng)絡(luò)安全

        系統(tǒng)的網(wǎng)絡(luò)安全性首當其沖的就是用戶賬號安全。為了確保高性能計算集群系統(tǒng)的網(wǎng)絡(luò)安全,申請使用本實驗室高性能計算集群系統(tǒng)的用戶需要遵守以下幾點要求:endprint

        (1)申請人須為水資源與水電工程科學國家重點實驗室的任職教師。高性能計算集群系統(tǒng)僅供實驗室任職教師或在讀的碩士、博士研究生進行科學研究和教學相關(guān)的活動之用,不得用于任何威脅國家、社會安全的高性能計算,也不能用于其它無關(guān)的用途。

        (2) 賬號只限個人使用,嚴禁將帳號和密碼泄露給外單位人員。賬號申請僅限于任職教師,在讀的碩士、博士研究生請使用導師的賬號,每一個用戶至多只能申請一個帳號,請務(wù)必保存好個人帳號和密碼,嚴禁將帳號轉(zhuǎn)借他人使用。

        (3)數(shù)據(jù)和程序(非公用程序)文件一律存放于自己的屬主目錄下,系統(tǒng)不提供長期數(shù)據(jù)存放服務(wù)。

        (4)不得使用軟件或硬件的方法竊取他人口令,非法入侵他人帳戶,閱讀他人文件,竊取他人計算和研究成果或受法律保護的資源。

        (5)密碼應定期(三個月)更換,建議8位以上并注意加強密碼復雜度。

        系統(tǒng)管理員必須 對“root賬戶”的密碼嚴格保密,并定期更換;權(quán)限的設(shè)定也非常重要,普通用戶不能超越系統(tǒng)管理員的權(quán)限,所有的系統(tǒng)文件對用戶都是設(shè)置為只讀文件( - rw - r- - r- - ) 。如果普通用戶超越了系統(tǒng)管理員的權(quán)限,可能會給系統(tǒng)的安全帶來很大的風險,系統(tǒng)的文件可能被修改,甚至有可能使整個系統(tǒng)癱瘓,影響用戶的使用。另外做好系統(tǒng)文件的備份,專門將系統(tǒng)文件置于一個獨立硬盤中。

        3.2安全運行

        為保證系統(tǒng)的運行安全,防止物理因素、自然因素和人為因素對系統(tǒng)造成的破壞,實驗室為高性能計算集群系統(tǒng)建設(shè)標準機房,配備機房專用精密空調(diào),常年保持標準溫度(22℃±2℃)和標準濕度(50%Rh±5%Rh);配備不間斷電源UPS,以保證短時間停電6小時不影響系統(tǒng)的正常工作。在不得不關(guān)機的情況下,系統(tǒng)能夠?qū)⒂脩舻某绦蚪財?,保存起來,等機器恢復運行后再恢復;配備存儲陣列保存用戶的數(shù)據(jù)文件,以應對突發(fā)事件,將用戶的損失降為最小。

        4.維護管理

        4.1加強信息技術(shù),指導維護管理

        在科學技術(shù)迅猛發(fā)展的今天,尤其是現(xiàn)代信息技術(shù)日新月異,對高性能計算產(chǎn)生了深刻的影響。大量信息技術(shù)、信息化裝備應用于高性能計算。實驗室高性能計算集群系統(tǒng)設(shè)備管理人員必須站在信息化建設(shè)的前沿,用信息時代的思維審視、思考設(shè)備維護管理的問題,指導設(shè)備維護管理工作,加強與科技企業(yè)、設(shè)備生產(chǎn)制造商的交流,及時了解設(shè)備管理方面的更新升級信息,使儀器設(shè)備維護管理科學化、規(guī)范化、先進化。要用信息技術(shù)主導實驗室設(shè)備使用維護工作,保證儀器設(shè)備質(zhì)量可靠、使用周期長。

        4.2加強日常檢查,保證維護管理

        作為系統(tǒng)管理人員要經(jīng)常查看系統(tǒng)的日志文件,并分析,從中發(fā)現(xiàn)問題和及時解決問題,以防患于未然。定期檢查,確保設(shè)備處在正常工作狀態(tài)。根據(jù)各設(shè)備的具體情況, 確定維護制度和具體內(nèi)容。檢查和調(diào)整各個設(shè)備, 使之處于最佳工作指標之內(nèi)。一旦發(fā)現(xiàn)系統(tǒng)異常運行,運用所有檢測程序檢查各個設(shè)備,并根據(jù)硬件設(shè)備報警燈光判斷出現(xiàn)問題的設(shè)備,發(fā)現(xiàn)問題,及時解決。最好設(shè)備檢查和維護記錄,對于設(shè)備經(jīng)常發(fā)生的故障,要熟練掌握解決方法,及時排除故障。此外,要保證設(shè)備的清潔衛(wèi)生。

        4.3加強管理制度,提高維護效益

        設(shè)備維護能力的提高不僅靠高投入,而且還要依靠科學管理。建立科學管理機制,能夠有效提高設(shè)備維護的質(zhì)量和效益。建立設(shè)備的使用管理規(guī)章制度,要求系統(tǒng)設(shè)備使用人員愛護設(shè)備,了解設(shè)備的性能,熟悉設(shè)備的操作,嚴格按照規(guī)則進行提交作業(yè)計算,減少對設(shè)備的損壞,盡量延長設(shè)備的使用壽命。提高實驗室的開放力度,最大限度地發(fā)揮設(shè)備的使用效益。在落實實驗室維護任務(wù)的前提下,要實現(xiàn)實驗室高性能計算集群系統(tǒng)設(shè)備資源共享,共同提高維護效益。

        5.結(jié)語

        實驗室高性能計算集群系統(tǒng)運行和管理制度的實行,大大提高了實驗室高性能計算中心的工作效率,為教師和研究生們的研究工作做出了較大貢獻,并取得了一些研究成果。為了更好地為廣大師生服務(wù),我們要進一步培養(yǎng)技術(shù)業(yè)務(wù)人員,努力提高管理人員的業(yè)務(wù)水平,做到認真學習設(shè)備生產(chǎn)制造商提供的各項技術(shù)資料,利用有限的資源,充分發(fā)揮高性能計算集群系統(tǒng)所具有的作用, 為科研工作帶來更大的產(chǎn)出率。

        參考文獻:

        [1]張予倩,萬賢綱,韓靜. SGI Origin 2000大型計算機管理模式與策略[J]. 實驗室研究與探索,2003,22(2):93-94,97.

        [2]關(guān)偉豪,吳汝明,郭清順等. 中山大學高性能計算服務(wù)平臺的建設(shè)[J]. 實驗技術(shù)與管理,2011,28(4):303-306.

        [3]黃建忠,張滬寅,程 媛. 開放式高性能計算平臺的建設(shè)與研究[J]. 計算機教育,2012,22:55-59.

        [4]劉曉波. 加強高校實驗室設(shè)備管理的途徑分析[J]. 現(xiàn)代商貿(mào)工業(yè),2011,10:268-269.

        [5]初建崇,韓海濤,張來紅等. 新形勢下提升教學儀器設(shè)備保障管理能力研究[J]. 實驗技術(shù)與管理,2013,30(6):217-219.endprint

        猜你喜歡
        維護管理安全管理
        廣播電視安全播出技術(shù)維護管理對策探討
        科技傳播(2016年19期)2016-12-27 15:06:30
        高速公路機電系統(tǒng)的維護和管理研究
        簡析公路聯(lián)網(wǎng)收費機電系統(tǒng)的維護管理
        科技資訊(2016年19期)2016-11-15 10:07:54
        關(guān)于對汽車維護管理的研究
        針對計算機軟件平臺下軟件信息的維護管理
        高速公路養(yǎng)護施工安全管理現(xiàn)狀及建議
        房建施工中的質(zhì)量與安全管理的研究
        淺談電力工程項目施工的安全管理
        關(guān)于深基坑施工的安全管理和防范策略
        淺談輸配電線路運行與維護管理措施
        国产免费a∨片在线软件| av男人操美女一区二区三区| 亚洲国产精品日韩av专区| 国产精品美女一区二区视频 | 亚洲色中文字幕无码av| 久久精品国产自清天天线| 亚州毛色毛片免费观看| 日本女同视频一区二区三区 | 香蕉成人啪国产精品视频综合网| 国产av乳头久久一区| 手机av在线中文字幕| 免费看黄a级毛片| 亚洲国产欧美日韩一区二区| 青青草视频在线免费观看91| 白嫩人妻少妇偷人精品| 国产精品一区二区久久不卡| 久久久久亚洲精品天堂| 在线观看视频国产一区二区三区| 久久亚洲精品国产亚洲老地址| 久久久久久免费毛片精品| AⅤ无码精品视频| 亚洲av乱码一区二区三区人人| 亚洲av无码av在线播放| 亚洲白白色无码在线观看| 亚洲国产精品美女久久久| 青青草国产在线视频自拍| 日本成本人三级在线观看| 免青青草免费观看视频在线| 日韩一级精品视频免费在线看| 97se亚洲国产综合自在线观看| 77777亚洲午夜久久多人| 宅男久久精品国产亚洲av麻豆| 男女18视频免费网站| 国产精品无码av一区二区三区 | 99久久人妻精品免费二区| 久久精品免视看国产盗摄| 亚洲啪啪色婷婷一区二区| 日韩精品无码一本二本三本色| 97无码人妻Va一区二区三区| 日韩一区二区三区天堂| 久久午夜福利电影|