亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一體化人工智能實(shí)踐平臺(tái)的設(shè)計(jì)與開(kāi)發(fā)

        2022-02-20 10:25:38楚朋志肖雄子彥陳江平徐季旻熊振華
        實(shí)驗(yàn)室研究與探索 2022年11期
        關(guān)鍵詞:算力集群人工智能

        楚朋志,肖雄子彥,陳江平,徐季旻,熊振華

        (上海交通大學(xué)a.學(xué)生創(chuàng)新中心;b.生物醫(yī)學(xué)工程學(xué)院,上海 200240)

        0 引言

        2018年,教育部頒發(fā)《高等學(xué)校人工智能創(chuàng)新行動(dòng)計(jì)劃》提出,“推動(dòng)高校人工智能學(xué)科建設(shè)、人才培養(yǎng)、理論創(chuàng)新、技術(shù)突破和應(yīng)用示范,為構(gòu)筑人工智能發(fā)展優(yōu)勢(shì)提供戰(zhàn)略支撐?!?020 年3月,教育部、發(fā)改委、財(cái)政部聯(lián)合印發(fā)《關(guān)于“雙一流”建設(shè)高校,促進(jìn)學(xué)科融合加快人工智能領(lǐng)域?qū)W生培養(yǎng)的若干意見(jiàn)》,提出依托“雙一流”建設(shè),深化人工智能內(nèi)涵,構(gòu)建基礎(chǔ)理論人才與“人工智能+X”復(fù)合型人才并重的培養(yǎng)體系,探索深度融合的學(xué)科建設(shè)和人才培養(yǎng)模式[1-4]。一系列政策表明,智能時(shí)代大潮呼喚高等教育優(yōu)化人工智能專(zhuān)業(yè)新結(jié)構(gòu),系統(tǒng)化培養(yǎng)人工智能領(lǐng)域人才,為我國(guó)新一代人工智能發(fā)展提供戰(zhàn)略支撐。

        然而在具體的人才培養(yǎng)過(guò)程中,我們也會(huì)遇到很多問(wèn)題。首先,大量學(xué)生并沒(méi)有專(zhuān)業(yè)硬件可以進(jìn)行實(shí)驗(yàn)操作,造成了理論與實(shí)踐的脫節(jié),往往在上完課后,無(wú)法通過(guò)實(shí)踐加深對(duì)算法及網(wǎng)絡(luò)的認(rèn)知,最終導(dǎo)致紙上空談[5];其次,人工智能教學(xué)實(shí)踐環(huán)境建設(shè)門(mén)檻高,以機(jī)器學(xué)習(xí)和模式識(shí)別為例,目前主要有Matlab、Python、R 等不同編程語(yǔ)言,對(duì)深度學(xué)習(xí)來(lái)說(shuō),又需要搭建不同的框架,如TensorFlow[6]、Caffe[7]、MindSpore[8]、Pytorch[9]等。不同的環(huán)境的安裝配置對(duì)學(xué)生來(lái)說(shuō)較為繁瑣,尤其對(duì)交叉學(xué)科中非工科專(zhuān)業(yè)的學(xué)生來(lái)講更是困難重重;同時(shí),目前實(shí)踐環(huán)節(jié)中的教學(xué)案例較少,實(shí)踐案例有限且相互孤立,無(wú)法進(jìn)一步提升學(xué)生能力。因此如何建設(shè)一個(gè)管理方便、操作便捷、利于學(xué)習(xí)、高性?xún)r(jià)比的人工智能實(shí)踐平臺(tái)至關(guān)重要。

        1 硬件架構(gòu)

        上海交通大學(xué)學(xué)生創(chuàng)新中心人工智能實(shí)踐平臺(tái)是一個(gè)面向全校學(xué)生開(kāi)放、周期性預(yù)約的高性能并行計(jì)算實(shí)訓(xùn)平臺(tái),包含了中央處理單元(Central Processing Unit,CPU)與圖像處理單元(Graphics Processing Unit,GPU)。其硬件結(jié)構(gòu)包括2 個(gè)管理節(jié)點(diǎn)(CPU:E52620,內(nèi)存:128 GB),其中一個(gè)為登錄節(jié)點(diǎn),一個(gè)為管理控制節(jié)點(diǎn);一套并行存儲(chǔ)(2 個(gè)IO 節(jié)點(diǎn),300 TB 可用容量);14 個(gè)GPU計(jì)算節(jié)點(diǎn)(CPU:5118,GPU:1080TI,內(nèi)存:128 GB);一套FDR 56 GB Infini-band 高速網(wǎng)絡(luò)[10]。

        通常用每秒所執(zhí)行的浮點(diǎn)運(yùn)算次數(shù)(Floating Point Operations Per Second,F(xiàn)LOPS)來(lái)衡量電腦的計(jì)算能力,1 PFLOPS 為1024 TFLOPS,即一千萬(wàn)億次浮點(diǎn)指令/s。該平臺(tái)單精度理論峰值約1 PFLOPS,可為每位用戶(hù)提供約為30 FLOPS的運(yùn)算能力,具體架構(gòu)見(jiàn)圖1。

        圖1 人工智能實(shí)踐平臺(tái)硬件架構(gòu)

        2 軟件架構(gòu)

        2.1 SLURM調(diào)度系統(tǒng)

        Linux 資源管理工具(Simple Linux Utility for Resource Management,SLURM)[11]是一種可用于大型計(jì)算節(jié)點(diǎn)集群的高度可伸縮和容錯(cuò)的集群管理器和作業(yè)調(diào)度系統(tǒng),被世界范圍內(nèi)的超級(jí)計(jì)算機(jī)和計(jì)算集群廣泛采用。SLURM維護(hù)著一個(gè)待處理工作的隊(duì)列并管理此工作的整體資源利用。它以一種共享或非共享的方式管理可用的計(jì)算節(jié)點(diǎn)(取決于資源的需求),以供用戶(hù)執(zhí)行工作。SLURM 會(huì)為任務(wù)隊(duì)列合理地分配資源,并監(jiān)視作業(yè)至其完成[12]。

        SLURM 系統(tǒng)有3 種作業(yè)運(yùn)行模式:交互模式,以srun命令運(yùn)行;批處理模式,以sbatch 命令運(yùn)行;分配模式,以salloc 命令運(yùn)行。本文在集群中使用批處理方式sbatch命令來(lái)運(yùn)行腳本,具體批處理的參數(shù)及作用見(jiàn)表1 所列。

        表1 SLURM調(diào)度系統(tǒng)參數(shù)說(shuō)明

        2.2 Module工具

        Module工具的全稱(chēng)是module-environment,用來(lái)專(zhuān)門(mén)管理環(huán)境變量的工具。在Linux中,當(dāng)同一款編輯器、運(yùn)行庫(kù)、軟件存在多個(gè)版本且多個(gè)版本都需要在不同的場(chǎng)景或人員使用時(shí),如何配置這些環(huán)境變量是一個(gè)較為復(fù)雜的工程問(wèn)題。而Module 工具則提供了一個(gè)簡(jiǎn)單快速的方法。

        安裝Module 工具,需要執(zhí)行該指令進(jìn)行初始化,完成source/usr/share/modules/init/bash之后,在實(shí)踐平臺(tái)中即可使用Module工具。常用的Module 指令及功能見(jiàn)表2 所列。

        表2 Module命令功能說(shuō)明

        學(xué)生創(chuàng)新中心人工智能實(shí)踐平臺(tái)面向全校學(xué)生的課程及科創(chuàng)提供技術(shù)支持與服務(wù),因此要考慮多種框架和網(wǎng)絡(luò),而不同版本框架對(duì)驅(qū)動(dòng)及環(huán)境的要求也不盡相同,于是安裝了如圖2所示的各類(lèi)模塊。經(jīng)過(guò)近3 年的測(cè)試運(yùn)行,基本囊括了學(xué)生科創(chuàng)與科研所需的常用軟件及驅(qū)動(dòng)。

        圖2 人工智能實(shí)踐平臺(tái)常用軟件及驅(qū)動(dòng)

        2.3 多框架配置

        Anaconda[13]是一個(gè)基于Python 編程語(yǔ)言的數(shù)據(jù)科學(xué)平臺(tái),Anaconda的特點(diǎn)是擁有大量的科學(xué)包和一些依賴(lài)項(xiàng)。同時(shí)Anaconda支持創(chuàng)建虛擬環(huán)境,可以讓不同用戶(hù)在自己的環(huán)境下安裝和管理包。對(duì)于多用戶(hù)集群來(lái)說(shuō),這個(gè)特性將非常方便。因此,本架構(gòu)方案中采用Anaconda進(jìn)行深度學(xué)習(xí)環(huán)境的配置。

        在選擇框架上做了基礎(chǔ)調(diào)研。在工業(yè)應(yīng)用領(lǐng)域,TensorFlow 依然保有優(yōu)勢(shì),尤其在TensorFlow 1.2 版本融合Keras 作為高級(jí)獨(dú)立應(yīng)用程序接口(Application Program Interface,API)之后,其在工業(yè)領(lǐng)域的優(yōu)勢(shì)則更加明顯。在研究領(lǐng)域,PyTorch 的使用率在近2 年飛速提升。69%的CVPR 論文、75%以上的NAACL 和ACL 論文,以及50%以上的ICLR 和ICML 論文都選擇使用PyTorch[14]。與此同時(shí),我們也積極推進(jìn)國(guó)產(chǎn)框架的生態(tài)布局,在集群上部署了華為自研的MindSpore深度學(xué)習(xí)環(huán)境。它是一個(gè)全場(chǎng)景深度學(xué)習(xí)框架,旨在實(shí)現(xiàn)易開(kāi)發(fā)、高效執(zhí)行、全場(chǎng)景覆蓋三大目標(biāo),不僅對(duì)于API友好、調(diào)試難度低,同時(shí)支持云、邊緣以及端側(cè)場(chǎng)景。實(shí)踐平臺(tái)中使用Anaconda 集成的深度學(xué)習(xí)框架,如圖3 所示。

        圖3 人工智能實(shí)踐平臺(tái)集成的深度學(xué)習(xí)環(huán)境

        2.4 可視化界面開(kāi)發(fā)

        考慮到使用本平臺(tái)的學(xué)生專(zhuān)業(yè)背景與計(jì)算機(jī)能力的差異,開(kāi)發(fā)了用戶(hù)友好的可視化界面,主要提供以下兩項(xiàng)功能:①云桌面,便于零開(kāi)發(fā)基礎(chǔ)的同學(xué)進(jìn)行一步步可視化操作,提升操作友好度;②云端Jupyter Notebook,可讓學(xué)生快速進(jìn)行代碼驗(yàn)證及案例調(diào)試,具體界面如圖4 所示。

        圖4 人工智能實(shí)踐平臺(tái)可視化界面

        3 使用及運(yùn)維

        3.1 集群運(yùn)維方案

        由于硬件的數(shù)量有限,且為了提升資源的利用效率,制定了不同情況下的資源申請(qǐng)與使用方案,包括申請(qǐng)、續(xù)申請(qǐng)與算力提升申請(qǐng)。

        初次申請(qǐng):每期開(kāi)始前,將設(shè)計(jì)預(yù)約問(wèn)卷,通過(guò)學(xué)生創(chuàng)新中心官方發(fā)送預(yù)約通知,根據(jù)問(wèn)卷反饋情況篩選100 名學(xué)生作為本期使用者,且為每個(gè)賬戶(hù)分配兩塊GPU的算力。在使用2 個(gè)月后,將自動(dòng)回收賬號(hào)與資源,準(zhǔn)備用于下一期資源開(kāi)放申請(qǐng)。

        續(xù)用申請(qǐng):如有同學(xué)在上一期使用后,由于比賽或者項(xiàng)目的緊迫性仍需繼續(xù)使用資源,則需要填寫(xiě)“續(xù)用申請(qǐng)說(shuō)明”,并由課程導(dǎo)師簽字或出具相關(guān)證明,符合條件的同學(xué)將保留其賬號(hào)與資源,延續(xù)使用至下一期。

        算力提升申請(qǐng):為進(jìn)一步激勵(lì)學(xué)生動(dòng)手實(shí)踐和科研創(chuàng)新,同學(xué)們可申請(qǐng)?zhí)嵘懔Γ▽⒃械? 塊GPU算力提升到4 塊甚至6 塊)。提出申請(qǐng)的同學(xué)雖被重點(diǎn)支持,但對(duì)他們也同時(shí)提出了更高的審核要求,如所參加的科創(chuàng)競(jìng)賽成績(jī)較優(yōu)秀,已進(jìn)入市賽、國(guó)賽等階段。

        3.2 快速實(shí)踐手冊(cè)

        為了讓學(xué)生快速上手,運(yùn)維教師負(fù)責(zé)編寫(xiě)了詳盡的實(shí)驗(yàn)操作手冊(cè),該手冊(cè)以經(jīng)典的MNIST手寫(xiě)數(shù)字集為例,介紹了如何在平臺(tái)上使用顯卡對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,如圖5 所示。

        圖5 實(shí)踐平臺(tái)使用手冊(cè)

        具體的操作實(shí)踐步驟如下:

        (1)ssh登錄,建議使用工具M(jìn)obaXterm;

        (2)利用module指令加載所需模塊;

        (3)利用Anaconda指令加載已安裝環(huán)境或自定義環(huán)境;

        (4)使用SLURM調(diào)度系統(tǒng)的sbatch 指令提交測(cè)試腳本;

        (5)通過(guò)sq指令查看任務(wù)運(yùn)行狀態(tài);

        (6)如有報(bào)錯(cuò),通過(guò)錯(cuò)誤日志輸出調(diào)整代碼;

        (7)最后通過(guò)輸出日志查看輸出結(jié)果。

        3.3 學(xué)習(xí)案例

        平臺(tái)面向全校學(xué)生預(yù)約使用,考慮到部分學(xué)生基礎(chǔ)較弱,為了提升他們的使用及學(xué)習(xí)體驗(yàn),在本平臺(tái)放置了一系列經(jīng)典實(shí)踐案例與常用數(shù)據(jù)集(見(jiàn)表3)。

        表3 經(jīng)典實(shí)踐案例及數(shù)據(jù)集

        4 建設(shè)成效

        經(jīng)過(guò)近3 年的運(yùn)行、管理與維護(hù),該平臺(tái)每年服務(wù)學(xué)生數(shù)量1250人,其中本科生800人,研究生450 人。學(xué)生使用人工智能實(shí)踐平臺(tái),在相關(guān)頂會(huì)、頂刊發(fā)表論文數(shù)十篇,圖6 為其中一篇CVPR作者致謝。

        圖6 學(xué)生科研成果致謝

        平臺(tái)在競(jìng)賽方面也獲得豐富的產(chǎn)出,除支撐校內(nèi)賽外,該平臺(tái)總計(jì)支撐了校內(nèi)RoboMaster 機(jī)器人、VEX、RoboCup機(jī)器人、無(wú)人機(jī)、賽車(chē)隊(duì)等社團(tuán),獲市級(jí)以上獎(jiǎng)項(xiàng)40 余項(xiàng)(見(jiàn)表4)。

        表4 大賽獲獎(jiǎng)

        5 結(jié)語(yǔ)

        從硬件到軟件的一體化人工智能實(shí)踐平臺(tái)建設(shè),包含了硬件的架構(gòu)設(shè)計(jì)和軟件的系統(tǒng)設(shè)計(jì),同時(shí)關(guān)于具體運(yùn)維方式也給出了建設(shè)性方案。首先,利用SLURM的調(diào)度系統(tǒng)和Anaconda 集成環(huán)境為學(xué)生進(jìn)行人工智能算法實(shí)踐類(lèi)學(xué)習(xí)提供技術(shù)保障;其次,對(duì)于非工科學(xué)生,可視化界面操作及詳盡的指導(dǎo)手冊(cè)都較大提升了用戶(hù)使用友好度和操作的便捷性;最后利用規(guī)范化的申請(qǐng)管理方式,積極引導(dǎo)學(xué)生參與競(jìng)賽和科創(chuàng),不僅支撐發(fā)表了數(shù)十篇頂級(jí)會(huì)議論文,也助力學(xué)生賽隊(duì)斬獲了10 項(xiàng)冠軍及眾多賽事獎(jiǎng)項(xiàng)。我們提供的一體化人工智能建設(shè)方案解決了學(xué)生實(shí)踐能力不足的問(wèn)題,助力更多跨專(zhuān)業(yè)的學(xué)生掌握人工智能實(shí)踐技能,為我國(guó)“AI+X”復(fù)合型人才培養(yǎng)貢獻(xiàn)力量。

        猜你喜歡
        算力集群人工智能
        多方求解智能時(shí)代算力挑戰(zhàn)
        這個(gè)第二不一般
        都市人(2023年11期)2024-01-12 05:55:06
        衛(wèi)星通信在算力網(wǎng)絡(luò)中的應(yīng)用研究
        中國(guó)電信董事長(zhǎng)柯瑞文:算力成為數(shù)字經(jīng)濟(jì)的主要生產(chǎn)力
        海上小型無(wú)人機(jī)集群的反制裝備需求與應(yīng)對(duì)之策研究
        2019:人工智能
        商界(2019年12期)2019-01-03 06:59:05
        人工智能與就業(yè)
        一種無(wú)人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
        電子制作(2018年11期)2018-08-04 03:25:40
        Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
        數(shù)讀人工智能
        小康(2017年16期)2017-06-07 09:00:59
        激情免费视频一区二区三区| 7878成人国产在线观看| 免费看一级a女人自慰免费| 日本人妖一区二区三区| 国产91清纯白嫩初高中在线观看 | 亚洲偷自拍另类图片二区| 男女啪啪免费视频网址| 精品少妇一区二区av免费观看| 日韩不卡一区二区三区色图| 人妻体内射精一区二区三区| 亚洲欧洲日本综合aⅴ在线| 在线亚洲+欧美+日本专区| 高潮av一区二区三区| 四虎成人精品在永久免费| www国产亚洲精品久久网站| 国产成人丝袜网站在线看 | 色婷婷精品久久二区二区蜜桃| 四虎影视永久在线观看| 亚洲A∨无码国产精品久久网| 视频在线播放观看免费| 中文字幕一区二区三区四区五区| 人妻av中文字幕无码专区| 久久婷婷国产精品香蕉| 91久久精品美女高潮喷白浆| 狠狠噜狠狠狠狠丁香五月| 日韩精品成人一区二区三区 | 人妻少妇偷人精品一区二区三区| 国产69精品久久久久app下载| 粗一硬一长一进一爽一a级| 国产优质女主播在线观看| 中文字幕一区二区中文| 欧美天天综合色影久久精品| 久久精品一品道久久精品9| 精品一区二区三区牛牛| 男女猛烈无遮挡免费视频| 中文字幕福利视频| 国产一区亚洲一区二区| 亚洲av成人片色在线观看| 台湾佬综合网| 国产一区二区三区视频大全| 美女视频在线观看亚洲色图|