摘要:近年來,國家高度重視人工智能(AI)的技術進步與產業(yè)發(fā)展,在人工智能領域的投入不斷加大,各類AI產品不斷涌現(xiàn),服務市場快速成長。文章提出一種面向企業(yè)服務的人工智能測訓平臺,采用人工智能算法模型設計平臺的整體架構,構建數(shù)據標注及特征工程、數(shù)據安全沙箱、模型訓練及調優(yōu)、算法模型發(fā)布及評估、資源管理、在線開發(fā)工具等核心功能。該平臺在技術、運營及場景層面均取得了創(chuàng)新性突破,為縮短人工智能算法和模型的研發(fā)周期、提高人工智能核心技術的突破能力和突破速度創(chuàng)造了條件。
關鍵詞:人工智能;測訓平臺;企業(yè)服務;AI模型
中圖分類號:TP18" " 文獻標識碼:A" " " 文章編號:1674-0688(2024)04-0107-04
0 引言
2017年8月,國務院印發(fā)的《新一代人工智能發(fā)展規(guī)劃》中提出,到2030年我國的人工智能理論、技術與應用總體達到世界領先水平,成為世界主要人工智能創(chuàng)新中心。此后,全國各省市先后發(fā)布人工智能專項規(guī)劃政策,以期引領新一輪科技革命和產業(yè)變革,搶占發(fā)展先機。人工智能在各行業(yè)領域的應用取得了不少的研究成果,例如楊平等[1]研究人工智能深度學習訓練與服務平臺,提出一種5G端到端的服務賦能體系,從而實現(xiàn)各類應用服務的快速構建;張樹軍[2]探討人工智能技術在實訓室建設中的應用,提出建設集教學、實訓與練習于一體的開放式平臺,使師生可以通過手機、電腦或實驗設備,不受時間和地點的限制完成教學實踐任務;陳正宇[3]的研究構建了面向特定領域的人工智能訓練與服務體系,例如在醫(yī)學場景中提供人工智能在醫(yī)療領域的相關知識、代碼和數(shù)據集展示,同時提供醫(yī)療數(shù)據標注及醫(yī)療模型構建、訓練、部署等一站式模型開發(fā)功能,在面向企業(yè)服務時,該體系同樣可以作為借鑒和參考。本文研究面向企業(yè)服務的廣西人工智能測訓平臺,旨在彌補企業(yè)端平臺賦能服務的空缺,加速廣西企業(yè)快速創(chuàng)建和部署AI模型,推動廣西人工智能產業(yè)發(fā)展邁入快車道。
1 國內外人工智能測訓發(fā)展現(xiàn)狀
當前,英國、日本、德國等20多個國家和地區(qū)已在大力部署人工智能產業(yè),力圖在新一輪國際科技競爭中掌握主導權。我國高度重視人工智能技術的發(fā)展,在人工智能測訓方面,“百度”是國內首家面向企業(yè)服務并開源人工智能訓練平臺的AI公司。人工智能訓練平臺的核心在于深度學習框架PaddlePaddle與Kubernetes技術的結合,摒棄了虛擬機底層技術的支持,采用Docker的容器化技術與Kubernetes的容器調度方案實現(xiàn)云計算平臺的高效性和實用性。國內多家AI獨角獸公司,例如北京市商湯科技開發(fā)有限公司、北京曠視科技有限公司、北京地平線機器人技術研發(fā)有限公司等,因種種原因而未對外提供人工智能訓練平臺服務,這些公司內部均擁有自己的人工智能訓練平臺,并且平臺都是采用Docker技術和Kubernetes方案的組合方式實現(xiàn)。國際上,亞馬遜公司提供的收費平臺AWS(Amazon Web Services)是著名的人工智能訓練平臺之一。在AWS上,用戶可以創(chuàng)建并運行自己的任務,其技術原理同樣是基于Docker技術和Kubernetes方案的組合。與此同時,國外的FloydHub平臺也正式對標AWS,其功能和技術原理與AWS相似,但收費相對較低。此外,谷歌公司內部使用的DeepMind平臺以及微軟公司內部使用的AzureML、Philly、7i等云訓練平臺,其核心思想和實現(xiàn)原理都是以容器化為核心,以Kubernetes的容器調度方案為輔助,滿足用戶資源的申請和使用需求。
隨著人工智能技術與各行業(yè)領域的深度融合,廣西人工智能產業(yè)的發(fā)展趨于多元化。人工智能與各產業(yè)的融合發(fā)展在拓寬人工智能應用領域的同時,也在優(yōu)化企業(yè)的管理與服務,簡化服務流程,為企業(yè)帶來更大的經濟效益。廣西在人工智能賦能的各個層面都取得了一定的成果,尤其在應用層面呈現(xiàn)出蓬勃發(fā)展的新態(tài)勢,但在面向企業(yè)端的賦能平臺上,服務能力不足。
2 廣西人工智能測訓平臺的設計與實現(xiàn)
2.1 平臺整體架構
廣西人工智能測訓平臺提供一站式模型開發(fā)管理服務,涵蓋從算力資源管理、數(shù)據接入、數(shù)據標注、數(shù)據集管理、模型構建、模型訓練、模型管理、部署上線到服務監(jiān)控全流程的服務能力,同時平臺提供智能服務開放窗口,實現(xiàn)在線功能體驗、申請試用、方案成果展示、技術研討交流等功能。平臺整體架構見圖1,其中SDK是對lib、dll、.h、示例等進行封裝后可直接調用的文件,API是提供編程時的接口,一般情況下API包含在SDK中,vGPU是虛擬桌面上渲染圖形的組件。
資源層主要實現(xiàn)對硬件資源的維護管理;平臺層主要提供從數(shù)據到模型服務的分步構建功能;用戶層主要是為不同類型的用戶提供差異化服務。
(1)資源管理模塊。該模塊為平臺的資源提供了統(tǒng)一的管理和維護功能,管理者可實時查看平臺擁有的算力資源,同時對資源進行分配,滿足入駐企業(yè)對算力資源的需求[4]。入駐企業(yè)可根據業(yè)務需求申請平臺的算力資源,審批通過后即可使用。
(2)數(shù)據處理模塊。該模塊提供在線數(shù)據預處理功能,可對接入平臺的原始數(shù)據進行加工,轉換成符合模型開發(fā)的訓練數(shù)據集;轉換后的數(shù)據可發(fā)布共享,入駐企業(yè)相互間可節(jié)省數(shù)據標注的時間。
(3)模型訓練模塊。該模塊為算法工程師、模型調優(yōu)者提供低門檻、標準化、流程化的開發(fā)方式,預置和內置了各種軟件常用環(huán)境和AI引擎,讓開發(fā)者不需要過多地關注底層實現(xiàn)即可以完成AI模型服務的開發(fā)。
(4)模型部署與服務模塊。該模塊提供模型版本的管理功能,可以發(fā)布不同的模型版本,實現(xiàn)模型的共享,同時支持對模型的一鍵化服務,極大地縮短了模型工程化的時間。
此外,為了更好地擴大征集智能場景需求的范圍、宣傳和推廣入駐企業(yè)的智能服務與應用成果,系統(tǒng)設計了AI開放門戶,以更好地平衡、匹配AI服務的供需關系,讓社會上更多的主體參與廣西人工智能服務的建設。
2.2 平臺核心能力設計
廣西人工智能測訓平臺主要包括開放服務子系統(tǒng)和智能服務構建子系統(tǒng)兩大部分,開放服務子系統(tǒng)的建設主要為智能服務的需求方和提供方及社會公眾提供服務,使用者可以實時在線關注平臺的資信、資源服務、模型服務、應用案例、平臺介紹等信息。需求方可以在線提出場景需求,平臺運營方在線對接場景需求,遴選符合要求的智能場景需求并發(fā)布,有能力或感興趣的機構可以在線承接。
智能服務構建子系統(tǒng)的建設針對數(shù)據管理者、數(shù)據標注者、模型開發(fā)者、場景應用開發(fā)者,提供數(shù)據接入、數(shù)據標注、模型訓練、模型評估和AI模型推理等服務。各模塊分層解耦,獨立運行,滿足不同用戶的不同需求。例如,模型服務提供者可以利用算力資源,通過將模型鏡像部署至算力資源平臺的方式或通過服務接口注冊的方式提供AI模型服務。平臺的各模塊既可以獨立運行,又可以相互拼接,以滿足不同用戶的實際需求,有利于構建AI服務,快速響應AI場景需求。
根據系統(tǒng)的架構設計,平臺主要由數(shù)據標注及特征工程、數(shù)據安全沙箱、模型訓練及調優(yōu)、算法模型發(fā)布及評估、資源管理、在線開發(fā)工具等核心功能組成。
2.2.1 數(shù)據標注及特征工程功能
數(shù)據標注及特征工程功能充分對接數(shù)據平臺,利用數(shù)據平臺實現(xiàn)數(shù)據標準化、特征工程和數(shù)據管理等。根據訓練數(shù)據需要形成標注數(shù)據的標簽庫,對標簽進行多層次的關聯(lián)管理,并對圖片、文本等進行自定義標注,滿足訓練數(shù)據的需求[5]。訓練任務可引入創(chuàng)建好的數(shù)據集作為訓練數(shù)據集,也可導出標注文本,在線下訓練數(shù)據。特征工程包括訓練數(shù)據特征信息查看、數(shù)據集版本篩選、特征指標查詢、特征任務維護、特征任務啟動、特征任務停止、特征任務進度查看、特征任務評估、數(shù)據集特征分布情況展示、歷史特征工程任務列表查詢、特征工程統(tǒng)計分析(如效果、使用率等)。
2.2.2 數(shù)據安全沙箱功能
數(shù)據安全沙箱是平臺構建的獨立運行環(huán)境,具備獨立的存儲資源、計算資源、網絡資源和環(huán)境資源[6]。數(shù)據沙箱通過特定的開放性網絡端口與特定的安全交換服務進行通信,通信的數(shù)據經過特定密鑰加密脫敏處理,以保證數(shù)據來源單一、可控和安全;沙箱之間通過不同網絡區(qū)域互相隔離,相互之間無法通信,保證數(shù)據的可控傳輸和安全轉移。
針對需要專門資源和對運行環(huán)境有要求的入駐機構和企業(yè)等主體,平臺可靈活提供線上和線下2種數(shù)據安全沙箱的使用方式,依托AI平臺的硬件資源,結合虛擬化技術,為入駐機構和企業(yè)按需提供開發(fā)、測試和生產發(fā)布全過程獨立、隔離的運行環(huán)境。入駐機構和企業(yè)可以在隔離的環(huán)境中完成模型開發(fā)、訓練、優(yōu)化、測試和發(fā)布工作。線下模式和線上模式的數(shù)據安全沙箱流程分別見圖2和圖3。
2.2.3 模型訓練及調優(yōu)功能
基于數(shù)據資源和算力資源,平臺已預置并優(yōu)化常用的AI模型訓練環(huán)境,通過內置通用的AI引擎、構建容器機理、簡化模型訓練流程,降低了模型訓練的門檻,為入駐企業(yè)和機構提供充分的模型訓練和模型管理服務,使入駐企業(yè)和機構能更專注于智能應用服務的開發(fā)。機器學習或深度學習模型訓練需要大量的重復循環(huán)過程,如果運用訓練好的模型預測未知數(shù)據時發(fā)現(xiàn)效果不理想,則需要對模型進行優(yōu)化處理。為此,平臺設計了多種優(yōu)化模型的方法,如增加訓練集、調整正則化參數(shù)、減少特征數(shù)量等。
2.2.4 算法模型發(fā)布及評估功能
平臺通過在線建立評估任務,選擇統(tǒng)一的測試數(shù)據集,配置一致的基礎環(huán)境,設定相關算法模型的評估指標。啟動評估后,平臺自動采集相關信息并進行信息的處理和查詢。根據智能場景的需求,入駐企業(yè)和機構利用平臺的數(shù)據資源和服務資源研發(fā)的人工智能模型必須通過“公平、公正”的測評后,才可應用于實際中。平臺提供在線的算法模型評估,既可保證在相同環(huán)境、相同測試數(shù)據集下評估條件的一致性,也可保證評估過程、結果的可信度,并且能有效節(jié)省人力、物力。
2.2.5 資源管理功能
平臺的資源管理模塊主要包括數(shù)據資源管理和算力資源管理。數(shù)據資源管理是通過對接人工智能場景需求的原始數(shù)據以及由原始數(shù)據衍生的訓練數(shù)據,對數(shù)據資源進行多維度(來源、用途、類型等)管理,并且按需提供受限的共享服務,在安全共享的前提下,滿足入駐機構對數(shù)據資源的需求,實現(xiàn)數(shù)據資源的價值。算力資源管理是提供AI中心IDC(互聯(lián)網數(shù)據中心)機房所有算力資源的管控服務,包括x86服務器、ARM(Advanced RISC Machine)服務器,對核心算力資源進行維護,形成算力資源池,進行統(tǒng)一的管理和分配,實現(xiàn)對算力資源的最大化利用。
2.2.6 在線開發(fā)工具功能
平臺提供交互式的在線開發(fā)環(huán)境,用戶可以通過Notebook編輯文本,引入多種類型文件,以交互模式運行代碼及查看結果等。對于在線開發(fā)環(huán)境,平臺支持多種AI引擎的應用,即同一個實例可以使用所有支持的AI引擎,不同引擎之間可快速、方便地切換。
3 廣西人工智能測訓平臺的創(chuàng)新點
廣西人工智能測訓平臺為響應智能場景需求的技術攻關提供了簡易化、標準化、流程化的全流程服務,加速了技術的突破和融合應用。平臺各功能模塊可獨立運行,也可通過相互拼接實現(xiàn)全流程服務。針對人工智能模型評測難、轉化難等問題,建設算法模型的評測模塊,該模塊可以有效地評估人工智能模型的各項核心指標,提高成果質量,是投入實際生產應用的基礎。
(1)從技術層面看,平臺遵循“高內聚,低耦合”的設計思路,基于大數(shù)據、大規(guī)模分布式訓練和環(huán)境依賴等方法,突破人工智能服務的基礎軟件環(huán)境,實現(xiàn)了AI引擎和容器技術的融合應用,為創(chuàng)新構建AI研發(fā)工具、實現(xiàn)數(shù)據智能標注和數(shù)據安全沙箱功能、AI模型在線檢驗評測、AI算法綜合評估、自動化模型生成、AI供需對接、標準體系建立、創(chuàng)業(yè)咨詢、孵化培育、培訓實訓等AI全生命周期提供了技術支持。
(2)從運營層面看,平臺構建了完整的運營體系,內置離線環(huán)境依賴和AI引擎環(huán)境,支持平臺不斷擴展,增強AI平臺的安全性和強分離性。通過對算力資源細粒度進行優(yōu)化管理,支持用戶最優(yōu)、任務最優(yōu)及系統(tǒng)最優(yōu)的多維度資源智能化分配,實現(xiàn)資源的高效利用。
(3)從場景層面上看,平臺實現(xiàn)了核心算力資源GPU(圖形處理器)的池化及統(tǒng)一的資源監(jiān)控與動態(tài)擴容。平臺集場景需求對接、數(shù)據集、數(shù)據標注、模型生產、模型服務、服務開放于一體,并且各模塊可相互獨立工作,互不影響,形成一批有特色、有影響力的人工智能應用場景。
4 結語
隨著科學技術的不斷進步,通過人工智能賦能企業(yè)服務成為企業(yè)發(fā)展的重點方向。本研究可以為企業(yè)提供人工智能應用的標準化產品,使企業(yè)全面、深入地了解運營過程中對人工智能技術的需求,并針對企業(yè)需求有針對性地提出解決方案,推動人工智能算法模型在各領域的應用,最終起到降本增效的作用。目前,廣西的大部分企業(yè)仍缺乏應用人工智能的意識,特別是缺乏對當前熱點大模型的了解,技術創(chuàng)新能力較弱,難以適應人工智能賦能企業(yè)發(fā)展的轉型需求。因此,本研究的意義在于推動廣西企業(yè)聚焦人工智能應用場景需求的落地,促進人工智能技術與廣西當?shù)禺a業(yè)經濟、社會治理和民生服務的深度融合。
5 參考文獻
[1]楊平,裴霽.一種使能5G的AI深度學習訓練與服務平臺[J].郵電設計技術,2020(12):61-64.
[2]張樹軍.基于人工智能的開放式實訓平臺模式探討[J].黑龍江科學,2021,12(21):130-131.
[3]陳正宇.面向醫(yī)療領域的人工智能模型訓練平臺的設計與實現(xiàn)[D].北京:北京郵電大學,2024.
[4]華程.基于云計算的人工智能訓練平臺應用策略研究[J].電信快報,2021(1):17-19,42.
[5]鄭琳欣,朱大智,吉承文.人工智能數(shù)據標注格式轉換方法[J].數(shù)字技術與應用,2023,41(6):164-166.
[6]童偉,邱楓.基于Hyperledger Fabric框架區(qū)塊鏈基礎平臺安全沙箱機制研究[J].長江信息通信,2023,36(4):26-29.