馬浩壤
要創(chuàng)建有效的深度學習模型,需要大量的數(shù)據(jù)對模型進行有效的訓練。然后安裝模型,對模型進行監(jiān)視以防止出現(xiàn)漂移,并根據(jù)需要對其進行重新訓練,如此反復直到達到標。
模型的訓練需要使用非常多的計算資源,如果已經(jīng)投資了大規(guī)模的計算資源,可以在本地完成所有這些工作。但是,你會發(fā)現(xiàn)這些計算資源在許多時間處于非使用狀態(tài),如果在云平臺中進行上述活動,則可能更具成本效益。
大多數(shù)云提供商投入大量精力來構(gòu)建機器學習平臺,以支持整個機器學習生命周期。那么,每個端到端機器學習平臺應提供哪些功能呢?
訓練數(shù)據(jù)模型
準備好大量的訓練數(shù)據(jù)之后,當然不希望遷移這些數(shù)據(jù),因為這個過程通常需要花費非常多時間,意味著在這段時間內(nèi)什么事也不能做。對于大型數(shù)據(jù)集,理想的情況是創(chuàng)建一個已經(jīng)存在數(shù)據(jù)的模型,從而避免大量數(shù)據(jù)遷移。
支持ETL或ELT
導出,轉(zhuǎn)換和加載(ETL)和導出,加載和轉(zhuǎn)換(ELT)是數(shù)據(jù)庫領(lǐng)域中的2種常見數(shù)據(jù)配置技術(shù),機器學習和深度學習非常需要這些工具,尤其是變換部分。
支持在線模型訓練
建立良好的機器學習和深度學習模型需要大規(guī)模數(shù)據(jù),將這些數(shù)據(jù)全部下載到本地進行模型訓練,是非常費時的過程。數(shù)據(jù)規(guī)模達到一定規(guī)模之后,會發(fā)現(xiàn)很難找到本地資源來存儲這些數(shù)據(jù),所以支持在線模型訓練成為云平臺必須要具有的功能。
支持scale-up and scale-out訓練
利用云平臺,幫助生成多個大型虛擬機或容器環(huán)境,加速在本地進行的訓練活動,這將大大較少訓練時間。
提供優(yōu)化的AI服務
云平臺為許多應用程序提供了強大且經(jīng)過優(yōu)化的AI服務或解決方案,包括語言翻譯、語音到文本、文本到語音、預測和推薦。這些服務已經(jīng)在企業(yè)可用的數(shù)據(jù)集中進行了培訓和檢查,這些也安裝在具有足夠計算資源的服務端點上,包括加速器,以確認在全球負載下的良好響應時間。