亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

機器學習預測校級計算教學平臺作業(yè)運行時間研究

2023-12-01 03:44:14于瀟雪韋建文張戰(zhàn)炳高亦沁林新華周衍曉

軟件導刊 2023年11期

于瀟雪，韋建文，張戰(zhàn)炳，高亦沁，林新華，周云，周衍曉

（1.上海交通大學網(wǎng)絡信息中心，上海 200240；2.上海擎云物聯(lián)網(wǎng)股份有限公司，上海 200070）

0 引言

當今數(shù)字時代，計算對各領域發(fā)揮著顛覆性作用。尤其是ChatGPT 火爆全球之后，更是帶動了新一輪算力需求增長，因而亟須培養(yǎng)大批量計算人才以應對不斷增長的需求。上海交通大學積極探索計算人才培養(yǎng)新模式，提出“將計算深度融入專業(yè)課教學”的理念，并基于校內(nèi)強大的算力基座研發(fā)校級計算教學平臺，支撐計算課程的線上線下混合式教學和大規(guī)模虛擬仿真實驗教學，讓學生有機會在專業(yè)實踐中按需學習計算并且用計算解決科研和應用領域的復雜專業(yè)問題。

作業(yè)調(diào)度系統(tǒng)是上海交通大學校級計算教學平臺的核心系統(tǒng)之一，它根據(jù)算法預測的作業(yè)運行時間安排隊列執(zhí)行順序，預測準確性影響調(diào)度合理性，進而影響平臺整體利用率。機器學習方法能在海量數(shù)據(jù)中挖掘輸入與輸出的復雜映射關系，在預測作業(yè)運行時間任務中被廣泛采用。但是，在實際應用時，如何收集算例數(shù)據(jù)、選用什么樣的預測方法、選用哪些作業(yè)特征、有哪些機器學習技巧可以使用、針對僅有小樣本的訓練集如何提高預測準確度，仍是亟待解決的問題。

基于以上挑戰(zhàn)，本文設計和實現(xiàn)了一套基于深度學習方法的作業(yè)運行時間預測方法，在預測高斯（Gaussian09）程序運行時間上取得了比現(xiàn)有工作更好的作業(yè)運行時間預測結果。這套方法在特征提取上結合應用無關特征和應用相關特征，并借助深度學習的模型遷移特性，在小樣本數(shù)據(jù)集上也獲得了較好的預測精度。本文主要貢獻如下：①使用卷積神經(jīng)網(wǎng)絡提取通用作業(yè)特征，使用庫倫矩陣提取高斯作業(yè)相關特征，兩種特征融合后，在深度人工神經(jīng)網(wǎng)絡上獲得了超過現(xiàn)有工作的預測精度；②針對小數(shù)據(jù)集，采用領域自適應的方法，將預測模型以較小代價遷移到小數(shù)據(jù)集上，顯著降低了數(shù)據(jù)收集負擔，提高了模型適用范圍；③模型部署在校級計算教學平臺作業(yè)調(diào)度系統(tǒng)上，在實際環(huán)境中驗證了這套作業(yè)運行預測方法的可行性。

1 相關工作

1.1 基于機器學習方法的作業(yè)運行時間預測

作業(yè)運行時間預測是一個復雜的非線性問題，機器學習方法在解決此類問題上具有優(yōu)勢。文獻［1］提出一種具有時間嵌入的Transformer 模型，基于用戶歷史作業(yè)日志數(shù)據(jù)提取作業(yè)時序特征、資源特征和用戶聚類特征，以此預測作業(yè)運行時間。文獻［2］采用KNN 算法，通過歷史數(shù)據(jù)訓練K-D 樹，獲取新提交作業(yè)與歷史作業(yè)之間的相似距離，實現(xiàn)作業(yè)運行時間的預測。文獻［3］以用戶作業(yè)腳本為輸入，對比了多種機器學習算法的預測效果，結果表明決策樹優(yōu)于其他算法，其準確率達到73%。文獻［4］以VASP 作業(yè)為例，提出一種基于RBF 網(wǎng)絡和樸素貝葉斯分類的混合預測方法，取得了良好的預測效果。文獻［5］針對高斯應用程序，提取算例特征，使用線性回歸、深度神經(jīng)網(wǎng)絡等方法預測作業(yè)運行時間。此外，文獻［6］通過仿真實驗說明，調(diào)度系統(tǒng)受作業(yè)運行時間的準確性影響較大，相比使用粗略運行時間估計，基于較準確的作業(yè)運行時間預測作出的作業(yè)排布，吞吐量提高了25%。

1.2 用于作業(yè)運行時間預測的特征提取

以上預測算法都使用CPU、內(nèi)存、用戶名等特征，需要人工設計和調(diào)整。為了降低特征工程在機器學習任務中的工作量，一些以深度人工神經(jīng)網(wǎng)絡為基礎的自動特征提取方法被提出。文獻［7］系統(tǒng)梳理了預測作業(yè)運行時間所需的作業(yè)特征、資源特征、聚類特征以及相應的機器學習方法。文獻［8］以作業(yè)腳本作為輸入，使用卷積神經(jīng)網(wǎng)絡提取字符一級的特征后作為人工神經(jīng)網(wǎng)絡輸入，進行作業(yè)運行時間預測。文獻［9］指出卷積神經(jīng)網(wǎng)絡因其優(yōu)異的局部空間特征提取能力，在日志分析、文本情感分析等任務中常常作為特征提取工具。文獻［10］回顧了機器學習技術在預測材料特性、設計新材料上的應用，提出了多種表征材料結構的方法。文獻［11］指出作業(yè)路徑是預測作業(yè)運行時間的重要特征，對其進行特征聚類處理后，輸入支持向量回歸、決策樹和隨機森林模型，可提升預測準確率。

1.3 模型在小樣本數(shù)據(jù)集上的準確度提升

增大數(shù)據(jù)集是提高模型準確度的有效方法之一。文獻［12］指出當數(shù)據(jù)獲取條件受限時，可采用數(shù)據(jù)增強（Data Augmentation）方法。數(shù)據(jù)增強變化已有樣本，生成新的與現(xiàn)實基本一致的訓練樣本。在圖片分類任務中，數(shù)據(jù)增強方法有剪切、旋轉(zhuǎn)、縮放、增加亮度等。文獻［13］在樣本數(shù)較少的類別上插值采樣，將各類別樣本數(shù)擴充到近似程度，避免了樣本數(shù)不均造成的預測誤差。文獻［14］保留了在ImageNet 數(shù)據(jù)集上訓練出的特征提取網(wǎng)絡，替換最后的輸出層后使用少量皮膚病相關照片進行微調(diào)，在樣本量較少的皮膚病數(shù)據(jù)集上也獲得了較好的識別效果。文獻［15］在輸入層將不同數(shù)據(jù)集歸一到同一概率分布，從而使用同一個模型預測不同集群的作業(yè)運行時間。

2 校級計算教學平臺

計算的快速發(fā)展對人才培養(yǎng)提出了更高要求，讓學生在實戰(zhàn)中運用所學知識技能解決真實問題是培養(yǎng)計算人才的重要途徑。為此，上海交通大學秉持“應用為王、服務至上、簡潔高效、安全運行”的宗旨，依托校內(nèi)強大的算力基座打造了校級計算教學平臺。

如圖1 所示，算力基座自2013 年開始建設，采用異構設計理念，建設了云計算、人工智能計算和超級計算三類基座，為教學提供先進的CPU 和GPU 計算資源。在此之上，搭建了校級計算教學平臺，一站式提供課程所需計算軟件、實驗環(huán)境和教學資源，支撐課堂直播、實驗實訓、作業(yè)考試、在線測評等全過程計算教學。平臺目前已服務全校25 個院系，每學期使用師生數(shù)超3 000 人，涵蓋人工智能、計算物理、計算化學、計算材料、生物信息、工程實踐等眾多領域。

Fig.1 Architecture of university-level computing learning plarform圖1 校級計算教學平臺架構

3 用于高斯作業(yè)運行時間預測的深度學習模型

3.1 任務定義與方法

本文以高斯（Gaussian09）程序為例，實現(xiàn)調(diào)度系統(tǒng)中針對高斯作業(yè)的運行時間預測模塊。原因在于高斯作為計算化學領域廣泛應用的軟件之一，在平臺上首批運行至今，具有一定代表性；高斯程序在平臺上使用負載占比較大，預測高斯作業(yè)運行時間，能夠優(yōu)化資源調(diào)度，提升平臺利用率。

用戶在使用高斯軟件時，需要提交兩個文件：一個是與計算資源（CPU、內(nèi)存等）相關的SLURM 作業(yè)腳本，另一個是與高斯計算程序相關的算例輸入文件。作業(yè)調(diào)度系統(tǒng)收到請求后，根據(jù)計算資源需求和算例文件，預測同一個作業(yè)在不同集群上的運行時間，再根據(jù)預設的調(diào)度策略，如最短時間、最低價格等，將作業(yè)調(diào)度到合適的集群上排隊。最后待作業(yè)結束后，收集信息錄入作業(yè)樣本庫。

高斯程序運行時，從算例文件讀取模型參數(shù)和算法需求，然后構建仿真體系模型，通過迭代方法求解體系的薛定諤方程，得到體系穩(wěn)態(tài)能量。高斯作業(yè)的運行時間由計算設備的運行速度，以及所要計算的問題決定。使用機器學習算法預測高斯作業(yè)的運行時間，需要將“高斯計算任務”轉(zhuǎn)換成數(shù)值特征、選擇合適的預測方法、處理小樣本和數(shù)據(jù)分布不均的問題。

3.2 基于卷積神經(jīng)網(wǎng)絡的作業(yè)運行時間預測方法

本文借鑒文獻［5］和文獻［16］提取特征的思路，使用卷積神經(jīng)網(wǎng)絡提取作業(yè)的一般特征，并加入表征分子體系的庫倫范數(shù)F。作業(yè)運行時間預測方法選用與CNN 天然集成的深度人工網(wǎng)絡，并通過超參數(shù)搜索、數(shù)據(jù)增廣等技巧提高準確率。

3.2.1 基于CNN的作業(yè)文本特征提取

本文使用卷積神經(jīng)網(wǎng)絡自動提取作業(yè)的通用特征，經(jīng)過拼接、分詞、詞嵌入、截斷變換得到詞向量矩陣，經(jīng)過卷積神經(jīng)網(wǎng)絡處理后得到特征向量用于運行時間預測。

如圖2 所示，在通用作業(yè)特征提取中，作業(yè)腳本文件與高斯輸入文件首先會被拼接成單行文本，然后對得到的單行文本進行一定的清洗：不同于普通文本存在大量的停用詞、時態(tài)等冗余信息，作業(yè)腳本與輸入文件的文本多是有用信息。因此，清洗主要是去除一些無實際意義的分隔符號，如括號等，保留具有有效信息的單詞。之后，再將詞語序列的每個元素通過Word2vec［17］轉(zhuǎn)換為長度為8 的向量。

Fig.2 Schematic diagram of feature extraction based on convolutional neural network圖2 基于卷積神經(jīng)網(wǎng)絡的特征提取示意圖

由于不同作業(yè)腳本與輸入文件提取得到的輸入向量長度不盡相同，故本文在統(tǒng)計所有文本長度后選取了合適的位置將向量進行了截斷。由于作業(yè)腳本長度大多相近，因此截斷位置主要考量的是作業(yè)輸入文件。而作業(yè)輸入由兩部分組成：第一段為作業(yè)運行時所需內(nèi)容；第二段為分子結構，也即每個原子對應的笛卡爾坐標。而前一段對作業(yè)如何執(zhí)行起指導作用，因此需要盡可能保留。因此，本文計算了所有算例輸入文件第一段文本的最大長度，在該位置對向量進行截斷。

3.2.2 使用庫倫矩陣F范數(shù)的分子體系嵌入

高斯軟件求解的是輸入原子體系的最小能量狀態(tài)，如何數(shù)值化地表征原子體系是提高預測準確度的關鍵?，F(xiàn)有預測方法只采用了體系的局部特征，如“原子數(shù)”“質(zhì)子總數(shù)”等，難以刻畫體系的整體特性。

針對高斯的特征提取方法描述原子體系，本文借鑒其中的“庫倫矩陣”，用以表征高斯作業(yè)算例中的體系結構。文獻［18］實現(xiàn)了一個提取和轉(zhuǎn)換庫倫矩陣的Python 擴展庫，本文使用這個庫提取算例的庫倫矩陣范數(shù)F。文獻［5］使用庫倫矩陣作為輸入，它表征了原子核之間的經(jīng)典相互作用，準確預測了原子材料的材料特性，驗證了庫倫矩陣的有效性。為更好地表征原子體系，本文使用庫倫矩陣的F 范數(shù)整體表征原子體系。庫倫矩陣是一個對稱矩陣，表示了體系中原子的兩兩距離和質(zhì)子數(shù)關系。但由于庫倫矩陣的大小隨體系大小而變，二維矩陣不易嵌入一維特征向量中，因此本文改用庫倫矩陣的F 范數(shù)表征原子體系。盡管只用一個浮點數(shù)表征分子體系會損失大量信息，但在一定程度上體現(xiàn)了分子結構體系的空間特征。

式（1）中，對角線元素可以視作一個原子與其自身的相互作用，它也是對帶有Z 個原子核電荷的原子能的多項式近似。而非對角線上的元素表示原子核i與原子核j之間的庫倫排斥力。庫倫矩陣M 的F 范數(shù)定義見式（2），其中p、q表示庫倫矩陣的橫向和縱向維度。

3.2.3 基于深度人工神經(jīng)網(wǎng)絡的作業(yè)運行時間預測

本文使用深度人工神經(jīng)網(wǎng)絡（Deep Neural Networks，DNN）作為預測高斯作業(yè)運行時間的算法。具體地，在神經(jīng)網(wǎng)絡輸出方面，本文令輸出層具有2 880 個神經(jīng)元，每個神經(jīng)元分別代表0～2 880 min。本文對作業(yè)運行時間的預測不是傳統(tǒng)的回歸問題，而是轉(zhuǎn)換為粗粒度的分類問題進行處理。

對于從輸入文件文本映射得到的一維向量而言，本文進一步采用100 個大小為3×8 的卷積核對其進行遍歷，其中8 表示W(wǎng)ord2vec 轉(zhuǎn)換得到的詞向量維數(shù)。這樣做確保了卷積核與詞向量的寬度一致，從而使卷積得到不同的完整單詞之間的局部關系，這是因為對單個單詞的詞向量做切分沒有實際意義，而使用該卷積神經(jīng)網(wǎng)絡可以利用網(wǎng)絡中諸多隱含層中的神經(jīng)元自動提取更高維度、更重要的特征。相比之下，樸素的機器學習方法如KNN、隨機森林等方法則無法從文本中構建特征并用于分析。使用這種方法的優(yōu)點在于無需針對應用進行人工的特征提取。后者需要使用基于正則的分割、數(shù)據(jù)清洗等方法才能得到模型所需要的特征數(shù)據(jù)，且在不同應用間不具有普適性。而基于文本映射以及1D-CNN 的方法能夠自動提取特征，且適用于不同應用。在經(jīng)過卷積后，本文得到了一系列新的列向量，為了壓縮過多信息，使用最大池化層提取卷積得到最關鍵信息，然后將更新的列向量連接至全連接層以及最后2 880個神經(jīng)元的Softmax 層進行分類。

3.3 深度人工神經(jīng)網(wǎng)絡下的模型遷移

計算環(huán)境的差異會導致同一個高斯算例運行時間的差異，這種在數(shù)據(jù)分布上的差異，最終會導致基于某個集群數(shù)據(jù)集訓練好的模型，在另一個集群上預測準確率驟降。然而，在新數(shù)據(jù)集上從零開始訓練一個模型，會遇到數(shù)據(jù)收集和參數(shù)調(diào)優(yōu)等難題，模型遷移（Model Transfer）方法［19］提供了一種復用預訓練模型的方法以解決這些問題。所謂模型遷移，指源域與目標域的特征、輸出值相同，但其特征的分布不同。其中，源域指現(xiàn)有數(shù)據(jù)集，而目標域指待遷移的數(shù)據(jù)集。在實現(xiàn)方法上，大致可分為“輸入自適應”和“輸出自適應”，前者保持模型輸出層不變，對輸入數(shù)據(jù)做變換，使其概率分布統(tǒng)一到模型訓練所用的數(shù)據(jù)上；后者保持輸入層不變，調(diào)整模型輸出層參數(shù)，讓輸出層適配新數(shù)據(jù)集概率分布。

本文在深度神經(jīng)網(wǎng)絡模型上采用“輸出自適應”方法，原理如圖3 所示。由于模型前3 層為一般特征，而之后的層為針對數(shù)據(jù)集的表示層，因此可以固定前3 層，并在新數(shù)據(jù)集上重新訓練并微調(diào)后面數(shù)層，從而僅需收集少量數(shù)據(jù)就能達到較好的預測準確度。

Fig.3 Theory of output adaption圖3 輸出自適應原理

3.4 其他提升性能的數(shù)據(jù)處理技巧

（1）數(shù)據(jù)增強。在預測高斯作業(yè)運行時間的任務中，受限于作業(yè)質(zhì)量和系統(tǒng)權限，能用于模型訓練的作業(yè)樣本數(shù)遠小于當前主流模型的規(guī)模，只有幾千個樣本點。高斯作為一個OpenMP 并行作業(yè)，在一個計算節(jié)點多核運行時具有超過90%的并行效率，提高一個算例所用的核心數(shù)，大致能等比例地縮短該算例的運行時間?；谶@樣的觀察，本文對一個使用N 核心、運行時間為T 的算例做變換，生成4 個訓練算例，其核心數(shù)和運行時間分別是：（N/4，4T）、（N/2，2T）、（2N、T/2）和（4N，T/4）。

（2）超參數(shù)搜索。求解機器學習模型的過程通常是搜索經(jīng)驗損失函數(shù)極小點的過程，模型超參數(shù)的設置對能否搜索到極小點具有重要影響，需嘗試多組不同的超參數(shù)。

對于深度神經(jīng)網(wǎng)絡，可調(diào)整的超參數(shù)主要有：網(wǎng)絡深度、每層的神經(jīng)元數(shù)量、學習率等。這些因素影響模型的泛化能力和收斂速度。由于訓練時間長、搜索空間大，本文采用貝葉斯方法搜索最佳模型設置。在搜索過程中，優(yōu)化目標變成以超參數(shù)為變量的損失函數(shù)，貝葉斯函數(shù)以高斯過程對其建模，引導搜索過程向最優(yōu)超參數(shù)收斂。

對于梯度提升決策樹，可調(diào)整的超參數(shù)主要有：最大子樹深度、子樹數(shù)量、孩子節(jié)點中最小的樣本權重和、子樣本的比例、學習率等。這些參數(shù)會影響模型泛化能力、貪心算法保守程度、權重調(diào)整幅度等重要因素。本文采取的策略是固定其他超參數(shù)，遍歷某組超參數(shù)，重復以上步驟直至模型達到最優(yōu)。

4 實驗結果與分析

4.1 實驗環(huán)境

本文實驗均在Intel Xeon Gold 6248平臺上完成。支持向量機（SVM）、決策樹（DT）和深度人工神經(jīng)網(wǎng)絡模型分別使用scikit-learn、XGBoost和TensorFlow 實現(xiàn)。

4.2 高斯作業(yè)樣本數(shù)據(jù)集

本文使用的高斯作業(yè)樣本來自集群A（數(shù)據(jù)集A）、集群B（數(shù)據(jù)集B）和集群C（數(shù)據(jù)集C）。這3個集群分別建設于2019 年、2017 年、2018 年采購，因而單節(jié)點性能有較為顯著的差異。作業(yè)樣本去掉了因故障終止、超過2 天計算不收斂的算例。此外，本文使用數(shù)據(jù)增強方法，擴充3 個原始數(shù)據(jù)集，得到用于訓練的增強數(shù)據(jù)集。各數(shù)據(jù)集大小如表1所示。

Table 1 Three datasets of Gaussian09 jobs表1 3個高斯作業(yè)樣本數(shù)據(jù)集

4.3 算法準確度度量標準

本文參考文獻［20］，使用“平均相對百分比誤差”（Mean Relative Percentage Error，MRPE）度量模型準確度。MRPE 是“單次預測相對準確度”的算術平均值，數(shù)值越高，模型在數(shù)據(jù)集上的整體預測結果越接近真實值。相比另一個常用的度量指標“平均絕對百分比誤差”（Mean Absolute Percentage Error，MAPE），MRPE 具有如下優(yōu)點：數(shù)值保持在0-1 區(qū)間、易于解釋和對比性能、能處理預測結果為0或無窮大的極端情況。其公式如下：

式（3）中，下標i表示第i個數(shù)據(jù)點，pred 表示模型預測的作業(yè)運行時間，true 表示作業(yè)實際運行時間，∈為平滑項。

4.4 實驗流程

在評估算法準確度的實驗中，本文通過組合機器學習算法和可用特征集評估機器學習方法對準確度的影響，使用的是樣本數(shù)較多的數(shù)據(jù)集A。其中，3 種機器學習算法使用傳統(tǒng)特征作為對比基線。DNN 方法額外使用CNN 特征和庫倫矩陣范數(shù)特征的組合，以評估新特征的有效性。從頭開始訓練，與使用遷移學習算法的精度進行比較。

在評估模型遷移實驗中，評估遷移學習算法對于小樣本數(shù)據(jù)集的有效性。模型基線設定為SVM、DT 和DNN 在小樣本數(shù)據(jù)集上直接訓練出來的模型，接著基于數(shù)據(jù)集A模型，保留特征提取層訓練出來的參數(shù)，在數(shù)據(jù)集B 和數(shù)據(jù)集C 上微調(diào)并遷移輸出層，并對比這兩組模型的效果。

在評估算法耗時實驗中，比較所用算法的訓練和推理耗時，以評估模型是否適合部署在生產(chǎn)環(huán)境中。

在所有實驗中，都使用了進行數(shù)據(jù)增強的數(shù)據(jù)集，并將數(shù)據(jù)增強后的樣本集，按照0.95∶0.05 劃分為訓練集和測試集，分別輸入指定模型中進行訓練。測試集用于評模型準確度，不用于模型訓練。采用SVM、DT、DNN 3 種機器學習方法訓練，比較訓練時間、推理時間和模型精準度。

4.5 評估算法準確度

3 種機器學習算法及其變種在數(shù)據(jù)集A 上的性能如圖4 所示。在使用相同特征進行訓練時，SVM、DT 和DNN 的效果相仿，分別為66.32%、71.87%、69.59%，DT 在三者中具有微弱優(yōu)勢。加入CNN 提取特征和庫倫矩陣F 范數(shù)特征后，模型效果得到了有效提高。CNN 提取的特征將DNN方法的MRPE 提升了13.36%，而加入了庫倫矩陣的F 范數(shù)特征后，模型的MRPE 進一步提升了7.656%。最終，DNN-3模型的MRPE 達到84.93%，證明了兩種方法的有效性。

對于CNN 特征提取的有效性，分析原因如下：原始文本特征大量出現(xiàn)次數(shù)很少的文本，例如迭代方法中存在許多僅使用過數(shù)次的方法。傳統(tǒng)編碼方法使用one-hot 對這類特征編碼時會導致特征矩陣非常稀疏，使得訓練時很難收斂到一個最優(yōu)值。而CNN 提取該類型文本特征時得到的特征尺寸是可控的，同時兼顧了傳統(tǒng)方法得到的文本特征，因此效果更好。

4.6 評估模型遷移

各SVM、DT 和DNN 算法變種在樣本總數(shù)較少的數(shù)據(jù)集B 和C 上的精準度如圖5、圖6所示。

Fig.5 Different models’ MRPE performance on dataset B（higher is better）圖5 不同模型在數(shù)據(jù)集B上的MPRE值（越高越好）

Fig.6 Different models’MRPE performance on dataset C（higher is better）圖6 不同方法在數(shù)據(jù)集C上的MPRE值（越高越好）

首先，對于“從零開始”訓練模型的算法，SVM、DT、DNN-1 在小樣本數(shù)據(jù)集上的精準度不佳，未超過38%。CNN 提取特征和加入庫倫矩陣對精準度的影響與上文觀察到的一致，前者作用更顯著。其次，對于“直接使用”預訓練模型的5 個機器學習模型（SVM、DT、DNN-1、DNN-2、DNN-3），準確度相比“從零開始”訓練的模型不升反降，說明由于數(shù)據(jù)分布差異，在一個數(shù)據(jù)集上訓練出來的模型通常不能直接用于另一個數(shù)據(jù)集推理。最后，采用“模型遷移”方法微調(diào)的算法DNN-4 在兩個小數(shù)據(jù)集上都獲得了比其他算法更高的準確度，分別達65.2%、63.3%，證明了模型遷移方法的有效性。

4.7 評估算法訓練與推理耗時

在實際部署模型時，算法訓練時間會影響模型重訓練頻度，推理時間會影響模型響應速度。算法訓練和推理時間大致與算法復雜度保持一致，在生產(chǎn)環(huán)境部署算法時，需要考慮處理時間的硬性限制。幾種機器學習算法在數(shù)據(jù)集A 上的訓練時間和推理時間如表2 所示，算法的變種不影響整體訓練和推理時間，因此采用最基本的算法。

Table 2 Horizontal comparison of 5 models表2 5種模型橫向比較

對于模型訓練，SVM 最快，DT 次之，DNN 最慢。上述算法的訓練時間都不超過10 min，能夠滿足每隔半小時重新訓練一次模型的需求。對于模型推理，耗時從小到大依次是：SVM、GBDT 和DNN。其中，DNN 算法推理時間高于0.5 s，結合生產(chǎn)環(huán)境集群作業(yè)接收經(jīng)驗（約每秒收到一個新作業(yè)），DNN 足以處理高斯作業(yè)預測，但擴展到預測每一個作業(yè)的運行時間，會成為整個作業(yè)調(diào)度系統(tǒng)的瓶頸。

5 結語

本文在上海交通大學校級計算教學平臺作業(yè)調(diào)度系統(tǒng)的基礎上，實現(xiàn)了一套用于收集特定應用算例的系統(tǒng)，基于該系統(tǒng)收集的高斯作業(yè)算例，以及相同算例在其他集群上的運行結果，評估了不同機器學習方法結合不同的特征提取方式對于預測高斯作業(yè)運行時間的適用性，并探討了提高小樣本數(shù)據(jù)集預測準確度的方法。

最終發(fā)現(xiàn)，梯度提升決策樹方法和深度神經(jīng)網(wǎng)絡方法優(yōu)于傳統(tǒng)的支持向量機方法；使用Text-CNN 對文本提取特征優(yōu)于提取單詞并做one-hot 編碼；在模型中加入表示原子體系的表征后準確度明顯提高，相比使用原始特征作為輸入的DNN，使用Text-CNN 提取文本特征加上庫倫矩陣F 范數(shù)作為輸入特征的MRPE 提升了22.04%；對于小樣本數(shù)據(jù)集，采用模型遷移的方法復用預訓練模型，能有效提高模型準確度。下一步，嘗試將這套方法用于高斯之外的科學應用，為高效率智能化的集群作業(yè)調(diào)度提供依據(jù)。