亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向分類的自動(dòng)化機(jī)器學(xué)習(xí)模型構(gòu)建

        2021-10-28 07:51:00孫長麟汪紅強(qiáng)
        軟件導(dǎo)刊 2021年10期
        關(guān)鍵詞:分類模型

        孫長麟,汪紅強(qiáng)

        (中國空間技術(shù)研究院503 研究所,北京 100095)

        0 引言

        隨著人工智能技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)開始廣泛應(yīng)用于大量場景的預(yù)測、分類任務(wù)。然而,沃爾伯特的免費(fèi)午餐定理意味著沒有任何模型能很好地應(yīng)用于所有數(shù)據(jù)集[1]。面對(duì)日益增加的應(yīng)用場景及龐大的數(shù)據(jù)量,構(gòu)建科學(xué)、高效的自動(dòng)化機(jī)器學(xué)習(xí)模型顯得尤為重要,已成為機(jī)器學(xué)習(xí)領(lǐng)域亟待解決的問題之一[2]。因此,本文構(gòu)建一種基于分層級(jí)聯(lián)結(jié)構(gòu)與改進(jìn)遺傳算法的自動(dòng)化機(jī)器學(xué)習(xí)模型,可自動(dòng)、高效地生成機(jī)器學(xué)習(xí)管道。將其應(yīng)用于預(yù)測、分類任務(wù),并在公共數(shù)據(jù)集上進(jìn)行評(píng)估,結(jié)果表明該模型具有較高的準(zhǔn)確性。

        針對(duì)分類任務(wù),傳統(tǒng)方案為使用超參數(shù)修正方法設(shè)計(jì)、構(gòu)建分類模型。為增強(qiáng)構(gòu)建的分類模型的普適性與魯棒性,降低人工成本,將自動(dòng)化機(jī)器學(xué)習(xí)概念引入分類任務(wù)中。國內(nèi)外很多學(xué)者對(duì)此進(jìn)行了研究,并取得了一定成果。如Pavlyshenko[3]提出傳統(tǒng)的級(jí)聯(lián)模型,可獲得較高的分類精度,但靈活性較差,不適用于廣泛的數(shù)據(jù)集;Feurer等[4]引入強(qiáng)大的自動(dòng)化機(jī)器學(xué)習(xí)系統(tǒng)——Auto-sklearn,該工具包可產(chǎn)生具有110 個(gè)超參數(shù)的結(jié)構(gòu)化假設(shè)空間,并實(shí)現(xiàn)自動(dòng)地高精度分類,但其輸出攜帶的信息較少,且規(guī)模也較大,計(jì)算時(shí)間較長,若想作進(jìn)一步訓(xùn)練只能重寫代碼;Gijsbers 等[5]提出H2O 開源平臺(tái),該平臺(tái)可自動(dòng)訓(xùn)練模型并輸出模型的排名列表,彌補(bǔ)了Auto-sklearn 的不足,但其應(yīng)用于OpenML 數(shù)據(jù)集的分類效果遜色于前者;Olson 等[6]提出TPOT 架構(gòu),使用TPOT 進(jìn)行一系列監(jiān)督分類任務(wù)的基準(zhǔn)測試,可獲得更高準(zhǔn)確率,但其時(shí)間成本也較高。

        以上方法雖能實(shí)現(xiàn)較好的分類效果,但規(guī)模較大,本文通過級(jí)聯(lián)與改進(jìn)的遺傳算法構(gòu)建自動(dòng)化機(jī)器學(xué)習(xí)模型,使模型更加輕量化,同時(shí)也能獲得較為理想的分類效果。

        1 模型構(gòu)建

        本文構(gòu)建的模型具有兩種屬性:①級(jí)聯(lián)。在每個(gè)堆疊層都保留原始數(shù)據(jù)集,可合成特征,后層可學(xué)習(xí)前層的錯(cuò)誤,這種靈活的結(jié)構(gòu)可應(yīng)對(duì)廣大數(shù)據(jù)集的挑戰(zhàn);②遺傳算法。使用改進(jìn)的遺傳算法自動(dòng)尋找效果最佳的管道[7]。

        1.1 級(jí)聯(lián)

        在自動(dòng)化機(jī)器學(xué)習(xí)模型構(gòu)建過程中,提出一種新的組合結(jié)構(gòu)方式——級(jí)聯(lián),該結(jié)構(gòu)是受到集成學(xué)習(xí)啟發(fā)而提出的[8]。集成學(xué)習(xí)的思路為訓(xùn)練若干個(gè)體學(xué)習(xí)器,通過一定的結(jié)合策略最終生成一個(gè)強(qiáng)學(xué)習(xí)器,即將這些個(gè)體學(xué)習(xí)器作為初級(jí)學(xué)習(xí)器,并加入多層次級(jí)學(xué)習(xí)器,將上層數(shù)據(jù)輸出作為下層數(shù)據(jù)的輸入,每層依次進(jìn)行訓(xùn)練得到最終訓(xùn)練結(jié)果[9]。級(jí)聯(lián)與該方式略有不同,其結(jié)構(gòu)由層與節(jié)點(diǎn)構(gòu)成,每個(gè)節(jié)點(diǎn)代表個(gè)體學(xué)習(xí)器,第一層用于接收原始數(shù)據(jù)集,后一層為前一層學(xué)習(xí)器的輸出。區(qū)別于集成學(xué)習(xí)的stacking,經(jīng)過單層預(yù)測后,原始數(shù)據(jù)集合不會(huì)被舍棄,而是會(huì)連同上層預(yù)測結(jié)果作為下一層的輸入。其原因是,數(shù)據(jù)集中的項(xiàng)目數(shù)可能較小,如果后層舍棄原始數(shù)據(jù),每層預(yù)測結(jié)果可能只包含很少關(guān)于問題的信息,從而導(dǎo)致局部最優(yōu)等問題[10]。而且將預(yù)測結(jié)果添加到原始數(shù)據(jù)集這一做法非常靈活,如果這些特征對(duì)預(yù)測的準(zhǔn)確性非常重要,可給予這些特征更大權(quán)值,以達(dá)到最佳效果。

        1.2 遺傳算法

        遺傳算法是模擬達(dá)爾文生物進(jìn)化論中自然選擇與遺傳學(xué)機(jī)理的生物進(jìn)化過程計(jì)算模型,是一種基于種群的元啟發(fā)優(yōu)化算法[11-12]。將其應(yīng)用于人工智能場景,效率高于超參數(shù)的“暴力搜索”,是一種較為新穎的構(gòu)想。遺傳算法涉及初始化群體(管道)、適應(yīng)度評(píng)估、交叉與變異、自然選擇、逐代演化等,從低適應(yīng)到高適應(yīng),可以說是一個(gè)絕妙的進(jìn)化過程[13]。遺傳算法具有很好的收斂性與魯棒性,但同時(shí)遺傳也具有一定局限性:算法對(duì)初始種群的選擇具有一定依賴性,搜索速度一般,得到精確的解需要花費(fèi)較多訓(xùn)練時(shí)間。因此,提出一種改進(jìn)方案:在初始化群體之前生成數(shù)量較多的個(gè)體,按照適應(yīng)度進(jìn)行0 代選擇,并按照一定比例選擇其中高、中、低適應(yīng)度的個(gè)體作為初代種群。該方式可保證初代種群的完整性與典型性,且在不影響準(zhǔn)確性的情況下,能夠節(jié)約資源、提高效率。

        1.3 分類算法

        機(jī)器學(xué)習(xí)管道包括數(shù)據(jù)預(yù)處理、特征工程與模型選擇[14]。模型選擇通常涉及構(gòu)建模型節(jié)點(diǎn)(即單個(gè)分類器)的優(yōu)化,例如支持向量機(jī)(SVM)或集成方法,如AdaBoost、Bagging 等。以下介紹構(gòu)建模型節(jié)點(diǎn)的分類算法及超參數(shù)優(yōu)化。

        支持向量機(jī)是一種二分類模型,其基本模型是定義在特征空間上間隔最大的線性分類器。因間隔最大,令其有別于感知機(jī)。SVM 還包括核技巧,使其成為實(shí)質(zhì)上的非線性分類器。SVM 的學(xué)習(xí)策略是間隔最大化,也等價(jià)于正則化合頁損失函數(shù)的最小化問題。其學(xué)習(xí)算法是求解凸二次規(guī)劃的最優(yōu)化算法,基本思路是求解能夠正確劃分訓(xùn)練數(shù)據(jù)集且?guī)缀伍g隔最大的分離超平面。SVM 分類使用核函數(shù)可向高維空間進(jìn)行映射,并將樣本與決策面的間隔最大化。該過程可概括為3 個(gè)步驟:①利用核函數(shù)方法將樣本空間轉(zhuǎn)換為能線性可分的空間;②利用最大化間隔方法獲取分隔最大的分割線,得到支持向量;③利用分割線與支持向量對(duì)樣本進(jìn)行分類預(yù)測。

        使用SVM 分類器時(shí),需設(shè)置核、gamma、決策函數(shù)等超參數(shù),可使用默認(rèn)參數(shù)或改進(jìn)的遺傳算法進(jìn)行自動(dòng)化的超參數(shù)搜索。在構(gòu)建的模型中,使用強(qiáng)分類器能有效提高分類準(zhǔn)確率與效率。例如,集成方法之一的AdaBoost 是一種迭代算法,其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同分類器(弱分類器),之后把這些弱分類器集合起來,構(gòu)成一個(gè)更強(qiáng)的最終分類器(強(qiáng)分類器)。具體流程為:先對(duì)每個(gè)樣本賦予相同的初始權(quán)重,每一輪學(xué)習(xí)器訓(xùn)練過后都會(huì)根據(jù)其表現(xiàn)對(duì)每個(gè)樣本權(quán)重進(jìn)行調(diào)整,提升分類錯(cuò)誤樣本的權(quán)重,使先前分類錯(cuò)誤的樣本在后續(xù)得到更多關(guān)注。按此過程重復(fù)訓(xùn)練出若干個(gè)學(xué)習(xí)器,最后進(jìn)行加權(quán)組合,構(gòu)建出強(qiáng)分類器。該過程亦可概括為以下3 個(gè)步驟:

        (1)初始化訓(xùn)練數(shù)據(jù)的權(quán)值分布D1。假設(shè)有N 個(gè)訓(xùn)練樣本數(shù)據(jù),則每一個(gè)訓(xùn)練樣本開始都被賦予相同權(quán)值:w1=1/N。

        (2)訓(xùn)練弱分類器hi。具體訓(xùn)練過程為:如果某個(gè)訓(xùn)練樣本點(diǎn)被弱分類器hi 準(zhǔn)確地進(jìn)行了分類,在構(gòu)造下一個(gè)訓(xùn)練集過程中,其對(duì)應(yīng)權(quán)值要減小;相反,如果某個(gè)訓(xùn)練樣本點(diǎn)被錯(cuò)誤地分類,其對(duì)應(yīng)權(quán)值則應(yīng)增大。權(quán)值更新后的樣本集被用于訓(xùn)練下一個(gè)分類器,整個(gè)訓(xùn)練過程如此迭代地進(jìn)行下去。

        (3)將訓(xùn)練得到的各個(gè)弱分類器組合成一個(gè)強(qiáng)分類器。各個(gè)弱分類器訓(xùn)練結(jié)束后,提高分類誤差率低的弱分類器權(quán)重,使其在最終分類函數(shù)中起著較大的決定作用,同時(shí)降低分類誤差率高的弱分類器權(quán)重,使其在最終分類函數(shù)中起著較小的決定作用。換言之,誤差率低的弱分類器在最終分類器中所占權(quán)重較大,從而得到較高的預(yù)測精度。

        另一種集成方法Bagging 又稱為裝袋算法,其采用一種有放回的抽樣方法生成訓(xùn)練數(shù)據(jù)。通過多輪有放回的初始訓(xùn)練集隨機(jī)采樣,并行化生成多個(gè)訓(xùn)練集,對(duì)應(yīng)可訓(xùn)練出多個(gè)基學(xué)習(xí)器(基學(xué)習(xí)器間不存在強(qiáng)依賴關(guān)系),再將這些基學(xué)習(xí)器結(jié)合起來構(gòu)建出強(qiáng)學(xué)習(xí)器[15]。其本質(zhì)是引入樣本擾動(dòng),通過增加樣本隨機(jī)性達(dá)到降低方差的效果。

        以上介紹了分類算法,構(gòu)建的模型將結(jié)合各自分類算法的特點(diǎn)優(yōu)化超參數(shù),以提高模型的普適性與魯棒性。

        2 實(shí)驗(yàn)與分析

        2.1 級(jí)聯(lián)結(jié)構(gòu)設(shè)計(jì)

        為驗(yàn)證自動(dòng)化機(jī)器學(xué)習(xí)模型的有效性,本文構(gòu)建一個(gè)結(jié)構(gòu)模型。級(jí)聯(lián)結(jié)構(gòu)如圖1 所示。

        Fig.1 Cascade structure圖1 級(jí)聯(lián)結(jié)構(gòu)

        原始數(shù)據(jù)集經(jīng)過每層每個(gè)節(jié)點(diǎn)的學(xué)習(xí)器/分類器,例如,經(jīng)過首層每個(gè)節(jié)點(diǎn)時(shí),都會(huì)經(jīng)過k 折交叉驗(yàn)證以及無重復(fù)抽樣、訓(xùn)練,得到預(yù)測結(jié)果true/false,并將其添加到原始數(shù)據(jù)集中,在層中連接合成特征,作為下層的數(shù)據(jù)輸入[16-17]。因此,后層可學(xué)習(xí)前層的分類錯(cuò)誤并對(duì)其進(jìn)行糾正,且這種結(jié)構(gòu)可直接從原始數(shù)據(jù)集中級(jí)聯(lián)信息。最后的數(shù)據(jù)集將包含個(gè)特征,其中,K為整體層數(shù),Ni為第i層節(jié)點(diǎn)個(gè)數(shù),經(jīng)過K層的學(xué)習(xí)得到預(yù)測結(jié)果。設(shè)計(jì)的學(xué)習(xí)模型結(jié)構(gòu)較為靈活,每層的節(jié)點(diǎn)個(gè)數(shù)、層數(shù)是可變的。節(jié)點(diǎn)列表如表1 所示。

        Table 1 Node list表1 節(jié)點(diǎn)列表

        考慮到結(jié)構(gòu)的復(fù)雜性以及預(yù)測效率與準(zhǔn)確性,設(shè)定每層學(xué)習(xí)器為3~5 個(gè),層數(shù)為2~5 層。

        2.2 遺傳算法搜索超參數(shù)

        構(gòu)建結(jié)構(gòu)模型后,需在廣闊的變量空間中尋找合適的解決方案。這些變量包括各節(jié)點(diǎn)選用的基本學(xué)習(xí)器、框架設(shè)置等。此處不是將其視為優(yōu)化問題,而是將其建模成超參數(shù)進(jìn)行自動(dòng)化搜索。選擇改進(jìn)的遺傳算法完成超參數(shù)的自動(dòng)化搜索,構(gòu)建面向分類的自動(dòng)化機(jī)器學(xué)習(xí)模型。算法流程如圖2 所示。

        隨機(jī)初始化0 代種群,n 取4,N 取64,共256 個(gè)模型,選擇預(yù)測準(zhǔn)確率作為適應(yīng)度函數(shù),分別從高、中、低適應(yīng)度的個(gè)體中選擇32、18、14 共64 個(gè)個(gè)體組成初代種群[18]??紤]到傳統(tǒng)遺傳算法性能受初代種群影響較大,該方式既可保證初代種群科學(xué)、典型,又可減少種群數(shù)量,減少資源浪費(fèi),提高效率。在一半模型中運(yùn)行一步突變得到N/2 個(gè)模型,突變同樣隨機(jī)產(chǎn)生,另N/2 個(gè)模型用于交叉,即兩兩隨機(jī)分組,交換后一半結(jié)構(gòu)形成新模型。之后訓(xùn)練2N 個(gè)模型,并通過交叉驗(yàn)證進(jìn)行評(píng)估,選擇準(zhǔn)確度最高的N 個(gè)模型作為下一代種子模型。設(shè)置進(jìn)化代數(shù)為100,使用multiprocessing 進(jìn)行多進(jìn)程訓(xùn)練、評(píng)估,以提高效率[19-20]。

        Fig.2 Improved genetic algorithm search flow圖2 改進(jìn)的遺傳算法搜索流程

        2.3 實(shí)驗(yàn)結(jié)果

        為了驗(yàn)證構(gòu)建模型的性能,本文選擇OpenML 公共數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。分別使用幾個(gè)典型的基本學(xué)習(xí)器ada-Boost、Bagging、DecisionTree 以及H2O 開源平臺(tái)、TPOP 框架(各學(xué)習(xí)器與框架都采用默認(rèn)設(shè)置)進(jìn)行12 輪驗(yàn)證,比較預(yù)測準(zhǔn)確性與效率[21]。此處列舉使用的部分公共數(shù)據(jù)集,如表2 所示。

        Table 2 Partial public dataset表2 部分公共數(shù)據(jù)集

        經(jīng)過12 輪驗(yàn)證、測試與評(píng)估,得到各基本學(xué)習(xí)器、開源結(jié)構(gòu)、框架與構(gòu)建的自動(dòng)化機(jī)器學(xué)習(xí)模型——New model在分類任務(wù)中的準(zhǔn)確率,如表3 所示。

        Table 3 Accuracy rate of each learner,framework and model表3 各學(xué)習(xí)器、框架與模型準(zhǔn)確率

        本文構(gòu)建模型的準(zhǔn)確率相比H2O 與TPOT 有所提高,在多次實(shí)驗(yàn)中,發(fā)現(xiàn)就較小的數(shù)據(jù)集而言,本文構(gòu)建的模型更具有優(yōu)勢。不同模型、框架的平均執(zhí)行時(shí)間比較如圖3 所示。

        Fig.3 Comparison of the average execution time of different models and frameworks圖3 不同模型、框架平均執(zhí)行時(shí)間比較

        本文構(gòu)建的模型執(zhí)行時(shí)間相比H2O 減少了16s,相比TPOT 減少了46s,效率有所提高。

        3 結(jié)語

        本文構(gòu)建一種用于分類的自動(dòng)化機(jī)器學(xué)習(xí)模型,其結(jié)合了創(chuàng)新的級(jí)聯(lián)思想與改進(jìn)的遺傳算法,在公共數(shù)據(jù)集上憑借其輕量級(jí)、準(zhǔn)確性以及執(zhí)行速度快等方面優(yōu)勢顯示出其競爭力,但在大型、高維數(shù)據(jù)集與多任務(wù)問題上效果一般。未來研究方向是將更高級(jí)的學(xué)習(xí)器合并到構(gòu)建的模型中,并使用更好的搜索算法使模型更加高效。

        猜你喜歡
        分類模型
        一半模型
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        欧美老熟妇又粗又大| 一色桃子中文字幕人妻熟女作品| 国产又a又黄又潮娇喘视频| 国产无码夜夜一区二区| 九九热线有精品视频86| 亚洲av无码专区亚洲av桃| 中文字幕亚洲综合久久菠萝蜜 | 国产一区二区三区4区| 精品女人一区二区三区| 日本最新视频一区二区| 一区二区三区精品少妇| 中文字幕免费不卡二区| 国产白丝网站精品污在线入口| 日韩av一区二区三区在线观看| 最近中文字幕精品在线| 人妻少妇被猛烈进入中文字幕| 亚洲av无码乱码在线观看牲色| 中出内射颜射骚妇| 久久国产A√无码专区亚洲| 亚洲熟女av超清一区二区三区| 扒开非洲女人大荫蒂视频| 久久av一区二区三区黑人| 国产91色综合久久免费| 97久人人做人人妻人人玩精品| 免费国产黄网站在线观看可以下载 | 999久久久免费精品国产牛牛| av高潮一区二区三区| 国产无夜激无码av毛片| 成 人免费va视频| 婷婷亚洲国产成人精品性色| 国产无遮挡又黄又爽无VIP| 亚洲av熟女中文字幕| 国产99久久久国产精品免费看 | 国产精品久久久久久久久KTV| 国产成人精品三上悠亚久久| 亚洲国产91精品一区二区| 国产成人av乱码在线观看| 污污污污污污污网站污| 性色av手机在线观看| 精华国产一区二区三区| 韩国三级中文字幕hd|