鄧慧娜,葉阿勇,張嬌美
(福建師范大學(xué)計算機(jī)與網(wǎng)絡(luò)空間安全學(xué)院,福建 福州 350117;福建省網(wǎng)絡(luò)安全與密碼技術(shù)重點實驗室,福建 福州 350117)
隨著傳統(tǒng)機(jī)器學(xué)習(xí)的不斷發(fā)展和成熟,從大量有標(biāo)簽的數(shù)據(jù)中訓(xùn)練得到一個好的分類模型已相對容易[1].但真實的應(yīng)用場景中,傳統(tǒng)的機(jī)器學(xué)習(xí)方法仍然不能完全滿足應(yīng)用需求.一方面,獲取帶標(biāo)簽的數(shù)據(jù)相對困難.生活中產(chǎn)生的數(shù)據(jù)大多不含標(biāo)簽,而人工標(biāo)簽的成本又過高,并且數(shù)據(jù)采集往往還要考慮個人隱私及安全性問題,這也進(jìn)一步增加數(shù)據(jù)獲取的難度.另一方面,傳統(tǒng)機(jī)器學(xué)習(xí)在每次數(shù)據(jù)更新時都需要重新建立模型和訓(xùn)練,從而耗費(fèi)大量的時間和資源.因此,2005年楊強(qiáng)教授提出遷移學(xué)習(xí)的概念,目標(biāo)是讓計算機(jī)把大數(shù)據(jù)領(lǐng)域習(xí)得的知識和方法遷移到其他數(shù)據(jù)不足的領(lǐng)域,旨在能夠通過將已經(jīng)學(xué)習(xí)到的知識應(yīng)用在新的目標(biāo)任務(wù)中,從而提高學(xué)習(xí)效率和準(zhǔn)確率.
遷移學(xué)習(xí)一定程度上緩解了傳統(tǒng)機(jī)器學(xué)習(xí)的數(shù)據(jù)壓力,但遷移學(xué)習(xí)效果受眾多因素的影響,尤其是在多渠道獲取數(shù)據(jù)的情況下.一方面,由于數(shù)據(jù)相關(guān)性差別較大,源域難以包含目標(biāo)域的完整信息[2].因此,源域的選擇對分類結(jié)果影響較大.而現(xiàn)有研究大都采用固定劃分源域和目標(biāo)域的機(jī)制,導(dǎo)致分類精確度不高,且無法適應(yīng)異構(gòu)用戶的不同分類需求[3].另一方面,多渠道獲取的數(shù)據(jù)仍存在標(biāo)簽缺失或無標(biāo)簽問題,而常見算法都建立在數(shù)據(jù)具有完備標(biāo)簽的基礎(chǔ)上,對無監(jiān)督數(shù)據(jù)分類難以保證精確度.最終在各方面因素的限制下,遷移學(xué)習(xí)的應(yīng)用并未得到推廣.
本文的研究目標(biāo)是從數(shù)據(jù)的采集階段到產(chǎn)生分類結(jié)果建立完整流程的分類模型CAMDOT,其中包括多渠道獲取數(shù)據(jù)的聯(lián)合源域機(jī)制、基于Softmax和CNN的循環(huán)分類算法S-CNN.具體貢獻(xiàn)有:
(1) 提出一種動態(tài)的聯(lián)合源域機(jī)制.傳統(tǒng)多源域遷移學(xué)習(xí)模型往往采用隨機(jī)或固定的方法來確定源域和目標(biāo)域,容易導(dǎo)致分類精確度不高.針對該問題,本文引入數(shù)據(jù)相關(guān)性來動態(tài)選擇源域,從而提高其包含目標(biāo)域信息的完整性.先利用信息論方法量化不同數(shù)據(jù)域間的相關(guān)性,并依此篩選與目標(biāo)分類數(shù)據(jù)相關(guān)性較高的源域樣本數(shù)據(jù),再基于該樣本初始化Softmax分類器.此外,分別通過理論和模擬實驗證明了相關(guān)性系數(shù)會直接影響分類準(zhǔn)確率,即相關(guān)性越大準(zhǔn)確率越高,反之亦然.并且源域個數(shù)越多準(zhǔn)確率越高.
(2) 提出循環(huán)分類算法S-CNN(softmax-convolutional neural networks).為了進(jìn)一步優(yōu)化多渠道獲取的數(shù)據(jù)差異大及標(biāo)簽不足導(dǎo)致的分類效果差的問題,通過利用有標(biāo)簽的源域數(shù)據(jù)初始化Softmax分類器,由該分類器給目標(biāo)域數(shù)據(jù)加 “偽標(biāo)簽”,從而解決CNN難以處理無標(biāo)簽數(shù)據(jù)的問題;再利用CNN各層提取并強(qiáng)化數(shù)據(jù)特征,最后通過Softmax分類器進(jìn)行分類.由此構(gòu)建循環(huán)分類方法,實現(xiàn)有效利用CNN自動進(jìn)行特征提取的優(yōu)勢,使結(jié)果更接近真實分類目標(biāo).此外,通過在人造數(shù)據(jù)集和真實數(shù)據(jù)集上的模擬實驗,證明該算法具有良好的分類精確度.
(3) 提出基于遷移學(xué)習(xí)的分類模型CAMDOT.為解決遷移學(xué)習(xí)模式固定且不能適應(yīng)多應(yīng)用場景的問題,建立一個由本地端收集數(shù)據(jù)并進(jìn)行數(shù)據(jù)初處理,服務(wù)器端數(shù)據(jù)整合并根據(jù)參與者上傳的請求對源域和目標(biāo)域進(jìn)行定界,最后進(jìn)行分類的遷移學(xué)習(xí)模型.實現(xiàn)能夠適應(yīng)不同用戶需求,支持動態(tài)調(diào)整的可移植數(shù)據(jù)分類模型.
數(shù)據(jù)分類的研究方向依據(jù)研究對象的不同主要分為文本數(shù)據(jù)、圖像數(shù)據(jù)及其他實例或非實例數(shù)據(jù)的分類研究.其中,文本和圖像數(shù)據(jù)的研究相對成熟和具體,尤其在天氣和醫(yī)療圖像識別和分類上.近幾年,不斷有研究者將各領(lǐng)域醫(yī)學(xué)圖像和大數(shù)據(jù)預(yù)測模型相結(jié)合,為現(xiàn)代醫(yī)學(xué)發(fā)展作出重大貢獻(xiàn).WANG等[4]提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像分類算法,用于氣胸X射線的高分辨率醫(yī)學(xué)圖像分析,可以有效提高氣胸的正確診斷率.YANG等[5]提出了一種基于注意力指導(dǎo)的CNN方法,用于乳腺癌組織病理學(xué)圖像的分類.此外,在其他數(shù)據(jù)分類研究中,眾多研究者致力于基于不平衡的數(shù)據(jù)集的分類[6],從連續(xù)的文本數(shù)據(jù)流中挖掘用戶感興趣的有價值的信息[7],基于情感分析的自然語言分類[8].所以,無論是在圖像分類中,還是在文本數(shù)據(jù)與其他實例數(shù)據(jù)分類中,多數(shù)研究方案都基本能保證分類精確度較高,且分類效果良好.然而,一方面,自然圖像和醫(yī)學(xué)圖像具有實質(zhì)性的差異[9],另一方面,已有方案大都需要大量數(shù)據(jù)標(biāo)簽來訓(xùn)練分類器,因此現(xiàn)有研究仍然存在局限.
為了進(jìn)一步解決分類的準(zhǔn)確性問題,有了深度學(xué)習(xí)與遷移學(xué)習(xí)的結(jié)合——深度遷移學(xué)習(xí),其主要目標(biāo)是將深度學(xué)習(xí)的魯棒性、泛化能力強(qiáng)的特點與遷移學(xué)習(xí)的領(lǐng)域無關(guān)的特點相結(jié)合,從而提高準(zhǔn)確度問題.2015年后,已經(jīng)有人作出了相應(yīng)的研究匯報.馮偉等[10]利用LSC模型基于遷移學(xué)習(xí)機(jī)制,引入自適應(yīng)遷移策略,有選擇地利用前層模型知識輔助當(dāng)前層的模型構(gòu)建,提升了模型泛化性能,緩解了負(fù)遷移效應(yīng).NOOR等[11]基于CNN的體系結(jié)構(gòu)使用遷移學(xué)習(xí)和微調(diào)功能自動對圖像進(jìn)行分類.NGO等[12]為解決在現(xiàn)實世界中多樣環(huán)境因素影響下,面部表情識別的訓(xùn)練數(shù)據(jù)集存在不平衡性而導(dǎo)致識別性能不高的問題,基于CNN提出了一種加權(quán)簇?fù)p失的新型損失函數(shù)在微調(diào)階段使用.雖然對深度遷移學(xué)習(xí)的研究已經(jīng)越來越深入,但大多數(shù)都停留在針對某一領(lǐng)域的數(shù)據(jù),且只考慮算法及損失函數(shù)的選擇和微調(diào).遷移學(xué)習(xí)對數(shù)據(jù)量要求比較嚴(yán)格,但是現(xiàn)實數(shù)據(jù)采集卻存在困難,所以沒有從數(shù)據(jù)采集到輸出結(jié)果的整體模型框架就導(dǎo)致深度遷移學(xué)習(xí)的應(yīng)用并不廣泛.
遷移學(xué)習(xí)是將在某領(lǐng)域?qū)W習(xí)到的知識遷移到其他領(lǐng)域,遷移的前提是這些領(lǐng)域要有一定的相似性[13].在遷移學(xué)習(xí)中有2個重要概念,分別是域(domain)和任務(wù)(task).一個域包括特征空間X和邊際概率分布P(X)兩個概念,其中X=x1,…,xn.遷移學(xué)習(xí)的目標(biāo)是在給定原始域、原始任務(wù)、目標(biāo)域、目標(biāo)任務(wù)的情況下,借助原始域和原始任務(wù)提高目標(biāo)函數(shù)f(x)在目標(biāo)域的分類效果.其核心任務(wù)是找到源域特征集和目標(biāo)域特征集之間相關(guān)性大的特征集合,即能夠較好地完成分類任務(wù)的特征表示,盡可能地減少不同域之間的分布差異,同時最大程度地保留各領(lǐng)域的獨立屬性.
遷移學(xué)習(xí)根據(jù)遷移內(nèi)容與遷移方法有不同的分類方法,根據(jù)遷移內(nèi)容可以分為4種:基于實例的遷移學(xué)習(xí)[14]、基于特征的遷移學(xué)習(xí)[15]、基于參數(shù)的遷移學(xué)習(xí)[16]以及基于關(guān)系的遷移學(xué)習(xí).
卷積神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)模型的延伸,同樣是層級網(wǎng)絡(luò)結(jié)構(gòu),主要應(yīng)用于解決圖像問題.但是卷積神經(jīng)網(wǎng)絡(luò)區(qū)別于一般神經(jīng)網(wǎng)絡(luò)的層級結(jié)構(gòu),其包括:卷積層、激勵層、池化層和全連接層.
卷積層:卷積即卷積運(yùn)算,是固定的權(quán)重和不同窗口內(nèi)數(shù)據(jù)作內(nèi)積.卷積運(yùn)算的目的是提取輸入的不同特征,第一層卷積層可能只能提取一些低級的特征如邊緣、線條和角等層級,更多層的網(wǎng)絡(luò)能從低級特征中迭代提取更復(fù)雜的特征.
激勵層:該層使用的是線性整流(rectified linear units,ReLU)規(guī)則,主要作用是提供激活函數(shù),把卷積層輸出結(jié)果作非線性映射.
池化層:通常在卷積層之后會得到維度很大的特征,將特征切成幾個區(qū)域,取其最大值或均值,得到新的維度較小的特征.
全連接層:把所有局部特征結(jié)合變成全局特征,用來計算最后每一類的得分.
主成分分析算法(PCA)是一種常用的特征提取與數(shù)據(jù)降維方法,將高維度的特征向量合并稱為低維度的特征屬性,是一種無監(jiān)督的降維方法.算法目標(biāo)是通過某種線性投影,將高維的數(shù)據(jù)映射到低維的空間中表示,并且期望在所投影維度上數(shù)據(jù)的方差最大(最大方差理論),以此使用較少的數(shù)據(jù)維度,同時保留較多的原數(shù)據(jù)點的特性.
定義1參與者.數(shù)據(jù)提供者可以是終端設(shè)備、公司服務(wù)器等,符號表示為u.
表1 參數(shù)描述
根據(jù)Softmax函數(shù):
(1)
定義分類器的損失函數(shù)為:
(2)
其中,θ表示分類器模型參數(shù),m表示類別總數(shù),Pzj表示Softmax函數(shù)值,即第j類的概率值,pj表示預(yù)測為第j類偽標(biāo)簽的概率值.
本文基于ReLU函數(shù)定義一個卷積神經(jīng)網(wǎng)絡(luò),形成S-CNN循環(huán)分類器.具體地,假設(shè)神經(jīng)網(wǎng)絡(luò)的第1層是卷積層,則該層的輸出可以表示為:
(3)
(4)
其中,z(·)表示池化層的輸出,a(·)表示經(jīng)過ReLU函數(shù)激活后的輸出,xi表示輸入,*表示卷積運(yùn)算,w表示權(quán)重參數(shù),b為偏置參數(shù).
將激活后的卷積層輸出作為池化層的輸入,選擇平均池化方法,則池化層輸出可表示為:
(5)
(6)
(7)
(8)
CAMDOT包含本地端和云服務(wù)器端的兩端處理機(jī)制,如圖1所示.其中,數(shù)據(jù)采集和初級處理在本地端進(jìn)行,域定界及分類過程在云服務(wù)器端進(jìn)行.本地數(shù)據(jù)處理是參與者將數(shù)據(jù)上傳至服務(wù)器之前使用主成分分析法對數(shù)據(jù)進(jìn)行的本地端降維處理,目的是減少本地與服務(wù)器端的通信開銷并降低信息敏感度;特征映射是針對不同分類需求(數(shù)據(jù)分類需求由聯(lián)合源域的某個或多個參與者提出,并上傳至云服務(wù)器),篩選數(shù)據(jù)并確定源域和目標(biāo)域,提高數(shù)據(jù)有效利用率;分類核心是采用Softmax分類器為無標(biāo)簽的目標(biāo)域數(shù)據(jù)加“偽標(biāo)簽”,CNN強(qiáng)化特征再利用Softmax分類器進(jìn)行分類的方法.
圖1 CAMDOT模型框架圖
模型的訓(xùn)練數(shù)據(jù)由本地參與者提供,為了在一定程度上保護(hù)數(shù)據(jù)主體的隱私,并減少與服務(wù)器的通信開銷.參與者在本地使用主成分分析法PCA對數(shù)據(jù)進(jìn)行降維處理,將原始數(shù)據(jù)庫中與分類需求相關(guān)性較低的特征去除,然后傳至云服務(wù)器.降維的具體步驟為:
圖2 域定界流程圖
KL(p(xXi,xXu)‖p(xXi)p(xXu))=
(9)
其中,KL表示距離,是Kullback-Leibler差異的簡稱,它衡量相同空間里的兩個事件概率分布的差異情況.
在S-CNN算法中,將特征遷移學(xué)習(xí)和實例遷移學(xué)習(xí)相結(jié)合,強(qiáng)化篩選出符合評估要求的數(shù)據(jù)特征,由有監(jiān)督學(xué)習(xí)指引無監(jiān)督學(xué)習(xí)定義標(biāo)簽,最終由2個分類器循環(huán)遍歷數(shù)據(jù),得到符合應(yīng)用要求的分類結(jié)果,如算法1和圖3所示.
算法1INPUT:源于數(shù)據(jù)集XS={(xSi,ySi)},目標(biāo)域數(shù)據(jù)集XT={(xTi)},批量大小v,總輪次數(shù)Q.OUPUT:S-CNN分類模型1.從XS中隨機(jī)選取v個有標(biāo)簽的樣本數(shù)據(jù){(xSi,ySi)}vi=1,記為XS—v2.根據(jù)XS—v初始化Softmax分類器 Softmax(zj)=ezj∑mj=1ezm,(j=1…m)3.For qi in 1:Q do4.從XS中隨機(jī)選取v個有標(biāo)簽的樣本數(shù)據(jù){(xSi,ySi)}vi=1,記為XS—v;從XT中隨機(jī)選取b個有標(biāo)簽的樣本數(shù)據(jù){(xSi)}vi=1,記為XT—v5.XT—v通過Softmax分類器,得到預(yù)測不同類別的預(yù)測概率值Pzj={pzj}6.根據(jù)max(Pzj),為XT—v數(shù)據(jù)定義 “偽標(biāo)簽”,得到X'T—v={(xTi,yTi)}7.XS—v通過卷積神經(jīng)網(wǎng)絡(luò)計算得到f=F(XS—v);X'T—v通過卷積神經(jīng)網(wǎng)絡(luò)計算得到f=F(X'T—v)8.根據(jù)損失函數(shù)計算誤差,并更新權(quán)值w和偏置參數(shù)b9.End for10.輸出S-CNN模型
圖3 分類核心流程
CAMDOT在本地端使用PCA方法,其矩陣的完整的特征向量分解的時間復(fù)雜度為O(n3).將數(shù)據(jù)集投影到前k個主成分中,即只需要前k個特征值和特征向量,所以它的時間復(fù)雜度為O(k·n2),這使得本地端上傳數(shù)據(jù)更高效.Softmax分類算法的時間復(fù)雜度為O(n),CNN的時間復(fù)雜度也是O(n),但是由于數(shù)據(jù)分批次輸入,二者可以看作是并行工作,所以分類算法的時間復(fù)雜度無需累加,還是O(n).
本文使用分類正確的數(shù)據(jù)量與所有數(shù)據(jù)量的商值計算分類準(zhǔn)確率,如下式:
(10)
(11)
定理1在多源域數(shù)據(jù)可選擇的情況下,選擇的源域個數(shù)Nu越多,源域數(shù)據(jù)量NS越大,則分類精確度越高.
證明
已知式(8)中NT和NTg為固值,0<β<1,且β越大,分類結(jié)果越好.可得變量NS越大,則acc的值越大,即分類精確度越高.
式(11)中,源域數(shù)據(jù)量NS由用戶需求數(shù)據(jù)量Nu決定,而用戶源域數(shù)據(jù)個數(shù)Nu和相關(guān)系數(shù)β反向相關(guān),即相關(guān)系數(shù)β越大,對源域數(shù)據(jù)與分類需求數(shù)據(jù)的相關(guān)性要求越高,那么可選擇的Nu越小;相反地,相關(guān)系數(shù)β越小,對源域數(shù)據(jù)與分類需求數(shù)據(jù)的相關(guān)性要求越小,那么可選擇的Nu越大.
(1)人造數(shù)據(jù)集
在本文的硬件環(huán)境中,CPU使用Intel i5,GPU使用NVIDIA GeForce RTX 3080Ti,采用Python 3.9來構(gòu)造一個無數(shù)據(jù)標(biāo)簽的人造數(shù)據(jù)集,作為遷移學(xué)習(xí)的數(shù)據(jù)池.該數(shù)據(jù)集的類別為4,每個類別的樣本數(shù)為300,維度為2.本文的卷積神經(jīng)網(wǎng)絡(luò)由4個卷積層、4個池化層、1個分類器組成,卷積層采用了3×3大小的卷積核,卷積核的個數(shù)分別為16、32、64、128,步長為1,填充為0,Softmax作為分類器.本次實驗總共訓(xùn)練迭代10 000次,初始學(xué)習(xí)率設(shè)為0.001,動量系數(shù)為0.9,權(quán)重衰減系數(shù)為0.005.此外,為了更直觀、更清晰地驗證分類算法,數(shù)據(jù)分布形式為螺旋分布.將數(shù)據(jù)集映射到空間中實現(xiàn)可視化,如圖4所示.實驗中,將數(shù)據(jù)集隨機(jī)分為10個數(shù)據(jù)組,模擬遷移學(xué)習(xí)中的多個源域,即本文中的多個用戶數(shù)據(jù),其中一組數(shù)據(jù)作為目標(biāo)域數(shù)據(jù),其余分組作為源域數(shù)據(jù).
圖4 原始數(shù)據(jù)分布
(2)真實數(shù)據(jù)集
采用Caltech和Office[17]兩個真實數(shù)據(jù)集進(jìn)行模擬實驗.其包括4個域,即C(Caltech-256)、A(Amazon)、W(Webcam)和D(DSLR),具體情況參考表2.對于數(shù)據(jù)集,實驗中選取1個子集作為目標(biāo),剩余的子集計算與該目標(biāo)域的相關(guān)性并排序,按照相關(guān)性從高到低分別構(gòu)造1、2、3個源域的分類任務(wù);分別選A和C為目標(biāo)域構(gòu)造A組和C組2組多源遷移任務(wù).在實驗中,分別將2個多源遷移學(xué)習(xí)算法A-SVM、Multi-KMM及MTL-BDI[17]與本文分類算法S-CNN進(jìn)行對比.
表2 Caltech和Office數(shù)據(jù)集分布情況
(1)人造數(shù)據(jù)集
分別計算人造數(shù)據(jù)集中不同源域與目標(biāo)數(shù)據(jù)的相關(guān)系數(shù),并模擬了源域個數(shù)Nu為9、6、3的分類效果;然后,將二維數(shù)據(jù)映射到坐標(biāo)系中,實現(xiàn)可視化,如圖5所示.從實驗結(jié)果可以明顯看出,Nu=9的分類效果最好,這在一定程度上驗證了定理1.而根據(jù)表3的準(zhǔn)確率,發(fā)現(xiàn)Nu=9和Nu=6的結(jié)果相差并不大.其原因可能是數(shù)據(jù)隨機(jī)分割為10組,其中一些組包含數(shù)據(jù)分類邊界的點,也有一些組包含數(shù)據(jù)分類內(nèi)部的點.而本文的模型在確定其中一組作為分類目標(biāo)后,利用數(shù)據(jù)分布概率計算各組與目標(biāo)分組的數(shù)據(jù)相關(guān)性,并令相關(guān)性高的分組優(yōu)先被選擇.所以當(dāng)Nu=6時,可能被選擇的6組源域數(shù)據(jù)已經(jīng)包含大多數(shù)目標(biāo)域數(shù)據(jù)的信息,因此訓(xùn)練得到的模型獲得較高的準(zhǔn)確率.
圖5 S-CNN分類結(jié)果
表3 人造數(shù)據(jù)集實驗準(zhǔn)確率表
(2)Caltech和Office數(shù)據(jù)集
根據(jù)數(shù)據(jù)相關(guān)性計算,得到針對A組分類任務(wù)源域相關(guān)性排序為C>W>D,所以構(gòu)建了CWD→A、CW→A、C→A共3組實驗,而為了證明本文提出的源域相關(guān)性與分類結(jié)果相關(guān),增加了1組對比實驗D→A.同樣的方法,得到針對C組分類任務(wù)源域相關(guān)性排序為A>W>D,所以構(gòu)建了AWD→C、AW→C、A→C和D→C共4小組實驗.
模擬實驗以分類任務(wù)為自變量、分類準(zhǔn)確率為因變量得到的實驗結(jié)果,并使用ROC曲線下面積(AUC)來評估模型的準(zhǔn)確性,如圖6所示.從圖6可以看出,利用相關(guān)性排序選擇的前3小組與對比小組的實驗結(jié)果差別較大,且A→C和D→C組的分類準(zhǔn)確度較差.這說明提出的相關(guān)性計算進(jìn)行域定界的方法能夠有效地選出與目標(biāo)域數(shù)據(jù)最相似的源域數(shù)據(jù),得到較好的分類結(jié)果.此外,在A組和C組內(nèi),隨著源域數(shù)量的增多,分類精確度也在不斷提高,這也表明一般情況下,多源域數(shù)據(jù)分類還是需要有足夠的數(shù)據(jù)量才能訓(xùn)練較好的分類模型.不僅如此,在與其他多源域分類方法的對比中,本方案在CW→A、AW→C兩個小組的分類準(zhǔn)確率比較中,有較明顯的優(yōu)勢.其原因可能是A、C和W數(shù)據(jù)的相關(guān)性較高,所以選擇其中一個子集的數(shù)據(jù)作為目標(biāo)域都可以得到較好的分類結(jié)果,而本文提出的S-CNN算法是基于數(shù)據(jù)相關(guān)性基礎(chǔ)上,由源域數(shù)據(jù)初始化分類器,所以相關(guān)性較高的3個數(shù)據(jù)子集的分類結(jié)果就會表現(xiàn)良好.
圖6 數(shù)據(jù)集分類準(zhǔn)確率比較
本文基于多源域遷移學(xué)習(xí)機(jī)制,提出了分類模型CAMDOT.本地端通過PCA降維增加了數(shù)據(jù)安全性,同時降低與服務(wù)器的通信開銷.服務(wù)器端針對用戶分類需求利用數(shù)據(jù)相關(guān)性選擇源域數(shù)據(jù),增強(qiáng)了分類模型的泛化能力.此外,使用S-CNN循環(huán)分類方法,提高了分類的精確度.在人造數(shù)據(jù)集和真實數(shù)據(jù)集上的實驗結(jié)果均驗證了本文所提出的分類模型的有效性.最后,聯(lián)合源域中參與者的共識機(jī)制是本文進(jìn)一步研究和討論的問題.