范少帥 馬嘯天 張澤平
【摘要】 ? ?近年來隨著深度學習的興起,機器學習的話題再次被拉回到人們的視野中。通過深度學習來對圖像進行識別分類是機器學習領域最重要的話題之一。然而,目前識別方法大多依賴于大規(guī)模標注數(shù)據(jù),并且要進行充分的網(wǎng)絡訓練,而圖像標注是非常費時費力的。為了克服這些缺點,一些算法提出了將自監(jiān)督框架嵌入到無監(jiān)督的深度學習體系結(jié)構中。而為了實現(xiàn)自監(jiān)督學習,聚類方法的選用也是決定自監(jiān)督學習最終學習效果的關鍵一環(huán),本文將論述模糊聚類在自監(jiān)督學習領域的應用。
【關鍵詞】 ? ?深度學習 ? ?機器學習 ? ?自監(jiān)督網(wǎng)絡
一、項目研究背景
目前,圖像分類技術吸引了企業(yè)界與學術界的深切關注,已被廣泛應用于以下諸多領域:
1.1安防領域的人臉識別技術
人臉識別通過攝像頭捕捉待識別人臉并和數(shù)據(jù)庫中的人臉數(shù)據(jù)進行比對來判斷其是否為目標人員。該技術目前在安檢、移動支付和手機解鎖等領域的應用較多。
1.2交通領域的交通場景識別技術
交通場景分析識別是自動駕駛?cè)蝿罩凶罹咛魬?zhàn)的任務之一,該過程需要實時并且最夠精確的對目標物體進行分類來判斷其所代表的信息,進而指導后續(xù)駕駛過程。
1.3醫(yī)學領域的醫(yī)學影像圖像分類技術
近年來,隨著醫(yī)療水平的提高,國家愈加注重寄生蟲等疾病的預防和治療。但現(xiàn)有的檢測方法普及開來花銷是巨大的,不利于全國進行普查。而深度學習中目標檢測和圖像分類趨于成熟,則為各種寄生蟲甚至癌細胞的分類識別提供了可行性。
1.4國防領域
在一些危險情況下,比如發(fā)生地震或災后重建時,可以通過使用無人機進行實時的監(jiān)控來避免人員傷亡,而無人機偵查和航拍離不開圖像分類與識別技術的支持。圖像分類技術更是應用在了多型戰(zhàn)機精準打擊目標,圖像匹配制導和復雜戰(zhàn)場環(huán)境中的目標識別等任務中。
綜上,可以看出圖像分類的廣闊應用前景和巨大市場需求。但是隨著數(shù)據(jù)集數(shù)量的指數(shù)級爆炸增長,監(jiān)督學習采用的人工標注[1]的缺陷也暴露出來。首先是代價太高,據(jù)統(tǒng)計,各大搜索引擎如百度、谷歌的圖片庫圖片數(shù)量均已超過十億,F(xiàn)acebook網(wǎng)站平均每天上傳圖片量就達到了850萬張,對如此龐大且實時更新的圖像數(shù)據(jù)庫進行人工標注,顯然是不可能實現(xiàn)的。
其次是圖像標注不一致問題[2],對于同一張圖像,不同研究方向由于需求的不同,其預期得到的標簽也會不同。這使得一幅圖像的文本標注關鍵詞可能有差異甚至千差萬別,造成了主題缺失、產(chǎn)生歧義,難以形成圖片標簽的統(tǒng)一化管理。因此,尋找其它圖像管理方式顯得尤為迫切。
二、當前深度學習的相關工作
隨著深度學習在圖像分類領域不斷取得突破,為圖片分類問題提供了新的思路和方法,其中具有代表性的有以下三種。
2.1監(jiān)督學習
監(jiān)督學習通過輸入帶標簽數(shù)據(jù)集來訓練網(wǎng)絡。由于所輸入的數(shù)據(jù)集帶有標簽,因此訓練網(wǎng)絡可以通過尋找數(shù)據(jù)集的特征和標簽之間的關系,來使學習網(wǎng)絡獲得較高的學習效果。從而對無標簽數(shù)據(jù)進行分類,獲得其預測結(jié)果。但由于數(shù)據(jù)集一般較大,在對數(shù)據(jù)集進行標注時,往往耗費大量的人力物力。
2.2無監(jiān)督學習[4]
不同于監(jiān)督學習,無監(jiān)督學習通過不使用帶標簽的數(shù)據(jù)集來訓練網(wǎng)絡。其通過對數(shù)據(jù)集特征進行聚類來獲得數(shù)據(jù)集內(nèi)部各數(shù)據(jù)的特征,相比該類算法耗費資源較小。例如:根據(jù)給定基因把人群分類[3]。我們可以通過測定DNA中一個特定基因的表達來將一組人分類,該種情境下我們僅需將其分類即可,盡管類別很多,但我們不需要將分好的類進行標記。
2.3遷移學習
遷移學習的研究來源于一個觀測:人類可以將以前的學到的知識應用于解決新的問題,從而更快地解決問題[1]。遷移學習被賦予這樣一個任務:從以前的任務當中學習知識或經(jīng)驗,并應用于新的任務。
遷移學習可以通過將從一類源域任務中獲取的經(jīng)驗應用到另一類目標域任務中去。例如,將貓雞分類的學習模型遷移到其它相似的任務上面,用來分辨老虎,或者是對應的卡通圖像。但由于遷移方和被遷移方相似性的限制,即必須在足夠相似時才適用。
雖然監(jiān)督學習的效果最好,其在較多領域的識別準確率已經(jīng)達到了百分之九十以上,但由于其需要標注大量數(shù)據(jù)集,該缺點很難通過算法改進。而遷移學習的算法本質(zhì)也受限于應用的場景。因此改進無監(jiān)督學習算法,提升學習準確率已經(jīng)成了當前深度學習領域的重要研究方向之一。而自監(jiān)督學習則是無監(jiān)督學習領域?qū)W習效率最為突出的方法之一。
自監(jiān)督學習通過聚類的方法將無標簽數(shù)據(jù)集進行分類,然后從已經(jīng)分類的數(shù)據(jù)集中學習新的特征,達到學習遷移的效果。不同于遷移學習的是,其遷移是內(nèi)部學習經(jīng)驗的轉(zhuǎn)化,不受學習情景相似性的限制。
三、關鍵技術以及相關工作
將模糊聚類應用在自監(jiān)督學習領域,可以有效提高自監(jiān)督學習的準確率,該方法主要用到了以下三種關鍵技術。
3.1基于深度學習的特征提取技術
隨著深度學習的不斷發(fā)展,我們用模型保存已經(jīng)訓練好的神經(jīng)網(wǎng)絡,利用效果優(yōu)異的CNN網(wǎng)絡模型,如VGGNet、Resnet網(wǎng)絡等進行特征提取。網(wǎng)絡的適當選取極為重要,比如可以選用resnet-34,resnet-50,resnet-101以及resnet-152網(wǎng)絡進行特征提取,比較其最終效果,綜合考慮來選取特征提取網(wǎng)絡。
3.2模糊聚類算法
K均值聚類(K-means)與模糊C均值聚類(FCM)都是經(jīng)典的聚類算法,該算法具有排他性,即在數(shù)據(jù)集中的某個數(shù)據(jù)點與某個類別的從屬關系為百分百或零,不存在其他情況;而FCM算法中某個數(shù)據(jù)點與某個類別的從屬關系為任意百分比(0到1之間)。
因此FCM算法相較于K-means算法在類屬方面具有更好的折中性以及柔韌性,在數(shù)據(jù)集呈正態(tài)分布的情況下,具有更好的應用性。
FCM算法作為一種較成熟的聚類算法,是眾多模糊聚類算法中應用最廣泛且較成功的算法之一,其通過優(yōu)化目標函數(shù),得到每個數(shù)據(jù)對所有類別的隸屬度,從而自動地對樣本數(shù)據(jù)進行分類,由于該算法良好的穩(wěn)定性、對離散型數(shù)據(jù)良好的適應性,該算法在數(shù)據(jù)挖掘、圖像識別、目標檢測等領域有廣泛應用。
3.3自監(jiān)督學習
提取的特征經(jīng)過模糊聚類后,可以采用得到的隸屬度作為該數(shù)據(jù)的標簽,作為自監(jiān)督學習的基礎。自監(jiān)督學習模塊的第二部分是自編碼網(wǎng)絡,自編碼網(wǎng)絡是一種可以自動從無標注的數(shù)據(jù)集中學習新的特征,并重構輸入信息的網(wǎng)絡。它可以給輸入信息賦予新學習的特征描述,從而可以用通過該網(wǎng)絡學習的特征來取代或增強原始數(shù)據(jù),以取得更好效果。
除此之外還可以通過讓提取的特征進入自編碼網(wǎng)絡訓練得到重構信息,分析和原來輸入信息的差別距離,不斷拉近預期標簽和模糊聚類標簽之間的距離,達到自監(jiān)督學習的目的。
通過三種方法的結(jié)合,巧妙的利用了模糊聚類輸出結(jié)果的特點,實現(xiàn)了自監(jiān)督學習,避免了使用大量的標注數(shù)據(jù)集進行訓練。在實際應用中,既可以節(jié)省研發(fā)費用,又降低了對于訓練機器的要求。
四、模糊聚類與自監(jiān)督學習結(jié)合的優(yōu)勢
將模糊聚類方法與自監(jiān)督學習結(jié)合主要有以下兩方面的優(yōu)勢:
1.針對數(shù)據(jù)集標注昂貴、不一的問題,可以采用自監(jiān)督方法解決,即采用模糊聚類方法為無標記數(shù)據(jù)集打上軟標簽。該類方法可充分發(fā)揮計算機的計算效率,無需人工干預,這也正是未來深度學習和圖像分類問題的發(fā)展趨勢。
2.針對缺乏身份標簽導致的性能較低的問題,可以采用多重自監(jiān)督,分層訓練的方法,兩個自監(jiān)督的部分互相監(jiān)督,分層次訓練,不斷優(yōu)化參數(shù),最后得的到結(jié)果將優(yōu)異于純粹的自監(jiān)督方法,以此解決由于自監(jiān)督學習無標記數(shù)據(jù)導致的分類準確度較低的問題。
五、綜述
由于缺少身份標簽的學習,自監(jiān)督學習的性能和準確度是要比監(jiān)督學習差一些,但是通過采用多重自監(jiān)督的策略,分層次不同時的訓練,理論上就可以大幅度提升自監(jiān)督學習的性能。除此之外,在聚類方法的使用上也應該加以甄別,在不同情境下,使用不同聚類的方法最終所能體現(xiàn)出的效果也會有所差異。
例如K-means方法雖然有簡單、大型數(shù)據(jù)集下具有較高效率的特點,但也會有聚類中心K值難以確定等缺點;模糊聚類由于其隸屬度取值較多,對于滿足正態(tài)分布的數(shù)據(jù)聚類效果更好,但其也有可能陷入局部最優(yōu)解的缺點。因此要根據(jù)不同的情景來決定使用何種聚類方式進行聚類。
通過將模糊聚類和自監(jiān)督學習結(jié)合建立圖像分類器,識別圖片中物體、場景、行為等信息,返回對應標簽信息。該技術可以應用于圖像分類的各種領域,如當前智能手機中圖庫照片自動分類,或者在對圖像打軟標簽之后,根據(jù)用戶瀏覽、拍攝、刪除的圖片類型,學習用戶喜好,針對性的進行推薦搜索、推薦閱讀、推薦購物等,具有很強的應用價值。
參 ?考 ?文 ?獻
[1] Ozdenizci O , Wang Y , Koike-Akino T , et al. Transfer Learning in Brain-Computer Interfaces with Adversarial Variational Autoencoders[C]// 2019 9th International IEEE/EMBS Conference on Neural Engineering (NER). IEEE, 2019.
[2] David Monllaó Olivé, Huynh D Q , Reynolds M , et al. A supervised learning framework: using assessment to identify students at risk of dropping out of a MOOC[J]. Journal of Computing in Higher Education, 2019(1).
[3] Huang C J . Clustered defect detection of high quality chips using self-supervised multilayer perceptron[J]. Expert Systems with Applications, 2007, 33(4):996-1003.
[4]李亞麗, 王敏, 李靜. 基于半監(jiān)督學習的遷移學習方法[J]. 河南科技, 2014, 07(4):211-211.
范少帥(2000.12-),男,漢族,祖籍河北石家莊,本科在讀,現(xiàn)就讀于河北大學網(wǎng)絡空間安全與計算機學院,研究方向:深度學習、圖像分類;
馬嘯天(2000.11-),男,漢族,祖籍河北邢臺,本科在讀,現(xiàn)就讀于河北大學網(wǎng)絡空間安全與計算機學院,研究方向:行人重識別;
張澤平(2001.04-),男,祖籍河北保定,本科在讀,現(xiàn)就讀于河北大學網(wǎng)絡空間安全與計算機學院,研究方向:目標檢測。
本文是河北大學大學生創(chuàng)新創(chuàng)業(yè)訓練計劃資助項目,課題編號:202010075206