徐詠,黃文海,黃波,王揚(yáng)棟,黃麗林,楊程鈞
(河池學(xué)院 人工智能與制造學(xué)院,廣西 河池 546300)
傳統(tǒng)的實(shí)驗(yàn)設(shè)備識別和管理只能對特定的標(biāo)簽進(jìn)行識別,即在每樣實(shí)驗(yàn)設(shè)備上標(biāo)記條形碼或二維碼,通過掃碼器對設(shè)備的條形碼或者二維碼進(jìn)行出庫入庫操作[1-2],而且沒有一個(gè)較為精確的物品定位功能,也沒有容錯(cuò)機(jī)制,若是設(shè)備找不到,只能通過實(shí)驗(yàn)室管理員到現(xiàn)場查找。在科技不斷發(fā)展的今天,基于深度學(xué)習(xí)的圖像識別技術(shù)為解決實(shí)驗(yàn)室設(shè)備管理問題提供了方向,但目前國內(nèi)將這項(xiàng)技術(shù)應(yīng)用于實(shí)驗(yàn)室設(shè)備識別和管理方面的研究和應(yīng)用還較少。為了解決實(shí)驗(yàn)室設(shè)備管理及其圖像識別問題,本文回顧和分析深度學(xué)習(xí)在圖片識別方面突出的成果及其發(fā)展趨勢,并對其在實(shí)驗(yàn)室設(shè)備管理方向的未來應(yīng)用進(jìn)行展望。
從1924年心理學(xué)家McCulloch和Pitts提出MP神經(jīng)元模型到Rosenblatt將單層感知器網(wǎng)絡(luò)模型應(yīng)用于實(shí)踐,再到2006年深度學(xué)習(xí)之父Hinton教授提出的深度學(xué)習(xí)這一概念之后[3],深度學(xué)習(xí)經(jīng)過十幾年的快速發(fā)展,當(dāng)今最受歡迎的深度學(xué)習(xí)模型有卷積神經(jīng)網(wǎng)絡(luò)CNN、深度自動(dòng)編碼器網(wǎng)絡(luò)DAN、生成式對抗網(wǎng)絡(luò)GAN、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN和深度信念網(wǎng)絡(luò)DBN等[4-5]。目前,深度學(xué)習(xí)在圖像進(jìn)行識別領(lǐng)域已經(jīng)有了較為廣泛的應(yīng)用,如人臉識別、車牌識別和手勢識別等。這些領(lǐng)域的實(shí)際應(yīng)用給實(shí)驗(yàn)室設(shè)備的管理者提供了許多可以借鑒的經(jīng)驗(yàn),但是將圖像識別技術(shù)應(yīng)用于實(shí)驗(yàn)室設(shè)備管理還存在以下難點(diǎn):
首先,目前深度學(xué)習(xí)技術(shù)大部分采用有監(jiān)督訓(xùn)練方式,但是實(shí)驗(yàn)室設(shè)備種類多,更新快,導(dǎo)致將所有收集到的圖片都進(jìn)行標(biāo)注的工作變得非常繁瑣,這樣使得有監(jiān)督的訓(xùn)練模型難以實(shí)現(xiàn)。
其次,深度學(xué)習(xí)的設(shè)備圖像識別技術(shù),需要有龐大的訓(xùn)練集進(jìn)行訓(xùn)練,才能精確的分辨外形相似的設(shè)備以及定位設(shè)備位置,但由于實(shí)驗(yàn)室設(shè)備有種類繁多,更新速度快等特點(diǎn),這使得很難在實(shí)驗(yàn)設(shè)備入庫之初就采集到足夠的樣本訓(xùn)練集,存在訓(xùn)練樣本數(shù)量不足的問題。
無監(jiān)督學(xué)習(xí)是指計(jì)算機(jī)在沒有樣本標(biāo)簽和標(biāo)號監(jiān)督的情況下進(jìn)行學(xué)習(xí)的過程,在廣義上分為自由組織學(xué)習(xí)與強(qiáng)化學(xué)習(xí)。在實(shí)際任務(wù)中,標(biāo)記數(shù)據(jù)集耗費(fèi)很高的人力和時(shí)間,無監(jiān)督學(xué)習(xí)利用大量未標(biāo)記的數(shù)據(jù)集來滿足機(jī)器學(xué)習(xí)的訓(xùn)練量要求,故無監(jiān)督學(xué)習(xí)的主要研究方向是如何利用好未標(biāo)記的數(shù)據(jù)。其中自由組織學(xué)習(xí)是利用競爭性學(xué)習(xí)規(guī)則[11],網(wǎng)絡(luò)化表達(dá)質(zhì)量的任務(wù)度量,對那些正確的行為作出激勵(lì),對那些錯(cuò)誤的行為進(jìn)行抑制,讓機(jī)器在這個(gè)過程中不斷根據(jù)這個(gè)度量來優(yōu)化自己的網(wǎng)絡(luò)。強(qiáng)化學(xué)習(xí)的目的是將代價(jià)函數(shù)最小化,通過一些隨機(jī)信息進(jìn)行學(xué)習(xí),做出最佳的行動(dòng),以獲得最多的獎(jiǎng)勵(lì),但存在機(jī)器所做出的反應(yīng)不僅會(huì)對目前的獎(jiǎng)勵(lì)產(chǎn)生影響,還會(huì)對隨后的動(dòng)作和一系列的獎(jiǎng)勵(lì)產(chǎn)生影響。
在圖像領(lǐng)域,通過引入了對偶學(xué)習(xí),利用任務(wù)之間的反饋信息,就能克服模型對數(shù)據(jù)的依賴問題。例如Van Tulder等人的無監(jiān)督深度學(xué)習(xí)模型玻爾茲曼機(jī)和Chen等人的對偶TriNet網(wǎng)絡(luò)[6-7],但是目前只能應(yīng)用于樣本較為簡單的模型??梢?,結(jié)合對偶學(xué)習(xí)等技術(shù)采用無監(jiān)督學(xué)習(xí)的圖像識別技術(shù)可解決實(shí)驗(yàn)室設(shè)備圖像識別標(biāo)注繁瑣的問題。
目前,在深度學(xué)習(xí)中針對訓(xùn)練樣本數(shù)量不足問題,常采用遷移學(xué)習(xí)和元學(xué)習(xí)方法解決。常見的卷積神經(jīng)網(wǎng)絡(luò)樣本學(xué)習(xí)模式,致力于解決樣本不足而導(dǎo)致模型過擬合等問題,簡單的數(shù)據(jù)增強(qiáng)與正則化方式可以緩解,但是并無法缺少樣本導(dǎo)致識別率低的問題。通過特征提取技術(shù)可以有效提高小樣本下的圖像識別率,利用注意力機(jī)制與記憶力機(jī)制[7],設(shè)計(jì)特征提取網(wǎng)路和分類器之間的映射關(guān)系,建立適應(yīng)數(shù)據(jù)分布的特征提取模型。
遷移學(xué)習(xí)使卷積神經(jīng)網(wǎng)絡(luò)適應(yīng)小樣本數(shù)據(jù),降低了參數(shù)和特征提取的消耗,直接遷移已經(jīng)尋找到的具有相同特征的基類模型數(shù)據(jù)到新類模型,目前常用的遷移學(xué)習(xí)方法包括基于特征的、基于樣本的、基于模型的和基于關(guān)系的。
基于特征的遷移學(xué)習(xí)由Chen等人在2019年提出[8],首先進(jìn)行數(shù)據(jù)增強(qiáng),提取和分類基類數(shù)據(jù)的特征,通過共同特征訓(xùn)練實(shí)現(xiàn)一個(gè)可用在基類數(shù)據(jù)與新類數(shù)據(jù)的分類器,最終實(shí)現(xiàn)將源域和目標(biāo)域的特征變換到同一個(gè)空間?;跇颖镜倪w移學(xué)習(xí),其樣本遷移對象包括源域和目標(biāo)域,對象中樣本相似度高的權(quán)重值給予高,相似度低的權(quán)重值給予低?;谀P偷倪w移學(xué)習(xí),也叫基于參數(shù)共享的遷移學(xué)習(xí),由于神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)可以直接遷移,因此其應(yīng)用廣泛,例如最經(jīng)典的finetune、Oquab等人的微調(diào)策略和Qiao等人的激活功能層預(yù)測分類參數(shù)算法等[9-10]?;陉P(guān)系的遷移學(xué)習(xí)比較關(guān)注目標(biāo)域和源域之間的關(guān)系,其方法思路與其他方法截然不同,Hinton的知識蒸餾概念是用小網(wǎng)絡(luò)模擬大網(wǎng)絡(luò)[11],之后Kimura等人提出不同的提煉方法豐富和發(fā)展知識蒸餾[12]。
元學(xué)習(xí)是一種模仿人類學(xué)習(xí)模式的機(jī)器學(xué)習(xí)方法,早在1985年John Biggs將元學(xué)習(xí)定義為“了解并控制自身學(xué)習(xí)”。一般的元學(xué)習(xí)就是獲取知識多功能性的能力,利用元學(xué)習(xí),可以讓機(jī)器通過學(xué)習(xí)獲得學(xué)習(xí)經(jīng)驗(yàn),再利用這些經(jīng)驗(yàn)來評估最終的目標(biāo)任務(wù)。不同的元學(xué)習(xí)模型采用不同的技術(shù),目前的常見的元學(xué)習(xí)類型有:基于度量的元學(xué)習(xí)、基于循環(huán)模型的元學(xué)習(xí)、基于優(yōu)化器的元學(xué)習(xí)和基于小樣本的元學(xué)習(xí)。
基于度量的元學(xué)習(xí)是為了實(shí)現(xiàn)一個(gè)高效學(xué)習(xí)度量空間,2015年Koch等人提出了一種用于字符識別的深卷積孿生網(wǎng)絡(luò)[13],將度量元學(xué)習(xí)應(yīng)用于分類問題。2018年,Bartunov等人設(shè)計(jì)了一種比余弦距離計(jì)算復(fù)雜度更高的生成性匹配網(wǎng)絡(luò)GMN[14],實(shí)現(xiàn)了快速從小數(shù)據(jù)集學(xué)習(xí)新概念,不僅可以提高圖像特征的表示能力,而且可以提高圖像的多樣性,同時(shí)也探討了范疇之間的關(guān)系。基于循環(huán)模型的元學(xué)習(xí)適用于RNNs,算法將訓(xùn)練RNN模型依次處理先前的數(shù)據(jù),然后再處理后面的數(shù)據(jù),2019年Ren等人提出的將增量學(xué)習(xí)與元學(xué)習(xí)相結(jié)合的注意吸引網(wǎng)絡(luò)AAN就是這種方法的一個(gè)例子[15]?;趦?yōu)化器的元學(xué)習(xí)是一個(gè)神經(jīng)網(wǎng)絡(luò)將不同的優(yōu)化應(yīng)用于另一個(gè)神經(jīng)網(wǎng)絡(luò),從而優(yōu)化實(shí)現(xiàn)目標(biāo),例如Finn等人提出的模型不可知算法MAML[16]。基于小樣本的元學(xué)習(xí)啟發(fā)了記憶增強(qiáng)神經(jīng)網(wǎng)絡(luò)或單樣本生成模型等技術(shù)的產(chǎn)生,核心是創(chuàng)建深層神經(jīng)網(wǎng)絡(luò)從簡易數(shù)據(jù)中學(xué)習(xí)。
綜上,采用無監(jiān)督學(xué)習(xí)的圖像識別技術(shù)可解決設(shè)備圖像識別標(biāo)注繁瑣問題;小樣本學(xué)習(xí)在較為復(fù)雜的場景如人臉識別和車輛識別時(shí),其應(yīng)用效果并不理想,但在模式與背景較為簡單的分類數(shù)據(jù)集上有較好的表現(xiàn)。針對采用有監(jiān)督的訓(xùn)練模型存在標(biāo)注圖片繁瑣和訓(xùn)練樣本數(shù)量不足的問題,本文分析了無監(jiān)督學(xué)習(xí)與小樣本學(xué)習(xí)的圖像識別技術(shù)在其他領(lǐng)域的應(yīng)用及特點(diǎn),在目前高校實(shí)驗(yàn)室設(shè)備種類多、環(huán)境單一和同類型設(shè)備較多情況下,采用無監(jiān)督學(xué)習(xí)與小樣本學(xué)習(xí)的圖像識別技術(shù)可應(yīng)用于實(shí)驗(yàn)室設(shè)備圖像識別,是實(shí)現(xiàn)智能化實(shí)驗(yàn)室設(shè)備管理的突破點(diǎn)。