李 鏵
(無錫科技職業(yè)學(xué)院,江蘇 無錫 214028)
計(jì)算機(jī)技術(shù)的深度學(xué)習(xí),就是通過計(jì)算機(jī)對(duì)大部分人類大腦神經(jīng)動(dòng)態(tài)過程進(jìn)行模擬,并對(duì)數(shù)據(jù)得出相應(yīng)結(jié)論的學(xué)習(xí)方式。該種方法在計(jì)算機(jī)方面合理應(yīng)用,可以有效地加強(qiáng)計(jì)算機(jī)技術(shù)對(duì)數(shù)據(jù)信息的處理能力,并為計(jì)算機(jī)技術(shù)構(gòu)建更為高效的數(shù)據(jù)檢索能力。
所謂的深度學(xué)習(xí),即是從一個(gè)輸入中產(chǎn)生一個(gè)輸出所涉及的計(jì)算可以通過一個(gè)流向圖(flow graph)來表示,考慮這樣一個(gè)計(jì)算集合,它可以被允許在每一個(gè)節(jié)點(diǎn)和可能的圖結(jié)構(gòu)中,并定義了一個(gè)函數(shù)族。
這種流向圖的一個(gè)特別屬性是深度(depth):從一個(gè)輸入到一個(gè)輸出的最長(zhǎng)路徑的長(zhǎng)度[1]。所謂的深度學(xué)習(xí),是為機(jī)器學(xué)習(xí)構(gòu)建一個(gè)模擬人腦運(yùn)作方式的思維網(wǎng)絡(luò),同時(shí),不同的深度學(xué)習(xí)方法也存在著不同的學(xué)習(xí)模型。廣為人知的深度學(xué)習(xí)所應(yīng)用到的領(lǐng)域就是飛機(jī)上的黑匣子,黑匣子中記載的數(shù)據(jù)以及信息往往是抽象的,無法直接從黑匣子上記錄的數(shù)據(jù)得知飛機(jī)的飛行情況,但是經(jīng)過計(jì)算機(jī)深度聯(lián)結(jié)計(jì)算,就可以將黑匣子中的數(shù)據(jù)以音頻或者圖像的方式展現(xiàn)出來。
圖像識(shí)別,是指利用計(jì)算機(jī)對(duì)圖像進(jìn)行處理、分析和理解,以識(shí)別各種不同模式的目標(biāo)和對(duì)象的技術(shù),是應(yīng)用深度學(xué)習(xí)算法的一種實(shí)踐應(yīng)用[2]。 現(xiàn)階段圖像識(shí)別技術(shù)一般分為人臉識(shí)別與商品識(shí)別,人臉識(shí)別主要運(yùn)用在安全檢查、身份核驗(yàn)與移動(dòng)支付中;商品識(shí)別主要運(yùn)用在商品流通過程中,特別是無人貨架、智能零售柜等無人零售領(lǐng)域。
圖像的傳統(tǒng)識(shí)別流程分為4個(gè)步驟:圖像采集→圖像預(yù)處理→特征提取→圖像識(shí)別。圖像識(shí)別軟件國(guó)外代表的有康耐視等,國(guó)內(nèi)代表的有圖智能、海深科技等。另外在地理學(xué)中指將遙感圖像進(jìn)行分類的技術(shù)。
傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)能夠被看作擁有等于層數(shù)的深度(比如對(duì)于輸出層為隱層數(shù)加1)。SVMs有深度2(一個(gè)對(duì)應(yīng)于核輸出或者特征空間,另一個(gè)對(duì)應(yīng)于所產(chǎn)生輸出的線性混合)。目前的圖像識(shí)別技術(shù)主要使用卷積算法,在接收到圖像信息后,通過對(duì)圖像中的各個(gè)關(guān)鍵信息進(jìn)行記錄,并通過對(duì)圖像的具體特征進(jìn)行比對(duì),以實(shí)現(xiàn)圖像識(shí)別活動(dòng)。
圖像識(shí)別的方法包括貝葉斯分類法、模板匹配法等,所謂的貝葉斯分類法,就是通過圖像中特定的信息與模板信息進(jìn)行比對(duì),并且觀察其中的相同點(diǎn)與不同點(diǎn),如果兩者的信息能夠完全重合,則算法正確,如果其中存在不吻合的數(shù)據(jù),則算法錯(cuò)誤,再?gòu)钠渌哪0逍畔⒅羞M(jìn)行比對(duì),值得一提的是,由于當(dāng)下電子信息技術(shù)的發(fā)展,比對(duì)效率往往較快,甚至在短短數(shù)十秒就可以完成上千萬數(shù)據(jù)的比對(duì)。模板匹配法,就是在貝葉斯分類法的基礎(chǔ)上研發(fā)出的圖像識(shí)別技術(shù),該方法可以有效提高貝葉斯分類法對(duì)圖像識(shí)別的效率,在收到圖像信息時(shí),迅速對(duì)圖像信息中的顯性信息以及隱性信息進(jìn)行確定,并且迅速找到模板中該類顯性信息以及隱性信息的位置,進(jìn)行比對(duì)。
目前,我國(guó)圖像識(shí)別技術(shù)已經(jīng)逐漸融入人們的日常生活中,當(dāng)下的圖像識(shí)別技術(shù),可以為警務(wù)人員提供良好的偵察方式,為醫(yī)護(hù)人員提供一定的醫(yī)療保障。尤其是當(dāng)下的疫情期間,可以通過人臉識(shí)別技術(shù)將自身的信息以及近期出行狀態(tài)記錄在吉祥碼中,對(duì)吉祥碼進(jìn)行掃描,即可獲得自己的行程記錄,為我國(guó)的疫情防控做出了重大貢獻(xiàn)。不僅如此,圖像識(shí)別技術(shù)也逐漸與其他技術(shù)相結(jié)合使用,尤其是當(dāng)下的疫情期間,圖像識(shí)別技術(shù)可以與測(cè)溫技術(shù)相結(jié)合,在部分關(guān)卡中設(shè)立相應(yīng)的測(cè)溫設(shè)備,并且將人的體溫直接錄入反映到大數(shù)據(jù)之中。
所謂的卷積神經(jīng)網(wǎng)絡(luò)(CNN),就是由一個(gè)或者多個(gè)二維卷積層以及頂端的全連接層組成的,并在其中囊括了激活函數(shù)和池化層,以此為圖像識(shí)別系統(tǒng)提供對(duì)二維圖像的處理能力。
所謂的卷積層,就像是利用二維卷積濾鏡,對(duì)輸入的圖像信息進(jìn)行提取,并總結(jié)圖像特征,公式如下:
其中,in(x,y)f代表著輸入方特征的所在位置(x,y)的輸入數(shù)據(jù),而out(x,y)fo代表著輸出方特征圖的所在位置(x,y)的輸出數(shù)據(jù);其中,卷積核(kernel)大小為kx*ky,在其中,穿插著統(tǒng)一特征圖的所有神經(jīng)元。
池化層,求解卷積核內(nèi)的最大值以及平均值,同時(shí),對(duì)輸入層進(jìn)行下采樣,縮小特征圖,降低網(wǎng)絡(luò)計(jì)算的難度;除此以外,還要將二維圖像中的特征進(jìn)行壓縮,并挑選圖像中的主要特征。這么做的目的是模糊圖像,減少二維圖像中包含的各項(xiàng)參數(shù),降低解析難度。
激活函數(shù),是在圖像識(shí)別系統(tǒng)運(yùn)作的過程中,引入非線性因素,以此加強(qiáng)神經(jīng)網(wǎng)絡(luò)在識(shí)別過程中的表達(dá)能力[3]。目前,較為常用的激活函數(shù)分別為sigmoid函數(shù)以及tanh函數(shù),具備較高的飽和性以及非線性特征。同時(shí),由于神經(jīng)網(wǎng)絡(luò)中具備較高的非飽和性以及非線性特征,在運(yùn)轉(zhuǎn)的過程中,加快了神經(jīng)網(wǎng)絡(luò)的收斂作用,目前,ReLU激活函數(shù)被廣泛地應(yīng)用于深度學(xué)習(xí)的模型當(dāng)中,公式如下:
結(jié)構(gòu)化處理可以讓CNN能夠直接對(duì)二維圖像做出反應(yīng),在識(shí)別的過程中,保留二維圖像本身的各項(xiàng)數(shù)據(jù)以及特征,不僅如此,還可以有效避免圖像識(shí)別算法中過于復(fù)雜的特征提取和數(shù)據(jù)重建的過程。這樣的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)二維圖像的平移、比例縮放乃至傾斜,都擁有較高的處理能力,具備著高度的穩(wěn)定性。
第一個(gè)典型的CNN網(wǎng)絡(luò)結(jié)構(gòu)是LeNet5網(wǎng)絡(luò)結(jié)構(gòu),值得一提的是,第一個(gè)讓人熟知的網(wǎng)絡(luò)卻是AlexNet網(wǎng)絡(luò)結(jié)構(gòu),AlexNet網(wǎng)絡(luò)結(jié)構(gòu)在整體上更類似于LeNet,都是事先進(jìn)行卷積,而后達(dá)成全面連接,但是在細(xì)節(jié)方面兩者仍然有較大的差距。值得一提的是,AlexNet在ILSVRC—2012的競(jìng)賽中獲得了top—5測(cè)試的第一名15.3%error rate,而位于第二名的網(wǎng)絡(luò)結(jié)構(gòu)僅達(dá)成了26.2%error rate。差距尤為巨大,而AlexNet網(wǎng)絡(luò)結(jié)構(gòu)也為學(xué)數(shù)據(jù)帶來了巨大沖擊。
ImageNet數(shù)據(jù)集中包含著高達(dá)1 500萬張帶有明確分類標(biāo)簽的二維圖像,這1 500萬張二維圖像在數(shù)據(jù)集中大約分為22 000類[4]。ILSVRC在此基礎(chǔ)上,使用其中的1 000個(gè)類別(每個(gè)分類中大概存在1 000張二維圖像,也就是總共包含大約100萬張二維圖像),AlexNet網(wǎng)絡(luò)結(jié)構(gòu)則使用120萬張圖片作為訓(xùn)練集,5萬張驗(yàn)證集圖片以及12萬張測(cè)試集圖片。AlexNet網(wǎng)絡(luò)結(jié)構(gòu)是一個(gè)八層的深度神經(jīng)網(wǎng)絡(luò),每個(gè)卷積神經(jīng)網(wǎng)絡(luò)在完成卷積操作后,便由relu函數(shù)進(jìn)行激活,在第一層以及第二層卷積層激活時(shí),還要包含局部響應(yīng)歸一化層(LRN),然后再在第一、二、五層卷積層后面增加最大池化層。
DeConvNet網(wǎng)絡(luò)使用VGG作為其backbone框架,第一部分為卷積網(wǎng)絡(luò),類似于FCN,具有卷積層和池化層。而第二部分則是反卷積網(wǎng)絡(luò)。卷積是為了讓二維圖像同比轉(zhuǎn)換為更小的尺寸,而反卷積則是將小尺寸的圖像同比轉(zhuǎn)換回初始尺寸。通過對(duì)象檢測(cè)方法EdgeBox檢測(cè)2 000個(gè)區(qū)域建議region proposals中的前50個(gè)(邊界框)。然后,DeconvNet應(yīng)用于每個(gè)區(qū)域,并將所有建議區(qū)域的輸出匯總回原始圖像。使用proposals可以有效地處理各種規(guī)模的圖片分割問題。
在一般的印象當(dāng)中,深度學(xué)習(xí)越是復(fù)雜,參數(shù)越多,其表達(dá)能力就越強(qiáng)[5]。憑借這些基本準(zhǔn)則,CNN分類網(wǎng)絡(luò)字AlexNet的7層逐漸發(fā)展到了VGG的16甚至19層,而后,甚至出現(xiàn)了高達(dá)22層的GoogleNet。有趣的是,在后續(xù)的研究發(fā)現(xiàn),CNN網(wǎng)絡(luò)深度對(duì)表達(dá)能力的影響具備峰值,一味地疊加層數(shù)不但無法提高性能,甚至?xí)档途W(wǎng)絡(luò)收斂的速率。
而ResNet網(wǎng)絡(luò)則是利用常規(guī)計(jì)算機(jī)視覺領(lǐng)域常用的residual representation的概念,進(jìn)一步將其應(yīng)用到了CNN模型的構(gòu)建之中。于是就產(chǎn)生了最基本的residual learning的block。通過使用多個(gè)參層來學(xué)習(xí)輸入輸出之間的殘差表示,而非像一般CNN網(wǎng)絡(luò)(如AlexNet/VGG等)那樣使用有參層來直接嘗試學(xué)習(xí)輸入輸出之間的映射。經(jīng)過不斷的實(shí)驗(yàn)表明,使用一般意義上的有參層來進(jìn)行直接學(xué)生殘差比直接學(xué)習(xí)輸入、輸出間影射要容易得多,且效率更高。當(dāng)下ResNet已經(jīng)成功替代VGG作為一般計(jì)算機(jī)視覺領(lǐng)域問題中的基礎(chǔ)特征提取網(wǎng)絡(luò)。
目前,我國(guó)的圖像識(shí)別技術(shù)得到了廣泛的應(yīng)用并切實(shí)的融入了日常生活之中。但圖像識(shí)別技術(shù)發(fā)展較為完善的內(nèi)容仍然停留在人臉識(shí)別技術(shù),無法在更多的領(lǐng)域得到良好的應(yīng)用。深度學(xué)習(xí)就是將大數(shù)據(jù)融入圖像識(shí)別技術(shù),利用圖像識(shí)別技術(shù)將圖像中的信息進(jìn)行檢索總結(jié),并且在大數(shù)據(jù)中篩選相對(duì)應(yīng)的內(nèi)容,反饋給圖像提供方,以保障圖片識(shí)別技術(shù)的準(zhǔn)確性。