王一海
(南京信息職業(yè)技術(shù)學(xué)院數(shù)字商務(wù)學(xué)院,江蘇 南京 210023)
近年來,隨著人工智能、大數(shù)據(jù)等新興技術(shù)的迅速發(fā)展,促進了電子商務(wù)產(chǎn)業(yè)鏈的發(fā)展,零售業(yè)的諸多環(huán)節(jié)發(fā)生了顯著變化。零售業(yè)已經(jīng)成為人工智能等新興技術(shù)的典型應(yīng)用場景,以深度學(xué)習為基礎(chǔ)的人臉識別、語音對話、商品識別等人工智能技術(shù)正在探索如何應(yīng)用于刷臉支付、以圖搜圖、智能購物等場合[1-3]。
商標作為一個公司、組織、品牌、產(chǎn)品獨一無二的符號,商家可以通過搜索、識別相關(guān)的商標,來分析其品牌在整個市場中的發(fā)展情況以及未來的發(fā)展趨勢,同時可以幫助廣告商來檢查廣告的有效性,以及是否存在版權(quán)侵權(quán)方面的問題。然而,由于互聯(lián)網(wǎng)圖片、視頻數(shù)據(jù)的規(guī)模急劇增長,圖片和視頻中的產(chǎn)品商標的有效智能鑒別,已經(jīng)成為一個不可回避的問題。
商標中包含文本、符號和圖形等元素,目前商標檢測中存在的主要難點包括:商標在圖片中的位置、角度是不確定的,由于自然場景中各種印刷、照明、遮擋、旋轉(zhuǎn)、裁剪、大小等因素,商標存在著很大變化,并且商標的類內(nèi)差異比較大,類間差異有的會比較小,容易帶來誤檢。文獻[4]在商標識別中采用了一種基于Hu 修正矩的特征提取算法,該方法針對商標的多種狀態(tài),比如旋轉(zhuǎn)、縮放或平移時,所得到的修正矩值基本保持不變,具有一定的穩(wěn)定性。針對商標識別過程中資源要求過高的問題,文獻[5]研究了一種基于計算遷移的商標識別方法,該方法用于智能終端對商標的識別,將任務(wù)節(jié)點的執(zhí)行位置由應(yīng)用成本圖輔導(dǎo)決策,實現(xiàn)了商標識別應(yīng)用過程的計算遷移,降低了終端能耗。文獻[6]針對鐳射煙標的識別問題,通過光譜反射率判斷主體顏色信息,并計算色差平均值。
本文基于BP 構(gòu)建全連接前向反饋神經(jīng)網(wǎng)絡(luò)的商標鑒別系統(tǒng),對一定規(guī)模的測試集商標進行鑒別測試,構(gòu)建預(yù)測模型,加載進網(wǎng)絡(luò)進行迭代訓(xùn)練,從而對網(wǎng)絡(luò)的預(yù)測能力進行評估,進行對商標更準確的鑒別。
如圖1 所示,DNN 基本結(jié)構(gòu)由三部分組成:輸入層、隱含層和輸出層。這些層均采用全連接神經(jīng)網(wǎng)絡(luò)(FNN)[7],其中各層的每個神經(jīng)元都與前一層的所有神經(jīng)元相連。因此,前一層神經(jīng)元的輸出就是下一層神經(jīng)元的輸入,每個連接都有一個加權(quán)值w。每次迭代的目標是更新這些權(quán)重,以便預(yù)測結(jié)果更接近模擬數(shù)據(jù)。同一層的神經(jīng)元之間沒有連接。在神經(jīng)網(wǎng)絡(luò)的學(xué)習過程中,學(xué)習損失是向后傳播的,可以用均方誤差或線性誤差來測量。
圖1 神經(jīng)網(wǎng)絡(luò)基本架構(gòu)
本文的研究中,神經(jīng)網(wǎng)絡(luò)框架構(gòu)造為多維輸入和一維輸出。當我們增加層的數(shù)量和大小時,網(wǎng)絡(luò)的體量就會增加,這意味著神經(jīng)元可以協(xié)作來表達更復(fù)雜的功能。然而,較大的網(wǎng)絡(luò)雖然帶來較強的擬合能力,但也帶來了負面影響,即過擬合[8]。過擬合是指網(wǎng)絡(luò)對數(shù)據(jù)中的噪聲有較強的擬合能力,而沒有充分考慮數(shù)據(jù)集之間的本征關(guān)系[9]。我們采用的策略是使用正則化技術(shù)來控制過度學(xué)習同時確保大型網(wǎng)絡(luò)的擬合能力[10-11]。
根據(jù)第1 節(jié)提出的基本神經(jīng)網(wǎng)絡(luò)架構(gòu),我們搭建了一個專用于識別判斷商標真?zhèn)涡畔⒌娜B接前向反饋神經(jīng)網(wǎng)絡(luò),輸入為根據(jù)圖片信息提取出的128 pixel×128 pixel 灰度數(shù)據(jù)值,輸出為包含商標真?zhèn)涡畔⒌膯沃禂?shù)據(jù)。圖2 展示了我們的商標鑒別模型的設(shè)計流程圖。
圖2 商標鑒別系統(tǒng)設(shè)計流程圖
本文采用的原始數(shù)據(jù)為20 個品牌的正版商標及其對應(yīng)的20 個盜版商標,圖片數(shù)據(jù)格式為JPG,分辨率為400 pixel×400 pixel。我們將神經(jīng)網(wǎng)絡(luò)的層數(shù)設(shè)為8,每一層神經(jīng)元的個數(shù)配比分別為2 048,1 024,512,128,64,32,16,8,每層隱藏層的激活函數(shù)為tanh 函數(shù),而輸出層的激活函數(shù)為softmax函數(shù),輸出獨立編碼判斷真?zhèn)蔚膯沃怠?/p>
圖3 商標鑒別網(wǎng)絡(luò)系統(tǒng)流程圖
目前,神經(jīng)網(wǎng)絡(luò)最常用的激活函數(shù)有Sigmoid、雙曲正切(tanh)和整流線性單元(ReLu)[12-13]。如圖4所示,我們采用8 層隱含層,每一層神經(jīng)元的個數(shù)配比分別為2 048,1 024,512,128,64,32,16,8 的全連接神經(jīng)網(wǎng)絡(luò),研究在10 000 次的前100 次迭代中,各激活函數(shù)對網(wǎng)絡(luò)學(xué)習效率的影響。經(jīng)過近10 000 次迭代后,各激活函數(shù)的訓(xùn)練損失明顯降低,而tanh 的損失值最低。這些結(jié)果表明,tanh 更適合我們的非線性數(shù)據(jù)模型,在本文中選擇tanh 作為激活函數(shù)。
圖4 激活函數(shù)對網(wǎng)絡(luò)學(xué)習效率影響對比圖
訓(xùn)練中使用的優(yōu)化算法為梯度下降算法[14-15]。梯度下降算法中的學(xué)習速率和步長,可以用來控制權(quán)值更新的速度。我們使用變學(xué)習率的訓(xùn)練方法[16-17]:在每次訓(xùn)練中,學(xué)習率從0.001 開始減小,步長為0.000 5。如圖5 所示,與傳統(tǒng)的訓(xùn)練方法相比,這種訓(xùn)練模式可以幫助網(wǎng)絡(luò)更快地收斂到目標函數(shù)的最小值。
圖5 訓(xùn)練方法對比圖
在系統(tǒng)測試中我們使用均方誤差(mean square erro,MSE)來衡量網(wǎng)絡(luò)的擬合能力,最終訓(xùn)練結(jié)束后訓(xùn)練損失的MSE 值下降到了1×10-8,證明我們的網(wǎng)絡(luò)能夠準確擬合出商標圖像數(shù)據(jù)和商標真?zhèn)沃抵g的關(guān)系式。為了驗證網(wǎng)絡(luò)的預(yù)測能力,我們準備了一組測試商標數(shù)據(jù)輸入網(wǎng)絡(luò),如圖6 所示,網(wǎng)絡(luò)精確地判斷出了商標的真?zhèn)涡畔ⅰ?/p>
圖6 網(wǎng)絡(luò)預(yù)測結(jié)果測試示意圖
新技術(shù)在零售終端、物流環(huán)節(jié)的應(yīng)用,可以產(chǎn)生有價值的數(shù)據(jù)。將這些海量的數(shù)據(jù)進行收集、監(jiān)測以及分析,可以幫助企業(yè)更加有針對性地進行店鋪運營和消費者管理。本文系統(tǒng)地構(gòu)建了基于BP 全連接前向反饋神經(jīng)網(wǎng)絡(luò)的商標鑒別系統(tǒng)。從對測試數(shù)據(jù)集的實證結(jié)果看,本系統(tǒng)具有較強的學(xué)習擬合能力和自適應(yīng)能力,具有較高的合理性和適用性。此方法不僅可以擬合真?zhèn)紊虡撕推湎袼財?shù)據(jù)值之間的關(guān)系,而且還能夠很好地避免人為鑒別過程中的不確定性,在最大程度上縮小了人為因素及模糊性的影響,提高了鑒別的可靠性,鑒別結(jié)果也更迅速準確。
當然,本文所提出的基于BP 全連接前向反饋神經(jīng)網(wǎng)絡(luò)的商標鑒別系統(tǒng)在實際中也存在著一些不足,主要表現(xiàn)在BP 神經(jīng)網(wǎng)絡(luò)模型要求有較多數(shù)量的學(xué)習樣本,學(xué)習樣本的數(shù)量和質(zhì)量也在很大程度上影響著神經(jīng)網(wǎng)絡(luò)模型的學(xué)習效率和最終鑒別結(jié)果;其次,指標的合理性還需要進一步證明,本文的實證部分主要針對一組測試集商標,測試集規(guī)模較小,而當運用到不同尺寸、不同分辨率的商標鑒別時,鑒別結(jié)果的合理性需要做深入探討。因此,針對上述的問題與不足還應(yīng)當進一步深入研究。