趙航, 康麗娟
(1. 西安工程大學(xué), 圖書館, 陜西, 西安 710048; 2. 西安職業(yè)技術(shù)學(xué)院,現(xiàn)代商學(xué)院, 陜西, 西安 710077)
隨著時(shí)代發(fā)展,人們對(duì)計(jì)算機(jī)技術(shù)的應(yīng)用擴(kuò)展到生活的方方面面,圖書館資源管理的方式也在發(fā)生轉(zhuǎn)變,從傳統(tǒng)的紙質(zhì)媒介資源圖書管理到線上的電子圖書館,之后到了現(xiàn)在的智慧圖書館。信息化技術(shù)的發(fā)展,使得信息數(shù)據(jù)成為優(yōu)勢(shì)導(dǎo)向資源,科學(xué)數(shù)據(jù)是維持社會(huì)穩(wěn)定和支持科學(xué)技術(shù)及經(jīng)濟(jì)發(fā)展的重要資源。為了獲取高利益的科學(xué)數(shù)據(jù),諸如知網(wǎng)、萬方、ResearchGate等資源建設(shè)平臺(tái)不斷改進(jìn)、發(fā)展智慧化搜索模式以提高用戶占比,獲取更大市場(chǎng)效益[1]。在這樣復(fù)雜的信息技術(shù)環(huán)境下,圖書館為了應(yīng)對(duì)各行各業(yè)的跨界挑戰(zhàn)不被邊緣化,探索電子圖書館和智慧圖書館建設(shè)模式。智慧圖書館是指把智能技術(shù)運(yùn)用到圖書館建設(shè)中而形成的一種智能化建筑,是智能建筑與高度自動(dòng)化管理的數(shù)字圖書館的有機(jī)結(jié)合和創(chuàng)新。智慧圖書館是一個(gè)不受空間限制的、能夠被切實(shí)感知的一種概念。其通過使用云計(jì)算、智慧化等技術(shù),對(duì)傳統(tǒng)圖書館進(jìn)行改造,使其能夠?yàn)樽x者提供更貼心的服務(wù)[2-3]。智慧圖書館發(fā)展的一個(gè)重要方面便是搜索模式的智能化。隨著信息化圖書資源及智慧圖書館用戶的持續(xù)增長(zhǎng),高效能的檢索模式對(duì)于用戶目標(biāo)資源導(dǎo)航及訪問重點(diǎn)數(shù)據(jù)庫變得愈加重要。其中,高校因其以科學(xué)研究作為主要目的,圖書館需要對(duì)科學(xué)研究進(jìn)行全面且智能化的管理。為了滿足多元化、個(gè)性化的用戶需求,高校圖書館開始探索動(dòng)態(tài)化、智能化、全面化的智慧搜索模式?;诖?本文為了優(yōu)化高校圖書館檢索服務(wù)體驗(yàn),提高高校圖書館競(jìng)爭(zhēng)力,借助大數(shù)據(jù)對(duì)高校圖書館智慧搜索模式建設(shè)進(jìn)行探索。
圖書館智能化搜索服務(wù)模式構(gòu)成要素包括提供服務(wù)的主體、內(nèi)容、目標(biāo)對(duì)象、設(shè)施和環(huán)境[4-5]。在高校圖書館中,智慧搜索服務(wù)的服務(wù)主體為各高校圖書館單位,即單位內(nèi)部館員和相關(guān)部門;服務(wù)的目標(biāo)對(duì)象為圖書館資源的使用者,除了校內(nèi)師生,還有其他經(jīng)學(xué)校認(rèn)證的校外人員;服務(wù)內(nèi)容因圖書館資源及目標(biāo)而有所變化,是高校圖書館為滿足多樣化用戶需求所具備的圖書智慧檢索服務(wù)和延伸服務(wù);環(huán)境則包括客觀存在的物理環(huán)境和社會(huì)環(huán)境,包括智能化搜索環(huán)境、管理人員服務(wù)環(huán)境、資金環(huán)境和學(xué)校及政府的文件支持環(huán)境;智慧搜索服務(wù)的服務(wù)設(shè)施主要為圖書館資源大數(shù)據(jù)管理平臺(tái)和構(gòu)建智慧搜索服務(wù)所需要的相關(guān)技術(shù)。通過對(duì)各大高校建設(shè)的智慧搜索服務(wù)五大要素進(jìn)行分析可知,智慧搜索服務(wù)除了包含其主要的服務(wù)本體,即基于大數(shù)據(jù)構(gòu)建的圖書館資源智能搜索平臺(tái),還包含延伸的圖書館藏資源智慧推薦、智慧互動(dòng)和基于用戶需求的智慧引導(dǎo)服務(wù)。本文以適用于圖書館資源搜索的大數(shù)據(jù)搜索模式為主要研究對(duì)象,構(gòu)建的高校圖書館智慧搜索模式如圖1所示。
圖1 高校圖書館智慧搜索模式
為了追求更高效的高校圖書館智慧搜索模式和滿足服務(wù)對(duì)象的個(gè)性化搜索需求,本文在傳統(tǒng)的基于文本分析的圖書館藏資源大數(shù)據(jù)檢索模式上進(jìn)行創(chuàng)新,設(shè)計(jì)了基于移動(dòng)視覺搜索的高校圖書館搜索模式??紤]到用戶對(duì)圖書館資源搜索的便攜性及靈活性需求,高校圖書館智慧搜索系統(tǒng)提供多樣化的服務(wù)媒介,包括圖書館內(nèi)檢索、圖書館門戶網(wǎng)站檢索、手機(jī)移動(dòng)圖書館軟件檢索、微信公眾號(hào)及微信小程序檢索方法。除了作為主要功能的智慧搜索功能,智慧圖書館搜索系統(tǒng)還提供基于用戶數(shù)據(jù)庫進(jìn)行行為分析和信息分析的推薦服務(wù)及互動(dòng)服務(wù)。移動(dòng)視覺搜索(MVS)可根據(jù)用戶提供的多樣化信息進(jìn)行識(shí)別,不僅可以用于以圖片進(jìn)行視覺化圖像檢索,還可實(shí)現(xiàn)對(duì)多種內(nèi)容的搜索,包括文本、視頻、地圖、三維模型、圖像等,其構(gòu)建流程包括圖像識(shí)別、描述提取、匹配數(shù)據(jù)和返回結(jié)果[6]。高校圖書館移動(dòng)視覺搜索系統(tǒng)構(gòu)建見圖2。
圖2 高校圖書館移動(dòng)視覺搜索系統(tǒng)
用戶發(fā)送圖像及檢索需求到圖書館藏資源檢索系統(tǒng),移動(dòng)視覺搜索系統(tǒng)對(duì)用戶需求進(jìn)行特征提取,并建立用戶需求庫,通過使用視覺對(duì)象匹配技術(shù)將用戶需求視覺特征與館藏文獻(xiàn)進(jìn)行匹配,匹配成功后,構(gòu)建相應(yīng)的檢索內(nèi)容列表,將匹配結(jié)果分類返回給用戶。館藏資源知識(shí)庫中存儲(chǔ)著圖書館內(nèi)的書籍及圖像的電子資源和引導(dǎo)文本,同時(shí)還包含關(guān)聯(lián)數(shù)據(jù)庫中的電子資源。根據(jù)用戶不同類型的搜尋需求,高校圖書館移動(dòng)視覺搜索系統(tǒng)可提供不同的檢索內(nèi)容。首先為了滿足用戶對(duì)資源的全面性和完整性需求,移動(dòng)視覺搜索系統(tǒng)適配不同的智能移動(dòng)端,可對(duì)多平臺(tái)進(jìn)行跨平臺(tái)檢索,以提供全面的檢索資源。其次為了滿足用戶個(gè)性化需求,利用云數(shù)據(jù)計(jì)算技術(shù)為用戶提供針對(duì)化和獨(dú)立的檢索推薦服務(wù)。根據(jù)用戶偏好提高搜索準(zhǔn)確率和全面性,同時(shí)還可與移動(dòng)端口連接,方便用戶及時(shí)獲取各項(xiàng)服務(wù)。
本文為設(shè)計(jì)出能夠?qū)D書館多種形式館藏資源進(jìn)行搜尋的資源搜尋系統(tǒng),使用YOLOv5(You Only Look Once第五代)作為基線網(wǎng)絡(luò),相較于傳統(tǒng)移動(dòng)視覺搜尋算法,其加入更多提升精度和速度的技巧,從而取得精度與速度的平衡[7-8]。本文選用YOLO系列中較為輕量化的YOLOv5作為圖書館藏資源檢索系統(tǒng)的基礎(chǔ)網(wǎng)絡(luò),其結(jié)構(gòu)見圖3。
圖3 YOLOv5網(wǎng)絡(luò)
如圖3所示,YOLOv5主要分為輸入端、主干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)和頭部網(wǎng)絡(luò)。輸入端輸入的數(shù)據(jù)進(jìn)入Focus對(duì)圖片進(jìn)行切片處理,將圖片中的像素值每隔一個(gè)值進(jìn)行抽取,將1張圖片切分為4張圖片,從而做到提高感受野,減少圖片信息丟失。以上數(shù)據(jù)經(jīng)過卷積操作后進(jìn)入CSP層。CSP層避免了傳統(tǒng)深度學(xué)習(xí)模型梯度信息丟失和網(wǎng)絡(luò)計(jì)算消耗大的問題,并有效提高了卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)能力。YOLOv5的CSP結(jié)構(gòu)是將原始輸入分為2個(gè)分支進(jìn)行卷積運(yùn)算,將通道數(shù)減半,然后在1個(gè)分支上進(jìn)行Bottleneck×N運(yùn)算,再將2個(gè)分支并聯(lián),使Bottleneck CSP的輸入和輸出大小相同。CBL層封裝了3個(gè)模塊,分別是BN、Convolution層以及Leaky ReLu激活函數(shù)。BN是YOLO系列獨(dú)創(chuàng)單元。CSP1結(jié)構(gòu)主要應(yīng)用于Backbone中,CSP2結(jié)構(gòu)主要應(yīng)用于Neck中。CSP2x表示在Neck Network中使用的CSP模塊。它與在Backbone Network中使用的CSP模塊的主要區(qū)別在于使用了2X個(gè)CBL模塊代替了殘差模塊。此后,通過再一次卷積進(jìn)入Neck Network結(jié)構(gòu)。大多數(shù)納入神經(jīng)網(wǎng)絡(luò)模型的注意力機(jī)制都能提供一些性能上的提升,但它們?cè)谳p量級(jí)網(wǎng)絡(luò)中并不像在大型網(wǎng)絡(luò)模型中那樣有效。因此,本文將使用能夠在輕量化網(wǎng)絡(luò)特征信息提取性能上表現(xiàn)優(yōu)異,且計(jì)算量級(jí)小的坐標(biāo)注意力機(jī)制(CA),其具體結(jié)構(gòu)見圖4。
圖4 注意力機(jī)制結(jié)構(gòu)
如圖4所示,坐標(biāo)注意力機(jī)制可看作增強(qiáng)移動(dòng)網(wǎng)絡(luò)特征表達(dá)能力的計(jì)算單元,使用坐標(biāo)信息嵌入和協(xié)調(diào)注意力生成2個(gè)模塊來編碼通道和長(zhǎng)距離關(guān)系。首先對(duì)輸入特征數(shù)據(jù)的每個(gè)二維圖像進(jìn)行平均操作,利用全局池化模塊,建立二維坐標(biāo)軸,沿著X和Y方向聚合成相對(duì)獨(dú)立的平面感知特征圖示[9-10]。之后根據(jù)空間構(gòu)成原理,在三維上進(jìn)行投射,進(jìn)行卷積操作以整合特征圖。最后,通過使用具有歸一化權(quán)重的Sigmoid函數(shù)的加權(quán)乘法,將2個(gè)注意力權(quán)重應(yīng)用于輸入數(shù)據(jù)中,以強(qiáng)化算法對(duì)目標(biāo)區(qū)域的重視。將坐標(biāo)注意力機(jī)制引入YOLOv5時(shí),首先將坐標(biāo)注意力機(jī)制嵌入到Y(jié)OLOv5的主干網(wǎng)絡(luò)中,通過對(duì)已有研究的調(diào)查可知,在基線網(wǎng)絡(luò)中,底層的特征提取通道數(shù)量最多,使得其能夠?qū)εc目標(biāo)無關(guān)的信息進(jìn)行有效加工,對(duì)提取結(jié)果造成影響,可能會(huì)降低對(duì)算法識(shí)別的準(zhǔn)確性,所以在最后一層加入了坐標(biāo)通道關(guān)注模塊,試圖讓檢測(cè)算法能夠關(guān)注與當(dāng)前任務(wù)相關(guān)的特征信息。
本文構(gòu)建圖書館智慧搜索系統(tǒng),以圖書館智能搜索服務(wù)構(gòu)成要素為基礎(chǔ),通過融合注意力機(jī)制的YOLOv5算法,進(jìn)行用戶需求視覺特征與館藏文獻(xiàn)資源的匹配,并提供延伸服務(wù)。因此評(píng)估系統(tǒng)的性能測(cè)試中,先對(duì)融合注意力機(jī)制改進(jìn)后的YOLOv5算法進(jìn)行訓(xùn)練,使用某高校圖書館藏?cái)?shù)據(jù)集進(jìn)行測(cè)試。該數(shù)據(jù)集包括圖書封面的圖像和文字標(biāo)注,對(duì)模型進(jìn)行訓(xùn)練后得出α-CloU損失函數(shù)曲線定位損失曲線,分類損失曲線和置信度損失曲線如圖5所示。
(a) 分類損失曲線
圖5為YOLOv5模型訓(xùn)練過程中的損失函數(shù)統(tǒng)計(jì)分析結(jié)果。在訓(xùn)練過程中,未出現(xiàn)過異常情況,在模型訓(xùn)練到第100輪次時(shí),所有的損失函數(shù)曲線都趨向于穩(wěn)定。從圖5可以看出:定位損失和置信度損失逐步穩(wěn)定在0.002和0.028;分類損失逐步穩(wěn)定在0.017。在此基礎(chǔ)上,為提高系統(tǒng)對(duì)目標(biāo)區(qū)域特征的識(shí)別精度,在基線網(wǎng)絡(luò)模型中加入能夠同時(shí)考慮通道間關(guān)系以及長(zhǎng)距離的位置信息,且具有輕量化特點(diǎn)的坐標(biāo)注意力機(jī)制進(jìn)行調(diào)整。訓(xùn)練之前,先將超參數(shù)batch size設(shè)置成16,共訓(xùn)練100個(gè)epoch。從開始訓(xùn)練到訓(xùn)練結(jié)束,使用warm-up原則,也就是從0開始學(xué)習(xí)3個(gè) epoch。選擇帶有動(dòng)量的隨機(jī)梯度下降法(Random Gradient Descent)作為優(yōu)化器。該方法的優(yōu)點(diǎn)是在很小的空間內(nèi)計(jì)算梯度的平方,所以不需要存儲(chǔ)梯度。在全部訓(xùn)練圖片開啟馬賽克數(shù)據(jù)增強(qiáng)后,關(guān)閉mixup數(shù)據(jù)增強(qiáng)。加入坐標(biāo)注意力機(jī)制的網(wǎng)絡(luò)模型訓(xùn)練結(jié)果損失函數(shù)曲線如圖6所示。
(a) 分類損失曲線
圖6(a)、圖6(b)、圖6(c)分別表示融合注意力機(jī)制改進(jìn)后的YOLOv5算法的分類損失曲線、定位損失曲線、置信度損失曲線。模型在訓(xùn)練過程表現(xiàn)與預(yù)期相符,各損失函數(shù)曲線皆隨著epoch增加逐步達(dá)到穩(wěn)定態(tài),在前20個(gè)epoch損失下降得較快,之后穩(wěn)定緩慢下降,直到達(dá)到穩(wěn)定態(tài)。最終定位損失和分類損失的穩(wěn)定態(tài)結(jié)果在0.001 18左右,置信度損失則最終穩(wěn)定在0.028左右。為了驗(yàn)證坐標(biāo)注意力機(jī)制對(duì)YOLOv5測(cè)算精度提高的有效性,分別將通道注意力(SE)、卷積注意力(CBAM)和坐標(biāo)注意力機(jī)制加入YOLOv5算法中,訓(xùn)練模型并進(jìn)行比較。SE通道注意力機(jī)制加入的位置與坐標(biāo)注意力機(jī)制一樣,因CBAM注意力機(jī)制有優(yōu)秀的空間信息提取能力則用來替代卷積層執(zhí)行空間特征信息提取任務(wù)。為了達(dá)到輕量化和高精度的目標(biāo),使用CBAM注意力模塊替換YOLOv5模型第五層的卷積層。同時(shí)選取普通YOLOv5模型作為比較,4種模型準(zhǔn)確度比較曲線如圖7所示。
(a) YOLOv5
圖7(a)、圖7(b)、圖7(c)、圖7(d)分別為基線網(wǎng)絡(luò)模型YOLOv5、YOLOv5+SE、YOLOv5+CBAM、YOLOv5+CA的測(cè)試結(jié)果。從圖7可以看出,4種網(wǎng)絡(luò)模型整體趨勢(shì)相似,皆在0~1的置信區(qū)間快速上升后逐漸趨于穩(wěn)定。進(jìn)一步對(duì)圖7(a)和圖7(b)分析可知,2個(gè)模型的所有類別都在置信度為0.946時(shí),準(zhǔn)確率可以近似為1.0,但是插入SE的YOLOv5模型對(duì)others類別,相較于YOLOv5基線模型的準(zhǔn)確度曲線更為平滑,效度更高。對(duì)圖7(c)與圖7(d)比較可知,插入CA的YOLOv5模型對(duì)書、3D模型和藝術(shù)字類別識(shí)別正確的置信度更高,在0.4的置信度時(shí)就有良好的準(zhǔn)確率表現(xiàn)。對(duì)準(zhǔn)確率曲線進(jìn)行橫向?qū)Ρ瓤芍?融合坐標(biāo)注意力機(jī)制的YOLOv5網(wǎng)絡(luò)模型在圖書識(shí)別上性能更優(yōu)。融合坐標(biāo)注意力機(jī)制YOLOv5網(wǎng)絡(luò)模型旨在高精度地對(duì)圖書館藏資源進(jìn)行移動(dòng)視覺搜索且占用較小的運(yùn)行內(nèi)存,以方便其可以搭載在圖書館的多功能計(jì)算機(jī)中,并通過多種媒介為用戶提供服務(wù),為了驗(yàn)證融合坐標(biāo)注意力機(jī)制YOLOv5網(wǎng)絡(luò)模型相較于主流模型有更好的識(shí)別精度、計(jì)算時(shí)間的平衡及更小的內(nèi)存占比,對(duì)其進(jìn)行多次比較實(shí)驗(yàn),結(jié)果見表1。
表1 多網(wǎng)絡(luò)性能比較實(shí)驗(yàn)
如表1所示,其清晰地體現(xiàn)了6種移動(dòng)視覺搜索算法的檢測(cè)精度、運(yùn)行時(shí)間和內(nèi)存占比比較。從表1可以看出,相較于其他YOLO網(wǎng)絡(luò),YOLOv5網(wǎng)絡(luò)計(jì)算精度更高,運(yùn)行時(shí)間也更長(zhǎng),但內(nèi)存占比最小,僅為0.9%。而YOLOv5+CA算法沿襲了YOLOv5網(wǎng)絡(luò)在內(nèi)存占比上的優(yōu)點(diǎn),以較小的內(nèi)存實(shí)現(xiàn)了最高的計(jì)算精度,運(yùn)行時(shí)間相較于YOLOv5網(wǎng)絡(luò)有所降低。其識(shí)別精度為0.904,運(yùn)行時(shí)間為42.5 ms,內(nèi)存占比為1.2%,有較好的性能表現(xiàn),可以適配于圖書館中的數(shù)據(jù)智能檢索服務(wù)。
為了應(yīng)對(duì)圖書館多元化的用戶需求,優(yōu)化高校圖書館檢索服務(wù)體驗(yàn)和增強(qiáng)高校圖書館競(jìng)爭(zhēng)力,本文借助大數(shù)據(jù)深度學(xué)習(xí)模型,使用移動(dòng)視覺搜索技術(shù)對(duì)高校圖書館智慧搜索模式建設(shè)進(jìn)行探索,構(gòu)建了融合注意力機(jī)制的YOLOv5算法的高校圖書館智慧搜索服務(wù)。性能測(cè)試結(jié)果表明,模型訓(xùn)練在前20個(gè)epoch損失下降得較快,之后穩(wěn)定緩慢下降,直到達(dá)到穩(wěn)定態(tài)。最終定位損失和分類損失的穩(wěn)定態(tài)結(jié)果在0.001 18左右,置信度損失則最終穩(wěn)定在0.028左右?;€網(wǎng)絡(luò)模型YOLOv5、YOLOv5+SE、YOLOv5+CBAM、YOLOv5+CA比較測(cè)試結(jié)果表明,插入CA的YOLOv5模型對(duì)書、3D模型和藝術(shù)字類別識(shí)別正確的置信度更高,在0.4的置信度時(shí)就有良好的準(zhǔn)確率表現(xiàn)。YOLOv5+CA識(shí)別精度為0.904,運(yùn)行時(shí)間為42.5 ms,內(nèi)存占比為1.2%,有較好的性能表現(xiàn)。實(shí)驗(yàn)結(jié)果表明,本文提出的YOLOv5+CA搜索算法有較好的計(jì)算效能和較小的內(nèi)存占用,可以適配于圖書館中的數(shù)據(jù)智能檢索服務(wù)。