亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的智慧圖書(shū)館移動(dòng)視覺(jué)搜索服務(wù)模式研究

        2019-05-07 07:50:40李默
        現(xiàn)代情報(bào) 2019年5期
        關(guān)鍵詞:智慧圖書(shū)館卷積神經(jīng)網(wǎng)絡(luò)服務(wù)模式

        李默

        摘 要:[目的/意義]大數(shù)據(jù)時(shí)代智慧圖書(shū)館用戶需要精確智能的檢索工具,而移動(dòng)視覺(jué)搜索技術(shù)能夠滿足用戶以視覺(jué)資源數(shù)據(jù)為中心的檢索需求。[方法/過(guò)程]文章在分析國(guó)內(nèi)外基于深度學(xué)習(xí)的視覺(jué)資源識(shí)別技術(shù)的研究基礎(chǔ)之上,構(gòu)建了基于深度學(xué)習(xí)的智慧圖書(shū)館移動(dòng)視覺(jué)搜索服務(wù)模式模型,并設(shè)計(jì)了模型的工作流程,最后對(duì)基于深度學(xué)習(xí)的智慧圖書(shū)館移動(dòng)視覺(jué)搜索系統(tǒng)的發(fā)展趨勢(shì)進(jìn)行了展望。[結(jié)果/結(jié)論]將深度學(xué)習(xí)融入智慧圖書(shū)館移動(dòng)視覺(jué)搜索系統(tǒng)中,可以整合多源異構(gòu)視覺(jué)數(shù)據(jù)、貼合用戶個(gè)性化偏好以及提高移動(dòng)視覺(jué)搜索系統(tǒng)性能。

        關(guān)鍵詞:智慧圖書(shū)館;移動(dòng)視覺(jué)搜索;深度學(xué)習(xí);服務(wù)模式;卷積神經(jīng)網(wǎng)絡(luò);循環(huán)神經(jīng)網(wǎng)絡(luò)

        DOI:10.3969/j.issn.1008-0821.2019.05.012

        〔中圖分類號(hào)〕G250.76 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2019)05-0089-08

        Abstract:[Purpose/Significance]In the era of big data,smart library users need precise and intelligent retrieval tools.Mobile visual search technology can meet users search requirements centered on visual resource data.In recent years,deep learning technology has made breakthroughs in many research fields.[Method/Process]Based on the analysis of the deep learning based visual resource recognition technology at home and abroad,this paper constructed a mobile visual search service model of smart library based on deep learning,and designed the workflow of the model.Finally,the future development trend of deep learning based mobile visual search system of smart library was forecasted.[Result/Conclusion]Applying deep learning technologies into the smart library mobile visual search system,it can integrate multi-source heterogeneous visual data,fit users personalized preferences and improve visual search system performance.

        Key words:smart library;mobile visual search;deep learning;service model;convolution neural network;recurrent neural network

        隨著人工智能、大數(shù)據(jù)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)等新興技術(shù)的不斷發(fā)展和廣泛應(yīng)用,以文獻(xiàn)借閱為中心的圖書(shū)館傳統(tǒng)館藏服務(wù)模式逐漸向以滿足讀者個(gè)性化需求為中心的智慧型知識(shí)服務(wù)模式轉(zhuǎn)變。智慧圖書(shū)館利用智能化、網(wǎng)絡(luò)化、數(shù)字化的信息技術(shù),為讀者提供立體互聯(lián)、無(wú)線泛在、節(jié)能高效的智慧型知識(shí)服務(wù),是未來(lái)圖書(shū)館發(fā)展的新模式[1]。智慧圖書(shū)館提供的信息資源也不再僅僅局限于文本形式的數(shù)據(jù),而是包括了圖像、視頻、3D模型等在內(nèi)的多種視覺(jué)載體類型,以文本搜索為主的信息資源獲取方式已經(jīng)不適用于視覺(jué)資源的檢索利用。而移動(dòng)視覺(jué)搜索(Mobile Visual Search,MVS)技術(shù)利用移動(dòng)智能終端獲取的圖像、視頻、3D模型等視覺(jué)資源作為檢索對(duì)象,并通過(guò)移動(dòng)互聯(lián)網(wǎng)在視覺(jué)資源知識(shí)庫(kù)檢索其關(guān)聯(lián)信息資源,可以幫助讀者從海量視覺(jué)資源數(shù)據(jù)中快速有效地找到其感興趣的關(guān)聯(lián)知識(shí)信息[2]。因此,MVS能夠適應(yīng)智慧圖書(shū)館多種類型數(shù)字資源的檢索服務(wù)要求,為讀者提供個(gè)性化的知識(shí)需求。

        現(xiàn)有MVS系統(tǒng)中使用的檢索方法大致可以分為兩類,即基于文本和基于視覺(jué)資源內(nèi)容兩種方法。其中,基于文本的檢索方法是將讀者的檢索關(guān)鍵詞與視覺(jué)資源知識(shí)庫(kù)中對(duì)應(yīng)視覺(jué)資源的文本描述信息進(jìn)行相似度比對(duì),將相似度較高的視覺(jué)資源信息返回給讀者,但這種方法會(huì)由于視覺(jué)資源標(biāo)簽標(biāo)注的不準(zhǔn)確導(dǎo)致檢索結(jié)果的準(zhǔn)確率比較低;基于視覺(jué)資源內(nèi)容的檢索方法是對(duì)讀者提供的檢索對(duì)象進(jìn)行分析,提取檢索對(duì)象的內(nèi)容特征,包括低級(jí)特征(如紋理、形狀、顏色等)和高級(jí)特征(如分層梯度方向直方圖、顏色和邊緣方向特征、尺度不變特征變換等),檢索時(shí)計(jì)算檢索對(duì)象的內(nèi)容特征與視覺(jué)資源知識(shí)庫(kù)中已有視覺(jué)資源內(nèi)容特征的相似度,檢索結(jié)果按相似度排序并提供給讀者,然而這種檢索方法受外界因素的影響比較大,在視覺(jué)資源采集環(huán)境或拍攝設(shè)備發(fā)生變化時(shí)檢索結(jié)果也會(huì)發(fā)生很大的變動(dòng)。近年來(lái),隨著深度學(xué)習(xí)在語(yǔ)音識(shí)別、圖像識(shí)別、個(gè)性化推薦、自然語(yǔ)言理解等領(lǐng)域的突破性進(jìn)展[3],為MVS的研究帶來(lái)了新的機(jī)遇。綜上,為了提高M(jìn)VS的準(zhǔn)確度和魯棒性,本文提出一種基于深度學(xué)習(xí)的智慧圖書(shū)館MVS服務(wù)模式,利用深度學(xué)習(xí)技術(shù)提取視覺(jué)資源內(nèi)容特征和讀者個(gè)性化特征,降低外部因素對(duì)檢索結(jié)果的影響程度,提高讀者的MVS服務(wù)滿意度。

        1 相關(guān)研究

        自2009年David M Chen等[4]在首屆MVS研討會(huì)首次提出MVS概念以來(lái),國(guó)內(nèi)外研究機(jī)構(gòu)和學(xué)者對(duì)MVS技術(shù)及其應(yīng)用進(jìn)行了研究,取得了一些顯著成果。MVS的應(yīng)用已經(jīng)出現(xiàn)在了電子商務(wù)、移動(dòng)識(shí)別、地標(biāo)搜索、印刷品查詢等領(lǐng)域,Google、亞馬遜、淘寶、京東等公司也都開(kāi)展了應(yīng)用嘗試,建立了具有代表性的MVS應(yīng)用系統(tǒng),提升了用戶在移動(dòng)網(wǎng)絡(luò)環(huán)境下的搜索體驗(yàn)。而智慧圖書(shū)館的興起和發(fā)展為MVS在圖書(shū)情報(bào)領(lǐng)域的應(yīng)用開(kāi)拓了新的研究方向,引起了許多學(xué)者的關(guān)注。張興旺等較早地對(duì)MVS在數(shù)字圖書(shū)館的應(yīng)用進(jìn)行了研究,分析了數(shù)字圖書(shū)館MVS機(jī)制的內(nèi)涵、分類及架構(gòu)設(shè)計(jì)[2],設(shè)計(jì)了數(shù)字圖書(shū)館MVS的基本流程、服務(wù)模式和服務(wù)框架[5],并提出了一種領(lǐng)域?qū)虻?、自適應(yīng)的、可演化的數(shù)字圖書(shū)館MVS引擎[6];曾子明等則在智慧圖書(shū)館MVS研究方面開(kāi)展了一系列工作,構(gòu)建了智慧圖書(shū)館MVS服務(wù)模型及技術(shù)框架[7],提出了基于SoLoMo的智慧圖書(shū)館移動(dòng)視覺(jué)搜索服務(wù)模式[8],設(shè)計(jì)了去中心化的智慧圖書(shū)館MVS管理體系[9]。另外,李晨暉等[10]對(duì)基于大數(shù)據(jù)的文化遺產(chǎn)數(shù)字圖書(shū)館MVS機(jī)制建設(shè)進(jìn)行了研究;韓璽等研究了基于語(yǔ)義關(guān)聯(lián)的圖書(shū)館MVS資源多維度聚合模型及其實(shí)現(xiàn)流程[11],并提出了基于MVS的圖書(shū)館、檔案館、博物館資源融合服務(wù)模式[12];孫翌等[13]以李政道圖書(shū)館特藏陳展服務(wù)為例,闡述了MVS技術(shù)在特色資源陳展服務(wù)中的各項(xiàng)應(yīng)用功能;鐘志鵬等[14]開(kāi)發(fā)了一個(gè)基于MVS技術(shù)的博物館導(dǎo)覽系統(tǒng)。上述研究拓展了MVS在數(shù)字人文領(lǐng)域的應(yīng)用實(shí)踐,但作為一個(gè)新的研究方向和應(yīng)用領(lǐng)域,智慧圖書(shū)館對(duì)MVS技術(shù)提出了更高的要求,比如,在視覺(jué)特征提取、語(yǔ)義分析與匹配、視覺(jué)資源個(gè)性化推薦等方面還有許多問(wèn)題有待研究。

        在移動(dòng)終端計(jì)算資源有限的情況下,如何增強(qiáng)智慧圖書(shū)館MVS系統(tǒng)的魯棒性和準(zhǔn)確性,減少讀者等待時(shí)間,是衡量MVS服務(wù)質(zhì)量高低的核心問(wèn)題。而深度學(xué)習(xí)具有組合低層特征形成高層語(yǔ)義抽象的能力,可以自動(dòng)發(fā)現(xiàn)視覺(jué)數(shù)據(jù)的分布式特征表示,對(duì)提高M(jìn)VS智能化水平具有重要意義。深度學(xué)習(xí)起源于人工神經(jīng)網(wǎng)絡(luò),但由于受到梯度彌散問(wèn)題和硬件資源的限制,神經(jīng)網(wǎng)絡(luò)的研究一直徘徊不前。2006年Geoffrey E Hinton等[15]提出了訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)的基本原則方法,降低了深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化難度。近年來(lái),隨著計(jì)算能力的提升和訓(xùn)練數(shù)據(jù)集的增長(zhǎng),深度學(xué)習(xí)在人工智能多個(gè)研究領(lǐng)域都有了長(zhǎng)足的發(fā)展。在圖像識(shí)別領(lǐng)域,Krizhevsky A等[16]在2012年首次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于大規(guī)模數(shù)據(jù)集ImageNet中,大幅降低了圖像識(shí)別的錯(cuò)誤率,而在2016年的ImageNet圖像分類競(jìng)賽中,深度學(xué)習(xí)的圖像識(shí)別準(zhǔn)確率更是超過(guò)了97%;在視頻識(shí)別領(lǐng)域,Wang W等[17]提出了一種基于全卷積神經(jīng)網(wǎng)絡(luò)的視頻目標(biāo)檢測(cè)算法,設(shè)計(jì)了用于獲取時(shí)間信息的動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)和獲取空間信息的靜態(tài)神經(jīng)網(wǎng)絡(luò),利用仿真生成的視頻訓(xùn)練數(shù)據(jù)獲得了視頻的時(shí)間和空間特征;在3D模型識(shí)別領(lǐng)域,Han Z等[18-19]首先設(shè)計(jì)了一種圓形卷積受限玻爾茲曼機(jī),用來(lái)學(xué)習(xí)3D模型局部區(qū)域的幾何結(jié)構(gòu)信息,然后又研究了一種Mesh卷積受限玻爾茲曼機(jī),實(shí)現(xiàn)了3D模型的無(wú)監(jiān)督特征學(xué)習(xí)。目前應(yīng)用于視覺(jué)資源識(shí)別領(lǐng)域的深度學(xué)習(xí)模型主要包括:玻爾茲曼機(jī)、卷積神經(jīng)網(wǎng)絡(luò)、深度信念網(wǎng)絡(luò)、自編碼器和循環(huán)神經(jīng)網(wǎng)絡(luò)等。

        深度學(xué)習(xí)可以對(duì)輸入數(shù)據(jù)按層次進(jìn)行抽象,獲取數(shù)據(jù)的深層次表示特征,并通過(guò)對(duì)多源異構(gòu)數(shù)據(jù)的自動(dòng)特征學(xué)習(xí),將不同數(shù)據(jù)在最初空間的表征映射到一個(gè)相同的隱空間,從而獲得數(shù)據(jù)的統(tǒng)一表征[20]。因此將深度學(xué)習(xí)引入到智慧圖書(shū)館MVS系統(tǒng)中,能夠?qū)Χ嘣串悩?gòu)視覺(jué)數(shù)據(jù)進(jìn)行有效地特征提取和分類操作,并通過(guò)構(gòu)建相適應(yīng)的服務(wù)模式提高智慧圖書(shū)館視覺(jué)資源的利用率,為讀者提供以視覺(jué)資源為中心的個(gè)性化知識(shí)體系。

        2 基于深度學(xué)習(xí)的智慧圖書(shū)館MVS服務(wù)模式

        基于深度學(xué)習(xí)的智慧圖書(shū)館MVS系統(tǒng)將用戶的視覺(jué)檢索對(duì)象作為輸入數(shù)據(jù),利用深度學(xué)習(xí)模型提取智慧圖書(shū)館各類學(xué)術(shù)資源特征,通過(guò)融入用戶情境信息和反饋數(shù)據(jù),實(shí)現(xiàn)個(gè)性、準(zhǔn)確、交互的智慧圖書(shū)館MVS服務(wù)。一個(gè)基本的服務(wù)模式模型如圖1所示,由系統(tǒng)離線學(xué)習(xí)和用戶在線檢索兩個(gè)階段組成。

        2.1 系統(tǒng)離線學(xué)習(xí)階段

        在系統(tǒng)離線學(xué)習(xí)階段,主要是為整個(gè)搜索系統(tǒng)做好數(shù)據(jù)準(zhǔn)備工作,包括提取視覺(jué)資源庫(kù)中的數(shù)據(jù)特征、分析文本資源庫(kù)中的文本語(yǔ)義、計(jì)算情境數(shù)據(jù)庫(kù)中的情境信息以及獲取用戶知識(shí)庫(kù)中的個(gè)性化需求特征。其中,視覺(jué)資源庫(kù)用于存儲(chǔ)從互聯(lián)網(wǎng)采集的圖像、視頻、3D模型等視覺(jué)資源,將視覺(jué)資源內(nèi)容以文件形式存儲(chǔ)在分布式集群上,并將視覺(jué)資源文本描述信息存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中,同時(shí)為深度學(xué)習(xí)模型提供必需的訓(xùn)練數(shù)據(jù)集;文本資源庫(kù)主要用來(lái)存儲(chǔ)智慧圖書(shū)館中的學(xué)術(shù)文本數(shù)據(jù),在對(duì)文本資源數(shù)據(jù)進(jìn)行清洗后存儲(chǔ)在分布式數(shù)據(jù)庫(kù)中,并實(shí)現(xiàn)異構(gòu)數(shù)據(jù)源文本數(shù)據(jù)的規(guī)范統(tǒng)一;情境信息庫(kù)采用分布式表示技術(shù)存儲(chǔ)與用戶相關(guān)的情境信息,包括用戶的檢索時(shí)間、地理位置、網(wǎng)絡(luò)環(huán)境、移動(dòng)終端類型等數(shù)據(jù),為基于深度學(xué)習(xí)的用戶情境計(jì)算模型提供數(shù)據(jù)支持。

        特征提取模塊利用深度神經(jīng)網(wǎng)絡(luò)來(lái)提取視覺(jué)資源特征,而深度視覺(jué)資源特征是從大規(guī)模視覺(jué)數(shù)據(jù)中自動(dòng)學(xué)習(xí)獲得的,并將視覺(jué)資源的特征提取和識(shí)別分類任務(wù)融合到一個(gè)模型中進(jìn)行,其功能在系統(tǒng)離線學(xué)習(xí)階段和用戶在線檢索階段共享。本文采用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)處理視覺(jué)資源數(shù)據(jù),對(duì)于2D圖像數(shù)據(jù)直接將圖像作為網(wǎng)絡(luò)輸入進(jìn)行特征提取計(jì)算,對(duì)于視頻數(shù)據(jù)則提取視頻中的時(shí)態(tài)和空間特征,而對(duì)于3D模型數(shù)據(jù)則將模型的投影視圖和體素作為神經(jīng)網(wǎng)絡(luò)的輸入。卷積神經(jīng)網(wǎng)絡(luò)避免了傳統(tǒng)圖像處理算法中復(fù)雜的特征提取融合過(guò)程,而且可以減少深度神經(jīng)網(wǎng)絡(luò)模型中的神經(jīng)元和參數(shù)數(shù)量,提高了單位時(shí)間內(nèi)的計(jì)算能力,它一般由輸入層、卷積層、池化層、全連接層和輸出層組成。循環(huán)神經(jīng)網(wǎng)絡(luò)能夠建模序列數(shù)據(jù)中不同時(shí)刻數(shù)據(jù)之間的依賴關(guān)系,它將網(wǎng)絡(luò)內(nèi)部節(jié)點(diǎn)定向連接成環(huán),通過(guò)自連接的方式實(shí)現(xiàn)序列數(shù)據(jù)信息的記憶與傳遞,對(duì)于處理序列數(shù)據(jù)建模能力強(qiáng)大且非常有效,一個(gè)循環(huán)單元由輸入層、循環(huán)隱層和輸出層組成,但是普通的循環(huán)神經(jīng)網(wǎng)絡(luò)存在梯度消失問(wèn)題,Hocheriter S等[21]提出的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)增加了保存長(zhǎng)期狀態(tài)的隱層單元,可以更有效地對(duì)長(zhǎng)程依賴關(guān)系進(jìn)行建模。視覺(jué)資源特征提取模塊具體流程和功能實(shí)現(xiàn)將在本文第三部分進(jìn)行闡述。

        語(yǔ)義分析模塊則使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)文本信息進(jìn)行處理,首先通過(guò)卷積層對(duì)文本中的局部信息進(jìn)行建模,得到若干個(gè)特征映射面,然后池化層從每一個(gè)特征映射面中選擇固定數(shù)目的節(jié)點(diǎn),將文本表示為固定長(zhǎng)度的向量,經(jīng)過(guò)多個(gè)卷積層和池化層后,最終會(huì)得到表示文本語(yǔ)義信息的輸出向量,而且隨著網(wǎng)絡(luò)深度的增加,可以捕捉到更加全面的文本語(yǔ)義信息和特征。情境計(jì)算模塊結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行情境信息的識(shí)別計(jì)算,首先基于卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)情景數(shù)據(jù)的隱情境表示,然后將隱情境表示特征輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中,得到隱情境表示的狀態(tài)分類類別概率,最后融合隱情境表示和清晰的情境信息得到用戶的情境模型。關(guān)聯(lián)挖掘模塊是在對(duì)智慧圖書(shū)館數(shù)據(jù)資源進(jìn)行特征提取和語(yǔ)義分析的基礎(chǔ)上,實(shí)現(xiàn)視覺(jué)資源與文本資源之間的語(yǔ)義關(guān)聯(lián),并采用倒排索引標(biāo)注關(guān)聯(lián)后的視覺(jué)資源,方便MVS過(guò)程中快速定位視覺(jué)資源信息。

        行為分析模塊通過(guò)分析用戶的操作記錄提取用戶特征,將用戶的檢索、瀏覽、下載等歷史記錄作為深度學(xué)習(xí)模型的輸入,通過(guò)模型學(xué)習(xí)得到用戶的隱表示。評(píng)價(jià)反饋模塊則是將收集的用戶評(píng)價(jià)信息作為輸入,利用深度學(xué)習(xí)模型學(xué)習(xí)用戶的隱表示,并利用損失函數(shù)構(gòu)建目標(biāo)優(yōu)化函數(shù)優(yōu)化深度學(xué)習(xí)模型的參數(shù)。在獲得用戶特征隱表示的基礎(chǔ)上,結(jié)合用戶的年齡、職業(yè)、學(xué)歷、性別、社會(huì)關(guān)系等個(gè)人信息,構(gòu)建用戶個(gè)性化知識(shí)模型并存儲(chǔ)在用戶模型庫(kù)中。需求抽取模塊從用戶模型庫(kù)中提取出檢索用戶的個(gè)性化需求模型,構(gòu)建用戶個(gè)性化信息向量,為MVS檢索結(jié)果排序計(jì)算提供輸入數(shù)據(jù)。

        2.2 用戶在線檢索階段

        用戶在使用MVS系統(tǒng)進(jìn)行視覺(jué)資源檢索時(shí),需要將自己的檢索意圖通過(guò)具體的視覺(jué)檢索表達(dá)方式提交給MVS系統(tǒng),良好明確的表達(dá)方式可以有效降低檢索的難度,獲得滿意的檢索結(jié)果。根據(jù)視覺(jué)資源的不同類型,檢索表達(dá)的構(gòu)成方式可以分為基于圖像檢索、基于視頻檢索和基于3D模型檢索等,將不同的檢索表達(dá)構(gòu)成方式存儲(chǔ)于視覺(jué)檢索對(duì)象庫(kù)中,根據(jù)待檢索視覺(jué)對(duì)象數(shù)據(jù)類型采用不同的檢索表達(dá)方式。

        結(jié)果展示模塊的功能是將檢索結(jié)果提供給用戶瀏覽,首先按照主題對(duì)檢索到的視覺(jué)資源進(jìn)行分類和關(guān)聯(lián),然后根據(jù)移動(dòng)終端類型和網(wǎng)絡(luò)狀況為用戶展示以視覺(jué)資源為中心的知識(shí)架構(gòu)和知識(shí)圖譜,方便用戶查找自己感興趣的視覺(jué)資源知識(shí)信息。另外,結(jié)果展示模塊還包括用戶信息管理功能,用戶具有編輯個(gè)人信息、設(shè)置視覺(jué)資源興趣標(biāo)簽、填寫(xiě)評(píng)價(jià)反饋意見(jiàn)等權(quán)限,為用戶模型庫(kù)的建立和完善提供數(shù)據(jù)支持。

        3 智慧圖書(shū)館MVS深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)工作流程

        在實(shí)現(xiàn)智慧圖書(shū)館MVS服務(wù)模式各功能模塊的設(shè)定后,本文提出的智慧圖書(shū)館MVS深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)工作流程主要分為4個(gè)子流程,分別是數(shù)據(jù)獲取及數(shù)據(jù)預(yù)處理子流程、生成用戶特征向量和視覺(jué)檢索數(shù)據(jù)圖集子流程、深度學(xué)習(xí)訓(xùn)練網(wǎng)絡(luò)輸出視覺(jué)單詞向量子流程、計(jì)算相似度得到視覺(jué)檢索推薦列表子流程,如圖2所示。

        3.1 數(shù)據(jù)獲取及數(shù)據(jù)預(yù)處理

        圖書(shū)館MVS服務(wù)平臺(tái)首先獲取檢索所需的相關(guān)數(shù)據(jù),包括視覺(jué)檢索數(shù)據(jù)和用戶歷史行為數(shù)據(jù),其中,視覺(jué)檢索數(shù)據(jù)用于生成視覺(jué)檢索數(shù)據(jù)圖集,用戶歷史行為數(shù)據(jù)則用于生成用戶特征向量。數(shù)據(jù)預(yù)處理主要是對(duì)數(shù)據(jù)進(jìn)行清洗,檢查數(shù)據(jù)的一致性,過(guò)濾掉視覺(jué)檢索數(shù)據(jù)收集過(guò)程中產(chǎn)生的干擾信息,并將視覺(jué)檢索數(shù)據(jù)從模擬信號(hào)的形式轉(zhuǎn)化為連續(xù)性的函數(shù)形式,然后整理數(shù)據(jù),獲取每個(gè)用戶的ID信息,生成用戶索引和視覺(jué)檢索數(shù)據(jù)索引。

        3.2 生成用戶特征向量和視覺(jué)檢索數(shù)據(jù)圖集

        首先統(tǒng)計(jì)用戶的有效點(diǎn)擊行為信息,然后搭建并訓(xùn)練深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型,將用戶的檢索行為記錄作為模型輸入得到用戶的分布式特征向量表示,用于描述用戶的特征信息,計(jì)算得到的用戶特征向量是低維且非稀疏的,便于以此作為視覺(jué)檢索推薦的數(shù)據(jù)依據(jù)。而對(duì)于視覺(jué)檢索數(shù)據(jù)則根據(jù)數(shù)據(jù)類型進(jìn)行不同處理,圖像類數(shù)據(jù)獲取其精確圖片語(yǔ)義文本對(duì),將圖片語(yǔ)義文本切詞后得到每個(gè)詞的詞向量,為每個(gè)圖片匹配其準(zhǔn)確的語(yǔ)義文本表示;視頻類數(shù)據(jù)通過(guò)鏡頭分割、關(guān)鍵幀提取、鏡頭聚類3步獲得其視頻圖像集,其中,鏡頭分割采用x2直方圖法和梯度法對(duì)視頻鏡頭的切換和淡入淡出進(jìn)行檢測(cè),關(guān)鍵幀提取則使用非相鄰幀比較算法來(lái)計(jì)算,其思想是將鏡頭的第一幀作為參考幀,然后計(jì)算后續(xù)幀和當(dāng)前參考幀的差值,當(dāng)差值大于預(yù)定閾值時(shí)則將當(dāng)前幀替換為關(guān)鍵幀,鏡頭聚類則將歸為一類的鏡頭集作為場(chǎng)景,完成對(duì)視頻的場(chǎng)景劃分,最終得到視頻的場(chǎng)景圖像集;對(duì)于3D模型類數(shù)據(jù)首先將模型進(jìn)行體素化,然后采用旋轉(zhuǎn)、尺度變化、水平翻轉(zhuǎn)、隨機(jī)摳取等方法對(duì)3D模型進(jìn)行數(shù)據(jù)擴(kuò)充,得到相應(yīng)倍數(shù)的3D模型體素圖像數(shù)據(jù)集??傊褂锰幚砗蟮膱D像集作為深度學(xué)習(xí)訓(xùn)練網(wǎng)絡(luò)的輸入,有利于視覺(jué)檢索數(shù)據(jù)特征的學(xué)習(xí)和訓(xùn)練分類。

        3.3 深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)訓(xùn)練生成視覺(jué)單詞向量

        該子流程的功能是從視覺(jué)數(shù)據(jù)圖像集中提取各種類型視覺(jué)數(shù)據(jù)的特征向量并進(jìn)行識(shí)別。對(duì)于圖像類數(shù)據(jù)利用卷積神經(jīng)網(wǎng)絡(luò)作為視覺(jué)模型,首先準(zhǔn)備圖像的深度學(xué)習(xí)訓(xùn)練集,根據(jù)圖片語(yǔ)義文本內(nèi)容對(duì)建立的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練得到圖像分類模型,然后利用訓(xùn)練好的模型對(duì)測(cè)試集中的圖像進(jìn)行特征提取,將圖像像素向量{x1,1,x1,2,…,xm,n}作為卷積神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù),xi,j表示尺寸為m*n圖像中第i行第j列的像素值,在對(duì)輸入圖像做卷積運(yùn)算得到卷積特征圖像后,再對(duì)卷積特征圖像作最大池采樣獲得池化后的特征圖像,如果下一層為卷積層則繼續(xù)進(jìn)行卷積計(jì)算,否則執(zhí)行全連接運(yùn)算,最后經(jīng)過(guò)全連接層計(jì)算得到圖像特征輸出。然而通過(guò)上述方法提取的圖像特征有數(shù)千維,為了挖掘有意義的特征數(shù)據(jù)還需要對(duì)數(shù)據(jù)進(jìn)行降維,可以采用訓(xùn)練后的棧式自編碼器進(jìn)行圖像特征的降維運(yùn)算,最終得到圖像的向量化表示。

        視頻圖像集則首先使用卷積神經(jīng)網(wǎng)絡(luò)提取其人物、動(dòng)作和上下文環(huán)境3個(gè)通道的特征向量圖,卷積神經(jīng)網(wǎng)絡(luò)采用多層串聯(lián)結(jié)構(gòu),上一層的輸出作為下一層的輸入,其參數(shù)值在訓(xùn)練過(guò)程識(shí)別率穩(wěn)定后即為最終的參數(shù),各個(gè)卷積神經(jīng)網(wǎng)絡(luò)層都包括若干個(gè)卷積層和池化層,卷積層對(duì)輸入的視頻圖像集進(jìn)行卷積,池化層對(duì)卷積后的二維矩陣執(zhí)行池化操作,激活函數(shù)采用線性糾正函數(shù)ReLU,并對(duì)池化后的輸出值進(jìn)行歸一化,使得卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度加快并且保持每次迭代網(wǎng)絡(luò)參數(shù)的正態(tài)分布;循環(huán)神經(jīng)網(wǎng)絡(luò)也是由多層網(wǎng)絡(luò)順序連接構(gòu)成的,并加入長(zhǎng)短期記憶網(wǎng)絡(luò)單元,以使循環(huán)神經(jīng)網(wǎng)絡(luò)可以選擇記憶多段時(shí)間序列之前的內(nèi)容,其計(jì)算過(guò)程如下:首先將基于卷積神經(jīng)網(wǎng)絡(luò)提取出來(lái)的人物、動(dòng)作和上下文環(huán)境語(yǔ)義特征作為輸入,經(jīng)過(guò)第一層長(zhǎng)短期記憶網(wǎng)絡(luò)編碼后得到固定長(zhǎng)度的輸出向量,然后把第一層的輸出向量作為第二層長(zhǎng)短期記憶網(wǎng)絡(luò)的輸入,運(yùn)用Softmax函數(shù)計(jì)算每一個(gè)語(yǔ)義在語(yǔ)義集上的概率分布,最終得到視頻圖像集的向量化語(yǔ)義描述。

        3D模型體素圖像數(shù)據(jù)集則采用3D卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,相比于應(yīng)用于2D圖像的卷積神經(jīng)網(wǎng)絡(luò),3D卷積神經(jīng)網(wǎng)絡(luò)將對(duì)3D數(shù)據(jù)進(jìn)行卷積計(jì)算并輸出另外一個(gè)3D數(shù)據(jù)。該網(wǎng)絡(luò)結(jié)構(gòu)由卷積層、池化層、整合層、全連接層和分類層組成,在卷積層,3D模型體素化分辨率用di表示,用i表示輸入層數(shù),則網(wǎng)絡(luò)輸入是大小為di*di*di的體素?cái)?shù)據(jù),隨機(jī)生成歸一化的卷積核矩陣W,卷積核大小為ei*ei*ei,則第k層卷積層特征圖對(duì)應(yīng)的卷積核為wkiPei*ei*ei,第k層特征圖可以由計(jì)算公式Fki=h(wkix+b),其中,表示卷積運(yùn)算,h(·)是非線性激活函數(shù),x為輸入3D模型的體素化表示,b為偏置。在池化層,采用最大值池化操作,用Pki表示第k個(gè)池化特征圖,則Pki=max(Fki+b),max(·)為取最大值操作。整合層將卷積層和池化層提取的特征圖進(jìn)行向量化,即把多維向量變?yōu)橐痪S列向量。全連接層將整合層得到的特征向量作為輸入,經(jīng)過(guò)全連接后可以將3D模型的特征表示映射到樣本標(biāo)記空間中。最后,使用Softmax分類層將多分類的輸出數(shù)值轉(zhuǎn)化為相對(duì)概率,得到3D模型的特征向量。

        3.4 得到視覺(jué)資源檢索推薦列表

        在完成深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練之后,便可以將檢索用戶特征向量和目標(biāo)視覺(jué)資源單詞向量信息輸入到深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型中,通過(guò)訓(xùn)練好的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型得到用戶對(duì)目標(biāo)視覺(jué)資源的預(yù)測(cè)評(píng)分值,最后按照評(píng)分值的大小順序進(jìn)行排列,將評(píng)分較高的前N個(gè)視覺(jué)資源信息生成推薦列表并推送給檢索用戶。

        4 基于深度學(xué)習(xí)的智慧圖書(shū)館MVS研究展望

        隨著大數(shù)據(jù)和人工智能技術(shù)的不斷發(fā)展,深度學(xué)習(xí)在智慧圖書(shū)館中的應(yīng)用也越來(lái)越受到重視,但目前基于深度學(xué)習(xí)的智慧圖書(shū)館MVS系統(tǒng)研究仍處于起步階段,而在未來(lái)必將會(huì)有更深入的探討和應(yīng)用,以下總結(jié)了3個(gè)可能的研究方向。

        4.1 基于深度學(xué)習(xí)的智慧圖書(shū)館MVS跨平臺(tái)信息融合問(wèn)題

        智慧圖書(shū)館MVS系統(tǒng)數(shù)據(jù)獲取能力的不斷提升,使得用戶和視覺(jué)數(shù)據(jù)在不同平臺(tái)的信息能夠越來(lái)越方便的獲取,融合用戶和視覺(jué)數(shù)據(jù)在不同平臺(tái)的信息可以有效克服單一平臺(tái)信息的不足,更好地發(fā)現(xiàn)用戶的個(gè)性化偏好,為用戶提供更為準(zhǔn)確的視覺(jué)資源檢索推薦列表。利用深度學(xué)習(xí)技術(shù),將各類視覺(jué)資源數(shù)據(jù)進(jìn)行統(tǒng)一輸入,構(gòu)建有效融合各種類型、跨平臺(tái)異構(gòu)視覺(jué)數(shù)據(jù)的深度學(xué)習(xí)訓(xùn)練網(wǎng)絡(luò)模型,以實(shí)現(xiàn)跨平臺(tái)信息融合的智慧圖書(shū)館MVS服務(wù)將是重要研究方向之一。

        4.2 基于深度學(xué)習(xí)的智慧圖書(shū)館MVS系統(tǒng)優(yōu)化問(wèn)題

        首先,對(duì)于智慧圖書(shū)館MVS系統(tǒng)來(lái)說(shuō),面向不同的用戶和場(chǎng)景時(shí)采用統(tǒng)一的深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)和計(jì)算參數(shù)是不可能的,需要根據(jù)不同的目標(biāo)任務(wù)構(gòu)建新的深度學(xué)習(xí)框架來(lái)提供MVS服務(wù)。其次,還需要積極拓展視覺(jué)數(shù)據(jù)特征提取的語(yǔ)義線索,充分利用和融合視覺(jué)數(shù)據(jù)中的音頻、標(biāo)簽、評(píng)論等固有信息,通過(guò)建模更多視覺(jué)數(shù)據(jù)信息提升深度學(xué)習(xí)MVS系統(tǒng)的語(yǔ)義識(shí)別能力。再次,智慧圖書(shū)館MVS系統(tǒng)移動(dòng)端功能也需要進(jìn)一步的完善,努力實(shí)現(xiàn)移動(dòng)端視覺(jué)信息采集、實(shí)時(shí)傳輸、深度學(xué)習(xí)訓(xùn)練及檢索反饋的MVS服務(wù)全過(guò)程,使用戶在任何場(chǎng)景下都可以使用智慧圖書(shū)館MVS系統(tǒng)進(jìn)行視覺(jué)數(shù)據(jù)檢索。

        4.3 基于深度學(xué)習(xí)的智慧圖書(shū)館MVS自動(dòng)進(jìn)化問(wèn)題

        隨著深度學(xué)習(xí)模型的不斷發(fā)展,其能力將遠(yuǎn)遠(yuǎn)超過(guò)對(duì)輸入數(shù)據(jù)進(jìn)行簡(jiǎn)單的連續(xù)幾何變換,而是具有豐富的算法特性和更強(qiáng)的泛化能力,既能實(shí)現(xiàn)正式的推理、搜索和抽象功能,又能提供非正式的直覺(jué)和模式識(shí)別能力。智慧圖書(shū)館MVS系統(tǒng)的功能模塊可以通過(guò)復(fù)用全局庫(kù)(通過(guò)在先前任務(wù)和數(shù)據(jù)集上學(xué)習(xí)高性能模型得到)中的模塊化部件,實(shí)現(xiàn)MVS功能的自動(dòng)進(jìn)化,而不需要人工強(qiáng)干預(yù),并且隨著MVS系統(tǒng)對(duì)經(jīng)常出現(xiàn)問(wèn)題解決模式的識(shí)別,這些模式將被轉(zhuǎn)化為可復(fù)用的子程序并添加到全局庫(kù)中,最終達(dá)到智慧圖書(shū)館MVS系統(tǒng)具有永久學(xué)習(xí)能力的目標(biāo)也需要進(jìn)一步的研究。

        5 結(jié)束語(yǔ)

        大規(guī)模視覺(jué)數(shù)據(jù)的搜索問(wèn)題是衡量智慧圖書(shū)館MVS服務(wù)是否滿足用戶需求的一個(gè)重要問(wèn)題,而且用戶進(jìn)行MVS時(shí)往往都是在線完成的,因此快速準(zhǔn)確響應(yīng)用戶的MVS服務(wù)請(qǐng)求是智慧圖書(shū)館MVS系統(tǒng)必需具備的能力。近年來(lái),深度學(xué)習(xí)技術(shù)在圖像處理、語(yǔ)音識(shí)別和動(dòng)態(tài)數(shù)據(jù)特征提取等領(lǐng)域取得了突出成就,但是基于深度學(xué)習(xí)的智慧圖書(shū)館MVS系統(tǒng)的研究還處于探索階段。本文在分析深度學(xué)習(xí)技術(shù)和圖書(shū)館MVS系統(tǒng)研究現(xiàn)狀的基礎(chǔ)上,設(shè)計(jì)了基于深度學(xué)習(xí)的智慧圖書(shū)館MVS服務(wù)模式及其工作流程,并對(duì)深度學(xué)習(xí)技術(shù)在智慧圖書(shū)館MVS系統(tǒng)中的應(yīng)用趨勢(shì)進(jìn)行了展望,以期為用戶提供更加優(yōu)質(zhì)的MVS服務(wù),滿足用戶的個(gè)性化知識(shí)需求。

        參考文獻(xiàn)

        [1]王世偉.未來(lái)圖書(shū)館的新模式——智慧圖書(shū)館[J].圖書(shū)館建設(shè),2011,(12):1-5.

        [2]張興旺,李晨暉.數(shù)字圖書(shū)館移動(dòng)視覺(jué)搜索機(jī)制建設(shè)的若干關(guān)鍵問(wèn)題[J].圖書(shū)情報(bào)工作,2015,59(15):42-48.

        [3]Lecun Y,Bengio Y,Hinton G.Deep Learning[J].Nature,2015,521(7553):436-444.

        [4]David M.Chen,Sam S.Tsai,Vijay Chandrasekhar,et al.Tree Histogram Coding for Mobile Image Matching[C]//Proceedings of the 2009 Data Compression Conference,IEEE,2009:143-152.

        [5]劉喜球,張興旺.移動(dòng)視覺(jué)搜索:“互聯(lián)網(wǎng)+”時(shí)代數(shù)字圖書(shū)館信息檢索新模式[J].情報(bào)理論與實(shí)踐,2016,39(5):58-63.

        [6]張興旺,鄭聰.領(lǐng)域?qū)虻臄?shù)字圖書(shū)館移動(dòng)視覺(jué)搜索引擎建設(shè)研究[J].圖書(shū)與情報(bào),2016,(5):40-47.

        [7]曾子明,秦思琪.智慧圖書(shū)館移動(dòng)視覺(jué)搜索服務(wù)及其技術(shù)框架研究[J].情報(bào)資料工作,2017,(4):61-67.

        [8]曾子明,宋揚(yáng)揚(yáng).基于SoLoMo的智慧圖書(shū)館移動(dòng)視覺(jué)搜索服務(wù)研究[J].圖書(shū)館,2017,(7):92-98.

        [9]曾子明,秦思琪.去中心化的智慧圖書(shū)館移動(dòng)視覺(jué)搜索管理體系[J].情報(bào)科學(xué),2018,36(1):11-15,60.

        [10]李晨暉,張興旺,秦曉珠.基于大數(shù)據(jù)的文化遺產(chǎn)數(shù)字圖書(shū)館移動(dòng)視覺(jué)搜索機(jī)制建設(shè)研究[J].情報(bào)理論與實(shí)踐,2018,41(4):139-144,133.

        [11]韓璽,何秀美,張玥,等.基于語(yǔ)義關(guān)聯(lián)的圖書(shū)館移動(dòng)視覺(jué)搜索資源與服務(wù)聚合研究[J].現(xiàn)代情報(bào),2017,37(10):3-7,22.

        [12]韓璽,張玥,朱慶華.基于移動(dòng)視覺(jué)搜索的圖書(shū)館、檔案館、博物館資源融合服務(wù)模式研究[J].情報(bào)資料工作,2018,(2):63-70.

        [13]孫翌,周鋒,張浩.移動(dòng)視覺(jué)搜索在特色資源服務(wù)中的應(yīng)用實(shí)踐[J].現(xiàn)代情報(bào),2017,37(9):107-113.

        [14]鐘志鵬,王涌天,陳靖,等.一個(gè)基于移動(dòng)視覺(jué)搜索技術(shù)的博物館導(dǎo)覽系統(tǒng)[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2012,24(4):555-562.

        [15]Geoffrey E.Hinton,Simon Osindero,Yee-Whye Teh.A fast Learning Algorithm for Deep Belief Nets[J].Neural Computation,2006,18(7):1527-1554.

        [16]Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with Deep Convolutional Neural Networks[C]//International Conference on Neural Information Processing Systems.Curran Associates Inc,2012:1097-1105.

        [17]Wang W,Shen J,Shao L.Video Salient Object Detection Via Fully Convolutional Networks[J].IEEE Transactions on Image Processing,2017,27(1):38-49.

        [18]Han Z,Liu Z,Han J,et al.Unsupervised 3D Local Feature Learning By Circle Convolutional Restricted Boltzmann Machine[J].IEEE Trans Image Process,2016,25(11):5331-5344.

        [19]Han Z,Liu Z,Han J,et al.Mesh Convolutional Restricted Boltzmann Machines for Unsupervised Learning of Features with Structure Preservation on 3-D Meshes[J].IEEE Transactions on Neural Networks & Learning Systems,2017,28(10):2268-2281.

        [20]Peng Y X,Zhu W W,Zhao Y,et al.Cross-media Analysis and Reasoning:Advances and Directions[J].Frontiers of Information Technology & Electronic Engineering,2017,18(1):44-57.

        [21]Hochreiter S,Schmidhuber J.Long Short-term Memory[J].Neural Computation,1997,9(8):1735-1780.

        (責(zé)任編輯:郭沫含)

        猜你喜歡
        智慧圖書(shū)館卷積神經(jīng)網(wǎng)絡(luò)服務(wù)模式
        基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
        基于云計(jì)算的數(shù)字圖書(shū)館建設(shè)與服務(wù)模式研究
        Beacon技術(shù)在圖書(shū)館信息服務(wù)中的應(yīng)用研究
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        文化館總分館制服務(wù)模式的實(shí)施探索
        基于用戶館文獻(xiàn)傳遞服務(wù)模式的研究與實(shí)踐
        基于物聯(lián)網(wǎng)的健康管理服務(wù)模式
        基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        智慧圖書(shū)館項(xiàng)目建設(shè)的應(yīng)用實(shí)踐
        基于卷積神經(jīng)網(wǎng)絡(luò)的樹(shù)葉識(shí)別的算法的研究
        亚洲va中文字幕无码久久不卡| 日本黄网色三级三级三级| 一区二区三区精品免费| 日本精品视频一区二区三区四区 | 久久亚洲色一区二区三区| 亚洲一区二区三区无码国产| 中文在线天堂网www| 精品亚洲不卡一区二区| 久久一区二区视频在线观看| 久久日日躁夜夜躁狠狠躁| 亚洲欧美日韩成人高清在线一区| 国产精品国产三级国产av′| 国产黑色丝袜在线观看视频| 少妇又紧又色又爽又刺| 午夜福利影院成人影院| 免费无码高潮流白浆视频| 亚洲av无码专区国产乱码不卡| av中文字幕少妇人妻| 中文亚洲第一av一区二区 | 一区二区三区精品少妇| 久久精品欧美日韩精品| 国产成人无码区免费网站| 亚洲AV日韩AV高潮喷潮无码| 亚洲一区二区懂色av| 亚洲av综合av一区二区三区| 无码国模国产在线观看| AV无码一区二区三区国产| 狼人av在线免费观看| 亚洲一区二区国产一区| 永久免费人禽av在线观看| 亚洲永久精品ww47| 日本一区免费喷水| 日日高潮夜夜爽高清视频| 亚洲国产精品成人精品无码区在线 | 青青青国产免A在线观看| 女同在线网站免费观看| 亚洲午夜精品一区二区| 国产亚洲av无码专区a∨麻豆| 日本加勒比东京热日韩| 日本一区二区三区激视频| 人人妻人人澡人人爽人人精品浪潮|