亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種面向圖情信息的快速檢索優(yōu)化算法

        2023-12-18 08:58:34徐繼維
        現(xiàn)代電子技術(shù) 2023年24期
        關(guān)鍵詞:數(shù)字圖書特征提取檢索

        徐繼維

        (長(zhǎng)安大學(xué) 圖書館, 陜西 西安 710064)

        隨著計(jì)算機(jī)、大數(shù)據(jù)技術(shù)的發(fā)展,數(shù)字圖書館已經(jīng)成為了社會(huì)數(shù)字信息資源的重要組成部分[1-2]。數(shù)字圖書館的基礎(chǔ)信息是數(shù)字信息資源,這些資源一部分來自于圖書、期刊、報(bào)紙、音像等傳統(tǒng)文獻(xiàn)的電子版,還有一部分來源于各種數(shù)據(jù)庫(kù)和互聯(lián)網(wǎng)[3-4]。20 世紀(jì)70 年代初,聯(lián)機(jī)公共檢索目錄(Online Public Access Catalog,OPAC)誕生,這是最早的因特網(wǎng)館藏資源遠(yuǎn)程檢索工具。但隨著網(wǎng)絡(luò)資源信息的爆炸式增長(zhǎng),各高校、公共圖書館、政府情報(bào)部門等單位的數(shù)字圖書資源不斷涌入網(wǎng)絡(luò),數(shù)字資源的形式也由單純的文本信息向多媒體形式轉(zhuǎn)變。因此,信息資源的數(shù)字化、信息形式的多媒體化和信息存取的網(wǎng)絡(luò)化成為了數(shù)字圖書資源信息的顯著特點(diǎn)。在這種趨勢(shì)下,如何快速地檢索出有效信息并提升讀者的用戶體驗(yàn),成為了目前的研究熱點(diǎn)之一。

        1 理論分析與方法架構(gòu)設(shè)計(jì)

        1.1 數(shù)字圖書信息檢索流程

        優(yōu)化、提升圖書信息檢索效率的關(guān)鍵在于梳理清楚信息的檢索流程,圖1 所示為本文梳理出的用戶在進(jìn)行信息檢索時(shí)前端和后端的業(yè)務(wù)交互流程。

        圖1 數(shù)字圖書信息檢索流程

        如圖1 所示,為了實(shí)現(xiàn)數(shù)字圖書信息的檢索,在采集完所有的圖書信息后,首先進(jìn)行海量的信息存儲(chǔ);然后,為了便于用戶的檢索,需要實(shí)現(xiàn)信息的自動(dòng)化標(biāo)注;隨后用戶通過相關(guān)檢索系統(tǒng)的查詢接口,利用索引詞在系統(tǒng)中通過標(biāo)注得到所需的信息[5-7]。綜上所述,數(shù)據(jù)信息的自動(dòng)化標(biāo)注是實(shí)現(xiàn)信息快速檢索的關(guān)鍵。因此,文中主要對(duì)基于人工智能理論的自動(dòng)化標(biāo)注方法進(jìn)行研究。在設(shè)計(jì)圖書信息的檢索算法時(shí),基于現(xiàn)有理論進(jìn)行優(yōu)化與改進(jìn)可以提升設(shè)計(jì)效率,故本文在信息標(biāo)注時(shí),引入了相似度作為深度學(xué)習(xí)模型的特征。對(duì)于多媒體信息,可以從圖像屬性相似度、文本相似度以及參與檢索的用戶相似度方面進(jìn)行分析[8-10]。

        圖像相似度主要是指采集的圖書圖像信息在采集時(shí)間、地點(diǎn)、類別、文本描述等相關(guān)屬性信息上的相似度,具體計(jì)算公式如下:

        式中:a、b分別代表兩個(gè)采集的不同圖像;PP、PT分別為基于屬性和文本描述的相似度;w1、w2分別為其權(quán)重,且滿足:

        文本相似度主要用于評(píng)價(jià)所采集的數(shù)字圖書相關(guān)描述信息的相似度,其計(jì)算公式如下:

        式中:T1、T2分別是兩條待比對(duì)的文本;DIS 為文本的編輯距離,該距離通過計(jì)算一個(gè)字符串轉(zhuǎn)換到另一個(gè)字符串的最小操作數(shù)來評(píng)估文本的相似性;len(·)為文本長(zhǎng)度的計(jì)算函數(shù)。

        用戶相似度則是指用戶進(jìn)行檢索時(shí),可以根據(jù)用戶對(duì)于某時(shí)間的關(guān)注度、對(duì)于某領(lǐng)域的興趣進(jìn)行快速推薦,從而提高檢索效率。其具體計(jì)算公式如下:

        式中:u、v分別代表兩個(gè)不同的用戶;SL、ST、SF分別是用戶的位置、標(biāo)簽和社交信息的相似度;w1、w2、w3分別是各自的權(quán)重。w1、w2、w3的關(guān)系為:

        當(dāng)?shù)玫叫畔⒌目傁嗨贫群?,若直接根?jù)數(shù)據(jù)庫(kù)已有的標(biāo)簽對(duì)其進(jìn)行標(biāo)注則可能會(huì)引入錯(cuò)誤標(biāo)注,降低信息標(biāo)注的準(zhǔn)確性。因此,文中采用TF-IDF 作為標(biāo)注降噪的標(biāo)準(zhǔn)[11-12]:

        式中:Ti為算法生成的標(biāo)注;Ni表示Ti在相似標(biāo)注中出現(xiàn)的頻次;N為所有相似標(biāo)注的總和;Di為Ti的逆文檔率。本文算法為所有生成的標(biāo)注設(shè)置了一定的TFIDF 閾值,當(dāng)?shù)陀陂撝禃r(shí),數(shù)據(jù)庫(kù)中將不再保留算法生成的標(biāo)注。

        1.2 基于區(qū)域劃分的信息標(biāo)注方法

        在進(jìn)行數(shù)字圖書多媒體信息標(biāo)注時(shí),如果僅采用1.1 節(jié)所述方法,則可能存在原始數(shù)據(jù)庫(kù)中無相似信息的情況,此時(shí)就會(huì)出現(xiàn)待標(biāo)注的信息本身不夠豐富或者無法完成標(biāo)注的情況。為此,本文針對(duì)圖書的圖像信息,引入了RCNN 網(wǎng)絡(luò)[13-14]選取圖像的最相關(guān)區(qū)域:

        劃分區(qū)域的RCNN 網(wǎng)絡(luò)框架如圖2 所示。所設(shè)計(jì)的RCNN 網(wǎng)絡(luò)包含兩個(gè)通道,其中左通道對(duì)主要區(qū)域進(jìn)行標(biāo)注,右通道對(duì)候選的次要區(qū)域進(jìn)行標(biāo)注。在進(jìn)行特征提取時(shí),主要使用卷積和全連接運(yùn)算,其中Score 運(yùn)算的定義如式(8)所示。疊加后,通過Softmax 層確定該信息的具體標(biāo)注:

        圖2 劃分區(qū)域的RCNN 網(wǎng)絡(luò)

        式中:s為當(dāng)前待識(shí)別的數(shù)字圖書圖像信息;S為信息的標(biāo)識(shí)集合;I為區(qū)域r中的特征向量。

        模型在訓(xùn)練時(shí),基于誤差的反向傳播思想,使用梯度下降法實(shí)現(xiàn)訓(xùn)練[15],定義模型標(biāo)識(shí)時(shí)所采用的損失函數(shù)為:

        2 算法實(shí)現(xiàn)與測(cè)試分析

        2.1 仿真實(shí)驗(yàn)設(shè)計(jì)

        為了評(píng)估模型的性能,本文從某高校圖書館的數(shù)據(jù)庫(kù)中導(dǎo)出了現(xiàn)有數(shù)字圖書的圖像信息作為數(shù)據(jù)集進(jìn)行驗(yàn)證仿真,表1 為圖像的類別及數(shù)量信息。

        表1 數(shù)據(jù)集中數(shù)字圖書信息

        為了評(píng)估模型在進(jìn)行信息檢索時(shí)的識(shí)別準(zhǔn)確度,采用準(zhǔn)確率P和召回率R作為評(píng)價(jià)指標(biāo)。提取信息特征的網(wǎng)絡(luò)由多個(gè)卷積層與池化層組成,文中以目前業(yè)界較成熟的兩個(gè)網(wǎng)絡(luò)ZF-Net 和VGG-16 作為特征提取網(wǎng)絡(luò),網(wǎng)絡(luò)的區(qū)別如表2 所示。

        表2 ZF-Net 和VGG-16 的網(wǎng)絡(luò)特征

        通過對(duì)比兩個(gè)網(wǎng)絡(luò)的性能和適用場(chǎng)景,本文選擇VGG-16 作為特征提取網(wǎng)絡(luò)。在使用時(shí),主要利用其全連接層之前的結(jié)構(gòu),具體的網(wǎng)絡(luò)參數(shù)如表3 所示。

        表3 VGG-16 的具體參數(shù)設(shè)置

        文中的特征提取網(wǎng)絡(luò)包括13 個(gè)卷積層和4 個(gè)池化層,卷積層中使用ReLU 作為激活函數(shù),網(wǎng)絡(luò)中所有的卷積運(yùn)算使用的卷積核尺寸均為3×3,訓(xùn)練參數(shù)如表4所示。

        表4 VGG-16 的訓(xùn)練參數(shù)

        信息經(jīng)過特征提取網(wǎng)絡(luò)后,被劃分為3 個(gè)通道,其中一個(gè)是所設(shè)計(jì)的RCNN 候選框調(diào)整網(wǎng)絡(luò),另外兩個(gè)通道的結(jié)構(gòu)如表5 所示。

        2.2 仿真結(jié)果分析

        首先評(píng)估算法在單純依靠相似度時(shí)對(duì)于圖書信息的標(biāo)注效率,計(jì)算結(jié)果如表6 所示。

        表6 基于相似度的信息標(biāo)注結(jié)果

        從表6 中可以看出:通過文本的方式對(duì)數(shù)字圖書信息進(jìn)行標(biāo)注時(shí),由于采集的文本信息夾雜了大量與圖書信息不相關(guān)的內(nèi)容,導(dǎo)致正確標(biāo)注剛剛過半;單純引入多維相似度標(biāo)注方法時(shí),由于未經(jīng)過降噪,因此也會(huì)生成不相關(guān)的標(biāo)注,這反而惡化了實(shí)際的標(biāo)注效果。在對(duì)已標(biāo)注的信息進(jìn)行TF-IDF 降噪后性能明顯提升,相比基于文本的傳統(tǒng)信息標(biāo)注方式,其準(zhǔn)確率提升了0.121,召回率提升了0.291。圖3 給出了不同相似度時(shí)準(zhǔn)確率的變化趨勢(shì),可以看出本文引入的相似度指標(biāo)與標(biāo)注的準(zhǔn)確率呈正相關(guān),這證明了多源評(píng)價(jià)指標(biāo)體系的可行性。

        圖3 相似度與準(zhǔn)確率的關(guān)系曲線

        隨后對(duì)引入RCNN 網(wǎng)絡(luò)的標(biāo)注方法進(jìn)行評(píng)估,記k為次要區(qū)域的個(gè)數(shù),對(duì)模型在不同k取值時(shí)進(jìn)行訓(xùn)練,所得到的P值如表7 所示。

        表7 不同次要區(qū)域下的訓(xùn)練準(zhǔn)確率

        當(dāng)k=0 時(shí),RCNN 網(wǎng)絡(luò)和普通的CNN 網(wǎng)絡(luò)結(jié)構(gòu)相同。當(dāng)k取值增加時(shí),P隨之增加。當(dāng)k=6 時(shí),P取得最大值,因此文中選取k=6。此時(shí),訓(xùn)練完成的模型在測(cè)試集上得到的準(zhǔn)確率如表8 所示。

        表8 不同算法在測(cè)試集上的準(zhǔn)確率

        由表8 可以看出,引入RCNN 網(wǎng)絡(luò)后,多源信息相似度標(biāo)注方法的精確度有所提升,證明了多區(qū)域信息特征提取的必要性。此外,相較于現(xiàn)有OTC、Mop-CNN、ImageNet-CNN 等人工智能網(wǎng)絡(luò),在本算法框架下,準(zhǔn)確率分別提升了0.372、0.093、0.201。

        3 結(jié) 語(yǔ)

        針對(duì)當(dāng)前數(shù)字圖書信息的檢索問題,本文研究了基于融合數(shù)據(jù)的信息標(biāo)注方法,通過提升信息標(biāo)注的準(zhǔn)確性,優(yōu)化圖書信息的檢索流程,降低了用戶在信息檢索時(shí)的消耗,并提升了在線查找時(shí)的用戶體驗(yàn)。仿真結(jié)果表明,本算法可以有效提取多媒體形式的數(shù)字圖書信息特征。隨著數(shù)字圖書資源的不斷豐富,所提算法將有更為廣闊的應(yīng)用前景。

        猜你喜歡
        數(shù)字圖書特征提取檢索
        區(qū)塊鏈在數(shù)字圖書侵權(quán)中的司法救濟(jì)作用分析
        今傳媒(2022年12期)2022-12-22 07:19:58
        數(shù)字圖書回顧與反思
        中文信息(2021年6期)2021-03-27 11:10:19
        2019年第4-6期便捷檢索目錄
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        Bagging RCSP腦電特征提取算法
        專利檢索中“語(yǔ)義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        數(shù)字圖書營(yíng)銷方法探究
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        數(shù)字圖書加密措施與密鑰管理
        Walsh變換在滾動(dòng)軸承早期故障特征提取中的應(yīng)用
        軸承(2010年2期)2010-07-28 02:26:12
        国产精品一久久香蕉国产线看观看| 成人国产一区二区三区| 人妻体体内射精一区二区| 国产精品99久久免费| 亚洲免费毛片网| 亚洲av午夜福利精品一区不卡| 成人麻豆日韩在无码视频| 亚洲av综合av国产av| 欧美日韩中文亚洲另类春色| 国产精品日本一区二区三区在线| 夜夜爽夜夜叫夜夜高潮| 少妇放荡的呻吟干柴烈火动漫| 精品中文字幕制服中文| 自拍av免费在线观看| 亚洲av永久无码精品网站| 久久99精品国产99久久6尤物| av在线亚洲欧洲日产一区二区| 亚洲日韩一区二区一无码| 91国语对白在线观看| 少妇性俱乐部纵欲狂欢少妇| 三级特黄60分钟在线观看| 久久精品国产亚洲AV无码不| 伊人狼人大香线蕉手机视频 | 综合人妻久久一区二区精品| 亚洲国产av自拍一区| 黑人巨茎大战欧美白妇| 四虎成人精品国产一区a| 亚洲精品一区二在线观看| 中文字字幕人妻中文| 99久久综合狠狠综合久久| 国产美女久久久亚洲综合| 日韩女同精品av在线观看| 真人新婚之夜破苞第一次视频| 91性视频| 日本中文字幕有码在线播放| 亚洲无线码一区二区三区| 欧美亚洲日本在线| 一区二区三区国产大片| 肉色丝袜足j视频国产| 亚洲av色无码乱码在线观看| 日本一区二区视频免费观看|