亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向電商的多模態(tài)商品檢索引擎設(shè)計(jì)

        2022-07-15 09:54:08林榆森施自凱林世翔
        關(guān)鍵詞:模態(tài)深度特征

        潘 巍,林榆森,施自凱,林世翔

        (哈爾濱華德學(xué)院 數(shù)據(jù)科學(xué)與人工智能學(xué)院,哈爾濱 150025)

        0 引 言

        近年來(lái),隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展以及人們對(duì)生活便利的需求,網(wǎng)購(gòu)電商平臺(tái)得到了飛速的發(fā)展,網(wǎng)上消費(fèi)和選購(gòu)心儀商品成為大多數(shù)人的首選。當(dāng)前,隨著網(wǎng)購(gòu)模式的快速普及,雖然電商平臺(tái)已經(jīng)儲(chǔ)備了海量的用戶商品購(gòu)買行為數(shù)據(jù),但人們?cè)诰W(wǎng)上購(gòu)物時(shí),若想在電商平臺(tái)中有效檢索出符合自身偏好的商品卻越來(lái)越難,該問(wèn)題的存在使得電商平臺(tái)的現(xiàn)有檢索系統(tǒng)面臨著巨大挑戰(zhàn)。此外,經(jīng)常使用電商購(gòu)物平臺(tái)(如淘寶,京東和亞馬遜)的用戶還會(huì)發(fā)現(xiàn),這些平臺(tái)僅支持語(yǔ)音搜索、文本搜索、圖片搜索等單模態(tài)檢索方式,不能滿足用戶精準(zhǔn)定位的商品需求。

        1 多模態(tài)商品檢索引擎需求分析

        商品搜索引擎以多模態(tài)商品檢索條件數(shù)據(jù)作為輸入,并將這些數(shù)據(jù)和數(shù)據(jù)庫(kù)里的用戶行為信息一起提取特征,進(jìn)行多模態(tài)融合得到融合后的特征向量,并把特征向量,構(gòu)建出一種全新的多模態(tài)個(gè)性化商品檢索引擎,主要應(yīng)用于電商的多模態(tài)商品檢索、商品個(gè)性化推薦和商品問(wèn)答機(jī)器人。目的是為了提高檢索的準(zhǔn)確度,提高用戶購(gòu)物體驗(yàn)的滿意度??梢哉f(shuō)檢索引擎為用戶帶來(lái)了線上購(gòu)物的極大便利,對(duì)相關(guān)的電商平臺(tái)帶來(lái)了巨大的盈利效益。

        多模態(tài)的商品檢索引擎需要處理多種數(shù)據(jù)類型的數(shù)據(jù),如圖片,音頻和文本信息。如何將多模態(tài)數(shù)據(jù)進(jìn)行特征表達(dá)和融合是其要解決的關(guān)鍵性問(wèn)題。此外,在現(xiàn)有的電商商品交易系統(tǒng)中存在海量的多模態(tài)數(shù)據(jù),若能從中自動(dòng)提取出商品特征,有效的檢索出用戶偏好的商品集合也是其有待解決的重要問(wèn)題。相比傳統(tǒng)的機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)可通過(guò)多個(gè)隱含層的仿射變換來(lái)自動(dòng)提取多種類型數(shù)據(jù)的特征,并且對(duì)于海量數(shù)據(jù)處理任務(wù)表現(xiàn)出極好的學(xué)習(xí)泛化能力。從而利用深度學(xué)習(xí)來(lái)構(gòu)建多模態(tài)的商品檢索引擎是最好的選擇。

        2 基于深度學(xué)習(xí)的特征表示和提取技術(shù)

        在多模態(tài)的商品檢索引擎中,主要提取文字、圖像和聲音數(shù)據(jù)的特征,并有效的將其融合。其特征提取可依賴于深度學(xué)習(xí)技術(shù)來(lái)完成。

        2.1 基于深度學(xué)習(xí)模型的圖像處理技術(shù)

        近年來(lái),基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò),在圖像識(shí)別方面獲得了巨大的成功,其可以通過(guò)多層卷積操作來(lái)獲得圖像特征的深度表達(dá),如ResNet、LeNet5、AlexNet、Inception Net等。Vision Transformer的提出,相較于卷積神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),使用了一種自注意力機(jī)制,該模型的學(xué)習(xí)能力超越了前面所提到的基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型。2021年3月,微軟公布了Swin Transformer模型,該模型使用移動(dòng)窗口來(lái)計(jì)算多尺度的圖像特征,并減少了模型的計(jì)算復(fù)雜度。同年,美團(tuán)和阿德萊德大學(xué)提出了Twins Transformer(Twins-PCPVT),其設(shè)計(jì)出空間自注意力機(jī)制,使其在圖像分類、目標(biāo)檢測(cè)和語(yǔ)義分割任務(wù)上超越了Swin Transformer模型。Twins-PCPVT通過(guò)將PVT中的位置編碼替換為CPVT中提出的條件位置編碼CPE,使其在分類和下游任務(wù)上直接獲得大幅度的性能提升。尤其是在稠密任務(wù)上,由于條件編碼CPE支持輸入可變長(zhǎng)度,使得對(duì)于圖像的處理上,可以靈活處理來(lái)自不同空間尺度的特征。

        2.2 基于深度學(xué)習(xí)模型的音頻處理技術(shù)

        眾所周知,早期的語(yǔ)音識(shí)別系統(tǒng)通常由兩部分組成:一是利用輸入的waveform,人為提取MFCC特征;二是通過(guò)分類模型來(lái)對(duì)聲音進(jìn)行識(shí)別。隨著深度神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展,可以通過(guò)CNN、DNN、LSTM等深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)自動(dòng)化提取特征,相對(duì)于非端對(duì)端模型,減少了工程的復(fù)雜度,并廣泛的應(yīng)用到語(yǔ)音識(shí)別中獲得了良好的效果。

        2006年以來(lái),雖然基于深度學(xué)習(xí)的CTC模型(如LSTM-CTC、RNN-CTC等)在語(yǔ)音識(shí)別聲學(xué)建模上獲得了巨大的成功,但該模型也存在如下問(wèn)題:一是缺乏語(yǔ)言模型建模能力,不能整合語(yǔ)言模型進(jìn)行聯(lián)合優(yōu)化;二是不能構(gòu)造模型輸出之間的依賴關(guān)系。針對(duì)CTC的不足,Alex Graves提出了RNN-T模型。RNN-T模型巧妙的將語(yǔ)言模型與聲學(xué)模型整合在一起,同時(shí)進(jìn)行聯(lián)合優(yōu)化。2020年2月,谷歌團(tuán)隊(duì)提出了Transformer Transducer。其是一款在RNN-T模型基礎(chǔ)上,把LSTM encoding替換為transformer encoders的模型,利用有限寬度的上下文時(shí)序信息,在基本不損失精度的條件下,可以滿足流式語(yǔ)音識(shí)別的要求,獲得了巨大成功。

        2.3 基于深度學(xué)習(xí)模型的文本處理技術(shù)

        近年來(lái),NLP自然語(yǔ)言處理在文本識(shí)別方面獲得了巨大的成功,可以通過(guò)文本嵌入技術(shù)來(lái)獲得文本特征的深度表達(dá)。例如Skip-Gram、Word2vec和GloVe等等?;谏疃葘W(xué)習(xí)的文本處理任務(wù)存在很多模型,如ABCNN、IndRNN和TextCNN模型等。在此基礎(chǔ)上,2017年谷歌公司提出了基于多頭注意力機(jī)制的Transformer的模型,該模型并沒(méi)有沿用典型的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),而是通過(guò)多頭注意力來(lái)學(xué)習(xí)文本的語(yǔ)義,并在性能方面超越了其它模型。

        2.4 多模態(tài)特征融合技術(shù)

        眾所周知,對(duì)于多模態(tài)任務(wù),如VQA、視覺(jué)定位等,都需要融合兩個(gè)模態(tài)的特征。近年來(lái),多模態(tài)融合最常用的方法是拼接(concatenation)、按位乘(element-wise product)、按位加(element-wise sum)。而多模態(tài)緊湊雙線性池(MCB)的作者認(rèn)為,這些簡(jiǎn)單的操作融合效果不如外積,不足以建模兩個(gè)模態(tài)間的復(fù)雜關(guān)系。MCB將外積的結(jié)果映射到低維空間中,使其計(jì)算更為方便。雙線性池化首先對(duì)特征提取,得到特征映射每個(gè)位置的特征向量進(jìn)行向量外積計(jì)算,然后對(duì)所有位置外積計(jì)算的結(jié)果進(jìn)行平均池化得到特征向量;最后經(jīng)過(guò)L2范數(shù)標(biāo)準(zhǔn)化得到最后的特征。

        3 基于深度學(xué)習(xí)的多模態(tài)的商品檢索引擎

        根據(jù)深度學(xué)習(xí)的特點(diǎn),本文設(shè)計(jì)了一種全新的基于深度學(xué)習(xí)的多模態(tài)商品檢索引擎。其整體結(jié)構(gòu)框架如圖1所示。該引擎的工作流程如下:首先采用深度學(xué)習(xí)模型對(duì)用戶偏好信息中的文本和圖片信息進(jìn)行特征提取,即對(duì)商品數(shù)據(jù)庫(kù)中的文本和圖片進(jìn)行特征提?。蝗缓髮?duì)用戶輸入的檢索條件(如文本、音頻和圖片)信息進(jìn)行特征提?。挥?jì)算兩種商品特征的相似度,選取相似度超過(guò)一定閾值的商品,組成用戶偏好商品集合;之后求得商品數(shù)據(jù)庫(kù)內(nèi)的商品信息和用戶檢索查詢之間的商品特征向量相似度,選取相似度超過(guò)一定閾值的商品組成用戶檢索查詢的商品集合。如果上述兩個(gè)集合有交集,在交集中根據(jù)商品特征相似度,選取前個(gè)商品作為多模態(tài)商品檢索的結(jié)果;否則,就將用戶檢索查詢的商品集合中根據(jù)商品特征相似度選取前個(gè)商品作為多模態(tài)商品檢索的結(jié)果。

        圖1 多模態(tài)的商品檢索引擎結(jié)構(gòu)圖Fig.1 Structure diagram of multimodal commodity retrieval engine

        多模態(tài)特征融合信息主要分為兩類:一類是對(duì)于用戶檢索的條件包含了音頻、文本和圖像的特征融合;還有一類是對(duì)于商品數(shù)據(jù)庫(kù)信息和用戶偏好信息的融合(如文本和圖像特征融合)。

        關(guān)于音頻、文本和圖像的特征提取以及融合如圖2所示。首先采用LCMV算法對(duì)音頻進(jìn)行增強(qiáng),然后將音頻分成Refiner段,再把Refiner段帶入Transformer Transducer模型得到文本轉(zhuǎn)換信息;然后把這些文本信息和用戶檢索查詢的文本進(jìn)行串聯(lián)拼接,再對(duì)拼接后的文本進(jìn)行Skip-Gram嵌入分詞得到Tokenization,將其帶入Transformer模型得到文本的特征向量;之后圖像的處理也是如此,先將圖像進(jìn)行分割成Patch Projection,再將其帶入Twins-PCPVT模型進(jìn)行特征提取,得到圖像的特征向量;最后再將文本的特征向量和圖像的特征向量采用多頭注意力機(jī)制和全連接層的處理,得到了處理后的商品信息的文本和圖像的特征向量,再將這兩個(gè)特征向量帶入MCB模型進(jìn)行融合。

        圖2 多模態(tài)特征融合的結(jié)構(gòu)圖Fig.2 Structure diagram of multi-modal feature fusion

        4 實(shí)驗(yàn)及分析

        本文選用KDD Cup 2020挑戰(zhàn)賽中的多模態(tài)商品數(shù)據(jù)集,該數(shù)據(jù)集中包含用戶文本檢索數(shù)據(jù)和圖像檢索數(shù)據(jù),從中選取10萬(wàn)條數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集,在此基礎(chǔ)上添加了用戶的偏好信息,并為數(shù)據(jù)集中50%的樣本添加了商品語(yǔ)音檢索信息,構(gòu)造出實(shí)驗(yàn)所需的多模態(tài)商品數(shù)據(jù)集(MCDB)。實(shí)驗(yàn)環(huán)境為Ubuntu13.04操作系統(tǒng),Intel i9 109000x處理器,內(nèi)存32G,GPU RTX3090 32G,硬板1T。實(shí)驗(yàn)中使用Python3.6和Pytorch1.10深度學(xué)習(xí)框架編寫(xiě)程序來(lái)實(shí)現(xiàn)模型并對(duì)上述模型進(jìn)行訓(xùn)練。

        為了驗(yàn)證本文模型的有效性,選取具有代表性的文本檢索模型LSTM-DSSM和圖像檢索模型DELF與本文提出的多模態(tài)商品檢索模型MCFRNet模型進(jìn)行運(yùn)行時(shí)間效率對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見(jiàn)表1。

        表1 單模態(tài)與多模態(tài)商品檢索模型的時(shí)間效率Tab.1 Time efficiency of unimodal and multimodal commodity retrieval models s

        表1中,MCFR-Net-1表示利用圖像和文本進(jìn)行商品檢索的模型,MCFR-Net-2表示利用聲音和文本進(jìn)行商品檢索的模型,MCFR-Net-3表示利用圖像、文本和聲音進(jìn)行商品檢索的模型。在模型訓(xùn)練階段,隨機(jī)選取MCDB數(shù)據(jù)集上的80%樣本進(jìn)行訓(xùn)練,其余的作為測(cè)試樣本。通過(guò)表1可以看出,本文提出的MCFR-Net模型相比LSTM-DSSM和DELF模型需要更多的訓(xùn)練時(shí)間才能使模型收斂,但對(duì)于測(cè)試樣本的平均測(cè)試時(shí)間不存在明顯差異。

        根據(jù)檢索召回率對(duì)比LSTM-DSSM、DELF和MCFR-Net的性能,實(shí)驗(yàn)結(jié)果見(jiàn)表2。

        表2 單模態(tài)與多模態(tài)商品檢索模型的召回率Tab.2 Recall rate of unimodal and multimodal commodity retrieval models %

        通過(guò)表2可以看出,隨著檢索排序結(jié)果數(shù)量的增加,各模型的檢索召回率都有明顯提升。DELF模型的性能要高于LSTM-DSSM模型,而本文提出的MCFR-Net系列模型的召回率明顯高于DELF和LSTM-DSSM,并且MCFR-Net-3模型的性能最好。

        5 結(jié)束語(yǔ)

        綜上所述,本文設(shè)計(jì)了一種全新的多模態(tài)商品檢索引擎,采用深度學(xué)習(xí)和特征融合技術(shù)實(shí)現(xiàn)了多模態(tài)數(shù)據(jù)同時(shí)應(yīng)用在一次搜索行為中。實(shí)驗(yàn)證明,面對(duì)多種多樣的信息來(lái)源(如語(yǔ)音,圖像和文本)時(shí),可以使用多模態(tài)檢索引擎模型來(lái)提升搜索的準(zhǔn)確性,解決了單模態(tài)檢索模型特征表示能力有限和準(zhǔn)確性較低的問(wèn)題。

        猜你喜歡
        模態(tài)深度特征
        深度理解一元一次方程
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        深度觀察
        深度觀察
        深度觀察
        抓住特征巧觀察
        國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
        国产美女裸身网站免费观看视频| 国产98在线 | 免费| 草草地址线路①屁屁影院成人| 人妻无码一区二区不卡无码av| 性色av一区二区三区| 天天影视色香欲综合久久| 96精品在线| 国产精品女丝袜白丝袜 | 大又黄又粗又爽少妇毛片| 国产中文字幕免费视频一区| av一区二区三区在线| 国产一区二区三区在线电影| 色狠狠av老熟女| 国产一区a| 国产精品一区二区AV不卡| 中文字幕精品久久一区二区三区| 精品亚洲第一区二区三区| 少妇被爽到高潮喷水久久欧美精品 | 韩国三级在线观看久| 伊人久久大香线蕉综合网站| 欧美性猛交xxxx乱大交蜜桃| 99re6久精品国产首页| 久久精品国产自产对白一区| 中文字幕亚洲精品一区二区三区 | 无码高潮少妇毛多水多水免费| 性色av色香蕉一区二区蜜桃| 国产成人亚洲综合| 国产熟人av一二三区| 中文文精品字幕一区二区| 国产亚洲日本人在线观看| 黄色大片国产精品久久| 人妻少妇69久久中文字幕| 国产三级精品三级| 久久99精品久久久久久| 婷婷五月亚洲综合图区| 亚洲无人区乱码中文字幕| 粉嫩国产av一区二区三区| 丰满岳乱妇一区二区三区| 日韩精品无码久久久久久| 搡老女人老妇女老熟妇69| 亚洲国产人成综合网站|