楊 艦
(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)
如今,互聯(lián)網(wǎng)上的視頻資源日益增多,通過(guò)傳統(tǒng)的關(guān)鍵詞匹配來(lái)進(jìn)行視頻信息檢索,其檢索信息過(guò)于模糊,這會(huì)導(dǎo)致實(shí)際檢索出來(lái)的視頻與用戶(hù)需求出現(xiàn)一定的偏差。例如,用戶(hù)想要檢索Web 系統(tǒng)開(kāi)發(fā)教程,同時(shí)還想限定一些系統(tǒng)需求信息,如系統(tǒng)開(kāi)發(fā)框架、系統(tǒng)特殊接口需求等。這時(shí)候通過(guò)輸入檢索關(guān)鍵詞“個(gè)人博客開(kāi)發(fā)教程”檢索出來(lái)的視頻內(nèi)容講解的Web 框架各異,會(huì)出現(xiàn)大量的關(guān)于個(gè)人博客開(kāi)發(fā)的視頻,用戶(hù)需要浪費(fèi)很多精力從這些大量的視頻當(dāng)中挑選自己需要的教程視頻。這時(shí)候就需要一個(gè)非關(guān)鍵詞檢索的視頻檢索方法,可以個(gè)性化地從用戶(hù)輸入的一段文本當(dāng)中提取有效信息,從而進(jìn)行相似度匹配,為用戶(hù)檢索出最符合用戶(hù)想法的視頻。
本文的研究?jī)?nèi)容主要涉及異構(gòu)信息網(wǎng)絡(luò)和圖嵌入這兩個(gè)技術(shù)。谷歌2012 年提出知識(shí)圖譜概念之后[1],在自然語(yǔ)言處理領(lǐng)域?qū)Ξ悩?gòu)信息網(wǎng)絡(luò)研究非常多。本文主要應(yīng)用異構(gòu)信息網(wǎng)絡(luò)來(lái)將用戶(hù)的搜索文本和視頻介紹文本進(jìn)行圖表示,從而更好地進(jìn)行視頻檢索。近年來(lái),利用異構(gòu)信息網(wǎng)絡(luò)進(jìn)行的研究非常多。徐小玉[2]等人提出了基于異構(gòu)信息網(wǎng)絡(luò)的學(xué)生成績(jī)預(yù)測(cè)與預(yù)警模型,該方法通過(guò)元路徑計(jì)算得到學(xué)生間相似度矩陣,利用相似度矩陣構(gòu)造成績(jī)變化趨勢(shì)矩陣和幅度矩陣,投票得到學(xué)生成績(jī)預(yù)警與預(yù)測(cè)結(jié)果。王勤潔[3]等人基于異構(gòu)信息網(wǎng)絡(luò)理論,提出一種可以融合多語(yǔ)義信息的科技文獻(xiàn)推薦方法。崔鑫[4]提出一種基于異構(gòu)信息網(wǎng)絡(luò)的推薦方法,首先對(duì)問(wèn)答社區(qū)中的問(wèn)題屬性和用戶(hù)屬性建立異構(gòu)信息網(wǎng)絡(luò),在此基礎(chǔ)上,采用元路徑來(lái)獲取異構(gòu)信息網(wǎng)絡(luò)中豐富的語(yǔ)義信息,然后使用基于元路徑的相似度計(jì)算方法分別計(jì)算問(wèn)題與用戶(hù)的相似度矩陣,最終得出推薦結(jié)果。林懌星[5]等人為了提高在數(shù)據(jù)稀疏情況中推薦的準(zhǔn)確性,利用異構(gòu)信息網(wǎng)絡(luò)構(gòu)建推薦對(duì)象中的關(guān)聯(lián)關(guān)系,再計(jì)算路徑的相似度矩陣,從而提高模型推薦的準(zhǔn)確度。郭攀杰[6]等人利用異構(gòu)信息網(wǎng)絡(luò)在處理多節(jié)點(diǎn)和多類(lèi)型不同邊的優(yōu)勢(shì),基于該網(wǎng)絡(luò)把用戶(hù)和項(xiàng)目的評(píng)分融入到模型中改善模型的推薦性能。
圖嵌入技術(shù)是在異構(gòu)信息網(wǎng)絡(luò)研究基礎(chǔ)上提出的一種將異構(gòu)信息網(wǎng)絡(luò)嵌入到低維度向量空間的技術(shù),用于深入挖掘異構(gòu)信息網(wǎng)絡(luò)數(shù)據(jù)的內(nèi)在特征。然而,圖作為非歐幾里德數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)分析方法普遍存在較高的計(jì)算量和空間開(kāi)銷(xiāo)。圖嵌入技術(shù)是一種將原圖數(shù)據(jù)轉(zhuǎn)化為低維空間,保持重要信息的一種有效方法,可以提高節(jié)點(diǎn)分類(lèi)、鏈接預(yù)測(cè)、節(jié)點(diǎn)聚類(lèi)等下游任務(wù)的性能。自2013 年TransE 模型被提出之后[7],相繼有很多優(yōu)秀的圖嵌入表示模型,如TANG[8]等人提出的LINE 模型,其通過(guò)優(yōu)化目標(biāo)函數(shù)達(dá)到保留局部和全局網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)提出了一種邊緣采樣算法,解決了經(jīng)典隨機(jī)梯度下降的局限性,從而提高推理效率。PEROZZI[9]等人提出的Deepwalk 模型則是一種學(xué)習(xí)網(wǎng)絡(luò)中頂點(diǎn)潛在表示的新方法。ZHU[10]等人提出的DGGAN 有向圖嵌入框架,其基于生成對(duì)抗網(wǎng)絡(luò)部署了一個(gè)鑒別器和兩個(gè)生成器,對(duì)每個(gè)節(jié)點(diǎn)的源向量和目標(biāo)向量都進(jìn)行共同學(xué)習(xí),從而在圖挖掘任務(wù)中取得更好的效果。ZHANG[11]等人提出了層次感知知識(shí)圖嵌入HAKE,在接預(yù)測(cè)任務(wù)的基準(zhǔn)數(shù)據(jù)集上明顯優(yōu)于現(xiàn)有的最先進(jìn)方法。這些模型都可以很好地對(duì)異構(gòu)信息網(wǎng)絡(luò)進(jìn)行低維度表示,從而方便進(jìn)一步進(jìn)行計(jì)算。
本文的模型框架如圖1 所示,通過(guò)對(duì)用戶(hù)檢索文本進(jìn)行信息抽取,從其中提取出有效的信息三元組,從而組成文本異構(gòu)信息網(wǎng)絡(luò),再使用TransE 圖嵌入技術(shù)對(duì)異構(gòu)信息網(wǎng)絡(luò)進(jìn)行向量編碼,得到用戶(hù)檢索文本的向量表示后,與視頻介紹數(shù)據(jù)的向量編碼進(jìn)行相似度計(jì)算。本文所用的相似性計(jì)算方法是計(jì)算兩個(gè)矢量編碼的余弦相似性,最后根據(jù)相似度的大小進(jìn)行視頻排序,得到最終的視頻檢索結(jié)果,推送給用戶(hù)。
圖1 模型框架圖
文本異構(gòu)信息網(wǎng)絡(luò)采用的是三元組提取模型,模型的流程如圖2 所示。
圖2 三元組提取模型
通過(guò)TransE 模型就可以將根據(jù)用戶(hù)檢索文本得到的異構(gòu)信息網(wǎng)絡(luò)圖進(jìn)行圖嵌入。得到的最終圖嵌入表示為Vecuser(a),以式(2)中的損失函數(shù)最小化為目標(biāo),不斷更新整個(gè)異構(gòu)信息網(wǎng)絡(luò)的嵌入表示,使得Vecuser(a)最終結(jié)果更加準(zhǔn)確。
式中:S表示正例三元組,S′表示由正例三元組構(gòu)造出來(lái)的負(fù)例三元組,χ表示間隔值。
圖3 TransE 模型圖
得到用戶(hù)檢索文本的圖嵌入Vecuser(a)之后,需要將其與視頻介紹數(shù)據(jù)的圖數(shù)據(jù)進(jìn)行相似度匹配,視頻介紹數(shù)據(jù)的嵌入為Vecvideo(b),在此,相似性計(jì)算使用的是余弦相似度,如式(3)所示:
本文的視頻數(shù)據(jù)爬取自Bilibili,主要從視頻中爬取視頻簡(jiǎn)介、作者信息、視頻編號(hào)信息等,將爬取的視頻簡(jiǎn)介制作成模型設(shè)計(jì)中的圖數(shù)據(jù)備用。
本文使用的評(píng)價(jià)指標(biāo)為信息檢索常用的NDCG(Normalize Discounted Cumulative Gain,NDCG)評(píng)價(jià)指標(biāo),指標(biāo)計(jì)算方法如式(4)和式(5)所示。DCG(Discounted Cumulative Gain,DCG)可 以 對(duì)用戶(hù)的檢索結(jié)果列表進(jìn)行評(píng)估,若用該指標(biāo)對(duì)某個(gè)檢索算法進(jìn)行評(píng)估,需要對(duì)所有用戶(hù)的推薦列表進(jìn)行評(píng)估,由于用戶(hù)實(shí)際列表的長(zhǎng)度不同,因此不同用戶(hù)之間的DCG 相比較沒(méi)有任何意義,所以要對(duì)不同用戶(hù)的指標(biāo)進(jìn)行歸一化。為此,計(jì)算出每個(gè)使用者真實(shí)列表的DCG 分?jǐn)?shù),并用IDCG(Ideal Discounted Cumulative Gain,IDCG)來(lái)表示,然后用每個(gè)用戶(hù)的DCG 與IDCG 之比作為每個(gè)用戶(hù)歸一化后的分值,最后對(duì)每個(gè)用戶(hù)取平均得到最終的分值,即NDCG。
實(shí)驗(yàn)環(huán)境信息如表1 所示。
表1 實(shí)驗(yàn)環(huán)境信息
本文模型的參數(shù)設(shè)置如表2 所示。
表2 模型參數(shù)
本文主要基于對(duì)比實(shí)驗(yàn)來(lái)驗(yàn)證方法的有效性。對(duì)比實(shí)驗(yàn)主要與傳統(tǒng)的關(guān)鍵詞匹配方法的檢索準(zhǔn)確性進(jìn)行對(duì)比。從表3 的實(shí)驗(yàn)結(jié)果可以看出,傳統(tǒng)關(guān)鍵詞匹配方法得到的NDCG 值為0.413 1,詞嵌入匹配方法的NDCG 值為0.528 4,本文模型得到的NDCG 為0.655 7,相比較于傳統(tǒng)關(guān)鍵詞匹配得分提高了0.242 6。本文模型得分較高,取得了較好的效果,再次證明了融合異構(gòu)信息網(wǎng)絡(luò)和使用圖嵌入技術(shù)可以更一步提高視頻檢索的結(jié)果,驗(yàn)證了該方法的有效性。
表3 模型對(duì)比實(shí)驗(yàn)結(jié)果
相似度檢索的方法有很多,為了驗(yàn)證最適合本文方法的相似度度量,本文對(duì)不同的相似度計(jì)算方法進(jìn)行了實(shí)驗(yàn)驗(yàn)證。使用余弦相似度計(jì)算時(shí),本文模型的NDCG 指標(biāo)得分達(dá)到了最高,如表4 所示。
表4 相似度度量實(shí)驗(yàn)
針對(duì)傳統(tǒng)關(guān)鍵詞檢索無(wú)法根據(jù)用戶(hù)輸入的檢索文本精確地檢索視頻這一問(wèn)題,本文提出了融合異構(gòu)信息網(wǎng)絡(luò)和圖嵌入的檢索方法,將用戶(hù)需求進(jìn)行深度數(shù)據(jù)分析,從而返回視頻信息。實(shí)驗(yàn)證明,本文的方法相對(duì)于傳統(tǒng)的檢索方法和詞嵌入匹配方法有顯著的性能提升。