亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向數(shù)字資源的自動(dòng)標(biāo)簽?zāi)P?/h1>
        2020-08-26 14:56:25雷智文黃玲

        雷智文 黃玲

        摘?要:針對(duì)數(shù)字資源標(biāo)簽數(shù)量不足,獲取困難的問(wèn)題,提出了一種新的自動(dòng)標(biāo)簽方法,對(duì)于收集的公共文化資源數(shù)據(jù)集和其它公開數(shù)據(jù)集,能夠有效的進(jìn)行標(biāo)簽擴(kuò)展。提出過(guò)程依據(jù)神經(jīng)網(wǎng)絡(luò)理論和生成學(xué)習(xí)理論,采用隱含狄利克雷分布(latent?dirichlet?allocation,?LDA)和Word2Vec方法分別對(duì)資源和初始標(biāo)簽進(jìn)行處理,生成資源和初始標(biāo)簽的表示向量,然后以此兩種向量作為深度結(jié)構(gòu)語(yǔ)義模型的輸入,建立面向數(shù)字資源的自動(dòng)標(biāo)簽?zāi)P?。從結(jié)果來(lái)看,該方法的標(biāo)簽擴(kuò)展效果在精確度、平均排序倒數(shù)、平均準(zhǔn)確率等指標(biāo)上表現(xiàn)上總體優(yōu)于文中提到的其它對(duì)比方法,能夠解決某些情況下資源標(biāo)簽不足的問(wèn)題,提高資源的利用率。

        關(guān)鍵詞:標(biāo)簽擴(kuò)展;隱含狄利克雷分布;Word2Vec

        DOI:10.15938/j.jhust.2020.03.022

        中圖分類號(hào):?TP181

        文獻(xiàn)標(biāo)志碼:?A

        文章編號(hào):?1007-2683(2020)03-0144-07

        Abstract:In?this?paper,?we?proposed?a?novel?automatic?tagging?system?which?aimed?at?the?lack?of?tags?about?digital?resources?and?the?difficulty?of?extending?tags.?This?tagging?system?can?effectively?extend?tags?for?public?cultural?resources?we?collected?and?other?public?data?sets.?The?algorithm?of?tagging?system?based?on?neural?network?and?generative?learning.?We?use?Latent?Dirichlet?Allocation?(LDA)?and?Word2Vec?to?process?resources?and?initial?tags,?generating?the?representation?vectors?of?resources?and?initial?tags,?then?use?these?two?kinds?of?vector?to?build?this?automatic?tagging?system?focused?on?digital?resources.?From?the?results,?the?Precision,?MRR,?MAP?and?other?indexes?of?this?method?is?better?than?other?comparison?tagging?methods?mentioned?in?this?paper,?and?it?can?solve?the?lack?of?tags?in?some?cases.?Increasing?utilization?of?resources.

        Keywords:automatic?tagging;?latent?dirichlet?allocation;?Word2Vec

        0?引言

        在互聯(lián)網(wǎng)應(yīng)用中,對(duì)象和標(biāo)簽的結(jié)合方法是一種非常有用的技術(shù),標(biāo)簽?zāi)軌虼蠓忍岣咝畔z索的效率,高質(zhì)量的標(biāo)簽還能夠幫助對(duì)資源進(jìn)行分類和整合,使得資源的利用變得更加有效。對(duì)圖像、視頻及文本等資源進(jìn)行自動(dòng)標(biāo)注的方法通常有兩類,一類是關(guān)鍵詞提取方法,另一類是近年來(lái)逐漸興起的關(guān)鍵詞生成方法,關(guān)鍵詞提取只依賴于文本本身的信息,不能生成新的信息,標(biāo)簽提取的效果已經(jīng)到了瓶頸。因此,能夠生成新信息的標(biāo)簽提取方法近年來(lái)越來(lái)越受到人們的重視,這種新的標(biāo)簽提取方法和傳統(tǒng)基于關(guān)鍵詞提取的方法最主要的不同點(diǎn)就是它往往擁有更加優(yōu)化的詞庫(kù)和非線性結(jié)構(gòu),從而能夠取得更好的標(biāo)簽提取效果。

        1?介紹

        在信息檢索領(lǐng)域,快速增長(zhǎng)的信息量和日益困難的數(shù)據(jù)收集不斷帶來(lái)新的挑戰(zhàn),亟需新的方法應(yīng)對(duì)這些挑戰(zhàn)。為了解決資源可用標(biāo)簽過(guò)少的問(wèn)題,我們使用了一種新的自動(dòng)標(biāo)注方法,通過(guò)計(jì)算標(biāo)簽之間的語(yǔ)義關(guān)系,對(duì)公共文化資源的已有標(biāo)簽進(jìn)行擴(kuò)展,此方法已經(jīng)在以前的工作[1]中進(jìn)行了發(fā)表。在本文中,我們?cè)谇拔难芯抗ぷ鞯幕A(chǔ)上,改進(jìn)了模型,同時(shí)對(duì)數(shù)據(jù)集進(jìn)行了擴(kuò)展,使用了新的評(píng)估指標(biāo)和對(duì)比算法。在實(shí)驗(yàn)中,我們使用了如下過(guò)程對(duì)標(biāo)簽和資源進(jìn)行處理。

        對(duì)于文本資源,使用LDA模型,根據(jù)主題的分布生成頻率共現(xiàn)矩陣,矩陣的每一行即是一項(xiàng)資源的向量,表示該資源在該矩陣空間中的位置。

        對(duì)于標(biāo)簽,使用Word2Vec模型進(jìn)行處理,將初始標(biāo)簽映射到同一個(gè)向量空間中,同時(shí)生成初始標(biāo)簽的表示向量。

        通過(guò)使用如上的方法,我們完成對(duì)資源的標(biāo)簽的向量化,然后我們根據(jù)資源和標(biāo)簽的對(duì)應(yīng)關(guān)系構(gòu)建資源-標(biāo)簽向量對(duì),再構(gòu)建深度結(jié)構(gòu)語(yǔ)義模型(deep?structured?semantic?model,?DSSM)并使用向量化后的資源和標(biāo)簽對(duì)模型進(jìn)行訓(xùn)練,訓(xùn)練完成后再次利用訓(xùn)練好的模型計(jì)算出資源和初始標(biāo)簽集中每個(gè)標(biāo)簽的相似度,利用相似度的大小對(duì)初始標(biāo)簽進(jìn)行排序,并取和該資源相似度最高的一批初始標(biāo)簽作為該資源的擴(kuò)展標(biāo)簽。

        2?相關(guān)研究

        許多研究者都對(duì)自動(dòng)標(biāo)簽技術(shù)進(jìn)行過(guò)討論,文[2]設(shè)計(jì)了一種名為TagAssist的系統(tǒng),能夠利用現(xiàn)有的標(biāo)簽內(nèi)容為新的博客自動(dòng)分配標(biāo)簽。Belem等人[3]提出了一種為目標(biāo)對(duì)象分配標(biāo)簽的新方法,使用了啟發(fā)式的方法,能夠?qū)⑿碌亩攘糠绞郊尤氍F(xiàn)有的方法中,并使用一些生成備選詞語(yǔ)描述目標(biāo)對(duì)象的內(nèi)容。Huang等人[4]設(shè)計(jì)了一種新的深度結(jié)構(gòu)語(yǔ)義模型,能夠?qū)⑿畔z索中的詢問(wèn)詞和檢索結(jié)果分別映射到相同的低維向量空間中,并使用詢問(wèn)詞和檢索結(jié)果在對(duì)應(yīng)向量空間中的距離表示它們的相似程度。文[5]提出了一種名為TagHats的分級(jí)自動(dòng)標(biāo)注系統(tǒng),能夠根據(jù)目錄、主題以及關(guān)鍵詞生成出三種類型的標(biāo)簽,根據(jù)目錄生成的標(biāo)簽?zāi)軌蛟诓煌木S度上對(duì)文檔進(jìn)行分類。Chirita等[6]提出了一種叫做P-TAG的技術(shù),能夠?yàn)榫W(wǎng)頁(yè)生成個(gè)性化標(biāo)簽。

        在自動(dòng)標(biāo)簽的效率提升方面,文[7]提出了一種針對(duì)稀疏短文本的自動(dòng)標(biāo)簽方法。Si等人[8]提出了一種可擴(kuò)展的實(shí)時(shí)標(biāo)簽推薦方法。通過(guò)建立LDA模型,可以實(shí)時(shí)的計(jì)算出將某個(gè)標(biāo)簽分配給一個(gè)文檔的概率,然后選擇概率最高的進(jìn)行分配。

        在自動(dòng)標(biāo)注使用的算法和數(shù)據(jù)及上,也有人進(jìn)行了大量的前期研究,文[4]使用了詞散列(word?hashing)的處理方法,能夠擴(kuò)大模型的規(guī)模,并能夠?qū)ψ值溥M(jìn)行擴(kuò)展,使得模型能夠用于大型網(wǎng)頁(yè)搜索引擎。文[3]采用了RankSVM和遺傳算法,用于生成排序函數(shù),精確分析給定標(biāo)簽和對(duì)象之間的相似度。文[9]測(cè)試了不同的標(biāo)簽排序方法,構(gòu)建標(biāo)簽云表示目標(biāo)資源數(shù)據(jù)集。文[5]使用了層次分類法和關(guān)鍵詞提取算法,分別負(fù)責(zé)分配目錄標(biāo)簽和主題標(biāo)簽,和負(fù)責(zé)構(gòu)建文檔模型。文[7]中使用了BibSonomy數(shù)據(jù)集對(duì)其提出的方法進(jìn)行了驗(yàn)證,結(jié)果表明了所采用方法的有效性。文[10]對(duì)其提出的方法在Flickr上的一組經(jīng)過(guò)標(biāo)簽的數(shù)據(jù)上進(jìn)行了驗(yàn)證。文[11]采用了分布式訓(xùn)練過(guò)程,使用了真實(shí)博客文章數(shù)據(jù)。

        3?自動(dòng)標(biāo)簽擴(kuò)展模型

        在以前的工作[1]中,已經(jīng)詳細(xì)介紹了基于DSSM的自動(dòng)標(biāo)簽系統(tǒng)的原理,對(duì)之前所做工作進(jìn)行簡(jiǎn)單回顧。首先介紹數(shù)據(jù)的預(yù)處理過(guò)程。數(shù)據(jù)的預(yù)處理分為兩步,對(duì)于資源數(shù)據(jù),使用LDA[12]模型去生成資源的主題分布,以此分布在每個(gè)主題上的概率組成的向量代替資源,對(duì)于資源的初始標(biāo)簽,使用百度百科的幾乎所有詞條對(duì)Word2Vec模型進(jìn)行訓(xùn)練,并生成這些詞條的向量表示,在結(jié)果中找出初始標(biāo)簽和其對(duì)應(yīng)的向量表示,完成數(shù)據(jù)的處理后,我們使用此數(shù)據(jù)對(duì)DSSM模型進(jìn)行訓(xùn)練,然后使用訓(xùn)練好的模型計(jì)算資源和所有初始標(biāo)簽之間的相似度并對(duì)結(jié)果進(jìn)行排序,取相似度最高的一批標(biāo)簽作為自動(dòng)標(biāo)注的結(jié)果。

        對(duì)于數(shù)據(jù)集中的文本資源,使用了LDA算法[13-15]去生成每個(gè)資源所對(duì)應(yīng)的向量,LDA是一種文本主題模型,通過(guò)在文本資源上進(jìn)行訓(xùn)練,能夠生成文本資源的主題分布,使用此分布能夠計(jì)算出文本資源在確定主題數(shù)量下的向量表示。

        對(duì)于各數(shù)據(jù)集的初始標(biāo)簽,使用了Word2Vec去生成其表示向量,Word2Vec是一種用于提取詞向量的工具,包括CBOW模型和Skip-gram模型[16-17]中,使用的是CBOW模型,它能夠?qū)⒉煌脑~語(yǔ)簽映射到同一個(gè)向量空間中,同時(shí)獲得每個(gè)詞語(yǔ)的向量表示。

        使用LDA和Word2Vec完成資源和標(biāo)簽的向量化以后,根據(jù)資源和向量的初始關(guān)系將其組成資源-向量對(duì),利用此資源-向量對(duì)訓(xùn)練DSSM,最終得到DSSM模型的參數(shù),訓(xùn)練完成后,重新將資源和所有標(biāo)簽作為輸入,計(jì)算資源和所有標(biāo)簽的相似度,根據(jù)相似度進(jìn)行排序,取相似度最高的作為資源的擴(kuò)展標(biāo)簽。DSSM能夠構(gòu)建網(wǎng)絡(luò)計(jì)算文本之間的語(yǔ)義相似度,本文中使用的DSSM結(jié)構(gòu)如圖?1所示,在圖中,IR表示資源輸入向量,OR表示資源輸出向量,IT表示標(biāo)簽輸入向量,OT表示標(biāo)簽輸出向量,在中間層l1,?l2,?…?ln中,W1,?W2,?…,?Wn表示相應(yīng)權(quán)重矩陣,b1,?b2,?…,?bn表示偏差。

        在訓(xùn)練過(guò)程中,使用了梯度下降法進(jìn)行迭代,訓(xùn)練過(guò)程如下:

        步驟1):輸入:N=迭代次數(shù)

        RA=資源網(wǎng)絡(luò)初始結(jié)構(gòu)參數(shù),?TA=標(biāo)簽網(wǎng)絡(luò)初始結(jié)構(gòu)參數(shù)

        RD=資源輸入向量,?TD=標(biāo)簽輸入向量

        WR=資源初始權(quán)重矩陣,?WT=標(biāo)簽初始權(quán)重矩陣

        步驟3):對(duì)RA,TA,WR,WT進(jìn)行初始化

        步驟4):For?n=1:N

        步驟5):NR←RD

        步驟6):NT←TD

        步驟7):使用NR和NT對(duì)WR和WT進(jìn)行更新

        步驟8):End

        步驟9):輸出:?WR=資源權(quán)重矩陣,?WT=標(biāo)簽權(quán)重矩陣

        4?實(shí)驗(yàn)

        在此部分中,闡述了實(shí)驗(yàn)過(guò)程。包括實(shí)驗(yàn)環(huán)境、實(shí)驗(yàn)數(shù)據(jù)、評(píng)估指標(biāo)、對(duì)比算法、實(shí)驗(yàn)步驟、實(shí)驗(yàn)結(jié)果和分析。

        4.1?實(shí)驗(yàn)環(huán)境

        在實(shí)驗(yàn)中,硬件環(huán)境為Intel?Core?i7?6700+NVIDIA?GeForce?GTX?1080。軟件環(huán)境為PyCharm+TensorFlow?1.4.0。PyCharm是一款Python?IDE,帶有一整套可以幫助用戶在使用Python語(yǔ)言開發(fā)時(shí)提高其效率的工具。TensorFlow是一個(gè)以數(shù)據(jù)流圖計(jì)算單元的開源軟件庫(kù),圖的節(jié)點(diǎn)代表數(shù)學(xué)運(yùn)算,圖的邊代表多維數(shù)組(張量),這種結(jié)構(gòu)使得用戶能夠不用重復(fù)代碼就將計(jì)算任務(wù)部署在計(jì)算機(jī)或服務(wù)器的多個(gè)CPU或者GPU上,在本文中我們使用了TensorFlow中現(xiàn)成的模塊和工具。

        4.2?實(shí)驗(yàn)數(shù)據(jù)

        使用的數(shù)據(jù)除了公共文化數(shù)據(jù)之外,還包括Last.fm數(shù)據(jù)集、MovieLens數(shù)據(jù)集和delicious數(shù)據(jù)集,公共文化數(shù)據(jù)來(lái)自于相關(guān)項(xiàng)目的大數(shù)據(jù)平臺(tái),數(shù)據(jù)包括公共數(shù)字文化相關(guān)資源數(shù)據(jù)和其所對(duì)應(yīng)的初始標(biāo)簽,公共文化資源包括文化視頻的文本描述,博物館藏品介紹,文化相關(guān)書籍介紹等。Last.fm數(shù)據(jù)集包括音樂(lè)作者信息和用戶對(duì)作者的手動(dòng)標(biāo)注的標(biāo)簽,MovieLens數(shù)據(jù)集包括電影信息和其對(duì)應(yīng)的初始標(biāo)簽,delicious數(shù)據(jù)集包括書簽信息和對(duì)應(yīng)的初始標(biāo)簽,各數(shù)據(jù)集的資源和標(biāo)簽數(shù)量如表1所示。

        對(duì)于數(shù)據(jù)中的資源,使用收集到的公共數(shù)字文化資源和另外三種公開數(shù)據(jù)集分別對(duì)LDA模型進(jìn)行訓(xùn)練,分別獲取在每種數(shù)據(jù)集下每個(gè)資源文檔的概率分布和模型的參數(shù)。訓(xùn)練完成后,可以根據(jù)模型的參數(shù)計(jì)算出每個(gè)主題相對(duì)于資源文檔的條件概率p(topic|doc),資源向量每一維的數(shù)值即為此條件概率的值。對(duì)于新的資源,根據(jù)訓(xùn)練好的參數(shù)直接為其生成資源向量。

        對(duì)于初始標(biāo)簽,為了能夠生成初始標(biāo)簽的向量表示,提取了百度百科中的幾乎所有(864,705)詞條構(gòu)建語(yǔ)料庫(kù),然后將初始標(biāo)簽中不存在于此語(yǔ)料庫(kù)中的詞添加進(jìn)去,語(yǔ)料庫(kù)中詞語(yǔ)最終數(shù)量達(dá)到872,705,使用此語(yǔ)料庫(kù)對(duì)CBOW模型進(jìn)行訓(xùn)練,訓(xùn)練完成后,這些詞語(yǔ)被映射到同一個(gè)向量空間中,同時(shí)得到這些詞語(yǔ)的向量表示,我們?cè)诖私Y(jié)果中對(duì)公共文化數(shù)據(jù)和其它公開數(shù)據(jù)集中的初始標(biāo)簽進(jìn)行搜索,找到初始標(biāo)簽和其對(duì)應(yīng)的向量表示。

        4.3?評(píng)估指標(biāo)

        為了對(duì)算法的性能進(jìn)行度量,使用以下幾種評(píng)估指標(biāo)。

        平均排序倒數(shù)(mean?reciprocal?rank,?MRR),計(jì)算排序后的標(biāo)簽中被正確排序的標(biāo)簽的序列倒數(shù)在整個(gè)測(cè)試數(shù)據(jù)中的平均值。MRR的計(jì)算方法如下:

        其中R(tag)表示擴(kuò)展后的標(biāo)簽在初始標(biāo)簽集中的位置。

        精度(Precision),計(jì)算初始標(biāo)簽在擴(kuò)展后標(biāo)簽中所占的比重。精度的計(jì)算方法如下:

        其中σ(R(tag)≤N)為指示函數(shù),表示當(dāng)R(tag)≤N是返回1,否則返回0。在實(shí)驗(yàn)中使用了P@1和P@5兩種指標(biāo)。

        平均準(zhǔn)確率(mean?average?precision,?MAP),計(jì)算資源的標(biāo)簽擴(kuò)展準(zhǔn)確率的平均值。平均準(zhǔn)確率的計(jì)算方法為:

        歸一化折損累計(jì)增益(normalized?discounted?cumulative?gain,?NDCG),計(jì)算公式為:

        4.4?對(duì)比算法

        將實(shí)驗(yàn)的結(jié)果和常用標(biāo)簽擴(kuò)展算法進(jìn)行了對(duì)比,參與對(duì)比的標(biāo)簽擴(kuò)展算法有TF-IDF[18],TextRank[19-20],N-gram[9,13],基于LDA的關(guān)鍵詞提取[15],TPR?[13-15]。

        TF-IDF是一種用于提取文本關(guān)鍵詞的常用技術(shù),通過(guò)統(tǒng)計(jì)單詞的詞頻(term?frequency)和逆文檔頻率(inverse?document?frequency),并將結(jié)果相乘的方式計(jì)算單詞的重要程度,詞頻表示單詞在文檔中出現(xiàn)的頻率,逆文檔頻率和包含單詞的文檔數(shù)有關(guān),包含單詞的文檔數(shù)越多,逆文檔頻率越高,說(shuō)明單詞有很好的類別區(qū)分能力。TextRank是一種基于圖的排序算法,通過(guò)把文本分割成不同的單元單詞并建立圖模型,利用投票機(jī)制對(duì)文本中的單詞進(jìn)行排序,取票數(shù)最多的單詞為文本的標(biāo)簽,TextRank的優(yōu)點(diǎn)是不需要實(shí)現(xiàn)對(duì)文檔進(jìn)行學(xué)習(xí)訓(xùn)練,并且計(jì)算較為簡(jiǎn)便,因而使用較為廣泛。N-gram的基本思想是將文本里面的內(nèi)容按照字節(jié)進(jìn)行大小為N的滑動(dòng)窗口操作,形成長(zhǎng)度為N的字節(jié)片段序列。每一個(gè)字節(jié)片段稱為gram,對(duì)所有的gram的出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),并且按照事先設(shè)定好的閾值進(jìn)行過(guò)濾,形成關(guān)鍵gram列表,也就是這個(gè)文本的向量特征空間,最終以頻率最高的gram作為提取出的標(biāo)簽?;贚DA的關(guān)鍵詞提取首先使用文本集對(duì)LDA模型進(jìn)行訓(xùn)練,完成訓(xùn)練后得到一篇文章的主題分布和文章中詞的主題分布,然后通過(guò)KL散度來(lái)計(jì)算這兩個(gè)分布的相似性。如果文章的某一主題z的概率很大,而該文章中某個(gè)詞對(duì)于該主題z也擁有更大的概率,那么該詞就會(huì)有非常大的概率成為擴(kuò)展的標(biāo)簽。TPR是LDA與TextRank相結(jié)合的方法,其思想是文本的每個(gè)主題單獨(dú)運(yùn)行各自的帶偏好的TextRank,每個(gè)主題的TextRank都會(huì)偏好與該主題有相關(guān)度較大的詞,對(duì)于每個(gè)主題z,根據(jù)LDA的訓(xùn)練都可以得到每個(gè)主題下的詞的分布,可以把每個(gè)詞的概率值單做該主題下Textrank的跳轉(zhuǎn)概率來(lái)計(jì)算,從而優(yōu)化每個(gè)詞的得分。

        4.5?實(shí)驗(yàn)步驟

        在實(shí)驗(yàn)中,我們首先使用了LDA和Word2Vec生成資源和標(biāo)簽的表示向量,然后使用初始的資源-標(biāo)簽對(duì)訓(xùn)練DSSM模型,資源向量和標(biāo)簽向量的維度分別為200和150。訓(xùn)練完成后,我們計(jì)算每個(gè)資源和所有標(biāo)簽的相似度,然后根據(jù)相似度由高到低對(duì)標(biāo)簽進(jìn)行排序,取前N個(gè)相似度最高的標(biāo)簽作為資源的擴(kuò)展標(biāo)簽,圖2表示這一過(guò)程。

        從圖中可以看出,實(shí)驗(yàn)包括3個(gè)步驟,第一步是分別使用LDA和Word2Vec對(duì)資源和初始向量進(jìn)行處理,向量化后的資源和標(biāo)簽維度分別為200和150。第二步是使用資源和初始標(biāo)簽的表示向量對(duì)DSSM模型進(jìn)行訓(xùn)練,實(shí)驗(yàn)中采用的DSSM網(wǎng)絡(luò)層數(shù)和每一層的節(jié)點(diǎn)數(shù)如表2所示。

        模型訓(xùn)練完成后,可以計(jì)算給定標(biāo)簽的資源概率,給定標(biāo)簽的資源的先驗(yàn)概率通過(guò)softmax函數(shù)進(jìn)行計(jì)算。

        其中γ為平滑因子,通常由經(jīng)驗(yàn)給出。資源和標(biāo)簽之間的cos相似度,可以用以下公式進(jìn)行計(jì)算。

        最終收斂后,WR和WT都為近似的最優(yōu)解,同時(shí)得到模型的參數(shù)結(jié)構(gòu)。

        對(duì)于每個(gè)資源-標(biāo)簽對(duì),使用(R,T+)去代替(R,T),其中T+為初始標(biāo)簽,獲取模型參數(shù)的目標(biāo)函數(shù)為最大化給定標(biāo)簽的資源的似然:

        第三步是使用訓(xùn)練好的網(wǎng)絡(luò)對(duì)資源進(jìn)行標(biāo)簽擴(kuò)展,在這一步中,網(wǎng)絡(luò)的參數(shù)固定,對(duì)數(shù)據(jù)集中的每一個(gè)資源,將其向量分別和所有初始標(biāo)簽向量作為輸入,計(jì)算它們之間的相似度,然后根據(jù)資源和所有初始標(biāo)簽的相似度的大小對(duì)初始標(biāo)簽進(jìn)行排序,取前N個(gè)標(biāo)簽作為資源的擴(kuò)展標(biāo)簽,分別取N為10、20、30、40、50進(jìn)行了實(shí)驗(yàn)。

        4.6?實(shí)驗(yàn)結(jié)果和分析

        在各個(gè)數(shù)據(jù)集上都用本文所提出的方法和對(duì)比算法進(jìn)行了實(shí)驗(yàn),當(dāng)擴(kuò)展標(biāo)簽數(shù)量N=20時(shí),在不同數(shù)據(jù)集上各指標(biāo)的實(shí)驗(yàn)結(jié)果如表3所示。

        分析實(shí)驗(yàn)結(jié)果,可以看出在公共文化數(shù)據(jù)集和其它公開數(shù)據(jù)集上,DSSM標(biāo)簽擴(kuò)展的結(jié)果在P@1,P@5,MAP上明顯優(yōu)于TF-IDF、TextRank、N-gram、LDA,這是因?yàn)镈SSM是通過(guò)提取資源和標(biāo)簽的特征,計(jì)算它們之間的相似度的方式進(jìn)行標(biāo)簽擴(kuò)展,能夠挖掘出資源與標(biāo)簽之間的深層信息,并且能夠以整個(gè)初始標(biāo)簽作為備選庫(kù)進(jìn)行標(biāo)簽擴(kuò)展。而TF-IDF、TextRank、N-gram是通過(guò)計(jì)算資源中詞語(yǔ)的重要程度,然后排序的方式提取標(biāo)簽,詞語(yǔ)和資源之間沒(méi)有聯(lián)系,同時(shí)備選庫(kù)較少,所以擴(kuò)展的精度不如DSSM。LDA雖然采用提取主題的方式進(jìn)行標(biāo)簽擴(kuò)展,但是也沒(méi)有考慮資源和初始標(biāo)簽之間的關(guān)系,所以結(jié)果也低于DSSM。而融合了TextRank和LDA的TPR在精度的表現(xiàn)上則與DSSM相當(dāng),說(shuō)明在既考慮到單詞重要性又進(jìn)行主題提取的情況下,標(biāo)簽擴(kuò)展的準(zhǔn)確率能夠得到顯著改善。在MRR的表現(xiàn)上,可以看出在公共文化數(shù)據(jù)集上DSSM的MRR值略優(yōu)于其它算法,而其它公開數(shù)據(jù)集上DSSM的MRR值并不突出,這表明DSSM在中文數(shù)據(jù)集中有一定的優(yōu)勢(shì),比較適合于中文資源的標(biāo)簽擴(kuò)展,其原因可能是因?yàn)樵趯?duì)初始標(biāo)簽進(jìn)行向量化時(shí),Word2Vec的訓(xùn)練集中的中文詞匯較多所致。在NDCG@3的表現(xiàn)上,DSSM和其它算法并無(wú)顯著差異。

        同時(shí),分別取標(biāo)簽擴(kuò)展數(shù)量N為10、20、30、40、50進(jìn)行了實(shí)驗(yàn),不同N在各數(shù)據(jù)集上的MAP結(jié)果如表4所示。

        從結(jié)果來(lái)看,總體上標(biāo)簽擴(kuò)展精度隨N的增加而增加,但當(dāng)N達(dá)到一定數(shù)量時(shí),精度不再增加,這是因?yàn)橘Y源的初始標(biāo)簽數(shù)量有限,當(dāng)擴(kuò)展標(biāo)簽數(shù)量持續(xù)增加時(shí),不能提供更加完善的對(duì)比。

        在各個(gè)數(shù)據(jù)集上,本文所使用方法在總體上優(yōu)于其它標(biāo)簽擴(kuò)展方法。

        5?結(jié)?論

        討論了使用深度結(jié)構(gòu)語(yǔ)義模型進(jìn)行標(biāo)簽擴(kuò)展的可能性,通過(guò)實(shí)驗(yàn)和比較,對(duì)于所使用的各數(shù)據(jù)集,MRR值和精度能夠優(yōu)于實(shí)驗(yàn)中采用的其它對(duì)比算法,證明本文所提出方法在標(biāo)簽擴(kuò)展方向的優(yōu)勢(shì),在實(shí)際應(yīng)用中,通過(guò)本文擴(kuò)展的標(biāo)簽在后續(xù)的使用中被認(rèn)為是非常有效的。

        我們未來(lái)的工作中,在以下方面將進(jìn)行擴(kuò)展研究,首先是數(shù)據(jù)的數(shù)量不是特別充分,未來(lái)還會(huì)在更大的數(shù)據(jù)集上對(duì)所提出方法進(jìn)行驗(yàn)證。其次,擴(kuò)展標(biāo)簽優(yōu)劣程度還需要更加系統(tǒng)的進(jìn)行衡量。

        參?考?文?獻(xiàn):

        [1]?LEI?Zhiwen,?YANG?Yi,?HUANG?Weixing,?et?al.?Tag?Recommendation?for?Cultural?Resources[C]//?2018?IEEE?International?Conference?on?Software?Quality,?Reliability?and?Security?Companion?(QRS-C),?Lisbon,?2018:?566.

        [2]?SOODS?C,?HAMMOND?K?J,?OWSLEY?S?H,?et?al.?TagAssist:?Automatic?Tag?Suggestion?for?Blog?Posts[C]//?ICWSM,?Colorado,?USA,?Mar?26-28,?2007.

        [3]?BELEM,?FABIANO,?EDER?MARTINS,?et?al.?Associative?Tag?Recommendation?Exploiting?Multiple?Textual?Features[C]//?Proceedings?of?the?34th?International?ACM?SIGIR?Conference?on?Research?and?Development?in?Information?Retrieval,?ACM,?2011.?1033.

        [4]?HUANG?Posen,?HE?Xiaodong,?GAO?Jianfeng,?et?al.?Learning?Deep?Structured?Semantic?Models?for?Web?Search?Using?Clickthrough?Data[C]//?Proceedings?of?the?22nd?ACM?International?Conference?on?Conference?on?Information?&?Knowledge?Management,?ACM,?2013:?2333.

        [5]?NISHIDA?KYOSUKE,?FUJIMURA?KO.?Hierarchical?Auto-tagging:?Organizing?Q&A?Knowledge?for?Everyone[C]//?Proceedings?of?the?19th?ACM?International?Conference?on?Information?and?Knowledge?Management,?ACM,?2010:?1657.

        [6]?CHIRITA,?PAUL-ALEXANDRU,?STEFANIA?COSTACHE,?et?al.?P-tag:?Large?Scale?Automatic?Generation?of?Personalized?Annotation?Tags?for?the?Web[C]//?Proceedings?of?the?16th?International?Conference?on?World?Wide?Web,?ACM,?2007:?845.

        [7]?DIAZ-AVILES,?ERNESTO,?MIHAI?GEORGESCU,?et?al.?Lda?for?On-the-fly?Auto?Tagging[C]//?Proceedings?of?the?Fourth?ACM?Conference?on?Recommender?Systems,?ACM,?2010:?309.

        [8]?SI?Xiance,?SUN?Maosong.?Tag-LDA?for?Scalable?Real-time?Tag?Recommendation[J].Journal?of?Information&Computational?Science,?2009,?6(2):?1009.

        [9]?HARA?SUNAO,?KITAOKA?NORIHIDE,?TAKEDA?KAZUYA.?On-line?Detection?of?Task?Incompletion?for?Spoken?Dialog?Systems?Using?Utterance?and?Behavior?Tag?N-gram?Vectors[C]//?Proceedings?of?the?Paralinguistic?Information?and?its?Integration?in?Spoken?Dialogue?Systems?Workshop.?Springer,?New?York,?2011:?215.

        [10]SKOUTAS,?DIMITRIOS,?MOHAMMAD?ALRIFAI.?Ranking?Tags?in?Resource?Collections[C]//?Proceedings?of?the?34th?International?ACM?SIGIR?Conference?on?Research?and?Development?in?Information?Retrieval.?ACM,?2011:?1207.

        [11]ZHANG?Hongbin,?JI?Donghong,?YIN?Lan,?et?al.?Product?Image?Sentence?Annotation?Based?on?Kernel?Descriptors?and?Tag-rank[J].?Journal?of?Southeast?University,?2016,?32(2):?170.

        [12]FRIGYIK?B,?KAPILA?A,?GUPTA?R.?Introduction?to?the?Dirichlet?Distribution?and?Related?Processes[R].?Department?of?Electrical?Engineering,?University?of?Washignton,?Uweetr-2010-0006,?2010.

        [13]CHEN?LINCHIH.?An?Effective?LDA-based?Time?Topic?Model?to?Improve?Blog?Search?Performance[J].Information?Processing?&?Management,?2017,?53(6):?1299.

        [14]PAVLINEK?MIHA,?PODGORELEC?VILI.?Text?Classification?Method?Based?on?Self-training?and?LDA?Topic?Models[J].Expert?Systems?with?Applications,?2017,?80:?83.

        [15]LU?Yue,?MEI?Qiaozhu,?ZHAI?Chengxiang.?Investigating?Task?Performance?of?Probabilistic?Topic?Models:?An?Empirical?Study?of?PLSA?and?LDA[J].Information?Retrieval,?2011,?14(2):?178.

        [16]LE?QUOC,?MIKOLOV?TOMAS.?Distributed?Representations?of?Sentences?and?Documents[C]//?International?Conference?on?Machine?Learning,?2014:?1188.

        [17]MIKOLOV?TOMAS,?TOMAS,?CHEN?Kai,?GREG?CORRADO,?et?al.?Efficient?Estimation?of?Word?Representations?in?Vector?Space[C]//?arXiv?Preprint?arXiv:1301.3781,?2013.

        [18]HUANG?Chenghui,?YIN?Jian,?HOU?Fang.?A?Text?Similarity?Measurement?Combining?Word?Semantic?Information?with?TF-IDF?Method[J].Jisuanji?Xuebao(Chinese?Journal?of?Computers),?2011,?34(5):?856.

        [19]李鵬,王斌,石志偉,等.?Tag-TextRank:一種基于Tag的網(wǎng)頁(yè)關(guān)鍵詞抽取方法[C]//?全國(guó)信息檢索學(xué)術(shù)會(huì)議,2010:456.

        LI?Peng,?WANG?Bin,?SHI?Zhiwei,?et?al.?Tag-TextRank:?A?Tag-Based?Keyword?Extraction?Method[C].?National?Conference?on?Information?Retrieval,?2010:456.

        [20]LI?Peng,?WANG?Bin,?SHI?Zhiwei,?et?al.?Tag-TextRank:?A?Webpage?Keyword?Extraction?Method?Based?on?Tags[J].Journal?of?Computer?Research?and?Development,?2012,?49(11):?2344.

        (編輯:溫澤宇)

        日本一本免费一二区| 加勒比东京热久久综合| 中文字幕东京热一区二区人妻少妇| 精品一二三四区中文字幕| 无码国模国产在线观看| 国产高清无码91| 亚洲视频精品一区二区三区| 东北女人一级内射黄片| 中文乱码字慕人妻熟女人妻| 在线不卡av天堂| 色窝窝免费播放视频在线| 青青草综合在线观看视频| 少妇久久一区二区三区| 国产成人亚洲精品无码青| 久久乐国产精品亚洲综合| 99国产精品无码专区| 一级一片内射视频网址| 熟女少妇精品一区二区| 秒播无码国产在线观看| 日韩精品极品在线观看视频| 91九色成人蝌蚪首页| 久热这里只有精品视频6| 欧美三级超在线视频| 国产精品自拍视频在线 | 国产精品无码无在线观看| 手机看片久久国产免费| 国产精品国产三级厂七| 亚洲 欧美 偷自乱 图片| 欧美午夜精品一区二区三区电影| 精品国产乱码一区二区三区在线| 国产精品一二三区亚洲 | 真人在线射美女视频在线观看| 国产女人av一级一区二区三区| 日本一区二区在线播放| 九九热在线视频观看这里只有精品| 亚洲综合精品在线观看中文字幕| 免费人成视频网站在线不卡| 亚洲欧洲∨国产一区二区三区| www.91久久| 日本免费看片一区二区三区| 免费看黄a级毛片|