亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Wikidata和標(biāo)簽云的搜索算法研究

        2017-03-31 20:27:58夏瑀葛佳琦馬秀曹際全李海巍
        軟件導(dǎo)刊 2016年8期
        關(guān)鍵詞:頁(yè)面排序

        夏瑀+葛佳琦+馬秀+曹際全+李海巍

        摘 要:知識(shí)庫(kù)是一種結(jié)構(gòu)化、易于操作、有組織的知識(shí)集群。針對(duì)Wikidata這一開放知識(shí)庫(kù)的內(nèi)容及結(jié)構(gòu),提出一種構(gòu)建標(biāo)簽云的方法,對(duì)信息進(jìn)行標(biāo)簽化處理,并將轉(zhuǎn)換得到的標(biāo)簽向量應(yīng)用于信息檢索和頁(yè)面排序。首先,提取Wikidata中的結(jié)構(gòu)化數(shù)據(jù),構(gòu)建以實(shí)體為單位的標(biāo)簽云;然后,將需要檢索的文檔和用戶的檢索語(yǔ)句映射為相應(yīng)的標(biāo)簽,并采用處理向量的相關(guān)方法實(shí)現(xiàn)網(wǎng)頁(yè)的排序算法;最后,采用信息檢索常用的標(biāo)準(zhǔn)對(duì)該算法進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的基于關(guān)鍵詞的搜索方法相比,新算法在一定程度上能夠提高頁(yè)面排序的準(zhǔn)確率。

        關(guān)鍵詞關(guān)鍵詞:知識(shí)庫(kù); Wikidata; 網(wǎng)頁(yè)檢索; 頁(yè)面排序; 標(biāo)簽云; 搜索引擎

        DOIDOI:10.11907/rjdk.161447

        中圖分類號(hào):TP312

        文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2016)008-0042-04

        0 引言

        信息呈現(xiàn)幾何式爆炸增長(zhǎng),面對(duì)如此龐大的信息數(shù)量,搜索引擎成為互聯(lián)網(wǎng)的絕佳入口。目前主流的搜索引擎算法仍以關(guān)鍵詞的匹配程度檢索,但是相同的詞語(yǔ)在不同的語(yǔ)境中有著不同的意義,而不同的人對(duì)同樣的詞語(yǔ)也會(huì)有不同的理解, 因此簡(jiǎn)單地基于關(guān)鍵詞的搜索引擎既不能識(shí)別出關(guān)鍵詞的意義,亦不能從語(yǔ)義的角度進(jìn)行結(jié)果排序。在網(wǎng)頁(yè)排序算法方面,諸如著名的PageRank[1]、HITS[2]以及結(jié)合前兩者的SALSA[3]算法都是根據(jù)網(wǎng)頁(yè)間鏈接的關(guān)系進(jìn)行排序的。 如果僅考慮網(wǎng)頁(yè)間的鏈接結(jié)構(gòu)來(lái)分析頁(yè)面的權(quán)威性,就容易忽視頁(yè)面的具體內(nèi)容并且剝離搜索語(yǔ)句和最終搜索結(jié)果之間的聯(lián)系,從而影響搜索的查全率和查準(zhǔn)率。

        知識(shí)庫(kù)是一種用來(lái)儲(chǔ)存結(jié)構(gòu)化知識(shí)的數(shù)據(jù)庫(kù)。 Wikidata是一個(gè)自由、開放、協(xié)作的知識(shí)庫(kù)[4],Wikidata不僅存儲(chǔ)對(duì)實(shí)體的描述,還存儲(chǔ)著這些描述的來(lái)源和實(shí)體間的聯(lián)系,以結(jié)構(gòu)化的形式存儲(chǔ)所有的數(shù)據(jù),計(jì)算機(jī)能夠極其便利地獲得和處理這些數(shù)據(jù)。Wikidata擁有超過(guò)280種不同語(yǔ)言的知識(shí)庫(kù)數(shù)據(jù),盡管對(duì)各種語(yǔ)言覆蓋的程度不一,但其中的英文內(nèi)容極其豐富,對(duì)于中文也有著不錯(cuò)的支持。Wikidata依托于維基媒體基金會(huì),采用類似于維基百科的管理和編輯方式,能夠廣泛且準(zhǔn)確地反應(yīng)出用戶對(duì)實(shí)體的理解。本文研究了Wikidata知識(shí)庫(kù)中存儲(chǔ)的數(shù)據(jù)及其結(jié)構(gòu),提出了一種基于Wikidata和標(biāo)簽云的搜索算法。

        本文創(chuàng)新內(nèi)容包括:①提出一種以知識(shí)庫(kù)為基礎(chǔ)構(gòu)建標(biāo)簽云的方法;②將TF-IDF算法與標(biāo)簽云相結(jié)合,提出TC-ITF算法用于計(jì)算標(biāo)簽特征權(quán)重;③提出基于標(biāo)簽云的網(wǎng)頁(yè)搜索算法。

        1 相關(guān)工作

        1.1 知識(shí)庫(kù)相關(guān)應(yīng)用

        搜索引擎方面,知識(shí)庫(kù)主要應(yīng)用在知識(shí)圖譜上。 例如在谷歌的知識(shí)圖譜[5]中,它能根據(jù)各種知識(shí)庫(kù)中的聯(lián)系為用戶提供擁有完整知識(shí)體系的搜索結(jié)果。這樣雖然能擺脫鏈接分析的禁錮,開辟一種直接提供知識(shí)或信息的方式,但是其結(jié)果只是在一定體系中的內(nèi)容,超出該體系結(jié)構(gòu)的知識(shí)或信息仍然需要通過(guò)搜索其它網(wǎng)站獲得。它還壟斷圖譜的內(nèi)容、控制結(jié)果的權(quán)威性。 因此,利用知識(shí)庫(kù)來(lái)改進(jìn)以檢索網(wǎng)頁(yè)為基礎(chǔ)的搜索算法仍有很大的發(fā)展空間。

        1.2 基于標(biāo)簽的排序算法

        以標(biāo)簽的形式進(jìn)行網(wǎng)頁(yè)排序的方法主要利用社會(huì)性標(biāo)注形成的四元組,相關(guān)的算法有Bao等[6]提出的SocialSimRank算法、Hotho等[7]提出的FolkRank算法、Noll等[8]提出的SPEAR算法以及劉凱鵬等[9]提出的利用二部圖模型的基于社會(huì)性標(biāo)注網(wǎng)頁(yè)排序算法等。這類算法都是以名為Folksonomy的社會(huì)性標(biāo)注數(shù)據(jù)為基礎(chǔ)提取相應(yīng)的內(nèi)容。Folksonomy描述了用戶、資源、標(biāo)簽以及用戶對(duì)資源分配的標(biāo)簽,形成了如下定義,F(xiàn):=(U,T,D,R),其中U、T、D分別代表用戶、標(biāo)簽、資源或文檔,R是前三者的關(guān)系,即r=(u,t,d),標(biāo)識(shí)用戶u對(duì)文檔d標(biāo)注了標(biāo)簽t,用于搜索引擎的數(shù)據(jù)主要來(lái)自書簽分享網(wǎng)站del.icio.us。這類排序方法存在兩個(gè)缺陷: ①由于用戶可以隨意定義標(biāo)簽且語(yǔ)言習(xí)慣不同,標(biāo)簽的內(nèi)容不夠規(guī)范,準(zhǔn)確性有一定欠缺;②覆蓋的資源不足,用戶很可能只對(duì)一個(gè)網(wǎng)站的主域名標(biāo)記標(biāo)簽,而不會(huì)對(duì)網(wǎng)站中的每一個(gè)頁(yè)面都完成標(biāo)簽操作,而實(shí)際的檢索過(guò)程需要精確到具體頁(yè)面。

        若直接使用標(biāo)簽向量來(lái)表示頁(yè)面,那么向量中的每一個(gè)元素的地位都相同,這與實(shí)際不符。因此需要在頁(yè)面和標(biāo)簽之間建立相關(guān)的主題模型,采用諸如TF-IDF[10]、LSI[11]或LDA[12]等主題模型算法。

        2 基于Wikidata和標(biāo)簽云的網(wǎng)頁(yè)搜索框架

        本文提出一種基于Wikidata和標(biāo)簽云的搜索算法,其框架如圖1所示。

        該框架流程分為兩個(gè)部分:

        (1)數(shù)據(jù)預(yù)處理:①建立標(biāo)簽云;②建立一定數(shù)量的文檔庫(kù),若是用于全網(wǎng)檢索可以使用爬蟲爬取方法;若是站內(nèi)搜索可以直接使用網(wǎng)站提供的接口來(lái)獲取精確的文檔;③將文檔轉(zhuǎn)換為標(biāo)簽向量。

        (2)搜索排序:①在用戶搜索時(shí),將搜索語(yǔ)句轉(zhuǎn)換為標(biāo)簽向量;②將搜索標(biāo)簽和文檔標(biāo)簽進(jìn)行匹配處理,然后進(jìn)行排序,得到最終的查詢結(jié)果。

        數(shù)據(jù)預(yù)處理偽代碼:

        Table 1 Pseudocode for data pretreatment

        Input:documentList

        Output: doc_vectorList

        1: Build_tag-cloud()

        2: for each document in documentList{

        3: doc_vector = doc2vec(document)

        4: doc_vectorList.add(doc_vector)

        5: }

        6: return doc_vectorList

        搜索排序偽代碼:

        Table 2 Pseudocode for search and sorting

        Input:query,doc_vectorList

        Output: result

        1: query_vector = query2vec(query)

        2: ori_result = search(doc_vectorList,query)

        3: result = sort(ori_result)

        4: return result

        3 網(wǎng)頁(yè)搜索算法

        3.1 標(biāo)簽云構(gòu)建

        本文用到實(shí)體、項(xiàng)和屬性3個(gè)維基數(shù)據(jù)。

        (1)實(shí)體是由實(shí)體ID唯一標(biāo)識(shí)的維基數(shù)據(jù)內(nèi)容,它可以是一個(gè)項(xiàng)、屬性或者別的內(nèi)容。一個(gè)實(shí)體會(huì)用不同的語(yǔ)言表述,每個(gè)語(yǔ)言還有對(duì)應(yīng)的標(biāo)簽(可以理解為名稱)、描述和可能的別名。

        (2)項(xiàng)是指現(xiàn)實(shí)存在的對(duì)象、概念或者事件等內(nèi)容,以“Q”+數(shù)字作為標(biāo)識(shí)。

        (3)屬性是數(shù)據(jù)值或關(guān)系的描述,它不是數(shù)據(jù)值本身,以“P”+數(shù)字作為標(biāo)識(shí)。 每個(gè)實(shí)體都會(huì)有很多的屬性和對(duì)應(yīng)的值,值可以是實(shí)體、網(wǎng)頁(yè)鏈接、圖片聲音等。

        更加詳細(xì)的說(shuō)明可以在網(wǎng)頁(yè)https://www.wikidata.org/wiki/Wikidata:Glossary上找到。以實(shí)體水果蘋果(Q89)為例,可以得到表1中的內(nèi)容。

        本文直接將所有的實(shí)體數(shù)據(jù)下載下來(lái),并且導(dǎo)入數(shù)據(jù)庫(kù)中,使用的版本是20150907。此時(shí),維基數(shù)據(jù)擁有超過(guò)15 000 000個(gè)實(shí)體,其中有1763個(gè)屬性。通過(guò)分析這些屬性,將表示從屬和被包含關(guān)系的屬性篩選出來(lái),它們分別是父類(P279)、屬于(P361)、性質(zhì)(P31)和主分類(P910)。同時(shí)聯(lián)系實(shí)際搜索需求,把人的職業(yè)(P106)也考慮進(jìn)來(lái)。將這些篩選出的屬性對(duì)應(yīng)的屬性值作為最終的標(biāo)簽云。

        3.2 網(wǎng)頁(yè)搜索模型構(gòu)建

        3.2.1 初始化標(biāo)簽向量

        在進(jìn)行頁(yè)面檢索和排序前需要將頁(yè)面轉(zhuǎn)換成標(biāo)簽向量。先利用中文分詞方法或者英文詞干提取方法得到詞語(yǔ);再利用維基數(shù)據(jù)上的API將分得的詞語(yǔ)轉(zhuǎn)換為相應(yīng)的實(shí)體。一個(gè)頁(yè)面對(duì)應(yīng)多個(gè)詞語(yǔ),一個(gè)詞語(yǔ)對(duì)應(yīng)多個(gè)實(shí)體,一個(gè)實(shí)體又對(duì)應(yīng)多個(gè)標(biāo)簽,見圖2(a),圖中Ck為頁(yè)面P中含有詞語(yǔ)Wk的個(gè)數(shù),其余連線表示的數(shù)量均為1,圖2(b)同理。

        為了消除一個(gè)詞語(yǔ)通過(guò)API獲得的相同標(biāo)簽分布不能正確反映因特網(wǎng)中實(shí)際的分布問(wèn)題,將該詞語(yǔ)對(duì)應(yīng)的所有標(biāo)簽數(shù)量都置為1,得到如圖2(b)所示的關(guān)系。

        3.2.2 主題模型

        為了合理表現(xiàn)出詞語(yǔ)含義和標(biāo)簽向量中各個(gè)元素的關(guān)系與分布,需要對(duì)詞語(yǔ)和標(biāo)簽向量建立主題模型。 由于選取的標(biāo)簽已經(jīng)是人為標(biāo)記的主題,所以將基于統(tǒng)計(jì)的TF-IDF算法與標(biāo)簽云相結(jié)合,提出TC-ITF算法 (Tags Count - Inverse Term Frequency)。 對(duì)于某一詞語(yǔ)Ti的某一標(biāo)簽tj,有:

        3.3 向量匹配和排序

        將頁(yè)面轉(zhuǎn)換為標(biāo)簽向量后,采用相同的方法可以將搜索語(yǔ)句轉(zhuǎn)換為標(biāo)簽向量S(s1,s2,s3,…sn)。根據(jù)頁(yè)面向量和搜索向量中元素的匹配與否來(lái)檢索頁(yè)面,再利用余弦相似度來(lái)計(jì)算搜索語(yǔ)句和各個(gè)頁(yè)面之間的相似度,相似度算法如下:

        最后將計(jì)算出來(lái)的相似度按遞減順序排序,得到最終搜索結(jié)果。

        4 實(shí)驗(yàn)

        4.1 實(shí)驗(yàn)數(shù)據(jù)

        本文主要研究搜索引擎的排序算法,為了評(píng)價(jià)算法性能,尤其是對(duì)中文的支持度,本文選用了搜狐新聞數(shù)據(jù)集。

        該數(shù)據(jù)集中的每一條記錄包括頁(yè)面URL、頁(yè)面ID、頁(yè)面標(biāo)題和頁(yè)面內(nèi)容,信息分布較為合理,涵蓋了政治、經(jīng)濟(jì)、科技、文化、體育以及社會(huì)生活等方面。

        4.2 評(píng)價(jià)標(biāo)準(zhǔn)

        本文采用了信息檢索常用的兩個(gè)評(píng)價(jià)標(biāo)準(zhǔn)NDCG[13](Normalized Discounted Cumulative Gain)和MAP(Mean Average Precision)。 假設(shè)一共有q個(gè)查詢,對(duì)于某個(gè)查詢Q,共有n個(gè)結(jié)果,其中有m個(gè)相關(guān)結(jié)果。若第i個(gè)結(jié)果是相關(guān)的,則r(i)=1,否則r(i)=0。那么查詢前i個(gè)結(jié)果集的查準(zhǔn)率(Precision):

        4.3 實(shí)驗(yàn)步驟

        4.3.1 數(shù)據(jù)抽樣和人工標(biāo)注

        選擇了“蘋果”、“水果”、“公司”、“手機(jī)”、“蘋果 水果”、“蘋果 公司”、“蘋果 手機(jī)”這7個(gè)搜索語(yǔ)句。 根據(jù)含有關(guān)鍵詞“蘋果”的文檔在總文檔中的比例,抽樣了100條顯示包含“蘋果”字樣的記錄和500條沒(méi)有“蘋果”字樣的記錄, 對(duì)這些記錄作出一定的劃分, 并結(jié)合有關(guān)評(píng)價(jià)標(biāo)準(zhǔn),得到表2和表3。

        4.3.2 頁(yè)面標(biāo)簽向量的生成

        使用Python上的jieba中文分詞組件對(duì)抽樣文本進(jìn)行分詞操作。為了提高分詞準(zhǔn)確率,將維基數(shù)據(jù)上的實(shí)體標(biāo)簽和別名都加入分詞詞庫(kù)并去除各種停止詞,然后構(gòu)建標(biāo)簽向量。

        4.3.3 排序

        建立實(shí)驗(yàn)組A和對(duì)照組B,A組使用本算法進(jìn)行排序,B組使用基于關(guān)鍵詞的全文檢索方法和余弦相似度算法進(jìn)行排序。

        4.4 實(shí)驗(yàn)結(jié)果與分析

        由于用戶只注重排名靠前的搜索結(jié)果的正確率,所以實(shí)驗(yàn)中分別計(jì)算了A、B兩組在n=20和n=50時(shí)的NDCG值和前一百條記錄的MAP值。 A、B兩組的MAP值分別為0.82182和0.63799。查詢的NDCG值和AP值見表4和圖3。

        5 結(jié)語(yǔ)

        本文研究了Wikidata知識(shí)庫(kù)的結(jié)構(gòu)和內(nèi)容,并基于此構(gòu)建了標(biāo)簽云,提出了利用標(biāo)簽云的搜索引擎算法。利用Wikidata的大量?jī)?nèi)容,將詞語(yǔ)轉(zhuǎn)換為帶有不同權(quán)值的標(biāo)簽,進(jìn)而將搜索語(yǔ)句和頁(yè)面都轉(zhuǎn)換為標(biāo)簽向量,通過(guò)向量間的匹配來(lái)實(shí)現(xiàn)最終的排序算法。 實(shí)驗(yàn)結(jié)果表明,該算法相比于傳統(tǒng)基于關(guān)鍵詞的算法在準(zhǔn)確度上有一定提升,能夠創(chuàng)建更多的搜索,保持一定的穩(wěn)定性。

        今后將進(jìn)一步研究開放式知識(shí)庫(kù)在刻畫語(yǔ)義關(guān)系方面的作用,以此來(lái)改進(jìn)基于知識(shí)庫(kù)的頁(yè)面搜索算法,還將研究以標(biāo)簽為中間體的個(gè)性化搜索和推薦算法。

        參考文獻(xiàn):

        [1]BRIN S, PAGE L. The anatomy of a large-scale hypertextual Web search engine[J]. Computer Networks & Isdn Systems, 1998, 30(98):107-117.

        [2]KLEINBERG J M. Authoritative sources in a hyperlinked environment[J]. Journal of the ACM (JACM), 1999, 46(5): 604-632.

        [3]LEMPEL R, MORAN S. SALSA: the stochastic approach for link-structure analysis[J]. ACM Transactions on Information Systems, 2001, 19(2):131-160.

        [4]VRANDECIC D, KROTZSCH M. Wikidata: a free collaborative knowledgebase[J]. Communications of the ACM, 2014, 57(10): 78-85.

        [5]DONG X,GABRILOVICH E,HEITZ G,et al.Knowledge vault:a web-scale approach to probabilistic knowledge fusion[C].Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2014:601-610.

        [6]BAO S, XUE G, WU X, et al. Optimizing Web search using social annotations[J]. Proc of Www', 2007:501-510.

        [7]HOTHO A, JASCHKE R, SCHMITZ C, et al. Folkrank:a ranking algorithm for folksonomies[J].University of Hildesheim Institute of Computerence, 2006:111-114.

        [8]NOLL M G, AU YEUNG C, GIBBINS N, et al. Telling experts from spammers: expertise ranking in folksonomies[C].Proceedings of the 32nd International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2009:612-619.

        [9]劉凱鵬, 方濱興. 一種基于社會(huì)性標(biāo)注的網(wǎng)頁(yè)排序算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2010, 33(6):1014-1023.

        [10]SALTON G, WONG A, YANG C S. A vector space model for automatic indexing[J]. Communications of the ACM, 1975, 18(11): 613-620.

        [11]SCOTT D, DUMAIS S T, FURNAS G W, et al. Indexing by latent semantic analysis[J]. Journal of the American Society for Information Science, 1990, 41(6):391-407.

        [12]BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003(3):993-1022.

        [13]JARVELIN K, KEKALAINEN J. Cumulated gain-based evaluation of IR techniques[J]. Acm Transactions on Information Systems, 2002, 20(4):422-446.

        (責(zé)任編輯:杜能鋼)

        猜你喜歡
        頁(yè)面排序
        微信群聊總是找不到,打開這個(gè)開關(guān)就好了
        大狗熊在睡覺(jué)
        排排序
        刷新生活的頁(yè)面
        排序不等式
        恐怖排序
        節(jié)日排序
        刻舟求劍
        兒童繪本(2018年5期)2018-04-12 16:45:32
        同一Word文檔 縱橫頁(yè)面并存
        淺析ASP.NET頁(yè)面導(dǎo)航技術(shù)
        亚洲中文字幕乱码一二三| 亚洲av日韩av综合aⅴxxx| 久久无码高潮喷水抽搐| 男女打扑克视频在线看| 国产在线无码不卡影视影院| 成 人 免费 黄 色 视频| 久久亚洲AV成人一二三区| 亚洲一区二区在线视频,| 国产精品国产三级国产密月| 国产又色又爽又刺激在线播放| 久青草国产视频| 亚洲妇女av一区二区| 少妇免费av一区二区三区久久| 青春草在线视频免费观看| 国产尤物AV尤物在线看| 久久激情人妻中文字幕 | 精品激情成人影院在线播放| 少妇久久久久久被弄到高潮 | 亚洲一级电影在线观看| 亚洲一区二区日韩精品| 午夜免费电影| 免费做爰猛烈吃奶摸视频在线观看 | 亚洲精品无码人妻无码| 日本丰满少妇高潮呻吟| 日本一本一道久久香蕉男人的天堂| 影音先锋男人av鲁色资源网| 亚洲免费观看| 蜜桃在线观看视频在线观看| 天天做天天爱夜夜夜爽毛片| 国产男女猛烈视频在线观看| 亚洲欧美成人中文在线网站| h视频在线免费观看视频| 亚洲国产成人av在线观看 | 91精品国产91热久久p| 日韩美女av一区二区三区四区| 亚洲一区二区三区四区五区六| 亚洲综合色一区二区三区小说| 精品人妻一区二区久久| 超碰国产精品久久国产精品99| 国产suv精品一区二人妻| 99RE6在线观看国产精品|