亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于PageRank值的文本相似度改進(jìn)模型

        2010-08-07 08:20:48熊才權(quán)田浩
        關(guān)鍵詞:特征詞詞條搜索引擎

        熊才權(quán) 田浩

        湖北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 湖北 430068

        0 引言

        在Google模式中,PageRank值的計(jì)算和向量空間模型的計(jì)算是相互獨(dú)立的,在向量空間模型的計(jì)算中也沒(méi)有考慮到 PageRank值本身所包含的信息含義。本文在計(jì)算文本相似度時(shí)結(jié)合 PageRank值所包含的信息提出在計(jì)算文本相似度時(shí)先以 PageRank值的大小作為特征選擇的條件,然后在VSM模型中考慮類(lèi)別信息以提高檢索的質(zhì)量。

        1 基于PageRank值的VSM改進(jìn)模型

        對(duì)文本進(jìn)行分類(lèi)是一個(gè)比較復(fù)雜的問(wèn)題,文本自動(dòng)分類(lèi)是信息檢索與數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn)與核心技術(shù),而基于機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)的相關(guān)研究已經(jīng)取得較大進(jìn)展。本文首先簡(jiǎn)單的把具有相同 PageRank值的網(wǎng)頁(yè)歸為同一類(lèi),然后在計(jì)算相似度的過(guò)程中考慮這種分類(lèi)的影響,并區(qū)分不同類(lèi)別間的信息差異,最終得到更為有效的檢索結(jié)果。如果把具有相同 PageRank值的網(wǎng)頁(yè)歸為同一類(lèi),就可以把所有網(wǎng)頁(yè)文本根據(jù)其重要性簡(jiǎn)單劃分為11種類(lèi)別。在下載系統(tǒng)中對(duì)網(wǎng)絡(luò)爬蟲(chóng)添加部分代碼使其根據(jù) PageRank值的大小對(duì)網(wǎng)頁(yè)分類(lèi)存儲(chǔ)可以簡(jiǎn)單實(shí)現(xiàn)這種初步的分類(lèi)。

        1.1 詞頻的統(tǒng)計(jì)方法

        在文本分類(lèi)中詞頻一般是基于自然語(yǔ)言的,經(jīng)過(guò)文本分類(lèi)后得到的詞條可以認(rèn)為是計(jì)算機(jī)可識(shí)別的機(jī)器語(yǔ)言,在真實(shí)生活中使用頻率高的詞條可能在機(jī)器語(yǔ)言中使用率并不高。在考慮文本分類(lèi)的同時(shí)為了保證相似度計(jì)算的一致性,可以對(duì)機(jī)器語(yǔ)言的文本頻率進(jìn)行統(tǒng)計(jì)以在文本相似度計(jì)算中使用。

        詞條頻率的統(tǒng)計(jì)過(guò)程如下:

        (1)對(duì)所有分類(lèi)后的頁(yè)面提取特征詞;

        (2)統(tǒng)計(jì)各個(gè)類(lèi)別Ci的文本總數(shù)Mi和包含詞條t的文檔數(shù)mi;

        (3)計(jì)算詞條t在各個(gè)類(lèi)別的各個(gè)文本中的詞頻,公式如下:

        在詞條頻率的統(tǒng)計(jì)過(guò)程中首先需要提取特征詞,特征詞的提取與用戶可能的檢索詞是相關(guān)的。例如“搜索引擎”、“天安門(mén)”等都可能是用戶潛在的檢索詞,所以必須做為特征詞進(jìn)行統(tǒng)計(jì)。本文提供了包含 1370個(gè)檢索內(nèi)容的檢索庫(kù),所有檢索庫(kù)中的詞都作為特征詞進(jìn)行統(tǒng)計(jì)。然而,在搜索引擎中進(jìn)行的每一次檢索都對(duì)詞條進(jìn)行一次頻率統(tǒng)計(jì)是不現(xiàn)實(shí)的,即使根據(jù)本文所提供的檢索庫(kù)所得到的最終統(tǒng)計(jì)結(jié)果也是不全面的。但是,由 PageRank算法可知,網(wǎng)頁(yè)的連接是基于詞條的,所以詞條頻率的變化與 PageRank值的傳遞具有一致性,在 PageRank值更新的時(shí)期內(nèi),基于網(wǎng)絡(luò)的詞條頻率可認(rèn)為保持不變。可以在計(jì)算 PageRank值的同時(shí)進(jìn)行詞條頻率的統(tǒng)計(jì)計(jì)算,也可以改進(jìn) PageRank算法,利用PageRank算法計(jì)算出詞條頻率。

        1.2 改進(jìn)的IDF方法

        一個(gè)詞條如果在一個(gè)類(lèi)別的文檔中頻率較高,則說(shuō)明該詞條能夠很好的代表這個(gè)類(lèi)別的文本特征,這樣的詞條應(yīng)該給它們賦予較高的權(quán)重,并選來(lái)作為該類(lèi)文本的特征詞以區(qū)別其它類(lèi)文檔。例如,計(jì)算機(jī)類(lèi)的文本中“CPU”會(huì)出現(xiàn)在許多文檔中,“CPU”應(yīng)該選來(lái)作為計(jì)算機(jī)類(lèi)文本的特征詞以區(qū)別其它類(lèi)文檔。

        根據(jù)上述原理提出改進(jìn)的IDF方法如下:

        設(shè)總的文檔數(shù)為 N,包含詞條t的文檔數(shù)為 n,其中某一類(lèi)Ci中包含詞條t的文檔數(shù)為mi,除Ci類(lèi)外,包含詞條t的文檔數(shù)為k,則t在Ci類(lèi)中的IDFi值為:

        顯然,IDFi隨mi增大而增大,隨k增大而減小。如果在某一類(lèi)Ci中包含詞條t的文檔數(shù)量大,而在其它類(lèi)中包含詞條t的文檔數(shù)量小的話,則t能夠代表Ci類(lèi)的文本的特征,具有很好的類(lèi)別區(qū)分能力。

        1.3 改進(jìn)的VSM模型

        綜上所述,在對(duì)搜索引擎中文本相似度計(jì)算的方法和過(guò)程進(jìn)行改進(jìn)后提出“基于PageRank值的VSM改進(jìn)模型”,其文本相似度的計(jì)算過(guò)程如下:

        (1)對(duì)所有下載的頁(yè)面根據(jù)PageRank值的大小進(jìn)行分類(lèi),并統(tǒng)計(jì)特征詞條在各個(gè)類(lèi)別中的詞頻TFi;

        (2)由改進(jìn)的IDF方法計(jì)算詞條在各個(gè)類(lèi)別中的IDFi;

        (3)計(jì)算該特征項(xiàng)t在文本d中的重要程度Wt,d;

        (4)計(jì)算文本d和查詢式q的相似度sim(q,d);其公式如下:

        (5)根據(jù)相似度的大小生成相似度排序列表。其中,具有相同相似度的頁(yè)面PageRank值大的排在前面。

        為了驗(yàn)證改進(jìn)后的效果,需對(duì)原模型和改進(jìn)后的模型所生成的結(jié)果進(jìn)行比較。假設(shè):由原模型(VSM)得到的排序?yàn)椋簕A1,A2,……,An};由改進(jìn)后的模型(BPVSM)得到的排序?yàn)椋簕B1,B2,……,Bn}。

        定義1:相關(guān):若檢索結(jié)果頁(yè)面Ai或Bi中包含檢索信息則Ai或Bi相關(guān),否則Ai或Bi不相關(guān)。

        定義2:異點(diǎn):在兩次排序中若Ai≠Bi則Ai和Bi為異點(diǎn)。

        定義 3:優(yōu)異點(diǎn):在兩次排序中?Ai≠Bi,若 Ai相關(guān)而B(niǎo)i不相關(guān)則Ai為優(yōu)異點(diǎn),若Bi相關(guān)而Ai不相關(guān)則Bi為優(yōu)異點(diǎn);在兩次排序中?Ai=Bj,若i>j則Ai為優(yōu)異點(diǎn),若i<j則Bj為優(yōu)異點(diǎn)。

        2 實(shí)驗(yàn)結(jié)果及分析

        網(wǎng)絡(luò)上的數(shù)據(jù)是極其巨大的,對(duì)所有網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行完備的實(shí)驗(yàn)分析是困難的。整個(gè)互連網(wǎng)是由一個(gè)個(gè)網(wǎng)絡(luò)構(gòu)成的,其中任意一個(gè)網(wǎng)絡(luò)都可以認(rèn)為是一個(gè)較小的互連網(wǎng)。例如:分別對(duì)中國(guó)教育網(wǎng)和對(duì)中國(guó)電信網(wǎng)進(jìn)行實(shí)驗(yàn)所得到的結(jié)果幾乎沒(méi)有區(qū)別。所以,適當(dāng)縮小實(shí)驗(yàn)范圍不會(huì)影響最終的實(shí)驗(yàn)結(jié)果。在本實(shí)驗(yàn)中,限制網(wǎng)絡(luò)蜘蛛的爬取范圍是在中國(guó)教育網(wǎng)內(nèi)(即網(wǎng)址后部分為.edu.cn)。但是即使僅對(duì)中國(guó)教育網(wǎng)進(jìn)行全面的分析計(jì)算也是一個(gè)巨大的工程,為了證明改進(jìn)后的算法對(duì)檢索結(jié)果的影響可進(jìn)行驗(yàn)證性實(shí)驗(yàn),其過(guò)程如下:

        首先,精選檢索內(nèi)容,生成包含了 1370個(gè)檢索條目的檢索內(nèi)容庫(kù),然后分別在Google中檢索,并用網(wǎng)絡(luò)蜘蛛爬取檢索結(jié)果頁(yè)面。

        其次,根據(jù)改進(jìn)后的模型對(duì)檢索結(jié)果進(jìn)行再排序。由于在搜索引擎中一個(gè)頁(yè)面顯示 10個(gè)結(jié)果,而用戶一般難以容忍翻看到 10以后的結(jié)果,所以盡量避免對(duì)后面的結(jié)果頁(yè)面進(jìn)行分析計(jì)算。在實(shí)驗(yàn)中,只對(duì)結(jié)果頁(yè)面的前1/3進(jìn)行了分析計(jì)算(檢索結(jié)果少于 300則全部進(jìn)行分析計(jì)算),最終只顯示前10個(gè)頁(yè)面的排序。

        最后,分別統(tǒng)計(jì)兩次排序前十個(gè)頁(yè)中所包含的相關(guān)頁(yè)面的數(shù)目,比較兩次排序的相關(guān)性;分別統(tǒng)計(jì)兩次排序的優(yōu)異點(diǎn),比較兩次排序的優(yōu)異性;并用 MATLAB對(duì)統(tǒng)計(jì)結(jié)果進(jìn)行模擬得到仿真圖。

        在實(shí)驗(yàn)中,檢索內(nèi)容庫(kù)主要分為復(fù)雜檢索和簡(jiǎn)單檢索,復(fù)雜檢索為可以確定具體結(jié)果的檢索,例如檢索內(nèi)容為“毛澤東 開(kāi)國(guó)典禮 語(yǔ)錄”為復(fù)雜檢索,而“毛澤東 語(yǔ)錄”為簡(jiǎn)單檢索。同時(shí)考慮到部分新詞如“綠領(lǐng)”并未被詞典收錄,檢索內(nèi)容庫(kù)具有 37條包含新詞的檢索如“綠領(lǐng) 含義”。檢索內(nèi)容庫(kù)概要見(jiàn)表1。

        表1 檢索內(nèi)容庫(kù)

        經(jīng)過(guò)對(duì)實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)分析發(fā)現(xiàn)改進(jìn)后的模型在提高檢索的準(zhǔn)確率上比原模型更加有效,在對(duì)包含新詞的檢索中貢獻(xiàn)更加明顯。最終統(tǒng)計(jì)結(jié)果見(jiàn)表2。

        表2 兩次排序的效率比較

        對(duì) 1370次排序的相關(guān)性進(jìn)行模擬,發(fā)現(xiàn)兩條相關(guān)性曲線相互交織在一起,其中BPVSM的大部分略高于VSM;見(jiàn)圖 1(縱坐標(biāo)表示相關(guān)頁(yè)面的數(shù)目,橫坐標(biāo)表示按照相關(guān)頁(yè)面的數(shù)目的大小排列的1370次統(tǒng)計(jì))。

        圖1 相關(guān)性統(tǒng)計(jì)圖

        對(duì)相關(guān)數(shù)(其范圍為0-100)進(jìn)行逆向統(tǒng)計(jì)的模擬,發(fā)現(xiàn)兩條曲線在11%和20%左右有較大的起伏;BPVSM在11%和20%有兩次波峰,而VSM僅在20%有一次波峰。見(jiàn)圖2(橫坐標(biāo)為頁(yè)面相關(guān)數(shù),縱坐標(biāo)表示具有某個(gè)相關(guān)數(shù)的統(tǒng)計(jì)次數(shù))。

        圖2 相關(guān)性逆向統(tǒng)計(jì)圖

        對(duì)1370次排序的優(yōu)異點(diǎn)統(tǒng)計(jì)進(jìn)行模擬,發(fā)現(xiàn)VSM曲線有少量的奇異點(diǎn)落在BPVSM曲線的上方,忽略少量的奇異點(diǎn)后可認(rèn)為BPVSM曲線在VSM曲線的上方。見(jiàn)圖 3(縱坐標(biāo)表示優(yōu)異點(diǎn)數(shù)目,橫坐標(biāo)為按照優(yōu)異點(diǎn)數(shù)目排序的 1370次統(tǒng)計(jì))。

        圖3 優(yōu)異點(diǎn)統(tǒng)計(jì)圖

        綜上所述,實(shí)驗(yàn)結(jié)果表明:

        (1)兩種模型檢索結(jié)果的查準(zhǔn)率比較接近,但改進(jìn)后的模型查準(zhǔn)率更高;

        (2)兩次排序的查準(zhǔn)率在7%-35%之間,在11%和20%左右達(dá)到最大概率;

        (3)改進(jìn)后的模型可以明顯提高對(duì)新詞的查準(zhǔn)率;

        (4)改進(jìn)后的模型對(duì)前 100個(gè)網(wǎng)頁(yè)的可信度提高了約1.45174倍。

        3 結(jié)束語(yǔ)

        相似度的計(jì)算與排序是搜索引擎的一個(gè)重要部分,提高相似度的計(jì)算與排序的效率和質(zhì)量對(duì)提高整個(gè)搜索引擎的質(zhì)量具有重大的意義。本文基于搜索引擎的文本檢索部分提出了基于 PageRank值的文本相似度改進(jìn)模型,通過(guò)模擬實(shí)驗(yàn)表明改進(jìn)后的模型可以提高檢索的準(zhǔn)確率,在對(duì)新詞的檢索中更加明顯。

        基于 PageRank值統(tǒng)計(jì)詞頻,詞頻的統(tǒng)計(jì)必須保持與PageRank值的更新同步,這必然會(huì)增加整個(gè)搜索引擎的工作量;其次,改進(jìn)后的模型依然存在奇異點(diǎn)(即完全不相關(guān)的頁(yè)面卻獲得了很高的相似度),若在改進(jìn)后的模型中考慮消去產(chǎn)生奇異點(diǎn)的原因可以提高模型的穩(wěn)定性。

        [1] PAGE.L,BRIN.S.The anatomy of a large scalehyper textual Web search engine [J].Computer Networks and ISDN Systems.1998.

        [2] PAGE.L,BRIN.S,MOTWAN.R.WINOGRAD.T. The PageRank citation Ranking:Bringing Order to the Web[J]. Stanford Digital Library Technologies Project.1998.

        [3] MATTEW.R,PEDRO.D.The intelligent surfer: Probabilistic combination of link and content information in PageRank[J].Neural Information Processing Systems.2002.

        [4] SALTON G,WONG A,YANG C.A Vector SpaceModel for Automatic Indexing[J]. Comm-unications of ACM.1975.

        [5] YANG Y.An Evaluation of Statistical Approaches to Text Categorization[J].Information Retrieval.1999.

        [6] 梁斌.走進(jìn)搜索引擎[M].北京:電子工業(yè)出版社.2007.

        [7] 蘇金樹(shù),張博鋒,徐昕.基于機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)研究進(jìn)展軟件學(xué)報(bào)[J].2006.

        猜你喜歡
        特征詞詞條搜索引擎
        基于改進(jìn)TFIDF算法的郵件分類(lèi)技術(shù)
        產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
        2016年4月中國(guó)直銷(xiāo)網(wǎng)絡(luò)熱門(mén)詞條榜
        2016年3月中國(guó)直銷(xiāo)網(wǎng)絡(luò)熱門(mén)詞條榜
        2016年9月中國(guó)直銷(xiāo)網(wǎng)絡(luò)熱門(mén)詞條榜
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        面向文本分類(lèi)的特征詞選取方法研究與改進(jìn)
        大數(shù)據(jù)相關(guān)詞條
        基于Nutch的醫(yī)療搜索引擎的研究與開(kāi)發(fā)
        廣告主與搜索引擎的雙向博弈分析
        中文字幕无线精品亚洲乱码一区| 国产精品va无码一区二区| 真人男女做爰无遮挡免费视频| 狠狠色欧美亚洲综合色黑a| 国内精品毛片av在线播放| 无码h黄肉3d动漫在线观看| 精品国精品无码自拍自在线| 2020久久精品亚洲热综合一本| 丝袜美腿亚洲综合一区| 狠狠色噜噜狠狠狠777米奇| 亚洲va中文字幕无码| 色yeye在线观看| 国产91精品一区二区麻豆亚洲| 国产精品久久成人网站| 国精产品一区二区三区| 亚洲AV秘 无码一区二区久久| 日韩女优图播一区二区| 各种少妇正面着bbw撒尿视频| 亚洲精品老司机在线观看| 亚洲一区二区av偷偷| 国产精品一区二区三区免费视频 | 亚洲高潮喷水中文字幕| 香蕉蜜桃av一区二区三区| 国产成人亚洲精品无码青| 亚洲日本va午夜在线电影| 性无码国产一区在线观看| 中文国产乱码在线人妻一区二区| 国产日产欧洲系列| 97国产免费全部免费观看| 亚洲熟女一区二区三区不卡 | 日本啪啪视频一区二区| 不卡av电影在线| 国产成人午夜福利在线观看者| 富婆叫鸭一区二区三区 | 永久黄网站免费视频性色| 在线精品国内视频秒播| 亚洲成在人网站天堂日本| 日日摸日日碰人妻无码| 学生妹亚洲一区二区| 丰满人妻无奈张开双腿av| 国产av无码专区亚洲av男同|