亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于擴展主題特征庫的領(lǐng)域主題爬蟲

        2015-12-23 00:59:14吳岳廷李石君
        計算機工程與設(shè)計 2015年5期
        關(guān)鍵詞:頁面特征

        吳岳廷,李石君

        (武漢大學(xué) 計算機學(xué)院,湖北 武漢430072)

        0 引 言

        與傳統(tǒng)的通用爬蟲不同,領(lǐng)域主題爬蟲的目標(biāo)在于抓取與指定主題相關(guān)的網(wǎng)頁集。目前計算網(wǎng)頁與特定主題的相關(guān)性通常采用的是基于靜態(tài)關(guān)鍵詞項的頁面量化與向量空間模型相結(jié)合的方法。然而,這種方法忽略了頁面語義層面與主題領(lǐng)域之間的關(guān)系,片面地通過計算詞頻作為網(wǎng)頁過濾的依據(jù),容易造成爬取的結(jié)果與主題偏離,引入大量的噪音頁面從而降低領(lǐng)域主題爬蟲的抓取效率和實用性[1]。

        為了提高目標(biāo)網(wǎng)頁爬取的準確度和效率,綜合考慮現(xiàn)有模型和方法的優(yōu)缺點,將擴展主題特征庫引入網(wǎng)頁相關(guān)度計算過程中,提出一種基于擴展主題特征庫的領(lǐng)域主題爬蟲。該爬蟲基于擴展主題特征庫定義網(wǎng)絡(luò)空間中的頁面。為了能夠?qū)崟r調(diào)整對主題相關(guān)頁面的捕獲粒度,提高對噪音頁面的識別精度,在網(wǎng)頁抓取過程中動態(tài)地更新主題庫,通過動態(tài)的擴展主題項和網(wǎng)頁相關(guān)度計算算法量化頁面的主題相關(guān)度,剔除不相關(guān)或相關(guān)性較弱的網(wǎng)頁,從而彌補了傳統(tǒng)的領(lǐng)域主題爬蟲對網(wǎng)頁語義層次處理的不足。最后通過對新舊方法的實驗結(jié)果進行分析與比較,驗證改進后的主題爬蟲的優(yōu)勢。

        1 標(biāo)簽塊節(jié)點

        1.1 標(biāo)簽塊節(jié)點數(shù)據(jù)結(jié)構(gòu)

        在網(wǎng)絡(luò)空間中,網(wǎng)頁是由各種類型的HTML 標(biāo)簽和嵌入在其中的文本內(nèi)容所組成,不同種類的標(biāo)簽放置在網(wǎng)頁的不同區(qū)域體現(xiàn)其對頁面的不同作用[3]。例如突出強調(diào)重要信息,劃分文本塊結(jié)構(gòu)或者裝載子標(biāo)簽形成嵌套復(fù)雜結(jié)構(gòu) (類似容器)等多種功能,而同類型的標(biāo)簽通常在頁面的表現(xiàn)形式中發(fā)揮類似的作用。例如,<strong>、<b>、<h1>、<i>都在頁面中起到對重點內(nèi)容進行突出展示的作用,而<p>、<div>、<span>起著類似于文本容器的作用。正因為網(wǎng)頁與HTML標(biāo)簽存在緊密的聯(lián)系,且標(biāo)簽可以根據(jù)其功能劃分成不同的類型集,因此可以將網(wǎng)頁抽象成重要標(biāo)簽塊和標(biāo)簽塊相互之間關(guān)系集的節(jié)點集模型

        根據(jù)Web站點中不同種類的網(wǎng)頁從中抽取出所有代表性的標(biāo)簽,表示成標(biāo)簽塊節(jié)點 (tag-block node),所有標(biāo)簽塊節(jié)點及其相互之間的關(guān)系構(gòu)成整體頁面。具體表示如下所示

        式中:TN——頁面中的所有標(biāo)簽塊節(jié)點的集合,Block(m)——由標(biāo)簽塊節(jié)點的詳細結(jié)構(gòu),m——頁面中標(biāo)簽塊的數(shù)目。BlockId——標(biāo)簽塊節(jié)點編號,是對頁面中特定位置特定類型標(biāo)簽的唯一標(biāo)識,BlockName——標(biāo)簽塊的名稱,BlockDetail——對標(biāo)簽塊的描述信息,BlockContent——標(biāo)簽塊內(nèi)的文本內(nèi)容,BlockType——標(biāo)簽塊節(jié)點類型,由塊內(nèi)標(biāo)簽的功能特點決定。AttributeSet——標(biāo)簽塊的屬性集合,KeyTagSet——節(jié)點中的重要標(biāo)簽集合,weight——標(biāo)簽節(jié)點的權(quán)重,impact——標(biāo)簽塊節(jié)點的影響因子。

        1.2 標(biāo)簽塊節(jié)點的影響因子和權(quán)值

        各標(biāo)簽塊節(jié)點的影響因子 (impact factor)和權(quán)值(weight)不同,在計算其影響因子和權(quán)值之前,首先給出影響因子和權(quán)值的定義。

        定義1 標(biāo)簽塊節(jié)點影響因子標(biāo)簽塊節(jié)點p 的影響因子Block.impact是對節(jié)點p 對頁面主題的語義和結(jié)構(gòu)方面綜合影響力的量值。由塊所含有的標(biāo)簽和其在頁面中的所在的區(qū)域特征等因素所構(gòu)成。

        通常而言,頁面的任意一區(qū)域塊,如果其含有的重要標(biāo)簽數(shù)目越多,則其重要性即影響因子越大;塊中的標(biāo)簽和文本內(nèi)容對塊類型貢獻出的語義特征越顯著,其影響因子相應(yīng)地也越大。根據(jù)這兩點,可以將標(biāo)簽塊節(jié)點的影響因子的數(shù)值量化成二者的加權(quán)組合求和。計算方法如式(3)所示

        式中:Block.impact0由塊節(jié)點中含有的重要信息標(biāo)簽的數(shù)量決定,——Block.impact0對應(yīng)的權(quán)值,計算公式如下所示

        式中:keyTagSet——標(biāo)簽塊中含有的所有關(guān)鍵標(biāo)簽集,keyTagSet.size ()——標(biāo)簽塊節(jié)點中關(guān)鍵標(biāo)簽的個數(shù)。Block.impact1根據(jù)經(jīng)驗值設(shè)定,根據(jù)標(biāo)簽塊節(jié)點Block-Type的不同設(shè)置不同的數(shù)值。

        定義2 標(biāo)簽塊節(jié)點權(quán)值標(biāo)簽塊塊節(jié)點權(quán)值指其影響因子在其所在的頁面所有標(biāo)簽塊影響因子數(shù)值總和中的比例。

        塊節(jié)點的影響因子具有可傳遞性。如果某個塊含有關(guān)鍵標(biāo)簽和重要文本信息,即其影響因子較大,則該區(qū)域塊的外層嵌套塊的影響因子也隨之受影響而相應(yīng)較大。類似于這種情形,如果隨著網(wǎng)頁主題的轉(zhuǎn)移某一標(biāo)簽塊的重要性發(fā)生變化,則影響因子會擴展到其相鄰的或內(nèi)包含的區(qū)域塊,最終影響塊節(jié)點權(quán)值。mj的權(quán)值計算公式如下所示

        在網(wǎng)頁WP 中統(tǒng)計得出塊mj中關(guān)鍵詞j 的詞項頻率WTfij,即可以計算出詞項j的權(quán)值

        式中:m——網(wǎng)頁中所有的重要詞項總數(shù),NT——WP-m頁面模型中標(biāo)簽塊節(jié)點的總數(shù)。

        2 擴展主題特征庫

        傳統(tǒng)爬蟲的主題特征庫是一個靜態(tài)的常量。根據(jù)特定專業(yè)領(lǐng)域的特點由富有經(jīng)驗的領(lǐng)域?qū)<医ⅲY(jié)合網(wǎng)頁相關(guān)度計算策略來篩選網(wǎng)頁,以決定網(wǎng)頁是否下載到本地文件系統(tǒng)或者數(shù)據(jù)庫中。靜態(tài)的主題特征庫 (static topic feature library,STFL)由于在爬蟲爬取網(wǎng)頁的過程中不能根據(jù)爬取的深度和已處理的站點規(guī)律作出適應(yīng)性變化,所以缺乏靈活性和可變性。而且單純根據(jù)獨立的關(guān)鍵詞項來篩選網(wǎng)頁還忽略了對頁面語義層次的相關(guān)度考量,易漏掉很多不屬于靜態(tài)主題特征庫但含有很多與特征庫中的關(guān)鍵詞項同義或近義詞的網(wǎng)頁集。

        為了提高主題特征關(guān)鍵詞的區(qū)分能力和移植性,在相對較少的時間內(nèi)搜索少而準確的網(wǎng)頁集,同時盡可能動態(tài)地在爬取過程中適應(yīng)主題多變性的要求,這就要求與主題相關(guān)的特征項是動態(tài)變化的,且包含體現(xiàn)頁面語義的特征項。具備這樣特點的特征庫稱之為動態(tài)主題特征庫 (dynamic topic feature library,DTFL)。將靜態(tài)和動態(tài)的主題特征庫結(jié)合起來形成了擴展主題特征庫 (extended topic feature library,ETFL),如下所示

        2.1 專業(yè)領(lǐng)域主題特征項

        主題特征項通常包括事物主體、時間、地點以及詳情信息等要素。為了精確地描述專業(yè)領(lǐng)域內(nèi)的特定概念和事件,主題特征項應(yīng)該至少包含事物發(fā)生的主體,專業(yè)領(lǐng)域內(nèi)的專用詞匯以及有利情報的判定詞。事物發(fā)生的主體定義了事物涉及的團體或機構(gòu),專用詞匯則限定事物的范圍,具有指向性強和專業(yè)領(lǐng)域分辨度高等特點,情報判定詞則在一定程度上定義了信息的有效性和重要性,結(jié)合3種關(guān)鍵詞項可以最基本地描述一個領(lǐng)域主題。以稅務(wù)領(lǐng)域為例,涉稅主體包括國稅機關(guān),地稅機關(guān)在內(nèi)的征稅主體和個體工商戶、企業(yè)集團在內(nèi)的納稅主體;涉稅專業(yè)詞匯包括印花稅、對物稅等,這類詞大量應(yīng)用于稅務(wù)領(lǐng)域,對辨別稅務(wù)信息非常有效。

        另一方面,由于稅務(wù)信息種類繁多,為了從多而繁雜的涉稅信息中爬取到稅收情報相關(guān)信息,有必要對頁面信息作價值性判定分析。因此需要在主題特征庫中引入體現(xiàn)稅收情報信息特點的判定詞項,這類詞對網(wǎng)頁內(nèi)容是否具備稅務(wù)情報特點具有較強的引導(dǎo)和分辨力,能決定頁面是否具有情報利用價值。涉稅主題特征詞項的示例見表1。

        表1 涉稅信息的主題特征詞項示例

        2.2 網(wǎng)頁主題特征項提取算法

        因為不同位置和類型的標(biāo)簽對網(wǎng)頁主題的貢獻重要性不同。例如同樣是標(biāo)題,網(wǎng)頁標(biāo)題和段落標(biāo)題對網(wǎng)頁主題的貢獻度不同,對超鏈接進行描述的錨文本和網(wǎng)頁正文對網(wǎng)頁的重要性也不一樣。可以重要性不同的標(biāo)簽劃分到不同的標(biāo)簽塊節(jié)點中,因為其對所屬主題的區(qū)分貢獻度不同,所以在主題特征項的提取過程中需要對不同的標(biāo)簽進行區(qū)別對待。下面是本文提出的網(wǎng)頁主題動態(tài)提取算法的偽代碼:

        2.3 擴展主題特征庫生成算法

        基于靜態(tài)主題特征庫進行爬取被證實存在諸多缺陷,要改進網(wǎng)頁過濾算法首要要對主題特征庫進行擴展。擴展主要采取如下兩種方案。

        一種方案是基于Wikipedia,HowNet等電子資料庫來生成動態(tài)主題特征庫,這種方法通過采用包含同義詞和上下位相關(guān)聯(lián)詞在內(nèi)的同義詞典的方式來擴展特征庫[9]。第二種方案是通過在Google、百度等主流的搜索引擎的搜索框中輸入原始的靜態(tài)主題特征項,在搜索引擎返回的搜索結(jié)果中選擇前top L 篇文檔作為預(yù)選頁面,利用2.2所示的網(wǎng)頁主題特征提取算法從上述頁面中抽取擴展特征項;

        以第二種方案為例,其執(zhí)行過程是,針對原始主題特征庫中的每一個特征項,在Google等搜索引擎中輸入詞rw,Google基于詞rw 返回一個結(jié)果列表,其中包括一系列與rw 相關(guān)的URL列表,選取前Top L 個URL,下載至本地文件系統(tǒng)中,構(gòu)成與詞項rw 相關(guān)的網(wǎng)頁集WSet。然后對WSet中的網(wǎng)頁進行正文抽取,去除正文中的停用詞和主題噪音詞,采用式 (6)所示的加權(quán)的TF*IDF 公式計算出的權(quán)值Wek對結(jié)果進行排序,選擇詞頻排在前Top n位的擴展詞構(gòu)成詞集 {e1,e2,...,en},作為基于rw 詞項擴展的主題特征項集。在經(jīng)過用戶的辨別,篩選和編輯后,加入到擴展主題庫特征庫中

        式中:w——詞項,f (ek)——詞w 在頁面中的詞頻,fmax——頁面中所有詞詞頻的最大值。采用兩種方案相結(jié)合的方法生成擴展主題特征庫的算法描述如下所示:

        設(shè)Topic表示某一主題的名稱,TD 表示對主題Topic的描述字符串,SE 表示Google、百度等主流搜索引擎集合,OL 表示Hownet、Wikipedia等在線語料庫集合,IW為用戶手動輸入的主題特征項集,EW 表示通過方案一提取出的擴展詞項,SW 表示通過方案二提取出的擴展詞項,UT 為主題特征項待選集,CT 為經(jīng)過用戶確認后的主題特征項集,CT_s為涉稅主體特征項集,CT_t為涉稅專業(yè)特征項集,CT_i為稅務(wù)情報判定特征項集,RS 經(jīng)過用戶確認后的種子URL 集。SU 表示主題Topic的種子URL(爬蟲最開始爬取的站點)待選集,CU 為經(jīng)過用戶確認后的種子URL集合。

        接著定義一些方法來描述主題特征集動態(tài)擴展算法中的子過程。

        方法fq(U)表示將網(wǎng)頁下載到本地文件系統(tǒng)中或者將網(wǎng)頁相關(guān)信息存儲到數(shù)據(jù)庫中的過程。

        σ(p)表示從網(wǎng)頁P 中下自動抽取出主題特征詞項的過程。

        方法fe(UT)表示用戶對主題特征項的辨別,篩選和編輯后,形成最終主題特征項集的過程。

        方法fc(CT)表示根據(jù)稅務(wù)主題的特點對主題特征項進行分類的過程。

        主題特征庫動態(tài)擴展的算法描述如下所示:

        3 網(wǎng)頁過濾

        3.1 網(wǎng)頁相關(guān)度計算

        因為不同類型的標(biāo)簽塊節(jié)點對網(wǎng)頁主題的貢獻度不同,所以對各部分進行加權(quán)求和,公式如下所示

        式中:Rtitle(wp)——標(biāo)題的主題相關(guān)度,Rcontent(wp)——正文的主題相關(guān)度,Rnavigation(wp)——網(wǎng)頁導(dǎo)航欄的主題相關(guān)度,Ranchor(wp)——網(wǎng)頁內(nèi)錨文本的主題相關(guān)度,Rother(wp)——其它類標(biāo)標(biāo)簽塊節(jié)點的主題相關(guān)度。

        其中,各標(biāo)簽塊節(jié)點主題相關(guān)度的計算方法是采用向量空間模型 (vector space model,VSM)和TF-IDF算法相結(jié)合的方法。使用VSM 將網(wǎng)頁wp表示為各詞項權(quán)重組成的主題特征向量。即wp ={w1,w2,…,wn},其中wt表示詞項t在網(wǎng)頁中的權(quán)重值。

        在擴展特征庫中,將領(lǐng)域主體Fb,領(lǐng)域?qū)I(yè)詞Fs,領(lǐng)域情報判定詞Fv表示成主題特征向量

        通過TF-IDF算法對頁面中各詞項的權(quán)重值進行計算,計算公式如下所示

        上述公式中的tft為詞項t頁面中出現(xiàn)的頻數(shù),idft為詞項的逆文本頻率。為了避免網(wǎng)頁文本內(nèi)容的篇幅的長短給權(quán)值計算造成的影響,對權(quán)值進行歸一化處理,計算方法如式 (13)所示

        式中:fl(t)——特征項t所在的標(biāo)簽塊節(jié)點l 的位置權(quán)值,L——f(t)所在的標(biāo)簽塊總數(shù)。越能體現(xiàn)網(wǎng)頁主題且與其它標(biāo)簽塊的區(qū)分度越高的節(jié)點,其fl(t)的值越大,反之則越低。

        fl(t)的計算方法如式 (14)所示

        最后使用余弦相似度計算式 (15)計算網(wǎng)頁Pj與相應(yīng)主題T 的相關(guān)度

        根據(jù)主題T 的特點設(shè)置相關(guān)度的閾值η,若sim(Pj,T)≥η,則任務(wù)頁面Pj與主題T 相關(guān),爬蟲允許其通過各處理鏈,最終下載到文件系統(tǒng)或數(shù)據(jù)庫中;否則網(wǎng)頁過濾模塊將其丟棄。

        3.2 基于擴展主題特征庫的網(wǎng)頁過濾

        令L= {L1,L2,…,Ls}表示經(jīng)過上述算法生成的擴展主題特征庫,其中,Li為擴展主題特征項,s為主題特征項個數(shù),WP = {wp1,wp2,…,wpt}表示網(wǎng)頁集。

        基于擴展主題特征庫的網(wǎng)頁過濾算法的基本思路是:首先對網(wǎng)頁pj進行分析,表示成如1.1小節(jié)所示的標(biāo)簽塊節(jié)點集模型,并抽取出重要的詞項構(gòu)成精簡的網(wǎng)頁文本集sj,將sj中與擴展項ei具有同義或者上下相關(guān)的詞項替換成主題概念ci,通過使用主題概念代替固定的關(guān)鍵詞,從而使對網(wǎng)頁與主題的相關(guān)性評定轉(zhuǎn)化為語義層次的頁面文本概念集與擴展特征庫的相關(guān)度計算。算法描述如下:

        對于網(wǎng)頁集WP 中的每一個網(wǎng)頁WPj,基于擴展的主題特征集k形成基于概念的新頁面WPj’,在算法開始執(zhí)行時,WPj’與原始頁面基本相同。

        記擴展主題特征庫為E= {E1,E2,…,En},Ei={ei1,ei2,…,ein},其中eij(1≤i≤n,1≤j≤t)表示根據(jù)關(guān)鍵詞ei擴展出的同義詞或者上下相關(guān)聯(lián)詞;對每個原始詞ei將Ei的每一項存入template;

        根據(jù)式 (13),可以計算出基于概念的新頁面WP’j的特征向量 (w1,j’,w2,j’,...,wn,j’)。設(shè)定θ為閾值,如果網(wǎng)頁WPj的主題相關(guān)性sim(Pj,T)≥θ,則認為頁面為主題相關(guān),應(yīng)該下載。

        4 實驗結(jié)果分析與比較

        為了檢驗本文中提出的領(lǐng)域主題爬蟲在網(wǎng)頁過濾方法上的有效性,選定稅務(wù)領(lǐng)域為示例,將基于擴展主題特征庫的涉稅主題爬蟲與基于靜態(tài)關(guān)鍵詞的涉稅主題爬蟲在相同的實驗環(huán)境中進行爬取,然后對結(jié)果進行分析和比較。

        實驗采用CentOS6.2作為操作系統(tǒng),選用Sybase ASE 15.0.3for Linux作為數(shù)據(jù)庫管理系統(tǒng),開發(fā)集成環(huán)境為InteliJIDEA+jdk-6u10-rc2。

        衡量主題爬蟲網(wǎng)頁過濾策略是否優(yōu)良的一個重要指標(biāo)是頁面抓取精度RR (relevance ratio),頁面抓取精度RR=涉稅主題爬蟲實際抓取的主題相關(guān)網(wǎng)頁數(shù)目relevant_pages/領(lǐng)域主題爬蟲實際抓取的主題相關(guān)網(wǎng)頁數(shù)目/領(lǐng)域主題爬蟲爬取的網(wǎng)頁總數(shù)total_crawled。除此之外,衡量爬取抓取結(jié)果的兩個重要指標(biāo)為準確率precision和召回率recall,準確率precision =領(lǐng)域主題爬蟲實際抓取的主題相關(guān)網(wǎng)頁數(shù)目relevant_pages/經(jīng)過爬蟲判定為主題相關(guān)后下載的主題相關(guān)網(wǎng)頁的數(shù)目fetch_pages,召回率recall =領(lǐng)域主題爬蟲實際抓取的主題相關(guān)網(wǎng)頁數(shù)目relevant_pages/網(wǎng)絡(luò)空間中實際存在的與主題相關(guān)的網(wǎng)頁數(shù)目existing_relevant_pages,為了能夠綜合體現(xiàn)準確率和召回率的指標(biāo)性,引入指標(biāo)F,計算公式如下所示

        實驗結(jié)果如表2和圖1所示。

        由表2的實驗結(jié)果分析得出,相對于傳統(tǒng)的靜態(tài)特征庫,采用擴展特征庫的涉稅主題爬蟲準確率precision 對比傳統(tǒng)主題爬蟲提高了23.74%,召回率recall 提高了24.28%,二者的綜合因素F 對比提高了24.43%,爬取結(jié)果中主題相關(guān)性網(wǎng)頁的比例明顯增大。而從圖1網(wǎng)頁抓取精度和已爬取網(wǎng)頁總數(shù)的動態(tài)變化趨勢圖可以看出,在網(wǎng)頁抓取初期階段,由于初始URL 和根據(jù)鏈接分析得出的URL離主題相關(guān)性資源集中域較近,所以兩種爬蟲中的網(wǎng)頁的抓取精度都比較高而且差距較小,而隨著爬蟲的運行,處理的頁面網(wǎng)址偏離主題資源區(qū)域的概率增大,抓取精度下降比較快,且差距增大。觀察可知,隨著爬蟲的運行,基于擴展主題特征庫的主題爬蟲網(wǎng)抓取精度均比基于靜態(tài)主題庫的高,而且上下浮動比較小,表明爬取精度較為穩(wěn)定;而靜態(tài)主題庫爬蟲的實驗結(jié)果上下浮動比較大,表示判定主題相關(guān)性網(wǎng)頁的穩(wěn)定性不足,易引入主題噪音頁面。

        表2 兩次采集實驗結(jié)果對比

        圖1 靜態(tài)主題庫與動態(tài)主題庫對比

        因此,通過實驗結(jié)果表2和圖1的分析和比較可知,相比于傳統(tǒng)的基于靜態(tài)關(guān)鍵詞項的領(lǐng)域主題爬蟲,基于擴展主題庫的主題爬蟲能夠更精準地對主題相關(guān)性頁面進行下載,對主題噪音頁面進行過濾,使網(wǎng)頁抓取更加高效和實用。

        5 結(jié)束語

        在領(lǐng)域主題爬蟲中,傳統(tǒng)的方法僅根據(jù)網(wǎng)頁的靜態(tài)主題特征庫來定義主題相關(guān)性網(wǎng)頁,缺乏對隱藏在主題特征項之間語義層次關(guān)系的處理。本文提出一種基于擴展主題特征庫的新型領(lǐng)域主題爬蟲。該爬蟲通過標(biāo)簽塊節(jié)點集模型定義頁面,通過在線語料庫和從擴展頁面中動態(tài)提取特征項等方式對主題特征項進行擴充,生成擴展主題特征庫,并結(jié)合改進的網(wǎng)頁相關(guān)性判定算法對網(wǎng)頁進行過濾。這種方法綜合了特征項的詞頻與頁面主題概念兩方面的因素,彌補了傳統(tǒng)方法對網(wǎng)頁語義和概念層次上的缺失。實際測試和項目應(yīng)用結(jié)果表明,引入擴展主題特征庫的領(lǐng)域主題爬蟲在網(wǎng)頁抓取中具有較強的定向性和準確度。下一步將對網(wǎng)頁正文的抽取和主題噪音頁面模式的識別方面進行研究,以進一步提高爬蟲對目標(biāo)頁面抓取的效率和精確度。

        [1]HUANG Ren,WANG Liangwei.Research on focused crawler based on topic-related concept and page segmentation[J].Applica-tion Research of Computers,2013,30 (8):2377-2380 (in Chinese).[黃仁,王良偉.基于主題相關(guān)概念和網(wǎng)頁分塊的主題爬蟲研究[J].計算機應(yīng)用研究,2013,30 (8):2377-2380.]

        [2]Ramiz MA.A new sentence similarity measure and sentence based extractive technique for automatic text summarization [J].Expert Systems with Application,2009,36 (4):7764-7772.

        [3]HUANG Chenghui,YIN Jian,HOU Fang.A text similarity measurement combining word semantic information with TFIDF method [J].Chinese Journal of Computers,2011,34(5):856-863 (in Chinese). [黃承慧,印鑒,侯昉.一種結(jié)合語義信息和TF-IDF方法的文本相似度量方法 [J].計算機學(xué)報,2011,34 (5):856-863.]

        [4]JIN Mingzhu,DING Yuewei.Topic crawler based on dynamic topic knowledge base [J].Journal of Computer Application,2009,29:45-46 (in Chinese).[金明珠,丁岳偉.基于動態(tài)主題庫的主題爬蟲 [J].計算機應(yīng)用,2009,29:44-46.]

        [5]JU Shiguang,LV Xia,WANG Jing.Temporal link-analyze based on Web page ranking algorithm [J].Application Research of Computers,2009,26 (7):2438-2441(in Chinese). [鞠時光,呂霞,王婧.基于時間鏈接分析的頁面排序優(yōu)化算法 [J].計算機應(yīng)用與研究,2009,26 (7):2438-2441.]

        [6]WANG Zhihua,WEI Bin,LI Zhanbo,et al.Web information extraction system based on ontology [J].Computer Engineering and Design,2012,33 (7):2634-2639 (in Chinese).[王志華,魏斌,李占波,等.基于本體的Web研究 [J].計算機工程與設(shè)計,2012,33 (7):2634-2639.]

        [7]JIN Mingzhu,DING Yuewei.Research and implementation for topic crawler using statistic model[J].Computer Engineering and Design,2010,31 (16):3700-3704 (in Chinese).[金明珠,丁岳偉.基于模型統(tǒng)計的主題爬蟲的研究與實現(xiàn) [J].計算工程與設(shè)計,2010,31 (16):3700-3704.]

        [8]GUAN Huifen,SHI Jun.Focused crawler technology based on ontology [J].Computer Simulation,2009,26 (10):123-126 (in Chinese).[關(guān)慧芬,師軍.基于本體的主題爬蟲技術(shù)研究 [J].計算機仿真,2009,26 (10):123-126.]

        [9]TIAN Xuan,LI Dongmei.Probability estimation for semantic association on domain ontology [J].Computer Engineering and Application,2011,47 (27):136-140 (in Chinese).[田萱,李冬梅.領(lǐng)域本體中概念間語義相關(guān)度的概率估計 [J].計算機工程與應(yīng)用,2011,47 (27):136-140.]

        [10]DAI Kuan,ZHAO Hui,HAN Dong,et al.Theme feature extraction of Chinese Web page based on vector space model[J].Journal of Jilin University,2014,32 (1):88-93 (in Chinese).[代寬,趙輝,韓東,等.基于向量空間模型的中文網(wǎng)頁主題特征項抽取[J].吉林大學(xué)學(xué)報,2014,32 (1):88-93.]

        猜你喜歡
        頁面特征
        微信群聊總是找不到,打開這個開關(guān)就好了
        大狗熊在睡覺
        抓住特征巧觀察
        刷新生活的頁面
        新型冠狀病毒及其流行病學(xué)特征認識
        如何表達“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        同一Word文檔 縱橫頁面并存
        亚洲欧美成人中文在线网站| 无码中文亚洲av影音先锋| 国产免费人成视频在线观看| 亚洲狠狠网站色噜噜| 亚洲精品一品二品av| 激情久久黄色免费网站| 中文字幕一精品亚洲无线一区| 亚洲精品无码成人片久久不卡| 亚洲av无码成人网站www| 国产精品农村妇女一区二区三区| 熟女中文字幕一区二区三区| 亚洲av午夜国产精品无码中文字| 五月天激情综合网| 亚洲一区日本一区二区| 后入丝袜美腿在线观看| 精品免费看国产一区二区| 欧美精品AⅤ在线视频| 风间由美中文字幕在线| 无码人妻精品中文字幕| 日韩精品无码免费专区网站| 国产午夜亚洲精品一级在线| 国产专区亚洲专区久久| 免费国产a国产片高清网站 | 91蜜桃国产成人精品区在线| 国产免费一区二区三区精品视频| 国产精品无码一本二本三本色| 国产97色在线 | 免| 精品久久人妻一区二区| 国产99视频精品免视看7| 99久久免费看少妇高潮a片特黄| 国产男女乱婬真视频免费| 全亚洲高清视频在线观看| 少妇仑乱a毛片| 久久久久欧洲AV成人无码国产 | 中文字日产幕码三区的做法步| 真多人做人爱视频高清免费| 欧美日韩国产在线观看免费| 亚洲成人av在线播放不卡| 粗大的内捧猛烈进出小视频| 欧美成人三级一区二区在线观看| 精品自拍偷拍一区二区三区 |