亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)競(jìng)爭(zhēng)情報(bào)主題采集技術(shù)研究

        2014-04-14 08:52:38田雪筠
        圖書與情報(bào) 2014年5期
        關(guān)鍵詞:爬蟲情報(bào)網(wǎng)頁

        田雪筠

        (1.中國(guó)科學(xué)院國(guó)家科學(xué)圖書館 北京 100190)

        (2.中國(guó)科學(xué)院大學(xué) 北京 100049)

        ·交流與探索·

        網(wǎng)絡(luò)競(jìng)爭(zhēng)情報(bào)主題采集技術(shù)研究

        田雪筠

        (1.中國(guó)科學(xué)院國(guó)家科學(xué)圖書館 北京 100190)

        (2.中國(guó)科學(xué)院大學(xué) 北京 100049)

        文章設(shè)計(jì)與實(shí)現(xiàn)了一種網(wǎng)絡(luò)競(jìng)爭(zhēng)情報(bào)的主題采集系統(tǒng)。該系統(tǒng)在進(jìn)行主題預(yù)測(cè)時(shí)采用的基于改進(jìn)的樸素貝葉斯算法提高了主題判斷準(zhǔn)確率,在進(jìn)行鏈接預(yù)測(cè)時(shí)采用的基于規(guī)則與錨文本主題相似度結(jié)合的算法,避免了URL錨文本較短和噪聲的問題。與寬度優(yōu)先的采集技術(shù)相比,通過實(shí)驗(yàn)驗(yàn)證該方法具有明顯的優(yōu)越性。

        競(jìng)爭(zhēng)情報(bào)主題爬蟲鏈接過濾主題過濾

        1 引言

        網(wǎng)絡(luò)信息資源日益成為企業(yè)和政府部門的最重要的競(jìng)爭(zhēng)情報(bào)來源,如何有效地、快速地從海量的網(wǎng)絡(luò)信息資源中獲取有價(jià)值的情報(bào),是一個(gè)嚴(yán)重的問題。當(dāng)前,很多企業(yè)和政府部門已經(jīng)采用了競(jìng)爭(zhēng)情報(bào)采集系統(tǒng),所使用的情報(bào)采集技術(shù)主要有基于搜索引擎的情報(bào)采集、基于網(wǎng)絡(luò)爬蟲的情報(bào)采集和基于主題的情報(bào)采集?;谒阉饕娴那閳?bào)采集通過關(guān)鍵詞硬匹配方法借助搜索引擎獲取情報(bào)資源,實(shí)現(xiàn)雖然簡(jiǎn)單,但情報(bào)采集準(zhǔn)確率不高;基于網(wǎng)絡(luò)爬蟲的情報(bào)采集較為適合在行業(yè)網(wǎng)站、專題網(wǎng)站、已知競(jìng)爭(zhēng)對(duì)手網(wǎng)站等范圍內(nèi)情報(bào)采集,準(zhǔn)確率較高,但同時(shí)也會(huì)漏掉很多分散的情報(bào)信息以及未知的相關(guān)網(wǎng)站,采集召回率較差;基于主題的情報(bào)采集通過事先確定的主題模型,只采集與特定主題相關(guān)的網(wǎng)頁,能夠在全網(wǎng)獲取所需的信息頁面,采集準(zhǔn)確率和召回率均較高,該方式也是目前網(wǎng)絡(luò)競(jìng)爭(zhēng)情報(bào)采集的主流技術(shù),本文也針對(duì)該方式提出了一種基于鏈接和內(nèi)容預(yù)測(cè)的主題采集技術(shù)。

        鏈接預(yù)測(cè)和正文內(nèi)容預(yù)測(cè)是主題爬蟲技術(shù)的核心部分,對(duì)應(yīng)地也面臨著兩個(gè)主要問題:(1)在進(jìn)行URL主題預(yù)測(cè)時(shí),可用的信息非常少,一般URL的錨文本平均長(zhǎng)度只有3~4個(gè)單詞,如果使用URL的上下文,又必然會(huì)引入噪聲數(shù)據(jù);(2)在進(jìn)行正文內(nèi)容預(yù)測(cè)時(shí),多采用基于關(guān)鍵詞的向量空間模型方法,準(zhǔn)確率不高。

        本文針對(duì)這兩個(gè)問題,提出了一種新的基于主題爬蟲的競(jìng)爭(zhēng)情報(bào)采集方法。在進(jìn)行鏈接預(yù)測(cè)時(shí),采用基于規(guī)則與錨文本主題相似度結(jié)合的算法,避免了URL錨文本較短和噪聲的問題;在進(jìn)行主題預(yù)測(cè)時(shí),采用基于改進(jìn)的樸素貝葉斯分類算法,可以有效提高主題判斷準(zhǔn)確率。

        2 相關(guān)工作

        主題爬蟲最早是由Chakrabarti等人于1999年提出的,其后的幾年對(duì)主題爬蟲的研究進(jìn)入了空前繁榮的時(shí)期,目前已成為面向領(lǐng)域的開源信息分析和搜索引擎的信息采集的核心技術(shù)。學(xué)術(shù)界對(duì)于主題爬蟲的研究主要集中在兩個(gè)熱點(diǎn):一是主題的表示方法,即用戶如何表示自己所需的主題;二是頁面的采集策略,即如何高效的采集高質(zhì)量的頁面。第一個(gè)問題的研究主要采用文本分類、知識(shí)表示等技術(shù),在此不再贅述;第二個(gè)問題的研究本質(zhì)是主題相關(guān)度的判別,目前主要有基于內(nèi)容評(píng)價(jià)的爬行策略、基于鏈接關(guān)系的爬行策略和基于分類器的爬行策略等。

        基于內(nèi)容評(píng)價(jià)的主題爬蟲算法利用網(wǎng)頁內(nèi)容、URL、錨文本等網(wǎng)頁文本信息來評(píng)價(jià)鏈接的等級(jí),從而決定其爬行策略。這類的搜索算法主要有Best first search方法、Fish search方法和Shark search方法等。這類爬蟲容易產(chǎn)生主題漂移。

        基于鏈接關(guān)系的主題爬蟲算法通過分析Web的鏈接關(guān)系,利用頁面間的鏈接關(guān)系預(yù)測(cè)待爬行URL,代表性算法有PageRank或其改進(jìn)和HITS或其改進(jìn)。由于算法的復(fù)雜性,這類爬蟲的計(jì)算量較大,且網(wǎng)頁中也包含很多無關(guān)連接,容易爬取到很多無關(guān)頁面。

        基于分類器的主題爬蟲算法從分類的角度來描述采集主題,判斷待采URL的主題相關(guān)度。從主題相關(guān)度判別的力度上大致有兩類網(wǎng)頁鏈接預(yù)測(cè)方法,一種是通過鏈接的錨文本的內(nèi)容與主題的相關(guān)度對(duì)鏈接進(jìn)行預(yù)測(cè);另一種是以鏈接所在網(wǎng)頁的全部?jī)?nèi)容與主題的相關(guān)度對(duì)鏈接進(jìn)行預(yù)測(cè)。這兩種方法都有不足之處,基于鏈接錨文本的鏈接預(yù)測(cè)會(huì)導(dǎo)致一些與主題相關(guān)的網(wǎng)頁鏈接被識(shí)別為主題無關(guān)的鏈接,而基于網(wǎng)頁全部?jī)?nèi)容的鏈接預(yù)測(cè)則會(huì)導(dǎo)致大量的與主題無關(guān)的鏈接被下載。

        從各類主題爬蟲算法采用的主題相關(guān)性特征上主要有:網(wǎng)頁內(nèi)容特征、URL錨文本特征、頁面分塊特征、URL鏈接關(guān)系?;趦?nèi)容評(píng)價(jià)的主題爬蟲算法僅采用了網(wǎng)頁內(nèi)容特征,忽視了URL鏈接關(guān)系;基于鏈接關(guān)系的主題爬蟲算法僅采用了鏈接關(guān)系特征,忽視了網(wǎng)頁內(nèi)容特征和錨文本特征。此外,在鏈接預(yù)測(cè)時(shí),由于錨文本長(zhǎng)度一般都很短,僅用單鏈接的錨文本特征會(huì)產(chǎn)生較大的錯(cuò)誤率。本文綜合考慮網(wǎng)頁和URL的特征:在網(wǎng)頁內(nèi)容主題預(yù)測(cè)上,首先進(jìn)行網(wǎng)頁類型進(jìn)行分類,然后對(duì)主題型頁面進(jìn)行內(nèi)容分類;在鏈接預(yù)測(cè)上,首先對(duì)與主題相關(guān)的網(wǎng)頁進(jìn)行頁面分塊,利用頁面規(guī)則進(jìn)行第一次過濾,然后利用分塊錨文本的相似度進(jìn)行第二次過濾。

        3 基于主題的網(wǎng)絡(luò)競(jìng)爭(zhēng)情報(bào)采集模型

        3.1 體系架構(gòu)

        基于主題的網(wǎng)絡(luò)競(jìng)爭(zhēng)情報(bào)采集模型如圖1所示:

        (1)URL管理器:URL管理器的作用是保證一臺(tái)采集主機(jī)上同時(shí)只有一個(gè)線程采集同一Web站點(diǎn),從而實(shí)現(xiàn)了對(duì)網(wǎng)站的“禮貌”采集。

        (2)采集器:通過Http協(xié)議、ftp協(xié)議等采集URL鏈接所指向的頁面。

        (3)網(wǎng)頁類型分析器:負(fù)責(zé)判斷已采網(wǎng)頁的類型,Web頁面分為鏈接型(或目錄型)頁面和主題型頁面。針對(duì)鏈接型頁面,需要提取相關(guān)鏈接和指向鏈接型頁面的鏈接;針對(duì)主題型頁面,需要進(jìn)一步判斷頁面的主題相關(guān)性以及提取相關(guān)鏈接。

        (4)頁面分析器:利用HTML Tag標(biāo)簽特征、視覺特征和文本內(nèi)容特征,對(duì)頁面進(jìn)行分塊,使得同一分塊內(nèi)的內(nèi)容是語義相關(guān)的。

        (5)頁面過濾器:對(duì)分塊后的正文進(jìn)行主題預(yù)測(cè),去除與采集主題無關(guān)的頁面。

        (6)URL解析器:對(duì)分塊后的鏈接進(jìn)行鏈接提取、標(biāo)準(zhǔn)化,并提取錨文本。

        (7)URL過濾器:對(duì)從頁面解析出的鏈接進(jìn)行預(yù)測(cè),去除與采集主題無關(guān)的鏈接,以避免采集過程出現(xiàn)“主題漂移”問題。

        (8)主題分類模型:存儲(chǔ)競(jìng)爭(zhēng)情報(bào)主題的特征模型,需要事先提供一定數(shù)量的主題樣本,采用Na?ve Bayes分類器訓(xùn)練獲得。

        (9)URL庫:存儲(chǔ)初始URL種子以及爬行過程中提取的相關(guān)鏈接,由URL管理器負(fù)責(zé)維護(hù)。其中,初始URL種子由用戶指定。

        3.2 采集策略

        本系統(tǒng)中的采集策略如圖2所示:

        (1)離線訓(xùn)練頁面過濾器。事先收集競(jìng)爭(zhēng)情報(bào)主題的訓(xùn)練樣例(一般為幾百篇),進(jìn)行訓(xùn)練;

        (2)指定初始URL種子,注入U(xiǎn)RL庫中;

        (3)采集器從URL管理器中獲取待爬行的URL,連接對(duì)應(yīng)URL下載該網(wǎng)頁,并將該URL放入已采隊(duì)列。從該步驟開始,系統(tǒng)進(jìn)入在線爬行階段,在線爬行階段將循環(huán)執(zhí)行步驟3-7,一般爬蟲是永不停止的,在實(shí)際中可根據(jù)需要設(shè)置一定的停止條件;

        (4)網(wǎng)頁類型分析器對(duì)新采網(wǎng)頁進(jìn)行類型識(shí)別,如果為主題型頁面轉(zhuǎn)步驟5,如果為鏈接型頁面則轉(zhuǎn)步驟6;

        (5)頁面過濾器對(duì)主題性網(wǎng)頁進(jìn)行頁面分析、分類,計(jì)算與主題的相關(guān)度,如果相關(guān)度小于事先設(shè)定的閾值,則丟棄該頁面;反之則進(jìn)入步驟6;

        (6)對(duì)網(wǎng)頁中的URL及對(duì)應(yīng)的錨文本進(jìn)行提取,如果是尚未訪問過的URL,則進(jìn)入步驟7;反之則丟棄該URL;

        (7)URL過濾器對(duì)提取的URL進(jìn)行相關(guān)度計(jì)算,若與主題相關(guān)或者該URL指向的是鏈接型頁面,則存入U(xiǎn)RL庫;反之則丟棄該URL。

        圖1 體系架構(gòu)

        4 主題相關(guān)性判斷算法

        主題相關(guān)性判斷是最重要的部分,負(fù)責(zé)判斷頁面內(nèi)容和頁面鏈接的相關(guān)度,決定著主題采集的準(zhǔn)確率和競(jìng)爭(zhēng)情報(bào)的可用度。

        4.1 網(wǎng)頁類型分析器

        網(wǎng)頁分為主題型頁面和鏈接型頁面:主題型頁面是指具有一個(gè)或多個(gè)主題的頁面,描述了某些有意義的事件,如新聞頁面;鏈接型網(wǎng)頁,也叫目錄型網(wǎng)頁,本身沒有實(shí)際意義,但包含了指向其他網(wǎng)頁的鏈接,如網(wǎng)站首頁就是典型的鏈接型網(wǎng)頁。

        這兩類頁面的主題相關(guān)性判斷方式是不同的:(1)對(duì)于主題型頁面,一般認(rèn)為主題相關(guān)的頁面會(huì)包含與主題相關(guān)的鏈接,而與主題不相關(guān)的頁面不會(huì)包含與主題相關(guān)的鏈接。因此,需要對(duì)主題型頁面進(jìn)行正文抽取和頁面過濾,如果與主題相關(guān)則進(jìn)一步抽取相關(guān)鏈接,否則就可以直接丟棄該頁面。(2)對(duì)于鏈接型頁面,本身沒有正文,只需找到頁面中的主題相關(guān)鏈接。除此之外,還需抽取該頁面包含的一些指向鏈接型頁面的URL,這些URL一般是主題型頁面的入口,可以直接當(dāng)作相關(guān)鏈接。

        鏈接型頁面和主題型頁面的特點(diǎn)很鮮明,如表1所示。因此,本文采用標(biāo)點(diǎn)符號(hào)(如句號(hào)、逗號(hào)等)個(gè)數(shù)、URL的長(zhǎng)度、文件名、鏈接數(shù)與文字?jǐn)?shù)比等作為判別特征,并設(shè)置相應(yīng)的閾值判斷頁面類型。

        4.2 頁面主題預(yù)測(cè)

        圖2 競(jìng)爭(zhēng)情報(bào)采集策略

        本系統(tǒng)采用一種改進(jìn)的樸素貝葉斯算法對(duì)采集的頁面內(nèi)容進(jìn)行主題預(yù)測(cè)。

        在樸素貝葉斯分類算法中,文本向量的主題相關(guān)性公式為:

        表1 兩種類型頁面的特點(diǎn)

        其中,{Topic}是系統(tǒng)所需采集的主題集合,F(xiàn)是待預(yù)測(cè)網(wǎng)頁D的特征集合,Pr(f|Topic)使用主題樣本集合中第j個(gè)主題Topic類內(nèi)特征fi出現(xiàn)的樣本數(shù)與Topic類內(nèi)的樣本總數(shù)之比來估計(jì),Pr(Topic)由Topic類的樣本頻數(shù)得到,而Pr(f|D)則使用D中特征f出現(xiàn)的次數(shù)和D中總詞頻數(shù)的比值來計(jì)算。

        可見,D中f與D的相關(guān)性僅體現(xiàn)在詞頻上,但對(duì)于一些相近類別,如在“足球”和“籃球”兩類中可能會(huì)有很多相似的特征,且某些特征在這兩類中出現(xiàn)的概率也較為均衡,特征對(duì)類別的區(qū)分度較差。為此,x本文特征將作為加權(quán)用來增強(qiáng)特征詞在不同類別中的區(qū)分度,x特征可以體現(xiàn)f對(duì)Topic貢獻(xiàn)的大小,同時(shí)可以體現(xiàn)該特征與其他特征對(duì)Topic的分類貢獻(xiàn)。為此,將特征作為加權(quán)因子引入進(jìn)分類公式中,得到:

        x(f,Topic)是特征f與第j個(gè)主題Topic類的x統(tǒng)計(jì)值。

        預(yù)先設(shè)定閾值T,如果H(D)小于T,則認(rèn)為該網(wǎng)頁與采集主題列表無關(guān),系統(tǒng)將其過濾掉。

        為了確保主題判斷的正確性,對(duì)其進(jìn)行了測(cè)試。首先在新浪、搜狐網(wǎng)站的二級(jí)欄目下采集網(wǎng)頁,經(jīng)過人工篩選后,最終確定了10個(gè)類別作為訓(xùn)練集和測(cè)試集。其中,每個(gè)類別的訓(xùn)練集包含800篇網(wǎng)頁,各類別的測(cè)試集包含500個(gè)網(wǎng)頁。測(cè)試結(jié)果如表2所示。

        4.3 鏈接預(yù)測(cè)

        相比于頁面的主題預(yù)測(cè),鏈接預(yù)測(cè)非常困難。原因是可用的判斷特征非常少,目前主要使用的特征有:URL之間的關(guān)系(如父子關(guān)系、兄弟關(guān)系等);錨文本以及錨文本周圍的文本;URL所在頁面的分塊特征。因?yàn)閁RL之間的關(guān)系需要存儲(chǔ)大量的相關(guān)信息,且噪聲現(xiàn)象比較嚴(yán)重。本文采用后兩種特征,設(shè)計(jì)了基于頁面規(guī)則與錨文本主題相似度結(jié)合的算法。對(duì)與主題相關(guān)的網(wǎng)頁進(jìn)行頁面分塊,首先利用頁面規(guī)則進(jìn)行第一次過濾,然后利用錨文本相似度進(jìn)行第二次過濾,最后抽取出相關(guān)鏈接。

        4.3.1 頁面分塊規(guī)則過濾

        據(jù)文獻(xiàn)[12]研究發(fā)現(xiàn),頁面中的主題相關(guān)鏈接通常具有以下特點(diǎn):

        圖3 URL過濾過程

        表2 分類測(cè)試結(jié)果

        (1)相關(guān)鏈接經(jīng)常是成塊出現(xiàn)的,包含多條鏈接;(2)網(wǎng)頁作者希望瀏覽者能夠繼續(xù)點(diǎn)擊相關(guān)鏈接,因此相關(guān)鏈接中的錨文本長(zhǎng)度一般比較長(zhǎng)(20~30Byte);而無關(guān)鏈接的錨文本長(zhǎng)度一般較短(4~10Byte);

        (3)相關(guān)鏈接的地址一般是站內(nèi)地址,而主題無關(guān)的鏈接地址通常為站外地址;

        (4)相關(guān)鏈接的錨文本與網(wǎng)頁征文的標(biāo)題一般有相同的有實(shí)際意義的詞。

        因此,基于以上特征,制定了以下規(guī)則用來過濾無關(guān)鏈接:

        (1)如果鏈接錨文本的平均長(zhǎng)度小于10,則該鏈接塊為無關(guān)鏈接塊;

        (2)如果鏈接塊中的鏈接錨文本與正文標(biāo)題含有相同詞(必須是實(shí)詞)的平均個(gè)數(shù)小于設(shè)定的閾值時(shí),該鏈接塊為無關(guān)鏈接塊;

        (3)如果鏈接塊中的站內(nèi)地址與站外地址之比小于設(shè)定的閾值時(shí),該鏈接塊為無關(guān)鏈接塊。

        從4.2節(jié)的網(wǎng)頁語料庫中各選100篇,共1000篇作為測(cè)試數(shù)據(jù),用上述規(guī)則對(duì)這1000篇網(wǎng)頁進(jìn)行相關(guān)鏈接抽取。采用準(zhǔn)確率和召回率進(jìn)行評(píng)價(jià),其中準(zhǔn)確率是過濾無關(guān)鏈接正確的數(shù)目與所有過濾出的無關(guān)鏈接數(shù)目之比,召回率是過濾無關(guān)鏈接正確的數(shù)目與頁面中包含的無關(guān)鏈接數(shù)目之比。因?yàn)楦?jìng)爭(zhēng)情報(bào)系統(tǒng)希望能夠獲取盡可能多的情報(bào)信息,因此過濾的主要目標(biāo)是在保證過濾準(zhǔn)確率的情況下,盡量提升過濾召回率,最終統(tǒng)計(jì)分析得出當(dāng)閾值為0.6時(shí)效果最好。測(cè)試結(jié)果如表3所示。

        表3 規(guī)則過濾測(cè)試結(jié)果

        從表3可看出,經(jīng)過第一層過濾,可過濾掉50.8%的無關(guān)鏈接,同時(shí)能夠保證99.4%的過濾準(zhǔn)確率。

        4.3.2 錨文本主題相似度過濾

        經(jīng)過頁面分塊規(guī)則過濾后的鏈接塊,仍有49.2%的無關(guān)鏈接,需要經(jīng)過錨文本主題相似度進(jìn)行第二層過濾。因?yàn)閱蝹€(gè)鏈接的錨文本長(zhǎng)度都很短,在統(tǒng)計(jì)意義上價(jià)值不大。而一般處在同一分塊內(nèi)的鏈接在語義上是比較接近的,因此本文將整個(gè)鏈接塊中錨文本集合在一起,使用4.2節(jié)的頁面過濾器進(jìn)行過濾。如果鏈接塊與主題的相似度小于某個(gè)閾值時(shí),則認(rèn)為鏈接塊中的所有鏈接均為無關(guān)鏈接,從而進(jìn)行過濾。

        5 系統(tǒng)實(shí)驗(yàn)結(jié)果分析

        軟硬件環(huán)境:Windows 7系統(tǒng),CPU:Intel Core i5 2.8GHZ,內(nèi)存2G,硬盤容量為500GB,系統(tǒng)開發(fā)環(huán)境為Myeclipse,開發(fā)語言為Java,數(shù)據(jù)庫采用Mysql。采用收獲率作為評(píng)價(jià)指標(biāo)。其中,收獲率是指與主題相關(guān)的已爬取網(wǎng)頁數(shù)與已爬取的網(wǎng)頁總數(shù)之比,當(dāng)收獲率較高時(shí),說明主題爬蟲的過濾性能較好,能夠有效過濾與主題無關(guān)的網(wǎng)頁。

        為了實(shí)現(xiàn)主題的情報(bào)采集技術(shù)的實(shí)驗(yàn),我們選取中國(guó)食品安全網(wǎng)(http://foodsafety.ce.cn/)、新浪網(wǎng)(http:// www.sina.com.cn)、搜狐(http://www.sohu.com)、網(wǎng)易(http://www.163.com)為種子URL,以“食品安全”為主題,每采集一定數(shù)量的網(wǎng)頁,就統(tǒng)計(jì)一次收獲率,從而掌握收獲率與采集網(wǎng)頁數(shù)的關(guān)系。

        在4.2節(jié)的頁面主題預(yù)測(cè)公式中,TH為預(yù)設(shè)的閾值用來確定頁面是否為無關(guān)頁面。為了確定最佳的閾值,對(duì)TH取0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09和0.1,在不同的取值下利用本文的算法采集5000個(gè)網(wǎng)頁,網(wǎng)頁收獲率如圖3所示。

        圖3 不同閾值下的收獲率

        從圖3可以看出,在TH為0.06時(shí),該算法的主題收獲率最高。在后續(xù)實(shí)驗(yàn)中,TH取值為0.06。

        為了對(duì)比本系統(tǒng)的性能,與傳統(tǒng)的網(wǎng)絡(luò)采集(寬度優(yōu)先算法)、基于內(nèi)容評(píng)價(jià)的主題爬蟲算法(Best first search算法)、基于鏈接關(guān)系的主題爬蟲算法(PageRank算法)、標(biāo)準(zhǔn)關(guān)鍵詞算法進(jìn)行了實(shí)驗(yàn)比較,圖4為收獲率對(duì)比。

        圖4表明,在采集初始,各種算法的網(wǎng)頁收獲率都較高,但隨著采集網(wǎng)頁數(shù)量的增多,寬度優(yōu)先、標(biāo)準(zhǔn)關(guān)鍵詞、PageRank、Best First Search算法的收獲率下降較快,其中,寬度優(yōu)先的收獲率最低,因?yàn)閷挾葍?yōu)先未對(duì)主題進(jìn)行處理;標(biāo)準(zhǔn)關(guān)鍵詞算法只考慮了關(guān)鍵詞的匹配,在主題的匹配度上較為有限,收獲率也較低;PageRank算法在采集初期效果不好,因?yàn)镻ageRank需要積累一定量的網(wǎng)頁才會(huì)有效,在采集后期的效果較好;Best First Search算法比標(biāo)準(zhǔn)關(guān)鍵詞考慮的文字內(nèi)容更多,效果也比標(biāo)準(zhǔn)關(guān)鍵詞算法好。本文算法綜合利用了網(wǎng)頁內(nèi)容特征、URL錨文本特征和頁面分塊特征,通過鏈接預(yù)測(cè)和網(wǎng)頁內(nèi)容預(yù)測(cè)雙重過濾,能夠保證采集頁面與主題的相關(guān)度,因此收獲率較高。但本文算法的收獲率在后期也有一定下降,從采集日志中分析采集到的不相關(guān)頁面,主要是由于在鏈接預(yù)測(cè)中的有些不相關(guān)鏈接會(huì)被錯(cuò)判成主題相關(guān)鏈接,產(chǎn)生錯(cuò)誤的主要原因是為了能夠采集到更多的頁面,鏈接與主題相關(guān)度的閾值設(shè)置的較低,導(dǎo)致會(huì)下載較多的無關(guān)頁面。

        此外,對(duì)各方法的時(shí)間也進(jìn)行了比較,如圖5所示。

        圖4 網(wǎng)頁收獲率對(duì)比圖

        圖5 時(shí)間對(duì)比圖

        圖5表明,本文的爬蟲消耗的系統(tǒng)時(shí)間最多,其原因是頁面需要經(jīng)過鏈接過濾和頁面過濾,但是與其他算法相比,本文的爬蟲過濾的無關(guān)頁面數(shù)更多,采集了更多主題相關(guān)的頁面,因此綜合來看還是可行的。

        6 結(jié)語

        本文介紹了一種基于主題的網(wǎng)絡(luò)競(jìng)爭(zhēng)情報(bào)采集模型,詳細(xì)闡述了其體系結(jié)構(gòu)、采集策略和關(guān)鍵技術(shù)。該系統(tǒng)相比于基于網(wǎng)絡(luò)爬蟲的情報(bào)采集,縮小了情報(bào)采集的范圍,能夠有效減少采集頁面的數(shù)量,提高了采集的頁面利用效率。鏈接預(yù)測(cè)和主題預(yù)測(cè)是本系統(tǒng)的核心技術(shù),采用了基于規(guī)則與錨文本主題相似度結(jié)合的算法進(jìn)行鏈接預(yù)測(cè),避免了URL錨文本較短以及擴(kuò)展錨文本帶來的噪聲問題。采用基于改進(jìn)的樸素貝葉斯算法進(jìn)行主題預(yù)測(cè),實(shí)驗(yàn)驗(yàn)證了其準(zhǔn)確率。

        [1]吳金紅,張玉峰,王翠波.基于本體的競(jìng)爭(zhēng)情報(bào)采集模型研究[J].情報(bào)理論與實(shí)踐,2007,30(5):577-580.

        [2]張玉峰,朱瑩.基于Web文本挖掘的企業(yè)競(jìng)爭(zhēng)情報(bào)獲取方法研究[J].情報(bào)理論與實(shí)踐,2006,29(5):563-566.

        [3]馬靜,倪輝峰.基于模式匹配抽取技術(shù)的網(wǎng)上產(chǎn)品情報(bào)獲?。跩].情報(bào)理論與實(shí)踐,2007,30(2):228-231.

        [4]陳黎,李志蜀,琚生根,等.基于SVM預(yù)測(cè)的金融主題爬蟲[J].四川大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,47(3):493-497.

        [5]王輝,左萬利,王暉昱,等.基于質(zhì)心向量的增量式主題爬行[J].計(jì)算機(jī)研究與發(fā)展,2009,46(2):217-224.

        [6]Soumen Chakrabarti,Martin van den Berg,Byron Dom. Focused crawling:a new approach to topic-specific Web resourcediscovery[J].ComputerNetworks,1999,1623-1640.

        [7]Junghoo Cho,Hector Garcia-Molina,Lawrence Page.Efficient Crawling Through URL Ordering[J].Computer Networks and ISDN Systems,1998,30(1-7):161-172.

        [8]Luo Lin-bo,Chen Qi,Wu Qing-xiu.Research on Topical Crawler of Shark-Search Algorithm and Hits Algorithm[J].Computer Technology and Development,2010,20(11):76-79.

        [9]劉朋,林泓,高德威.基于內(nèi)容和鏈接分析的主題爬蟲策略[J].計(jì)算機(jī)與數(shù)字工程,2009,37(1):22-24.

        [10]張長(zhǎng)利.面向特定領(lǐng)域的互聯(lián)網(wǎng)輿情分析技術(shù)研究[D].長(zhǎng)春:吉林大學(xué),2011.

        [11]李衛(wèi),劉建毅,何華燦,等.基于主題的智能Web信息采集系統(tǒng)的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究,2006,(2):163-166

        [12]苗苗.基于頁面分塊的網(wǎng)頁內(nèi)容提取的研究與實(shí)現(xiàn)[D].武漢:武漢理工大學(xué),2010.

        Focused Crawler Based Network Competitive Intelligence Acquisition

        This paper designs and implements the network competitive intelligence acquisition system based on focused craw ler.The W ebpage's topic is predicted by an improved Nave Bayes algorithm,which can improve the accuracy rate. The URL's topic is predicted by the rule and anchor text sim ilarity combined algorithm,which can avoid the problems of URL anchor text short and noise.Compared w ith the breadth-first acquisition techniques,experimental results show that the method has obvious advantages.

        competitive intelligence;focused craw ler;URL filtering;topic filtering

        G250.2

        :A

        :1003-6938(2014)05-0132-06

        田雪筠(1981-),女,中國(guó)科學(xué)院大學(xué)、中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心博士研究生。

        2014-05-20;責(zé)任編輯:魏志鵬

        猜你喜歡
        爬蟲情報(bào)網(wǎng)頁
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
        情報(bào)
        情報(bào)
        情報(bào)
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
        電子制作(2018年10期)2018-08-04 03:24:38
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
        久久亚洲精品中文字幕| 中文字幕亚洲人妻系列| 无码视频一区=区| 日本国产一区二区在线观看| 午夜天堂一区人妻| 日本久久高清一区二区三区毛片| 成年在线观看免费视频| 国产真实乱对白在线观看| av网站一区二区三区| 亚洲人妻调教中文字幕| 狠狠躁夜夜躁人人爽天天古典| 免费人成再在线观看网站| 国产成人福利在线视频不卡| 高清不卡av在线播放| 欧美性猛交aaaa片黑人| 男男受被攻做哭娇喘声视频| 亚洲区在线播放| 亚洲二区三区四区太九| 亚洲av熟女一区二区三区站| 大胸少妇午夜三级| 丰满多毛少妇做爰视频| 韩国三级大全久久网站| 亚洲天堂av在线免费观看| 亚洲av无码乱码在线观看性色| 婷婷丁香五月中文字幕| 国产精品黄色片在线观看| av网址在线一区二区| 久久aaaa片一区二区| 中国丰满熟妇xxxx| 日日爽日日操| 中国黄色偷拍视频二区| 欧美性生交活xxxxxdddd| 亚洲色欲色欲www在线播放| av中文字幕少妇人妻| aa日韩免费精品视频一| 一色桃子中文字幕人妻熟女作品| 国产精品久久久久电影网| 亚洲无码激情视频在线观看| 成人一区二区三区激情视频| 亚洲成av人在线播放无码| 中文字幕福利视频|