亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向軟件構(gòu)件的網(wǎng)頁爬蟲技術(shù)研究

        2014-04-29 00:44:03賽買提·艾力玉素甫·艾白都拉
        電腦迷 2014年9期
        關(guān)鍵詞:爬蟲搜索引擎網(wǎng)頁

        賽買提·艾力 玉素甫·艾白都拉

        摘 要 面向構(gòu)件的垂直搜索引擎是該領(lǐng)域內(nèi)的一個研究熱點。本文介紹面向構(gòu)件的主題爬蟲的設(shè)計與實現(xiàn),提出一種基于URL的面向構(gòu)件的主題爬行算法,該爬行算法以構(gòu)件資源在構(gòu)件庫網(wǎng)站的所處的位置,對URL隊列進(jìn)行優(yōu)先級計算。對頁面相關(guān)性判別,采用刻面關(guān)鍵詞出現(xiàn)的頻率來計算。實驗結(jié)果表明該方法可行而且更有效。

        關(guān)鍵詞 軟件構(gòu)件 構(gòu)件描述 主題爬蟲 相關(guān)度計算

        中圖分類號:TP3 文獻(xiàn)標(biāo)識碼:A

        0引言

        軟件復(fù)用是解決軟件危機(jī)的一條切實可行的途徑。軟件構(gòu)件技術(shù)是軟件復(fù)用的主要形式,也是當(dāng)前軟件復(fù)用研究的熱點。成功的實施軟件復(fù)用,需要大量而豐富的軟件構(gòu)件資源。目前在Internet上已有大量的構(gòu)件資源,但在實際工作中想迅速找到適用的構(gòu)件是非常困難的,傳統(tǒng)的通用搜索引擎并不能對這些構(gòu)件進(jìn)行有效的搜索。

        垂直搜索引擎技術(shù)的出現(xiàn)與發(fā)展為實現(xiàn)Internet上構(gòu)件資源的搜索提供了解決思路和技術(shù)保證。垂直搜索引擎只抓取索引特定主題的信息,可以向用戶提供更加專業(yè)化、個性化的搜索服務(wù),可大幅度提高某個主題信息的查全率和查準(zhǔn)率,有效地解決了通用搜索引擎對某個主題覆蓋率過低的憋端。

        然而,目前市場上并沒有出現(xiàn)面向構(gòu)件的垂直搜索引擎,學(xué)術(shù)界對構(gòu)件的存儲與檢索仍然停留在單一構(gòu)件庫的層面。在Internet已經(jīng)普及的今天,傳統(tǒng)的單一的構(gòu)件庫技術(shù)顯得有些滯后,如果能為軟件復(fù)用人員提供一個語義豐富檢索方便的構(gòu)件檢索平臺,必將有助于基于構(gòu)件的軟件開發(fā)方法在實踐上的普及應(yīng)用。

        1國內(nèi)外研究現(xiàn)狀

        為了利用Internet上豐富的構(gòu)件資源,幫助開發(fā)人員獲取所需的構(gòu)件,研究人員開始探討如何在Internet上獲取構(gòu)件。

        卡耐基梅隴大學(xué)的Seacord等人提出了Agora系統(tǒng)來在Internet上獲取構(gòu)件。該系統(tǒng)由若干個Agent組成,這些Agent分別用來獲取如JavaBean、ActiveX等不同形式的構(gòu)件。Extreme Harvest通過語法結(jié)合語義的方式來對Internet上的構(gòu)件進(jìn)行過濾,尋找滿足用戶需要的構(gòu)件資源。MoReCOTS則是利用元搜索引擎技術(shù)并以構(gòu)件提供網(wǎng)站為內(nèi)容來源向用戶提供一個構(gòu)件檢索接口。Chen等人提出了一種構(gòu)件獲取方法SE4SC,該方法是首先定義一個構(gòu)件描述模型SCDM,并利用網(wǎng)絡(luò)爬蟲在Internet上抓取其它滿足SCDM格式要求的構(gòu)件。

        2網(wǎng)頁爬蟲的設(shè)計

        圖1是面向構(gòu)件的主題爬蟲系統(tǒng)結(jié)構(gòu)圖。爬蟲從種子URL開始,向服務(wù)器發(fā)送HTTP 請求,請求URL 對應(yīng)的資源,分析下載的頁面,提取鏈接,將鏈接加入URL 隊列,以便后續(xù)讀取。

        2.1頁面的相關(guān)度計算

        通過觀察發(fā)現(xiàn)構(gòu)件庫網(wǎng)站對構(gòu)件的描述用<刻面,術(shù)語>二元組,而且所使用的刻面關(guān)鍵字比較集中,如圖2所示。本文通過刻面關(guān)鍵字在網(wǎng)頁中的出現(xiàn)頻率來計算網(wǎng)頁的主題相關(guān)度。文檔包含的關(guān)鍵詞越多,頁面的相關(guān)性就越高。如果關(guān)鍵詞數(shù)量大于指定的闊值,則網(wǎng)頁與主題相關(guān),否則網(wǎng)頁與主題無關(guān)。

        2.2主題爬行算法

        一般網(wǎng)站結(jié)構(gòu)可分為兩種,即扁平式結(jié)構(gòu)和樹形結(jié)構(gòu)。扁平式結(jié)構(gòu)是指把全部的網(wǎng)頁存儲在相應(yīng)網(wǎng)站的根目錄下的結(jié)構(gòu),這種結(jié)構(gòu)總體上來說比較適用于一些小型的網(wǎng)站。另一種結(jié)構(gòu)就是樹形結(jié)構(gòu),在樹形結(jié)構(gòu),首先是根目錄下分成很多的子目錄,之后在各個子目錄下分別存儲從屬于該目錄下的網(wǎng)頁文件。很顯然,樹形結(jié)構(gòu)可以非常方便的列出某一網(wǎng)站的內(nèi)容架構(gòu),因此,樹形結(jié)構(gòu)也是大型網(wǎng)站必定會使用的結(jié)構(gòu)方式。

        通過觀察分析,得知構(gòu)件庫網(wǎng)站結(jié)構(gòu)大致相同,圖3是構(gòu)件庫網(wǎng)站的結(jié)構(gòu)示意圖。從圖中可以看出爬蟲要尋找的主題網(wǎng)頁都集中在一個目錄下,而且位置相對固定。本文采用構(gòu)件庫網(wǎng)站的這一特性來計算待爬行URL的重要度。

        主題爬行算法的本質(zhì)是對待爬行URL進(jìn)行調(diào)度策略,使得爬蟲在更短的時間、更節(jié)省網(wǎng)絡(luò)資源的條件下,抓取更多的主題相關(guān)網(wǎng)頁。由于構(gòu)件頁面分布特性、構(gòu)件庫網(wǎng)站異構(gòu)性、錨文本相似度計算的困難性等問題,不可能對全部待爬行URL進(jìn)行優(yōu)先級計算。本小節(jié)提出了一個在構(gòu)件庫網(wǎng)站內(nèi)對URL進(jìn)行重要度計算的方法,其基本思想是爬蟲從種子網(wǎng)頁開始,獲取網(wǎng)頁中的子鏈接,如果抓取的子鏈接與父鏈接的域名相同,則計算它的重要度,重要度大于闊值%[,則進(jìn)入URL隊列。如果子鏈接與父鏈接域名不同,則丟棄。

        該爬行算法通過比較待爬行URL和主題相關(guān)網(wǎng)頁的URL來計算待爬行URL的重要程度。首先根據(jù)待爬行URL和主題相關(guān)網(wǎng)頁的URL畫出結(jié)構(gòu)圖,然后計算待爬網(wǎng)頁存儲目錄和主題相關(guān)網(wǎng)頁存儲目錄之間的路徑長度。待爬行URL的重要度大小用如下公式計算:

        (1)

        該爬行算法使用的相關(guān)網(wǎng)頁的URL值是一同種子給出。

        3實驗結(jié)果分析

        本節(jié)從中文構(gòu)件庫上海構(gòu)件庫、51Component、慧都控件庫和英文構(gòu)件庫ComponentSource網(wǎng)站選擇某一構(gòu)件主題相關(guān)網(wǎng)頁作為種子網(wǎng)頁。其實驗結(jié)果表1所示。實驗結(jié)構(gòu)表明,該爬行算法對構(gòu)件產(chǎn)品的抓全、抓準(zhǔn)率比較高,達(dá)到了預(yù)期的目的。通過公式2計算,收獲率(HarvestRate)達(dá)到了34.6%。

        (2)

        4總結(jié)

        隨著軟件產(chǎn)業(yè)的迅速發(fā)展,軟件復(fù)用技術(shù),尤其是基于構(gòu)件的軟件復(fù)用技術(shù)正逐步走向成熟,構(gòu)件及構(gòu)件庫作為基于構(gòu)件的軟件開發(fā)的基礎(chǔ)設(shè)施,正逐步得到軟件開發(fā)人員的重視,互聯(lián)網(wǎng)上出現(xiàn)的構(gòu)件庫以及提供眾多構(gòu)件資源的網(wǎng)站,為軟件開發(fā)者提供了更高的思路。本文正是這一背景下,研究了面向構(gòu)件的主題爬蟲。

        基于URL的爬行算法對種子網(wǎng)頁的選取要求比較嚴(yán)格,種子網(wǎng)頁越多,抓取網(wǎng)頁數(shù)量越多,構(gòu)件庫網(wǎng)站構(gòu)件數(shù)量越多,收獲率就越高。該爬行算法比較適用于專業(yè)構(gòu)件庫網(wǎng)站中的構(gòu)件抓取。但I(xiàn)nternet上散落存在的構(gòu)件資源的獲取還沒真正得到解決。

        參考文獻(xiàn)

        [1] M.Douglas Mcilroy. Mass-Produced Software Components.in NATO Conference on Software Engineering 1968.88~98.

        [2] R.C.Seacord,S.A.Hissam,K.C.Wallnau. Agora:A Search Engine for Software Components.IEEE Internet Computing.1998,VOL.6(2):62~70.

        [3] Oliver Hummel, Colin Atkinson. Supporting Agile Reuse Through Extreme Harvesting.8th International Conference, XP 2007:28~37。

        [4] 鄭瑾,王斌,陳松喬.Java Bean構(gòu)件檢索引擎.計算機(jī)工程.2003,Vol.29(20):45~46.

        [5] 劉金紅,陸玉良.主題網(wǎng)絡(luò)爬蟲研究綜述.計算機(jī)應(yīng)用研究.2007,Vol.24 (10):26-29.

        猜你喜歡
        爬蟲搜索引擎網(wǎng)頁
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
        電子制作(2018年10期)2018-08-04 03:24:38
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
        電子測試(2015年18期)2016-01-14 01:22:58
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        10個必知的網(wǎng)頁設(shè)計術(shù)語
        日日摸夜夜添夜夜添无码免费视频| 男人的天堂一区二av| 日本少妇高潮喷水xxxxxxx | 精品无码av无码专区| 女人被狂躁到高潮视频免费网站 | 无码日韩AⅤ一区二区三区| 国产成人亚洲合色婷婷| 亚洲一区二区三区日本久久九 | 国产成人av综合色| 中文字幕亚洲无线码| 麻豆久久久国内精品| 开心五月骚婷婷综合网| 人妻少妇精品视频三区二区一区| 亚洲精品自产拍在线观看| 亚洲成熟丰满熟妇高潮XXXXX | 亚洲精品国偷拍自产在线| 搡老熟女老女人一区二区| 欧美日韩高清一本大道免费| 青青草在线免费观看视频 | 又粗又粗又黄又硬又深色的| 国产精品爆乳在线播放| 亚洲精品综合久久国产二区| 丰满少妇高潮惨叫久久久| 欧美第一黄网免费网站| 高清高速无码一区二区| 亚洲精品一区二区在线免费观看 | 日产学生妹在线观看| 亚洲综合色一区二区三区另类| 国产精品毛片av一区二区三区| 国产精品毛片无遮挡高清| 精品久久久中文字幕人妻| 欧美日本视频一区| 亚洲综合中文字幕日韩| 亚洲精品无人区| 夜夜被公侵犯的美人妻| 国产精品一品二区三区| 人妻少妇精品无码专区| 少妇太爽了在线观看免费视频| 国产av区亚洲av毛片| 国产人妖乱国产精品人妖| 2019最新国产不卡a|