亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺談基于C#的網(wǎng)絡類垂直搜索引擎 數(shù)據(jù)采集技術(shù)

        2014-08-08 05:57:31李保玉
        企業(yè)導報 2014年7期
        關(guān)鍵詞:數(shù)據(jù)采集

        李保玉

        摘要:該文設計和實現(xiàn)的基于C#的網(wǎng)絡類垂直搜索引擎數(shù)據(jù)采集,采用高效的URL去重,避免了數(shù)據(jù)的重復。本文剖析了網(wǎng)絡垂直搜索引擎中數(shù)據(jù)采集的基本方法和運行機制,并通過程序設計現(xiàn)實了垂直搜索引擎數(shù)據(jù)的采集。

        關(guān)鍵詞:垂直搜素引擎;數(shù)據(jù)采集;C#;正則提取一、背景與研究意義

        (一)研究背景?;ヂ?lián)網(wǎng)發(fā)展十余年,在這十余年的市場培育,發(fā)展的方向始終跟隨者web用戶的腳步,用戶希望能有一種軟件能在一定區(qū)域上對信息的智能采集和加工,從而來提高工作效率,因此采集技術(shù)在不斷的更新,采集軟件也隨之備受歡迎。

        (二)開發(fā)背景。如今的互聯(lián)網(wǎng),遍及全球,發(fā)展迅猛,信息在不斷的更新,Internet信息庫變得十分龐大。Web信息都是以網(wǎng)頁的形式,通過瀏覽器被用戶查看。目前搜索引擎技術(shù)發(fā)達,Web用戶都會通過搜索引擎搜索關(guān)鍵詞來查找自己想要的信息,但查到的結(jié)果不盡人意,包含了很多不相關(guān)的頁面,還要自己認真查找,因此要直接查找自己想要的精確信息非常困難。

        (三)研究意義。網(wǎng)絡上的信息非常豐富,數(shù)據(jù)類型多樣,不斷更新、不斷變化,如何迅速的、準確的獲取到自己需要的數(shù)據(jù),有價值的信息,變得越來越難。如何充分的利用網(wǎng)絡信息資源進行方便快速的檢索,從而引出搜索引擎技術(shù),它們與網(wǎng)絡技術(shù)和信息技術(shù)一起,在發(fā)展和使用中逐步完善。企業(yè)及個人網(wǎng)站需要在百度上有個好的排名,就必須運用到SEO相關(guān)的技術(shù),其中更新網(wǎng)站信息是最主要的,但這需要太多的時間與人力,該網(wǎng)絡類數(shù)據(jù)采集引擎就可以避免公司及個人的成本,并且可以提高工作效率。

        二、系統(tǒng)調(diào)研與可行性分析

        (一)現(xiàn)狀調(diào)研。隨著網(wǎng)絡的發(fā)展,網(wǎng)絡創(chuàng)業(yè)也成了現(xiàn)在的主流。但這些離開不了搜索引擎的作用,因為要有流量就得要排名,要有排名就得跟著各大搜索引擎的步法走,走偏了,就得受罰。不管做網(wǎng)站還是做推廣少不了信息的獲取,但是獲取具有相對性高的信息是比較費時間和人力的,因此采集引擎發(fā)揮了很大的作用并得到廣泛的應用。

        (二)可行性分析。現(xiàn)在大多數(shù)的信息的采集主要是為手工處理,很多重復操作,而且是容易找到許多不相關(guān)的信息,該網(wǎng)絡類垂直搜索引擎數(shù)據(jù)采集軟件的使用是否可以解決以上問題,就要對軟件進行可行性分析。一般軟件的可行性分析會對以下方面進行:(1)技術(shù)可行性:程序運行采集信息時采用的是多線程處理,使處理速度更快。(2)經(jīng)濟可行性:在設計該軟件時不需要太多的成本,也不需要太多的人力投入,需要連接網(wǎng)絡。(3)運行上可行性:雖然本軟件使用的是多線程處理,消耗的相對比較大,但是現(xiàn)在一般的電腦都可以運行。(4)從社會需求上分析:更新信息本來是個工作量大的工作,該軟件就可以避免這個問題,可以降低工作強度,提高工作效率。

        三、系統(tǒng)相關(guān)技術(shù)簡介

        (一)垂直搜索引擎。隨著互聯(lián)網(wǎng)信息的日益發(fā)展、不斷龐大,精確獲取信息的難度越來越大,那么怎樣在大量的信息中找到自己想要的信息,成為了一個迫在眉睫的問題,需要新的技術(shù)、新的理念來解決這個棘手的問題,因此搜索引擎的出現(xiàn)成為了必然,同時也開始影響著我們的需求,影響著我們的生活。由于普通的、通用的搜索引擎有著查詢的信息量很大、但目標不夠準確、有許多重復的內(nèi)容或根本無關(guān)緊要的內(nèi)容,而且搜索出的信息深度不夠等缺點,所以為精確的搜索出需要的信息,滿足用戶的需求,從而誕生了垂直搜索引擎。

        (二)搜索引擎爬蟲。搜索引擎爬蟲是一種按照一定網(wǎng)頁資源無關(guān)性、覆蓋率數(shù)據(jù)結(jié)構(gòu)型、語義檢索等自動抓取網(wǎng)絡資源的程序,它的執(zhí)行過程和網(wǎng)絡爬行很相似。

        現(xiàn)在的網(wǎng)絡信息都是以網(wǎng)頁的形式加載信息,如果這個網(wǎng)頁沒有被搜索引擎爬蟲收錄,這個網(wǎng)頁在互聯(lián)網(wǎng)上是很難找不到的,這只能通過連接直接打開,通過搜索引擎查找是不可能找到的。因為搜索引擎爬蟲采集時有URL去重功能,所以提供給用戶的都是一些很有價值的信息。

        (三)數(shù)據(jù)采集。網(wǎng)絡基本上所有網(wǎng)站都分為三大模板:首頁模板、內(nèi)容頁模板,列表頁模板、所以一個網(wǎng)站的列表頁、文章的HTML代碼的結(jié)構(gòu)基本相同,這就便于去根據(jù)規(guī)律采集文章信息,采集網(wǎng)頁內(nèi)容方式主要有兩種:智能提取和正則提取。

        (四)站群。站群是目前比較掙錢的網(wǎng)賺項目之一,為了維護這些網(wǎng)站每天都得給網(wǎng)站發(fā)布一定數(shù)量的信息,如果一個網(wǎng)站發(fā)10篇,就得準備至少100篇文章,這樣的工作量不可能讓人工來操作,必須要有具備采集數(shù)據(jù)功能的軟件協(xié)助,這樣就可以大大提高工作效率。

        四、系統(tǒng)總體設計分析

        (一)系統(tǒng)需求分析。在龐大的Internet信息寶庫中,怎樣精確獲取信息的難度越來越大,用戶也迫切的需要一個簡便的檢索工具去得到自己想要的信息,因此搜索引擎的產(chǎn)生成為了必然。搜索引擎的數(shù)據(jù)采集模塊主要是對網(wǎng)絡上原創(chuàng)性的網(wǎng)頁信息采集下來保存在數(shù)據(jù)庫中。如果該網(wǎng)頁發(fā)生了更新,數(shù)據(jù)采集模塊會檢測到后下載并對本地的舊信息進行替換更新。因此通過剖析網(wǎng)絡垂直搜索引擎中數(shù)據(jù)采集的基本方法和運行機制,再通過軟件來現(xiàn)實數(shù)據(jù)采集,從而可以快速解決許多重復性的勞動問題。

        (二)系統(tǒng)實現(xiàn)的目標。本系統(tǒng)主要實現(xiàn)的目標有以下幾個方面:(1)界面設計簡潔、美觀、直觀。(2)數(shù)據(jù)存儲準確、安全、可靠。(3)任務運行靈活。(4)系統(tǒng)操作性強、維護方便。

        (三)系統(tǒng)功能模塊設計。(1)主程序模塊:加載數(shù)據(jù)庫里面的抓取任務信息,下面的小框中就會顯示任務運行時的抓取日志和運行進程的個數(shù)。(2)新建任務模塊:為程序的主要模塊,又分為四個小模塊:任務基本信息模塊、提取列表分頁模塊、提取文章地址模塊、提取文章內(nèi)容模塊。(3)文章庫模塊:查看所有抓取的文章信息。(4)系統(tǒng)設置模塊:設置每個線程執(zhí)行的間隔時間。(5)聯(lián)系方式模塊:關(guān)于系統(tǒng)的簡介及我們的聯(lián)系方式。(6)任務控制模塊:控制選中任務運行、暫停、停止。(7)任務文章查看模塊:查看選中任務抓取的文章信息。(8)任務文章刪除模塊:刪除選中任務抓取的文章。(9)任務列表加載模塊:實現(xiàn)刷新、選定任務刪除、選定任務運行、選定任務暫停、選定任務停止、查看選定任務文章、導出。(10) 加載顯示任務運行日志模塊:顯示所有線程的運行狀態(tài)。

        (四)系統(tǒng)功能結(jié)構(gòu)圖。根據(jù)基于C#的網(wǎng)絡類垂直搜索引擎數(shù)據(jù)采集的實際需求,可以將網(wǎng)絡類數(shù)據(jù)采集引擎劃分為新建任務、文章庫、系統(tǒng)設置、關(guān)于我們、任務運行、任務暫停、任務停止、指定任務文章查看、指定任務文章刪除、任務加載列表、顯示任務運行狀態(tài)框、顯示線程數(shù)量12個部分。

        (五)系統(tǒng)流程圖?;贑#的網(wǎng)絡類數(shù)據(jù)采集引擎的流程是用戶先要新建自己的抓取任務,依次要填寫任務名稱、采集方式、網(wǎng)站編碼、入口地址、列表URL提取正則、網(wǎng)頁URL提取正則、內(nèi)容提取方式、內(nèi)容提取正則;然后保存任務,刷新加載任務列表,會顯示新建的任務,運行新建任務,把抓取到的信息保存在數(shù)據(jù)庫中,同時顯示任務運行狀態(tài)框會顯示抓取信息情況。

        結(jié)語:雖然該數(shù)據(jù)采集軟件的完成了,但是凡事總是不夠完美,該軟件還有一些不足。因為該軟件要頻繁地訪問同一個服務器上的網(wǎng)頁,服務器可能會對軟件所在的電腦進行封鎖IP,禁止在訪問,軟件將無法再抓取,因此該軟件最大的不足就是沒有實現(xiàn)切換代理IP訪問網(wǎng)頁。另外的不足就是沒有實現(xiàn)對應發(fā)布功能,這些功能方面應該做進一個的完善。

        參考文獻:

        [1]呂鐵強, 于滿泉, 孟慶發(fā). 基于網(wǎng)頁分塊的個性化信息采集的研究與設計[J]. 微電子學與計算機, 2012

        猜你喜歡
        數(shù)據(jù)采集
        Web網(wǎng)絡大數(shù)據(jù)分類系統(tǒng)的設計與改進
        CAN總線通信技術(shù)在電梯監(jiān)控系統(tǒng)中的應用
        基于大型嵌入式系統(tǒng)的污水檢測系統(tǒng)設計
        社會保障一卡通數(shù)據(jù)采集與整理技巧
        基于AVR單片機的SPI接口設計與實現(xiàn)
        CS5463在植栽用電子鎮(zhèn)流器老化監(jiān)控系統(tǒng)中的應用
        大數(shù)據(jù)時代高校數(shù)據(jù)管理的思考
        科技視界(2016年18期)2016-11-03 22:51:40
        鐵路客流時空分布研究綜述
        基于廣播模式的數(shù)據(jù)實時采集與處理系統(tǒng)
        軟件工程(2016年8期)2016-10-25 15:54:18
        通用Web表單數(shù)據(jù)采集系統(tǒng)的設計與實現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:52:53
        在线观看av片永久免费| 中文无码免费在线| 区二区三区亚洲精品无| 色熟妇人妻久久中文字幕| 久久久精品一区aaa片| 亚洲男人av香蕉爽爽爽爽| 最新永久免费AV网站| 亚洲色图偷拍自拍在线| 日本熟日本熟妇中文在线观看| 亚洲中文字幕无码永久在线| 毛片一级精油按摩无码| 免费在线国产不卡视频 | 亚洲av无码国产精品永久一区| 亚洲av色先锋资源电影网站| 熟妇人妻不卡中文字幕| av免费一区二区久久| 国产乱子伦| a级毛片免费观看视频| 一本久道久久综合狠狠操| 日韩亚洲无吗av一区二区| 四虎影视免费永久在线观看| 国产欧美va欧美va香蕉在线观| 国产亚洲精品视频在线| www夜插内射视频网站| 中文人妻av久久人妻18| 精品久久久久88久久久| 国产精品一区二区久久久av| 精品无码国产自产拍在线观看蜜| 水蜜桃久久| 国产精品久久国产三级国| 成人欧美一区二区三区黑人| 日韩a无v码在线播放| 亚洲国产日韩欧美高清片a| 一区二区在线观看精品在线观看| 最近2019年好看中文字幕视频 | 亚洲综合网站久久久| 久久免费看少妇高潮v片特黄| 国产精品一级av一区二区| 日韩精品视频久久一区二区| 亚洲一本到无码av中文字幕| 午夜国产精品久久久久|