亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺析計(jì)算機(jī)Web網(wǎng)站信息采集的設(shè)計(jì)及實(shí)現(xiàn)

        2014-04-29 00:00:00丁永賢

        摘 要:隨著互聯(lián)網(wǎng)的快速發(fā)展,計(jì)算機(jī)Web網(wǎng)站的信息更新速度越來(lái)越快,依靠手工方式進(jìn)行操作工作量大,效率低。計(jì)算機(jī)技術(shù)實(shí)現(xiàn)網(wǎng)站信息的自動(dòng)采集具有效率高,人工干預(yù)少的優(yōu)點(diǎn),采集好的信息可以存入數(shù)據(jù)庫(kù)中,再結(jié)合Web技術(shù)操作數(shù)據(jù)庫(kù),實(shí)現(xiàn)站點(diǎn)信息的自動(dòng)更新。

        關(guān)鍵詞:計(jì)算機(jī)Web網(wǎng)站;信息采集設(shè)計(jì)與實(shí)現(xiàn)

        中圖分類號(hào):TP311.52

        社會(huì)的發(fā)展對(duì)信息技術(shù)的需求正在進(jìn)一步的強(qiáng)化,信息全球化發(fā)展影響下互聯(lián)網(wǎng)技術(shù)為人們獲取信息資源帶來(lái)了更加便利,信息資源傳輸渠道對(duì)人們生活的影響越來(lái)越重要。在信息時(shí)代,人們?nèi)绻軌蚣皶r(shí)獲取信息資源就能夠提升自身的經(jīng)濟(jì)效益。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,搜索引擎在互聯(lián)網(wǎng)技術(shù)的應(yīng)用上能夠更好的實(shí)現(xiàn)網(wǎng)絡(luò)服務(wù),為用戶提供專業(yè)的導(dǎo)航服務(wù)。幫助人們能夠及時(shí)的獲取信息資源。本文主要針對(duì)計(jì)算機(jī)Web網(wǎng)站信息采集的設(shè)計(jì)與實(shí)現(xiàn),對(duì)信息資源的系統(tǒng)采集進(jìn)行說(shuō)明。

        1 計(jì)算機(jī)Web網(wǎng)站信息采集的設(shè)計(jì)思路

        采集定位于web站點(diǎn)定向采集,需先確定采集對(duì)象的web實(shí)現(xiàn)方式,現(xiàn)有站點(diǎn)以asp.net、asp或php為主,明確信息資源的頁(yè)面生成規(guī)則,并且能自動(dòng)建立相應(yīng)的訪問(wèn)路徑。通過(guò)采集對(duì)象的數(shù)據(jù)特點(diǎn)建立相應(yīng)的數(shù)據(jù)庫(kù),設(shè)定采集參數(shù),將搜集到的信息資源存儲(chǔ)入數(shù)據(jù)庫(kù),完成對(duì)信息資源的搜集工作。

        網(wǎng)站中的信息資源可能會(huì)進(jìn)行多次搜集,數(shù)據(jù)可能被多次處理。在進(jìn)行信息資源記錄的過(guò)程中要建立URL標(biāo)示或者ID,這樣能夠識(shí)別再次訪問(wèn)的查詢工作,從而減少工作,提高效率。將搜集到的信息資源輸入到數(shù)據(jù)庫(kù)時(shí),應(yīng)進(jìn)行對(duì)比篩選工作,分析潛在的數(shù)據(jù)關(guān)系,查偽去重,建立具有統(tǒng)一性質(zhì)的數(shù)據(jù)表,方便后續(xù)工作。根據(jù)不同信息資源內(nèi)容按照各自的性質(zhì)進(jìn)行統(tǒng)一結(jié)構(gòu)化調(diào)整,完善信息的采集結(jié)果。

        所有的Web頁(yè)面都是基于Http協(xié)議的Request/Response機(jī)制,可以分析Request請(qǐng)求時(shí)附帶的參數(shù)以及Response響應(yīng)時(shí)頁(yè)面地址的規(guī)律,找到頁(yè)面鏈接的規(guī)律,從而創(chuàng)建C#中Regex類的對(duì)象。微軟.Net框架中,系統(tǒng)命名空間中提供的類webRequest可以發(fā)送客戶端請(qǐng)求,webResPonse可獲取返回的響應(yīng)。

        對(duì)于信息的分析和篩選可以用正則表達(dá)式來(lái)完成。正則表達(dá)式(Regular expressions)是一套功能非常強(qiáng)大的語(yǔ)法匹配規(guī)則。通過(guò)它可以從字符中提取所需要的數(shù)據(jù)信息。在.Net中,其類庫(kù)是Regex。Regex是從字符窗中查找匹配字符串的應(yīng)用類.。System.Text.RegularExpressions能為Regex類生成正則表達(dá)式。

        對(duì)于數(shù)據(jù)采集后的存儲(chǔ),采用sqlsever數(shù)據(jù)庫(kù)。并使用.net平臺(tái)下成熟的ado.net數(shù)據(jù)庫(kù)訪問(wèn)技術(shù)。ado.net數(shù)據(jù)操作技術(shù)被大量應(yīng)用于Web應(yīng)用程序中,可讓開(kāi)發(fā)人員以一致的方式存取資料來(lái)源,為采集后數(shù)據(jù)的一致性提供了保障。

        計(jì)算機(jī)Web網(wǎng)站信息采集的設(shè)計(jì)與實(shí)現(xiàn)的算法,需要先對(duì)鏈接進(jìn)行分析,完成系統(tǒng)模擬人工流程的讀取工作。建立相應(yīng)的訪問(wèn)路徑,實(shí)現(xiàn)REGEX類自帶對(duì)象的實(shí)例化,主要依靠正則表達(dá)式來(lái)完成相應(yīng)的匹配篩選工作,匹配文本能夠通過(guò)這種形式完整的表達(dá)出來(lái),并且在webRequest的推動(dòng)下實(shí)現(xiàn)發(fā)送,用WebResponse進(jìn)行接收,在StreamReader的引導(dǎo)下實(shí)現(xiàn)資源信息的讀取。最后通過(guò)sqlserver專用類的操作存儲(chǔ)于sql serve數(shù)據(jù)庫(kù)中。這種方法形成的網(wǎng)頁(yè)字符串,符合計(jì)算機(jī)Web網(wǎng)站信息采集的要求。

        2 計(jì)算機(jī)Web網(wǎng)站信息采集的實(shí)現(xiàn)

        2.1 定位站點(diǎn)URL地址,獲取網(wǎng)頁(yè)源碼

        Url地址可以根據(jù)采集參數(shù)來(lái)獲取,對(duì)于多個(gè)頁(yè)面,可以通過(guò)頁(yè)面生產(chǎn)規(guī)則批量設(shè)置??衫胔ttpwebrequest的post方法在網(wǎng)上取得IP的相應(yīng)UrL地址。將獲得的網(wǎng)頁(yè)代碼寫(xiě)入all_content提供給正則表達(dá)式分析篩選。關(guān)鍵代碼如下:

        HttpwebRequest all_content Request=(HttpWebRequest)WebRequest.Create(url);

        WebResponse all_contentResponse=all_contentRequest.GetResponse();

        StreamReader reader=newStreamReader(all_contentResponse.GetResponseStream(),System.Text.Encoding.Default);

        stringall_content=reader.ReadToEnd();

        reader.close();

        2.2 數(shù)據(jù)分析篩選

        使用C#的正則表達(dá)式對(duì)數(shù)據(jù)進(jìn)行規(guī)則設(shè)置,篩選有用數(shù)據(jù)。使用正則表達(dá)式對(duì)象filter.Matches方法返回all_content字符串所有匹配的超鏈集合all_link。

        String pword=@;

        Regex.filterword=newRegex(pword,Regex0Ptions.IgnoreCase);

        MatchCollection.all_link=re.matehes(all_content);

        for(int i=0;i

        {…///根據(jù)采集參數(shù)設(shè)置信息讀取模塊

        for(int j=0;j++)

        {…///根據(jù)正則表達(dá)式對(duì)數(shù)據(jù)篩選過(guò)濾}

        }

        2.3 數(shù)據(jù)存儲(chǔ)

        采集到的信息經(jīng)分析篩選后存儲(chǔ)入本地?cái)?shù)據(jù)庫(kù)中,數(shù)據(jù)庫(kù)中表預(yù)先設(shè)計(jì)好,可以編寫(xiě)存儲(chǔ)過(guò)程repeatcheck實(shí)現(xiàn)數(shù)據(jù)重復(fù)檢測(cè),表中加入suitid字段判斷是否已采集過(guò)。

        Sq1Command cmd=new Sq1Command(“Repeatcheck”,con);

        cmd.CommandType=CommandType.StoredProeedure;

        try{cmd.Parameters.Addwithvalue(“@name,name);

        cmd.Parameters.Add(“@suitid”,Sq1DbTtype.Biglnt,8); //判斷是否已采集過(guò)

        cmd.Parameters[“@suitid”].value=Convert.Tolnt64(jid);

        cmd.ExecuteNonQuery();}

        catch(Exception){continue;}

        3 結(jié)束語(yǔ)

        計(jì)算機(jī)Web網(wǎng)站信息采集的設(shè)計(jì)與實(shí)現(xiàn)有較廣應(yīng)用前景,針對(duì)網(wǎng)站進(jìn)行搜索掃描可以提高維護(hù)工作的效率,是信息系統(tǒng)網(wǎng)站建設(shè)趨勢(shì)。通過(guò)對(duì)數(shù)據(jù)的有效整理,并且根據(jù)數(shù)據(jù)的特點(diǎn)進(jìn)行選擇,在數(shù)據(jù)庫(kù)相應(yīng)配置后,將搜集分析選擇后的信息資源按照要求存儲(chǔ)入數(shù)據(jù)庫(kù)。再根據(jù)應(yīng)用需求開(kāi)發(fā)相應(yīng)展示頁(yè)面,可實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)在B/S系統(tǒng)上的應(yīng)用。

        參考文獻(xiàn):

        [1]宋凱倫,邱光華.基于Web的定向信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].福建電腦,2011(11).

        [2]左智斌.正則表達(dá)式再網(wǎng)頁(yè)數(shù)據(jù)采集中的應(yīng)用于研究[D].內(nèi)蒙古大學(xué),2014.

        [3]劉斌,張曉婧.Web信息抽取系統(tǒng)的設(shè)計(jì)[J].微型電腦應(yīng)用,2013(03).

        作者簡(jiǎn)介:丁永賢,男,寧夏人,講師,在讀研究生,研究方向:Web應(yīng)用開(kāi)發(fā)、計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)應(yīng)用。

        作者單位:銀川能源學(xué)院,銀川 750002

        精品国产av一区二区三区| 午夜一级韩国欧美日本国产| 亚洲一区二区欧美色妞影院| 一区二区三区人妻在线| 久久一本日韩精品中文字幕屁孩| 欧美亚洲熟妇一区二区三区| 婷婷成人亚洲| 日本最新在线一区二区| 蜜桃av噜噜一区二区三区9| 无码人妻精品一区二区| 国产一及毛片| 一区二区三区精品偷拍| 中文字幕亚洲精品久久| 一品二品三品中文字幕| 中文字幕一区二区人妻出轨| 国产av大片久久中文字幕| 亚洲成a∨人片在线观看无码| 无码人妻精品丰满熟妇区| 国产亚洲女在线线精品| 亚洲高清精品一区二区| 真人抽搐一进一出视频| 欧美性大战久久久久久久| 亚洲熟妇av日韩熟妇av| 国产在线观看午夜视频| 国产色在线 | 亚洲| 国产综合色在线视频| 蜜桃激情视频一区二区| 美女扒开大腿让男人桶| 日日鲁鲁鲁夜夜爽爽狠狠视频97| 欧洲人体一区二区三区| 国产精品成人av大片| 精品国产拍国产天天人| 青春草国产视频| 精品国产a毛片久久久av| 亚洲人成电影网站色| 抽插丰满内射高潮视频| 国产99久久精品一区| 国产精品成人亚洲一区| 大陆极品少妇内射aaaaa| 亚洲成AV人在线观看网址| 中国黄色一区二区三区四区|