亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺析計(jì)算機(jī)Web網(wǎng)站信息采集的設(shè)計(jì)及實(shí)現(xiàn)

        2014-04-29 00:00:00丁永賢

        摘 要:隨著互聯(lián)網(wǎng)的快速發(fā)展,計(jì)算機(jī)Web網(wǎng)站的信息更新速度越來(lái)越快,依靠手工方式進(jìn)行操作工作量大,效率低。計(jì)算機(jī)技術(shù)實(shí)現(xiàn)網(wǎng)站信息的自動(dòng)采集具有效率高,人工干預(yù)少的優(yōu)點(diǎn),采集好的信息可以存入數(shù)據(jù)庫(kù)中,再結(jié)合Web技術(shù)操作數(shù)據(jù)庫(kù),實(shí)現(xiàn)站點(diǎn)信息的自動(dòng)更新。

        關(guān)鍵詞:計(jì)算機(jī)Web網(wǎng)站;信息采集設(shè)計(jì)與實(shí)現(xiàn)

        中圖分類號(hào):TP311.52

        社會(huì)的發(fā)展對(duì)信息技術(shù)的需求正在進(jìn)一步的強(qiáng)化,信息全球化發(fā)展影響下互聯(lián)網(wǎng)技術(shù)為人們獲取信息資源帶來(lái)了更加便利,信息資源傳輸渠道對(duì)人們生活的影響越來(lái)越重要。在信息時(shí)代,人們?nèi)绻軌蚣皶r(shí)獲取信息資源就能夠提升自身的經(jīng)濟(jì)效益。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,搜索引擎在互聯(lián)網(wǎng)技術(shù)的應(yīng)用上能夠更好的實(shí)現(xiàn)網(wǎng)絡(luò)服務(wù),為用戶提供專業(yè)的導(dǎo)航服務(wù)。幫助人們能夠及時(shí)的獲取信息資源。本文主要針對(duì)計(jì)算機(jī)Web網(wǎng)站信息采集的設(shè)計(jì)與實(shí)現(xiàn),對(duì)信息資源的系統(tǒng)采集進(jìn)行說(shuō)明。

        1 計(jì)算機(jī)Web網(wǎng)站信息采集的設(shè)計(jì)思路

        采集定位于web站點(diǎn)定向采集,需先確定采集對(duì)象的web實(shí)現(xiàn)方式,現(xiàn)有站點(diǎn)以asp.net、asp或php為主,明確信息資源的頁(yè)面生成規(guī)則,并且能自動(dòng)建立相應(yīng)的訪問(wèn)路徑。通過(guò)采集對(duì)象的數(shù)據(jù)特點(diǎn)建立相應(yīng)的數(shù)據(jù)庫(kù),設(shè)定采集參數(shù),將搜集到的信息資源存儲(chǔ)入數(shù)據(jù)庫(kù),完成對(duì)信息資源的搜集工作。

        網(wǎng)站中的信息資源可能會(huì)進(jìn)行多次搜集,數(shù)據(jù)可能被多次處理。在進(jìn)行信息資源記錄的過(guò)程中要建立URL標(biāo)示或者ID,這樣能夠識(shí)別再次訪問(wèn)的查詢工作,從而減少工作,提高效率。將搜集到的信息資源輸入到數(shù)據(jù)庫(kù)時(shí),應(yīng)進(jìn)行對(duì)比篩選工作,分析潛在的數(shù)據(jù)關(guān)系,查偽去重,建立具有統(tǒng)一性質(zhì)的數(shù)據(jù)表,方便后續(xù)工作。根據(jù)不同信息資源內(nèi)容按照各自的性質(zhì)進(jìn)行統(tǒng)一結(jié)構(gòu)化調(diào)整,完善信息的采集結(jié)果。

        所有的Web頁(yè)面都是基于Http協(xié)議的Request/Response機(jī)制,可以分析Request請(qǐng)求時(shí)附帶的參數(shù)以及Response響應(yīng)時(shí)頁(yè)面地址的規(guī)律,找到頁(yè)面鏈接的規(guī)律,從而創(chuàng)建C#中Regex類的對(duì)象。微軟.Net框架中,系統(tǒng)命名空間中提供的類webRequest可以發(fā)送客戶端請(qǐng)求,webResPonse可獲取返回的響應(yīng)。

        對(duì)于信息的分析和篩選可以用正則表達(dá)式來(lái)完成。正則表達(dá)式(Regular expressions)是一套功能非常強(qiáng)大的語(yǔ)法匹配規(guī)則。通過(guò)它可以從字符中提取所需要的數(shù)據(jù)信息。在.Net中,其類庫(kù)是Regex。Regex是從字符窗中查找匹配字符串的應(yīng)用類.。System.Text.RegularExpressions能為Regex類生成正則表達(dá)式。

        對(duì)于數(shù)據(jù)采集后的存儲(chǔ),采用sqlsever數(shù)據(jù)庫(kù)。并使用.net平臺(tái)下成熟的ado.net數(shù)據(jù)庫(kù)訪問(wèn)技術(shù)。ado.net數(shù)據(jù)操作技術(shù)被大量應(yīng)用于Web應(yīng)用程序中,可讓開(kāi)發(fā)人員以一致的方式存取資料來(lái)源,為采集后數(shù)據(jù)的一致性提供了保障。

        計(jì)算機(jī)Web網(wǎng)站信息采集的設(shè)計(jì)與實(shí)現(xiàn)的算法,需要先對(duì)鏈接進(jìn)行分析,完成系統(tǒng)模擬人工流程的讀取工作。建立相應(yīng)的訪問(wèn)路徑,實(shí)現(xiàn)REGEX類自帶對(duì)象的實(shí)例化,主要依靠正則表達(dá)式來(lái)完成相應(yīng)的匹配篩選工作,匹配文本能夠通過(guò)這種形式完整的表達(dá)出來(lái),并且在webRequest的推動(dòng)下實(shí)現(xiàn)發(fā)送,用WebResponse進(jìn)行接收,在StreamReader的引導(dǎo)下實(shí)現(xiàn)資源信息的讀取。最后通過(guò)sqlserver專用類的操作存儲(chǔ)于sql serve數(shù)據(jù)庫(kù)中。這種方法形成的網(wǎng)頁(yè)字符串,符合計(jì)算機(jī)Web網(wǎng)站信息采集的要求。

        2 計(jì)算機(jī)Web網(wǎng)站信息采集的實(shí)現(xiàn)

        2.1 定位站點(diǎn)URL地址,獲取網(wǎng)頁(yè)源碼

        Url地址可以根據(jù)采集參數(shù)來(lái)獲取,對(duì)于多個(gè)頁(yè)面,可以通過(guò)頁(yè)面生產(chǎn)規(guī)則批量設(shè)置??衫胔ttpwebrequest的post方法在網(wǎng)上取得IP的相應(yīng)UrL地址。將獲得的網(wǎng)頁(yè)代碼寫(xiě)入all_content提供給正則表達(dá)式分析篩選。關(guān)鍵代碼如下:

        HttpwebRequest all_content Request=(HttpWebRequest)WebRequest.Create(url);

        WebResponse all_contentResponse=all_contentRequest.GetResponse();

        StreamReader reader=newStreamReader(all_contentResponse.GetResponseStream(),System.Text.Encoding.Default);

        stringall_content=reader.ReadToEnd();

        reader.close();

        2.2 數(shù)據(jù)分析篩選

        使用C#的正則表達(dá)式對(duì)數(shù)據(jù)進(jìn)行規(guī)則設(shè)置,篩選有用數(shù)據(jù)。使用正則表達(dá)式對(duì)象filter.Matches方法返回all_content字符串所有匹配的超鏈集合all_link。

        String pword=@;

        Regex.filterword=newRegex(pword,Regex0Ptions.IgnoreCase);

        MatchCollection.all_link=re.matehes(all_content);

        for(int i=0;i

        {…///根據(jù)采集參數(shù)設(shè)置信息讀取模塊

        for(int j=0;j++)

        {…///根據(jù)正則表達(dá)式對(duì)數(shù)據(jù)篩選過(guò)濾}

        }

        2.3 數(shù)據(jù)存儲(chǔ)

        采集到的信息經(jīng)分析篩選后存儲(chǔ)入本地?cái)?shù)據(jù)庫(kù)中,數(shù)據(jù)庫(kù)中表預(yù)先設(shè)計(jì)好,可以編寫(xiě)存儲(chǔ)過(guò)程repeatcheck實(shí)現(xiàn)數(shù)據(jù)重復(fù)檢測(cè),表中加入suitid字段判斷是否已采集過(guò)。

        Sq1Command cmd=new Sq1Command(“Repeatcheck”,con);

        cmd.CommandType=CommandType.StoredProeedure;

        try{cmd.Parameters.Addwithvalue(“@name,name);

        cmd.Parameters.Add(“@suitid”,Sq1DbTtype.Biglnt,8); //判斷是否已采集過(guò)

        cmd.Parameters[“@suitid”].value=Convert.Tolnt64(jid);

        cmd.ExecuteNonQuery();}

        catch(Exception){continue;}

        3 結(jié)束語(yǔ)

        計(jì)算機(jī)Web網(wǎng)站信息采集的設(shè)計(jì)與實(shí)現(xiàn)有較廣應(yīng)用前景,針對(duì)網(wǎng)站進(jìn)行搜索掃描可以提高維護(hù)工作的效率,是信息系統(tǒng)網(wǎng)站建設(shè)趨勢(shì)。通過(guò)對(duì)數(shù)據(jù)的有效整理,并且根據(jù)數(shù)據(jù)的特點(diǎn)進(jìn)行選擇,在數(shù)據(jù)庫(kù)相應(yīng)配置后,將搜集分析選擇后的信息資源按照要求存儲(chǔ)入數(shù)據(jù)庫(kù)。再根據(jù)應(yīng)用需求開(kāi)發(fā)相應(yīng)展示頁(yè)面,可實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)在B/S系統(tǒng)上的應(yīng)用。

        參考文獻(xiàn):

        [1]宋凱倫,邱光華.基于Web的定向信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].福建電腦,2011(11).

        [2]左智斌.正則表達(dá)式再網(wǎng)頁(yè)數(shù)據(jù)采集中的應(yīng)用于研究[D].內(nèi)蒙古大學(xué),2014.

        [3]劉斌,張曉婧.Web信息抽取系統(tǒng)的設(shè)計(jì)[J].微型電腦應(yīng)用,2013(03).

        作者簡(jiǎn)介:丁永賢,男,寧夏人,講師,在讀研究生,研究方向:Web應(yīng)用開(kāi)發(fā)、計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)應(yīng)用。

        作者單位:銀川能源學(xué)院,銀川 750002

        91麻豆国产香蕉久久精品| 亚洲日韩精品a∨片无码加勒比| 丰满人妻无套内射视频| 日本一本一道久久香蕉男人的天堂 | 高清不卡av在线播放| 久久精品国产99久久久| 久久久精品人妻久久影视| 无码人妻AⅤ一区 二区 三区| 久久婷婷夜色精品国产| 国产精品一区二区三区在线免费| 亚洲最大一区二区在线观看| 国产综合精品一区二区三区| 久久久久久久性潮| 99久久精品国产片| 91精品啪在线观看国产色| 懂色av一区二区三区尤物| 亚洲伊人色欲综合网| 无码国产精品一区二区免费网曝| av在线免费观看你懂的| 免费看黄片的视频在线观看| 东北老女人高潮大喊舒服死了| 黄色资源在线观看| 亚洲人成网站www| 久久一区二区三区少妇人妻| 人与动牲交av免费| 亚洲精品视频久久| jiZZ国产在线女人水多| 午夜一区二区三区免费观看| 人与人性恔配视频免费 | 成人短篇在线视频夫妻刺激自拍 | 人妻无码αv中文字幕久久琪琪布| 91视频爱爱| 亚洲精品中文字幕91| 又爽又黄又无遮挡网站| 亚洲国产18成人中文字幕久久久久无码av| 一区二区久久精品66国产精品| 操风骚人妻沉沦中文字幕| 午夜成人理论无码电影在线播放| 亚洲国产日韩欧美高清片a| 中文字幕久久国产精品| 成熟了的熟妇毛茸茸|