亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)信息采集技術(shù)在教育領(lǐng)域的應(yīng)用研究

        2014-11-10 05:40:06李奇濤管佳
        科技創(chuàng)新導(dǎo)報(bào) 2014年22期
        關(guān)鍵詞:信息采集應(yīng)用教育

        李奇濤++管佳

        摘 要:為實(shí)現(xiàn)網(wǎng)絡(luò)信息采集技術(shù)在教育領(lǐng)域信息采集過程中的應(yīng)用,對(duì)網(wǎng)絡(luò)信息采集技術(shù)進(jìn)行了研究,在詳細(xì)闡述技術(shù)架構(gòu)及其核心技術(shù)基礎(chǔ)上,完成了信息采集系統(tǒng)的構(gòu)建。同時(shí)簡(jiǎn)介了其他兩種信息采集技術(shù),通過對(duì)比,分析三種方法的優(yōu)缺點(diǎn),方便了用戶和研究者的選擇與應(yīng)用。

        關(guān)鍵詞:教育 信息采集 應(yīng)用

        中圖分類號(hào):G642 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2014)08(a)-0114-02

        信息技術(shù)的迅速發(fā)展,使得網(wǎng)絡(luò)上的信息日益增多,從日常生活到科學(xué)研究,人們?cè)絹碓搅?xí)慣于從網(wǎng)絡(luò)上獲取知識(shí)、信息,網(wǎng)絡(luò)成為人們獲取信息、知識(shí)的首要途徑。但是,人們?cè)诿鎸?duì)如此繁雜巨量、形式不一的信息時(shí)往往感到無所適從。筆者在從事相關(guān)研究中就遇到這樣問題,需要從某些教育技術(shù)資源網(wǎng)站中采集滿足特定條件的信息。該文就針對(duì)這一問題進(jìn)行了相關(guān)的研究。

        在本研究中,需要從教育技術(shù)相關(guān)網(wǎng)站(中央電大開放教育教學(xué)資源查詢系統(tǒng)、教育技術(shù)資源網(wǎng)、中國(guó)教育技術(shù)研究網(wǎng)等)中采集特定主題的,符合一定規(guī)律和格式的信息,因此信息采集的過程中,需要對(duì)網(wǎng)站進(jìn)行分門別類,針對(duì)這些不同類型的信息,編寫相應(yīng)的代碼和公式。同時(shí),由于要采集信息量比較大,要實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)站點(diǎn)的自動(dòng)填充和自動(dòng)點(diǎn)擊功能,在此基礎(chǔ)上完成對(duì)網(wǎng)頁的解析和信息抽取工作,其中要對(duì)采集的頁面是否重復(fù)采集進(jìn)行判斷,最后實(shí)現(xiàn)對(duì)數(shù)據(jù)的精加工。本研究提出并實(shí)現(xiàn)滿足上述需求的網(wǎng)絡(luò)信息采集系統(tǒng),并實(shí)現(xiàn)了在教育領(lǐng)域的應(yīng)用。

        1 網(wǎng)絡(luò)信息采集技術(shù)系統(tǒng)結(jié)構(gòu)

        1.1 系統(tǒng)設(shè)計(jì)思路

        該研究中設(shè)計(jì)的網(wǎng)絡(luò)信息采集系統(tǒng)基于Windows平臺(tái)開發(fā),以Microsoft visio studio 2008作為開發(fā)工具,采用C#語言編寫,數(shù)據(jù)采用XML存儲(chǔ)格式,并實(shí)現(xiàn)與Oracle 10 g數(shù)據(jù)庫連接。系統(tǒng)主要實(shí)現(xiàn)對(duì)相關(guān)目標(biāo)網(wǎng)站信息的采集,采用單線程、固定模式、制定框架采集,針對(duì)不同網(wǎng)站制定不同框架模式,采集方式靈活。

        1.2 系統(tǒng)基本架構(gòu)

        根據(jù)上述系統(tǒng)設(shè)計(jì)思路的簡(jiǎn)單介紹,網(wǎng)絡(luò)信息采集系統(tǒng)的基本框架如下所示[1]:

        (1)保存種子URL和待抓取URL的數(shù)據(jù)結(jié)構(gòu)。

        (2)保存已經(jīng)抓取過的URL的數(shù)據(jù)結(jié)構(gòu),防止重復(fù)抓取。

        (3)頁面獲取模塊。

        (4)對(duì)已經(jīng)獲取的頁面內(nèi)容的各個(gè)部分進(jìn)行抽取。

        (5)對(duì)抽取內(nèi)容進(jìn)行精加工處理。

        (6)數(shù)據(jù)的存儲(chǔ)。

        系統(tǒng)所對(duì)應(yīng)的機(jī)構(gòu)圖如圖1所示。

        系統(tǒng)運(yùn)行的流程如下:

        (1)確定要采集主題信息所在網(wǎng)站,并制定所要采集信息主題。

        (2)將要采集信息主題導(dǎo)入系統(tǒng)中,由系統(tǒng)模擬點(diǎn)擊搜索按鈕,搜索本網(wǎng)站所包含與采集信息主題相關(guān)的信息。這里起始頁面的URL為網(wǎng)站首頁,將其放入采集器Web Spider中,通過相應(yīng)設(shè)置,如:頁面采集深度等,讓采集器Web Spider對(duì)其進(jìn)行爬取,搜索其中包含的URL信息,然后通過URL地址查新,分析其中是否含有新的、符合要求的URL,如有則將未抓取的URL加入到采集器Web Spider,繼續(xù)循環(huán)采集信息頁面,直至再無新的URL。

        (3)采集器按照相應(yīng)規(guī)則采集信息,調(diào)整頁面結(jié)構(gòu),對(duì)頁面實(shí)施規(guī)范化,并按照規(guī)則自動(dòng)實(shí)現(xiàn)聚集,生成初步采集信息。

        (4)采集過的信息經(jīng)過信息提取,主要通過Xpath表達(dá)式提取,經(jīng)過相應(yīng)處理、格式轉(zhuǎn)換等生成處理完畢的信息,并生成相應(yīng)的索引,到此,信息采集就已完畢。

        (5)將采集完的信息存儲(chǔ)到XML文件格式中,按照需要,決定是否要存儲(chǔ)到關(guān)系數(shù)據(jù)庫中。

        (6)信息展示。

        2 核心技術(shù)

        在本系統(tǒng)中,用到的支撐技術(shù)主要有URL地址查新技術(shù)、基于HtmlAgi lityPack和Xpath的數(shù)據(jù)提取技術(shù)、模擬填充和自動(dòng)點(diǎn)擊功能,數(shù)據(jù)精加工技術(shù)。

        2.1 URL地址查新技術(shù)

        URL的地址查新是通過布隆過濾器來判斷一個(gè)經(jīng)過Hash函數(shù)散列的URL是否已經(jīng)被訪問過,從而避免重復(fù)采集同一URL數(shù)據(jù)以及程序陷入死循環(huán)。

        2.2 基于HtmlAgilityPack+Xpath的數(shù)據(jù)提取技術(shù)

        HtmlAgilityPack是一個(gè)開源的項(xiàng)目,為網(wǎng)頁提供了標(biāo)準(zhǔn)的DOM API和Xpath導(dǎo)航。在整個(gè)系統(tǒng)中,HTML頁面解析,文本抽取,遍歷等都要用到這個(gè)包,而Xpath作為一種路徑表達(dá)式工具,可以很好的“深入”WEB頁面代碼中的最小單位,精準(zhǔn)定位到目標(biāo)數(shù)據(jù)所在的代碼行。通過將兩者結(jié)合,可以有效地對(duì)經(jīng)過解析的頁面進(jìn)行目標(biāo)數(shù)據(jù)采集。

        2.3 模擬填充和自動(dòng)點(diǎn)擊功能

        模擬填充和自動(dòng)點(diǎn)擊主要針對(duì)例如百度這樣具有搜索功能的網(wǎng)頁。而大多數(shù)網(wǎng)站都具有站內(nèi)搜索功能,WEB信息數(shù)據(jù)挖掘系統(tǒng)就可以利用這一功能實(shí)現(xiàn)信息抓取。對(duì)于我們要采集的目標(biāo)網(wǎng)站而言,站內(nèi)檢索頁面往往提供了普通搜索和高級(jí)搜索兩種不同的搜索方式。普通搜索往往只提供了一個(gè)可供用戶輸入的文本框,而高級(jí)搜索則提供了除文本框外其他輔助選項(xiàng)(包括下拉列表框、互斥選項(xiàng)集等)。本系統(tǒng)采用Web Broswer控件來模擬用戶的一次檢索行為,包括填充文本框、選擇下拉列表項(xiàng)和點(diǎn)擊按鈕等操作[2]。

        同時(shí)對(duì)于JSP和ASPX、PHP等動(dòng)態(tài)網(wǎng)頁,如果沒有明確的URL指向爬蟲運(yùn)行的下一頁,則需要模擬點(diǎn)擊頁面中的“下一頁”按鈕或者點(diǎn)擊下一頁頁標(biāo)對(duì)應(yīng)的超鏈接來實(shí)現(xiàn)(一般諸如[1],[2],[3]…等形式)[3]。

        2.4 數(shù)據(jù)精加工

        以上幾步之后,得到的數(shù)據(jù)只是比較粗糙的“原始數(shù)據(jù)”,我們需要進(jìn)一步進(jìn)行精加工才能得到我們想要的數(shù)據(jù)。數(shù)據(jù)精加工分以下幾種情況[4]:endprint

        (1)“原始數(shù)據(jù)”中經(jīng)常出現(xiàn)諸如“?”、“&”等HTML文本,我們需要將這些占位符去除。

        (2)對(duì)于零散的原始信息,需要將其加工成規(guī)范格式,(例如新聞等信息,就要把標(biāo)題,作者,發(fā)布日期等信息統(tǒng)一為諸如:某單位.關(guān)于召開XXX技術(shù)應(yīng)用區(qū)域推進(jìn)研討會(huì)的通知[圖].2009-5-5.http://jyjs.e21.cn/e21web/content.php?acticle_id=489)

        (3)某些信息(比如作者信息,發(fā)布日期等)存在于一大段文字中的括號(hào)引號(hào)之內(nèi),或者在某些標(biāo)點(diǎn)符號(hào)(逗號(hào),冒號(hào))之后,需要用正則表達(dá)式定位目標(biāo)信息并將其進(jìn)一步抽取出來。此項(xiàng)涉及到自然語言處理等[5]。

        (4)對(duì)于圖片,PDF文檔,RAR壓縮包等文件,需要得到下載URL,然后導(dǎo)入下載程序進(jìn)行下載。

        3 系統(tǒng)實(shí)現(xiàn)

        為了驗(yàn)證上述所提方法的有效性,這里通過實(shí)現(xiàn)一個(gè)簡(jiǎn)單案例來證明。數(shù)據(jù)提取內(nèi)容為教育技術(shù)資源網(wǎng)(http://www.chinaret.com)下教育資訊欄目的信息。獲取的信息內(nèi)容主要是信息標(biāo)題和信息URL鏈接地址。

        首先加載WEB頁面,通過XX Encoding.GetBytes("gbk")設(shè)置編碼信息,然后定位目標(biāo)數(shù)據(jù)所在位置,這里用到了Xpath表達(dá)式XX.GetElementbyId("content"),實(shí)際獲得的值為http://www.chinaret.com/column.aspx?id=241/*[@id="content"],意思為獲取這個(gè)頁面下所有ID為"content"中的信息,接著通過SelectNodes()來判斷相應(yīng)代碼下是否包含要提取的信息,如本例中要提取的是鏈接信息,相應(yīng)的代碼就應(yīng)該表示為SelectNodes("http://a"),最后將Xpath表達(dá)是定位在要提取的數(shù)據(jù)節(jié)點(diǎn)上,提取節(jié)點(diǎn)信息,代碼為GetAttributeValue()。

        通過上述實(shí)驗(yàn)證明,采用本文所提出的技術(shù)能夠很好的來實(shí)現(xiàn)對(duì)WEB頁面信息的采集,可以應(yīng)用到教育技術(shù)領(lǐng)域,為教育信息采集服務(wù)。

        4 其他信息采集方法

        在本研究中,除了上述介紹的C#語言編寫的,采用HtmlAgilityPack+Xpath的采集方式外。還嘗試了其他兩種采用JAVA語音編寫的網(wǎng)絡(luò)信息采集方法。

        其中VietSpider HtmlParser是一個(gè)純JAVA的HTML DOM解析器,是一種開源的網(wǎng)絡(luò)數(shù)據(jù)采集器。它提供一個(gè)圖形化界面方便用戶使用,可以用于特定主題、目的的網(wǎng)絡(luò)信息搜索、采集和分類。其最大特色在于提供的圖形化界面,使得數(shù)據(jù)采集簡(jiǎn)單化,正如其口號(hào)所說:Getting Web Data={Clicks}[6]。其主要特色如下:采用web3.0爬蟲技術(shù),提出網(wǎng)站模板解析概念,網(wǎng)絡(luò)爬蟲可以為每一個(gè)站點(diǎn)提供代理和多線程配置;VietSpider服務(wù)器可以在Linux/Windows系統(tǒng)下運(yùn)行,管理員可以通過VietSpider的遠(yuǎn)程客戶端進(jìn)行管理;支持多種數(shù)據(jù)庫系統(tǒng),如:MySQL、MS SQL、ORACLE、Postgres、H2等;VietSpider提供了內(nèi)置瀏覽器功能,支持JavaScript解析;支持多種數(shù)據(jù)輸出格式,如MS Excel、CSV、XML等,支持?jǐn)?shù)據(jù)除雜和改造。VietSpider的應(yīng)用非常簡(jiǎn)單,所需專業(yè)知識(shí)較少,方便使用。

        另外一種方法是采用Heritrix + HtmlParser組合系統(tǒng)方法。Heritrix是一個(gè)純由JAVA開發(fā)的、開源的Web網(wǎng)絡(luò)爬蟲,用戶可以使用它從網(wǎng)絡(luò)上抓取想要的資源。Heritrix出色之處在于它的擴(kuò)展性,使用者可以擴(kuò)展它的各個(gè)組件,來實(shí)現(xiàn)自己的抓取邏輯。HtmlParser是一個(gè)用來解析HTML文件的JAVA包,主要用于轉(zhuǎn)化、抽取兩個(gè)方面。利用HtmlParser,可以實(shí)現(xiàn)文本抽取、鏈接抽取、資源抽取、鏈接檢查、站點(diǎn)檢查、URL重寫、廣告清除和將HTML頁面轉(zhuǎn)化為XML頁面[7]。

        從作者運(yùn)行效果來看,三種方法各有優(yōu)勢(shì)。總的而言,從便捷性和提取速率來看,VietSpider較HtmlAgilityPack+Xpath和Heritrix + HtmlParser有較大優(yōu)勢(shì);從存儲(chǔ)格式上看,HtmlAgilityPack+Xpath的存儲(chǔ)類型多樣,并更容易與數(shù)據(jù)庫結(jié)合;從靈活性而言,HtmlAgilityPack+Xpath和Heritrix+HtmlParser又較VietSpider簡(jiǎn)單,擴(kuò)展性較強(qiáng);從采集方式而言,Heritrix+HtmlParser需要分為兩步,而VietSpider和HtmlAgilityPack+Xpath采用的是在線采集方式,一步到位。因此,結(jié)合以上分析,作者最后采用HtmlAgilityPack+Xpath方式來實(shí)現(xiàn)WEB數(shù)據(jù)的在線采集。

        5 結(jié)語

        網(wǎng)絡(luò)信息采集技術(shù)屬于數(shù)據(jù)挖掘領(lǐng)域,是WEB數(shù)據(jù)挖掘研究的熱點(diǎn)。本研究中通過對(duì)網(wǎng)絡(luò)信息采集過程中URL地址查新技術(shù)、基于HtmlAgilityPack和Xpath的數(shù)據(jù)提取技術(shù)、模擬填充和自動(dòng)點(diǎn)擊功能,數(shù)據(jù)精加工等關(guān)鍵技術(shù)的介紹,為讀者提供了一種實(shí)用工具和研究思路。通過在教育技術(shù)資源網(wǎng)信息采集中的應(yīng)用,實(shí)現(xiàn)了在教育領(lǐng)域?qū)π畔⒉杉夹g(shù)的嘗試。同時(shí)通過對(duì)筆者在研究過程中嘗試的幾種方法的介紹和對(duì)比,方便讀者在以后的研究和工作,研究者可以采用適合自己的工具進(jìn)行相應(yīng)研究。

        參考文獻(xiàn)

        [1] 羅剛.使用C#開發(fā)搜索引擎[M].北京:清華大學(xué)出版社,2012:22-114.

        [2] 孟憲軍.互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2009:89-108.

        [3] 于滿全.面向人物追蹤的知識(shí)挖掘研究[D].北京:中國(guó)科學(xué)院計(jì)算技術(shù)研究所,2006:15-35.

        [4] webBrower控件實(shí)現(xiàn)winform和webpage交互[EB/EL].(2008-03-28)[2012-10-23].http://www.cnblogs.com/AganCN/archive/2008/03/28/1090737.html.

        [5] (美)Jeffrey E.F.Friedl.Mastering regular expressions[M].O'Reilly,2007:14-37.

        [6] VietSpider網(wǎng)站[EB/EL].(2012-03-13)[2012-10-19].http://binhgiang.sourceforge.net/webextractor.

        [7] 羅剛,王振東.自己動(dòng)手寫網(wǎng)絡(luò)爬蟲[M].北京:清華大學(xué)出版社,2010:24-36.endprint

        (1)“原始數(shù)據(jù)”中經(jīng)常出現(xiàn)諸如“?”、“&”等HTML文本,我們需要將這些占位符去除。

        (2)對(duì)于零散的原始信息,需要將其加工成規(guī)范格式,(例如新聞等信息,就要把標(biāo)題,作者,發(fā)布日期等信息統(tǒng)一為諸如:某單位.關(guān)于召開XXX技術(shù)應(yīng)用區(qū)域推進(jìn)研討會(huì)的通知[圖].2009-5-5.http://jyjs.e21.cn/e21web/content.php?acticle_id=489)

        (3)某些信息(比如作者信息,發(fā)布日期等)存在于一大段文字中的括號(hào)引號(hào)之內(nèi),或者在某些標(biāo)點(diǎn)符號(hào)(逗號(hào),冒號(hào))之后,需要用正則表達(dá)式定位目標(biāo)信息并將其進(jìn)一步抽取出來。此項(xiàng)涉及到自然語言處理等[5]。

        (4)對(duì)于圖片,PDF文檔,RAR壓縮包等文件,需要得到下載URL,然后導(dǎo)入下載程序進(jìn)行下載。

        3 系統(tǒng)實(shí)現(xiàn)

        為了驗(yàn)證上述所提方法的有效性,這里通過實(shí)現(xiàn)一個(gè)簡(jiǎn)單案例來證明。數(shù)據(jù)提取內(nèi)容為教育技術(shù)資源網(wǎng)(http://www.chinaret.com)下教育資訊欄目的信息。獲取的信息內(nèi)容主要是信息標(biāo)題和信息URL鏈接地址。

        首先加載WEB頁面,通過XX Encoding.GetBytes("gbk")設(shè)置編碼信息,然后定位目標(biāo)數(shù)據(jù)所在位置,這里用到了Xpath表達(dá)式XX.GetElementbyId("content"),實(shí)際獲得的值為http://www.chinaret.com/column.aspx?id=241/*[@id="content"],意思為獲取這個(gè)頁面下所有ID為"content"中的信息,接著通過SelectNodes()來判斷相應(yīng)代碼下是否包含要提取的信息,如本例中要提取的是鏈接信息,相應(yīng)的代碼就應(yīng)該表示為SelectNodes("http://a"),最后將Xpath表達(dá)是定位在要提取的數(shù)據(jù)節(jié)點(diǎn)上,提取節(jié)點(diǎn)信息,代碼為GetAttributeValue()。

        通過上述實(shí)驗(yàn)證明,采用本文所提出的技術(shù)能夠很好的來實(shí)現(xiàn)對(duì)WEB頁面信息的采集,可以應(yīng)用到教育技術(shù)領(lǐng)域,為教育信息采集服務(wù)。

        4 其他信息采集方法

        在本研究中,除了上述介紹的C#語言編寫的,采用HtmlAgilityPack+Xpath的采集方式外。還嘗試了其他兩種采用JAVA語音編寫的網(wǎng)絡(luò)信息采集方法。

        其中VietSpider HtmlParser是一個(gè)純JAVA的HTML DOM解析器,是一種開源的網(wǎng)絡(luò)數(shù)據(jù)采集器。它提供一個(gè)圖形化界面方便用戶使用,可以用于特定主題、目的的網(wǎng)絡(luò)信息搜索、采集和分類。其最大特色在于提供的圖形化界面,使得數(shù)據(jù)采集簡(jiǎn)單化,正如其口號(hào)所說:Getting Web Data={Clicks}[6]。其主要特色如下:采用web3.0爬蟲技術(shù),提出網(wǎng)站模板解析概念,網(wǎng)絡(luò)爬蟲可以為每一個(gè)站點(diǎn)提供代理和多線程配置;VietSpider服務(wù)器可以在Linux/Windows系統(tǒng)下運(yùn)行,管理員可以通過VietSpider的遠(yuǎn)程客戶端進(jìn)行管理;支持多種數(shù)據(jù)庫系統(tǒng),如:MySQL、MS SQL、ORACLE、Postgres、H2等;VietSpider提供了內(nèi)置瀏覽器功能,支持JavaScript解析;支持多種數(shù)據(jù)輸出格式,如MS Excel、CSV、XML等,支持?jǐn)?shù)據(jù)除雜和改造。VietSpider的應(yīng)用非常簡(jiǎn)單,所需專業(yè)知識(shí)較少,方便使用。

        另外一種方法是采用Heritrix + HtmlParser組合系統(tǒng)方法。Heritrix是一個(gè)純由JAVA開發(fā)的、開源的Web網(wǎng)絡(luò)爬蟲,用戶可以使用它從網(wǎng)絡(luò)上抓取想要的資源。Heritrix出色之處在于它的擴(kuò)展性,使用者可以擴(kuò)展它的各個(gè)組件,來實(shí)現(xiàn)自己的抓取邏輯。HtmlParser是一個(gè)用來解析HTML文件的JAVA包,主要用于轉(zhuǎn)化、抽取兩個(gè)方面。利用HtmlParser,可以實(shí)現(xiàn)文本抽取、鏈接抽取、資源抽取、鏈接檢查、站點(diǎn)檢查、URL重寫、廣告清除和將HTML頁面轉(zhuǎn)化為XML頁面[7]。

        從作者運(yùn)行效果來看,三種方法各有優(yōu)勢(shì)??偟亩裕瑥谋憬菪院吞崛∷俾蕘砜?,VietSpider較HtmlAgilityPack+Xpath和Heritrix + HtmlParser有較大優(yōu)勢(shì);從存儲(chǔ)格式上看,HtmlAgilityPack+Xpath的存儲(chǔ)類型多樣,并更容易與數(shù)據(jù)庫結(jié)合;從靈活性而言,HtmlAgilityPack+Xpath和Heritrix+HtmlParser又較VietSpider簡(jiǎn)單,擴(kuò)展性較強(qiáng);從采集方式而言,Heritrix+HtmlParser需要分為兩步,而VietSpider和HtmlAgilityPack+Xpath采用的是在線采集方式,一步到位。因此,結(jié)合以上分析,作者最后采用HtmlAgilityPack+Xpath方式來實(shí)現(xiàn)WEB數(shù)據(jù)的在線采集。

        5 結(jié)語

        網(wǎng)絡(luò)信息采集技術(shù)屬于數(shù)據(jù)挖掘領(lǐng)域,是WEB數(shù)據(jù)挖掘研究的熱點(diǎn)。本研究中通過對(duì)網(wǎng)絡(luò)信息采集過程中URL地址查新技術(shù)、基于HtmlAgilityPack和Xpath的數(shù)據(jù)提取技術(shù)、模擬填充和自動(dòng)點(diǎn)擊功能,數(shù)據(jù)精加工等關(guān)鍵技術(shù)的介紹,為讀者提供了一種實(shí)用工具和研究思路。通過在教育技術(shù)資源網(wǎng)信息采集中的應(yīng)用,實(shí)現(xiàn)了在教育領(lǐng)域?qū)π畔⒉杉夹g(shù)的嘗試。同時(shí)通過對(duì)筆者在研究過程中嘗試的幾種方法的介紹和對(duì)比,方便讀者在以后的研究和工作,研究者可以采用適合自己的工具進(jìn)行相應(yīng)研究。

        參考文獻(xiàn)

        [1] 羅剛.使用C#開發(fā)搜索引擎[M].北京:清華大學(xué)出版社,2012:22-114.

        [2] 孟憲軍.互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2009:89-108.

        [3] 于滿全.面向人物追蹤的知識(shí)挖掘研究[D].北京:中國(guó)科學(xué)院計(jì)算技術(shù)研究所,2006:15-35.

        [4] webBrower控件實(shí)現(xiàn)winform和webpage交互[EB/EL].(2008-03-28)[2012-10-23].http://www.cnblogs.com/AganCN/archive/2008/03/28/1090737.html.

        [5] (美)Jeffrey E.F.Friedl.Mastering regular expressions[M].O'Reilly,2007:14-37.

        [6] VietSpider網(wǎng)站[EB/EL].(2012-03-13)[2012-10-19].http://binhgiang.sourceforge.net/webextractor.

        [7] 羅剛,王振東.自己動(dòng)手寫網(wǎng)絡(luò)爬蟲[M].北京:清華大學(xué)出版社,2010:24-36.endprint

        (1)“原始數(shù)據(jù)”中經(jīng)常出現(xiàn)諸如“?”、“&”等HTML文本,我們需要將這些占位符去除。

        (2)對(duì)于零散的原始信息,需要將其加工成規(guī)范格式,(例如新聞等信息,就要把標(biāo)題,作者,發(fā)布日期等信息統(tǒng)一為諸如:某單位.關(guān)于召開XXX技術(shù)應(yīng)用區(qū)域推進(jìn)研討會(huì)的通知[圖].2009-5-5.http://jyjs.e21.cn/e21web/content.php?acticle_id=489)

        (3)某些信息(比如作者信息,發(fā)布日期等)存在于一大段文字中的括號(hào)引號(hào)之內(nèi),或者在某些標(biāo)點(diǎn)符號(hào)(逗號(hào),冒號(hào))之后,需要用正則表達(dá)式定位目標(biāo)信息并將其進(jìn)一步抽取出來。此項(xiàng)涉及到自然語言處理等[5]。

        (4)對(duì)于圖片,PDF文檔,RAR壓縮包等文件,需要得到下載URL,然后導(dǎo)入下載程序進(jìn)行下載。

        3 系統(tǒng)實(shí)現(xiàn)

        為了驗(yàn)證上述所提方法的有效性,這里通過實(shí)現(xiàn)一個(gè)簡(jiǎn)單案例來證明。數(shù)據(jù)提取內(nèi)容為教育技術(shù)資源網(wǎng)(http://www.chinaret.com)下教育資訊欄目的信息。獲取的信息內(nèi)容主要是信息標(biāo)題和信息URL鏈接地址。

        首先加載WEB頁面,通過XX Encoding.GetBytes("gbk")設(shè)置編碼信息,然后定位目標(biāo)數(shù)據(jù)所在位置,這里用到了Xpath表達(dá)式XX.GetElementbyId("content"),實(shí)際獲得的值為http://www.chinaret.com/column.aspx?id=241/*[@id="content"],意思為獲取這個(gè)頁面下所有ID為"content"中的信息,接著通過SelectNodes()來判斷相應(yīng)代碼下是否包含要提取的信息,如本例中要提取的是鏈接信息,相應(yīng)的代碼就應(yīng)該表示為SelectNodes("http://a"),最后將Xpath表達(dá)是定位在要提取的數(shù)據(jù)節(jié)點(diǎn)上,提取節(jié)點(diǎn)信息,代碼為GetAttributeValue()。

        通過上述實(shí)驗(yàn)證明,采用本文所提出的技術(shù)能夠很好的來實(shí)現(xiàn)對(duì)WEB頁面信息的采集,可以應(yīng)用到教育技術(shù)領(lǐng)域,為教育信息采集服務(wù)。

        4 其他信息采集方法

        在本研究中,除了上述介紹的C#語言編寫的,采用HtmlAgilityPack+Xpath的采集方式外。還嘗試了其他兩種采用JAVA語音編寫的網(wǎng)絡(luò)信息采集方法。

        其中VietSpider HtmlParser是一個(gè)純JAVA的HTML DOM解析器,是一種開源的網(wǎng)絡(luò)數(shù)據(jù)采集器。它提供一個(gè)圖形化界面方便用戶使用,可以用于特定主題、目的的網(wǎng)絡(luò)信息搜索、采集和分類。其最大特色在于提供的圖形化界面,使得數(shù)據(jù)采集簡(jiǎn)單化,正如其口號(hào)所說:Getting Web Data={Clicks}[6]。其主要特色如下:采用web3.0爬蟲技術(shù),提出網(wǎng)站模板解析概念,網(wǎng)絡(luò)爬蟲可以為每一個(gè)站點(diǎn)提供代理和多線程配置;VietSpider服務(wù)器可以在Linux/Windows系統(tǒng)下運(yùn)行,管理員可以通過VietSpider的遠(yuǎn)程客戶端進(jìn)行管理;支持多種數(shù)據(jù)庫系統(tǒng),如:MySQL、MS SQL、ORACLE、Postgres、H2等;VietSpider提供了內(nèi)置瀏覽器功能,支持JavaScript解析;支持多種數(shù)據(jù)輸出格式,如MS Excel、CSV、XML等,支持?jǐn)?shù)據(jù)除雜和改造。VietSpider的應(yīng)用非常簡(jiǎn)單,所需專業(yè)知識(shí)較少,方便使用。

        另外一種方法是采用Heritrix + HtmlParser組合系統(tǒng)方法。Heritrix是一個(gè)純由JAVA開發(fā)的、開源的Web網(wǎng)絡(luò)爬蟲,用戶可以使用它從網(wǎng)絡(luò)上抓取想要的資源。Heritrix出色之處在于它的擴(kuò)展性,使用者可以擴(kuò)展它的各個(gè)組件,來實(shí)現(xiàn)自己的抓取邏輯。HtmlParser是一個(gè)用來解析HTML文件的JAVA包,主要用于轉(zhuǎn)化、抽取兩個(gè)方面。利用HtmlParser,可以實(shí)現(xiàn)文本抽取、鏈接抽取、資源抽取、鏈接檢查、站點(diǎn)檢查、URL重寫、廣告清除和將HTML頁面轉(zhuǎn)化為XML頁面[7]。

        從作者運(yùn)行效果來看,三種方法各有優(yōu)勢(shì)??偟亩?,從便捷性和提取速率來看,VietSpider較HtmlAgilityPack+Xpath和Heritrix + HtmlParser有較大優(yōu)勢(shì);從存儲(chǔ)格式上看,HtmlAgilityPack+Xpath的存儲(chǔ)類型多樣,并更容易與數(shù)據(jù)庫結(jié)合;從靈活性而言,HtmlAgilityPack+Xpath和Heritrix+HtmlParser又較VietSpider簡(jiǎn)單,擴(kuò)展性較強(qiáng);從采集方式而言,Heritrix+HtmlParser需要分為兩步,而VietSpider和HtmlAgilityPack+Xpath采用的是在線采集方式,一步到位。因此,結(jié)合以上分析,作者最后采用HtmlAgilityPack+Xpath方式來實(shí)現(xiàn)WEB數(shù)據(jù)的在線采集。

        5 結(jié)語

        網(wǎng)絡(luò)信息采集技術(shù)屬于數(shù)據(jù)挖掘領(lǐng)域,是WEB數(shù)據(jù)挖掘研究的熱點(diǎn)。本研究中通過對(duì)網(wǎng)絡(luò)信息采集過程中URL地址查新技術(shù)、基于HtmlAgilityPack和Xpath的數(shù)據(jù)提取技術(shù)、模擬填充和自動(dòng)點(diǎn)擊功能,數(shù)據(jù)精加工等關(guān)鍵技術(shù)的介紹,為讀者提供了一種實(shí)用工具和研究思路。通過在教育技術(shù)資源網(wǎng)信息采集中的應(yīng)用,實(shí)現(xiàn)了在教育領(lǐng)域?qū)π畔⒉杉夹g(shù)的嘗試。同時(shí)通過對(duì)筆者在研究過程中嘗試的幾種方法的介紹和對(duì)比,方便讀者在以后的研究和工作,研究者可以采用適合自己的工具進(jìn)行相應(yīng)研究。

        參考文獻(xiàn)

        [1] 羅剛.使用C#開發(fā)搜索引擎[M].北京:清華大學(xué)出版社,2012:22-114.

        [2] 孟憲軍.互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2009:89-108.

        [3] 于滿全.面向人物追蹤的知識(shí)挖掘研究[D].北京:中國(guó)科學(xué)院計(jì)算技術(shù)研究所,2006:15-35.

        [4] webBrower控件實(shí)現(xiàn)winform和webpage交互[EB/EL].(2008-03-28)[2012-10-23].http://www.cnblogs.com/AganCN/archive/2008/03/28/1090737.html.

        [5] (美)Jeffrey E.F.Friedl.Mastering regular expressions[M].O'Reilly,2007:14-37.

        [6] VietSpider網(wǎng)站[EB/EL].(2012-03-13)[2012-10-19].http://binhgiang.sourceforge.net/webextractor.

        [7] 羅剛,王振東.自己動(dòng)手寫網(wǎng)絡(luò)爬蟲[M].北京:清華大學(xué)出版社,2010:24-36.endprint

        猜你喜歡
        信息采集應(yīng)用教育
        國(guó)外教育奇趣
        題解教育『三問』
        教育有道——關(guān)于閩派教育的一點(diǎn)思考
        辦好人民滿意的首都教育
        如何提高卷煙零售市場(chǎng)信息采集的有效性
        計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)在信息工程中的應(yīng)用
        電力信息采集系統(tǒng)中對(duì)載波現(xiàn)場(chǎng)測(cè)試儀的應(yīng)用
        用電信息采集系統(tǒng)安全防護(hù)
        GM(1,1)白化微分優(yōu)化方程預(yù)測(cè)模型建模過程應(yīng)用分析
        科技視界(2016年20期)2016-09-29 12:03:12
        煤礦井下坑道鉆機(jī)人機(jī)工程學(xué)應(yīng)用分析
        科技視界(2016年20期)2016-09-29 11:47:01
        精品国产a∨无码一区二区三区| 国产的自拍av免费的在线观看 | 亚洲无av高清一区不卡| 人妻少妇被粗大爽视频| 亚洲中国精品精华液| 国产午夜福利片| 精品久久久久久久久久久aⅴ| 欧美巨大xxxx做受中文字幕| 国产久久久自拍视频在线观看| 国产精品人成在线观看免费| 少妇激情一区二区三区视频| 激情久久av一区av二区av三区| 亚洲中字幕永久在线观看| 亚洲情精品中文字幕99在线| 国产一级二级三级在线观看视频| 国产精品无码无在线观看| 九九视频在线观看视频6| 国产亚洲精选美女久久久久 | 国产精品污一区二区三区在线观看| 少妇高潮久久蜜柚av| 人人妻人人澡人人爽欧美一区双| 亚洲精品久久久久久久久av无码| 日本高清一区二区不卡视频| 国产精品久久熟女吞精| 国产一区二区三区久久悠悠色av| 白丝兔女郎m开腿sm调教室| 婷婷四房色播| 免费国产在线精品三区| 日本一区二区三区四区啪啪啪| 无码爆乳护士让我爽| 欧美mv日韩mv国产网站| 日本成熟妇人高潮aⅴ| 成人做爰黄片视频蘑菇视频| 亚洲中文字幕久久精品蜜桃| 乱人伦视频中文字幕| 国产亚洲美女精品久久久2020| 久久人妻少妇嫩草av蜜桃| 亚洲av日韩av永久无码下载| 精品久久久久久中文字幕| 国产黄片一区视频在线观看| 日本按摩偷拍在线观看|