摘 要:本文對(duì)web信息采集系統(tǒng)進(jìn)行需求分析,描述了系統(tǒng)具有的功能,并分析了系統(tǒng)的功能需求和非功能需求。
關(guān)鍵詞:需求;信息;采集
中圖分類(lèi)號(hào):TP274.2
采用人工方式使用瀏覽器復(fù)制粘貼實(shí)現(xiàn)web信息的采集,效率低、錯(cuò)誤率高。如果采集的信息量大,人工方式根本無(wú)法完成。采用web信息采集系統(tǒng)實(shí)現(xiàn)web信息的采集與處理是較好的解決問(wèn)題的辦法。
1 需求概述
開(kāi)發(fā)web信息采集系統(tǒng)的目的是滿(mǎn)足用戶(hù)從多個(gè)指定網(wǎng)站自動(dòng)定時(shí)地采集文章的信息,包括文章標(biāo)題、正文、作者、時(shí)間、來(lái)源等,并且能夠分類(lèi)存儲(chǔ)信息,以滿(mǎn)足信息再利用的目標(biāo)。信息采集程序不能預(yù)測(cè)和獲取用戶(hù)的準(zhǔn)確需求,所以系統(tǒng)應(yīng)提供給用戶(hù)提交需求的平臺(tái),通過(guò)此平臺(tái)用戶(hù)可以及時(shí)提交采集任務(wù),告訴采集系統(tǒng)采集什么樣的數(shù)據(jù)。
Web信息采集系統(tǒng)分為采集配置和采集兩個(gè)子系統(tǒng)。如圖一所示。
圖1 web信息采集系統(tǒng)組成
采集配置子系統(tǒng)是為了滿(mǎn)足普通用戶(hù)提交采集需求的。用戶(hù)通過(guò)子系統(tǒng)配置目標(biāo)信息的采集任務(wù),包括文章的發(fā)布狀態(tài)、站點(diǎn)名稱(chēng)地址、所屬欄目、采集時(shí)間、采集規(guī)則等多項(xiàng)要求,采集配置子系統(tǒng)還能夠及時(shí)開(kāi)啟和停止采集任務(wù)的執(zhí)行。
采集子系統(tǒng)完成具體的信息采集工作。它根據(jù)采集配置子系統(tǒng)對(duì)采集任務(wù)的設(shè)置,自動(dòng)對(duì)網(wǎng)站信息進(jìn)行采集、抽取、去重,從網(wǎng)頁(yè)中抽取大量非結(jié)構(gòu)化的信息保存到結(jié)構(gòu)化的數(shù)據(jù)庫(kù)中。
2 功能需求
Web信息采集系統(tǒng)功能如圖二所示。
圖2 web信息采集系統(tǒng)功能結(jié)構(gòu)圖
采集配置子系統(tǒng)主要完成以下功能:
(1)采集任務(wù)管理
實(shí)現(xiàn)用戶(hù)對(duì)采集任務(wù)的增刪改查操作,每一條采集任務(wù)對(duì)應(yīng)一個(gè)現(xiàn)有欄目,以實(shí)現(xiàn)采集內(nèi)容的分類(lèi)、處理、存儲(chǔ)。
(2)自動(dòng)生成抽取規(guī)則
用戶(hù)選擇采集數(shù)據(jù)項(xiàng),系統(tǒng)即可自動(dòng)智能生成相應(yīng)的數(shù)據(jù)抽取規(guī)則。當(dāng)配置網(wǎng)頁(yè)發(fā)生變化時(shí),抽取規(guī)則需重新生成。
(3)定制去噪去重規(guī)則
從網(wǎng)頁(yè)獲取到的大量信息中,可能存在用戶(hù)不需要的信息,也有重復(fù)性的內(nèi)容,這些信息和內(nèi)容會(huì)干擾抽取內(nèi)容的排版及使用,需要對(duì)這類(lèi)信息進(jìn)行去噪去重處理。
(4)采集任務(wù)開(kāi)啟停止
采集任務(wù)可以及時(shí)開(kāi)啟和停止運(yùn)行,采集任務(wù)配置完成后可以及時(shí)加入采集子系統(tǒng)進(jìn)行信息采集工作。
采集子系統(tǒng)主要完成以下功能:
(1)動(dòng)態(tài)采集信息
用戶(hù)對(duì)網(wǎng)頁(yè)信息的采集要求有很高的時(shí)效性,比如對(duì)新聞資訊的采集,如果不能及時(shí)反饋給用戶(hù),即使是價(jià)值很高的信息,也失去了它的意義和價(jià)值。所以對(duì)信息能夠?qū)崿F(xiàn)動(dòng)態(tài)采集就很重要,系統(tǒng)應(yīng)具備動(dòng)態(tài)采集機(jī)制可以實(shí)現(xiàn)定時(shí)對(duì)網(wǎng)站內(nèi)容進(jìn)行自動(dòng)檢測(cè),及時(shí)獲取網(wǎng)站最新信息。
(2)運(yùn)行監(jiān)控
因?yàn)樾畔⒉杉^(guò)程是動(dòng)態(tài)運(yùn)行,所以系統(tǒng)應(yīng)及時(shí)監(jiān)控采集任務(wù)的運(yùn)行情況。信息采集出現(xiàn)問(wèn)題,系統(tǒng)應(yīng)及時(shí)發(fā)現(xiàn)并反饋給用戶(hù),由用戶(hù)根據(jù)問(wèn)題出現(xiàn)的類(lèi)別做相應(yīng)處理。
3 非功能需求
除了實(shí)現(xiàn)web信息采集的功能需求,系統(tǒng)還應(yīng)該滿(mǎn)足用戶(hù)以下非功能需求:
(1)準(zhǔn)確性
如何從繁復(fù)復(fù)雜的浩瀚信息海洋里準(zhǔn)確獲取到用戶(hù)需要的信息,是系統(tǒng)設(shè)計(jì)時(shí)需要重點(diǎn)考慮的問(wèn)題。只有能夠準(zhǔn)確獲取信息才能實(shí)現(xiàn)用戶(hù)對(duì)有效信息的再利用。
(2)高效性
信息采集系統(tǒng)能夠從眾多站點(diǎn)獲取信息,但用戶(hù)需要最短時(shí)間準(zhǔn)確獲取自己所需要的信息,所以及時(shí)高效的把有效信息呈送到用戶(hù)面前,是系統(tǒng)功能是否滿(mǎn)足用戶(hù)需求的一個(gè)必要的方面。
(3)易用性
系統(tǒng)使用的最終客戶(hù)是普通的用戶(hù),因此系統(tǒng)使用界面應(yīng)簡(jiǎn)單易用,采集任務(wù)的規(guī)則配置也應(yīng)該經(jīng)過(guò)簡(jiǎn)單培訓(xùn)后就能靈活掌握。
(4)穩(wěn)定性
在進(jìn)行采集配置時(shí),不合理的配置規(guī)則系統(tǒng)能夠及時(shí)給出提示信息。信息采集過(guò)程中,對(duì)于不符合規(guī)范的采集配置要求,系統(tǒng)應(yīng)能夠及時(shí)糾正。長(zhǎng)期使用系統(tǒng)應(yīng)不斷修正以滿(mǎn)足長(zhǎng)期穩(wěn)定地工作。
Web信息采集系統(tǒng)能夠在用戶(hù)的簡(jiǎn)單配置下實(shí)現(xiàn)信息源內(nèi)容的自動(dòng)采集,為信息的再利用提供了技術(shù)保障。
參考文獻(xiàn):
[1]中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.第31次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].http://www.cnnic.cn/gywm/shzr/shzrdt/20130l/t20130115—38518.htm,2013.
[2]蔡智澄,王志華.搜索引擎的主要特點(diǎn)及其檢索策略[J].現(xiàn)代情報(bào),2005.
[3]李春旺.信息主題采集技術(shù)研究[J].圖書(shū)情報(bào)工作,2005.
[4]陳少飛,郝亞南,李天柱.信息抽取技術(shù)研究進(jìn)展[J].河北大學(xué)學(xué)報(bào)(自然科學(xué)版),2003.
[5]宮進(jìn),胡長(zhǎng)軍,曾廣平.互聯(lián)網(wǎng)信息定向采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用,2007.
作者簡(jiǎn)介:杜素芳(1975-),女,河南濮陽(yáng)人,講師,碩士,研究方向:軟件工程。
作者單位:濮陽(yáng)職業(yè)技術(shù)學(xué)院,河南濮陽(yáng) 457000