黃政,張學(xué)福
(中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081)
一種基于網(wǎng)頁(yè)信息抽取的OA期刊資源采集方法研究
黃政,張學(xué)福
(中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081)
本文結(jié)合開(kāi)放獲取期刊(Open Access Journal,OA期刊)資源特點(diǎn),針對(duì)無(wú)法通過(guò)OAI-PMH協(xié)議進(jìn)行資源采集的OA期刊,提出一種基于網(wǎng)頁(yè)信息抽取的資源采集策略。本文從網(wǎng)頁(yè)資源描述的角度總結(jié)OA期刊資源特點(diǎn)并對(duì)其分類(lèi)?;诰W(wǎng)頁(yè)信息抽取方法在OA期刊資源采集適用性,提出一種基于OA期刊網(wǎng)頁(yè)元數(shù)據(jù)抽取的采集方法,并在此方法的基礎(chǔ)上設(shè)計(jì)了采集系統(tǒng)。通過(guò)對(duì)國(guó)內(nèi)外不遵循OAI-PMH協(xié)議的10本OA期刊的網(wǎng)站實(shí)證采集,得到45 785篇論文的元數(shù)據(jù),證明該采集方法能有效地應(yīng)用于此類(lèi)資源采集。研究豐富了OA期刊資源采集方式,對(duì)不遵循OAI-PMH協(xié)議的OA期刊資源采集提供方法借鑒。
OA期刊;OA期刊資源采集;網(wǎng)頁(yè)信息采集;OA期刊資源采集系統(tǒng)
開(kāi)放獲取期刊(Open Access Journal,OA期刊)是經(jīng)過(guò)同行評(píng)審,且在網(wǎng)絡(luò)上可免費(fèi)獲取的期刊。OA期刊資源主要包括期刊元數(shù)據(jù)、論文元數(shù)據(jù)以及論文全文等。該類(lèi)資源分布廣泛,且經(jīng)過(guò)同行評(píng)審,具有重要的學(xué)術(shù)價(jià)值。目前,OA期刊資源采集方法主要有兩種:一種是針對(duì)遵循OAI-PMH協(xié)議的OA期刊,采用OAIPMH協(xié)議的方法對(duì)資源進(jìn)行采集,該方法在此類(lèi)資源采集應(yīng)用中較成熟;另一種是對(duì)于部分不遵循OAIPMH協(xié)議的OA期刊,通常采用網(wǎng)頁(yè)信息抽取方法。然而,由于OA期刊資源在網(wǎng)頁(yè)中存在組織形式不一、揭示粒度多變,且網(wǎng)頁(yè)結(jié)構(gòu)變化多樣等特點(diǎn),這為此類(lèi)期刊資源采集帶來(lái)了一定挑戰(zhàn)。本文將從OA期刊資源特點(diǎn)出發(fā),對(duì)網(wǎng)頁(yè)信息采集方法和采集工具在OA期刊資源采集中的適用性進(jìn)行對(duì)比分析,針對(duì)無(wú)法通過(guò)OAIPMH協(xié)議進(jìn)行資源采集的OA期刊,提出一種基于網(wǎng)頁(yè)信息抽取的資源采集策略。以期既能豐富OA期刊資源采集方式,也能對(duì)不遵循OAI-PMH協(xié)議的OA期刊資源采集提供指導(dǎo),提高資源采集效率。
OA期刊資源采集的研究現(xiàn)狀可以從網(wǎng)頁(yè)信息采集、開(kāi)放獲取資源采集和OA期刊資源采集三個(gè)角度進(jìn)行分析。
在網(wǎng)頁(yè)信息采集方面,根據(jù)采集包裝器形成方式將采集方法分為:(1)基于自然語(yǔ)言處理的網(wǎng)頁(yè)信息抽取,即將網(wǎng)頁(yè)信息作為文本,使用自然語(yǔ)言處理技術(shù)來(lái)抽取網(wǎng)頁(yè)信息;(2)基于本體的網(wǎng)頁(yè)信息抽取,即將網(wǎng)頁(yè)正文信息與構(gòu)建的本體集進(jìn)行比較并計(jì)算相關(guān)度,從中抽取相關(guān)度高的信息;(3)基于包裝器歸納方式的網(wǎng)頁(yè)信息抽取,即對(duì)有標(biāo)注的樣本網(wǎng)頁(yè)采用機(jī)器學(xué)習(xí)算法來(lái)歸納抽取規(guī)則,并利用該規(guī)則抽取其他網(wǎng)頁(yè)信息;(4)基于HTML頁(yè)面結(jié)構(gòu)分析的網(wǎng)頁(yè)信息抽取,即將網(wǎng)頁(yè)解析為結(jié)構(gòu)樹(shù),對(duì)比多個(gè)網(wǎng)頁(yè),進(jìn)而構(gòu)建抽取信息的正則表達(dá)式采集網(wǎng)頁(yè)中的信息;(5)基于Web查詢(xún)的網(wǎng)頁(yè)信息抽取,即先將網(wǎng)頁(yè)進(jìn)行解析,再使用類(lèi)似數(shù)據(jù)庫(kù)查詢(xún)語(yǔ)句對(duì)網(wǎng)頁(yè)信息進(jìn)行采集[1-4]。
在開(kāi)放獲取資源采集方面,有學(xué)者對(duì)不同類(lèi)型的開(kāi)放獲取資源采集進(jìn)行了研究。朱江等研究開(kāi)放會(huì)議資源采集,利用用戶(hù)推薦和人工收集方式對(duì)Web環(huán)境下的開(kāi)放會(huì)議資源進(jìn)行采集,采用文本識(shí)別的方式抽取非結(jié)構(gòu)化文本格式的會(huì)議文獻(xiàn)開(kāi)放資源[5];王思麗等根據(jù)開(kāi)放知識(shí)資源的不同數(shù)據(jù)來(lái)源提出不同的自動(dòng)采集策略,包括基于OAI-PMH協(xié)議的元數(shù)據(jù)采集策略、基于抽取動(dòng)態(tài)網(wǎng)頁(yè)的元數(shù)據(jù)采集策略和基于解析RSS源接口的元數(shù)據(jù)采集策略[6]。對(duì)開(kāi)放獲取資源采集方法的研究也越來(lái)越全面和深入,對(duì)所采集資源從一概而論變?yōu)榉诸?lèi)制定采集策略,開(kāi)放資源采集方法研究逐步從人工采集過(guò)渡到自動(dòng)采集。除方法層面的研究外,有學(xué)者也從系統(tǒng)層面展開(kāi)研究。宋辰對(duì)科技情報(bào)采集系統(tǒng)進(jìn)行研究,指出當(dāng)前科技情報(bào)采集工具難以滿足情報(bào)資源采集需求的原因之一在于收費(fèi)系統(tǒng)需要花費(fèi)大量財(cái)力和人力,并且系統(tǒng)使用和維護(hù)困難[7]。
在OA期刊資源采集方面,基于OAI-PMH協(xié)議的元數(shù)據(jù)采集方法對(duì)于主要局限于遵循OAI-PMH協(xié)議的OA期刊,資源采集的應(yīng)用已十分成熟[8-12]。針對(duì)OA期刊網(wǎng)頁(yè)中展示的資源主要是先通過(guò)人工分析網(wǎng)頁(yè)結(jié)構(gòu),再使用網(wǎng)頁(yè)解析工具來(lái)對(duì)資源進(jìn)行采集[13],該方法主要以人工考察分析網(wǎng)頁(yè)結(jié)構(gòu)為主,需要采集者具有一定的計(jì)算機(jī)專(zhuān)業(yè)背景,而且工作量大,不適合對(duì)大量期刊資源采集。OA期刊資源屬于網(wǎng)絡(luò)資源的一種,對(duì)不遵循OAI-PMH協(xié)議的OA期刊,可以借鑒網(wǎng)頁(yè)信息采集方法。文本將從網(wǎng)頁(yè)信息采集的角度出發(fā),結(jié)合OA期刊資源特點(diǎn),對(duì)不遵循OAI-PMH協(xié)議的OA期刊資源采集策略進(jìn)行研究,以滿足此類(lèi)OA期刊資源采集需求。
2.1 OA期刊資源的特點(diǎn)與分類(lèi)
OA期刊分為遵循OAI-PMH協(xié)議和不遵循OAIPMH協(xié)議兩種,但所有的OA期刊都是通過(guò)網(wǎng)頁(yè)對(duì)資源進(jìn)行描述和展示,且描述和展示的方式差異較小,故本文分析的OA期刊資源特點(diǎn)適用于所有類(lèi)型。
2.1.1 OA期刊資源的特點(diǎn)
(1)描述粒度細(xì)。OA期刊資源的元數(shù)據(jù)包含眾多字段,如文章標(biāo)題、中英文關(guān)鍵詞、中英文摘要、作者、機(jī)構(gòu)、期刊名、年、卷、期等。相比于其他網(wǎng)絡(luò)資源,OA期刊資源元數(shù)據(jù)描述粒度更細(xì)。
(2)展現(xiàn)形式多樣。OA期刊資源的元數(shù)據(jù)字段眾多,而這些字段通常是以不同的組織形式展現(xiàn)在網(wǎng)頁(yè)中。部分元數(shù)據(jù)字段在網(wǎng)頁(yè)中是按照單個(gè)字段進(jìn)行展示,如文章標(biāo)題、摘要等;而部分元數(shù)據(jù)是多個(gè)字段組合成一條文本信息進(jìn)行展示,如文章的年、卷、期。
(3)描述載體結(jié)構(gòu)多變。在對(duì)國(guó)內(nèi)OA期刊資源調(diào)研過(guò)程中發(fā)現(xiàn),部分OA期刊網(wǎng)站的資源展示頁(yè)面,在不同時(shí)期采用不同的網(wǎng)頁(yè)模板。在結(jié)構(gòu)發(fā)生變化的開(kāi)放獲取資源網(wǎng)站中,一般會(huì)存在1—3套不等的網(wǎng)頁(yè)模板;而其他網(wǎng)絡(luò)資源,如電商平臺(tái)、論壇等通常采用統(tǒng)一的網(wǎng)頁(yè)模板。
2.1.2 OA期刊資源分類(lèi)
OA期刊資源以不同的組織形式在不同網(wǎng)頁(yè)中進(jìn)行展示,本文根據(jù)OA期刊資源在網(wǎng)頁(yè)中的組織形式,將其分為單一型資源和組合型資源。
單一型資源指網(wǎng)頁(yè)中一個(gè)HTML標(biāo)簽僅展示一個(gè)元數(shù)據(jù)字段信息的資源,如期刊名稱(chēng)、文章標(biāo)題、摘要、關(guān)鍵詞、全文獲取鏈接等。此類(lèi)資源信息揭示簡(jiǎn)單明了、層次清晰。
組合型資源指網(wǎng)頁(yè)中一個(gè)HTML標(biāo)簽封裝多個(gè)期刊元數(shù)據(jù)字段信息的資源,多個(gè)字段通常是組合成一個(gè)文本信息進(jìn)行展示,如期刊的年、卷、期字段等。組合型資源的文本信息由固定字段按照一定的形式組合而成,具有一定的結(jié)構(gòu)性,為半結(jié)構(gòu)化文本。
2.2 現(xiàn)有網(wǎng)頁(yè)信息采集方法的特點(diǎn)及適用性分析
2.2.1 現(xiàn)有網(wǎng)頁(yè)信息采集方法特點(diǎn)分析
現(xiàn)有網(wǎng)頁(yè)信息采集方法主要分為基于自然語(yǔ)言處理的網(wǎng)頁(yè)信息抽取、基于本體的網(wǎng)頁(yè)信息抽取、基于包裝器歸納方式的網(wǎng)頁(yè)信息抽取、基于HTML頁(yè)面結(jié)構(gòu)分析的網(wǎng)頁(yè)信息抽取以及基于Web查詢(xún)的網(wǎng)頁(yè)信息抽取。5種采集方法特點(diǎn)對(duì)比分析結(jié)果如表1所示。
由表1可見(jiàn),5種網(wǎng)頁(yè)信息采集方法采用不同方式來(lái)保證資源采集的準(zhǔn)確性。如基于包裝器歸納方式的網(wǎng)頁(yè)信息抽取方法需要對(duì)樣本進(jìn)行標(biāo)注,通過(guò)機(jī)器學(xué)習(xí)歸納抽取規(guī)則來(lái)提高采集準(zhǔn)確率;基于Web查詢(xún)的網(wǎng)頁(yè)信息抽取方法通過(guò)對(duì)網(wǎng)頁(yè)分析,編寫(xiě)合適查詢(xún)語(yǔ)句來(lái)準(zhǔn)確定位頁(yè)面中資源。不同的Web信息采集方法由于采集方式不同,適用于不同類(lèi)型的網(wǎng)頁(yè)資源采集。如基于自然語(yǔ)言處理的網(wǎng)頁(yè)信息抽取方法適用于大量文本信息抽取,基于本體的網(wǎng)頁(yè)信息抽取方法適用于特定領(lǐng)域的信息抽取。
表1 5種網(wǎng)頁(yè)信息采集方法特點(diǎn)對(duì)比分析
2.2.2 網(wǎng)頁(yè)信息采集方法對(duì)OA期刊資源采集的適用性分析
與傳統(tǒng)網(wǎng)頁(yè)信息采集不同的是,OA期刊資源采集更注重網(wǎng)頁(yè)內(nèi)部元數(shù)據(jù)的過(guò)濾和抽取,網(wǎng)頁(yè)元素采集準(zhǔn)確率是衡量采集方法適用性的基本指標(biāo)。每本OA期刊的網(wǎng)頁(yè)結(jié)構(gòu)各不相同,因此采集方法需要具有很好的靈活性,以應(yīng)對(duì)不同網(wǎng)頁(yè)結(jié)構(gòu)的OA期刊資源采集。單一型資源采集類(lèi)似于普通網(wǎng)頁(yè)元數(shù)據(jù)采集,僅抽取網(wǎng)頁(yè)標(biāo)簽對(duì)封裝的信息;而組合型資源除抽取網(wǎng)頁(yè)標(biāo)簽對(duì)封裝的文本信息外,還需要對(duì)文本信息進(jìn)一步采集,抽取文本信息中的單個(gè)資源信息。因此,文本信息抽取是采集OA期刊資源組合型元數(shù)據(jù)資源的主要方式。綜合而言,采集準(zhǔn)確率和方法靈活性是衡量方法適用性的基礎(chǔ),而文本信息處理是全面采集OA期刊資源的衡量指標(biāo)。通過(guò)對(duì)5種網(wǎng)頁(yè)信息采集方法特點(diǎn)以及優(yōu)缺點(diǎn)分析,結(jié)合5種方法在OA期刊資源采集上的應(yīng)用,對(duì)5種方法適用性對(duì)比分析如表2所示。
表2 5種網(wǎng)頁(yè)信息采集方法適用性對(duì)比分析
通過(guò)對(duì)5種網(wǎng)頁(yè)信息采集方法的適用性分析,得出兩個(gè)結(jié)論。(1)現(xiàn)有主要的網(wǎng)頁(yè)信息采集方法無(wú)法單獨(dú)完成OA期刊資源采集工作?;赪eb查詢(xún)的網(wǎng)頁(yè)信息抽取方法具備采集準(zhǔn)確率和方法靈活性特征,但無(wú)法對(duì)文本信息進(jìn)行處理。而其他4種方法無(wú)法兼?zhèn)洳杉瘻?zhǔn)確率和方法靈活性。在文本信息處理方面,雖然基于本體的網(wǎng)頁(yè)信息抽取方法和基于包裝器歸納方式的網(wǎng)頁(yè)信息采集方法通過(guò)構(gòu)造本體集或構(gòu)造包裝器能夠?qū)ξ谋局械男畔⒊槿?但基于自然語(yǔ)言處理的信息抽取方法能更靈活、準(zhǔn)確地抽取文本信息。(2)OA期刊資源采集方法需要綜合網(wǎng)頁(yè)信息采集方法的功能。雖然現(xiàn)有網(wǎng)頁(yè)信息采集方法無(wú)法完成OA期刊資源的完整性采集,但基于Web查詢(xún)的網(wǎng)頁(yè)信息抽取方法和基于自然語(yǔ)言處理的網(wǎng)頁(yè)信息抽取方法分別具備OA期刊資源采集的基礎(chǔ)性指標(biāo)和全面性指標(biāo),OA期刊資源采集方法需要綜合這兩種Web信息采集方法的功能,實(shí)現(xiàn)OA期刊資源靈活、準(zhǔn)確和全面地采集。
2.3 基于網(wǎng)頁(yè)信息抽取的OA期刊資源采集方法
通過(guò)分析5種網(wǎng)頁(yè)信息采集方法的特征,以及各方法在OA期刊資源采集的適用性,認(rèn)為OA期刊資源采集方法需要集成Web查詢(xún)和自然語(yǔ)言處理兩種網(wǎng)頁(yè)信息資源采集方法的功能?;诰W(wǎng)頁(yè)信息抽取的OA期刊資源采集方法如圖1所示。
圖1 基于網(wǎng)頁(yè)信息抽取的OA期刊資源采集方法
網(wǎng)頁(yè)元素采集指對(duì)OA期刊網(wǎng)頁(yè)中的單一型資源和組合型資源的文本信息進(jìn)行采集。這些文本信息封裝在HTML標(biāo)簽對(duì)中,屬于網(wǎng)頁(yè)元素。OA期刊資源采集需要靈活、準(zhǔn)確地采集OA期刊網(wǎng)頁(yè)中的元素。借鑒Web信息采集方法思想,將網(wǎng)頁(yè)元素采集具體分為三個(gè)步驟:首先,將網(wǎng)頁(yè)解析成DOM樹(shù)結(jié)構(gòu);其次,解析出待采集網(wǎng)頁(yè)元素在DOM樹(shù)中的路徑,并以該路徑作為查詢(xún)條件;最后,使用Web-SQL語(yǔ)句對(duì)該網(wǎng)頁(yè)元素進(jìn)行查詢(xún)和采集。該方法對(duì)網(wǎng)頁(yè)依賴(lài)度較低,而且不需要大量樣本學(xué)習(xí),可以靈活應(yīng)對(duì)不同OA期刊網(wǎng)頁(yè)元素采集。同時(shí),通過(guò)待采集元素在DOM樹(shù)中的路徑可以準(zhǔn)確定位網(wǎng)頁(yè)元素位置,保證采集的準(zhǔn)確性。
半結(jié)構(gòu)化文本信息抽取指對(duì)組合型資源的OA期刊元數(shù)據(jù)字段進(jìn)行抽取。組合型資源的文本信息是由多個(gè)期刊元數(shù)據(jù)字段組合而成的半結(jié)構(gòu)化文本。為保證資源采集的全面性,需對(duì)組合型資源文本信息中的期刊元數(shù)據(jù)進(jìn)行抽取。使用類(lèi)似基于自然語(yǔ)言處理的信息抽取方法,可以對(duì)組合型資源的半結(jié)構(gòu)化文本信息進(jìn)行抽取。具體步驟為:先對(duì)半結(jié)構(gòu)化文本信息進(jìn)行結(jié)構(gòu)分析,通過(guò)人工標(biāo)注,構(gòu)建正則表達(dá)式對(duì)文本進(jìn)行分解,抽取期刊元數(shù)據(jù),進(jìn)而保證期刊資源的全面采集。
2.4 現(xiàn)有網(wǎng)頁(yè)信息采集工具特點(diǎn)及適用性分析
為解決OA期刊資源采集的實(shí)際問(wèn)題,同時(shí)驗(yàn)證本文提出的基于OA期刊資源網(wǎng)頁(yè)元數(shù)據(jù)采集方法的有效性,先對(duì)現(xiàn)有3款典型網(wǎng)頁(yè)信息采集工具進(jìn)行對(duì)比,并對(duì)各采集工具在OA期刊網(wǎng)頁(yè)元數(shù)據(jù)采集中的適用性進(jìn)行分析。
2.4.1 現(xiàn)有網(wǎng)頁(yè)信息采集工具特點(diǎn)分析
國(guó)內(nèi)外3款典型網(wǎng)頁(yè)信息采集工具對(duì)比分析如表3所示。通過(guò)對(duì)采集工具對(duì)比分析發(fā)現(xiàn),3款采集工具都采用類(lèi)似基于Web查詢(xún)的網(wǎng)頁(yè)信息抽取方法,來(lái)對(duì)網(wǎng)頁(yè)元素進(jìn)行采集。不同的是,在實(shí)現(xiàn)基于Web查詢(xún)的網(wǎng)頁(yè)信息抽取方法時(shí),一部分工具是自動(dòng)形成定位規(guī)則,另一部分工具則需要人工制定定位規(guī)則。而對(duì)于網(wǎng)頁(yè)元素中的文本信息,部分采集工具提供正則表達(dá)式匹配抽取功能。
2.4.2 網(wǎng)頁(yè)信息采集工具對(duì)OA期刊資源采集的適用性分析
通過(guò)上述分析,發(fā)現(xiàn)3款采集工具都能準(zhǔn)確地采集網(wǎng)頁(yè)元素,因此,本文主要從采集資源的完整性角度分析各采集工具在OA期刊資源采集上的適用性。本文將OA期刊資源分為單一型資源和組合型資源,本文提出的判斷采集工具是否適用于OA期刊資源采集,主要由采集工具是否能對(duì)單一型資源和組合型資源進(jìn)行采集決定。此外,本文在對(duì)OA期刊資源采集調(diào)研中發(fā)現(xiàn),有超過(guò)10%的OA期刊網(wǎng)站存在多套網(wǎng)頁(yè)模板,即存在網(wǎng)頁(yè)結(jié)構(gòu)變化的情況。因此,能否對(duì)網(wǎng)頁(yè)結(jié)構(gòu)變化后的資源進(jìn)行采集也是判斷采集工具是否適用于OA期刊資源采集的指標(biāo)之一。綜上所述,單一型資源采集、組合型資源采集以及網(wǎng)頁(yè)結(jié)構(gòu)變化后資源采集是判斷采集工具是否適用于OA期刊資源采集的主要指標(biāo)。通過(guò)對(duì)3款工具特點(diǎn)和優(yōu)缺點(diǎn)分析,結(jié)合各工具在OA期刊資源采集上的應(yīng)用,對(duì)3款采集工具的適用性分析如表4所示。
表3 3款國(guó)內(nèi)外典型網(wǎng)頁(yè)信息采集工具特點(diǎn)對(duì)比分析
表4 3款網(wǎng)頁(yè)信息采集工具適用性對(duì)比分析
通過(guò)適用性分析,可以得出兩個(gè)結(jié)論。(1)現(xiàn)有采集工具基本實(shí)現(xiàn)了本文提出的采集方法的功能,即對(duì)網(wǎng)頁(yè)元素準(zhǔn)確、靈活地采集,對(duì)文本信息進(jìn)行進(jìn)一步抽取。(2)現(xiàn)有采集工具無(wú)法對(duì)網(wǎng)頁(yè)結(jié)構(gòu)變化后的OA期刊資源進(jìn)行完整采集。由于OA期刊網(wǎng)站存在網(wǎng)頁(yè)結(jié)構(gòu)發(fā)生變化的情況,采集工具不具備網(wǎng)頁(yè)結(jié)構(gòu)檢查功能,形成的采集規(guī)則無(wú)法對(duì)結(jié)構(gòu)變化的網(wǎng)頁(yè)進(jìn)行采集。
通過(guò)以上分析,雖然現(xiàn)有采集工具基本實(shí)現(xiàn)本文提出的基于OA期刊網(wǎng)頁(yè)信息抽取方法的功能,但并不能對(duì)網(wǎng)頁(yè)結(jié)構(gòu)變化后的OA期刊資源進(jìn)行有效采集。因此,本文在現(xiàn)有方法基礎(chǔ)上,設(shè)計(jì)一種適用于OA期刊資源采集的系統(tǒng)并進(jìn)行實(shí)證分析,以更好地實(shí)現(xiàn)OA期刊資源的全面采集。
現(xiàn)有采集工具無(wú)法對(duì)網(wǎng)頁(yè)結(jié)構(gòu)發(fā)生變化的OA期刊資源進(jìn)行采集,為全面采集OA期刊資源,進(jìn)一步驗(yàn)證本文提出的基于網(wǎng)頁(yè)信息抽取的OA期刊資源采集方法的有效性,在該方法的基礎(chǔ)上,還需要提供頁(yè)面結(jié)構(gòu)檢查功能?;诰W(wǎng)頁(yè)信息抽取的OA期刊資源采集框架如圖2所示。
基于OA期刊網(wǎng)頁(yè)元數(shù)據(jù)抽取的采集框架主要分為數(shù)據(jù)源、數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)服務(wù)四個(gè)層次。
數(shù)據(jù)源層是采集系統(tǒng)面向的數(shù)據(jù)源。本文主要研究不遵循OAI-PMH協(xié)議的OA期刊資源采集方法。根據(jù)網(wǎng)頁(yè)中OA期刊資源的組織形式,為保證OA期刊資源采集的全面和完整,數(shù)據(jù)源需覆蓋結(jié)構(gòu)統(tǒng)一和結(jié)構(gòu)變化兩種網(wǎng)頁(yè)結(jié)構(gòu)的OA期刊資源。
數(shù)據(jù)采集層是對(duì)OA期刊資源實(shí)施采集。對(duì)于不遵循OAI-PMH協(xié)議的資源,主要是在基于OA期刊網(wǎng)頁(yè)元數(shù)據(jù)抽取的采集方法基礎(chǔ)上,輔以網(wǎng)頁(yè)結(jié)構(gòu)檢查功能,來(lái)滿足單一型資源、組合型資源以及網(wǎng)頁(yè)結(jié)構(gòu)發(fā)生變化后的期刊資源進(jìn)行采集。主要解決當(dāng)前網(wǎng)頁(yè)信息采集方法無(wú)法單獨(dú)完成OA期刊資源采集,以及當(dāng)前采集工具無(wú)法對(duì)網(wǎng)頁(yè)結(jié)構(gòu)變化后的OA期刊資源采集的問(wèn)題。
數(shù)據(jù)存儲(chǔ)層主要表現(xiàn)OA期刊資源采集過(guò)程中數(shù)據(jù)的存儲(chǔ)過(guò)程,包括初始URL、待采集URL和采集規(guī)則等的臨時(shí)存儲(chǔ),以及本地OA期刊元數(shù)據(jù)數(shù)據(jù)庫(kù)等。
數(shù)據(jù)服務(wù)層主要是為采集到的OA期刊資源提供服務(wù),如對(duì)采集到的數(shù)據(jù)進(jìn)行展示和提供下載服務(wù)。
為進(jìn)一步驗(yàn)證本文提出的方法,對(duì)基于網(wǎng)頁(yè)信息抽取的OA期刊資源采集系統(tǒng)的主要功能進(jìn)行具體的實(shí)現(xiàn)。
圖2 基于網(wǎng)頁(yè)信息抽取的OA期刊資源采集框架
(1)網(wǎng)頁(yè)元素采集。使用JavaFX可視化組件Web View,實(shí)現(xiàn)資源選擇和查詢(xún)語(yǔ)句自動(dòng)生成,通過(guò)網(wǎng)頁(yè)解析器Jsoup根據(jù)查詢(xún)語(yǔ)句采集網(wǎng)頁(yè)信息。具體而言,當(dāng)Web View組件加載HTML內(nèi)容時(shí),為每個(gè)節(jié)點(diǎn)添加事件監(jiān)聽(tīng),當(dāng)鼠標(biāo)點(diǎn)擊某節(jié)點(diǎn)時(shí),系統(tǒng)會(huì)將該節(jié)點(diǎn)賦值給“org.w3c.dom.Node”類(lèi)型的變量。Node類(lèi)提供“getParentNode()”的方法來(lái)獲取當(dāng)前節(jié)點(diǎn)的父類(lèi)節(jié)點(diǎn),據(jù)此可遞歸尋找到當(dāng)前節(jié)點(diǎn)到網(wǎng)頁(yè)根節(jié)點(diǎn)的路徑。通過(guò)將路徑中各節(jié)點(diǎn)標(biāo)簽名和屬性值拼接成Jsoup能夠識(shí)別的查詢(xún)語(yǔ)句,再使用Jsoup中select方法對(duì)待采集節(jié)點(diǎn)的信息進(jìn)行采集,即可完成網(wǎng)頁(yè)元素采集工作。
(2)半結(jié)構(gòu)化文本信息抽取。具體實(shí)現(xiàn)方式為通過(guò)用戶(hù)標(biāo)注的分隔符,再根據(jù)分隔符位置,提取元數(shù)據(jù)字段信息。OA期刊網(wǎng)站通常會(huì)將“年、卷、期”組合成一條文本信息,如“2017,vol39,no.1”。在抽取具體信息時(shí),先將該條文本信息作為網(wǎng)頁(yè)元素進(jìn)行采集,再通過(guò)用戶(hù)在文本中插入分隔符進(jìn)行標(biāo)注,將所需采集信息與固定展示信息進(jìn)行分隔,即“{2017},vol{39}, no.{1}”“2017”“39”“1”是需要采集的信息,“,vol”“,no.”是固定展示信息。固定展示信息內(nèi)容通常不會(huì)改變,因此,可以根據(jù)固定展示信息位置來(lái)抽取文本中相應(yīng)信息。
(3)網(wǎng)頁(yè)結(jié)構(gòu)檢查。根據(jù)規(guī)定所需采集的必須字段,來(lái)作為判斷網(wǎng)頁(yè)結(jié)構(gòu)是否發(fā)生變化的標(biāo)準(zhǔn),如果采集到的必須字段為空則認(rèn)為當(dāng)前網(wǎng)頁(yè)結(jié)構(gòu)已發(fā)生變化,需重新選擇和采集。如文章標(biāo)題作為必須字段,在網(wǎng)頁(yè)元素采集時(shí)會(huì)判斷采集到的該字段是否為空。如果為空則可能有兩種情況:一是當(dāng)前頁(yè)面確實(shí)沒(méi)有該字段,此頁(yè)面為臟頁(yè)面;二是當(dāng)前頁(yè)面存在該字段,但該元數(shù)據(jù)采集規(guī)則不適用于當(dāng)前頁(yè)面,則可以判斷此頁(yè)面為結(jié)構(gòu)變化后的頁(yè)面。系統(tǒng)無(wú)法識(shí)別必須字段為空時(shí)屬于何種情況,因此,系統(tǒng)會(huì)將當(dāng)前頁(yè)面加入結(jié)構(gòu)變化頁(yè)面鏈接數(shù)組中。該輪采集結(jié)束后,提取結(jié)構(gòu)變化網(wǎng)頁(yè)鏈接數(shù)組的第一個(gè)鏈接,在內(nèi)嵌瀏覽器中進(jìn)行展示,由用戶(hù)對(duì)字段為空的情況作出判斷。系統(tǒng)對(duì)兩種情況均提出解決方案,對(duì)于第一種臟頁(yè)情況,直接跳過(guò),并將該頁(yè)面鏈接從結(jié)構(gòu)變化的網(wǎng)頁(yè)鏈接數(shù)組中刪除;對(duì)于第二種網(wǎng)頁(yè)結(jié)構(gòu)變化的情況,用戶(hù)會(huì)在結(jié)構(gòu)變化后的頁(yè)面上重新進(jìn)行元數(shù)據(jù)選擇,將形成的新采集規(guī)則加入原采集規(guī)則集合中,系統(tǒng)會(huì)使用新的采集規(guī)則繼續(xù)進(jìn)行采集。這樣往復(fù)2—3次便可以遍歷網(wǎng)站所有模板,進(jìn)而采集到全數(shù)據(jù),解決OA期刊資源網(wǎng)頁(yè)結(jié)構(gòu)多變而無(wú)法全面采集的問(wèn)題。
為驗(yàn)證基于網(wǎng)頁(yè)信息抽取的OA期刊資源采集方法的有效性,本文選擇國(guó)內(nèi)外不遵循OAI-PMH協(xié)議的10本OA期刊的網(wǎng)站作為采集對(duì)象,通過(guò)爬蟲(chóng)腳本采集10本OA期刊的論文鏈接數(shù)量,作為采集數(shù)量全面性的標(biāo)準(zhǔn)。測(cè)試結(jié)果如表5所示。
表5 10本OA期刊資源采集結(jié)果對(duì)比分析
由表5可知,10本期刊共采集到論文45 785篇,采集時(shí)間共用31 039秒,其中有4本期刊的網(wǎng)頁(yè)結(jié)構(gòu)發(fā)生變化。通過(guò)系統(tǒng)測(cè)試結(jié)果可以看出,基于網(wǎng)頁(yè)信息抽取的OA期刊資源采集方法可以靈活應(yīng)對(duì)不同OA期刊資源的采集。在準(zhǔn)確率方面,該方法能準(zhǔn)確采集單一型資源和文本結(jié)構(gòu)固定的組合型資源,說(shuō)明其能夠適用于OA期刊資源采集工作?;诰W(wǎng)頁(yè)信息抽取的OA期刊資源采集系統(tǒng)的網(wǎng)頁(yè)結(jié)構(gòu)檢查能準(zhǔn)確識(shí)別網(wǎng)頁(yè)結(jié)構(gòu)變化,并對(duì)結(jié)構(gòu)變化后的資源進(jìn)行采集。除部分OA期刊網(wǎng)站存在無(wú)法訪問(wèn)或無(wú)詳細(xì)信息外,采集到的論文數(shù)量與通過(guò)爬蟲(chóng)腳本統(tǒng)計(jì)到的論文鏈接數(shù)一致。從采集時(shí)間上看,平均1 000篇文章的采集時(shí)間為678秒??傮w而言,基于網(wǎng)頁(yè)信息抽取的OA期刊資源采集方法,能較好地滿足不遵循OAI-PMH協(xié)議的OA期刊資源采集需求。
本文以O(shè)A期刊資源為研究對(duì)象,從網(wǎng)頁(yè)信息采集的角度,對(duì)不遵循OAI-PMH協(xié)議的OA期刊資源采集進(jìn)行研究。首先,本文對(duì)OA期刊資源特點(diǎn)進(jìn)行總結(jié),并按照資源在網(wǎng)頁(yè)中的組織方式將其分為單一型資源和組合型資源;其次,分析對(duì)網(wǎng)頁(yè)采集方法在OA期刊資源采集上的適用性,發(fā)現(xiàn)網(wǎng)頁(yè)采集方法無(wú)法單獨(dú)完成OA期刊資源采集工作。因此,本文提出基于網(wǎng)頁(yè)信息抽取的OA期刊資源采集方法,該方法綜合了網(wǎng)頁(yè)信息采集方法的功能,不僅能準(zhǔn)確、靈活采集OA期刊網(wǎng)頁(yè)元素,也能對(duì)本文信息進(jìn)行抽取。通過(guò)3款典型網(wǎng)頁(yè)信息采集工具在OA期刊資源采集上的適用性分析,發(fā)現(xiàn)各工具均無(wú)法對(duì)網(wǎng)頁(yè)結(jié)構(gòu)發(fā)生變化的OA期刊資源進(jìn)行采集。因此,本文對(duì)基于網(wǎng)頁(yè)信息抽取的OA期刊資源采集系統(tǒng)進(jìn)行設(shè)計(jì),增加對(duì)網(wǎng)頁(yè)結(jié)構(gòu)的檢查。通過(guò)對(duì)國(guó)內(nèi)外不遵循OAI-PMH協(xié)議的10本期刊網(wǎng)站實(shí)證采集,發(fā)現(xiàn)4本期刊網(wǎng)站存在網(wǎng)頁(yè)結(jié)構(gòu)發(fā)生變化的情況,并對(duì)網(wǎng)頁(yè)結(jié)構(gòu)變化后的資源進(jìn)行采集,得到45 785篇論文的元數(shù)據(jù)信息,證明采集框架能很好地指導(dǎo)不遵循OAI-PMH協(xié)議的OA期刊資源采集工作。本文雖然基本滿足不遵循OAI-PMH協(xié)議的OA期刊資源采集需求,但仍存在如資源采集時(shí)間過(guò)長(zhǎng)等問(wèn)題,還有待進(jìn)一步優(yōu)化。
[1]LAENDER A H F,RIBEIRO-NETO B A,SILVA A S D,et al.Abrief surveyof web data extraction tools[J].Acm Sigmod Record,2002,31(2):84-93.
[2]蒲筱哥.基于Web的信息抽取技術(shù)研究綜述[J].現(xiàn)代情報(bào),2007,27(10): 215-219.
[3]董娟.基于頁(yè)面結(jié)構(gòu)分析的網(wǎng)頁(yè)信息抽取方法研究[D].青島:中國(guó)石油大學(xué)(華東),2010.
[4]于靜.基于頁(yè)面主體提取的WEB信息抽取技術(shù)研究[D].南京:南京郵電大學(xué),2013.
[5]朱江,尚瑋姣,姜恩波,等.會(huì)議文獻(xiàn)開(kāi)放資源采集與服務(wù)系統(tǒng)的建設(shè)[J].情報(bào)理論與實(shí)踐,2010(7):117-119.
[6]王思麗,馬建玲,王楠,等.開(kāi)放知識(shí)資源的元數(shù)據(jù)自動(dòng)采集策略研究[J].圖書(shū)館學(xué)研究,2013(12):47-51.
[7]宋辰.科技情報(bào)采集系統(tǒng)的設(shè)計(jì)及其快速文本聚類(lèi)方法研究[D].北京:北京工業(yè)大學(xué),2014.
[8]董慧,丁波濤.用OAI-MHP協(xié)議解決數(shù)字圖書(shū)館互操作問(wèn)題[J].情報(bào)科學(xué),2004(6):699-702.
[9]李勇文.OAI元數(shù)據(jù)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2005(2): 37-39,32.
[10]王芳,王小麗.基于OAI協(xié)議的數(shù)字檔案館元數(shù)據(jù)互操作問(wèn)題研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2007(3):18-24.
[11]徐方,張靜.國(guó)內(nèi)OAI-PMH協(xié)議研究綜述[J].現(xiàn)代情報(bào),2009(1):89-94.
[12]郭少友.OAI-PMH元數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)化方法研究[J].圖書(shū)情報(bào)工作, 2011(2):107-111.
[13]楊東清.開(kāi)放獲取期刊資源庫(kù)共建共享平臺(tái)的研究與開(kāi)發(fā)[D].南京:南京農(nóng)業(yè)大學(xué),2010.
A Research on Open Access Journal Resource Acquisition Method Based on Web Information Extraction
HUANG Zheng, ZHANG XueFu
(Agricultural Information Institute of Chinese Academy of Agricultural Sciences, Beijing 100081, China)
Open access journal resources have important academic value, however, some open access journals do not follow the OAI-PMH protocol, and can not collect resources through OAI-PMH protocol.In this paper, based on the characteristics of open Access journal resources, we propose a non OAI-PMH protocol based open access resource acquisition strategy.In this paper, from the point of view of web resources description, this paper summarizes the characteristics of open access journal resources and classi fi es them from the point of view of web resources description.Based on the applicability of the web information collection method in collecting open access journal resources, this paper proposes a open access journal resource acquisition strategy non based on OAI-PMH protocol, which is based on the method of acquisition open access journal web metadata extraction and design the acquisition system.Through the empirical study of 10 open access journals which do not provide the OAI-PMH protocol at home and abroad, a total of 45 785 papers were collected.It is proved that this method can be effectively applied to the acquisition of such resources.The research enriches the acquisition methods of open access journals, and provides a method to guide the acquisition of open access journals that do not follow the OAI-PMH protocol.
Open Access Journal; Open Access Journal Resource Acquisition; Web Information Acquisition; Open Access Journal Resource Acquisition System
G250
10.3772/j.issn.1673-2286.2017.05.004
黃政,男,1992年生,碩士研究生,研究方向:信息資源管理,E-mail:17888802420@163.com。
張學(xué)福,男,1966年生,博士,研究員,研究方向:農(nóng)業(yè)知識(shí)組織與可視化分析,通訊作者,E-mail:zhangxuefu@caas.cn。
2017-04-14)