劉巍 王思麗 祝忠明 吳志強(qiáng)
摘 要:文章主要描述了在自動(dòng)監(jiān)測(cè)功能研發(fā)過程中,如何引入自然語言處理相關(guān)技術(shù),從而提高開放知識(shí)資源自動(dòng)監(jiān)測(cè)采集過程的準(zhǔn)確性、通用性、可配置性及松耦合性。研究發(fā)現(xiàn),通過將自然語言處理技術(shù)應(yīng)用在自動(dòng)監(jiān)測(cè)功能中,可以實(shí)現(xiàn)對(duì)監(jiān)測(cè)資源中重要概念和實(shí)體的自動(dòng)抽取,并與經(jīng)過用戶配置的語料庫進(jìn)行相似度匹配,最終基于匹配的結(jié)果實(shí)現(xiàn)自動(dòng)化定題監(jiān)測(cè)的目標(biāo)。實(shí)踐應(yīng)用證明,文章提出的基于自然語言處理技術(shù)的定題監(jiān)測(cè)方法目前已應(yīng)用在相關(guān)項(xiàng)目的建設(shè)中且實(shí)測(cè)效果較好,證明其在一定程度上改進(jìn)了傳統(tǒng)的定源定向監(jiān)測(cè)采集方法,提高了監(jiān)測(cè)結(jié)果的準(zhǔn)確性,優(yōu)化和簡化了監(jiān)測(cè)參數(shù)的配置流程,有效提升了功能的通用性和松耦合性。
關(guān)鍵詞:自然語言處理;實(shí)體抽取;相似度計(jì)算;定題監(jiān)測(cè);信息采集
中圖分類號(hào):TP312 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.11968/tsyqb.1003-6938.2018057
Design and Implementation of Automatic Monitoring Function Based on Natural Language Processing Technology
Abstract This paper describes how to apply natural language processing technology in the development of automatic monitoring functions, improving the accuracy, versatility, configurability and loose coupling of the process of automatic monitoring and acquisition of open knowledge resources. The application of the natural language processing technology can extract important keywords and entities and similarity match with configuration item which configured by users. Finally, based on the matching results, system can determine whether the target is focused. so as to achieve the goal of automated monitoring. This method has been applied in the development of IIBD platform and has a positive effect. This study has improved the traditional fixed-source monitoring method. The accuracy of monitoring results was improved, and configuration of monitoring parameters were optimized and simplified, and versatility and loose coupling of functions were increased.
Key words natural language processing; entity extraction; similarity calculation; fixed-subject monitoring; information acquisition
大數(shù)據(jù)環(huán)境下,可開放獲取的信息資源數(shù)量大幅提升,更新速度也不斷加快,特別是面向產(chǎn)業(yè)的政策、市場、科研、數(shù)據(jù)、決策等多種類型的信息資源,由于其時(shí)效性強(qiáng),覆蓋范圍廣,且一定程度上具有較大的可信度(尤其是政府、權(quán)威機(jī)構(gòu)等發(fā)布的),已成為政府、企業(yè)、科研機(jī)構(gòu)及其情報(bào)研究人員關(guān)注的重點(diǎn)。因此,及時(shí)發(fā)現(xiàn)、分析、管理和利用這些開放信息資源,對(duì)于獲得最新的情報(bào)信息,制定合理的科技戰(zhàn)略決策,進(jìn)行相關(guān)情報(bào)研究變得十分必要。
本研究主要針對(duì)產(chǎn)業(yè)情報(bào)大數(shù)據(jù)平臺(tái)(Industrial Intelligence BigData,IIBD)[1]建設(shè)和應(yīng)用過程中的雙向需求,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)中產(chǎn)業(yè)相關(guān)政策、動(dòng)態(tài)、數(shù)據(jù)、文獻(xiàn)等開放信息資源進(jìn)行多來源、自動(dòng)化、定題監(jiān)測(cè)和采集管理。對(duì)開放信息資源的監(jiān)測(cè),目前在應(yīng)用方面使用較多的方法包括通過互操作協(xié)議或接口進(jìn)行監(jiān)測(cè)的方法。該類型監(jiān)測(cè)方法由于具備信息發(fā)布平臺(tái)提供的互操作接口,因此在監(jiān)測(cè)精度方面有很好的可擴(kuò)展性和可操作性,采集到的信息格式較完整且質(zhì)量較高,但是目前直接提供公開接口的平臺(tái)并不多,尤其是一些重要的競爭情報(bào)類站點(diǎn)、企業(yè)網(wǎng)站等并不提供相應(yīng)的接口和協(xié)議,因而該方式并不具有普適性。此外,基于搜索引擎技術(shù)的定向定源監(jiān)測(cè)是目前普遍使用的監(jiān)測(cè)方法,但是該監(jiān)測(cè)方法主要通過網(wǎng)絡(luò)爬蟲技術(shù)或工具對(duì)待采集的網(wǎng)頁進(jìn)行分析,然后進(jìn)行采集。這種方法靈活性較好,不受目標(biāo)站點(diǎn)的技術(shù)架構(gòu)限制。一般來講,只要能夠?yàn)g覽到的信息都可以監(jiān)測(cè)和采集到。但從操作角度來看,方法需要經(jīng)過相對(duì)復(fù)雜的配置才能具有較好的監(jiān)測(cè)效果,且當(dāng)信息來源站點(diǎn)結(jié)構(gòu)發(fā)生變化時(shí),需要即時(shí)發(fā)現(xiàn)并調(diào)整采集規(guī)則,這在一定程度上增加了操作難度和工作量,特別是當(dāng)監(jiān)測(cè)源數(shù)量較多時(shí),需要有專人或?qū)iT的團(tuán)隊(duì)進(jìn)行相應(yīng)的跟蹤和維護(hù)。
本研究在對(duì)網(wǎng)絡(luò)開放信息監(jiān)測(cè)方法的相關(guān)研究現(xiàn)狀進(jìn)行調(diào)研梳理的基礎(chǔ)上,結(jié)合IIBD建設(shè)的具體需求,設(shè)計(jì)開發(fā)了基于自然語言處理技術(shù)的可配置化互聯(lián)網(wǎng)開放信息資源的自動(dòng)監(jiān)測(cè)功能,著重研究和解決了非固定、多源異構(gòu)情報(bào)源采集內(nèi)容的自動(dòng)識(shí)別和相似匹配的問題,并在IIBD平臺(tái)中進(jìn)行應(yīng)用研究,最終實(shí)現(xiàn)了對(duì)多源異構(gòu)監(jiān)測(cè)信息的智能識(shí)別、長期監(jiān)測(cè)和自動(dòng)采集發(fā)布,并且該功能方法相對(duì)于傳統(tǒng)自動(dòng)監(jiān)測(cè)方法來說,在通用性和可配置性方面有所優(yōu)化和提升。
1 研究綜述
競爭情報(bào)監(jiān)測(cè)與傳統(tǒng)搜索引擎系統(tǒng)所關(guān)注的目標(biāo)和實(shí)現(xiàn)方法均有所不同,競爭情報(bào)更注重情報(bào)獲取的精準(zhǔn)度和及時(shí)性,且一般都在特定領(lǐng)域或主題開展,因此更適合使用定主題的信息采集方法。自2000年以來,國內(nèi)外的信息采集技術(shù)逐漸發(fā)展成熟,并在相關(guān)領(lǐng)域開展了廣泛研究和深入應(yīng)用,所涉及到的相關(guān)技術(shù)一般包含采集規(guī)則/算法/模型的構(gòu)建、主題內(nèi)容信息的自動(dòng)識(shí)別和抽取、網(wǎng)頁文本的自動(dòng)聚類與分類技術(shù)等。
1.1 監(jiān)測(cè)采集技術(shù)研究現(xiàn)狀
(1)基于模板匹配的采集技術(shù)研究。Bar-Yossef Z等將在同一網(wǎng)站內(nèi)多次重復(fù)出現(xiàn)的網(wǎng)頁頭部、導(dǎo)航欄、版權(quán)聲明、廣告等信息塊視為噪音信息并定制為匹配模板,并與待處理的網(wǎng)頁DOM樹進(jìn)行匹配并刪除,最后剩下的為主體信息[2]。該類方法屬于基于模板匹配的采集技術(shù),應(yīng)用該方法的前提是同一信息源的內(nèi)容頁面應(yīng)具有相同或近似的基礎(chǔ)展示模板,通過創(chuàng)建和識(shí)別模板,然后基于對(duì)模板的識(shí)別結(jié)果進(jìn)行主體信息內(nèi)容抽取和采集。
(2)基于URL分類的采集技術(shù)研究。葉勤勇提出UFBC學(xué)習(xí)算法,基于開源搜索引擎Nutch和利用正則表達(dá)式進(jìn)行信息識(shí)別和監(jiān)測(cè)采集[3];蔣付彬提出基于決策樹的URL分類器算法,利用4個(gè)主要HTML標(biāo)簽內(nèi)容與用戶定義主題的相似度構(gòu)建決策樹實(shí)現(xiàn)URL分類[4];楊鎰銘提出基于模式樹的UPCA分類算法,通過訓(xùn)練提取特定類型的網(wǎng)頁鏈接特征,構(gòu)建模式樹和生成模式規(guī)則,形成主題相關(guān)的URL模式庫[5]。該類監(jiān)測(cè)采集方法屬于基于URL規(guī)則的監(jiān)測(cè)采集技術(shù),其應(yīng)用前提是認(rèn)為同一來源站點(diǎn)創(chuàng)建的動(dòng)態(tài)網(wǎng)頁其內(nèi)容一般應(yīng)屬于同一個(gè)主題且其URL格式往往非常相似,基于這一思路,該方法通過各種算法和模型去實(shí)現(xiàn)對(duì)基礎(chǔ)URL規(guī)律的量化、補(bǔ)充計(jì)算,以區(qū)分主題無關(guān)的URL和主題相關(guān)的URL。
(3)基于機(jī)器學(xué)習(xí)的采集技術(shù)研究。近年來,對(duì)信息監(jiān)測(cè)采集技術(shù)的研究方向開始向基于機(jī)器學(xué)習(xí)的方法轉(zhuǎn)換。如Debnath S等利用預(yù)定義的標(biāo)簽集合對(duì)DOM樹節(jié)點(diǎn)進(jìn)行訓(xùn)練生成分類器[6];王浩提出將采樣技術(shù)和半監(jiān)督學(xué)習(xí)相結(jié)合的方法,對(duì)傳統(tǒng)的SMOTE文本分類算法進(jìn)行改進(jìn)以實(shí)現(xiàn)網(wǎng)絡(luò)敏感信息的識(shí)別[7];Pavlinek M等提出了基于主題模型表示的半監(jiān)督式文本分類方法,該方法包括一個(gè)基于自訓(xùn)練的半監(jiān)督文本分類算法和模型,用于識(shí)別和確定新文本內(nèi)容的參數(shù)設(shè)置[8]。該類方法大多采用需要監(jiān)督或半監(jiān)督的機(jī)器學(xué)習(xí)算法,需要基于大量樣本積累和訓(xùn)練,或由人工預(yù)先標(biāo)注好一定數(shù)量的樣本實(shí)例,并進(jìn)行聚類、歸納學(xué)習(xí)并生成網(wǎng)頁分類器(算法和規(guī)則),利用分類器對(duì)網(wǎng)頁信息進(jìn)行模式處理。此外,基于內(nèi)容結(jié)構(gòu)特征和視覺特征,采用相關(guān)啟發(fā)式算法如神經(jīng)網(wǎng)絡(luò)算法、貪心算法等構(gòu)建啟發(fā)式規(guī)則集合,將網(wǎng)頁劃分為多個(gè)可視化塊的相關(guān)集合以實(shí)現(xiàn)內(nèi)容信息提取等方法的研究也越來越多。如李劍基于BP神經(jīng)網(wǎng)絡(luò)算法改進(jìn)DOM樹結(jié)構(gòu),按內(nèi)容相關(guān)性將網(wǎng)頁劃分為多個(gè)子模塊進(jìn)行信息內(nèi)容過濾提取[9];李偉男等基于模擬退火算法訓(xùn)練二階隱馬爾科夫參數(shù),改進(jìn)經(jīng)典的VIPS網(wǎng)頁分塊算法以實(shí)現(xiàn)網(wǎng)頁主題信息抽取[10];謝方立提出了基于DOM節(jié)點(diǎn)類型標(biāo)注的NTA主題信息抽取算法[11]。
1.2 監(jiān)測(cè)采集工具研發(fā)研究現(xiàn)狀
在實(shí)際應(yīng)用中一般需要根據(jù)具體應(yīng)用需求和不同數(shù)據(jù)源的結(jié)構(gòu)對(duì)上述技術(shù)方法進(jìn)行取舍、改進(jìn)或整合、綜合利用等。同時(shí),在實(shí)際開發(fā)中,一般會(huì)將上述方法與網(wǎng)絡(luò)搜索引擎和爬蟲框架如Nutch、Heritrix、Scrapy等進(jìn)行結(jié)合,通過改進(jìn)監(jiān)測(cè)過程中的某一流程達(dá)到提升監(jiān)測(cè)速度或精準(zhǔn)度等目標(biāo)。如譚宗穎等基于網(wǎng)絡(luò)爬蟲技術(shù)和文本聚類技術(shù)構(gòu)建了科技發(fā)展前沿信息監(jiān)測(cè)與分析平臺(tái)[12];劉海波基于Ajax和Web Service技術(shù)實(shí)現(xiàn)了網(wǎng)站多欄目多頻道的信息監(jiān)測(cè)和實(shí)時(shí)入庫[13];張智雄等構(gòu)建了一種支持按需申請(qǐng)、定制服務(wù)的科技戰(zhàn)略監(jiān)測(cè)服務(wù)云平臺(tái),通過將網(wǎng)絡(luò)自由文本轉(zhuǎn)化為結(jié)構(gòu)化的可計(jì)算的知識(shí)單元,實(shí)現(xiàn)對(duì)科技領(lǐng)域的態(tài)勢(shì)監(jiān)測(cè)[14];謝靖等以開源爬蟲Crawler4j為基本框架,實(shí)現(xiàn)了面向網(wǎng)絡(luò)科技監(jiān)測(cè)的分布式定向資源精確采集[15];王思麗等也對(duì)開放資源及其元數(shù)據(jù)自動(dòng)采集策略方法進(jìn)行了相關(guān)實(shí)驗(yàn)研究[16-17]。
2 基于自然語言處理技術(shù)的定題監(jiān)測(cè)關(guān)鍵功能設(shè)計(jì)與實(shí)現(xiàn)
本研究所提出的基于自然語言處理技術(shù)的定題監(jiān)測(cè),其方法正是在本團(tuán)隊(duì)成員王思麗已提出的采集策略和方法基礎(chǔ)上進(jìn)行了深度改進(jìn)和優(yōu)化,通過引入自然語言處理技術(shù),實(shí)現(xiàn)對(duì)文本中關(guān)鍵概念、實(shí)體等的自動(dòng)抽取并與用戶提供的主題、實(shí)體等語料進(jìn)行相似度匹配,從而達(dá)到提升監(jiān)測(cè)采集精準(zhǔn)度的目標(biāo)。同時(shí),通過引入成熟的自然語言處理工具和框架,可以在主題、實(shí)體概念的抽取過程中自動(dòng)實(shí)現(xiàn)新詞發(fā)現(xiàn)和語料庫的擴(kuò)展,在一定程度上實(shí)現(xiàn)了冷啟動(dòng)的目標(biāo),使本方法可以不受半監(jiān)督學(xué)習(xí)方法需要標(biāo)注或準(zhǔn)備大量學(xué)習(xí)樣本弊端的影響,提升的采集過程的自動(dòng)化程度,以及系統(tǒng)整合層面的松耦合性。在配置和操作方面,由于不強(qiáng)制要求提前定義模板或URL規(guī)則,只需要提供用戶關(guān)注的主題和實(shí)體,也在一定程度上降低了操作復(fù)雜度,即時(shí),沒有相關(guān)技術(shù)背景和使用經(jīng)驗(yàn)的用戶也可以配置操作。
2.1 整體功能結(jié)構(gòu)
本研究所提出的基于自然語言處理技術(shù)的定題監(jiān)測(cè)整體功能結(jié)構(gòu)主要包含數(shù)據(jù)準(zhǔn)備、采集參數(shù)配置、核心概念及實(shí)體抽取、相似度匹配及采集發(fā)布五個(gè)步驟(框架見圖1)。
2.2 數(shù)據(jù)準(zhǔn)備
基于自然語言處理技術(shù)的定題監(jiān)測(cè)數(shù)據(jù)準(zhǔn)備步驟主要用于確定基礎(chǔ)情報(bào)源集合即待采集情報(bào)源的基礎(chǔ)信息和啟動(dòng)信息。主要包括情報(bào)源的名稱、網(wǎng)址、類型及歸屬等基礎(chǔ)信息,該步驟一般由具有較豐富相關(guān)情報(bào)遴選經(jīng)驗(yàn)的人員或根據(jù)用戶具體需求進(jìn)行梳理。所有情報(bào)源構(gòu)成了采集和擴(kuò)展的基礎(chǔ)。
2.3 參數(shù)配置
參數(shù)配置主要分為兩部分,首先是匹配或識(shí)別參數(shù)配置,主要包括重點(diǎn)關(guān)注的關(guān)鍵詞、實(shí)體(時(shí)間、地域、人員、機(jī)構(gòu)、國家等)概念的集合,也可以是相關(guān)概念的邏輯組合,如時(shí)間 AND (人員 OR機(jī)構(gòu) OR 國家) AND 關(guān)鍵詞,表示重點(diǎn)關(guān)注某一時(shí)間范圍內(nèi),某個(gè)人員或機(jī)構(gòu)或國家與某關(guān)鍵詞同時(shí)出現(xiàn)的信息;另一部分是采集參數(shù)配置,主要包括采集深度配置和擴(kuò)展參數(shù)配置,采集深度配置即基于深度優(yōu)先的原理執(zhí)行如下操作的次數(shù):①從基礎(chǔ)情報(bào)源中取出一條信息并對(duì)其進(jìn)行解析;②把解析出的鏈接和已監(jiān)測(cè)表中的鏈接進(jìn)行比較,若已監(jiān)測(cè)表中不存在此鏈接,表示其未被訪問過;③把鏈接放入監(jiān)測(cè)解析流程中;④處理完畢后,將其放入已監(jiān)測(cè)表中;⑤將當(dāng)前信息作為基礎(chǔ)情報(bào)源重復(fù)執(zhí)行①。
擴(kuò)展參數(shù)配置主要控制采集深度的處理策略,如當(dāng)設(shè)置擴(kuò)展參數(shù)為內(nèi)部時(shí),則新發(fā)現(xiàn)的URL與基礎(chǔ)URL相似或處于同一情報(bào)源時(shí)才進(jìn)行解析處理否則舍棄。當(dāng)擴(kuò)展參數(shù)設(shè)置為外部時(shí),則無論新發(fā)現(xiàn)的URL是否與當(dāng)前情報(bào)源處于同一來源均進(jìn)行解析和分析。
2.4 概念及實(shí)體抽取
對(duì)采集到的主體內(nèi)容進(jìn)行概念和實(shí)體抽取需要借助一些第三方自然語言處理工具,在本研究中,對(duì)中文的概念及實(shí)體抽取我們選用的是Ansj,對(duì)英文內(nèi)容的概念及實(shí)體抽取我們選用的是Stanford-CoreNLP,以上兩個(gè)自然語言處理工具包均為開源(具體抽取過程見圖2)。
(1) 預(yù)處理。當(dāng)從情報(bào)源監(jiān)測(cè)一個(gè)網(wǎng)頁信息時(shí),首先利用模板匹配法抽取網(wǎng)頁主體信息,并判斷信息的語種等,同時(shí)去除主體信息中的停用詞(如介詞)等,完成對(duì)原始信息的預(yù)處理。
(2)分詞及詞性標(biāo)注?;谥黧w信息及主體信息語種選擇不同的自然語言處理工具進(jìn)行分詞和詞性標(biāo)注。本研究在開發(fā)過程中測(cè)試了大量開源自然語言處理工具,發(fā)現(xiàn)所有工具,特別是中文分詞工具的分詞粒度都存在過細(xì)的問題,普遍會(huì)出現(xiàn)分詞過度的情況,如“元數(shù)據(jù)”一詞,分詞工具通常會(huì)基于更通用的語境,將“元”當(dāng)作一個(gè)量詞,將“數(shù)據(jù)”當(dāng)作一個(gè)名詞分開抽取和標(biāo)注,且類似情況很常見。所以,不能直接調(diào)用抽取的結(jié)果,需要再次封裝概念抽取模型和算法。
(3)分詞組合。本研究的做法是:首先,根據(jù)通用的語境或領(lǐng)域,制訂相對(duì)寬松的分詞組合規(guī)則,如連續(xù)出現(xiàn)的名詞或動(dòng)詞加名詞等都可以認(rèn)為是一個(gè)表達(dá)完整詞義且有意義的概念。利用這一系列組合規(guī)則,對(duì)信息主體中的所有連續(xù)分詞進(jìn)行匹配,抽取出所有符合組合規(guī)則的詞組。因?yàn)楸狙芯恐朴喓妥裱氖禽^寬松的分詞組合規(guī)則,因此,此時(shí)抽取出的詞組通常粒度較粗且存在過度組合的情況,同樣不能直接使用,需要再次清洗。
(4)關(guān)聯(lián)合并。合并的思路主要依據(jù)關(guān)聯(lián)規(guī)則挖掘的思想,對(duì)每個(gè)抽取出的詞組再進(jìn)行細(xì)粒度分詞,這樣就得到若干組候選項(xiàng)集?;谶@些候選項(xiàng)集,使用Apriori算法或信息熵算法可以挖掘出具有強(qiáng)關(guān)聯(lián)規(guī)則的若干組頻繁N(N=1,2,3…)項(xiàng)集,對(duì)這些頻繁項(xiàng)集進(jìn)行排列組合,即可得到完整且粒度滿足需求的概念集合。
(5)相似歸并。至此,要利用這些概念仍存在一個(gè)問題,即挖掘出的概念集合中可能存在大量同義概念,如果不進(jìn)行歸并則無法準(zhǔn)確判斷概念的重要程度(如詞頻等)。本研究通過詞型相似度計(jì)算(如N-Gram算法等)以及近義詞匹配兩步完成相似歸并的步驟。近義詞匹配一般可選擇領(lǐng)域相關(guān)的敘詞表或使用自然語言處理工具中自帶的近義詞語料庫,同時(shí),在此過程中實(shí)現(xiàn)相應(yīng)的機(jī)器學(xué)習(xí)和訓(xùn)練。實(shí)測(cè)關(guān)鍵概念匹配度超過75%。
(6)重要度計(jì)算。將進(jìn)行相似歸并處理后的概念集合,綜合利用詞頻、TF-IDF以及概念在信息主體中的位置權(quán)值(如出現(xiàn)在題名中的概念和出現(xiàn)在正文第一段中的概念可以被賦予更高的權(quán)值),綜合制訂算法,計(jì)算出每個(gè)概念在信息中的重要度,根據(jù)閾值取出滿足閾值條件的概念即認(rèn)為是信息的關(guān)鍵概念集合。同時(shí),對(duì)關(guān)鍵概念集合中的關(guān)鍵概念根據(jù)重要度進(jìn)行排序,可實(shí)現(xiàn)根據(jù)實(shí)際需求獲取指定數(shù)量關(guān)鍵概念的功能。
抽取出的關(guān)鍵概念集合將會(huì)有兩個(gè)用途,首先,是作為當(dāng)前信息的標(biāo)簽與用戶參數(shù)配置中設(shè)定的關(guān)注概念進(jìn)行匹配,判斷是否是用戶關(guān)注意愿較高的信息;其次,是將關(guān)鍵概念集合中的每個(gè)概念作為新詞發(fā)現(xiàn)的結(jié)果加入語料庫。如果在其他信息中再次發(fā)現(xiàn)相似概念則可直接進(jìn)行抽取。
(7)實(shí)體抽取。時(shí)間、領(lǐng)域相關(guān)的標(biāo)號(hào)、識(shí)別碼等信息的抽取可結(jié)合詞性并采用正則表達(dá)式匹配的方式抽取,地域、人員、機(jī)構(gòu)等信息可利用分詞工具中的實(shí)體抽取方法抽取,同時(shí)可根據(jù)上下文結(jié)構(gòu)進(jìn)行篩選判斷,最后再與相關(guān)詞表進(jìn)行匹配達(dá)到準(zhǔn)確抽取的效果。
2.5 相似度匹配
當(dāng)抽取出一系列關(guān)鍵概念和實(shí)體對(duì)象后,需要與用戶在參數(shù)配置中設(shè)定的識(shí)別參數(shù)進(jìn)行匹配。首先進(jìn)行詞型的匹配,然后基于詞表進(jìn)行詞義匹配。實(shí)體需要結(jié)合實(shí)體規(guī)范庫對(duì)實(shí)體對(duì)象進(jìn)行統(tǒng)一表述,然后進(jìn)行匹配。最后制訂符合實(shí)際情況及需求的匹配度計(jì)算方法。將詞性匹配、詞義匹配及實(shí)體匹配的結(jié)果和數(shù)量等信息帶入匹配度算法中得到匹配度。最終,通過與匹配度閾值比較,判斷當(dāng)前信息是否是用戶關(guān)注的目標(biāo),并進(jìn)行采集。
2.6 采集發(fā)布
自動(dòng)采集發(fā)布主要包括以下流程:
(1)面向IIBD的自動(dòng)登錄驗(yàn)證配置。支持用戶在采集發(fā)布接口中配置IIBD的登錄信息(用戶名、密碼等),接口應(yīng)用時(shí)會(huì)自動(dòng)調(diào)用該配置信息和相應(yīng)登錄機(jī)制,向IIBD發(fā)出登錄請(qǐng)求并進(jìn)行驗(yàn)證,最后將登錄驗(yàn)證成功與否的標(biāo)志信息進(jìn)行返回。登錄驗(yàn)證主要是提高系統(tǒng)的安全性,同時(shí)也將采集發(fā)布功能與IIBD主系統(tǒng)實(shí)現(xiàn)解耦。當(dāng)其他系統(tǒng)需要使用本接口時(shí)可通過參數(shù)配置快速調(diào)用。
(2)基于數(shù)據(jù)包方式的已采集數(shù)據(jù)與IIBD元數(shù)據(jù)的關(guān)聯(lián)映射配置。支持用戶將已采集數(shù)據(jù)的內(nèi)容標(biāo)簽與IIBD元數(shù)據(jù)字段進(jìn)行映射配置,主要包括采集資源類型的映射和元數(shù)據(jù)結(jié)構(gòu)的映射配置,然后根據(jù)配置的信息采用httpclient提交post數(shù)據(jù)包的方式,將該信息模擬并構(gòu)造為表單提交數(shù)據(jù)的方式,向IIBD工作流自動(dòng)提交與確認(rèn)發(fā)布數(shù)據(jù)。該步驟同樣是實(shí)現(xiàn)采集功能與IIBD主系統(tǒng)解耦的一部分。
3 案例及應(yīng)用效果
目前,本研究所述的基于自然語言處理的定題監(jiān)測(cè)功能已經(jīng)嵌入到產(chǎn)業(yè)情報(bào)大數(shù)據(jù)(IIBD)平臺(tái)中,現(xiàn)已在10余家企業(yè)、機(jī)構(gòu)的實(shí)際應(yīng)用中完成部署并投入使用。從目前該功能在已部署機(jī)構(gòu)中的使用情況來看,整體反映良好,對(duì)近千個(gè)監(jiān)測(cè)源進(jìn)行定題監(jiān)測(cè)和采集,通過基于用戶需求的配置,較好地實(shí)現(xiàn)了對(duì)各種不同類型用戶感興趣的多源異構(gòu)信息源進(jìn)行個(gè)性化配置并跟蹤和采集的應(yīng)用需求。
在關(guān)鍵概念抽取效果方面本研究隨機(jī)選取了500篇提供關(guān)鍵概念標(biāo)引的信息,用本文所屬方法進(jìn)行關(guān)鍵概念的自動(dòng)抽取和對(duì)比,發(fā)現(xiàn)關(guān)鍵概念的命中率超過75%。從監(jiān)測(cè)和采集效果方面本研究遴選了10個(gè)不同類型的網(wǎng)站(綜合類、政策類、機(jī)構(gòu)/企業(yè)/協(xié)會(huì)門戶類等),配置相應(yīng)的主題、實(shí)體集參數(shù),使用本文所述方法進(jìn)行機(jī)器監(jiān)測(cè)和采集,其結(jié)果與人工遴選、采集結(jié)果進(jìn)行對(duì)比,機(jī)器采集到的信息比人工采集到的信息略多,采集到的信息較人工監(jiān)測(cè)結(jié)果覆蓋率超過95%。與基于模板匹配、URL規(guī)則和簡單關(guān)鍵詞匹配的傳統(tǒng)機(jī)器采集方法相比,大幅減少了采集量,提升的采集效率和精確度。實(shí)現(xiàn)了在不降低查全率的基礎(chǔ)上提升查準(zhǔn)率和命中率的目標(biāo)。在實(shí)用效果方面,從IIBD平臺(tái)在多家企業(yè)投入實(shí)際使用的反饋信息來看,可以較好地滿足用戶在實(shí)際工作中對(duì)定題信息監(jiān)測(cè)和采集的需求,總體達(dá)到可投入實(shí)際使用的標(biāo)準(zhǔn)。
4 結(jié)語
本研究在一定程度上實(shí)現(xiàn)了通過用戶個(gè)性化配置,對(duì)大量多源異構(gòu)信息源進(jìn)行自動(dòng)化定題監(jiān)測(cè)和采集的功能。在信息內(nèi)容與用戶關(guān)注度的匹配方面,通過使用自然語言處理的一些常用方法,有效提升監(jiān)測(cè)的精準(zhǔn)度,降低了用戶的工作量,實(shí)現(xiàn)對(duì)傳統(tǒng)定向定源監(jiān)測(cè)采集功能的優(yōu)化和改進(jìn)。并且在關(guān)鍵概念及實(shí)體的抽取過程中,同時(shí)支持新詞發(fā)現(xiàn)和部分機(jī)器學(xué)習(xí)的功能。在架構(gòu)上通過開發(fā)相關(guān)接口和提供詞典、語料及匹配規(guī)則的配置功能實(shí)現(xiàn)監(jiān)測(cè)采集功能與主平臺(tái)的解耦,支持在除IIBD以外的其他平臺(tái)中快速便捷地嵌入。
本研究仍存在很多不足和提升空間,如在關(guān)鍵概念及實(shí)體抽取以及相似匹配的部分,目前項(xiàng)目組正在研究將深度學(xué)習(xí)的一些算法和方法應(yīng)用進(jìn)去,用以提高監(jiān)測(cè)采集的智能化,進(jìn)一步提升精準(zhǔn)度,并以此提高監(jiān)測(cè)效率和降低人工成本。此外,單從采集功能角度來看,對(duì)基于復(fù)雜ajax技術(shù)構(gòu)建的情報(bào)源以及對(duì)微信開放公眾號(hào)的監(jiān)測(cè)采集的效果仍有待提升。以上問題和不足還需要通過進(jìn)一步學(xué)習(xí)和掌握相關(guān)技術(shù)、工具、方法來予以優(yōu)化和解決,從而對(duì)各類基于大數(shù)據(jù)概念構(gòu)建的專題競爭情報(bào)平臺(tái)提供更完善的監(jiān)測(cè)采集支持。
參考文獻(xiàn):
[1] 產(chǎn)業(yè)情報(bào)大數(shù)據(jù)平臺(tái)[DB/OL].[2018-05-08].http://tbea.llas.ac.cn/.
[2] Bar-Yossef Z,Rajagopalan S.Template detection via data mining and its Applications[C].In:Proceedings of the 11th International Conference on World Wide Web,Honolulu,Hawaii,USA. New York,USA:ACM,2002,5(10):580-591.
[3] 葉勤勇.基于URL規(guī)則的聚焦爬蟲及其應(yīng)用[D].杭州:浙江大學(xué),2007.
[4] 蔣付彬.基于決策樹的URL分類器算法及主題爬蟲平臺(tái)設(shè)計(jì)[D].成都:成都理工大學(xué),2016.
[5] 楊鎰銘.基于URL模式的網(wǎng)頁分類算法研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2016.
[6] Debnath S,Mitra P,Pal N,et al.Automatic identification of informative sections of Web pages[J].IEEE Transactions on Knowledge & Data Engineering,2009,17(9):1233-1246.
[7] 王浩.基于半監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)敏感信息識(shí)別[D].天津:天津大學(xué),2012.
[8] Pavlinek M,Podgorelec V.Text classification method based on self-training and LDA topic models[J].Expert Systems with Applications,2017(80):83-93.
[9] 李劍.基于DOM和神經(jīng)網(wǎng)絡(luò)的網(wǎng)頁凈化應(yīng)用[J].電子科技,2012(1):105-107.
[10] 李偉男,李書琴,景旭,等.基于模擬退火算法和二階HMM的Web信息抽取[J].計(jì)算機(jī)工程與設(shè)計(jì),2014,35(4):1264-1268.
[11] 謝方立.基于節(jié)點(diǎn)類型標(biāo)注的網(wǎng)頁主題信息提取技術(shù)研究[D].北京:中國農(nóng)業(yè)科學(xué)院,2016.
[12] 譚宗穎,王強(qiáng),蒼宏宇,等.科技發(fā)展前沿信息監(jiān)測(cè)與分析平臺(tái)的構(gòu)建[J].科學(xué)學(xué)研究,2010,28(2):195-201.
[13] 劉海波.動(dòng)態(tài)Web信息監(jiān)測(cè)相關(guān)技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2011.
[14] 張智雄,劉建華,謝靖,等.科技戰(zhàn)略情報(bào)監(jiān)測(cè)服務(wù)云平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代圖書情報(bào)技術(shù),2014(6):51-61.
[15] 謝靖,曲云鵬,劉建華.面向網(wǎng)絡(luò)科技監(jiān)測(cè)的分布式定向資源精確采集研究和應(yīng)用[J].現(xiàn)代圖書情報(bào)技術(shù),2011(Z1):26-31.
[16] 王思麗,馬建玲,王楠,等.開放知識(shí)資源的元數(shù)據(jù)自動(dòng)采集策略研究[J].圖書館學(xué)研究,2013(12):47-51.
[17] 王思麗,劉巍,祝忠明,等.基于CSpace的科技信息可配置化自動(dòng)監(jiān)測(cè)功能設(shè)計(jì)與實(shí)現(xiàn)[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017(10):85-93.
作者簡介:劉?。?980-),男,中國科學(xué)院蘭州文獻(xiàn)情報(bào)中心副研究館員;王思麗(1985-),女,中國科學(xué)院蘭州文獻(xiàn)情報(bào)中心館員;祝忠明(1968-),男,中國科學(xué)院蘭州文獻(xiàn)情報(bào)中心研究館員;吳志強(qiáng)(1985-),男,中國科學(xué)院蘭州文獻(xiàn)情報(bào)中心館員。