王永勝,劉亞麗,賈 楠,宗國(guó)浩,王 銳,王 迪,鄭新章,馮偉華
中國(guó)煙草總公司鄭州煙草研究院,鄭州高新技術(shù)產(chǎn)業(yè)開(kāi)發(fā)區(qū)楓楊街2 號(hào) 450001
科技文獻(xiàn)資源是重要的科技基礎(chǔ)條件[1],國(guó)家中長(zhǎng)期科學(xué)和技術(shù)發(fā)展規(guī)劃綱要(2006—2020)指出,科技投入和科技基礎(chǔ)條件平臺(tái)是科技創(chuàng)新的物質(zhì)基礎(chǔ),是科技持續(xù)發(fā)展的重要前提和根本保障。國(guó)家煙草專賣(mài)局在行業(yè)中長(zhǎng)期科技發(fā)展規(guī)劃綱要(2006—2020)中也提出,要充分利用現(xiàn)代信息技術(shù)手段,加強(qiáng)煙草科學(xué)數(shù)據(jù)平臺(tái)、科技文獻(xiàn)平臺(tái)、科技資源平臺(tái)和網(wǎng)絡(luò)科技環(huán)境平臺(tái)建設(shè)。而信息資源的有效利用是推動(dòng)行業(yè)自主創(chuàng)新的重要基礎(chǔ)[2],積極推進(jìn)信息化與煙草產(chǎn)業(yè)的深度融合,構(gòu)筑以“用戶為中心”的煙草文獻(xiàn)數(shù)據(jù)知識(shí)檢索服務(wù)平臺(tái)是推動(dòng)煙草文獻(xiàn)數(shù)據(jù)共享服務(wù)向智能化、精準(zhǔn)化、知識(shí)化轉(zhuǎn)型的重要舉措[3-4]。2000 年張曉林[5]提出知識(shí)服務(wù)的概念,即知識(shí)服務(wù)是用戶目標(biāo)驅(qū)動(dòng)的服務(wù),是面向知識(shí)內(nèi)容的服務(wù),是提出解決方案的服務(wù),是貫穿用戶解決問(wèn)題過(guò)程的服務(wù),也是能夠增值的服務(wù)。知識(shí)服務(wù)和信息服務(wù)雖本質(zhì)相同,但在服務(wù)程度上存在差別。信息服務(wù)是一種檢索和傳遞顯性知識(shí)的服務(wù),而知識(shí)服務(wù)是提供解決方案的智力服務(wù),可同時(shí)提供顯性和隱性知識(shí)。信息服務(wù)是知識(shí)服務(wù)的基礎(chǔ),知識(shí)服務(wù)是信息服務(wù)的深層次服務(wù),是信息服務(wù)的升華[6]。中國(guó)知網(wǎng)、萬(wàn)方數(shù)據(jù)知識(shí)服務(wù)平臺(tái)、維普、超星等機(jī)構(gòu)的數(shù)據(jù)庫(kù)均擁有海量的文獻(xiàn)數(shù)據(jù)資源,面向互聯(lián)網(wǎng)用戶提供各類文獻(xiàn)數(shù)據(jù)資源的信息檢索和知識(shí)服務(wù)[6]。煙草文獻(xiàn)數(shù)據(jù)是煙草行業(yè)重要的數(shù)據(jù)資源,包含中外文煙草期刊論文、會(huì)議論文、學(xué)位論文、科技成果、國(guó)內(nèi)外專利、標(biāo)準(zhǔn)、科技信息、科技圖書(shū)、法律法規(guī)和設(shè)備樣本等數(shù)據(jù)。近年來(lái),隨著信息技術(shù)的發(fā)展,煙草行業(yè)對(duì)科技信息資源的需求已從單純的資源獲取演變?yōu)閿?shù)據(jù)知識(shí)服務(wù)[7-9],滿足行業(yè)科技人員資源檢索和知識(shí)服務(wù)的需求已成為亟待解決的問(wèn)題。為此,通過(guò)對(duì)煙草文獻(xiàn)數(shù)據(jù)資源進(jìn)行結(jié)構(gòu)化和碎片化處理,利用大數(shù)據(jù)分析和自然語(yǔ)言處理(Natural Language Processing,NLP)技術(shù)構(gòu)建了煙草文獻(xiàn)數(shù)據(jù)知識(shí)檢索服務(wù)平臺(tái),以期促進(jìn)煙草文獻(xiàn)的知識(shí)化整合,滿足行業(yè)科技人員對(duì)文獻(xiàn)信息資源更深層次的知識(shí)需求,為推動(dòng)煙草行業(yè)科技創(chuàng)新提供支持。
煙草文獻(xiàn)數(shù)據(jù)知識(shí)服務(wù)平臺(tái)基于B/S 架構(gòu)進(jìn)行設(shè)計(jì),遵循J2EE開(kāi)發(fā)標(biāo)準(zhǔn)規(guī)范并采用前后端分離的開(kāi)發(fā)模式。前端主要采用LayUI、JQuery 等框架,數(shù)據(jù)檢索采 用 SolrCloud 構(gòu) 建索引[10];后 端采用RESTFUL API 接口技術(shù),通過(guò)JSON 實(shí)現(xiàn)與前臺(tái)的數(shù)據(jù)交互。結(jié)構(gòu)化數(shù)據(jù)采用Oracle 數(shù)據(jù)庫(kù)存儲(chǔ),非結(jié)構(gòu)化數(shù)據(jù)采用FastDFS分布式文件系統(tǒng)存儲(chǔ)。
系統(tǒng)體系架構(gòu)主要分為數(shù)據(jù)層、服務(wù)層和應(yīng)用層,見(jiàn)圖1。數(shù)據(jù)層為上層應(yīng)用提供數(shù)據(jù)支撐,包括煙草學(xué)科領(lǐng)域的中外文期刊、會(huì)議論文、學(xué)位論文、科技成果、國(guó)內(nèi)外專利、煙草標(biāo)準(zhǔn)、科技信息、科技圖書(shū)、法律法規(guī)和設(shè)備樣本等文獻(xiàn)數(shù)據(jù)資源庫(kù);服務(wù)層包括數(shù)據(jù)處理和知識(shí)加工兩個(gè)模塊,數(shù)據(jù)處理模塊完成采集、清洗、融合、加工等功能,知識(shí)加工模塊完成索引構(gòu)建、文本提取、語(yǔ)義識(shí)別、統(tǒng)計(jì)分析、可視化展示等功能;根據(jù)服務(wù)層提供的知識(shí)資源整合服務(wù),應(yīng)用層實(shí)現(xiàn)煙草文獻(xiàn)數(shù)據(jù)資源的智能檢索、智能推薦、智能分析、科技評(píng)價(jià)以及查新查重等功能,并設(shè)置熱點(diǎn)專題和個(gè)人中心模塊。此外,系統(tǒng)公共組件還包括爬蟲(chóng)服務(wù)、資源加工、檢索服務(wù)、賬戶管理、日志監(jiān)控、權(quán)限控制以及規(guī)則庫(kù)管理等模塊。
圖1 系統(tǒng)體系架構(gòu)Fig.1 System architecture diagram
系統(tǒng)業(yè)務(wù)流程包括文獻(xiàn)數(shù)據(jù)采集、整合、加工、審核發(fā)布、知識(shí)庫(kù)構(gòu)建、知識(shí)分析應(yīng)用等部分,見(jiàn)圖2。數(shù)據(jù)來(lái)源主要有互聯(lián)網(wǎng)上離散的煙草文獻(xiàn)數(shù)據(jù)、行業(yè)內(nèi)非結(jié)構(gòu)化文本數(shù)據(jù)、已有業(yè)務(wù)系統(tǒng)存儲(chǔ)的文獻(xiàn)數(shù)據(jù)以及其他文獻(xiàn)數(shù)據(jù)。這些海量的煙草文獻(xiàn)數(shù)據(jù)經(jīng)過(guò)采集、碎片化處理、自動(dòng)化導(dǎo)入和手動(dòng)錄入等方式實(shí)現(xiàn)了異構(gòu)文獻(xiàn)資源的集成,再經(jīng)過(guò)融合、去重、清洗、標(biāo)引等知識(shí)加工處理后由相應(yīng)人員審核并發(fā)布到緩存庫(kù)。索引管理中心針對(duì)緩存庫(kù)中的元數(shù)據(jù)和全文數(shù)據(jù)構(gòu)建主題索引和專題索引。文獻(xiàn)檢索分析引擎通過(guò)檢索與分析接口對(duì)檢索結(jié)果進(jìn)行合并、排序、分類和分析等處理,為用戶提供文獻(xiàn)檢索、知識(shí)展示、智能分析、科技評(píng)價(jià)等服務(wù)。
圖2 系統(tǒng)業(yè)務(wù)流程Fig.2 System process diagram
系統(tǒng)以煙草文獻(xiàn)數(shù)據(jù)為基礎(chǔ),采用數(shù)據(jù)融合、文本分析、知識(shí)挖掘、文獻(xiàn)計(jì)量等技術(shù),對(duì)煙草文獻(xiàn)資源進(jìn)行知識(shí)挖掘和知識(shí)關(guān)聯(lián)分析,從廣度和深度上揭示文獻(xiàn)資源的隱性信息。系統(tǒng)核心功能模塊見(jiàn)圖3。
圖3 系統(tǒng)核心功能模塊Fig.3 System core function modules
針對(duì)期刊、科技成果、專利、標(biāo)準(zhǔn)等煙草文獻(xiàn)資源,采用先進(jìn)的檢索技術(shù)和知識(shí)發(fā)現(xiàn)算法,實(shí)現(xiàn)了模糊檢索、語(yǔ)義檢索、意圖識(shí)別、以圖搜索等多種智能檢索服務(wù)。此外,采用精準(zhǔn)的知識(shí)聚類和篩選機(jī)制,開(kāi)展學(xué)科分布、收錄分布、機(jī)構(gòu)篩選等自動(dòng)聚類服務(wù),實(shí)現(xiàn)了文獻(xiàn)檢索結(jié)果的細(xì)化和分層顯示,幫助用戶在海量資源中快速、精準(zhǔn)地定位到最佳匹配結(jié)果,提升用戶獲取和利用知識(shí)的能力。文獻(xiàn)智能檢索服務(wù)功能頁(yè)面見(jiàn)圖4。
圖4 文獻(xiàn)智能檢索服務(wù)頁(yè)面Fig.4 Intelligent retrieval of literature resources
為幫助用戶把握國(guó)內(nèi)外研究主題的分布趨勢(shì),探究研究主題滲透的學(xué)科領(lǐng)域,發(fā)現(xiàn)研究主題的相關(guān)學(xué)者和代表機(jī)構(gòu)等內(nèi)容,從學(xué)術(shù)產(chǎn)出、學(xué)術(shù)影響、發(fā)文趨勢(shì)、學(xué)科分布、期刊分布、代表學(xué)者、基金資助、代表機(jī)構(gòu)以及最新文獻(xiàn)等方面對(duì)檢索主題詞進(jìn)行多維度、全方位分析,并借助數(shù)據(jù)可視化技術(shù)展示研究主題的知識(shí)脈絡(luò)。針對(duì)煙草科研活動(dòng)的特點(diǎn)和規(guī)律,結(jié)合煙草行業(yè)科技創(chuàng)新評(píng)價(jià)原則,研究制定了涵蓋科技項(xiàng)目、科技成果、科技獎(jiǎng)勵(lì)、學(xué)術(shù)論文、專利、標(biāo)準(zhǔn)、著作等評(píng)價(jià)指標(biāo)的煙草機(jī)構(gòu)和科研人員綜合性評(píng)價(jià)指標(biāo)體系,實(shí)現(xiàn)了煙草機(jī)構(gòu)和人員科研能力的綜合評(píng)價(jià)功能??萍挤治雠c評(píng)價(jià)服務(wù)功能頁(yè)面見(jiàn)圖5。
圖5 科技分析與評(píng)價(jià)服務(wù)頁(yè)面Fig.5 Scientific and technological analysis and evaluation
基于細(xì)粒度、碎片化、結(jié)構(gòu)化的煙草文獻(xiàn)知識(shí)元,圍繞作者、機(jī)構(gòu)、期刊、參考文獻(xiàn)、關(guān)鍵詞等內(nèi)容構(gòu)建煙草知識(shí)脈絡(luò),實(shí)現(xiàn)了煙草知識(shí)多維度、全方位的知識(shí)智能擴(kuò)展服務(wù),包括概念擴(kuò)展、同義詞擴(kuò)展、相關(guān)熱詞、相關(guān)文獻(xiàn)、合作網(wǎng)絡(luò)、學(xué)者知識(shí)脈絡(luò)等功能。其中,學(xué)者知識(shí)脈絡(luò)可以提供學(xué)者文獻(xiàn)引用情況、學(xué)術(shù)關(guān)鍵詞、學(xué)術(shù)成果趨勢(shì)分析、代表性合作學(xué)者及科研產(chǎn)出詳細(xì)列表等服務(wù)。學(xué)者知識(shí)脈絡(luò)功能頁(yè)面見(jiàn)圖6。
圖6 學(xué)者知識(shí)脈絡(luò)服務(wù)頁(yè)面Fig.6 Scholar knowledge vein
采用SolrCloud 分布式搜索技術(shù),構(gòu)建了煙草文獻(xiàn)統(tǒng)一檢索引擎,實(shí)現(xiàn)了中文期刊資源庫(kù)、外文期刊資源庫(kù)、中國(guó)專利資源庫(kù)、國(guó)外專利資源庫(kù)、科技成果資源庫(kù)、煙草標(biāo)準(zhǔn)資源庫(kù)等12 種文獻(xiàn)資源庫(kù)的統(tǒng)一檢索。SolrCloud 是一種基于Solr 和Zookeeper 的分布式搜索方法,具有中心化集群配置、自動(dòng)容錯(cuò)、近實(shí)時(shí)搜索、查詢時(shí)自動(dòng)負(fù)載均衡等特點(diǎn)[11]。在進(jìn)行檢索時(shí),SolrCloud 先將索引數(shù)據(jù)進(jìn)行Shard 分片,每個(gè)分片均由多臺(tái)服務(wù)器共同完成;當(dāng)接收到索引或搜索請(qǐng)求時(shí)分別在不同Shard服務(wù)器中操作,提供檢索服務(wù)。采用SolrCloud 分布式搜索技術(shù)可使全文檢索準(zhǔn)確度達(dá)到97%以上。
按照已制定的標(biāo)準(zhǔn)格式或規(guī)則,采用中文分詞、自動(dòng)標(biāo)引等文獻(xiàn)碎片化處理技術(shù)對(duì)煙草科技文獻(xiàn)的PDF 文件進(jìn)行處理。依據(jù)文獻(xiàn)標(biāo)注模型,根據(jù)中文文本版面的特征規(guī)律,自動(dòng)完成文檔的碎片化和結(jié)構(gòu)化,主要包括元數(shù)據(jù)標(biāo)引,文章的篇、章、節(jié)結(jié)構(gòu)分析和拆分,自動(dòng)提取文本中的段落、圖片、表格、公式等內(nèi)容,實(shí)現(xiàn)PDF 文檔版面的自動(dòng)識(shí)別和結(jié)構(gòu)化解析,并生成具有統(tǒng)一格式、統(tǒng)一命名規(guī)范和組織規(guī)范的結(jié)構(gòu)化數(shù)據(jù)[12]。此外,利用文獻(xiàn)碎片化工具還可生成XML結(jié)構(gòu)及附圖,方便與其他業(yè)務(wù)系統(tǒng)進(jìn)行交互及數(shù)據(jù)的二次加工。
文本關(guān)鍵詞是指能夠表達(dá)文檔中心內(nèi)容的詞語(yǔ)[13-14]。在信息檢索中,準(zhǔn)確提取關(guān)鍵詞可以大幅度提升檢索效率;在知識(shí)推薦中,關(guān)鍵詞的發(fā)現(xiàn)有助于獲取主題思想。在煙草文獻(xiàn)數(shù)據(jù)的文本預(yù)處理階段,采用詞向量聚類加權(quán)的TextRank 算法、LDA(Latent Dirichlet Allocation)算法等關(guān)鍵詞提取技術(shù),通過(guò)提取文本中的學(xué)者、機(jī)構(gòu)等信息以及文獻(xiàn)相關(guān)主題詞,可以為合作關(guān)系網(wǎng)絡(luò)的發(fā)現(xiàn)、文獻(xiàn)標(biāo)簽體系的構(gòu)建、學(xué)術(shù)關(guān)鍵詞的提取以及研究熱點(diǎn)主題詞分析等提供技術(shù)保障。
文獻(xiàn)共引是指兩篇文獻(xiàn)同時(shí)被另外一篇或多篇論文引用的關(guān)系[15]。采用共引加權(quán)算法從文獻(xiàn)的標(biāo)題、摘要、作者、關(guān)鍵詞等內(nèi)容中提取特征詞構(gòu)建特征向量,利用共引加權(quán)的相似度計(jì)算函數(shù)計(jì)算特征向量間的相似度,得到文獻(xiàn)相似度矩陣,進(jìn)而實(shí)現(xiàn)共引文獻(xiàn)的聚類分析。該技術(shù)可以揭示學(xué)科內(nèi)部的相互關(guān)系以及研究熱點(diǎn)的發(fā)展脈絡(luò)[16]。
基于大數(shù)據(jù)和自然語(yǔ)言處理等技術(shù),采用先進(jìn)的檢索技術(shù)和知識(shí)發(fā)現(xiàn)算法,結(jié)合知識(shí)圖譜可視化分析技術(shù),對(duì)煙草文獻(xiàn)數(shù)據(jù)資源進(jìn)行了深度融合與分析,研究構(gòu)建了煙草文獻(xiàn)數(shù)據(jù)知識(shí)檢索服務(wù)平臺(tái),可實(shí)現(xiàn)煙草科技文獻(xiàn)的智能檢索、科技分析與評(píng)價(jià)、知識(shí)智能擴(kuò)展等功能,提高了煙草學(xué)科領(lǐng)域文獻(xiàn)資源的整合能力、信息檢索能力、知識(shí)精準(zhǔn)定位能力以及領(lǐng)域知識(shí)分析能力。該平臺(tái)目前還處于發(fā)展和完善中,在知識(shí)服務(wù)方面仍存在許多有待研究和改進(jìn)之處,未來(lái)將圍繞煙草行業(yè)科技創(chuàng)新發(fā)展布局和科研工作知識(shí)服務(wù)需求,從科研項(xiàng)目選題定題、煙草百科、領(lǐng)域?qū)<抑悄芡扑]等方面入手,進(jìn)一步開(kāi)展相關(guān)研究,推動(dòng)煙草文獻(xiàn)數(shù)據(jù)共享服務(wù)向全面的知識(shí)服務(wù)轉(zhuǎn)型。