張祥甫 閆仲秋
(1.海裝駐連云港地區(qū)軍代室,江蘇 連云港 222061;2.中船重工第七一六研究所,江蘇 連云港 222005)
科技情報工作是把科技知識和科技成果,通過組織加工后,準確、及時地提供給使用者的傳遞工作[1]。當前,科技情報工作已經(jīng)成為社會發(fā)展的重要推動力,是科研、生產(chǎn)、市場經(jīng)營、產(chǎn)業(yè)發(fā)展中的關(guān)鍵一環(huán)。
隨著大數(shù)據(jù)時代的到來,依靠有限的人力進行情報搜集的工作模式,已很難適應(yīng)市場和技術(shù)發(fā)展的要求。充分利用互聯(lián)網(wǎng)的優(yōu)勢,及時、全面、低成本地搜集科技情報,再結(jié)合人工研判加以分析處理,形成具有參考價值的情報資源,幫助科技部門開展新興產(chǎn)業(yè)發(fā)展的戰(zhàn)略情報研究,有助于加強科技資源整合利用、增強科技成果保護和轉(zhuǎn)化;同時也可為行業(yè)情報咨詢服務(wù)機構(gòu)、各級行業(yè)協(xié)會提供情報收集和分析輔助工具,提升其咨詢服務(wù)能力。
本文分析了科技情報研究的現(xiàn)狀,尤其是科技情報平臺架構(gòu)及功能規(guī)劃,設(shè)計了科技情報搜集與分析系統(tǒng),包括總體流程、系統(tǒng)功能和關(guān)鍵技術(shù)三大部分。本文的研究成果對基于科技情報搜集與分析系統(tǒng)的情報服務(wù)有重要的借鑒意義。
一些學(xué)者在科技情報的內(nèi)涵、存在的問題、發(fā)展趨勢、服務(wù)模式等方面開展了廣泛的研究。
王鵬[2]分析了科技情報在“互聯(lián)網(wǎng)+”環(huán)境下的發(fā)展趨勢,提出了科技情報團隊建設(shè)方案與“云”情報團隊的概念,闡釋了“云”情報團隊的內(nèi)涵與建設(shè)方向,認為情報服務(wù)必須從傳統(tǒng)物理層次的信息組織向認知層次的個性化知識組織轉(zhuǎn)變。
劉如[3]介紹了國內(nèi)情報機構(gòu)向智庫轉(zhuǎn)型的趨勢,構(gòu)建了面向智庫轉(zhuǎn)型的科技情報機構(gòu)知識服務(wù)體系。
周飛[4]介紹了大數(shù)據(jù)對科技情報服務(wù)的影響,分析了大數(shù)據(jù)時代科技情報工作者面臨的新時代問題,并對大數(shù)據(jù)時代背景下科技情報服務(wù)內(nèi)容和服務(wù)模式進行了探討。
黃宇康[5]分析了企業(yè)科技情報服務(wù)的發(fā)展現(xiàn)狀,提出了改善現(xiàn)狀的策略,包括建立企業(yè)科技情報服務(wù)系統(tǒng)、加強與第三方情報服務(wù)機構(gòu)的合作、建立靈活的工作機制及提高情報人員專業(yè)素質(zhì)等。
王娜等人[6]分析了國防軍工科研單位科技情報工作中存在的問題,提出了此類單位科技情報工作的思路和框架,包括培育多維度的情報人才隊伍,與科研設(shè)計人員協(xié)同開展情報研究,注重戰(zhàn)略情報跟蹤研究和臨時性情報咨詢的均衡協(xié)調(diào)發(fā)展,以及建立系統(tǒng)、完善的科技情報服務(wù)體系。
周曉英等人[1]采用文獻調(diào)研、網(wǎng)絡(luò)調(diào)查等方法對我國科技情報事業(yè)發(fā)展的歷史事件進行了全面梳理,提出了中國科技情報事業(yè)發(fā)展的5個方面的演變規(guī)律,包括從“情報—信息—多元范式的大情報”的演變、從“機構(gòu)服務(wù)”到“平臺服務(wù)”的演變、從“收集提供”到“分析挖掘”的演變、從“文獻資源”到“數(shù)字資源”再到“綜合數(shù)字資源”的演變、從“資源服務(wù)”到“方案服務(wù)”的演變。
錢虹[7]通過調(diào)查問卷與訪談研究了技術(shù)創(chuàng)新鏈條中各主體在不同創(chuàng)新階段的服務(wù)需求,構(gòu)建了資源與服務(wù)一體化的科技情報服務(wù)體系,實現(xiàn)了情報服務(wù)與用戶需求的精準對接。
科技情報工作的有效開展離不開信息化手段的支撐,一些學(xué)者圍繞科技情報平臺的構(gòu)建進行了深入的研究。
劉源[8]介紹了互聯(lián)網(wǎng)科技情報的采集與清洗、數(shù)據(jù)存儲與索引、數(shù)據(jù)的智能分析,闡述了自動獲取與智能分析平臺的技術(shù)實現(xiàn)路線。
李時玉等人[9]利用Hadoop平臺的分布式存儲和計算模型,基于Hadoop實現(xiàn)了科技情報大數(shù)據(jù)深度分析的實踐。
劉明月等人[10]認為基于人工智能的科技情報需求自動感知在未來會成為科技情報工作發(fā)展的潮流,提出了基于人工智能的科技情報需求自動感知研究方法,并就各個模塊提出了技術(shù)方案。
魯文帥等人[11]基于數(shù)據(jù)挖掘和人工智能技術(shù),給出了自動化采集分析平臺的總體設(shè)計,并從數(shù)據(jù)采集、預(yù)處理、歸集、展現(xiàn)、匯編等方面分模塊介紹了技術(shù)實現(xiàn)的方法。
吳素研等人[12]結(jié)合虛擬化、云平臺、高性能和人工智能等新一代信息技術(shù),設(shè)計了科技情報大數(shù)據(jù)業(yè)務(wù)平臺的總體架構(gòu),闡述了硬件層、虛擬層、支撐層和業(yè)務(wù)層的主要功能,搭建了基于Hadoop和HBase的大數(shù)據(jù)存儲平臺。
本文提出了科技情報搜集與分析系統(tǒng)的總體流程,如圖1所示。
圖1所示的流程中,科技情報系統(tǒng)分為情報采集、分析處理、情報處理和分類展示四大步驟。情報采集除了包含主流的文獻庫之外,各類網(wǎng)站、社交媒體也被納入其中,因為社交媒體已經(jīng)成為碎片化知識產(chǎn)生與傳播的主要載體。情報處理與一般意義的文本分析處理不一樣,強調(diào)的是情報報告生成、圖表分析及預(yù)警等功能。
圖1 科技情報搜集與分析系統(tǒng)的總體流程
針對科技情報工作的業(yè)務(wù)特點,融合互聯(lián)網(wǎng)信息采集與挖掘應(yīng)用技術(shù),本文設(shè)計的情報系統(tǒng)的功能如表1所示。
表1 情報系統(tǒng)的功能
2.3.1 基于規(guī)則的情報相關(guān)性判定技術(shù)
傳統(tǒng)的文本與規(guī)則的相關(guān)性,根據(jù)文本中規(guī)則詞之間特定位置關(guān)系來匹配判定,大致可分為同句判定、同字段判定和同文本判定等幾種傳統(tǒng)的判定方式雖然考慮了規(guī)則詞之間的位置關(guān)系,但沒有考慮到規(guī)則的類型及文本的類型,尤其是微博類的短文本,更加口語化、句子劃分不夠規(guī)整,影響了情報相關(guān)性的判定精度。
針對傳統(tǒng)方法的不足,基于規(guī)則的情報相關(guān)性判定技術(shù),首先判斷規(guī)則與情報標題的相關(guān)性;其次判斷規(guī)則與情報正文的相關(guān)性。該技術(shù)根據(jù)規(guī)則的核心詞、規(guī)則類型及正文類型,劃分正文文本句子,獲取最短距離句子集,判斷規(guī)則與最短距離句子集的相關(guān)性。根據(jù)規(guī)則與情報的標題及正文的相關(guān),獲得規(guī)則與情報的相關(guān)性。
2.3.2 基于波特五力模型的企業(yè)情報采集技術(shù)
企業(yè)為保持較強的競爭力,需密切關(guān)注行業(yè)情報。波特五力分析模型聚焦于企業(yè)競爭環(huán)境中五個核心要素,包括競爭者、供應(yīng)商、客戶、潛在進入者、替代性技術(shù)或商品。基于波特五力模型的企業(yè)情報采集技術(shù),全面分析企業(yè)競爭環(huán)境影響因素,構(gòu)建五力要素量化指標;將量化指標結(jié)合企業(yè)業(yè)務(wù)領(lǐng)域知識自動轉(zhuǎn)換為搜索規(guī)則;針對五個因素,從信息載體(新聞網(wǎng)、博客、論壇、微博、電子商務(wù)網(wǎng)站等)中采集有效信息;采用結(jié)構(gòu)化的抽取方式,抽取企業(yè)及產(chǎn)品相關(guān)屬性;對企業(yè)及產(chǎn)品屬性進行分析,自動發(fā)現(xiàn)競爭對手及同類產(chǎn)品;自動跟蹤競爭對手動態(tài)事件信息,生成專報進行預(yù)警。
2.3.3 基于本體的行業(yè)知識庫構(gòu)建技術(shù)
系統(tǒng)采用基于行業(yè)本體的知識庫構(gòu)建技術(shù),面向不同行業(yè)的構(gòu)建領(lǐng)域知識庫,提供Web模式的知識庫半自動構(gòu)建工具。通過對當前各行業(yè)科技情報規(guī)則詞的搜集整理,形成一套行業(yè)齊全、內(nèi)容全面、關(guān)系邏輯清晰的核心智能體。對行業(yè)進行區(qū)分,內(nèi)置多個行業(yè)的規(guī)則支持,包含各行業(yè)的相關(guān)特征詞,支持建立任意行業(yè)和子類,支持無限級劃分,子類下支持建立與、或、非關(guān)系的規(guī)則,規(guī)則數(shù)量不限。行業(yè)庫中包含企業(yè)基本信息、科技政策、產(chǎn)業(yè)發(fā)展、科研機構(gòu)等規(guī)則庫,同時提供信息篩選功能。
2.3.4 全面的科技情報監(jiān)測技術(shù)
系統(tǒng)聚焦于科技情報的七個方面,包括科技政策、產(chǎn)業(yè)發(fā)展、科技計劃、重大報告、研究機構(gòu)、專利、文獻。通過智能知識庫輔助構(gòu)建規(guī)則以及與中外專利數(shù)據(jù)庫、維普、知網(wǎng)、萬方、中國行業(yè)研究網(wǎng)、中國產(chǎn)業(yè)研究網(wǎng)、國務(wù)院發(fā)展研究中心資源庫等平臺合作,系統(tǒng)地采集與分析互聯(lián)網(wǎng)情報,得到的科技情報覆蓋面廣且針對性更強。
2.3.5 全網(wǎng)采集技術(shù)
系統(tǒng)支持定向采集和搜索采集相結(jié)合的情報采集方式,既可做到對企業(yè)情報信息的全面搜索,又可有針對性地對指定的論壇、博客、新聞、貼吧等媒體進行深度采集,還涵蓋新浪、騰訊等主流微博的站內(nèi)垂直搜索,對特定社交媒體用戶還可定點監(jiān)測,真正做到企業(yè)情報的全面采集。
2.3.6 URL規(guī)則匹配技術(shù)
系統(tǒng)采用URL規(guī)則與關(guān)鍵字規(guī)則相結(jié)合的方式,既可按關(guān)鍵字監(jiān)測,也可按定向URL與關(guān)鍵字組合監(jiān)測,使系統(tǒng)監(jiān)測方式更為靈活多變。系統(tǒng)根據(jù)用戶定義的搜索規(guī)則可自動發(fā)現(xiàn)滿足規(guī)則的網(wǎng)站,將其設(shè)為系統(tǒng)的全局黑名單,對這些網(wǎng)站上的信息進行自動屏蔽,減少采集過程中的無效信息。
本文在充分地調(diào)研與科技情報相關(guān)的系統(tǒng)的基礎(chǔ)上,結(jié)合大數(shù)據(jù)、社交媒體、移動互聯(lián)網(wǎng)、人工智能、精準推薦等新一代信息技術(shù),設(shè)計了面向科技情報應(yīng)用場景的情報采集與分析系統(tǒng)。本文的研究成果對科技情報搜集與分析系統(tǒng)的研發(fā),以及基于情報系統(tǒng)的科技情報服務(wù)有重要的借鑒意義,但如下問題還需進一步提升:(1)不同語言類型的情報融合問題;(2)個性化的情報服務(wù)推薦問題;(3)不同類型的情報分析問題,包括文本、圖片、音視頻,等等。