周萍,王壯思,萬冬陽
(91054部隊,北京,102442)
科技情報研究工作是根據(jù)現(xiàn)代化建設(shè)、軍事需求、國民經(jīng)濟和科學(xué)技術(shù)發(fā)展需要,運用科學(xué)的方法和現(xiàn)代信息技術(shù)手段,對與裝備建設(shè)有關(guān)的國內(nèi)外科技信息進行搜集、加工處理、分析和開展深入研究,進而為裝備建設(shè)的宏觀決策提供數(shù)據(jù)支撐和信息服務(wù)??萍记閳笱芯渴菄@數(shù)據(jù)開展的科學(xué)研究工作,數(shù)據(jù)是情報研究工作最寶貴的資源[1]。
隨著大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)以及互聯(lián)網(wǎng)新媒體等信息技術(shù)的發(fā)展,可獲取的數(shù)據(jù)信息量呈爆發(fā)式增長,這給科技情報工作的帶來了快速發(fā)展的機遇。同時,在數(shù)據(jù)量呈指數(shù)增長,數(shù)據(jù)類型多樣復(fù)雜的背景下,需要從海量數(shù)據(jù)中挖掘出有用的信息來開展情報研究工作,也是對科技情報工作新的挑戰(zhàn)。
以往的情報研究工作中,處理和分析的對象多為結(jié)構(gòu)化數(shù)據(jù)。隨著信息時代的到來,從互聯(lián)網(wǎng)上收集的數(shù)據(jù)中常是文本、視頻、音頻、圖片等半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),這類數(shù)據(jù)不支持常規(guī)的數(shù)據(jù)檢索,在數(shù)據(jù)的操作、處理和分析上有難度。大數(shù)據(jù)技術(shù)可實現(xiàn)對大量非結(jié)構(gòu)化數(shù)據(jù)的識別、清洗、整理、篩選,并最終將多源異構(gòu)數(shù)據(jù)統(tǒng)一為結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),從而能夠進行后續(xù)的數(shù)據(jù)分析和處理環(huán)節(jié)。通過大數(shù)據(jù)技術(shù)豐富數(shù)據(jù)來源和數(shù)據(jù)類型,極大的拓寬了情報研究工作的基礎(chǔ)數(shù)據(jù)。
以往的情報研究工作受機器的性能限制,數(shù)據(jù)分析和處理耗時長,處理精度不高。大數(shù)據(jù)技術(shù)具有分布式集群處理能力,極大的提高了系統(tǒng)的計算和存儲能力,具有實時計算、離線數(shù)據(jù)計算、批處理、流數(shù)據(jù)處理能力,實現(xiàn)TB級數(shù)據(jù)秒處理的指標。
以往的情報研究工作中,由于情報數(shù)據(jù)獲取渠道難,相關(guān)數(shù)據(jù)少,在形成情報研究結(jié)果時常常需要情報人員結(jié)合個人經(jīng)驗進行分析,導(dǎo)致最終形成的研究報告客觀性不夠。大數(shù)據(jù)技術(shù)提供了可靠的數(shù)據(jù)存儲方式,可以對海量情報數(shù)據(jù)和相關(guān)數(shù)據(jù)進行保存,同時大數(shù)據(jù)技術(shù)的數(shù)據(jù)挖掘工具,通過信息跟蹤、比較驗證等方式來提升情報質(zhì)量,分析數(shù)據(jù)間關(guān)聯(lián)度,建立情報信息的完整脈絡(luò),有效地避免了個人偏好等人為因素等人為因素的影響,增強了情報數(shù)據(jù)的系統(tǒng)性、科學(xué)性和客觀性[2]。
科技情報研究工作主要包括接收任務(wù)、進行情報數(shù)據(jù)采集、情報數(shù)據(jù)的預(yù)處理、情報數(shù)據(jù)分析和挖掘、情報研究結(jié)果展示等環(huán)節(jié),下面分別從這幾個環(huán)節(jié)介紹大數(shù)據(jù)技術(shù)在情報研究工作中的應(yīng)用,具體的數(shù)據(jù)流轉(zhuǎn)如下圖所示。
圖1 情報研究工作中數(shù)據(jù)流轉(zhuǎn)圖
情報數(shù)據(jù)的采集是從各個情報來源渠道通過不同技術(shù)手段來收集情報數(shù)據(jù)并進行匯總。從采集情報的數(shù)據(jù)渠道來說,可分為內(nèi)部渠道和互聯(lián)網(wǎng)渠道。內(nèi)部渠道是指自建的各類信息資源數(shù)據(jù)庫,集中訂閱或采購的期刊、文獻資料、內(nèi)部積累形成的各種研究報告工作手冊等。通過內(nèi)部渠道進行情報數(shù)據(jù)采集手段主要是人工錄入,數(shù)據(jù)庫導(dǎo)入等。
從互聯(lián)網(wǎng)渠道進行數(shù)據(jù)采集是指國內(nèi)外各類網(wǎng)站廣泛收集情報數(shù)據(jù),由于互聯(lián)網(wǎng)數(shù)據(jù)量巨大,傳統(tǒng)技術(shù)手段難以支撐采集工作,所以需要利用大數(shù)據(jù)技術(shù)手段。大數(shù)據(jù)技術(shù)中網(wǎng)絡(luò)爬蟲等數(shù)據(jù)采集工具可以高效、快速的進行情報數(shù)據(jù)的采集。網(wǎng)絡(luò)爬蟲軟件可以根據(jù)預(yù)設(shè)的關(guān)鍵詞和規(guī)則進行搜索,并對目標網(wǎng)站的內(nèi)容更新進行實時監(jiān)測和下載[3]。
互聯(lián)網(wǎng)上雖然數(shù)據(jù)量巨大,但充斥著大量的重復(fù)、冗余、錯誤的信息,因此采集到的初始情報數(shù)據(jù)包含大量無用的信息,為提高后續(xù)數(shù)據(jù)處理的正確性,需要對采集到的初始情報數(shù)據(jù)包進行數(shù)據(jù)預(yù)處理操作。
首先通過數(shù)據(jù)清洗、過濾等相關(guān)技術(shù),去除情報信息數(shù)據(jù)包中重復(fù)、無用、毀壞的數(shù)據(jù),,提高情報信息的有效性和可信度。然后對篩選過的情報數(shù)據(jù)包進行加工?;ヂ?lián)網(wǎng)中存儲著大量的文字、圖像、音視頻等非結(jié)構(gòu)化數(shù)據(jù),在數(shù)據(jù)加工階段,需要按照數(shù)據(jù)標準化規(guī)范統(tǒng)一各類多源異構(gòu)數(shù)據(jù)源。通過大數(shù)據(jù)技術(shù)將不同來源、不同結(jié)構(gòu)、甚至存在語義沖突的數(shù)據(jù)包進行加工處理,將異構(gòu)的數(shù)據(jù)轉(zhuǎn)換為具備統(tǒng)一語法和語義的通用數(shù)據(jù)模型。
在預(yù)處理階段還需要利用大數(shù)據(jù)技術(shù)建立一個可靠的、持久化存儲的數(shù)據(jù)中心,數(shù)據(jù)中心包括科技情報研究工作的所有過程和結(jié)果數(shù)據(jù)庫。大數(shù)據(jù)技術(shù)中,大批量非結(jié)構(gòu)化數(shù)據(jù)的持久化存儲主要依托于文件系統(tǒng)HDFS,對于結(jié)構(gòu)化數(shù)據(jù)的訪問和管理,少部分結(jié)構(gòu)化數(shù)據(jù)存放在傳統(tǒng)關(guān)系型數(shù)據(jù)庫MySQL中,大存儲量可應(yīng)用分布式列存儲數(shù)據(jù)庫HBase來完成。為了加快數(shù)據(jù)處理速度,還可以引入高性能Redis數(shù)據(jù)庫用于存儲內(nèi)存數(shù)據(jù)。
情報數(shù)據(jù)分析和挖掘是科技情報研究的核心工作,通過對采集到的情報數(shù)據(jù)進行科學(xué)分析,建立數(shù)據(jù)間相關(guān)性,梳理情報數(shù)據(jù)的脈絡(luò),挖掘潛在情報信息,最終形成高價值的情報研究報告。在以往科技情報研究工作中,情報人員需要對情報數(shù)據(jù)進行分析處理,然后結(jié)合自身的經(jīng)驗積累,進行綜合分析,最終形成專題報告。由于數(shù)據(jù)量不充足,情報數(shù)據(jù)分析和處理的往往停留在初步分析和淺層挖掘,同時,受情報人員知識素養(yǎng)的主觀因素影響,形成的研究結(jié)果的客觀性和綜合性還有待加強。
在情報數(shù)據(jù)分析和挖掘過程中,大數(shù)據(jù)技術(shù)中自然語言處理、信息關(guān)聯(lián)、智能分析等相關(guān)技術(shù),采用定量的科學(xué)分析方法,通過構(gòu)建知識圖譜、建立學(xué)習(xí)模型,結(jié)合數(shù)理統(tǒng)計的理論,模擬專家思維過程,實現(xiàn)對情報數(shù)據(jù)的關(guān)聯(lián)分析和深度挖掘。而大數(shù)據(jù)技術(shù)中數(shù)據(jù)融合算法可將多源異構(gòu)數(shù)據(jù)進行融合,運用社會網(wǎng)絡(luò)分析法、機器學(xué)習(xí)等技術(shù)對情報數(shù)據(jù)進行分析建模,反映情報數(shù)據(jù)的脈絡(luò),推斷情報數(shù)據(jù)的規(guī)律和發(fā)展趨勢。
科技情報研究工作最終要形成對特定技術(shù)領(lǐng)域相關(guān)技術(shù)情報工作的研究報告,而數(shù)據(jù)展示可以將研究報告的關(guān)鍵指標數(shù)據(jù)以圖形化形式直觀的表達出來,讓用戶能迅速掌握情報研究報告的核心內(nèi)容。以往的科技情報研究工作,可通過常規(guī)圖表繪制形式對研究結(jié)果進行展示。隨著互聯(lián)網(wǎng)上科技情報數(shù)據(jù)量的猛增,研究報告中的數(shù)據(jù)集也相應(yīng)增長,常規(guī)圖表難以支撐大批量的報告數(shù)據(jù)的展示。而大數(shù)據(jù)技術(shù)中數(shù)據(jù)可視化技術(shù),可對復(fù)雜多元的報告數(shù)據(jù)在很短的時間內(nèi)實現(xiàn)從抽象到可視化結(jié)構(gòu)的映射,通過數(shù)據(jù)聚合等操作,可以實現(xiàn)多種數(shù)據(jù)檢索方式,實現(xiàn)情報數(shù)據(jù)自定義范圍的可視化展示。
在提供決策支持方面,大數(shù)據(jù)技術(shù)支持對情報數(shù)據(jù)的動態(tài)跟蹤,對情報數(shù)據(jù)進行實時統(tǒng)計,通過定量分析與建設(shè)的方法,描繪情報數(shù)據(jù)的形成軌跡和趨勢走向圖,進行科學(xué)可靠的預(yù)測,為決策層提供數(shù)據(jù)支撐。
由于科研任務(wù)繁重,科技情報研究的日常工作中經(jīng)常會承擔(dān)臨時性任務(wù),通常要求在短時間內(nèi)要形成情報研究報告,這使得科技情報工作容易處于需求牽引的被動狀態(tài),不能開展前瞻性、主動性的情報研究,長期下去容易導(dǎo)致情報研究工作的價值不能有效發(fā)揮。因此有必要轉(zhuǎn)變服務(wù)理念,創(chuàng)新情報研究工作模式,從被動的接受需求轉(zhuǎn)變?yōu)橹鲃油扑托畔⒎?wù),通過深挖頂層需求,選取關(guān)鍵技術(shù)領(lǐng)域進行長期、主動的跟蹤和積累,形成多元化情報研究成果,提供具有精準性、創(chuàng)新性、前沿性的信息服務(wù),充分發(fā)揮科技情報對戰(zhàn)略決策及科研創(chuàng)新的牽引和支撐作用。
在以往的科技情報研究工作中,由于缺乏有效的資源共享機制,情報研究工作的相關(guān)資料和研究報告還是處于分散管理的狀態(tài),無法及時有效的傳遞已有信息資源,這會導(dǎo)致科技情報研究工作重復(fù)、耗時費力、效率較低,造成了信息資源的浪費。因此,有必要整合已有信息資源,建立科技情報信息資源共享平臺,通過搭建數(shù)據(jù)服務(wù)中心實現(xiàn)不同技術(shù)領(lǐng)域資源統(tǒng)一歸口管理,如專題資源庫,動態(tài)資訊庫等,確保情報資源的充分利用和深度共享。
大數(shù)據(jù)技術(shù)背景下,容易獲取數(shù)據(jù),另一方面也容易被獲取數(shù)據(jù)。在科技情報研究工作中要重點從技術(shù)防范上入手,深度學(xué)習(xí)和應(yīng)用大數(shù)據(jù)各方面技術(shù),比如通過應(yīng)用“反爬蟲”技術(shù)來防止技術(shù)數(shù)據(jù)被竊取。從物理安全和技術(shù)安全兩方面保障研究工作的開展,在安全保密的基礎(chǔ)上形成資源共享的信息安全環(huán)境。