汪雅君 劉亦卓 臧建國 石 進
(1.南京大學信息管理學院 南京 210023; 2.南京森林警察學院偵查學院 南京 210023)
隨著信息技術的發(fā)展,信息數據規(guī)模呈幾何式增長,數據結構越來越呈現(xiàn)出復雜多源、異構化的趨勢,面向大數據進行數據挖掘、知識獲取和有效利用成為了眾多學科研究領域關注的焦點。情報作為被傳遞和使用的知識,是從數據和大量一次信息中通過情報分析方法獲取的有價值的、簡明扼要的二次或三次信息。在情報學領域,情報分析是挖掘情報和實現(xiàn)情報價值的重要手段。隨著情報3.0時代的到來,情報的主要獲取途徑由紙本文獻變?yōu)榫W絡空間中存在的非結構化數據,這就要求情報分析的方式也做出相應的改進。在大情報觀的指引下,情報分析不僅服務于科技與安全領域,還廣泛應用于社會、經濟、文化等領域,越來越多的非情報學領域專家根據在原本專業(yè)領域積累的知識儲備,為情報分析工作提供一定的理論支撐。一般來講,情報分析工作的完成需要專業(yè)的情報分析人員采用特定的情報分析技術和方法,對相關信息進行采集、處理、分析等一系列的加工過程后,才能產生最終的情報分析產品,整個過程需要耗費較長的時間。對于不具備情報學相關知識背景和未掌握情報分析方法技能的人來說,在進行情報分析任務時會遇到極大的門檻,需要專業(yè)情報分析人員的輔助。
情報學的研究重點之一是在復雜的數據中進行情報知識的挖掘。隨著信息技術的迅速發(fā)展及大數據技術在情報學領域的廣泛應用,情報學研究涉及到的數據形式、來源、處理方式以及應用場景都發(fā)生了改變,應用大數據和人工智能技術的信息分析、處理與利用成為情報學體系的重要部分。然而,各領域對情報分析的需求日益旺盛,但是對于情報分析工作所需的專業(yè)知識與技能普遍缺乏,這樣的矛盾導致情報源與情報用戶間的阻隔越來越大,情報分析人員在其中起到了橋梁的作用。在這個新興技術飛速發(fā)展的時代,我們應當充分發(fā)揮技術的作用,減輕情報分析人員的負擔。
一般來說,情報分析研究的方法可以分為邏輯方法、數學方法和具有情報學特點的分析方法三大類[1]。前兩種研究方法大多取材于自然科學和社會科學的研究方法,是一般的科學方法。第三種方法具有創(chuàng)新性,具有情報學的特點,能極大地推動情報分析領域的發(fā)展,尤其值得我們研究。本研究將軟件構件技術引入情報分析領域,提出了情報分析構件化的思想,詳細闡述了情報分析構件化的應用及優(yōu)勢,說明了情報分析構件化的重要性和必要性,討論其應用于情報分析研究領域的可能途徑,為情報分析提供一條新的思路。
1.1情報學發(fā)展方向大數據時代新興信息技術的迅猛發(fā)展為情報學的發(fā)展提供了新的養(yǎng)料,情報學與時俱進才能迸發(fā)出新的活力。經筆者總結,情報學的發(fā)展有三個重要方向:情報理論革新化、情報工作主動化、學科體系擴大化。
情報理論革新化:許多傳統(tǒng)的情報學基礎理論需要進一步深化發(fā)展。例如情報學文獻計量領域中的幾個經典的基本定律——齊夫定律、文獻增長定律、布拉德福定律和文獻老化定律應當在新環(huán)境下得到創(chuàng)新和發(fā)展。全新的數據和技術環(huán)境為新情報理論的誕生提供了沃土,作為交叉學科的情報學,其基礎理論的發(fā)展也離不開對相關學科理論的吸納和借鑒。
情報工作主動化:情報分析人員應當主動開展情報工作,適用結合大數據技術的情報分析手段,主動搜集開源或非開源的相關信息,挖掘有價值的情報,提交給相關部門,從而主動引領決策。新時期用戶的情報需求可能會相對模糊,海量的數據為滿足多樣化的情報需求提供了有利的數據條件。情報分析人員可以圍繞情報主題,借助新興技術和多種數據源,廣泛搜集相關數據,經過進一步的處理和分析,發(fā)現(xiàn)有價值的情報后,提供給用戶進而輔助決策。
學科體系擴大化:各領域專家可以共同努力將相關學科的基礎理論注入情報學領域,重新構建學科體系,以情報學基礎理論為根基,形成如情報經濟學、情報管理學等交叉學科。情報工作的各個流程將引入更多的智能技術,因此將更加注重與計算機科學、電子科學等工科學科的交叉融合。情報經濟人才、情報管理人才等多種復合式情報人才的培養(yǎng)將成為未來情報學領域主流的人才培養(yǎng)模式,對智能技術的使用也將成為新時期情報分析人員的必備技能。
現(xiàn)有研究對情報學的發(fā)展方向做了很多相關的有益探討,岳增慧等[2]從學科交叉領域的方面出發(fā),認為情報學未來的發(fā)展與計算機科學的交叉將越來越緊密,需要增大學科輻射能力,借鑒計算機學科領域中的研究工具和方法,引入較為先進的理論與模型;馬費成等[3]認為大數據環(huán)境下,隨著數據結構、數據獲取方式的變化,情報學需要主動抓住機遇,應充分利用一些較為先進的數據挖掘、數據處理及可視化等技術,注重多學科復合,加強情報分析手段,提高情報分析的效率;甘翼等[4]結合大數據及人工智能技術的發(fā)展,提出了一種結合這兩類新技術的情報分析技術體系架構,以應對當前情報分析領域存在的認識誤區(qū)及情報學面臨的挑戰(zhàn);曾建勛[5]通過研究大數據技術在知識領域的發(fā)展現(xiàn)狀,認為情報學面臨著更加復雜的數據網絡、更先進的數據分析方法及日益精準的用戶需求,進而從四個方面分析了情報學新的核心內涵,分析了情報學變革的體系框架;王知津等[6]認為在大數據時代,情報學需要改變的內容有研究內容、方法、技術及模式,引入管理學、軍事學的理論與方法,不需改變的內容有根本任務、研究對象、學科及工作邊界。
情報學研究已經進入3.0時代。張慶普等[7]通過分析當前共生網絡、智慧網絡等特征,探討了情報學存在的九大問題,詮釋了情報學創(chuàng)新的內涵;時艷琴等[8]通過對情報學三個時代的情報載體、情報任務等方面的比較分析,認為在情報3.0時代的挑戰(zhàn)主要在于需對海量供情報分析的原始數據進行信息研判,需要使用智能化情報分析工具輔助專家進行分析。在情報進入3.0時代之后,數據量產生了爆炸式增長,情報分析手段由以人工為主變?yōu)橐杂嬎銠C為主、情報專家為輔,情報機構需要針對不同領域的場景采用先進的情報分析手段和工具。
1.2知識距離知識距離(Knowledge Distance)是在研究知識的交換、轉移、共享等問題時經常被提到的概念,張莉等[9]指出知識距離是指知識轉移的雙方在知識基礎上的差距或雙方所掌握知識的相異程度。知識距離客觀存在于知識源和知識受體之間,這在一定程度上由不同領域差異程度,即社會分工的高度專業(yè)化決定;同時相同領域內的知識距離也不可忽略,同種領域內知識水平差距較高時,知識轉移的難度也隨之加大。在知識轉移的過程中,知識距離具有重要的作用。知識距離越小,知識轉移成功率和效率就會越高,反之亦然;而且,在其他條件確定的情況下減小知識距離有利于組織成功且高效率地從數據中獲取有效的信息和知識[9]。
知識距離是科學技術知識的獲取可行性和連續(xù)性的決定性因素。Liyanage與Barnard[10]認為先驗知識有助于企業(yè)吸收新知識,并以知識距離的相對值來量化企業(yè)先驗知識的價值,發(fā)現(xiàn)當知識距離最小化且知識轉移過程具有高吸收能力值時,核心先驗知識在知識體系間的轉移有較高的可行性。Qian等[11]假設知識距離滿足所有知識結構上距離空間的三個屬性,使用知識距離計算同個知識庫內不同知識結構的差異性,以此方式來從知識庫中發(fā)現(xiàn)新知識與建立顆粒性計算框架。Capald等[12]通過引入權變理論的觀點,討論創(chuàng)新的科學價值隨知識成熟度的變化,進一步提出地理距離較遠的知識融合能夠增強知識成熟度的價值貢獻,而技術距離較遠的知識則會減輕這種價值。
知識距離具有兩個維度屬性:Turner等[13]認為知識有兩個特性,即知識深度與知識寬度(廣度)。知識深度指某一專業(yè)領域中的知識含量,反映了不同知識主體在專業(yè)領域內知識水平的差異程度,即專業(yè)化程度的差距。知識寬度指的是知識的多樣性,面向對象為不同領域的主體;通常是知識結構上的差異,這種差異由知識主體的知識多樣性決定,知識種類或領域差別越大,則知識寬度距離越大。
文中提及的知識距離同時包括知識寬度距離與深度距離,在情報分析的過程中可具體細分為可供分析的各種原始數據之間的距離(Data to Data,D2D)、各種構件中間結果之間的距離(Component to Component,C2C)、數據到各領域分析人員的距離(Data to Analyser,D2A)以及不同領域分析人員需要的知識之間的距離(Analyser to Analyser,A2A)。在本文中,認為知識轉移過程中的原始發(fā)送方為原始數據,包括互聯(lián)網信息、原始文獻等,知識最終接收方為專業(yè)情報分析人員;在這個過程中,不同功能的構件之間同樣存在知識距離,只有當知識距離足夠小時,構件與構件之間、構件與人之間才可以進行交互與轉化。此時可以認為知識發(fā)送方的某類知識要素水平大于知識接收方,即原始數據包含的知識要素與情報分析人員的知識水平和知識獲取方式之間存在較大的知識距離,要提高知識轉移的效率就需要減小此段知識距離。通過縮短知識距離,并進行知識整合、知識再創(chuàng)造與情報抽取,提高知識網絡中知識轉移的效率。
1.3構件技術構件概念最早起源于建筑工程領域,是指組成建筑結構的各個單元體,在實際的建筑工程中,施工人員不必了解各構件的組成結構和生產方式,只需掌握各構件的性能和使用方法,即可完成建筑物的建造。計算機領域中的構件是指具有一定功能并且能夠獨立工作或能同其他構件裝配起來協(xié)調工作的程序體[14],通過對已有的構件進行組合實現(xiàn)某種功能,能夠開發(fā)新的服務或軟件。從廣義上來說,構件有如下幾個基本屬性[15]:
a.構件是可獨立配置的具有獨立功能和接口的單元,必須自包容;
b.強調與環(huán)境和其他構件的分離,因而構件是嚴格封裝的,內部細節(jié)不對外顯示;
c.構件可以被復合使用,需要提供清晰的接口規(guī)范,可與環(huán)境交互;
d.構件不應當是持續(xù)的,即構件沒有個體特有的屬性。
從以上屬性可看出,構件繼承了對象的封裝特性,但又并非局限于對象,其內部可以封裝一個或多個類、原型對象甚至過程,其結構是靈活的。鐘林輝等[16]以構件作為軟件演化度量的基本單位,提出了一組適用于構件以及軟件系統(tǒng)演化度量的公式;孫亞男[17]等使用構件化系統(tǒng)開發(fā)思想,在項目管理體系研究中將項目開發(fā)分解為多個構件:流程、活動、角色、工件等;鐘林輝[18]以本體概念表示構件化軟件演化信息的策略,使用Jena推理機實現(xiàn)構件化軟件演化信息的獲?。恢苠\程[19]等對MIS管理信息系統(tǒng)領域對象特征進行分析,基于領域模型進行了體系結構設計,基于構件技術的分層體系結構能夠有利于系統(tǒng)開發(fā)的細?;?/p>
總體來看,無論是建筑工程領域的建筑構件還是計算機領域的軟件構件,它們的產生背景都是基本相似的,都是由于市場對相關產品(建筑物和軟件)的需求量急劇增加而導致相應的構件誕生。情報分析工作目前面臨的情況也是如此,隨著社會的發(fā)展,情報學的研究領域逐漸擴大,用戶的情報分析需求復雜多樣,傳統(tǒng)的由情報分析人員主導的情報分析流程難以適應巨大的用戶需求量,并且其情報分析結果專業(yè)性較強,對于非情報學領域的用戶來說理解難度較大。因此,在建筑構件和軟件構件的啟發(fā)下,本文提出了情報分析構件化概念,目的在于使各領域的情報分析人員無需接觸到對數據的一些基礎處理,通過調用情報分析構件,將原始數據處理轉化為領域內專家或情報分析人員能夠直接處理或便于利用的知識形式,從而縮小數據與專家之間的知識距離,提高知識轉移與知識發(fā)現(xiàn)的效率。
情報分析構件化是指為解決特定領域的情報問題,以情報知識和領域知識為指導,按照用戶的情報分析需求,采用一定的信息組織、分析和可視化等技術方法對情報問題相關原始數據進行分析并開發(fā)相應構件,將情報分析結果最終以易于理解的方式呈現(xiàn)給該領域專家,進而在此基礎上更好地輔助他們進行情報分析。在本文中,構件不只是簡單的功能模塊,而是面向情報分析的情報構件(Intelligent Ware, Iware),其與傳統(tǒng)意義上構件的區(qū)別在于,在宏觀層面Iware不僅包括軟件構件,還包括人的操作,即在情報分析構件化的過程中,需要人的配合;而且Iware并非是從功能出發(fā),而是從情報知識出發(fā),每一層次的問題都由合適的人或機器進行解決。
2.1情報分析構件化模型Iware分為通用構件和領域構件,構件化整體模型如圖1所示。通用構件中包括信息采集構件、信息處理構件和簡單的信息分析構件,適用于所有領域。領域構件中包括各領域的專用分析構件,適用于不同領域專家的分析需求。
圖1 情報分析構件化模型
通用構件的目的為對網絡上或文獻中的原始數據進行獲取,包括但不限于完成信息采集、處理和初步分析的任務。原始數據中包含的知識源到領域知識的距離按層級縮小,構件開發(fā)專家為每一層級構件的開發(fā)、選取、整合制定相應的指導性規(guī)則,這也體現(xiàn)了人在構件化情報分析過程中的作用。使用主題抽取、文本分類、實體及關系識別等自然語言處理技術抽取出原始數據中存在的知識,并以結構化或半結構化的形式存儲此類經過初步處理的信息。此部分工作將傳統(tǒng)數據挖掘技術進行封裝實現(xiàn)Iware,以方便調用。在通用構件對數據進行初步加工后,針對不同的領域,例如歷史學、法學等研究領域的特點,進行單獨的構件設計和實現(xiàn)。通用構件信息處理的過程對領域專家不可見,對領域專家而言,其直接獲取到的知識數據為處理后的領域知識,可以使用領域情報構件對該知識進行進一步加工處理。領域構件的功能為針對每個領域的知識特征,將半結構化的信息轉變?yōu)榭晒┣閳蠓治鋈藛T或專家直接分析的知識。模型主要有以下特點:
a.系統(tǒng)內部兩級分工:系統(tǒng)由應用和平臺組成;
b.各類信息系統(tǒng)構件化裝配:任何機構或個人可以將自己的開發(fā)的應用或系統(tǒng)轉變?yōu)橄到y(tǒng)構件;
c.面向數據的整合方式:依托標準化的元數據規(guī)范來定義系統(tǒng)數據;
d.應用的靈活性:后續(xù)領域應用開發(fā)簡單高效,且各構件之間具有層次性,即具有包含關系。
從流程的角度來看,情報分析構件化是指情報分析中各處理過程的構件化。從原始數據中通過計算機直接進行信息抽取的方式并不能直接抽取出知識。不同領域不同專家進行情報分析時所使用的知識可能存在差異,而構件化的最終目的是更好地服務于情報分析工作,因此對于擁有不同分析需求的情報分析人員,為其提供的Iware也會有所不同。情報分析人員并不需要關心基于構件組成的情報系統(tǒng)細節(jié),只需提出需求,關心其需要的數據最終應匯集成為怎樣的結果,以怎樣的形式接收,這也大大減小了傳統(tǒng)情報系統(tǒng)設計及后期優(yōu)化的時間開銷。
從實際運用的角度來看,情報分析構件化需要設計能夠實現(xiàn)某些通用功能及具有領域特征的情報分析的中間件,希望實現(xiàn)采集分析處理呈現(xiàn)的全程自動化或半自動化,因此實際上并不會直接由原始數據得到情報分析的結果,而是有一個中間件,Iware的情報分析功能并不能夠全部由計算機完成,最終還是需要各領域的學者專家進行知識的整合,即構件的作用在于縮短知識距離而非代替人的決策工作。通過基于規(guī)則、統(tǒng)計或機器學習構件的情報分析模型能夠對層次較低的數據或知識信息進行處理形成同級或較高級的信息,以及從較大規(guī)模的原始數據中抽取出供情報分析的知識元以及實現(xiàn)知識的標準化。但基于計算機的情報分析終究有其局限性,難以做到知識的整合和分析,因此人工工作在情報分析構件化架構中的作用是不可替代的,包括通用構件中數據標注、模型搭建以及領域構件中的領域化知識分析等都需要依靠人力,各個Iware輸出的結果也需要人工來實現(xiàn)整合與統(tǒng)計。
2.2Iware組合原則通用構件主要包括信息采集構件、信息處理構件和簡單的信息分析構件,適用于所有領域,構件之間通過接口進行構件關聯(lián)與數據傳輸。其中信息采集構件由人工采集、半自動采集、自動采集子模塊構成,信息處理構件由信息標引、信息摘要、異構信息處理、信息分類、信息排重等子模塊構成,信息分析構件由數據挖掘、聯(lián)機分析和模型分析等子構件組成。通用構件傳遞的數據需要具有以下幾個特點:包含整個情報分析過程所需的原始信息,數據及數據處理的結果能夠被各個通用構件或領域構件讀??;而領域構件中的數據需具有以下特點:知識融合程度高,冗余度小,對知識距離的縮小有明顯的作用。針對不同類型的數據,在設計Iware的同時應該制定相應的數據傳輸協(xié)議。
構件化是將多種情報分析的Iware進行定義、封裝及標準化,形成能夠直接融合應用到各領域中的構件,并通過標準化的協(xié)議進行規(guī)范。Iware的組合參考了服務組合的思想,根據構件的層次性以及構件設計原則中的單一職責原則,層次較低的Iware能夠實現(xiàn)盡量少的功能,整體的情報分析系統(tǒng)是由較多的不同層次的構件組合,根據邏輯流程和構件功能的互補完善而成。
構件組合的主要目的在于縮短原始數據到研究人員的知識距離,因此需要保證:
a.使用簡單:當不同情報分析人員需要使用多個構件提供的復合服務時,向所有消費者公開所有使用的構件及其協(xié)調規(guī)則的知識,會使情報分析系統(tǒng)的實現(xiàn)變得更加復雜。而創(chuàng)建組合服務,將參與功能實現(xiàn)的構件進行封裝、提供接口,在調用的時候強制按照標準進行,則會大大簡化其設計及使用。
b.更高的可重用性:系統(tǒng)投入使用后遇到的計劃外的需求通常可以通過復用已有構件實現(xiàn)。即便有一組構件是為了構造一組特定的解決方案而設計的,也可以將現(xiàn)有的業(yè)務服務與其以其他方式組合以實現(xiàn)之前未曾想到的解決方案。此外,通常可以通過開發(fā)或增強少量的構件及其部分功能來廉價、快速地創(chuàng)建新的解決方案。
c.情報分析方案的分區(qū)、可見性、控制和變更管理:組合的構件可以作為整體解決方案的分區(qū)機制;引入組合構件,僅將某些接口暴露給外部用戶可以控制對消費者可見的內容;這支持基礎軟件體系結構(由復合構件實現(xiàn))通過更改其下級服務的實現(xiàn)以及下級服務之間的關聯(lián),從而快速響應不斷變化的需求。
Iware的組合有兩個方面:組合設計——綜合協(xié)調組件服務以滿足客戶請求的規(guī)范;組合實現(xiàn)——通過執(zhí)行組合設計產生的規(guī)范,進而實際實現(xiàn)構件服務組合之間的協(xié)調工作。本文中定義的Iware組合作為一種控制系統(tǒng)復雜性的手段,通過多個不同功能的小粒度構件組合成大粒度的、具有實用價值和業(yè)務含義的情報服務甚至復合情報系統(tǒng),可以使不同領域的情報分析人員僅關心復合情報分析系統(tǒng)中各構件的接口和功能而不需知道系統(tǒng)結構,并且能夠有效降低系統(tǒng)復雜性,提高系統(tǒng)可擴展性以及情報分析人員的工作效率。Iware的組合原則主要有以下幾點:
a.由于Iware設計的初衷是為縮短知識距離以及支持不斷變化的需求處理過程導致的系統(tǒng)功能的變化,且構件設計時遵循功能單一原則,因此Iware組合也需遵循簡潔的原則,即以最大簡化程度的形式進行組合。
b.接口的設計和工作流的管理是一項復雜的工作,為更方便的使Iware之間進行數據交換及增加新的服務,需按照標準的接口進行構件組合,并形成清晰的層次結構。
c.由于Iware的層次性即包含性,當數據在不同層級的Iware之間傳輸時可能會產生沖突,且高層次的Iware可能包含多個低層模塊,因此設計情報構件模型時應規(guī)定高層級構件中的數據結構應當兼容低層級。
d.由各種Iware實現(xiàn)的功能集合實際上類似于一個獨立的情報分析系統(tǒng),需要設計簡潔、清晰的傳輸協(xié)議,各構件之間通過一定的規(guī)則(協(xié)議)相互協(xié)作。
e.傳統(tǒng)意義上的復雜情報系統(tǒng)雖然可能支持較為豐富的功能,但可擴展性差,系統(tǒng)臃腫,為自身的發(fā)展更新造成阻礙。如果系統(tǒng)通過標準的情報構件組合實現(xiàn)業(yè)務服務功能,說明系統(tǒng)已經實現(xiàn)構件化和標準化,進而使系統(tǒng)具有重用性和業(yè)務功能的互操作性。
2.3構件原子化原則原子(atom)是構成一般物質的最小單位,是化學反應不可再分割的基本微粒。如果按照自頂向下設計、自底向上組裝的思想,我們可以將構件分為系統(tǒng)構件、組織構件、分子構件和原子構件[20]。分子構件和原子構件是構成系統(tǒng)構件、組織構件的子構件。其中,分子構件又可復用原子構件,通過原子構件組裝而成。原子構件是最小粒度的構件[21],它不能通過復用方式構造,一般包括一些最基本的數據結構以及與相關算法封裝在一起的基本類。系統(tǒng)構件和組織構件可復用分子構件、原子構件構造,而分子構件和原子構件只能參與系統(tǒng)構件、組織構件的組裝,但不參與最后新的應用系統(tǒng)的組裝。
構件原子化是指要在將情報分析工作最大程度地細化分解的基礎上,開發(fā)能夠實現(xiàn)相應功能的原子構件。比如,情報分析工作中的信息分析任務是由信息分析構件實現(xiàn)的。信息分析構件是指能夠實現(xiàn)不同情報分析方法的構件,這些方法構件需要通過原子構件組裝生成,在開發(fā)過程中需要按照特定方法的原理對其實現(xiàn)過程進行更深層次的分解,從而減小構件開發(fā)的難度。同時,構件原子化可以提高構件的可復用性,原子構件作為最小粒度的構件,是進行構件組裝時最基本的部分,其使用率代表了該構件的復用程度的高低。情報分析工作中的不同任務被原子化分解后可能包含相同的部分,無需重復開發(fā)相同的原子構件,即已開發(fā)的構件能夠重復使用,節(jié)約時間和資金。
構件原子化原則貫穿在情報分析工作分解過程和構件開發(fā)過程中,也保證了構件功能的具體化,使得原子構件能完成具體細致的一部分任務,為與其他構件的進一步協(xié)作做準備。原子構件的功能也具有“不可分割”的性質,容易被理解和使用,能完整地完成某一部分任務。在單個原子構件內部,就其所實現(xiàn)的功能來說,構件所封裝的內容應該盡可能地完善此構件的專項功能,保證構件正確精準地工作;就不同的原子構件來說,它們實現(xiàn)的功能應當具有區(qū)分度減少重復性,各自實現(xiàn)不同的功能,這意味著構件進行組裝后能夠很好地實現(xiàn)功能的集成,解決更為復雜的問題。
2.4多種情報來源與情報評價對于有著成熟完善情報分析經驗的分析人員,在進行情報分析工作時往往不會只使用單一來源的數據信息,而是多維度、多來源、多數據結構的各種數據信息。實際的情報事務通常也需要對多種來源、多維度的各種數據進行分析處理。多維度數據是指數據需求的多個業(yè)務角度,在不同場景中,數據會存在不同的維度。例如以“多個石油公司1月份在某地區(qū)的銷售額”這一事件為例,除地區(qū)固定外,還存在三個維度:時間、公司和產品。使用Iware組成的情報系統(tǒng)能夠讀取原始數據,從不同的維度分別分析數據,并根據分析人員的需要實現(xiàn)數據可視化,構建數據立方體即多維向量空間。隨著信息技術的發(fā)展,情報分析領域最大的數據集已經成為互聯(lián)網,公開源情報的分析價值越來越高。針對不同情報需求,可通過構件化情報分析工具實現(xiàn)相應爬蟲及其他信息資源獲取功能,定向抓取符合分析人員情報需求的數據信息,避免分析人員重復學習相關技術,節(jié)約時間成本。對于部分通過秘密手段獲取到的非公開情報數據,則使用經過預先訓練的Iware進行數據清洗,包括關鍵詞脫敏、去除無效數據、數據替換,同樣節(jié)約人工處理敏感數據的時間成本。
無論是公開源情報數據還是非公開數據,都存在多種數據結構,包括可直接處理的文字數據,不可直接處理的視頻數據、圖片數據等其他數據結構。對于計算機不可直接處理的數據,需要引入人工進行標注,例如標注視頻標題、圖片標簽。情報分析構件化支持對情報進行關聯(lián)推理、評價,呈現(xiàn)給上層分析人員。情報評價的目的在于判斷情報的質量、分析情報的應用范圍、估價應用后可能產生的效益,從而決定進一步以何種方式和手段對其進行處理。鑒別情報可靠性的主要標準應為其內容的真實程度,但對情報內容真實程度的直接鑒別往往受到許多客觀條件的限制,在多數情況下直接鑒別是不易實現(xiàn)的。在實踐中,對情報內容真實程度的判斷,大都通過對情報來源和載體的某些外部特征的分析來實現(xiàn),例如作者的聲譽、出版社的級別、文獻的種類和密級、情報發(fā)布者或傳播者的權威性、實物情報的完整程度、口頭情報的轉引次數等等。
由于基于構件的情報分析本質上是分析流程的構件化,多個Iware相互組合實現(xiàn)分析人員的需求,使用者僅接觸到構件系統(tǒng)最終輸出的結果,各個Iware之間的通信被封裝在內部,不能人工校驗,因此在實現(xiàn)Iware的時候就需要進行可信度校驗。例如信息抽取構件的F1置信度測試、分詞構件的準確率評估等,保證各個環(huán)節(jié)數據分析的可信度。例如對于法學家感興趣的訴訟場景:此種場景要求情報具有高證明力,即在可視化平臺中輸入檢索詞,系統(tǒng)經分析處理,從知識圖譜中檢索返回一個完整的、嚴謹的情報證據鏈條,為辯護提供具有較高證明力的證據。當歷史領域的分析人員使用本研究中的構件化證據鏈進行檢索時,可以看到對該節(jié)點的導讀性描述,包括資料作者、發(fā)表時間、資料主題、資料來源;此外,還有對當前資料相關資料的描述,包括各種相關證據數量、類別的描述。
2.5小結情報分析是一門嚴謹的學科,要求有可靠的數據或依據,使用合適的情報分析方法,才能保證情報分析結果的可靠性。為縮短情報源與情報分析人員間的知識距離,以及充分發(fā)揮技術的輔助作用與人的判斷能力,情報分析可以朝構件化方向發(fā)展。
情報分析構件化相對于傳統(tǒng)情報分析系統(tǒng)的優(yōu)勢在于縮短了數據與情報分析人員之間的知識距離,這種知識距離是由于情報分析人員的分析能力所能獲取到的情報價值與原始數據所蘊含的全部潛在價值之間存在較大差距導致的。傳統(tǒng)的情報分析系統(tǒng)設計者有時并非其使用者,做出的系統(tǒng)結果往往容易偏離情報分析人員的實際需求,且系統(tǒng)針對新增需求和業(yè)務的適應性、可調整性較差,導致縮短知識距離的能力有限,而基于Iware的系統(tǒng)擴展靈活,具有較好的增加新功能的能力,從而減少人力投入和時間成本,使得情報分析人員能夠有更多的精力投入到智慧性思考和決策中。
圖2 案例一流程圖
從知識深度的角度來看,前文所提及的構件原子化使得構件易于理解和重用,構件組合使得各個Iware按照信息采集、信息處理、信息分析的層級集成,各個Iware能夠輸出具有一定參考意義的結果,情報分析人員既可以選擇對情報構件進行整合后獲得總體分析結果,也可以選擇能夠實現(xiàn)特定功能的構件直接獲取相應結果輔助分析,這就更加靈活地縮短了情報分析人員與數據之間的知識距離。從知識寬度的角度來看,相比于單一來源數據進行分析,對多源數據進行分析的結果更加豐富;同時,復雜情報分析問題可能會涉及到不同的領域,不同領域的專業(yè)知識結構差別較大,通過領域構件便于進行多領域綜合情報分析,從而得到比單一領域情報分析更全面、參考價值更高的結果。
情報分析構件化能夠支持自頂向下的分析模式與自底向上的分析模式。自頂向下的情報分析模式指情報分析人員事先了解要分析的問題,根據一定的手段或工具,將情報問題劃分為多個子問題,即每個問題由多個構件組成,使用構件化情報分析工具對子問題進行情報分析,在原始數據中自頂向下地尋找分析人員需要的情報數據。在自頂向下的分析模式中,以構件化的情報分析工具為情報分析主體,在組建好分析系統(tǒng)后,分析人員可從原始數據中直接獲取需要的知識,中途需要的人工參與較少。自底向上的情報分析模式指領域內的專家對目的問題了解不多甚至并沒有明確的問題需求,而是在一定的較為模糊的目標指導下,制定相應的規(guī)則,從原始數據中抽取數據,進行無監(jiān)督的機器學習訓練,之后從抽取出的實體集、關系集或主題集中人工尋找與實現(xiàn)情報分析目標相關的問題。
圖3 案例二流程圖
案例一:以外交爭端中的“XX島爭端”事件為例,要證明島嶼所屬國家這一結論,上層情報分析人員及外交人員與法律工作者首先需要將此知識分為多個爭點,針對這多個爭點在海量數據中尋找相應證據。針對分析人員與原始數據之間知識距離過遠的問題,分析人員可調用Iware來搭建情報系統(tǒng),首先對包括視頻標簽、動態(tài)網頁文本、報紙雜志、期刊文獻的大量原始數據進行數據清洗,對結構化、半結構化與非結構化數據分別進行知識抽?。恢笸ㄟ^實體消歧與共指消解等,完成多維數據的知識融合;最終進行知識驗證與知識推理,通過證據鏈構件形成相關證據鏈,并支持將證據情報與證據鏈存儲到知識圖譜中,以便后續(xù)檢索使用。構建證據鏈并獲取到所需證據后,通過人工校驗與整合,完成供分析人員舉證、質證的高層次情報知識。在此部分的整個流程中,情報分析人員使用通用Iware搭建數據知識化系統(tǒng),將距離分析人員較遠的原始數據轉變?yōu)榉治稣吣軌蜷喿x的高層次信息,Iware承擔了從數據到人之間橋梁的作用;而人工負責將待證明的問題轉換為爭點,部分數據的預標注,以及對證據情報的分析與整合。情報分析構件化能夠使分析人員較為方便地搭建數據抽取與分析系統(tǒng),避免了情報分析人員到原始數據集中尋找證據的過程,能極大地減小人力開銷與時間開銷。
案例二:以輿情分析為例,若某分析人員需要了解某段時期在線論壇輿論熱點,則屬于沒有確切的待證明問題,即自底向上的情報分析需求。首先使用封裝好的信息抓取工具獲取在線論壇的原始數據,完成數據清洗后進行中文分詞,由于是沒有問題約束的情報分析方法,所以不需要進行人工標注。之后利用Iware進行文本聚類或主題抽取,可通過社會網絡分析方法,使用Iware方法實現(xiàn)知識網絡,進而進行情報分析,例如關聯(lián)用戶聚類或發(fā)現(xiàn)意見領袖。在這種自底向上的情報分析中,與自頂向下模式的一個區(qū)別在于,此種方法中人工參與的流程較多,在從原始數據到高級知識的輸出過程中需要情報分析人員的參與,以確定下一步需要的流程與Iware,直到獲取最終結論。
情報分析構件化實際上是對情報分析的對象、手段、分析結果進行的構件化處理,能夠輔助情報分析人員和不涉及系統(tǒng)細節(jié)的領域情報專家進行智能情報分析,較為靈活、簡便地實現(xiàn)邏輯流程完整的情報分析系統(tǒng),減小人力開銷與時間成本,縮短了從數據到情報分析人員以及不同專家之間的知識距離,有利于加速情報知識轉移,提高由原始數據轉變?yōu)榭晒┓治龅闹R的過程效率。本文針對當前情報學領域發(fā)展現(xiàn)狀及面臨的挑戰(zhàn),通過可行性分析,提出了情報分析構件化這一概念;同時給出情報分析構件化的基本組件與模型,詳細描述了情報構件的標準化,包括構件設計原則、構件間數據傳輸及構件組合。在今后的工作中,將進一步完善情報分析構件化體系,對構件模型的層次結構、邏輯接口和數據傳輸規(guī)則進行系統(tǒng)化完善,推動情報分析構件化的實際應用。