李 寒
美國蘭德公司于2018 年5月發(fā)布報告《定義國防業(yè)界(defense enterprise)第二代開源情報》,提出了第二代開源情報(OSINT)產(chǎn)生的背景與基本定義,并在國防業(yè)界的框架下闡述了第二代開源情報的內(nèi)容分類、操作周期、使用工具、分析方法、發(fā)展趨勢及未來展望。該報告論述了開源情報的優(yōu)勢與劣勢,進而引發(fā)關于開源情報的幾點思考與啟示。
第二代開源情報的產(chǎn)生背景與基本定義。隨著互聯(lián)網(wǎng)的日益普及、社交媒體和大數(shù)據(jù)分析的迅速發(fā)展,利用開源情報來獲取信息的程度大大加深,信息的來源和處理方法日趨復雜,數(shù)據(jù)的數(shù)量和類型逐步拓寬,開源情報本身發(fā)生了重大轉型。美國家情報總監(jiān)(DNI)辦公室曾于2011年將開源情報定義為“將公開數(shù)據(jù)和信息進行搜集、利用、分發(fā),用來滿足特定用戶需求的情報”。鑒于公開情報的性質不斷變化,該報告建議將當前時期開源情報的發(fā)展過程定義為第二代開源情報,并把起始時間追溯至情報界創(chuàng)建開源中心的2005年。這一年,臉書(Facebook)及油管(YouTube)的相繼問世,以及2006年推特(Twitter)的成立,使得大部分在線內(nèi)容越來越多地源自于互聯(lián)網(wǎng)站、個人賬戶及社交媒體。由此推測,新一代開源情報活動是種需要多學科、多領域、多人員交織融合的情報工作,旨在給情報界及國防業(yè)界帶來更多有新意、有價值的信息與知識。
第二代開源情報的內(nèi)容分類與操作周期。從紛繁復雜的海量信息中識別其價值的重要性不言而喻,為了能夠更好地將開源信息加以整合利用,蘭德公司將第二代開源情報分為四種類型,即新聞媒體、灰色文獻、長篇社交媒體內(nèi)容和短篇社交媒體內(nèi)容。其中,新聞媒體和灰色文獻屬于機構生成內(nèi)容,長篇社交媒體信息和短篇社交媒體信息屬于個人生成內(nèi)容。開源情報的搜集范圍之廣、內(nèi)容體量之大由此可見一斑。
此外,蘭德公司還將開源情報的操作周期分為收集、處理、開發(fā)和生產(chǎn)四個步驟。其中,收集是指針對開源信息的獲取,處理是指檢驗開源信息的方法,開發(fā)是指識別開源信息的價值,生產(chǎn)是指將有價值的信息提供給用戶。
一是收集,指的是識別潛在的、有用的信息并保留上述材料。新聞媒體和灰色文獻的收集相對容易,大多數(shù)內(nèi)容都可在線獲得,相比之下,社交媒體信息在收集階段就要面對很多挑戰(zhàn)。首先,社交媒體信息可能很難獲得完整的、原始的數(shù)據(jù)和圖片,即使能夠獲得完整的數(shù)據(jù)和圖片,也不能作為群體樣本來進行參考;其次,由于社交媒體數(shù)據(jù)能夠輕易地包含民眾的信息,情報機構必須遵循與搜集和存儲信息有關的嚴格程序。
二是處理,指的是甄別信息后將其進行翻譯與整合,主要用來分析多類型的社交媒體信息。處理可以采取多種形式,包括將原文進行翻譯,或將圖片和視頻整合為可用的材料。在處理過程中,可以使用相應的軟件和程序,以更便捷的方法和更低廉的成本來完成工作內(nèi)容。但與此同時,開源信息中各種俚語、表情符號或圖標的使用頻率越來越高,這也在一定程度上加大了處理難度。
情報學科的重疊性質
三是開發(fā),指的是鑒定、評估可信性以及編寫成文。鑒定需要證實信息的實際情況是否如其所說;評估可信性需要判斷所掌握信息的真實程度;編寫成文需要將搜集的材料整合成完整、有序的內(nèi)容。這些過程對于新聞媒體和灰色文獻來說相對容易,但是對于社交媒體信息卻比較困難,社交媒體用戶可能會故意隱藏其真實身份,或故意提供虛假信息。
四是生產(chǎn),指的是將信息以可用的形式提供給用戶。開源信息可與秘密情報進行交叉驗證,相互融合后形成更為可靠的內(nèi)容,并以書面報告、口頭簡報或圖表等形式傳達給情報用戶。
第二代開源情報的使用工具與分析方法。情報界通常使用商業(yè)現(xiàn)成技術或工具對開源情報進行分析,特別是對社交媒體數(shù)據(jù)進行分析,但大多數(shù)商用現(xiàn)成技術或工具都是為商業(yè)目的而開發(fā)的——用于廣告宣傳、品牌管理和消費分析。這些工具通??梢詽M足情報界一些特定需求,但這些工具往往是針對商業(yè)需求而開發(fā)設計的,并不是專門針對情報界,因此在實際操作中,對情報界所產(chǎn)生的效能是非常有限的。社交媒體分析是一個快速發(fā)展的新興產(chǎn)業(yè),開發(fā)設計商業(yè)現(xiàn)成技術或工具的公司還處在快速變化之中,雖然這些工具可以幫助情報界掌握大量信息,但這些信息往往也會很快過時,如果僅僅依賴商用現(xiàn)成品技術或工具進行情報工作,信息的滯后性會使情報分析判斷存在一定風險。
該報告還列舉了一些用于社交媒體信息分析的方法,包括語言詞匯分析、社交網(wǎng)絡分析、地理空間分析等,這些分析方法可以單獨使用,也可以相互結合,以便能夠更充分地利用開源情報的情報價值。具體包括:一是語言詞匯分析,語言詞匯分析是所有分析方法中最基礎的內(nèi)容,可以計算出一個詞語在特定句子或文章中出現(xiàn)的頻率,并以此判斷用戶的語言偏好和情感傾向,進而分析出個人或群體的思想傾向、價值觀念、政治立場等,甚至能夠對未來發(fā)展趨勢做出預測;二是社交網(wǎng)絡分析,社交網(wǎng)絡分析通過分析社交媒體用戶的信息、評論、互動等情況,搭建社交媒體關系網(wǎng)絡,分析該用戶及群體在某一事件或領域內(nèi)的影響力;三是地理空間分析,社交媒體平臺用戶通過發(fā)布“地理標簽”自動將一篇文章或推文鏈接到指定位置,地理空間分析通常與其他分析方法相結合,進一步分析敏感位置目標。
第二代開源情報的發(fā)展趨勢與未來展望。盡管情報界已經(jīng)意識到,越來越多有價值的情報存在于公共信息領域,但情報界在充分挖掘第二代開源情報的發(fā)展?jié)摿Ψ矫嫒匀贿M展緩慢,業(yè)界專家希望能夠高效利用數(shù)字革命帶來的大量信息,取得情報分析的進一步發(fā)展。一是密切關注可能催生的第三代開源情報。蘭德公司認為,近幾年來,技術專家一直著力研討向第三代互聯(lián)網(wǎng)過渡的問題,第三代互聯(lián)網(wǎng)的機器處理數(shù)據(jù)、機器學習以及自動推理可能會催生第三代開源情報。第三代開源情報的特點或將以機器學習與自動推理為基礎,側重于情報收集和情報分發(fā),進一步發(fā)展數(shù)據(jù)加密和拒絕訪問。二是努力加強與私營企業(yè)和學術界的交流合作。蘭德公司認為,雖然情報機構與非政府組織的交流合作具有一定挑戰(zhàn)性,但都是可以被克服的。近幾年來,公開信息領域一直也有私營企業(yè)和學術界的廣泛參與,情報機構應該與其共享情報、共同分析,進一步加強情報融合。
開源情報的優(yōu)勢。信息時代的開源情報相較于秘密情報,具有以下優(yōu)勢。一是情報搜集來源穩(wěn)定,媒介形式廣泛多樣。開源情報資料來源包括政治、軍事、經(jīng)濟、人文、地理等各個領域,具體媒介形式則包括雜志、廣告、博客等,甚至可以利用一些不起眼的細小信息,如電梯數(shù)據(jù)、地鐵數(shù)據(jù)、披薩餅外賣數(shù)據(jù)等,對其加以分析就能產(chǎn)生重要的情報產(chǎn)品。
二是情報獲取成本較低,信息共享頻繁便捷。開源情報所需的成本較低,在便捷的信息時代中,想要獲取新聞報道、期刊雜志、電視廣播等公共來源所提供的免費信息易如反掌,各種情報收集與分析工具也使開源情報的獲取與利用更加便捷,尤其對于中小型國家來說,可以更為廣泛和迅速地開展情報工作。與此同時,開源情報還能夠更輕易地實現(xiàn)國家間的信息共享、交流與合作,擴大情報信息范圍,提高情報生產(chǎn)效率。
三是交叉驗證辨析真?zhèn)?,填補秘密情報空白。通過秘密手段獲得的情報數(shù)量往往是比較少的,開源情報能夠較快地填補情報空白,與秘密情報相互補充,在一定程度上能夠對其進行交叉驗證,進一步提高了情報的準確性。例如,把社交媒體信息與諜報情報信息相互印證融合,能夠使人力分析更加深入;把軍事網(wǎng)站公開發(fā)布的消息與技術偵查信號相互印證融合,能夠使軍事行動分析更加準確。
開源情報操作周期
四是非傳統(tǒng)安全問題愈加突顯,公開情報地位不斷上升?!?·11”恐怖襲擊事件爆發(fā)以后,世界各個國家所面臨的威脅已不單是傳統(tǒng)安全問題,而是受到傳統(tǒng)和非傳統(tǒng)兩個方面安全問題的共同威脅。非傳統(tǒng)安全威脅通常是以非政府、非常規(guī)的形式突然出現(xiàn),不受任何規(guī)則和行為的約束,在面對傳統(tǒng)安全問題時,秘密情報能發(fā)揮主要作用,而在面對非傳統(tǒng)安全問題時,開源情報則能發(fā)揮其特有作用,逐漸在國家安全情報工作中起到越來越重要的作用。
開源情報的劣勢。信息時代的開源情報相較于秘密情報,具有以下劣勢。一是來源繁多,關鍵信息容易遺漏。互聯(lián)網(wǎng)上的大部分信息和數(shù)據(jù)都是海量的、碎片的、無規(guī)律的,公開情報資料中既包含了信號又包含了噪音,增加了“信號與噪音”出現(xiàn)的頻率,容易對情報分析人員的判斷造成不利于得出正確結論的干擾。二是內(nèi)容復雜,可靠性驗證難度大?;ヂ?lián)網(wǎng)上的大部分信息和數(shù)據(jù)質量參差不齊,其真實性和有效性需要經(jīng)過大量的、反復的、多層的交叉驗證,甄別難度比較大,虛假信息不僅可以來自敵方,也可以來自己方,如何辨別虛假情報一直以來都是個值得研究的問題。
完善情報機制及其運用。隨著信息逐步實現(xiàn)全球覆蓋,開源情報不再局限于單一領域,政治情報中可能包含著經(jīng)濟情報、軍事情報中可能包含著科技情報,各個領域的情報信息相互交織,進一步推動情報融合,在情報發(fā)展進程中發(fā)揮著重要作用。例如,在美國情報界,國家情報總監(jiān)負責統(tǒng)籌整個情報界的情報整合與分析工作。由此可見,一個情報大國或者情報強國都需要建立專門的情報統(tǒng)籌機構,用來打破各個部門單位之間的壁壘,這樣既實現(xiàn)了情報共享,又減少了技術和人力資源的浪費。
按開源信息類型劃分的開源情報操作周期組成要素的難度
提升情報分析人員素質。開源情報的分析體量巨大,包含的信息和數(shù)據(jù)質量也都參差不齊,這就要求開源情報分析人員的業(yè)務知識、研究能力和綜合素質都必須過硬。一是要具有較強的篩選和鑒別能力,對真正有價值的情報進行提取分析,形成用戶所需的情報產(chǎn)品。二是要具有較高的辨析真?zhèn)文芰?,保留和整合正確的情報并依據(jù)這些材料進行分析判斷,反之則會出現(xiàn)情報失誤,造成不可挽回的嚴重后果。
創(chuàng)新開源情報工作模式。當前對于開源情報能夠起到的重要作用還未得到普遍共識,大部分仍停留在借鑒外國經(jīng)驗的階段,重視的程度較低、投入的研究較少。在當今大數(shù)據(jù)時代的影響下,一是應盡快利用院校和研究機構的科研能力及技術優(yōu)勢,針對開源情報存在的重點、難點問題積極開展共建項目和專題研究,推動開源情報由理論向實踐的轉變。二是結合當前世界發(fā)展形勢,擴招開源情報迫切需求的小語種、軍事情報學、計算機科學等專業(yè)人員,提高情報分析水平和專業(yè)化程度,為開源情報在多領域提供更廣闊的發(fā)展空間。