馬玲官 汪偉
武警安徽總隊 安徽 合肥 230031
情報服務(wù)領(lǐng)域如今正在面臨著服務(wù)水平與數(shù)據(jù)信息處理兩者之間的矛盾,在信息化社會的背景下,當(dāng)前的所有行業(yè)都開始面對“大數(shù)據(jù)”趨勢,對數(shù)據(jù)信息的需求量逐漸加大。在情報服務(wù)領(lǐng)域,人們也需要對信息大數(shù)據(jù)進(jìn)行深入解讀與積極引用,保證情報服務(wù)的健康發(fā)展。
如今社會正在向信息化方向快速發(fā)展,大數(shù)據(jù)已經(jīng)成了關(guān)鍵戰(zhàn)略資源,具有極其重要的社會地位,在社會平穩(wěn)發(fā)展、隱私保護(hù)以及國家穩(wěn)定安全上,數(shù)據(jù)一直在發(fā)揮著極為關(guān)鍵的功效。隨著如今信息的發(fā)展,人們獲取數(shù)據(jù)信息的渠道愈發(fā)容易,傳統(tǒng)數(shù)據(jù)信息的搜集以及整理手段已經(jīng)無法為情報服務(wù)提供太大的作用,因此,當(dāng)前情報服務(wù)工作人員正在尋求一種更為先進(jìn)的工具,為人們提供更為專業(yè)的服務(wù)。
通常情況下,人們認(rèn)為PB以上的數(shù)據(jù)信息就可以將其稱為大數(shù)據(jù)或者運用傳統(tǒng)手段無法有效處理的大量數(shù)據(jù)信息稱為大數(shù)據(jù)。大數(shù)據(jù)是將通過跨域關(guān)聯(lián)、多源異構(gòu)等大量數(shù)據(jù)信息進(jìn)行深入分析形成的生活形式、商業(yè)模式或者決策方法的總和,從此可以看出,大數(shù)據(jù)具有時效性極強、數(shù)據(jù)龐雜以及多樣化等特征,人們需要應(yīng)用新型的算法技術(shù)對大數(shù)據(jù)進(jìn)行處理[1]。
大數(shù)據(jù)處理是對海量數(shù)據(jù)價值的提煉,其處理流程包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲和管理、綜合分析和應(yīng)用等技術(shù)。
(1)大數(shù)據(jù)采集技術(shù)。大數(shù)據(jù)采集是指通過傳感器數(shù)據(jù)、標(biāo)準(zhǔn)資源庫、內(nèi)部數(shù)據(jù)庫、社交網(wǎng)絡(luò)交互數(shù)據(jù)及移動互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得的各種類型海量數(shù)據(jù)。在大數(shù)據(jù)采集過程中,重點涉及網(wǎng)絡(luò)爬蟲、高速數(shù)據(jù)全映像等大數(shù)據(jù)收集技術(shù)。
(2)大數(shù)據(jù)預(yù)處理技術(shù)。大數(shù)據(jù)處理技術(shù)完成對已接收數(shù)據(jù)的辨析、抽取、清洗等操作。因獲取的數(shù)據(jù)可能具有多種結(jié)構(gòu)和類型,數(shù)據(jù)抽取過程可以幫助我們將復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為單一的或者便于處理的構(gòu)型,以達(dá)到快速分析處理的目的;對于大數(shù)據(jù),并不全是有價值的,有些數(shù)據(jù)并不是我們所關(guān)心的內(nèi)容,而另一些數(shù)據(jù)則是完全錯誤的干擾項,因此要對數(shù)據(jù)通過過濾“去噪”從而提取出有效數(shù)據(jù)。
(3)大數(shù)據(jù)存儲和管理技術(shù)。大數(shù)據(jù)存儲與管理是指用存儲器將采集到的數(shù)據(jù)存儲起來,建立相應(yīng)的數(shù)據(jù)庫,并進(jìn)行管理和調(diào)用。由于數(shù)據(jù)來源的廣泛性,會帶來數(shù)據(jù)格式的多樣性,因此在設(shè)計數(shù)據(jù)存儲時要考慮數(shù)據(jù)庫的擴展性和兼容性。數(shù)據(jù)存儲和管理技術(shù)主要涉及分布式文件系統(tǒng)(DFS)、能效優(yōu)化的存儲、計算融入存儲、大數(shù)據(jù)的去冗余、數(shù)據(jù)庫等技術(shù)。
(4)大數(shù)據(jù)分析及挖掘技術(shù)。大數(shù)據(jù)分析技術(shù)實現(xiàn)對數(shù)據(jù)的深加工,根據(jù)業(yè)務(wù)需要,建立適用于業(yè)務(wù)的數(shù)據(jù)統(tǒng)計分析模型,運用數(shù)據(jù)分析、數(shù)據(jù)挖掘、深度學(xué)習(xí)等算法從海量數(shù)據(jù)集中挖掘出數(shù)據(jù)內(nèi)在的價值,為業(yè)務(wù)工作提供數(shù)據(jù)和決策支持[2]。
(1)應(yīng)用于情報識別。信息大數(shù)據(jù)自身具有極強的工作敏感性,可以快速準(zhǔn)確地從信息庫之中尋找到關(guān)鍵數(shù)據(jù)信息。情報識別涉及的類型與范圍都較廣,其包含情報數(shù)據(jù)、判別識別以及目標(biāo)識別。情報數(shù)據(jù)主要包含背景信息、共性信息、發(fā)展現(xiàn)狀等信息;判別識別主要包含關(guān)鍵、敏感信息以及虛假數(shù)據(jù)信息識別等;目標(biāo)識別主要包含目標(biāo)特征識別、條件識別以及合作關(guān)系識別等。此類識別任務(wù)在開展過程中都需要有效應(yīng)用大數(shù)據(jù),從而對網(wǎng)頁、論文等信息數(shù)據(jù)進(jìn)行大量搜集,并深入進(jìn)行對比分析,找到真實可用的數(shù)據(jù)。
(2)應(yīng)用于情報追蹤。為了充分發(fā)揮情報服務(wù)的最終功效,情報服務(wù)行業(yè)需要準(zhǔn)確及時地獲取到最新的數(shù)據(jù)信息,對重要機構(gòu)與技術(shù)進(jìn)行定期持續(xù)追蹤,掌握實時方向與進(jìn)展。情報追蹤主要包含對主要技術(shù)進(jìn)行追蹤、對先進(jìn)科技進(jìn)行追蹤并對重點問題進(jìn)行追蹤,像日本核泄漏的監(jiān)測以及追蹤阿波羅計劃等。利用科技信息大數(shù)據(jù)技術(shù)可以對多種渠道的數(shù)據(jù)信息進(jìn)行有效收集,并可以及時捕捉到最新的數(shù)據(jù),從而保證最快捷最全面地為情報業(yè)務(wù)工作提供支撐。
(3)應(yīng)用于情報比較。情報服務(wù)本身就具備濃烈的對比特征,因此,在情報服務(wù)工作之中,比較是極為重要的環(huán)節(jié),同追蹤與識別不同,比較更注重對對手形勢與競爭地位的數(shù)據(jù)信息進(jìn)行分析。情報比較包含各個區(qū)域科技比較、核心競爭力比較以及創(chuàng)新力比較等多個方面。
(4)應(yīng)用于情報預(yù)測。情報預(yù)測包括未來機會預(yù)測、關(guān)鍵事件預(yù)測以及時間預(yù)測等,機會預(yù)測主要有市場機會預(yù)測、應(yīng)用科技預(yù)測等;關(guān)鍵事件預(yù)測主要有結(jié)點事件預(yù)測以及獎項預(yù)測等;時間預(yù)測主要有峰值預(yù)測以基金申請量預(yù)測等[3]。比如若想要對我國雄安新區(qū)日后政策的發(fā)展與走向進(jìn)行分析,就必須運用科技信息大數(shù)據(jù)對領(lǐng)導(dǎo)人物傳記、講話以及政策文本進(jìn)行收集,對領(lǐng)導(dǎo)人的決策方向與模式進(jìn)行深入分析,對政策走向的因素進(jìn)行梳理,利用數(shù)據(jù)分析的總結(jié)對日后發(fā)展的方向以及趨勢進(jìn)行情報預(yù)測。
在信息化的社會中開展情報服務(wù)必須要積極應(yīng)用科技信息大數(shù)據(jù)技術(shù),這不僅是社會發(fā)展的大勢所趨,更是行業(yè)發(fā)展所迫。情報行業(yè)需要依據(jù)科技信息大數(shù)據(jù)的具體特征,積極挖掘新技術(shù),充分發(fā)揮大數(shù)據(jù)技術(shù)在情報服務(wù)中的功效,為情報工作及時精準(zhǔn)地提供各項數(shù)據(jù)信息,有效達(dá)成跟蹤、比較以及預(yù)測等各類任務(wù),完美體現(xiàn)情報服務(wù)的價值。