侯 君
(大慶油田信息技術(shù)公司北京分公司,北京 100000)
基于信息安全考慮的數(shù)據(jù)識(shí)別分析
侯君
(大慶油田信息技術(shù)公司北京分公司,北京 100000)
數(shù)據(jù)識(shí)別技術(shù),對(duì)于企業(yè)內(nèi)網(wǎng)數(shù)據(jù)的有效處理和安全保護(hù)等方面意義重大,在當(dāng)前大數(shù)據(jù)的環(huán)境下,對(duì)于數(shù)據(jù)識(shí)別技術(shù)的需求尤為突出。基于此種考慮,本文首先針對(duì)油田工業(yè)環(huán)境中的數(shù)據(jù)特征及數(shù)據(jù)安全狀態(tài)展開了深入的分析,然后進(jìn)一步在此基礎(chǔ)之上,對(duì)如何切實(shí)推動(dòng)數(shù)據(jù)識(shí)別技術(shù)的發(fā)展予以深入討論。
信息安全;數(shù)據(jù)識(shí)別;油田企業(yè)
在工業(yè)生產(chǎn)工作環(huán)境中,數(shù)據(jù)主要來源于管理和工業(yè)生產(chǎn)兩個(gè)領(lǐng)域。管理領(lǐng)域的數(shù)據(jù)相對(duì)而言比較常規(guī)化,主要涉及人力資源等相關(guān)管理領(lǐng)域工作數(shù)據(jù),但是隨著科技的不斷深入發(fā)展,大量生產(chǎn)流程中的設(shè)備狀態(tài)數(shù)據(jù)納入到企業(yè)數(shù)據(jù)環(huán)境之中,而這種趨勢(shì),在油田工業(yè)領(lǐng)域中更是尤為突出。油田生產(chǎn)工作過程中一貫以數(shù)據(jù)的龐大繁雜著稱,數(shù)據(jù)用以反映生產(chǎn)過程中眾多設(shè)備的狀態(tài)。通過這些數(shù)據(jù)可以判斷整個(gè)工作過程的安全水平,然后展開進(jìn)一步的調(diào)整。
隨著物聯(lián)網(wǎng)相關(guān)技術(shù)的發(fā)展,更多的數(shù)據(jù)納入油田工業(yè)環(huán)境之中,實(shí)時(shí)性和海量性成為其主要特征。對(duì)于實(shí)時(shí)性而言,油田工業(yè)環(huán)境之中,生產(chǎn)過程中的數(shù)據(jù)關(guān)系到諸多設(shè)備的工作狀態(tài)及安全水平,因此,只有對(duì)其展開及時(shí)的識(shí)別才能妥善處置。而對(duì)于海量性而言,主要是考慮到油田工業(yè)領(lǐng)域中必然會(huì)引入的大數(shù)據(jù)技術(shù),從客觀上要求對(duì)這些數(shù)據(jù)展開及時(shí)的深入分析,發(fā)揮其既有價(jià)值。因此從這樣的兩個(gè)方面看,對(duì)數(shù)據(jù)展開必要的識(shí)別,是有效針對(duì)不同種類來源的數(shù)據(jù)展開及時(shí)分析的必然要求。
與此同時(shí),從安全的角度看,數(shù)據(jù)識(shí)別同樣意義重大。當(dāng)前數(shù)據(jù)安全的解決方案,通常會(huì)從傳輸和存儲(chǔ)兩個(gè)方面展開,即在傳輸過程中通過各種類型的網(wǎng)關(guān)等來對(duì)傳輸數(shù)據(jù)實(shí)現(xiàn)過濾,或者面向存儲(chǔ)狀態(tài)的數(shù)據(jù)展開分析,來確定數(shù)據(jù)中是否夾雜有不安全的因素。此種安全分析工作方式在傳統(tǒng)企業(yè)環(huán)境下,當(dāng)數(shù)據(jù)量以及傳輸總量相對(duì)較少的時(shí)候能夠十分有效地展開工作,但是隨著數(shù)據(jù)量的不斷增加,流媒體數(shù)據(jù)也開始涌入到工業(yè)生產(chǎn)環(huán)境之中,想要切實(shí)有效地對(duì)所有的數(shù)據(jù)展開分析,就顯得較為困難。相關(guān)安全系統(tǒng)的計(jì)算能力不斷得到挑戰(zhàn),必須采取必要的措施改善此種情況。
在這樣的背景之下,如何實(shí)現(xiàn)有效的數(shù)據(jù)識(shí)別,就顯得意義重大。良好的數(shù)據(jù)識(shí)別體系,能夠幫助安全系統(tǒng)以及相關(guān)的大數(shù)據(jù)技術(shù)依據(jù)不同的數(shù)據(jù)特征展開區(qū)分,從而來決定為不同的數(shù)據(jù)群體提供不同安全級(jí)別的保障,也便于為大數(shù)據(jù)分析系統(tǒng)優(yōu)化其數(shù)據(jù)材料,并且在最短時(shí)間內(nèi)響應(yīng)不同數(shù)據(jù)消費(fèi)端的查詢請(qǐng)求。
數(shù)據(jù)識(shí)別服務(wù)于整個(gè)油田數(shù)據(jù)系統(tǒng)。數(shù)據(jù)識(shí)別工作展開的有效性,關(guān)系到整個(gè)企業(yè)局域網(wǎng)數(shù)據(jù)的安全水平,對(duì)于其他多個(gè)方面的數(shù)據(jù)信息處理工作也有不容忽視的重要價(jià)值。從目前數(shù)據(jù)識(shí)別技術(shù)的發(fā)展?fàn)顩r看,主要是基于數(shù)據(jù)特征的識(shí)別技術(shù),但是隨著工業(yè)環(huán)境中更多數(shù)據(jù)的涌入,基于數(shù)據(jù)生命周期的識(shí)別技術(shù)同樣也是未來發(fā)展的主要特征。
對(duì)于基于特征的數(shù)據(jù)識(shí)別方法而言,具體包括兩個(gè)階段的工作,第一,元數(shù)據(jù)和樣本數(shù)據(jù)的采集;第二,敏感數(shù)據(jù)數(shù)據(jù)的識(shí)別與分類。
在第一個(gè)階段中,數(shù)據(jù)識(shí)別系統(tǒng)的主要工作任務(wù)是通過自動(dòng)化的方式面向數(shù)據(jù)庫、文件系統(tǒng)及傳輸過程展開對(duì)于數(shù)據(jù)的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)樣本和元數(shù)據(jù)信息的采集。采集主要內(nèi)容包括元數(shù)據(jù)信息(數(shù)據(jù)表和字段的名稱、類型、注釋信息等)、文件類型數(shù)據(jù)(在獲取文件格式的基礎(chǔ)上,采用自動(dòng)化分詞等相關(guān)技術(shù)將文件內(nèi)容進(jìn)行切割和合并,并且建立起對(duì)應(yīng)的文件特征數(shù)據(jù))。然后在這樣的采集基礎(chǔ)之上,對(duì)獲取到的數(shù)據(jù)進(jìn)行梳理和過濾,提升樣本整體質(zhì)量。
在第二階段中,展開對(duì)于敏感數(shù)據(jù)數(shù)據(jù)的識(shí)別與分類。應(yīng)用數(shù)據(jù)識(shí)別技術(shù),對(duì)不同類型的數(shù)據(jù)進(jìn)行甄別,確定其中的敏感數(shù)據(jù),并對(duì)其進(jìn)行甄別和分級(jí)分類,從而便于進(jìn)行更具有針對(duì)性的數(shù)據(jù)安全保護(hù)工作。這一部分的工作,具體包括詞庫建立、敏感特征提取、敏感特征匹配以及敏感數(shù)據(jù)識(shí)別質(zhì)量評(píng)估等幾個(gè)方面。其中詞庫建立主要是對(duì)采集到的數(shù)據(jù)進(jìn)行收集和整理,剔除其中的無價(jià)值詞匯,獲取到符合識(shí)別需求的詞庫。而敏感特征提取,則是在建立起詞庫的基礎(chǔ)之上,對(duì)詞庫展開分析和識(shí)別,以相關(guān)人員作為主要的力量進(jìn)行構(gòu)建,并且隨著人工智能的發(fā)展,相關(guān)技術(shù)也在逐步引入到該環(huán)節(jié)之中。敏感特征匹配主要是對(duì)分類和識(shí)別目標(biāo)展開特征提煉,將目標(biāo)數(shù)據(jù)采用分詞技術(shù)進(jìn)行分詞處理,然后進(jìn)一步將提取到的特征與詞庫進(jìn)行匹配,依據(jù)匹配情況進(jìn)行排序。最后,敏感數(shù)據(jù)識(shí)別質(zhì)量評(píng)估主要對(duì)識(shí)別結(jié)果進(jìn)行評(píng)價(jià),包括對(duì)錯(cuò)誤分類的進(jìn)一步糾正和對(duì)于未能識(shí)別的敏感詞的補(bǔ)充,完善詞庫。
除此以外,基于生命周期的數(shù)據(jù)識(shí)別也是未來發(fā)展的一個(gè)重要方向,同樣不容忽視。這主要是考慮到數(shù)據(jù)從誕生到消亡,不同的數(shù)據(jù)在不同的生命階段中會(huì)呈現(xiàn)出不同的安全需求,并且數(shù)據(jù)在不同環(huán)境下面對(duì)的人群不同所產(chǎn)生的功能和價(jià)值,也均會(huì)有所不同。從油田工業(yè)環(huán)境的角度看,實(shí)時(shí)性強(qiáng)的數(shù)據(jù)隨著時(shí)間的流逝,其安全價(jià)值呈現(xiàn)出逐步遞減的趨勢(shì),而核心技術(shù)領(lǐng)域的數(shù)據(jù),通常需要自始至終的密切保護(hù)。因此,對(duì)于數(shù)據(jù)產(chǎn)生環(huán)境和來源等方面特征的識(shí)別,能夠進(jìn)一步提升數(shù)據(jù)安全工作的針對(duì)性,提高數(shù)據(jù)安全體系工作整體效率。
在面臨油田大數(shù)據(jù)環(huán)境時(shí),數(shù)據(jù)識(shí)別技術(shù)是不容忽視的重要支持。只有在實(shí)際工作中不斷深入分析和完善對(duì)應(yīng)的識(shí)別規(guī)則,才能獲取良好效果,為油田的發(fā)展奠定堅(jiān)實(shí)基礎(chǔ)。
主要參考文獻(xiàn)
[1]馮建云,張?jiān)虑?內(nèi)網(wǎng)安全信息防泄漏系統(tǒng)的開發(fā)與實(shí)現(xiàn)[J].電腦開發(fā)與應(yīng)用,2010(7).
10.3969/j.issn.1673 - 0194.2016.14.108
G203
A
1673-0194(2016)14-0154-01
2016-06-08