關鍵詞: 數據安全政策; 數據治理; 數據開放; 數據安全; NMF; Word2Vec; 主題挖掘; 主題演化
DOI:10.3969 / j.issn.1008-0821.2024.08.003
〔中圖分類號〕G259.20 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2024) 08-0028-11
隨著我國數字經濟發(fā)展、數字中國建設、充分發(fā)揮數據要素乘數效應等戰(zhàn)略的實施, 對數據安全的需求逐漸增加[1] 。2021 年11 月, 中共中央政治局會議上, 習近平總書記主持審議了《國家安全戰(zhàn)略(2021—2025 年)》, 強調加快提升數據安全的治理能力; 2022 年12 月, 中共中央、國務院發(fā)布《關于構建數據基礎制度更好發(fā)揮數據要素作用的意見》, 指出要建立安全可控、彈性包容的數據要素治理制度。數據安全政策作為保障數據安全的基礎,數據安全政策能夠為激活數據要素潛能, 使數據要素更好地服務和融入新發(fā)展格局提供法律和制度層面的保障[2] 。2016 年起, 我國陸續(xù)頒布了《中華人民共和國網絡安全法》《中華人民共和國數據安全法》《中華人民共和國個人信息保護法》和《關鍵信息基礎設施安全保護條例》(以下簡稱“三法一條例”), 逐漸形成以“三法一條例” 為中心的數據安全治理制度頂層設計, 并且國家或地方逐步通過發(fā)布數據安全相關制度來細化“三法一條例”的配套規(guī)章[3] 。但從整體上看, 目前我國仍存在數據安全政策供給需求不平衡、結構不合理等問題[4] 。因此, 有必要借助文本挖掘技術, 客觀地對數據安全政策進行深度挖掘和演化分析, 對數據安全政策進行整合與重構[5] , 厘清數據安全政策主題分布、演變規(guī)律以及存在的問題, 進而幫助政府及時根據數據安全治理情況完善政策體系。
1文獻綜述
數據安全政策反映了政府對于保護數據資產和防范數據安全風險的重視程度, 以及為此采取的措施和規(guī)定。目前關于數據安全政策研究較為廣泛,涉及法學、公共管理、信息資源管理等多個領域,主要研究集中在以下幾個方面。
1.1數據安全政策比較研究
劉春年等[6] 通過對比中美歐國家和地區(qū)的數據安全主題的政策文本, 發(fā)現我國大數據安全政策文本還存在覆蓋領域不全面等問題。宋筱璇等[7] 通過對國內外科研數據安全管理政策比較研究, 發(fā)現國內在數據識別、評估監(jiān)管及數據處理等存在一定的政策空白。王蕊等[8] 基于政策文本和案例文本的質性比較, 發(fā)現我國數據安全政策中, 存在政策工具結構不均衡等問題。
1.2 開放數據政策與數據安全政策協(xié)同研究
閆倩等[9] 分析了開放數據政策、數據安全政策的現狀及由開放數據政策引發(fā)的數據安全問題, 提出開放數據與數據安全政策協(xié)同的必要性。張濤等[10] 從主題協(xié)同度的視角, 對現有數據政策中開放數據和數據安全主題關系進行分析, 為政府制定政策提供理論支撐和決策參考。華蕊[11] 以省級行政區(qū)及其省會城市101 份涉及數據開放和安全管理的法定機構職責、法規(guī)政策為樣本, 對比分析數據開放與數據安全在管理主體、職能角色、職責內容上的現狀與特點, 同時針對兩者間的協(xié)同情況進行探究。
1.3 數據安全政策內容挖掘研究
馬海群等[12] 從《中華人民共和國數據安全法(草案)》解讀我國數據安全保護體系建設。毛子駿等[13] 從政策外部屬性、政策工具兩個維度, 研究我國大陸31 個省域的71 份與政務數據安全相關的政策文本。程慧平等[14] 采用NVivo 11 Plus 軟件分析54 份國家層面政務數據安全共享政策文本,發(fā)現存在對政務數據共享生命周期各階段的安全重視不平衡等問題。冉連等[15] 運用內容分析法對我國33 個地級市政府數據安全保護政策內容進行編碼分析與信息挖掘。
綜上所述, 數據安全政策從研究內容上主要圍繞大數據安全、科研數據安全、開放數據安全、政務數據開放安全等問題進行探討; 在研究方法上,數據安全政策研究主要以政策工具和軟件輔助分析進行專家解讀為主[16] , 較少有文獻從主題挖掘和主題演化視角針對我國政府數據安全政策進行系統(tǒng)性分析。而隨著文本挖掘技術的不斷發(fā)展和數據安全政策的增加, 使得以客觀的方式挖掘大樣本、細粒度的文本內涵成為可能[17-19] ?;诖?, 本文從系統(tǒng)性、客觀性視角出發(fā), 采用主題挖掘和主題演化的方法揭示我國數據安全政策的發(fā)展全貌、演化脈絡及研究重點趨勢, 并基于發(fā)現的問題, 提出完善我國數據安全政策的建議。
2模型設計
本文所設計的研究框架如圖1 所示。具體步驟主要包括: 一是獲取自建語料庫中“數據安全” 相關政策文本; 二是對所獲取的政策文本進行預處理;三是通過NMF進行主題建模, 運用主題一致性指標確定模型最優(yōu)主題數目; 四是根據主題模型聚類出各階段主題—主題詞的分布, 并進行主題過濾;五是通過計算主題相似度的方式判定階段主題間的相關關系、構建和識別主題演化路徑, 并對主題內容演化進行可視化分析; 六是根據模型聚類結果進行共現分析、提取核心主題, 并對主題強度演化進行可視化分析, 旨在揭示數據安全政策的發(fā)展全貌、演化脈絡及研究重點趨勢。
2.1主題建模
本文采用NMF(Nonnegative Matrix Factorization)主題模型進行政策文本內容的主題挖掘。NMF 是一種用于降低非負矩陣維數的無監(jiān)督方法, 可以生成易于解釋的文本數據聚類。NMF 通常被視為參數固定且可以獲得稀疏解的LDA 模型。雖然NMF的靈活性不如LDA 模型, 但是該模型可以很好地處理短文本數據集[20] , 而本文正是按照數據安全政策語句進行拆分, 屬于短文本, 因此選用NMF主題模型。NMF 在處理文本時, 它將主題識別問題轉化為約束最優(yōu)化問題來解決, 通過矩陣分解的計算實現主題識別, 其中將聚類解釋為主題, 每個文檔被視為多個重疊主題的累加組合[21-22] 。核心思想為: 將一個文檔—詞項的非負矩陣V(由n 行(詞項)和m 列(文檔)組成)分解成兩個非負矩陣W 和H 的乘積, 表示為式(1):
Vn×m≈Wn×k ×Hk×m (1)
其中, k 是可能取到的最優(yōu)主題數目。W 為文檔—主題矩陣, 其大小與k 有關; H 是n?k, H 為主題—詞項矩陣, 其中主題詞是通過語義矩陣計算單詞與單詞之間的距離得到。NMF 度量V 和U 是通過簡單迭代獲得, 且矩陣W 和H 均為非負。
NMF 建模過程中需要設立主題數目, 本文借鑒已有研究文獻基于Word2Vec 提出通過主題語義一致性輔助確定最優(yōu)主題數目, 即描述由高度相似主題詞組成的主題, 通過向量之間的相似性定義,使其在語義上更加連貫[23] , 一致性最大時確定最優(yōu)主題數目, 如式(2) 所示:
3實證研究
3.1數據采集
為了更多地獲取數據安全政策內容, 同時避免不相干政策內容聚類會導致主題過于分散, 本文在選取樣本時精確查找自建數據政策語料庫[27] 中內容帶有“數據”“安全” 字樣的政策文本547 部,政策發(fā)布時間范圍為2013—2022年, 本文所選擇的政策文本主要由兩部分組成, 一是數據安全專項政策; 二是嵌套于政府發(fā)布的各類數據條例、管理辦法、發(fā)展綱要等具有單獨數據安全章節(jié)的政策,在此基礎上以“安全” 字樣進行人工篩查, 提取帶有“安全” 的政策文本語句片段10 636條, 共885515個字符數作為研究樣本, 利用自建語料庫中政策詞表并結合CNKI中核心期刊“數據安全”相關文獻的關鍵詞, 共形成11461個政策詞語, 并對語料庫進行數據清洗、分詞、去除停用詞等數據預處理工作。此外, 根據政策文本數據量分布情況,以兩年作為一個時間窗口劃分階段, 共劃分5 個階段[28] , 如表2 所示。從政策數量和語句數量可以看出, 數據安全一直是數據類政策關注的重點內容。2015年8月31日,國務院印發(fā)《促進大數據發(fā)展行動綱要》后, 國家和地方政府對數據安全問題就尤為重視, 政策發(fā)布數量呈現出逐年上升趨勢。截至2017—2018 年, 與數據安全相關政策數量達到285篇,語句達到5176句, 此后政策數量逐步下降。
3.2主題聚類
3.2.1確定最優(yōu)主題數目
本文使用主題一致性大小來驗證不同階段最優(yōu)主題數目。圖2 依次展示了5 個階段及全局數據安全政策不同主題數目下的主題一致性變化情況, 結果表明, 不同時間窗口下主題一致性大小與主題數目的整體變化呈現先上升后下降趨勢, 依次選取各階段主題數目K為14、15、12、15、16、17 時其主題一致性數值最大。
3.2.2NMF模型訓練
在確定各階段最優(yōu)主題數的基礎上, 借助Py?thon 的Sklearn 庫對預處理的政策文本進行NMF 模型訓練, 參數設置NMF(n_components=topics,max_iter=200), 其余參數選擇默認值, 分別進行階段和全局主題聚類, 然后判斷階段與全局主題的一致性, 過濾掉無效主題, 并可視化呈現描述每個主題含義權重較高的前10 個主題詞, 各主題詞按權重從大到小排序。其中, 無效主題過濾是通過余弦相似度來輔助判斷階段主題與全局主題間的一致性程度, 將相似度閾值設置為0 25, 以實現過濾各時間窗口的主題與全局主題相似度數值低于閾值的主題, 從而更精確地挖掘出各階段主題之間的關系,如表3 所示。
3.3 主題內容演化
主題相似度計算是主題內容演化的前提和基礎。如圖3 所示, 將相鄰階段主題做相似度計算, 形成主題相似度熱力圖, 并在此基礎上設定閾值判定階段主題間的演化類型。其中, 閾值選取是基于實驗中不斷迭代測試獲得, 當閾值為σ =0.39 時, 主題可解釋性較強, 能夠清晰地展現主題演化類型。
根據階段主題間的相似度繪制數據安全政策主題演化?;鶊D, 如圖4 所示, 直觀展示了數據安全政策5 個階段政策主題的分布情況、演化路徑及其主題演化類型[29] 。基于此, 本文從縱橫兩個維度對數據安全政策主題變化情況展開分析。其中, 通過縱向維度能夠了解每個階段內主題演化類型和主題演化能力, 并為橫向維度選擇和分析重要演化路徑提供支持。
3.3.1縱向維度分析
縱向維度主要是分析每個階段內主題演化類型和主題演化能力。通常分布占比較高的主題融合性或分化性越強, 則主題演化能力越高, 主題影響力越大。從圖4 可知, 數據安全政策在不同階段主題分布情況和演化能力具有明顯差異。階段1: 2013—2014 年, 屬于數據安全政策的萌芽階段, 以分化、繼承和消亡類型主題為主。S1-T1、S1-T9、S1-T12屬于分化型主題, 這類主題如網絡信息安全、應急、安全保障等是數據安全綜合性較強的主題, 具有較高的演化能力; S1-T2、S1-T5、S1-T6、S1-T7、S1-T10 屬于繼承型主題, 這類主題如個人隱私、物聯網、謠言傳播等聚焦性較強, 不易分化; 其余主題屬于消亡型主題, 與階段2 主題關聯性不高, 時效性強, 演化能力相對較低。階段2: 2015—2016年和階段3: 2017—2018 年, 屬于數據安全政策的生長階段, 國家對于數據安全問題重視程度提高,數據安全政策相繼出臺, 以新生型主題較為突出。此外, S3-T5 具有較強的分化能力, 對相鄰階段的其他主題具有較大的影響力, 主要關注數據開放和數據處理過程中的安全問題。階段4: 2019—2020年和階段5: 2021—2022年, 屬于數據安全政策的發(fā)展階段, 以分化、融合型主題為主, 除S4-T4 是消亡型主題, 演化能力較弱外, 其余主題演化能力均較強。其中, S5-T9 是由階段4 中多個主題融合而來, 反映出政府對于政務數據安全問題的重視;S5-T15 是新生的熱點主題, 主要圍繞多元主體參與數據安全治理。
3.3.2橫向維度分析
橫向維度主要是根據主題演化類型抽取出重要的數據安全政策主題演化路徑進行分析, 以主題演化能力為主要參考依據, 選擇以下3條重要的演化路徑進行分析:
路徑一, 繼承型: S1-T5→S2-T5→S3-T11→S4-T5→S5-T8, 該路徑為數據安全技術相關主題。隨著新興技術的不斷推動, 數據服務產業(yè)快速發(fā)展,以國家大數據(貴州)綜合試驗區(qū)展示中心為代表,國家對數據安全技術尤為重視, 但同時技術的深度應用也加劇了數據安全風險的程度和復雜化。為應對物聯網、云計算、大數據等技術應用產生的海量非結構化數據的挑戰(zhàn), 政府一直將平衡技術發(fā)展與安全作為政策重點關注內容, 尤其是數據安全領域中的“三法一條例” 規(guī)定通過數據安全檢測評估與認證、責任落實、采取相應的加密、去標識化等安全技術措施等治理手段來防范數據安全風險, 為數據產業(yè)發(fā)展提供了支撐和保障, 使得數據安全技術主題呈繼承性持續(xù)演進。
路徑二, 融合型: 通過縱向階段主題演化類型可知, 融合型主題較多且多集中在第五階段, 鑒于此, 本文選擇主題影響力較大的S5-T9 主題進行分析。(S4-T1、S4-T3、S4-T9、S4-T10、S4-T11、S4-T12)→S5-T9, 該路徑主要為政務數據相關主題, 主要由數據全生命周期風險防范與治理相關主題演化而來。隨著《中華人民共和國數據安全法》第五章明確規(guī)定了政務數據安全與開放相關制度,使得數據安全治理在政務數據領域更加聚焦, 同時也反映出在《中華人民共和國數據安全法》頂層設計下, 數據安全治理內容呈現出融合發(fā)展趨勢。
路徑三, 分化型: 通過縱向階段主題演化類型可知, 分化型主題較多, 鑒于此, 本文選擇主題影響力較大的S3-T5 主題進行分析。S3-T5→(S4-T1、S4-T2、S4-T3、S4-T10、S4-T11、S4-T14),該路徑為數據開放主題演化成數據開放與安全問題相關主題。隨著我國數字經濟的發(fā)展, 數據作為國家基礎戰(zhàn)略性資源和重要生產要素, 數據開放是挖掘數據價值、發(fā)展數字經濟的必然選擇, 因此, 數據開放中的安全問題成為政府關注的焦點。主要包括開放原則、開放領域和治理手段3 個方面。開放原則是指在數據開放過程中需確保個人隱私、個人信息、商業(yè)秘密等安全; 開放領域主要聚焦在政務數據、公共數據, 但進入2022 年后, 部分地區(qū)發(fā)布數據條例, 數據開放范圍逐漸向寬口徑過渡, 也體現了國家數據開放的決心, 但在數據開放過程中,數據安全問題同時要關注; 數據安全治理手段主要包括完善數據開放制度與協(xié)議及提高數據開放中突發(fā)事件的應急處置能力。
3.4主題強度演化
主題強度演化能夠反映數據安全政策主題隨時間變化其強度差異, 通過對各階段主題聚類結果進行共現分析, 選取核心主題進行主題強度演化分析。具體通過Python 對聚類結果進行共現, 然后使用Ucinet 將共現矩陣轉成Pajek 格式, 導入VOSview?er 可視化分析軟件, 生成共現圖譜, 如圖5 所示,顏色代表類別, 圓圈大小代表主題的影響程度, 圓圈越大, 主題詞影響力越大。本文基于每個類別,選擇一個或兩個影響程度較大的主題詞表征主題,主要包括: 網絡安全、應急處置、安全保障、個人隱私、主管部門、服務、技術、數據開放、風險評估、安全可控、監(jiān)測預警等主題。這些主題代表了在單個時間窗口或多個時間窗口我國數據安全政策關注的重點, 是我國數據安全政策內容的整體映射。因此是數據安全政策的核心主題。
根據主題共現圖譜確定上述核心主題后, 根據式(5) 計算出各時間階段內核心主題共現的政策語句數量, 然后根據式(6) 計算各個核心主題在不同時間窗口下的主題強度, 繪制主題強度趨勢圖,如圖6 所示, 根據主題強度趨勢可以劃分為3類。
一是主題強度先上升后下降, 但主題強度總體上維持在較高的水平, 主要包括: 網絡安全、安全保障、服務、技術主題。主題強度趨勢表明這類主題雖然呈下降趨勢, 但仍是數據安全的重要組成部分, 具體表現為, 明確網絡安全審查要求、完善數據安全保障措施、發(fā)展數據安全服務與技術等受政策持續(xù)關注, 但內容更為明確、細化。其中, 網絡安全主題強度在2019—2020年出現較大波動, 表明網絡安全作為數據安全的環(huán)境支撐, 隨著2016年《中華人民共和國網絡安全法》的出臺, 數據安全政策中其主題強度一直處于較高水平, 同時數據安全治理也是體系化的網絡安全建設中的重點之一[30] 。反映出政府對網絡安全在數據安全治理中的重視程度。但隨著《中華人民共和國數據安全法》的出臺, 逐漸細化數據安全與網絡安全的關系, 網絡安全審查要求更加明確, 導致在2021—2022 年出現其主題強度急速下降的情況。
二是主題強度總體上呈現上升趨勢。主要包括: 數據開放、公共數據、風險評估、主管部門、應急處置。主題強度趨勢表明這類主題演化能力強, 是政府持續(xù)關注的主題, 預計未來幾年將逐步上升, 具體表現為, 將持續(xù)推動數據開放、擴展數據安全范圍、開展數據安全風險評估、明確主管部門的安全職責、提高應急處置能力。其中, 數據開放和公共數據主題強度尤為突出, 數據開放涉及個人、企業(yè)甚至是國家安全問題, 表明隨著數字經濟的發(fā)展, 政府在制定政策時逐漸加強數據開放或數據流通中對數據安全問題的重視; 公共數據主題強度在2019—2020 年出現較大波動, 反映出自2019年起重視公共數據, 數據安全的演進趨勢呈現出由早期政府數據安全→公共數據安全→廣義上的數據安全, 同時該演進趨勢體現了政府數據開放的決心, 且數據安全范圍也不斷增加。
三是主題強度整體呈現平穩(wěn)趨勢, 波動較小,且維持在較低的水平。主要包括: 個人隱私、安全可控、監(jiān)測預警。主題強度趨勢表明這類主題演化能力低, 主題在數據安全政策內容中占比較低, 具體表現為, 政府在制定政策時對這類主題關注程度也較低。但“三法一條例” 對這類主題從法律層面給出了清晰的定義和明確的要求, 且個人隱私、安全可控主題是數據安全的目標和原則, 貫穿數據安全的始終; 監(jiān)測預警是對可能引發(fā)或導致突發(fā)數據安全事件的各種危險要素進行持續(xù)地監(jiān)測并客觀分析, 它不但是數據安全風險評估的基礎, 還是數據安全風險防范的重要手段。因此, 該現象說明政府對這類主題演進過程政策注意力占比失衡。
4 結論與建議
本文選?。担矗?部數據安全政策作為樣本, 采用NMF 主題模型和Word2Vec 詞向量模型從主題內容演化和主題強度演化兩個視角進行可視化處理與分析, 結果表明: 整體上數據安全主題內容演化圍繞全流程控制呈現聚集性, 同時數據安全作為制度的核心要素嵌入到各個領域使得演化領域呈現擴散性。在主題內容演化方面: 階段1 和階段2 除了基礎性主題外, 大部分主題受關注程度較低, 消亡型主題整體占比較多, 主題間演化能力適中。隨著數據安全政策不斷增多及《促進大數據發(fā)展行動綱要》等政策發(fā)布, 階段3 主題逐漸廣泛, 新生型主題整體占比較多, 主題間演化能力和主題影響力逐漸增強。階段4 和階段5 隨著“三法一條例” 出臺, 數據安全頂層設計逐漸完善, 分化和融合型主題整體占比較多, 主題間演化能力和主題影響力較強, 主題演化更加聚焦, 演化路徑更為豐富。在主題強度演化方面: 提取核心主題進行主題強度分析和趨勢預測, 其中, 網絡安全、安全保障、服務、技術等主題的強度呈現下降趨勢, 但整體較高, 主題發(fā)展逐漸清晰、細化; 數據開放、公共數據、風險評估、主管部門、應急處置相關主題的強度呈現上升趨勢, 主題發(fā)展逐漸受到重視; 個人隱私、安全可控、監(jiān)測預警相關主題的強度呈現平穩(wěn)趨勢, 且整體較低, 主題發(fā)展較為緩慢。
經過主題內容和主題強度的結果分析, 從以下4 個方面提出建議:
一是持續(xù)加強數據開放與安全的協(xié)同。當前數據開放范圍逐漸擴大, 由政府數據到公共數據再到廣義上的數據, 因此數據在開放過程中, 安全問題成為數據開放的重點, 從主題內容和主題強度演化可知, 政府對數據開放中的安全問題等相關主題較為重視, 但隨著覆蓋領域的范圍逐漸擴大, 為了確保開放的數據處于有效保護和合法利用的狀態(tài), 需要進一步細化多元場景下的數據開放, 持續(xù)加強數據開放與安全的協(xié)同。
二是加強全流程的數據安全治理。從風險評估, 到監(jiān)測預警和應急處置, 體現出將安全可控作為總體目標, 事前、事中、事后的數據安全全流程治理思路[31] 。事前風險評估和事后應急處置主題強度不斷加強, 表明政策中該主題部分內容較多和政府對于風險預防與應急處置的重視。但縱觀全流程的數據安全治理, 監(jiān)測預警主題強度不斷下降說明持續(xù)關注不足, 政府應當持續(xù)加強事中監(jiān)管。
三是完善技術與政策融合的數據安全治理機制。數據安全治理離不開技術, 全流程治理過程中均體現了技術, 并且需要政策使技術發(fā)揮最大運用,開發(fā)數據安全技術產品如隱私計算等, 使得數據安全政策與技術項目呼應、協(xié)同, 以提高數據安全治理的效率和效力。技術的主題強度不斷增加實際反映出政府對于技術治理的重視, 但要將技術與政策融合, 需要考慮以數據為中心, 以數據安全技術為依托, 在數據分級分類的基礎上為數據場景化使用保持安全狀態(tài)提供保障。
四是平衡政策主題演化注意力分配。通過主題強度分析可知, 個人隱私、安全可控、監(jiān)測預警政策主題內容占比較低, 應加強此類主題的重視, 充分銜接“三法一條例” 頂層設計, 形成聯動, 發(fā)布專項細化政策, 完善監(jiān)測預警機制, 夯實數據安全治理基礎, 促進數據安全與發(fā)展協(xié)同。