亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        智能情報分析中數(shù)據(jù)與算法風(fēng)險識別模型構(gòu)建研究

        2022-08-31 15:35:42馬海群
        情報學(xué)報 2022年8期
        關(guān)鍵詞:沙盒情報測試

        張 濤,馬海群

        (1. 黑龍江大學(xué)信息管理學(xué)院,哈爾濱 150080;2. 黑龍江大學(xué)信息資源管理研究中心,哈爾濱 150080)

        1 引 言

        隨著大數(shù)據(jù)、人工智能等技術(shù)深入發(fā)展,想充分發(fā)揮新時代國家情報工作的“先導(dǎo)”“引領(lǐng)”“耳目、尖兵、參謀”作用,就要使情報工作適應(yīng)當(dāng)前社會整體環(huán)境。情報工作在黨和國家事業(yè)取得歷史性成就過程中發(fā)揮了重要作用,作為服務(wù)于國家安全與發(fā)展的情報工作有了新的歷史使命。在情報工作的眾多環(huán)節(jié)中,情報分析處于核心地位,它是決策的前提與基礎(chǔ),高質(zhì)量的情報分析是情報工作成果的體現(xiàn),是衡量情報工作質(zhì)量的重要標(biāo)準(zhǔn)。隨著海量多源異構(gòu)數(shù)據(jù)急劇增加,人工智能憑借其強大的數(shù)據(jù)分析優(yōu)勢,極大提升了數(shù)據(jù)收集、分析及生產(chǎn)新數(shù)據(jù)的能力,從而使情報分析上升到“高端智庫”模式的情報服務(wù)、戰(zhàn)略性服務(wù)層面,情報人員在復(fù)雜多變的決策環(huán)境中對海量、異構(gòu)、多模的數(shù)據(jù)進行分析時,智能算法發(fā)揮了重要作用,它不但能大幅度提升情報分析的全面性與準(zhǔn)確性,還能在短時間內(nèi)為用戶提供高水平、有價值的分析結(jié)果。雖然它可以輔助用戶完成智能化的分析過程,提升情報分析效率,但數(shù)據(jù)與算法是一把雙刃劍,在為管理決策帶來便利的同時,會引發(fā)數(shù)據(jù)投毒、數(shù)據(jù)泄露、算法缺陷、算法操控等一系列安全風(fēng)險,這也逐漸成為限制情報工作發(fā)展的主要因素之一[1]。黨的十九屆五中全會和六中全會公報中都對防范化解重大安全風(fēng)險提出明確要求,可見國家對風(fēng)險識別與防范的重視程度。當(dāng)前數(shù)據(jù)與算法風(fēng)險正是大數(shù)據(jù)與人工智能時代情報分析所特有的,我國在該領(lǐng)域研究相對薄弱。從制度層面看,并沒有形成風(fēng)險識別機制,尤其是在情報工作領(lǐng)域,若不及時防范與化解數(shù)據(jù)與算法風(fēng)險,不僅會導(dǎo)致情報分析失準(zhǔn),甚至還會給社會穩(wěn)定乃至國家安全造成災(zāi)難級影響。因此,進一步加強對情報分析中數(shù)據(jù)與算法風(fēng)險前瞻識別、預(yù)防與治理的研究符合總體國家安全發(fā)展戰(zhàn)略目標(biāo)。早在2018 年,中國首個人工智能深度學(xué)習(xí)算法標(biāo)準(zhǔn)《人工智能深度學(xué)習(xí)算法評估規(guī)范》在中國人工智能開源軟件發(fā)展聯(lián)盟成立大會上正式發(fā)布;2019 年,中國信息通信研究院安全研究所發(fā)布《人工智能數(shù)據(jù)安全白皮書(2019 年)》;2021 年9 月,國家互聯(lián)網(wǎng)信息辦公室、中央宣傳部等九部委印發(fā)《關(guān)于加強互聯(lián)網(wǎng)信息服務(wù)算法綜合治理的指導(dǎo)意見》;2021 年11 月,中共中央政治局召開會議審議《國家安全戰(zhàn)略(2021—2025 年)》時提出,統(tǒng)籌做好新型領(lǐng)域安全,加快提升網(wǎng)絡(luò)安全、數(shù)據(jù)安全、人工智能安全等領(lǐng)域的治理能力;2022 年3 月《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》正式實施,國家在強化數(shù)據(jù)與算法安全風(fēng)險事件防范的同時,不斷通過法規(guī)制度完善數(shù)據(jù)與安全風(fēng)險的頂層設(shè)計;2021 年12 月全國金融標(biāo)準(zhǔn)化技術(shù)委員會發(fā)布《金融數(shù)據(jù)安全數(shù)據(jù)安全評估規(guī)范(征求意見稿)》,該標(biāo)準(zhǔn)為第三方安全評估機構(gòu)等單位開展金融數(shù)據(jù)安全檢查與評估工作提供了參考。由此可見各領(lǐng)域也逐漸開始建立完善具有領(lǐng)域特色的數(shù)據(jù)與算法安全風(fēng)險防范措施。

        國內(nèi)外學(xué)者圍繞智能情報分析、數(shù)據(jù)與算法風(fēng)險等主題展開了卓有成效的研究。第一,智能情報分析。智能情報理念源于1993 年錢學(xué)森先生提出的人機結(jié)合是智慧式情報的關(guān)鍵[2]。2015 年王飛躍[3]基于錢學(xué)森先生的智能情報理念提出平行智能情報,此后學(xué)界在人工智能與情報工作相結(jié)合方面形成了一系列理論層面及應(yīng)用層面的研究成果。理論研究是智能情報分析的基礎(chǔ),如計算情報研究[4-6]、數(shù)據(jù)智能情報研究[7-9]、智能情報分析系統(tǒng)[10-11]、智能與情報融合研究[12-14]等,這些研究奠定了智能情報分析的理論基礎(chǔ)。應(yīng)用研究是智能情報分析的目標(biāo),近年來,很多學(xué)者將人工智能技術(shù)與不同領(lǐng)域情報工作相結(jié)合形成了一系列應(yīng)用研究成果,如反恐情報[15]、金融情報[16]、軍事情報[17]、安全情報[18]、競爭情報[19]、應(yīng)急情報[20],這些研究成果使智能情報分析項目得以推廣應(yīng)用,并逐漸得到認(rèn)可,其中中國科學(xué)院文獻情報中心成立智能情報重點實驗室是理論與應(yīng)用研究相結(jié)合的重要支撐。第二,數(shù)據(jù)與算法風(fēng)險。數(shù)據(jù)風(fēng)險方面,國內(nèi)學(xué)者從治理[21]、問題[22]、體系[23]、路徑[24]、機制[25]等視角對數(shù)據(jù)安全風(fēng)險進行研究;國外學(xué)者從模型[26]、標(biāo)準(zhǔn)[27]、維度[28]、成熟度模型[29]等視角進行數(shù)據(jù)風(fēng)險治理研究。算法風(fēng)險方面,國內(nèi)學(xué)者從算法治理[30]、法律規(guī)制[31]、法律問責(zé)[32]、算法權(quán)力[33-34]等視角對算法風(fēng)險進行深入研究;國外學(xué)者從法律決策責(zé)任[35-36]、倫理責(zé)任[37]、協(xié)同治理[38]等視角對算法風(fēng)險治理進行研究。

        從已有研究成果可見,智能情報分析理論與應(yīng)用已經(jīng)得到了學(xué)界的廣泛關(guān)注,并且從責(zé)任、監(jiān)管、治理等視角對數(shù)據(jù)與算法風(fēng)險進行了較為充分的研究,但是針對智能情報分析領(lǐng)域風(fēng)險識別的研究成果較少,尤其缺少對數(shù)據(jù)與算法風(fēng)險識別模型構(gòu)建與實證層面的研究。因此,本文以實現(xiàn)防范與化解情報分析中數(shù)據(jù)與算法帶來的安全風(fēng)險為目標(biāo),重在討論智能情報分析領(lǐng)域數(shù)據(jù)與算法風(fēng)險問題,基于風(fēng)險社會理論[39]、監(jiān)管沙盒理論[40]構(gòu)建“數(shù)據(jù)-算法-流程”為一體的智能情報分析風(fēng)險識別模型,通過實際智能情報分析項目驗證模型的有效性,最終形成凸顯情報特色、突出情報領(lǐng)域話語權(quán)、具有實踐推廣意義的創(chuàng)新性成果。

        2 模型構(gòu)建

        技術(shù)不斷進步所引發(fā)的不確定性、沖突、對抗和分歧導(dǎo)致社會各領(lǐng)域發(fā)展與風(fēng)險疊加共生,我國社會轉(zhuǎn)型呈現(xiàn)時空高度壓縮的跨越式特征,人工智能技術(shù)應(yīng)用于情報分析項目中恰恰符合貝克風(fēng)險社會理論中所提到的復(fù)雜交互性、突出人為性、不確定性等特征[39]。《ISO 31000: 2018 風(fēng)險管理指南》將識別方法、識別模型作為風(fēng)險識別的核心要素[41]。因此,本文將識別方法和識別模型作為主要研究對象,以有效識別智能情報分析中數(shù)據(jù)與算法所導(dǎo)致的失實風(fēng)險、決策風(fēng)險、偏見風(fēng)險、隱私風(fēng)險等[42]。

        2.1 識別方法

        沙盒測試是在監(jiān)管沙盒理論基礎(chǔ)上形成的數(shù)據(jù)與算法風(fēng)險識別方法,所謂的沙盒測試就是在項目上線前在內(nèi)部環(huán)境下進行的測試,此時在正常線上環(huán)境是無法看到或查詢到該項目的,只有項目通過測試上傳到生產(chǎn)環(huán)境之后,用戶才能使用該功能[43]。人工智能視域下情報分析涉及領(lǐng)域較廣,不同于以往在某一空間范圍內(nèi)進行試點的方式,沙盒測試突破空間范圍的限制,強調(diào)對智能情報分析項目的風(fēng)險預(yù)警,測試機構(gòu)通過參與智能情報分析項目的全過程,對數(shù)據(jù)與算法的風(fēng)險點進行識別,并提出最優(yōu)建議,同時,參與沙盒測試的項目在申請、測試、形成報告等方面都有詳細(xì)的規(guī)定,這有助于將智能情報分析項目中數(shù)據(jù)與算法風(fēng)險控制在一定范圍內(nèi),并最大限度上保障情報分析的安全性。沙盒測試分為單向識別和雙向識別兩種模式:單項識別是基于數(shù)據(jù)描述與算法描述實現(xiàn)的,而雙向識別是基于流程的數(shù)據(jù)與算法風(fēng)險識別的,尤其是數(shù)據(jù)與算法相融合后,通過對項目流程的測試形成雙向驅(qū)動,并相互識別存在的風(fēng)險。

        2.2 識別模型

        智能情報分析中數(shù)據(jù)與算法是核心要素,對其風(fēng)險識別是有效提升情報分析準(zhǔn)確性的重要環(huán)節(jié)。常見的數(shù)據(jù)風(fēng)險主要包括數(shù)據(jù)越界、數(shù)據(jù)質(zhì)量、數(shù)據(jù)泄露、數(shù)據(jù)投毒、數(shù)據(jù)隱私等[44]。常見算法風(fēng)險主要包括算法缺陷、算法偏見、算法歧視、算法操控、算法黑箱等[1]。正是基于以上對數(shù)據(jù)與算法風(fēng)險的分析,本文將智能情報分析中數(shù)據(jù)與算法風(fēng)險識別模型構(gòu)建分為篩選審核—沙盒測試—輸出結(jié)果三個階段,如圖1 所示。

        圖1 智能情報分析中數(shù)據(jù)與算法風(fēng)險識別模型

        1)篩選審核

        本課題團隊向沙盒測試機構(gòu)提出申請,在篩選審核過程中,應(yīng)遵循以下基本原則:一是入盒項目歸屬于智能情報分析領(lǐng)域,所謂智能情報分析項目需要以大量的數(shù)據(jù)為基礎(chǔ),融合大數(shù)據(jù)與人工智能技術(shù),是支持復(fù)雜業(yè)務(wù)問題的自動識別、判斷并做出前瞻或?qū)崟r決策的智能化項目[10,45];二是入盒項目所涉及的數(shù)據(jù)均應(yīng)在沙盒內(nèi)部完成,并不會對現(xiàn)實社會造成影響;三是入盒項目有數(shù)據(jù)與算法風(fēng)險所具備的風(fēng)險社會理論中復(fù)雜交互性、突出人為性、不確定性、雙刃劍效應(yīng)等特征[42]?;诖撕Y選出項目是否符合入盒標(biāo)準(zhǔn)。

        2)沙盒測試

        項目通過篩選審核后,參考監(jiān)管沙盒中沙盒測試流程[46]和軟件項目管理標(biāo)準(zhǔn)[47],入盒項目團隊要從“數(shù)據(jù)-算法-流程”三個維度提交五份報告,具體報告詳情如表1 所示。若審查所提供的相關(guān)報告準(zhǔn)確無誤,則沙盒測試機構(gòu)將基于實際項目和相關(guān)文檔對入盒項目進行全面測試。

        表1 智能情報分析項目相關(guān)報告

        (1) 數(shù)據(jù)描述。要對項目中數(shù)據(jù)進行全面描述,基于數(shù)據(jù)越界、數(shù)據(jù)質(zhì)量、數(shù)據(jù)泄露、數(shù)據(jù)投毒、數(shù)據(jù)隱私等風(fēng)險按照如下步驟進行:一是明確數(shù)據(jù)收集范圍,確定關(guān)鍵敏感字段;二是在實際測試過程中,重點觀測每個環(huán)節(jié)的數(shù)據(jù)質(zhì)量;三是識別是否存在數(shù)據(jù)泄露、數(shù)據(jù)投毒等風(fēng)險,識別是否存在觸犯《中華人民共和國網(wǎng)絡(luò)安全法》《中華人民共和國數(shù)據(jù)安全法》《中華人民共和國個人信息保護法》《中華人民共和國保守國家秘密法》(以下分別簡稱《網(wǎng)絡(luò)安全法》《數(shù)據(jù)安全法》《個人信息保護法》《保密法》)等法規(guī)的情況。

        (2) 算法描述。要對項目中算法進行全面描述,基于算法黑箱、算法歧視、算法偏見、算法操控、算法缺陷等風(fēng)險按照如下步驟進行:一是確定所使用的核心算法類型,明確使用算法運行機理;二是確定算法間使用關(guān)系,重點關(guān)注是否存在算法加權(quán)、算法改進后使算法運行機理發(fā)生變化的情況,尤其是深度學(xué)習(xí)算法的交叉使用,其評估標(biāo)準(zhǔn)可以參照2018 年中國電子技術(shù)標(biāo)準(zhǔn)化研究院等機構(gòu)發(fā)布的《人工智能深度學(xué)習(xí)算法評估規(guī)范》。

        (3)流程測試。沙盒測試以風(fēng)險識別與防范為基本思路,流程測試重點參考數(shù)據(jù)描述和算法描述的內(nèi)容。智能情報分析流程主要包括智能情報感知、智能數(shù)據(jù)采集、智能情報推薦、智能情報關(guān)聯(lián)、智能情報預(yù)測、智能情報解讀等[1],情報分析項目往往包括其中的一個或多個流程。流程測試是在數(shù)據(jù)測試和算法測試基礎(chǔ)上進行的,要基于數(shù)據(jù)與算法風(fēng)險特征通過實際數(shù)據(jù)識別風(fēng)險,具體步驟如下:一是從項目運行流程視角發(fā)現(xiàn)數(shù)據(jù)與算法的運行風(fēng)險;二是基于項目流程測試識別由bug 導(dǎo)致的數(shù)據(jù)質(zhì)量問題;三是識別項目中越界存取、數(shù)據(jù)隱私泄露的情況;四是對算法中參數(shù)、閾值進行反復(fù)調(diào)試直至最優(yōu);五是重點核查數(shù)據(jù)與算法相融合后的異化風(fēng)險。

        3)輸出結(jié)果

        沙盒測試完成后,要基于沙盒測試結(jié)果最終形成智能情報分析數(shù)據(jù)與算法風(fēng)險識別建議綜合報告,并由測試團隊對結(jié)果做出評估,綜合參考《人工智能深度學(xué)習(xí)算法評估規(guī)范》《人工智能數(shù)據(jù)安全白皮書》等,將數(shù)據(jù)與算法風(fēng)險按照嚴(yán)重程度、可控性和影響范圍等因素[42]分為災(zāi)難級(I)、嚴(yán)重級(II)、一般級(III)和輕微級(IV)四級,如表2 所示。其中情報分析項目內(nèi)容和數(shù)據(jù)與算法風(fēng)險點是評估等級的重要標(biāo)準(zhǔn),將評估等級線劃定為輕微級(IV),若項目所有評估風(fēng)險均低于輕微級(IV),則可將其投放市場;若高于輕微級(IV),則未通過評估,需要根據(jù)風(fēng)險點進行整改,整改后重新入盒測試,直到通過評估。智能情報分析項目測試機構(gòu)應(yīng)持續(xù)跟蹤入盒項目測試狀況及產(chǎn)生的經(jīng)驗數(shù)據(jù),以此提升智能情報分析風(fēng)險識別的準(zhǔn)確性;對智能情報分析項目中數(shù)據(jù)與算法的風(fēng)險識別能夠降低項目入市后的安全風(fēng)險,以促使情報工作市場良性循環(huán)發(fā)展。

        表2 數(shù)據(jù)與算法風(fēng)險評估等級劃定表

        3 實證研究

        為更好地驗證風(fēng)險識別模型的有效性,本文以本課題團隊中“領(lǐng)域熱點主題識別及演化分析項目”為例,基于風(fēng)險識別模型識別該項目中數(shù)據(jù)與算法存在的風(fēng)險。篩選審核作為風(fēng)險識別初始環(huán)節(jié),根據(jù)篩選原則,首先確定項目所采用的LDA(latent Dirichlet allocation) 主題聚類是人工智能領(lǐng)域無監(jiān)督學(xué)習(xí)的重要算法之一,而對某領(lǐng)域熱點主題識別及演化研究是情報學(xué)研究的重點內(nèi)容[48],因此該項目歸屬于智能情報分析領(lǐng)域;其次,該項目以智能算法領(lǐng)域為例[49],其測試過程與結(jié)果屬于全封閉狀態(tài);最后,該項目中數(shù)據(jù)與算法風(fēng)險具有典型的風(fēng)險社會基本特征,尤其是符合突出人為性和雙刃劍效應(yīng)。因此,判定該項目符合入盒測試條件,根據(jù)項目團隊提供的5 份報告(見表1)和風(fēng)險識別模型(見圖1),對該智能情報分析項目中數(shù)據(jù)與算法風(fēng)險進行識別。

        3.1 核心數(shù)據(jù)描述

        基于《智能情報分析項目需求分析報告》《智能情報分析項目數(shù)據(jù)設(shè)計報告》《智能情報分析項目測試報告》對項目中核心數(shù)據(jù)進行如下描述:①數(shù)據(jù)采集:該項目中核心數(shù)據(jù)選擇Web of Science(WoS)中以“智能算法”為關(guān)鍵詞的48734 條文本數(shù)據(jù);②數(shù)據(jù)處理:提取篇名及摘要形成預(yù)處理語料,篩選無效數(shù)據(jù)、不完整數(shù)據(jù),剩余47896 條數(shù)據(jù);③構(gòu)建數(shù)據(jù)詞典:提取關(guān)鍵詞形成該項目的領(lǐng)域詞典,共50565 條;④主題數(shù)據(jù)抽?。捍瞬糠址謩e對全局?jǐn)?shù)據(jù)與階段數(shù)據(jù)進行LDA 主題聚類,全局?jǐn)?shù)據(jù)進行主題抽取后共形成46 個主題,階段數(shù)據(jù)按照時間劃分為12 個階段,分別形成了每個階段的最優(yōu)主題;⑤主題數(shù)據(jù)過濾:將全局主題與階段主題進行相似度計算,按照一定規(guī)則進行主題過濾,去除無效主題,有效主題數(shù)分別為(13,17,16,24,28,29,29,25,27,30,27,42);⑥熱點主題識別:依據(jù)新穎度和支持度對熱點主題進行識別[50],識別熱點主題82 個;⑦主題演化路徑:通過計算不同階段熱點主題相似度形成主題演化路徑[51];⑧輸出智能情報分析結(jié)果:基于實際數(shù)據(jù)輸出可視化的情報分析結(jié)果。

        3.2 核心算法描述

        基于《智能情報分析項目需求分析報告》《智能情報分析項目核心算法解釋性文檔》《智能情報分析項目測試報告》分析發(fā)現(xiàn),該項目中核心算法為LDA 主題模型和余弦相似度。

        (1)LDA 主題模型。LDA 主題模型的聯(lián)合概率具體表示[52]為

        為了使算法描述得更為清晰,測試團隊用圖模型的表示方式來分解公式(1)。把公式(1)抽象為語料層、文本層、詞語層,利用圖模型的方式把LDA模型表示出來,如圖2 所示。①語料層:α和β是文本語料集的超參數(shù),這兩個參數(shù)是模型訓(xùn)練的關(guān)鍵,α是p(θ)分布的向量參數(shù),用于生成主題分布θ;β是主題對應(yīng)詞語的概率分布矩陣p(w|z)。②文本層:文本和主題分布θ是對應(yīng)的,每個文本產(chǎn)生的主題z的概率是不同的。③詞語層:z是由主題分布θ生 成的,w是由z和β共 同生成 的,w和z是 相對應(yīng)的;w為觀察變量,θ和z為隱藏變量,可以通過EM(expectation maximization)學(xué)習(xí)出α和β,由于后驗概率p(θ,z|w)無法直接計算,因此要用似然函數(shù)下界來近似推理出估計值,計算最大似然函數(shù),得出α和β,不斷迭代直到收斂,最終完成主題聚類過程。在該項目中,通過perplexity 方法來確定LDA 模型最優(yōu)主題數(shù)[53]。

        圖2 LDA生成過程圖模型

        (2)余弦相似度。該項目采用余弦相似度計算的方法來衡量相鄰較近時間片的熱點主題關(guān)系,從而確定相關(guān)主題間的演化關(guān)系與演化路徑。對任意兩個主題z1和z2,利用余弦相似度計算主題相似性[54],即

        其夾角余弦值表示距離,通過計算兩個向量的余弦值來表示兩個主題相似度,其取值范圍從0 到1,數(shù)值越大則相似度越高。

        3.3 基于流程的數(shù)據(jù)與算法風(fēng)險識別

        依據(jù)智能情報分析整體流程,基于《智能情報分析項目需求分析報告》《智能情報分析項目流程設(shè)計方案》《智能情報分析項目測試報告》,形成該項目的數(shù)據(jù)與算法風(fēng)險識別圖,識別出10 個風(fēng)險點,如圖3 所示。在沙盒測試后形成的《智能情報分析數(shù)據(jù)與算法風(fēng)險識別及建議綜合報告》中將圍繞這些風(fēng)險點提出綜合建議。

        圖3 基于項目流程的數(shù)據(jù)與算法風(fēng)險識別

        1)數(shù)據(jù)采集

        ①敏感數(shù)據(jù):包括保密數(shù)據(jù)、隱私數(shù)據(jù)等。在數(shù)據(jù)獲取或爬取過程中,按照《網(wǎng)絡(luò)安全法》《數(shù)據(jù)安全法》《個人信息保護法》《保密法》中對數(shù)據(jù)獲取的明確要求,嚴(yán)格審查數(shù)據(jù)獲取規(guī)則、數(shù)據(jù)獲取主題、數(shù)據(jù)獲取范圍,如果發(fā)現(xiàn)處于爭議的數(shù)據(jù)需要通過建立敏感數(shù)據(jù)字典的方式進行預(yù)警與過濾,采集敏感數(shù)據(jù)的數(shù)量會直接影響機器學(xué)習(xí)的深化程度及算法操控風(fēng)險發(fā)生。在本項目中由于選擇主題為智能算法,獲取途徑為直接下載,因此該部分?jǐn)?shù)據(jù)源并未涉及敏感數(shù)據(jù)。

        ②爬取越界:《數(shù)據(jù)安全法》第三十二條提出,任何組織、個人收集數(shù)據(jù),應(yīng)當(dāng)采取合法、正當(dāng)?shù)姆绞?,不得竊取或者以其他非法方式獲取數(shù)據(jù);《數(shù)據(jù)安全管理辦法(征求意見稿)》第十六條和第十七條規(guī)定了爬蟲獲取數(shù)據(jù)的界限,尤其是對收集重要數(shù)據(jù)或敏感數(shù)據(jù),應(yīng)特別重視并嚴(yán)格審查,該環(huán)節(jié)極易造成數(shù)據(jù)隱私風(fēng)險、數(shù)據(jù)泄露風(fēng)險。該項目利用人工采集數(shù)據(jù),因此并未涉及此類風(fēng)險。

        2)數(shù)據(jù)處理

        ③領(lǐng)域詞典:由于該項目需要引入領(lǐng)域詞典,因此該環(huán)節(jié)容易出現(xiàn)帶有污染、偏見與歧視性的數(shù)據(jù)詞典,需要詳細(xì)核查領(lǐng)域詞典數(shù)據(jù)獲取途徑,并對詞典內(nèi)容進行反復(fù)檢驗。該項目是將WoS 文獻中的關(guān)鍵詞疊加去噪后作為領(lǐng)域詞典,因此該部分?jǐn)?shù)據(jù)質(zhì)量相對較好。

        ④清洗數(shù)據(jù):該項目通過NLTK (natural lan‐guage toolkit)進行預(yù)處理,包括tokenize 分詞、詞性標(biāo)注、歸一化等,隨后導(dǎo)入領(lǐng)域詞典,去除副詞、形容詞、助詞等無實際意義的詞(只保留名詞、動詞等)等操作,通過反復(fù)測試識別無效詞進而形成無效詞表并導(dǎo)入,直至實現(xiàn)數(shù)據(jù)最優(yōu)。一旦無實際意義的數(shù)據(jù)充實到LDA 主題聚類中,就會造成數(shù)據(jù)污染,這將會對有價值的情報構(gòu)成直接影響。

        3)主題抽取

        ⑤LDA 選擇與參數(shù)設(shè)置:算法選擇與參數(shù)設(shè)置都會影響最終情報輸出的結(jié)果,基于3.2 節(jié)核心算法描述了解LDA 模型、運行機理及影響其穩(wěn)定性的關(guān)鍵因素后,做如下風(fēng)險分析。一是LDA 采用的是詞袋模型,語義分析層面較為欠缺,因此在數(shù)據(jù)集較小或數(shù)據(jù)內(nèi)容欠規(guī)范的情況下會直接影響結(jié)果輸出的精準(zhǔn)性。鑒于該項目數(shù)據(jù)集合較大,且數(shù)據(jù)內(nèi)容相對規(guī)范,因此選擇該算法風(fēng)險較低。二是參數(shù)設(shè)置對算法穩(wěn)定性起到重要作用。對LDA 算法超參數(shù)、迭代次數(shù)、主題數(shù)量等進行合理推測,通過沙盒測試觀察實驗運行結(jié)果,反復(fù)調(diào)整最終確定合理數(shù)值為:(a)超參數(shù):α=0.01,β=0.001。如果超參數(shù)設(shè)置越小,主題聚類后就越集中。由于最優(yōu)主題數(shù)和詞典數(shù)較大,因此參數(shù)α和β要選擇較小的數(shù)值,這樣會使文檔—主題、主題—詞分布聚集到部分特征維度上。(b)迭代次數(shù):迭代次數(shù)多容易導(dǎo)致消耗性能,迭代次數(shù)少會使模型不收斂,為了保證足夠的Gibbs 采樣次數(shù),經(jīng)反復(fù)測試后,數(shù)值為500 輸出數(shù)據(jù)較為合理。(c)主題數(shù)量:引入perplexity 困惑度方法對LDA 模型多次測試后,隨著迭代的進行,LDA 模型的perplexity 曲線會逐漸收斂,因此根據(jù)perplexity 曲線收斂性可驗證LDA 主題數(shù)據(jù)的準(zhǔn)確性。

        4)主題過濾

        ⑥主題核心詞閾值:此閾值比例設(shè)置較高時,會導(dǎo)致許多概率較低的詞參與到相似度計算;閾值比例較低時,會導(dǎo)致與主題相關(guān)的主題詞被過濾掉,使主題相似度計算數(shù)值出現(xiàn)虛高,這會對情報結(jié)果產(chǎn)生嚴(yán)重失實風(fēng)險。在該項目中主題內(nèi)容通過詞分布進行向量化,將每個主題視為向量,每個詞視為主題向量的一個屬性維度,其對主題的貢獻概率是向量在這個方向上的強度,將LDA 聚類后的全局主題和階段主題都視為向量,向量的維數(shù)理論上是全局詞典中詞的數(shù)量,因此計算主題向量之間的余弦值可以衡量主題之間的距離,這個距離反映了兩個主題內(nèi)容的相關(guān)程度,該項目選取傳統(tǒng)的

        TF-IDF (term frequency-inverse document frequency)生成詞向量,測試過程中建議選用word2vec 和BERT(bidirectional encoder representation from transformers)訓(xùn)練詞向量模型。在計算兩個主題向量的內(nèi)積時,每個向量都有156545 維,經(jīng)過反復(fù)測試,選取概率小于1/156545 約為6.39×10-6(接近0)的數(shù)值,而該數(shù)值恰好約占總主題詞數(shù)量的5%,因此閾值按照5%選取,通過隨機抽樣方法觀測主題內(nèi)容確定該閾值置信度較高,所帶來的情報失實風(fēng)險較小。

        ⑦主題過濾相似度閾值:此部分閾值設(shè)置較高會導(dǎo)致有價值主題被排除,閾值設(shè)置較低會使部分無效主題進入。通常來說,只要算出階段主題對任意一個全局主題的余弦相似度大于閾值,就認(rèn)為階段主題和全局主題關(guān)聯(lián)較大,這就實現(xiàn)了對有效主題的識別。此部分閾值計算公式為

        其中,Zzy為全局最優(yōu)主題數(shù);Znm為階段主題數(shù)。根據(jù)公式(3)計算閾值C為0.1009。在測試過程中出現(xiàn)了階段主題和全局主題之間所有主題詞的概率平均且很小,余弦相似度接近1 的情況,這是LDA 主題聚類時主題計算崩潰造成的,因此還要選取大于閾值C且小于95%的階段主題。通過數(shù)據(jù)與算法的雙向驅(qū)動識別風(fēng)險,若此部分?jǐn)?shù)據(jù)被識別為有效主題,則輸出的情報將會出現(xiàn)失實風(fēng)險。

        5)熱點主題識別

        ⑧熱點主題識別閾值:按照《智能情報分析項目核心算法解釋性文檔》中熱點主題識別所提出的新穎度和支持度計算方法[50],對熱點主題識別過程分析如下。

        首先,計算不同階段中主題平均概率Rn,只要某一階段的某一文檔對主題分布的概率大于Rn,就認(rèn)為該文檔對這個主題構(gòu)成了支撐,Zxn為階段有效主題數(shù)量,計算公式為

        其次,計算支撐度ZCn,定義文檔支撐數(shù)量為DZn,階段文檔總數(shù)為Dn,計算公式為

        再次,計算平均支撐度ZCP,計算公式為

        最后,進行熱點主題識別,在階段主題支撐度矩陣中篩選出大于文檔平均支撐度的主題作為熱點主題,Rn閾值設(shè)置直接影響熱點主題識別結(jié)果,經(jīng)過反復(fù)測試證實當(dāng)前閾值相對合理,熱點主題識別相對較為準(zhǔn)確。

        ⑨熱點主題數(shù)據(jù):基于以上方法確定第二象限數(shù)據(jù)為熱點主題區(qū)域,但實際測試發(fā)現(xiàn),在新興主題區(qū)域中部分主題是熱點主題的延續(xù),只要新興階段的主題和熱點階段的主題具有相似性,就說明它們是同一演化路徑熱點主題的延續(xù),這類主題屬于持續(xù)熱點主題。最終得到熱點主題82 個,如圖4 所示,如果忽略新興主題區(qū)域圓圈部分?jǐn)?shù)據(jù),就會使有效數(shù)據(jù)缺失并直接導(dǎo)致出現(xiàn)情報分析結(jié)果失準(zhǔn)或帶有偏差等風(fēng)險。

        圖4 智能情報分析項目熱點主題分布散點圖

        6)主題演化路徑

        ⑩相似度算法選擇與閾值設(shè)置:相似度計算是機器學(xué)習(xí)領(lǐng)域基礎(chǔ)而重要的算法,余弦相似度計算是常用相似度算法之一,其應(yīng)用于眾多領(lǐng)域。在該項目中,主要利用此算法計算相鄰階段熱點主題之間的余弦相似度。在算法選擇層面,由于余弦相似度是基于詞語的方法,并未考慮語義層面的內(nèi)容,因此應(yīng)盡量考慮基于知識庫與語料庫的方法[55];該算法可能會過濾掉一些語義相似的數(shù)據(jù),進而使情報結(jié)果準(zhǔn)確度降低,在測試結(jié)果中建議選擇更多的相似度算法以提升情報分析的準(zhǔn)確度,進而挖掘更精準(zhǔn)的情報。在閾值設(shè)置層面,測試發(fā)現(xiàn)在相鄰熱點主題相似度矩陣中,大于20%的共有68 個相鄰主題,大于30%的共有26 個相鄰主題,為了將更多相關(guān)主題納入演化路徑中,因此測試選取20%作為閾值,最終形成如圖5 所示的熱點主題演化路徑。

        圖5 不同階段的主題演化路徑

        7)形成情報分析結(jié)果

        針對所形成的部分繼承演化、融合演化和分裂演化路徑做如下分析。其中S1~S12 代表了階段,T代表了某階段的主題。

        (1) 繼承演化:選取從S6-T28 到S7-T40 再到S8-T28 所形成的繼承演化路徑,如圖6 所示。其中S6-T28 到S7-T40 相似度為0.211,再到S8-T28 相似度為0.347,從2008—2009 年genetic algorithms、con‐troller 的提出開始,演化到2010—2011 年的robot、controller,在智能機器人運動控制領(lǐng)域進行全局最優(yōu)解搜索,再演化到2012—2013 年的robot、con‐troller、simulated annealing,在運動控制系統(tǒng)中逐漸使用模擬退火算法(simulated annealing)取代遺傳算法(genetic algorithms)。遺傳算法和模擬退火算法的作用都是多目標(biāo)優(yōu)化找到全局最優(yōu)的近似解,解決傳統(tǒng)的窮舉法獲得全局最優(yōu)解運算量大的問題,但遺傳算法存在局部搜索能力差、容易陷入過早收斂等缺陷,模擬退火算法的出現(xiàn)解決了當(dāng)時存在的問題,因此從時間上符合演化規(guī)律。

        圖6 繼承演化路徑及主題詞(Top 10)

        (2) 融合演化:選取從S9-T20、S9-T21、S9-T27、S9-T35 主題融合為S10-T25 的路徑,如圖7 所示。2014—2015 年在技術(shù)領(lǐng)域出現(xiàn)了learning、method、optimization、optimized、genetic algorithm、local、complexity 等,主要探討各種優(yōu)化參數(shù)技巧訓(xùn)練復(fù)雜的智能算法模型,在應(yīng)用領(lǐng)域vehicle、mobile、wireless sensor network 也開始廣泛應(yīng)用智能算法。2016—2017 年主題融合形成了model、recog‐nition、detection、support vector machine 等,在該階段文字識別、語音技術(shù)識別、圖像識別等領(lǐng)域不斷興起,并取得了不錯的結(jié)果,該階段多數(shù)研究從技術(shù)上支持向量機(support vector machine) 進行分類。事實上在以神經(jīng)網(wǎng)絡(luò)為主的深度學(xué)習(xí)出現(xiàn)以前,支持向量機是一種非常有效的分類算法。

        圖7 融合演化路徑及主題詞(Top 10)

        (3)分裂演化:選取從S11-T32 主題分裂為S12-T3、 S12-T9、 S12-T10、 S12-T12、 S12-T13、 S12-T32 的路徑,如圖8 所示。該階段分裂主題數(shù)量最多,自2018—2019 年machine learning、neural net‐work、deep learning 的出現(xiàn),到2020—2021 年主題分裂 為objective、detection、recognition、CNN (con‐volutional neural network)、 ANN (artificial neural network)、deep learning、congestion、city、machine learning、 decision tree、 prediction、 real-time、 big data 等。分裂主題為三類:(a)目標(biāo)探測和識別:包括objective、detection、recognition 等,該階段語音識別、文字識別、圖像識別得到更廣泛的應(yīng)用;(b)應(yīng)用于不同領(lǐng)域:在the internet of things、de‐vices、congestion、city 等領(lǐng)域都發(fā)揮重要作用,如物聯(lián)網(wǎng)、智慧城市等;(c)算法更為細(xì)化:包括CNN、ANN、decision tree、real-time、big data 等,其中CNN、ANN 等深度學(xué)習(xí)算法在該階段得到了快速發(fā)展。

        圖8 分裂演化路徑及主題詞(Top 10)

        通過對以上演化路徑的分析完成了情報分析過程并得出了與實際相符的分析結(jié)果,但從主題詞上來看,確實存在一些無實際意義的詞語,因此需要進行反復(fù)測試才能使分析結(jié)果更準(zhǔn)確。

        3.4 測試結(jié)果

        沙盒測試是對智能情報分析項目中數(shù)據(jù)與算法風(fēng)險進行識別的主要方法,并從全流程視角識別風(fēng)險。對該項目10 個風(fēng)險點進行評估,根據(jù)表2 中的風(fēng)險等級對數(shù)據(jù)與算法中每項風(fēng)險進行風(fēng)險描述、風(fēng)險等級類別和等級劃分,如表3 所示,雖然該項目不存在較為嚴(yán)重的失實風(fēng)險、決策風(fēng)險、偏見風(fēng)險、隱私風(fēng)險等,但尚存在4 個輕微級(IV)和6個一般級(III)風(fēng)險點,因此項目團隊要針對6 個一般級(III)風(fēng)險點進行逐一確認(rèn)并整改,提交整改說明報告,再次測試無誤后方可入市。本文所提出的風(fēng)險識別模型不但能有效識別智能情報分析項目中數(shù)據(jù)與算法風(fēng)險,還能最大限度降低項目入市后所帶來的安全隱患。

        表3 智能情報分析項目中數(shù)據(jù)與算法風(fēng)險定級

        4 結(jié)論與建議

        在新興技術(shù)推動社會進步的同時,越來越多的情報分析項目基于大數(shù)據(jù)與智能算法來實現(xiàn),但它們在為人類社會提供便捷與高效的同時,也帶來了種種難以預(yù)測的風(fēng)險,而且這些風(fēng)險在金融情報、軍事情報、反恐情報、應(yīng)急情報等領(lǐng)域更具危害性,影響范圍更大,甚至?xí)<吧鐣€(wěn)定與國家安全。2021 年7 月“滴滴出行”等接受網(wǎng)絡(luò)安全審查,被發(fā)現(xiàn)其嚴(yán)重違法違規(guī)收集使用用戶隱私數(shù)據(jù),給社會乃至國家安全帶來風(fēng)險,該事件將數(shù)據(jù)與算法風(fēng)險識別推上了前臺。實際上,《中華人民共和國國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和2035 年遠(yuǎn)景目標(biāo)綱要》中明確提出了防范化解重大風(fēng)險體制機制應(yīng)不斷健全[56],因此該事件的及時處理也充分體現(xiàn)了國家對防范化解重大風(fēng)險的決心?;诖?,本文以風(fēng)險社會理論、監(jiān)管沙盒理論為依托,構(gòu)建“數(shù)據(jù)-算法-流程”的智能情報分析安全風(fēng)險識別模型,并以本課題團隊的“領(lǐng)域熱點主題識別及演化分析項目”為例,詳細(xì)分析了其數(shù)據(jù)與算法風(fēng)險識別的過程,同時也驗證了風(fēng)險識別模型的有效性。最后,通過模型構(gòu)建與實證提出如下對策建議,期望形成凸顯情報學(xué)學(xué)科特色、突出情報領(lǐng)域話語權(quán)、具有實踐推廣意義的研究成果。

        1)培養(yǎng)情報學(xué)領(lǐng)域人才的風(fēng)險識別意識

        基于以上實證研究發(fā)現(xiàn),該項目中所存在的風(fēng)險和當(dāng)前社會“重創(chuàng)新、輕風(fēng)險”的思想相吻合,而這正是風(fēng)險識別意識淡薄所導(dǎo)致的;如果該思想在情報人才培養(yǎng)中蔓延,所帶來的潛在危害是無法估量的。因此要培養(yǎng)具有風(fēng)險識別意識的耳目、尖兵、參謀、引領(lǐng)式情報人才[57],提出以下三點建議:一是在情報學(xué)科中增加最新信息技術(shù)課程,尤其要重點介紹技術(shù)運行原理及應(yīng)用場景,如人工智能技術(shù)、大數(shù)據(jù)技術(shù)等課程;二是增加項目管理中風(fēng)險識別相關(guān)課程,尤其是對技術(shù)算法與核心數(shù)據(jù)中的風(fēng)險識別及風(fēng)險預(yù)測等;三是增加智能情報分析應(yīng)用實踐項目,增加情報人才的實踐能力,有意識培養(yǎng)情報學(xué)人才在應(yīng)用實踐過程中的風(fēng)險識別經(jīng)驗。

        2)情報工作機構(gòu)中設(shè)立監(jiān)管沙盒職能

        在風(fēng)險識別模型中,沙盒測試是基于監(jiān)管沙盒理論形成的,監(jiān)管沙盒是指由監(jiān)管機構(gòu)提供一個“安全空間”,創(chuàng)新企業(yè)在符合特定條件的前提下,可申請突破一定的規(guī)則限制在該空間內(nèi)進行項目測試[58]。監(jiān)管沙盒強調(diào)的是多元共治的監(jiān)管理念,注重監(jiān)管機構(gòu)、被監(jiān)管者以及消費者多元主體共同參與治理,通過多元共治,將事前預(yù)防與事中、事后監(jiān)管相結(jié)合,有效改善了監(jiān)管信息不對稱問題,由此實現(xiàn)對風(fēng)險的識別及監(jiān)管。目前越來越多的情報分析項目應(yīng)用智能技術(shù),而其帶來的風(fēng)險問題容易被忽略,因此情報工作機構(gòu)應(yīng)擔(dān)負(fù)起智能情報分析項目中數(shù)據(jù)與算法風(fēng)險識別的重任。建議以情報工作機構(gòu)或行業(yè)協(xié)會牽頭,融合高校、企業(yè)的科研力量,在機構(gòu)內(nèi)部設(shè)立監(jiān)管沙盒職能,實現(xiàn)對智能情報分析項目中數(shù)據(jù)與算法風(fēng)險識別的理論與應(yīng)用研究,以協(xié)助智能情報分析項目團隊對項目的完善與創(chuàng)新,降低項目運行的風(fēng)險。

        3)數(shù)智環(huán)境下實現(xiàn)國家情報工作制度創(chuàng)新

        在情報工作機構(gòu)中,構(gòu)建風(fēng)險識別模型需要完善的規(guī)則設(shè)計,而規(guī)則是制度的重要體現(xiàn)形式,因此我們將沙盒測試視作一項平衡科技創(chuàng)新與風(fēng)險的制度設(shè)計,它一旦在情報工作機構(gòu)內(nèi)部運行,將是國家情報工作制度重要的創(chuàng)新點之一。當(dāng)前數(shù)智環(huán)境下,數(shù)據(jù)與算法風(fēng)險識別后急需通過制度建設(shè)進行治理,因此情報工作機構(gòu)要從制度建設(shè)層面關(guān)注智能情報分析領(lǐng)域所應(yīng)用到的數(shù)據(jù)與算法,從以下兩個方面提出建議:一是建立具有情報特色的算法監(jiān)管和算法問責(zé)制度,例如,國家適時考慮制定《算法法》,國家情報機構(gòu)針對已有法規(guī)制定適用于情報領(lǐng)域的《人工智能算法審查規(guī)范》《算法責(zé)任框架》等,在強化監(jiān)管與問責(zé)法律效應(yīng)的同時,對各領(lǐng)域情報工作起到指導(dǎo)作用。二是構(gòu)建具有情報特色的數(shù)據(jù)監(jiān)管制度。《數(shù)據(jù)安全法》第二十二條提出,“國家建立集中統(tǒng)一、高效權(quán)威的數(shù)據(jù)安全風(fēng)險評估、報告、信息共享、監(jiān)測預(yù)警機制。國家數(shù)據(jù)安全工作機制統(tǒng)籌協(xié)調(diào)有關(guān)部門加強數(shù)據(jù)安全風(fēng)險信息的獲取、分析、研判、預(yù)警工作”。這主要說明國家會加強數(shù)據(jù)風(fēng)險情報的共享機制,從制度層面實現(xiàn)智能情報分析中對數(shù)據(jù)的有效監(jiān)管。

        情報分析有別于其他數(shù)據(jù)分析項目,其知識性、保密性、價值性、時效性等特點均較為突出。由于“領(lǐng)域熱點主題識別及演化分析項目”屬于團隊內(nèi)部測試項目,其本身并不會對國家安全及社會穩(wěn)定造成嚴(yán)重影響,因此項目選擇上不具有高風(fēng)險特征。本文所選取的LDA 主題聚類是無監(jiān)督學(xué)習(xí)算法,在風(fēng)險識別層面并不存在如隨機森林、神經(jīng)網(wǎng)絡(luò)等算法帶來的黑箱風(fēng)險問題,針對部分具有黑箱特征的風(fēng)險識別不完全適用,但本文旨在嘗試開拓全新應(yīng)用研究領(lǐng)域,通過構(gòu)建智能情報分析項目數(shù)據(jù)與算法風(fēng)險識別模型來為更多研究者提供參考與借鑒。未來,本團隊將繼續(xù)針對智能情報分析項目對有監(jiān)督學(xué)習(xí)算法進行實證,尤其是對具有黑箱屬性的智能算法進行深入研究。

        猜你喜歡
        沙盒情報測試
        情報
        情報
        情報
        不好惹的沙盒樹
        幽默大測試
        幽默大師(2020年11期)2020-11-26 06:12:12
        韓國版金融科技“監(jiān)管沙盒”法案及其啟示
        Windows 10“沙盒” 不僅更安全
        “攝問”測試
        “攝問”測試
        “攝問”測試
        中文字幕一区,二区,三区| 天堂资源中文最新版在线一区| 猫咪免费人成网站在线观看| 久久久一本精品99久久| 亚洲男人的天堂色偷偷| 中文无码av一区二区三区| 国产麻豆成人精品av| 狠狠躁夜夜躁人人爽天天| 日韩在线精品视频免费| 免费人成视频网站在线不卡| 少妇aaa级久久久无码精品片| 欧美日韩综合网在线观看| av网站可以直接看的| 中文字幕一区二区精品视频 | 少妇无码太爽了不卡视频在线看| 国产精品亚洲一区二区杨幂| 亚洲大胆视频在线观看| 免费av一区二区三区| 中文字幕无码不卡一区二区三区| 国产成年无码久久久免费| 日韩av一区二区蜜桃| 日本最新免费二区三区| 久久久久99精品成人片试看| 亚洲av乱码一区二区三区女同 | 手机在线免费av网址| 人人妻人人澡人人爽精品日本| 真人无码作爱免费视频禁hnn | 国产精品无码无在线观看| 国产激情对白一区二区三区四 | 国产老熟女伦老熟妇露脸| 三级全黄的视频在线观看 | 日日摸天天摸人人看| 天天干夜夜躁| 蜜臀av一区二区三区| 99久久精品免费观看国产| 毛片免费在线观看网址| 中文字幕精品乱码一区| 人妻体内射精一区二区三区| 国产肉体ⅹxxx137大胆| 经典女同一区二区三区| 亚洲人成在久久综合网站|