摘 要:隨著檔案法律法規(guī)的日趨完善和信息技術(shù)的迭代進(jìn)步,檔案開放智能審核工作面臨越來越多的挑戰(zhàn)。敏感詞的識別與控制在防止敏感信息泄露中起著關(guān)鍵作用。通過分析敏感詞識別技術(shù)與方法,構(gòu)建基于大模型與多模態(tài)訓(xùn)練的敏感詞庫,包括敏感詞庫的構(gòu)建、敏感詞庫的動態(tài)更新機制,選擇合適的開發(fā)工具和技術(shù)平臺,進(jìn)行系統(tǒng)架構(gòu)設(shè)計、數(shù)據(jù)庫設(shè)計、界面設(shè)計等,實現(xiàn)檔案開放智能審核中敏感詞的自動化、智能化處理,以增強檔案信息的安全性和可靠性。
關(guān)鍵詞:檔案開放;開放審核;敏感詞識別;控制技術(shù);大模型;多模態(tài);監(jiān)督學(xué)習(xí);智能審核
2020年,新修訂的《中華人民共和國檔案法》將縣級以上各級檔案館的檔案的封閉年限從30年縮短為25年,[1]加快了檔案開放的進(jìn)程,同時也將各級檔案館的開放審核工作提上了重要的議事日程。[2]在檔案開放過程中,敏感詞的識別與控制是確保檔案信息安全的重要措施。傳統(tǒng)的敏感詞識別方法往往依賴于人工定義和手動更新,這種方式不僅效率低下,而且難以滿足檔案開放審核的復(fù)雜需求?,F(xiàn)有的人工智能輔助檔案開放審核系統(tǒng)中,2016年,福建省檔案館引入敏感詞輔助開展檔案開放審核工作,在開放審核的質(zhì)量和效率方面取得一定突破。并于2022年研發(fā)基于數(shù)字檔案的人工智能檔案開放審核系統(tǒng),將目錄及全文運用“敏感詞”過濾進(jìn)行智能分級分庫,并按初審、復(fù)審、終審流程進(jìn)行逐級審核。[3]2019年,濰坊市檔案館主導(dǎo)開發(fā)了綜合檔案管理系統(tǒng)中的檔案審核程序,將敏感詞全文比對技術(shù)應(yīng)用到審核工作中,實現(xiàn)了檔案開放審核工作在技術(shù)上質(zhì)的提升。[4]2021年,四川省檔案館圍繞檔案開放審核中的各個維度和要素,利用關(guān)鍵詞提取、敏感詞標(biāo)注等輔助技術(shù),對其原理、設(shè)計及應(yīng)用實踐進(jìn)行研究,以達(dá)到提高檔案開放審核速度和精準(zhǔn)度、賦能檔案開放審核工作的目的。[5]構(gòu)建一個高效、準(zhǔn)確的敏感詞庫,是檔案開放審核工作亟待解決的問題。
1 敏感詞識別技術(shù)與方法
1.1 敏感詞識別技術(shù)。敏感詞是一類被定義為敏感信息的關(guān)鍵詞,如IP地址、身份證號、手機號、密鑰、數(shù)據(jù)庫連接密碼等。[6-11]敏感詞識別技術(shù)是一種用于檢測文本、語音、圖片等媒體中是否包含敏感詞匯或內(nèi)容的技術(shù)手段,主要依賴于自然語言處理、機器學(xué)習(xí)、深度學(xué)習(xí)等人工智能技術(shù),通過訓(xùn)練大量的文本數(shù)據(jù),實現(xiàn)敏感詞的機器學(xué)習(xí)和識別。技術(shù)上通常需要維護(hù)一個包含敏感詞的字典,[12]用于快速匹配用戶輸入的文本內(nèi)容。匹配算法在主串中一次性查找多個模式串(即敏感詞)是否存在,結(jié)合自然語言處理技術(shù)和機器學(xué)習(xí)算法,對文本進(jìn)行深度分析,以提高敏感詞識別的準(zhǔn)確率。利用深度學(xué)習(xí)模型,如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短期記憶網(wǎng)絡(luò)(LSTM)或Transformer等,[13]對文本進(jìn)行建模和預(yù)測,可進(jìn)一步提高敏感詞識別效果。
相比人工審核,敏感詞識別技術(shù)減少了主觀判斷帶來的誤差,提高了審核的準(zhǔn)確性。[14]敏感詞識別技術(shù)允許用戶根據(jù)實際需求定制敏感詞庫,實現(xiàn)對不同類型敏感信息的有效監(jiān)控。
1.2 基于規(guī)則的敏感詞識別方法。利用預(yù)設(shè)規(guī)則進(jìn)行敏感詞識別的方法是信息安全領(lǐng)域中常見的技術(shù)手段。從相關(guān)法律法規(guī)、行業(yè)標(biāo)準(zhǔn)、歷史案例及用戶反饋等多個渠道收集敏感詞匯,并進(jìn)行整理分類,定義完全匹配、部分匹配、模糊匹配等多種匹配方式,以適應(yīng)不同檔案內(nèi)容的審核需求。敏感詞的提取過程,首先是檔案文本中的標(biāo)點符號、特殊符號等無關(guān)字符;[15]其次是分詞處理,將文本切分成單詞或短語。敏感詞的自動提取可以通過編程或使用專門的文本處理工具實現(xiàn)。[16]
1.3 基于統(tǒng)計的敏感詞識別方法?;诮y(tǒng)計的敏感詞識別方法是一種利用統(tǒng)計學(xué)原理進(jìn)行敏感詞檢測的技術(shù)。[17]與基于規(guī)則的敏感詞識別方法不同,它更多地依賴于大量文本數(shù)據(jù)的統(tǒng)計特性和機器學(xué)習(xí)算法來識別敏感詞。對檔案數(shù)據(jù)源中的文本數(shù)據(jù)進(jìn)行清洗,包括去除無關(guān)字符、特殊符號、HTML標(biāo)簽等,并進(jìn)行分詞處理。[18]將預(yù)處理后的文本轉(zhuǎn)換為數(shù)值向量,基于行業(yè)標(biāo)準(zhǔn)和歷史經(jīng)驗,構(gòu)建一個初始的敏感詞庫,根據(jù)數(shù)據(jù)特點和業(yè)務(wù)需求,選擇合適的機器學(xué)習(xí)算法,如樸素貝葉斯、支持向量機(SVM)或深度學(xué)習(xí)模型,將訓(xùn)練好的模型應(yīng)用于實際檔案開放審核中,對檔案文本進(jìn)行敏感詞識別。
2 基于大模型與多模態(tài)訓(xùn)練的敏感詞庫構(gòu)建
2.1 大模型訓(xùn)練。在“大模型+大數(shù)據(jù)+大算力”的加持下,ChatGPT能夠通過自然語言交互完成多種任務(wù),具備了多場景、多用途、跨學(xué)科的任務(wù)處理能力。[19]在構(gòu)建敏感詞庫的過程中,大模型訓(xùn)練發(fā)揮著至關(guān)重要的作用,通過訓(xùn)練大規(guī)模語料庫,得到一個具有強大語義理解能力的模型,該模型不僅能夠準(zhǔn)確地識別出文本中的敏感詞,還能夠深入理解文本內(nèi)容、上下文深層含義和不斷優(yōu)化自身性能,提高識別的準(zhǔn)確性和效率。[20-23]
構(gòu)建敏感詞庫的前提是準(zhǔn)備一個包含大量文本數(shù)據(jù)的語料庫。語料庫應(yīng)該具有廣泛的領(lǐng)域和類型,以便訓(xùn)練得到的模型能夠適應(yīng)不同的應(yīng)用場景。在語料庫中,對包含敏感詞的文本進(jìn)行標(biāo)注,通過人工標(biāo)注或自動標(biāo)注的方式實現(xiàn)。[24]利用深度學(xué)習(xí)技術(shù),訓(xùn)練一個大規(guī)模神經(jīng)網(wǎng)絡(luò)模型。該模型將學(xué)習(xí)語料庫中的文本數(shù)據(jù)和標(biāo)注信息,逐漸提高識別敏感詞的能力。在模型訓(xùn)練過程中,需要不斷評估模型的性能,并根據(jù)評估結(jié)果進(jìn)行優(yōu)化,包括調(diào)整模型的參數(shù)、結(jié)構(gòu)或算法等。
2.2 多模態(tài)訓(xùn)練。2023年3月發(fā)布的超大規(guī)模多模態(tài)預(yù)訓(xùn)練大模型(GPT-4),具備了多模態(tài)理解與多類型內(nèi)容生成能力。[25]在發(fā)展進(jìn)程中,大數(shù)據(jù)、大算力和大算法完美結(jié)合,大幅提升了大模型的預(yù)訓(xùn)練和生成能力以及多模態(tài)多場景應(yīng)用能力。采用多模態(tài)訓(xùn)練的方式來構(gòu)建敏感詞庫利用了傳統(tǒng)的文本數(shù)據(jù),引入了圖像、音頻等多媒體數(shù)據(jù),提高了模型對敏感詞的識別能力。[26]
多模態(tài)訓(xùn)練涉及將不同類型的數(shù)據(jù)(如文本、圖像、音頻)整合到統(tǒng)一的模型中進(jìn)行訓(xùn)練,這種融合可以提供更豐富的上下文信息,有助于更準(zhǔn)確地理解和識別敏感內(nèi)容。[27]通過設(shè)計一個能夠處理多種數(shù)據(jù)類型的深度學(xué)習(xí)模型,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的混合模型,在訓(xùn)練過程中使其學(xué)習(xí)如何從不同模態(tài)的數(shù)據(jù)中提取和整合特征,以進(jìn)行有效的敏感詞識別。
多模態(tài)訓(xùn)練有助于增強模型對于細(xì)微差異的敏感性,通過分析圖像內(nèi)容與相關(guān)文本描述之間的關(guān)聯(lián)來識別敏感信息。[28-30]在檔案審核中,多模態(tài)模型可以同時分析檔案的文本內(nèi)容、相關(guān)圖片和音頻記錄,以全面檢測敏感信息。隨著多模態(tài)學(xué)習(xí)技術(shù)的不斷發(fā)展,未來的敏感詞識別模型將更加智能和準(zhǔn)確。采用多模態(tài)訓(xùn)練的方式來構(gòu)建敏感詞庫,是適應(yīng)檔案信息多樣性和復(fù)雜性的有效途徑。[31]這種方法通過融合不同模態(tài)的數(shù)據(jù),提高了模型對敏感詞的識別能力,為檔案開放審核提供了更加全面和準(zhǔn)確的技術(shù)支持,如圖1所示。
在大模型和多模態(tài)訓(xùn)練的基礎(chǔ)上,構(gòu)建檔案開放審核敏感詞庫。詞庫包含各種敏感詞匯和短語,并且可以根據(jù)實際需要進(jìn)行動態(tài)更新和擴展。同時,敏感詞庫設(shè)計了查詢和檢索機制,方便審核人員快速定位和查找敏感詞。
2.3 敏感詞的定義與分類。在檔案開放審核中,根據(jù)詞匯的敏感性程度,可以將其分為不同的級別,如低敏感、中敏感和高敏感,以便于采取不同程度的處理措施。敏感詞的分類應(yīng)基于國家法律法規(guī)的相關(guān)規(guī)定,確保識別工作符合法律要求,考慮社會文化的多樣性和變遷,敏感詞的分類應(yīng)具有一定的適應(yīng)性和靈活性。檔案開放審核涉及的領(lǐng)域廣泛,不同行業(yè)和領(lǐng)域?qū)γ舾性~的定義和分類可能有所不同,需要結(jié)合具體情境進(jìn)行細(xì)化。通過文本分析、專家評審和用戶反饋等多種方式收集潛在的敏感詞匯,包括歷史檔案、政府文件、公開出版物等來源,對收集到的敏感詞匯進(jìn)行分類標(biāo)注,明確其所屬的類別和敏感性級別。[32]
識別策略的實施是根據(jù)敏感詞的分類和級別,制定相應(yīng)的識別和處理規(guī)則,如屏蔽、替換或標(biāo)記等。采用自然語言處理、機器學(xué)習(xí)等技術(shù)手段,實現(xiàn)自動化的敏感詞識別和處理,包括關(guān)鍵詞匹配、語義分析等方法。[33,34]對識別結(jié)果進(jìn)行人工審核,確保處理的準(zhǔn)確性和合理性。
檔案開放審核中敏感詞的概念和分類標(biāo)準(zhǔn)的確立是構(gòu)建有效識別系統(tǒng)的關(guān)鍵基礎(chǔ)。通過明確敏感詞的定義、制定分類準(zhǔn)則和實施識別策略,可以有效地識別和處理敏感詞匯,為檔案開放審核和其他內(nèi)容管理系統(tǒng)提供支持。[35]同時,這一過程也需要應(yīng)對語境變化、多義詞處理等挑戰(zhàn),并嚴(yán)格遵守合規(guī)性和倫理原則。
2.4 基于大模型與多模態(tài)訓(xùn)練的敏感詞庫構(gòu)建。結(jié)合大模型和多模態(tài)訓(xùn)練技術(shù),以提高敏感詞庫的全面性和準(zhǔn)確性。
首先,利用大數(shù)據(jù)預(yù)訓(xùn)練模型,如BERT及其變體,來捕捉詞匯的豐富語義表示。通過這種方式,模型能夠理解和預(yù)測詞匯在不同上下文中的語義。
其次,引入多模態(tài)訓(xùn)練,將文本內(nèi)容與圖片、音視頻等非文本數(shù)據(jù)相結(jié)合。例如,檔案資料中常見的手寫注釋、歷史照片和相關(guān)文檔的圖像,都可以作為額外的訓(xùn)練數(shù)據(jù)。這種方法可以增強模型對于檔案特定內(nèi)容的理解和敏感詞的辨識能力。
為適應(yīng)檔案數(shù)據(jù)的多樣性和歷史性,引入領(lǐng)域適應(yīng)性訓(xùn)練,使模型更好地適應(yīng)檔案語境中的特定表達(dá)方式。此外,考慮到檔案的敏感性和歷史性,采用了半監(jiān)督學(xué)習(xí)或弱監(jiān)督學(xué)習(xí)方法,以利用有限的標(biāo)注數(shù)據(jù)進(jìn)行有效訓(xùn)練。
2.5 敏感詞庫的動態(tài)更新機制。在檔案開放審核中,動態(tài)更新機制是確保敏感詞庫能夠適應(yīng)不斷變化的信息環(huán)境的關(guān)鍵,這一機制涉及對敏感詞庫的持續(xù)監(jiān)控、定期更新和適時調(diào)整,以保持其時效性和準(zhǔn)確性。
通過設(shè)定監(jiān)控系統(tǒng),實時跟蹤網(wǎng)絡(luò)環(huán)境和社會動態(tài),及時發(fā)現(xiàn)新出現(xiàn)的敏感詞匯和表達(dá)方式,制定明確的更新計劃,如每季度或每半年對敏感詞庫進(jìn)行全面的審查和更新。針對特定事件(如政治事件、社會事件等),靈活調(diào)整更新頻率,確保敏感詞庫能夠及時反映當(dāng)前的敏感話題。利用自然語言處理和機器學(xué)習(xí)技術(shù),自動識別和提取潛在的敏感詞匯,提高更新效率。[36,37]通過對大量文本數(shù)據(jù)的統(tǒng)計分析,發(fā)現(xiàn)敏感性詞匯的出現(xiàn)頻率和分布規(guī)律,為更新提供數(shù)據(jù)支持。邀請法律、社會學(xué)、信息安全等領(lǐng)域的專家參與敏感詞庫的更新過程,提供專業(yè)意見,通過跨學(xué)科的合作,綜合考慮不同領(lǐng)域的知識和需求,確保敏感詞庫的全面性和準(zhǔn)確性。[38,39]
某些詞匯的敏感性可能會隨時間而變化,需要及時調(diào)整其分類和處理規(guī)則。對于具有多重含義的詞匯,需要結(jié)合上下文進(jìn)行細(xì)致判斷,避免誤判,通過持續(xù)的監(jiān)控、專家參與和技術(shù)創(chuàng)新,確保敏感詞庫的準(zhǔn)確性和適應(yīng)性,[40,41]在全球化的背景下,敏感詞庫的更新可能需要考慮到跨國文化和法律的差異,國際合作將成為重要的趨勢。
檔案開放審核中的動態(tài)更新機制是確保敏感詞庫能夠適應(yīng)不斷變化的信息環(huán)境的關(guān)鍵。通過實時監(jiān)控、定期更新、技術(shù)手段的應(yīng)用、專家參與等措施,可以有效地保持敏感詞庫的時效性和準(zhǔn)確性。同時,這一機制也需要應(yīng)對語境變化、多義詞處理等挑戰(zhàn),并嚴(yán)格遵守透明性與可追溯性的原則。
3 系統(tǒng)實現(xiàn)
基于檔案開放智能審核對敏感詞的識別與控制技術(shù)需求,通過選擇合適的開發(fā)工具和技術(shù)平臺,進(jìn)行系統(tǒng)架構(gòu)設(shè)計、數(shù)據(jù)庫設(shè)計、界面設(shè)計等,實現(xiàn)檔案開放智能審核中敏感詞的自動化、智能化處理。
3.1 開發(fā)工具和技術(shù)平臺選擇。前端選擇Vue3框架,該JavaScript框架提供了響應(yīng)式用戶界面;后端使用.NETCore,該技術(shù)支持快速開發(fā)與高效的系統(tǒng)性能,根據(jù)數(shù)據(jù)類型和查詢需求,選用MsSQL結(jié)合緩存數(shù)據(jù)庫Redis,可以提升數(shù)據(jù)訪問效率,采用云計算技術(shù),如騰訊云或阿里云等,提供彈性的計算資源,可以滿足系統(tǒng)在不同負(fù)載下的性能需求。[42]同時,利用微服務(wù)架構(gòu),將系統(tǒng)拆分為多個獨立的服務(wù),以提高系統(tǒng)的可維護(hù)性和可擴展性。
3.2 系統(tǒng)的架構(gòu)設(shè)計。前端架構(gòu)采用響應(yīng)式設(shè)計,確保系統(tǒng)在不同設(shè)備上的良好顯示和用戶體驗。同時,利用Vue.js、React等前端框架,實現(xiàn)快速、高效的界面渲染和交互。后端架構(gòu)采用微服務(wù)架構(gòu),將系統(tǒng)拆分為檔案信息管理、審核流程管理、權(quán)限控制等獨立的服務(wù)。[43]每個服務(wù)負(fù)責(zé)處理特定的業(yè)務(wù)邏輯,并通過API網(wǎng)關(guān)進(jìn)行通信。此外,利用消息隊列(如RabbitMQ、Kafka)實現(xiàn)服務(wù)的異步通信和解耦。數(shù)據(jù)庫選擇關(guān)系型數(shù)據(jù)庫MsSQL存儲檔案信息、審核記錄等結(jié)構(gòu)化數(shù)據(jù)。[44]同時,結(jié)合Redis作為緩存數(shù)據(jù)庫提升數(shù)據(jù)的查詢和存儲效率。
3.3 數(shù)據(jù)庫設(shè)計。數(shù)據(jù)模型設(shè)計,定義清晰的數(shù)據(jù)模型,符合檔案數(shù)據(jù)的特點和審核需求。例如,檔案數(shù)據(jù)模型應(yīng)包括索引信息、內(nèi)容摘要、敏感標(biāo)識等字段??紤]數(shù)據(jù)的一致性和完整性,設(shè)計合理的數(shù)據(jù)約束和索引策略,提高查詢效率和數(shù)據(jù)準(zhǔn)確性,實施嚴(yán)格的數(shù)據(jù)訪問控制,確保只有授權(quán)用戶可以訪問敏感數(shù)據(jù),[45,46]定期進(jìn)行數(shù)據(jù)備份,制定災(zāi)難恢復(fù)計劃,保障數(shù)據(jù)的安全性和可靠性。
3.4 原型設(shè)計。策略配置提供一站式管控策略配置,將詞庫與業(yè)務(wù)巧妙融合,靈活控制影響方式、持續(xù)時間及狀態(tài),精準(zhǔn)掌握策略召回數(shù)量,并可對策略召回內(nèi)容進(jìn)行深度處理。詞庫管理實現(xiàn)便捷添加敏感詞,明確所屬詞庫,添加時即可預(yù)覽召回量,抽樣評估后準(zhǔn)確掌握攔截準(zhǔn)確率。初步劃分所屬詞庫,隨后評估召回量與隨機樣本,決定是否生效及確認(rèn)詞庫歸屬。隨機樣本抽取數(shù)量與方式可在“樣本設(shè)置”中調(diào)整,命中準(zhǔn)確率評估則在“敏感詞評估”中進(jìn)行。[47]用戶配置將用戶與敏感詞、業(yè)務(wù)、地域三維緊密關(guān)聯(lián),命中策略對應(yīng)“策略配置”頁相關(guān)策略,清晰展示受該策略影響的用戶數(shù),點擊“處理”即可跳轉(zhuǎn)至“內(nèi)容處理”頁面進(jìn)行相應(yīng)操作。內(nèi)容處理方面,針對命中策略的業(yè)務(wù)或用戶,實施精準(zhǔn)處理。數(shù)據(jù)統(tǒng)計實現(xiàn)從策略、詞庫、用戶及處理等多維度進(jìn)行詳盡數(shù)據(jù)統(tǒng)計,并以報表形式直觀呈現(xiàn)各類數(shù)據(jù),方便分析與決策。
本文系2024年國家社會科學(xué)基金年度一般項目《檔案開放智能審核的創(chuàng)新研究》(項目批準(zhǔn)號:24BTQ022);2022年國家檔案局科技項目“檔案開放審核流程優(yōu)化和應(yīng)用系統(tǒng)開發(fā)研究”(項目批準(zhǔn)號:2022-X-012);中國高等教育學(xué)會“2024年度高等教育科學(xué)研究規(guī)劃課題”《人工智能賦能檔案管理轉(zhuǎn)型發(fā)展的研究》(課題編號:24DA0303);2023年江蘇省檔案科技項目《人工智能在檔案管理中應(yīng)用的現(xiàn)狀與前景研究》(2023-17);江蘇省高校檔案研究會2023年檔案科研項目《基于AI技術(shù)的檔案開放審核研究》(JSGDZ2023-02)階段性研究成果。
參考文獻(xiàn):
[1]全國人民代表大會常務(wù)委員會.中華人民共和國檔案法[N].人民日報,2020-07-16(016).
[2]卞咸杰、黃楊.“檔案開放審核”與“檔案開放鑒定”概念辨析[J].檔案管理,2023(05):36-39.
[3]福建省檔案局、檔案館項目組.基于數(shù)字檔案的人工智能輔助 檔案開放審核系統(tǒng)實現(xiàn)研究[J].浙江檔案,2022(10):40-43.
[4]楊揚、孫廣輝、韓先吉.敏感詞全文比對在檔案開放審核中的應(yīng)用實踐[J].中國檔案,2020(11):58-59.
[5]“檔案開放審核標(biāo)準(zhǔn)化體系研究”課題組.檔案開放審核工作中的輔助技術(shù)應(yīng)用研究[J].四川檔案,2022(05):44-45.
[6]鄧權(quán)亮.基于全文檢索的敏感信息檢測系統(tǒng)的設(shè)計與實現(xiàn)[D].北京:北京郵電大學(xué),2021.
[7]謝永憲,王巧玲,劉湘娟,等.我國檔案開放審核工作調(diào)研與分析[J].山西檔案,2023(05):156-164.
[8]岳幸暉,楊智勇.人工智能在檔案管理中的應(yīng)用圖景與風(fēng)險防范[J].檔案與建設(shè),2023(10):36-40.
[9]馬怡琳,李宗富.賦能·助力·提升:人工智能技術(shù)在檔案解密與開放審核工作中的應(yīng)用探索[J].山西檔案,2022(04):112-118.
[10]聶云霞,陳煙然.新《檔案法》背景下檔案開放的優(yōu)化路徑[J].檔案與建設(shè),2022(05):16-19.
[11]冉朝霞.基于輿情數(shù)據(jù)的檔案信息跨維度收集與分類研究[J].檔案管理,2019(06):53-55.
[12]李雅靜、丁海洋.基于MSER視頻字幕敏感詞過濾算法[J].現(xiàn)代信息科技,2023,7(21):80-84+89.
[13]藍(lán)天虹、陳丹霏、鄭源、徐正一.基于BERT預(yù)訓(xùn)練與混合神經(jīng)網(wǎng)絡(luò)的中文語義識別算法設(shè)計[J].電子設(shè)計工程,2024,32(12):91-95.
[14]姜鈺棋、強子珊、卜凡亮.面向社交平臺應(yīng)急關(guān)聯(lián)信息的文本分類綜述[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2024,43(05):1-10+34.
[15]楊濱瑕、羅旭東、孫凱麗.基于預(yù)訓(xùn)練語言模型的機器翻譯最新進(jìn)展[J].計算機科學(xué),2024,51(S1):50-57.
[16]高子涵.基于語義分析的郵件分類研究[D].太原:中北大學(xué),2023.
[17]杜勐.支持自定義的語音關(guān)鍵詞檢測技術(shù)研究[D].成都:電子科技大學(xué),2023.
[18]李亞琪.基于威脅情報分析的APT組織攻擊技術(shù)提取系統(tǒng)的設(shè)計與實現(xiàn)[D].北京:北京郵電大學(xué),2023.
[19]范煒、曾蕾.AI新時代面向文化遺產(chǎn)活化利用的智慧數(shù)據(jù)生成路徑探析[J].中國圖書館學(xué)報,2024,50(02):4-29.
[20]胡昊天、鄧三鴻、孔玲等.生成式情報學(xué)術(shù)語自動抽取與多維關(guān)聯(lián)知識挖掘研究[J].情報學(xué)報,2024,43(05):588-600.
[21]陳浩瀧、陳罕之、韓凱峰等.垂直領(lǐng)域大模型的定制化:理論基礎(chǔ)與關(guān)鍵技術(shù)[J].數(shù)據(jù)采集與處理,2024,39(03):524-546.
[22]王永威、沈弢、張圣宇等.大小模型端云協(xié)同進(jìn)化技術(shù)進(jìn)展[J].中國圖象圖形學(xué)報,2024,29(06):1510-1534.
[23]張丹.大語言模型與檔案資源開發(fā):前景、挑戰(zhàn)與應(yīng)對[J].山西檔案,2023(05):108-111.
[24]趙萍、竇全勝、唐煥玲.融合詞信息嵌入的注意力自適應(yīng)命名實體識別[J].計算機工程與應(yīng)用,2023,59(08):167-174.
[25]劉聰、李鑫、殷兵等.大模型技術(shù)與產(chǎn)業(yè):現(xiàn)狀、實踐及思考[J].人工智能.2023(04):32-42.
[26]朱學(xué)芳.圖博檔數(shù)字化服務(wù)融合理論、方法、技術(shù)與實證[M].南京:南京大學(xué),2023.11.
[27]劉樹鋒.大數(shù)據(jù)時代AIGC與多模態(tài)知識圖譜的思考與展望[J].互聯(lián)網(wǎng)周刊,2023(15):49-51.
[28]張慧玲、許海云、王超.弱信號環(huán)境下情報感知方法框架研究[J].情報理論與實踐,2023,46(11):9-19.
[29]許劍穎,馮桂珍.ChatGPT賦能檔案服務(wù):技術(shù)特征、應(yīng)用場景與實現(xiàn)路徑[J].山西檔案,2023(06):111-120.
[30]佟淑玲,王越文,李澤坤.基于本體的聲像檔案知識圖譜構(gòu)建研究[J].檔案管理,2022(06):52-56.
[31]劉哲雨.深度學(xué)習(xí)的探索之路[M].天津:南開大學(xué)出版社,2018.05.
[32]潘新美.政府規(guī)制網(wǎng)絡(luò)言論研究[D].廈門:廈門大學(xué),2015.
[33]胡百精.公共傳播與社會治理[M].北京:中國人民大學(xué)出版社,2020.01.
[34]王楠,丁原,李軍.語義層次網(wǎng)絡(luò)在文書檔案開放審核中的應(yīng)用[J].檔案與建設(shè),2022(06):55-60.
[35]周耀林、張曉娟、肖秋會.檔案學(xué)研究進(jìn)展[M].武漢:武漢大學(xué)出版社,2018.06.
[36]劉奕.5G網(wǎng)絡(luò)技術(shù)對提升4G網(wǎng)絡(luò)性能的研究[J].數(shù)碼世界,2020(04):24.
[37]聶云霞,范志偉.AI技術(shù)在檔案開放審核中的SWOT分析[J].山西檔案,2023(04):35-45+88.
[38]張良.面向輿情要素的在線社交網(wǎng)絡(luò)輿情分析關(guān)鍵技術(shù)研究[D].長沙:國防科技大學(xué),2021.
[39]馬怡琳,李宗富.賦能·助力·提升:人工智能技術(shù)在檔案解密與開放審核工作中的應(yīng)用探索[J].山西檔案,2022(04):112-118.
[40]張燕飛.數(shù)字化轉(zhuǎn)型重塑業(yè)務(wù)流程管理[M].北京:中國鐵道出版社,2022.11.
[41]岳靚,王芹,相明潔,等.數(shù)據(jù)治理下的檔案開放鑒定現(xiàn)狀及優(yōu)化策略研究—以蘇州市為例[J].檔案與建設(shè),2023(05):57-60.
[42]李易壯.基于圖神經(jīng)網(wǎng)絡(luò)的文檔情感分類系統(tǒng)的設(shè)計與實現(xiàn)[D].北京:北京郵電大學(xué),2021.
[43]陳露露、李志龍、張民等.行政數(shù)據(jù)管理分析系統(tǒng)的設(shè)計與實現(xiàn)[J].數(shù)字技術(shù)與應(yīng)用,2023,41(12):155-157.
[44]黃靜、朱旭.基于Spring Cloud的人才智庫遴選系統(tǒng)的設(shè)計與實現(xiàn)[J].軟件工程,2023,26(02):54-58.
[45]胡晨、蔡博陽、項文新.開發(fā)區(qū)檔案數(shù)據(jù)歸集平臺技術(shù)架構(gòu)設(shè)計[J].蘭臺世界,2024(02):62-68.
[46]任志勇,梅啟梁,徐柯.基于量子密碼技術(shù)的電子檔案離線狀態(tài)下安全防護(hù)實現(xiàn)[J].山西檔案,2022(04):141-146.
[47]劉紹濤.新聞長文本檢索方法的設(shè)計與實現(xiàn)[D].成都:電子科技大學(xué),2022.
[48]張康康.基于機器學(xué)習(xí)的Android惡意代碼靜態(tài)檢測方法研究與應(yīng)用[D].南昌:南昌大學(xué),2023.
[49]卞咸杰.基于智能工作流技術(shù)的檔案開放審核系統(tǒng)設(shè)計與實現(xiàn)[J].檔案管理,2023(06):84-87.
(作者單位:鹽城師范學(xué)院歷史與公共管理學(xué)院 卞咸杰,教授,碩士生導(dǎo)師 來稿日期:2024-06-20)