摘要:應(yīng)用人工智能技術(shù)提升檔案工作效能是檔案信息化建設(shè)的發(fā)展方向。論文在簡要論述音視頻檔案管理中應(yīng)用人工智能技術(shù)必要性的基礎(chǔ)上,提出了應(yīng)用人工智能技術(shù)的原則,并基于實際業(yè)務(wù)分析設(shè)計了人工智能技術(shù)在音視頻檔案收、管、存、用全業(yè)務(wù)流程的應(yīng)用場景方案,以期為檔案部門在音視頻檔案治理工作中全面、高效、精準地應(yīng)用人工智能技術(shù)提供參考。
關(guān)鍵詞:人工智能技術(shù) 應(yīng)用原則 音視頻檔案 應(yīng)用場景
近年來,隨著經(jīng)濟社會的不斷發(fā)展,音視頻檔案資源激增,給檔案管理工作帶來了巨大壓力。如何提高音視頻檔案管理效能,成為檔案部門亟待解決的問題。與此同時,人工智能(Ar? tificialIntelligence,AI)技術(shù)不斷成熟,在海量數(shù)據(jù)高效、精準處理方面展現(xiàn)出巨大的能力,在數(shù)據(jù)治理領(lǐng)域得到了深入的應(yīng)用,可以成為音視頻檔案管理工作提質(zhì)增效的有力手段。
音視頻檔案資源管理專業(yè)性強、整編難度大、對于設(shè)施設(shè)備要求高,在管理工作中往往存在前端質(zhì)量控制不到位、增量數(shù)據(jù)質(zhì)量達不到進館質(zhì)量要求、大量存量數(shù)據(jù)尚待規(guī)范化整理等問題。
采用傳統(tǒng)手工或非智能信息系統(tǒng)治理音視頻檔案資源往往存在如下問題:一是無法及時掌握音視頻檔案資源的質(zhì)量;二是對存在質(zhì)量問題的音視頻檔案資源治理嚴重滯后,治理效能不高;三是未進行數(shù)據(jù)化,無法提供音視頻內(nèi)容的精細化、智能化檢索,無法支持對音視頻檔案資源進行智能整理、編目、編研、開放審核等管理業(yè)務(wù),致使檔案業(yè)務(wù)人員很難大幅提高工作效率和質(zhì)量。故在音視頻檔案管理中有必要應(yīng)用AI技術(shù),以智能化方式開展音視頻檔案資源收、管、存、用相關(guān)業(yè)務(wù),大幅提高工作效率和質(zhì)量。
AI技術(shù)復(fù)雜度高、研發(fā)投入大、應(yīng)用針對性強、技術(shù)更新快,在應(yīng)用落地方面較一般信息技術(shù)有更大的風(fēng)險。為充分發(fā)揮AI技術(shù)的應(yīng)用效果,降低其應(yīng)用風(fēng)險,筆者在充分調(diào)研的基礎(chǔ)上,結(jié)合AI技術(shù)的特點與檔案工作實際情況,提出了AI技術(shù)應(yīng)用原則。
一是安全性原則。AI技術(shù)的應(yīng)用以算法、算力、數(shù)據(jù)作為基礎(chǔ),與網(wǎng)絡(luò)、系統(tǒng)等密切相關(guān),故應(yīng)用AI技術(shù)時,應(yīng)嚴格遵守國家、地方、行業(yè)有關(guān)安全保密的相關(guān)規(guī)定,在選取算力、模型廠商時應(yīng)選擇安全可信的廠商,同時應(yīng)高度重視模型評估環(huán)節(jié),確保模型不被惡意訓(xùn)練或模型不可控。凡是有可能帶來安全保密風(fēng)險的應(yīng)用,應(yīng)一票否決。目前一些大語言模型如Chat? GPT、文心一言等具備超強的對話生成能力,但這些超大模型多數(shù)需要將數(shù)據(jù)上傳到算力廠商的云服務(wù)器上,鑒于檔案的敏感性,因此不能直接使用上述大模型。若將大模型部署到本地,則需要巨大的算力,成本極大,目前也不適合。
二是適用性原則。目前AI技術(shù)在檔案業(yè)務(wù)中的應(yīng)用總體上仍處于探索、局部和輔助應(yīng)用階段,其應(yīng)用場景仍存在一定局限性。如智能OCR應(yīng)用方面,針對印刷版和表單格式較固定的檔案,文字識別正確率可達到95%以上,已達可用水平,而針對手寫體和表單格式不固定的檔案,還很難達到可用水平。再如,針對專業(yè)性強、推理復(fù)雜的問題,相應(yīng)AI模型的訓(xùn)練需要提前準備大量高質(zhì)量訓(xùn)練數(shù)據(jù)和必備知識庫,前期需要投入較大的學(xué)習(xí)成本。故應(yīng)用AI技術(shù)時,應(yīng)充分考慮AI技術(shù)能否真正滿足工作需求、解決業(yè)務(wù)痛點、提高工作效率和質(zhì)量等,適時適度予以應(yīng)用。
三是穩(wěn)步性原則。AI技術(shù)學(xué)科綜合性強、研發(fā)投入大、領(lǐng)域針對性強、技術(shù)更新快,故應(yīng)用AI技術(shù)時,應(yīng)結(jié)合檔案資源數(shù)據(jù)化、檔案管理智能化、檔案利用知識化、檔案展示可視化的智慧檔案館發(fā)展目標,對AI技術(shù)在檔案業(yè)務(wù)中的應(yīng)用進行全面梳理、系統(tǒng)設(shè)計,形成AI技術(shù)加持下的檔案業(yè)務(wù)流程、應(yīng)用場景。另外,還應(yīng)根據(jù)業(yè)務(wù)需求,通過局部應(yīng)用試點,分步有序拓展、逐步深化應(yīng)用。
四是效能性原則。為達到相對理想的應(yīng)用效果,AI技術(shù)的應(yīng)用往往需要在前期投入大量的研發(fā)、訓(xùn)練成本,而有時采用非AI方式完成同樣的工作往往具有更高的性價比。如存量檔案編目工作,目前在相同投入成本下,采用人工外包服務(wù)方式則性價比更高。故應(yīng)用AI技術(shù)時,應(yīng)對不同處理方式進行科學(xué)比對,充分評估不同處理方式的投入產(chǎn)出效益比。
五是可控性原則。雖然AI技術(shù)已快速發(fā)展,但還不能像人類一樣具有創(chuàng)造力,不能理解人類的情感和感受,且AI處理結(jié)果缺乏可解釋性。故應(yīng)用AI技術(shù)時,應(yīng)在充分發(fā)揮其優(yōu)勢的基礎(chǔ)上,規(guī)避其缺陷,特別是在一些關(guān)鍵業(yè)務(wù)如檔案開放審核中,應(yīng)做好人機結(jié)合,由人工進行最終確認和審核,發(fā)揮人的知識、經(jīng)驗作用。
基于以上原則,將AI技術(shù)應(yīng)用于音視頻檔案數(shù)字資源管理工作:一是在應(yīng)用步驟上,應(yīng)由淺到深,先做檔案資源的數(shù)據(jù)化、文本化等淺層應(yīng)用,為后續(xù)智能應(yīng)用提供基礎(chǔ)信息,同時針對相應(yīng)專題開展智能化檢索,再結(jié)合數(shù)據(jù)質(zhì)量狀況、算法模型發(fā)展等開展智能編目、審核、編研等深度應(yīng)用;二是在應(yīng)用方式上,可采用自主選擇開源模型框架、自行購買硬件計算力、自建訓(xùn)練數(shù)據(jù)集的方式,定制專用小模型,針對具體應(yīng)用場景,選擇合適的檔案數(shù)據(jù)、訓(xùn)練方法對小模型進行訓(xùn)練優(yōu)化。
當(dāng)前,國內(nèi)對音視頻檔案資源治理的智能化應(yīng)用主要集中在智能化著錄、檢索等局部場景。筆者通過分析AI技術(shù)在音視頻檔案資源的收、管、存、用各環(huán)節(jié)的應(yīng)用,形成了如圖1所示的業(yè)務(wù)場景圖,下文將展開詳細論述。
(一)接收環(huán)節(jié)中應(yīng)用AI技術(shù)的業(yè)務(wù)場景分析
對于接收到的音視頻檔案資源,檔案接收部門可依據(jù)相關(guān)的音視頻檔案數(shù)據(jù)質(zhì)量標準選取合適的AI打分模型,并按照“優(yōu)”“良”“中”“差”得分等級標準分別選取有代表性的音視頻檔案資源進行模型訓(xùn)練,多次迭代并優(yōu)化模型。
使用優(yōu)化后的模型對剩余未打分的音視頻檔案資源進行檢測打分,對于不同得分等級的檔案數(shù)字資源分類處理:得分等級為“優(yōu)”的音視頻檔案資源直接入庫;得分等級為“良”“中”的音視頻檔案資源不能直接入庫,應(yīng)存儲在臨時庫(或治理庫)中;得分等級為“差”的音視頻檔案資源,建議不接收,或存儲在殘缺類資源庫中,待后期技術(shù)發(fā)展后再行治理。
(二)管理環(huán)節(jié)中應(yīng)用AI技術(shù)的業(yè)務(wù)場景分析
對館藏音視頻檔案資源,也可同樣參考接收環(huán)節(jié)的步驟和方法分級分類存儲,模型和接收環(huán)節(jié)一致,多次迭代訓(xùn)練并優(yōu)化模型。
針對分類分級存儲后的音視頻檔案資源,應(yīng)進行數(shù)據(jù)化、文本化工作,具體如下所述。
1.對于得分等級為“優(yōu)”的音視頻檔案資源進行數(shù)據(jù)化、文本化工作。選取合適的語音識別、人臉識別、聲紋識別、場景識別、動作識別等較為成熟的AI小模型,人工訓(xùn)練優(yōu)化模型后,使其對剩余優(yōu)秀的音視頻檔案資源進行數(shù)據(jù)化、文本化。此步驟將有大量數(shù)據(jù)信息生成,如語音識別的文字信息輸出、聲紋識別和人臉識別結(jié)合的重要人物信息輸出、場景識別后的場景信息輸出、動作識別后的動作內(nèi)容輸出,這將為后續(xù)管理、存儲、利用環(huán)節(jié)提供基礎(chǔ)信息。
2.對于得分等級為“良”“中”的音視頻檔案資源,分情況進行治理,治理時應(yīng)注意版本管理,以區(qū)分原版本和治理后的版本。
情形一:針對音質(zhì)、畫質(zhì)等音視頻檔案本身內(nèi)容得分較高但元數(shù)據(jù)信息得分較低的音視頻檔案資源,需要進行元數(shù)據(jù)項智能補缺工作。參考上述得分等級為“優(yōu)”的音視頻檔案資源進行數(shù)據(jù)化、文本化工作。利用此步驟生成的大量文本信息,選取合適的NLP AI模型,人工訓(xùn)練優(yōu)化模型后,使其對剩余同類型的音視頻檔案資源進行元數(shù)據(jù)項智能補缺、智能編目等,并自動將新增字段標注為智能補缺類,以區(qū)分原始與智能補缺版本。
情形二:針對元數(shù)據(jù)信息得分較高但音質(zhì)、畫質(zhì)等音視頻檔案本身內(nèi)容得分較低的音視頻檔案資源,選取合適的視頻優(yōu)化、音頻降噪修復(fù)、超分辨率等通用AI模型修復(fù)并優(yōu)化音視頻檔案內(nèi)容后,再參考上述得分等級為“優(yōu)”的音視頻檔案資源進行數(shù)據(jù)化、文本化工作,同時將新增字段標注為音視頻優(yōu)化類,以便區(qū)分原始與修正版本。
情形三:針對音質(zhì)、畫質(zhì)等音視頻檔案本身內(nèi)容、元數(shù)據(jù)信息得分均較低的音視頻檔案資源,先采用情形二的步驟進行音視頻檔案內(nèi)容優(yōu)化、數(shù)據(jù)化、文本化等工作,再采用情形一中的NLP AI模型進行元數(shù)據(jù)項智能補缺、智能編目等,同時將新增字段標注為音視頻優(yōu)化類、智能補缺類等,和原始版本區(qū)分開來。
基于上述音視頻檔案資源數(shù)據(jù)化、文本化的大量輸出信息,檔案管理部門可開展音頻檔案資源結(jié)構(gòu)化智能處理、視頻檔案資源結(jié)構(gòu)化智能處理、音視頻檔案資源智能分類、音視頻檔案數(shù)據(jù)深度挖掘、音視頻檔案智能開放鑒定等場景應(yīng)用。
其中,音頻檔案資源結(jié)構(gòu)化智能處理場景應(yīng)用,主要基于語音識別AI模型,對音頻內(nèi)容進行實時識別與轉(zhuǎn)譯,形成音頻文件和對應(yīng)的數(shù)字全文內(nèi)容,對關(guān)鍵信息打標簽,并返回相應(yīng)的音頻時間點信息。
視頻檔案資源結(jié)構(gòu)化智能處理場景應(yīng)用,主要是聯(lián)合使用人臉識別、聲紋識別、場景識別、OCR識別等AI模型對視頻檔案中的關(guān)鍵幀、關(guān)鍵片段進行自動提取、著錄,并進行結(jié)構(gòu)化處理,對關(guān)鍵幀和關(guān)鍵片段標注出獨立標簽,如組織機構(gòu)名、人名、地名、時間等,或場景標簽,如室內(nèi)環(huán)境、展廳、體育場地等。
音視頻檔案資源智能分類場景應(yīng)用,主要是通過AI模型生成著錄項及標簽等信息,對音視頻檔案資源的內(nèi)容,根據(jù)不同需求按主題(如紅色、奧運、對口支援等)、類別(如會議、比賽、講話等)、關(guān)鍵人物、時間等進行智能分類。
音視頻檔案數(shù)據(jù)深度挖掘場景應(yīng)用,是通過NLP模型中的知識圖譜技術(shù),構(gòu)建出音視頻檔案中各種實體之間關(guān)系的語義網(wǎng)絡(luò),當(dāng)檢索查看某一條音視頻檔案資源時,即可直觀查看某一檔案及其相關(guān)檔案的關(guān)系結(jié)構(gòu),進一步輔助檔案編研和開放審核工作。
音視頻檔案智能開放鑒定場景應(yīng)用,是利用NLP模型相關(guān)技術(shù)建立檔案開放審核AI模型,同時結(jié)合語音識別后的文字和知識圖譜相關(guān)信息,對開放審核AI模型進行人工訓(xùn)練以優(yōu)化模型,給出開放審核建議,輔助檔案開放審核工作。
以上應(yīng)用場景涉及音視頻檔案技術(shù)保護、數(shù)字資源管理、整理編目、編研、開放審核等業(yè)務(wù)。
(三)存儲環(huán)節(jié)中應(yīng)用AI技術(shù)的業(yè)務(wù)場景分析
檔案收、管、用各環(huán)節(jié)均涉及資源的存儲,應(yīng)選取合適的AI存儲備份管理模型,以大量存儲系統(tǒng)中的管理數(shù)據(jù),訓(xùn)練優(yōu)化模型,實現(xiàn)智能分析熱數(shù)據(jù)、冷數(shù)據(jù),并依據(jù)音視頻檔案收、管、用環(huán)節(jié)的不同特點,如接收環(huán)節(jié)要求存儲低時延、高穩(wěn)定,管理環(huán)節(jié)要求存儲和備份大容量、高穩(wěn)定,利用環(huán)節(jié)要求存儲低時延、高帶寬、高IOPS等,輔助設(shè)計優(yōu)化和動態(tài)跟蹤調(diào)整音視頻檔案資源的存儲和備份策略,預(yù)測存儲容量、磁盤故障等,通過輔助智能優(yōu)化存儲管理,以適應(yīng)海量音視頻數(shù)據(jù)存儲和應(yīng)用。
檔案數(shù)據(jù)存儲備份業(yè)務(wù)可以參考上述場景應(yīng)用。
(四)利用環(huán)節(jié)中應(yīng)用AI技術(shù)的業(yè)務(wù)場景分析
利用場景二中提到的音頻檔案資源結(jié)構(gòu)化智能處理,實現(xiàn)音頻檔案資源的全文檢索和音頻定位(如文字中的某句話直接定位到音頻的某個時間點)、語音檢索(通過語音輸入的方式進行音頻檔案檢索定位),從傳統(tǒng)的基于著錄項的檢索轉(zhuǎn)變?yōu)榛趦?nèi)容的檢索。
利用場景二中提到的視頻檔案資源結(jié)構(gòu)化智能處理,可以開展視頻關(guān)鍵幀定位、以圖搜圖、語音檢索、特定人物或言論跟蹤和標記、轉(zhuǎn)譯文本檢索定位及目錄檢索等“視頻+音頻+文字+人臉+目錄”全方位、多層次、更細粒度的檢索定位模式。
對于展示播放應(yīng)用需求,可借助之前的人臉識別、語音識別、場景識別等AI模型實現(xiàn)去重、水印去除、剪輯合成與音視頻檔案資源拆分等,還可以通過人物標簽信息智能實現(xiàn)展示播放過程中敏感人物人臉遮擋、換臉、消音等。
對于4K及更高端的展示播放應(yīng)用需求,可以對環(huán)境音和雜音等進行降噪修復(fù)、語音增強,借助超分辨率技術(shù)實現(xiàn)視頻增強,使原視頻檔案資源(如黑白或不夠清晰的視頻檔案資源)滿足播放需求。
此外,還可以生成虛擬音視頻檔案資源輔助相關(guān)的展示應(yīng)用,比如相關(guān)的音視頻檔案資源缺失,可利用檔案知識圖譜查找相關(guān)的文書檔案內(nèi)容,智能生成相應(yīng)的AI配音、虛擬背景等組成的虛擬音視頻檔案資源,作為缺失音視頻檔案資源的補充等。
以上應(yīng)用場景涉及檔案利用、展陳、技術(shù)保護等業(yè)務(wù)。
未來,檔案部門應(yīng)積極推進AI+檔案管理工作,著眼數(shù)據(jù)化、智能化,科學(xué)制定策略,全面開展檔案數(shù)據(jù)化工作;在系統(tǒng)新建和升級改造時,根據(jù)需要將AI技術(shù)加持下的業(yè)務(wù)場景應(yīng)用于實際工作中,逐步實現(xiàn)對音視頻檔案資源的智能化管理、利用,用新技術(shù)賦能智慧檔案館建設(shè),推動音視頻檔案工作高質(zhì)量發(fā)展。
*本文系國家檔案局科技項目“人工智能技術(shù)在音視頻檔案數(shù)據(jù)治理工作中的應(yīng)用研究”(項目編號:2022-X-066)的階段性研究成果。
參考文獻:
[1]林空,李衍.人工智能技術(shù)在音視頻檔案整理利用中的應(yīng)用研究[J].中國檔案,2023(7):62-63.
[2]數(shù)字羅塞塔計劃.AI在檔案管理中的應(yīng)用場景分析[EB/OL].(2023-04-28)[2023-10-26].https://mp.weixin. qq.com/s/CyJ5_YhbaVLrIvzjESOM6Q.
[3]劉濤.人工智能技術(shù)在錄音錄像檔案管理中的可用性[J].檔案管理,2022(3):71-72.
[4]許振哲.語音識別技術(shù)在錄音錄像檔案管理中的應(yīng)用探析[J].北京檔案,2023(8):30-32.
作者單位:1.北京市檔案館
2.應(yīng)急管理部檔案館