亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

人工智能技術(shù)在錄音錄像檔案管理中的可用性

2022-05-27 05:12:52劉濤

檔案管理 2022年3期

關(guān)鍵詞：人工智能

劉濤

摘? 要：數(shù)字時代帶來了電子檔案的海量增長，而錄音錄像檔案成為電子檔案中占比例最大的部分。傳統(tǒng)的人工操作方式，已經(jīng)不能實(shí)現(xiàn)對大量錄音錄像檔案進(jìn)行精確編錄的工作，錄音錄像檔案標(biāo)準(zhǔn)著錄信息的有限性也不能滿足檔案管理與利用的需要。利用人工智能平臺下的語音識別和視頻內(nèi)容分析技術(shù)，可以高效、準(zhǔn)確地完成這一任務(wù)，給檔案管理利用工作帶來技術(shù)創(chuàng)新。

關(guān)鍵詞：人工智能;錄音錄像檔案;檔案利用;視頻內(nèi)容分析

Abstract： The digital age has brought about the massive growth of electronic archives， and the audio and video archives have become the largest proportion of electronic archives. The traditional manual operation mode can not accurately catalogue a large number of audio and video archives， and the limitation of standard description information of audio and video archives can not meet the needs of archives management and utilization. Using speech recognition and video content analysis technology under artificial intelligence platform can accomplish this task efficiently and accurately， and bring technical innovation to archives management and utilization.

Keywords： Artificial intelligence; Audio and video archives; Archives utilization; Video content analysis

1 錄音錄像檔案增長與利用之間的矛盾

20世紀(jì)計算機(jī)時代的到來，檔案文件也從傳統(tǒng)紙質(zhì)與實(shí)物為主，逐漸進(jìn)化到電子檔案時代。技術(shù)進(jìn)步不僅讓人們的生活質(zhì)量得到大幅提高，也讓記錄儀、高清攝像頭、智能手機(jī)等各種視頻采集設(shè)備全面普及。錄音錄像檔案從傳統(tǒng)時代的只能利用錄音機(jī)、攝像機(jī)等專業(yè)設(shè)備錄制，變?yōu)辄c(diǎn)點(diǎn)鼠標(biāo)或動動手指即可批量生成的內(nèi)容，錄音錄像檔案在電子檔案中所占比例越來越大。隨著錄音錄像檔案逐年增多，開始出現(xiàn)檔案編目信息不能滿足檔案管理利用的問題。

2020年5月1日國家檔案局開始實(shí)施《錄音錄像檔案管理規(guī)范》，規(guī)范將錄音錄像文件基本著錄項設(shè)定為密級、載體編號、檔案門類代碼、題名、責(zé)任者、工作活動名稱、工作活動描述等16個基本著錄項。16項基本著錄大部分都是從檔案管理角度出發(fā)而設(shè)置，而真正能夠體現(xiàn)錄音錄像檔案的內(nèi)容、展示檔案價值的著錄項，只有“工作活動名稱”“工作活動描述”兩項信息。在該標(biāo)準(zhǔn)后所附的《錄音錄像電子文件采集登記表》中，填寫這兩項內(nèi)容的部分，樣表也只設(shè)計了2行字和6行字的著錄空間，理論上最多只能填寫不超過300字的內(nèi)容。面對當(dāng)前一個錄音錄像檔案動輒長達(dá)幾十分鐘，甚至數(shù)小時的情況，這寥寥可數(shù)的300字還要分成兩個部分描述，最多只能做到對錄音錄像的活動主題進(jìn)行概要式說明，從而形成簡化后的著錄數(shù)據(jù)，根本無法實(shí)現(xiàn)對檔案豐富內(nèi)容的全面表達(dá)或精準(zhǔn)描述。在檔案利用實(shí)踐中，很多時候無法根據(jù)這些有限的著錄信息，找到錄音錄像檔案中的重要信息或片段，而通過人工全面觀看進(jìn)行查找的效率又過于低下。對于需要對錄音錄像內(nèi)容進(jìn)行精準(zhǔn)編錄的情景，“對音、視頻檔案的整理還停留在人工視聽階段，一邊看一邊聽一邊錄，比如各檔案館對采集的地方新聞聯(lián)播，就通過這種辦法進(jìn)行條目著錄，不僅效率低、內(nèi)容采集不全，還費(fèi)時費(fèi)力”。[2]

針對這一問題，檔案工作者從實(shí)踐出發(fā)，提出了不同的解決思路。在音視頻檔案保存與利用的分類編目研究方面，張美芳提出了以文件、片段、場景和鏡頭為單元進(jìn)行著錄，更方便精準(zhǔn)地利用信息的解決方案。[3]呂元智、谷俊認(rèn)為視頻檔案資源內(nèi)容揭示與描述等工作存在明顯的不足，妨礙了視頻檔案資源的有效利用，設(shè)計了三維細(xì)粒度視頻檔案資源描述框架，[4]來加強(qiáng)檔案資源描述。然而，面對錄音錄像檔案爆發(fā)式增長，不可能調(diào)用相應(yīng)規(guī)模的海量人力資源來實(shí)現(xiàn)以文件、片段、場景和鏡頭為單元或三維細(xì)粒度詳細(xì)著錄。音視頻檔案著錄信息的有限性，與檔案內(nèi)容的高效檢索利用之間，形成了無法避免的矛盾。

2 人工智能時代的音像內(nèi)容分析技術(shù)

隨著大數(shù)據(jù)時代的來臨，深度學(xué)習(xí)技術(shù)開始興起：在海量數(shù)據(jù)的基礎(chǔ)上，利用人工神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)功能，自動對音視頻內(nèi)容進(jìn)行分析成為可能。2006年加拿大人辛頓發(fā)表了關(guān)于計算機(jī)深度學(xué)習(xí)第一篇論文，此后音視頻內(nèi)容分析技術(shù)進(jìn)入人工智能時代。截至2015年，在語音識別方面，利用設(shè)計的深度學(xué)習(xí)語音識別模型中英雙語錯誤率3.1%，已經(jīng)超過正常人的識別能力（錯誤率5%），漢語測試中機(jī)器的識別錯誤率只有3.7%，而一個五人小組的集體識別錯誤率則為4%。[5]國內(nèi)科大訊飛、百度、騰訊、搜狗等高科技公司更是在智能手機(jī)輸入法、微信等軟件中，嵌入了語音輸入功能，讓語音識別走進(jìn)人們的生活。在語音識別過程中，用戶提供的大量語音信息成為人工智能識別訓(xùn)練的大數(shù)據(jù)集，反過來提高了語音識別效果，讓人工智能語音識別更準(zhǔn)確。在圖像識別方面，受益于云計算帶來的運(yùn)算能力突破式進(jìn)展，利用深度學(xué)習(xí)網(wǎng)絡(luò)模型，2015年人工智能支持下的自然圖像識別錯誤率可達(dá)3.6%，同樣勝過了人眼識別5%的錯誤率。

人工智能時代，利用一些圖像處理、模式識別或機(jī)器學(xué)習(xí)等領(lǐng)域的算法，來分析視頻序列中的信息，以達(dá)到理解視頻內(nèi)容的目的，也有人稱為視頻內(nèi)容分析。[6]通過對視頻進(jìn)行語音識別，結(jié)合基于計算機(jī)圖像識別的視頻鏡頭分割技術(shù)，計算機(jī)已經(jīng)能夠識別和理解一般場景下的自然語音和自然圖像，將視頻內(nèi)容中的語音直接識別轉(zhuǎn)化為文字內(nèi)容，視頻中的人物通過人臉識別技術(shù)直接生成基于人臉的視頻索引，在避免浪費(fèi)大量人工進(jìn)行音視頻內(nèi)容分析的同時，還提高了內(nèi)容的準(zhǔn)確度?；谌斯ぶ悄芗夹g(shù)的語音識別和圖形學(xué)分析，為有限著錄信息與檔案豐富內(nèi)容之間的矛盾提供了可行的解決方案。

3 人工智能技術(shù)在錄音錄像檔案處理中的應(yīng)用

3.1 錄音檔案內(nèi)容的文本化處理。利用人工智能平臺的語音識別技術(shù)，可以將現(xiàn)有的錄音檔案進(jìn)行精確識別，讓整個錄音的內(nèi)容一字不漏地變成易于檢索利用的文字形式。1個小時的錄音文件，如果用人工聽寫的話，大約需要3～5個小時才能完成，如果有嘈雜背景音影響的話，所花時間更多。而采用人工智能技術(shù)，可以直接根據(jù)語音頻率與噪音頻率的不同，通過技術(shù)手段將背景噪音去除，同樣的1小時音頻，計算機(jī)只需要5分鐘就能完成。與人每次只能識別一個文件不同，計算機(jī)可以同時對多個文件開展并行識別。計算機(jī)可以24小時不間斷地工作，更不會像人一樣因為勞累過度出現(xiàn)失誤。在識別速度、識別質(zhì)量、準(zhǔn)確度、工作穩(wěn)定性等多個方面，人工智能技術(shù)都擁有遠(yuǎn)超人類的優(yōu)勢，能夠更快速地將音頻信息完整轉(zhuǎn)錄為文字。在改變傳統(tǒng)錄音檔案整理方式的同時，節(jié)省了大量的人力物力，同時還簡化了采集、處理等工作流程。

3.2 錄像檔案內(nèi)容的智能化分析。傳統(tǒng)的錄像檔案整理，多采用內(nèi)部人工分析，或者數(shù)據(jù)外包的形式，由人工進(jìn)行內(nèi)容識別、分析、理解、標(biāo)示。在檔案標(biāo)準(zhǔn)著錄信息之外，最主要的工作內(nèi)容就是將全部語音轉(zhuǎn)化為文字，并將個別重要視頻片段進(jìn)行單元化分割保存。對于視頻內(nèi)容中可能蘊(yùn)含其他重要信息或關(guān)聯(lián)內(nèi)容，無法通過人工進(jìn)行全面處理。不同視頻檔案之間，即便有相關(guān)性，也會因為海量數(shù)據(jù)的存在，無法發(fā)現(xiàn)數(shù)據(jù)之間的聯(lián)系，形成檔案利用中的“孤島”。

利用人工智能平臺的識別技術(shù)，能夠以關(guān)鍵幀、鏡頭、片段、人物變化、視頻場景等多種標(biāo)準(zhǔn)，將視頻文件分割為不同單元，根據(jù)每個單元相應(yīng)的語音信息和圖像信息進(jìn)行全面著錄。在生成全面的識別數(shù)據(jù)之后，就可以實(shí)現(xiàn)對視頻的全內(nèi)容檢索，不管是視頻中出現(xiàn)的一個人，一句話，一個場景事件，還是不同視頻中出現(xiàn)的相似內(nèi)容，都可以利用關(guān)鍵字檢索全部內(nèi)容，將這些關(guān)聯(lián)部分快速聚類發(fā)現(xiàn)，自動形成有意義的檔案單元，從而讓視頻檔案的檢索利用，從傳統(tǒng)基于視頻著錄項的有限檢索，轉(zhuǎn)變?yōu)槿珒?nèi)容檢索利用。在對大量的視頻檔案進(jìn)行了內(nèi)容分析之后，還可以通過人工智能的自動化處理技術(shù)，對不同信息形式的檔案信息進(jìn)行歸納分析，建立檔案內(nèi)部的有機(jī)聯(lián)系，給利用者提供更加完善的檔案信息，從而減少“信息孤島”給檔案利用方面帶來的不利影響。[7]

3.3 對傳統(tǒng)檔案管理利用工作的創(chuàng)新。以人工智能為平臺的音視頻分析技術(shù)，在實(shí)現(xiàn)了音視頻檔案進(jìn)行全內(nèi)容分析編目之后，傳統(tǒng)的檔案編研利用工作也隨之改變。基于全文本內(nèi)容的視頻檢索技術(shù)，可以快速地基于檢索詞，實(shí)現(xiàn)對視頻內(nèi)容的搜索查找、聚類分析、關(guān)聯(lián)推薦，同時基于分析結(jié)果自動生成視頻摘要。

在視頻檔案利用中很重要的一個工作內(nèi)容，就是利用原有視頻作為素材，創(chuàng)作新的視頻。傳統(tǒng)模式下，這一工作需要對視頻檔案素材進(jìn)行全面觀看，然后挑選其中相關(guān)的主題內(nèi)容，將視頻精確剪切成片段后，在電腦上用剪輯軟件加上合適的過渡效果后編輯合成。整個過程耗時過多，操作復(fù)雜，效率低下。以人工智能平臺為基礎(chǔ)的視頻分析管理系統(tǒng)，能夠直接解決這一問題。以阿里巴巴旗下的北斗星團(tuán)隊在優(yōu)酷網(wǎng)開展的工作為例：在對長視頻進(jìn)行內(nèi)容分析后，可以根據(jù)生成的數(shù)據(jù)自動衡量視頻內(nèi)容質(zhì)量，實(shí)現(xiàn)對視頻內(nèi)容的智能化評估。然后根據(jù)用戶對內(nèi)容的喜好度，用自動化生產(chǎn)的方式智能創(chuàng)作新的視頻，實(shí)現(xiàn)電視電影關(guān)鍵劇情的識別、抽取、解構(gòu)、組合，最終以故事主線為核心，智能創(chuàng)作預(yù)告片。在檔案利用工作中，人工智能平臺對視頻檔案進(jìn)行全內(nèi)容分析后，系統(tǒng)就可以智能化地把完整視頻中不必要的情景切掉，或者根據(jù)設(shè)定的主題，將多個相關(guān)視頻中的對話、場景、片段進(jìn)行自動拼接，快速高效地生成新的視頻，從而將人員從低效勞動中解放出來。

*本文系2021年度河南省檔案科技項目計劃“大數(shù)據(jù)背景下多源檔案資源整合研究”（項目編號：2021-R-23），信陽師范學(xué)院青年科研基金項目（2014-QN-008）階段性研究成果。

參考文獻(xiàn)：

[2]張海劍.人工智能賦能檔案事業(yè)創(chuàng)新成果與研究[C]//2019年海峽兩岸檔案暨縮微學(xué)術(shù)交流會論文集.2019：58-62.

[3]張美芳.面向音視頻檔案保存與利用的分類編目研究[J].檔案學(xué)通訊，2018（01）：93-96.

[4]呂元智，谷俊.面向用戶需求的視頻檔案資源描述框架構(gòu)建研究[J].檔案學(xué)研究，2021（06）：91-99.

[5]周宣汝，趙麗亞，趙地，遲學(xué)斌.人工智能對科研信息化的推動作用[J].科研信息化技術(shù)與應(yīng)用，2016，7（06）：14-26.

[6]滿江月.“深度學(xué)習(xí)”開啟智能視頻分析技術(shù)的新篇章[J].中國公共安全，2015（14）：86-89.

[7]李思藝.檔案數(shù)字化建設(shè)中“信息孤島”現(xiàn)象探究[J].辦公室業(yè)務(wù)，2014（12）：46-47.

（作者單位：中南民族大學(xué)，信陽師范學(xué)院來稿日期：2022-02-20）