亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        智檔之路:二十五載人工智能技術(shù)與檔案事業(yè)交融發(fā)展綜述

        2025-05-16 00:00:00李云義程欣宇楊詩琦
        檔案天地 2025年4期
        關(guān)鍵詞:檢索深度人工智能

        當(dāng)今時代,人工智能作為炙手可熱的前沿技術(shù),其演進(jìn)軌跡與檔案管理領(lǐng)域“收、管、存、用”的核心業(yè)務(wù)形成了復(fù)雜的互動關(guān)系。本文根據(jù)近25年人工智能發(fā)展的關(guān)鍵節(jié)點,結(jié)合檔案收集、整理、著錄、檢索利用的實際需求,通過回顧和展望相結(jié)合的形式,系統(tǒng)梳理人工智能技術(shù)在檔案管理領(lǐng)域的發(fā)展脈絡(luò),為檔案事業(yè)的優(yōu)化發(fā)展提供有益參考。

        一、第一階段:初步應(yīng)用與基礎(chǔ)技術(shù)的發(fā)展(2000-2010年)

        千禧年以來,計算機(jī)技術(shù)的廣泛應(yīng)用推動了各行各業(yè)的信息化進(jìn)程。然而,檔案領(lǐng)域的信息化與其他行業(yè)相比,具有其特殊性。由于檔案涉及歷史資料的完整保管和利用,無法簡單構(gòu)造新的管理模式,即數(shù)據(jù)無法直接以新的形態(tài)進(jìn)行供給和利用。這一階段的主要任務(wù)是解決檔案文檔的數(shù)字化問題,以實現(xiàn)高效檢索、保存、備份和利用。與此同時,人工智能技術(shù)進(jìn)入穩(wěn)步發(fā)展階段,但大眾對其認(rèn)知尚淺,人工智能技術(shù)對檔案領(lǐng)域的貢獻(xiàn)主要包括以下幾個方面:

        (一)檔案數(shù)字化

        這一階段,人工智能開始在電子化檔案的管理中發(fā)揮作用,部分檔案的數(shù)字化與分類開始依賴人工智能技術(shù),OCR(光學(xué)字符識別)技術(shù)的引人,極大提高了紙質(zhì)檔案數(shù)字化的效率。這一時期機(jī)器學(xué)習(xí)中支持向量機(jī)(SVM)技術(shù)的興起,提升了字符識別的能力,然而SVM最適用的是二分類問題,對上萬的中文檔案的字符識別,需要復(fù)雜的設(shè)計和訓(xùn)練。同時,作為機(jī)器學(xué)習(xí)最依賴的訓(xùn)練數(shù)據(jù),這個時期也還非常缺乏。所以,這個時期的檔案數(shù)字化主要將OCR技術(shù)應(yīng)用到較為規(guī)范的打印字體中,并且需要大量的人工校對工作。盡管如此,OCR技術(shù)仍有效提升了檔案的數(shù)字化速度,但識別精度尚有很大提升空間,尤其是在處理復(fù)雜布局或殘損檔案時效果較差。

        (二)檔案分類與檢索

        基于文本內(nèi)容的檔案分類,首先需要解決文檔的分詞、命名實體識別等問題。這時期的分詞技術(shù)和命名實體識別技術(shù),已經(jīng)從早期的詞典知識和人工規(guī)則方法,發(fā)展到基于詞頻的統(tǒng)計、基于統(tǒng)計的自然語言處理模型(n-gram)和隱馬爾科夫模型。條件隨機(jī)場也開始用于中文分詞任務(wù),這種方法在處理序列標(biāo)注問題時表現(xiàn)出色,提高了分詞的準(zhǔn)確性。然而,對長序列文本包含的語義信息,其處理能力仍顯不足。

        在智能文檔分類方面,開始使用詞袋模型(BOW)和基于單詞在單篇文檔中出現(xiàn)的頻數(shù)和在訓(xùn)練樣本中出現(xiàn)的頻率進(jìn)行對比的詞頻-逆文檔頻率(TF-IDF)方法。這一方法能夠較好地利用詞語詞頻所攜帶的信息量來預(yù)測文檔的類型。其缺點在于未對語言文字本身的語義進(jìn)行理解,僅是一種能夠高概率正確工作的方法。

        在檢索領(lǐng)域,谷歌推出的倒排索引、頁面排名算法,在互聯(lián)網(wǎng)的網(wǎng)頁檢索中已經(jīng)非常成熟,但應(yīng)用到檔案領(lǐng)域有幾方面難點:首先,檔案文檔不是已經(jīng)數(shù)字化的互聯(lián)網(wǎng)網(wǎng)頁,大量內(nèi)容還未被識別,所以無法基于文本分詞和檢索技術(shù)進(jìn)行高性能檢索。其次谷歌等的檢索方案是為了滿足對海量資源的實時檢索需求,對存儲和計算資源需求非常巨大,其開銷也非中小型部門所能夠負(fù)擔(dān)。此外,從檔案利用需求端來說,此時《關(guān)于加強(qiáng)和改進(jìn)新形勢下檔案工作的意見》還未印發(fā)和執(zhí)行,包括高校檔案館等在內(nèi)的網(wǎng)上查詢利用檔案的業(yè)務(wù)需求還不突顯,導(dǎo)致這一時期的人工智能搜索技術(shù)也未在檔案領(lǐng)域獲得推廣。

        二、第二階段:深度學(xué)習(xí)與大數(shù)據(jù)時代的到來(2010-2021年)

        2010年后,隨著深度學(xué)習(xí)技術(shù)的突破,尤其是卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在圖像和文本處理領(lǐng)域的應(yīng)用取得了顯著進(jìn)展。檔案的數(shù)字化和檢索利用上了一個新臺階。同時,谷歌工程師提出的Transformer模型基礎(chǔ)算法,為當(dāng)前最強(qiáng)大的人工智能模型——大語言模型的發(fā)展奠定了基礎(chǔ)。

        (一)采用深度學(xué)習(xí)的檔案數(shù)字化(2012-2018年)

        計算機(jī)視覺領(lǐng)域的突破為檔案數(shù)字化帶來了革命性的變化。2012年AlexNet對卷積神經(jīng)網(wǎng)的合理利用,在ImageNet競賽中,以遠(yuǎn)超使用傳統(tǒng)方法的第二名的成績奪冠,引發(fā)了深度學(xué)習(xí)的持續(xù)火熱。此后,殘差網(wǎng)絡(luò)ResNet、VGG等模型的相繼問世對手寫字體的檔案文字0CR識別產(chǎn)生極大的幫助。如2013年的ICDAR手寫漢字比賽中,富士通公司團(tuán)隊采用改進(jìn)的CNN網(wǎng)絡(luò),獲得了脫機(jī)手寫漢字識別的第一名,識別率達(dá)到 94.77% 。又如安徽省檔案館和訊飛智元信息科技有限公司共同研發(fā)了歷史檔案OCR識別引擎,采用基于深度神經(jīng)網(wǎng)絡(luò)模型的端到端文字識別技術(shù),實現(xiàn)了對不同時期、不同內(nèi)容、不同版本的歷史檔案內(nèi)容的高效識別。

        (二)采用深度學(xué)習(xí)的檔案修復(fù)和增強(qiáng)

        深度學(xué)習(xí)技術(shù)不但能夠識別自然圖像和掃描的檔案圖像,也能對老舊檔案圖像進(jìn)行修復(fù),此外,還能生成基于樣本學(xué)習(xí)的高清檔案圖像。如2020年,上海互聯(lián)網(wǎng)軟件集團(tuán)有限公司開發(fā)了一項基于AI多特征融合的超分辨率重建影像檔案修復(fù)系統(tǒng)。該系統(tǒng)利用AI技術(shù)實現(xiàn)了損毀影像檔案的智能補(bǔ)幀、超分辨率重建和上色。又如湖北省檔案服務(wù)行業(yè)協(xié)會開展了關(guān)于基于人工智能的超分辨率SR技術(shù)在照片檔案修復(fù)中的應(yīng)用研究。該技術(shù)能夠快速大批量處理照片,降低修復(fù)成本,為照片檔案的修復(fù)和利用提供新的技術(shù)路線。

        (三)采用深度學(xué)習(xí)的偽造檔案鑒別

        抗生成網(wǎng)絡(luò)GAN的設(shè)計思想為偽造檔案的鑒別提供了新的思路,GAN由一個生成器模仿偽造者和一個判別器模仿鑒別者組成,相互對抗、相互提升。如湖北檔案館參與的國家檔案局科技計劃項目,采用了基于級聯(lián)深度卷積神經(jīng)網(wǎng)絡(luò)的檔案圖像真?zhèn)舞b別算法,能夠檢測檔案圖像中的復(fù)制粘貼、扭曲變形的修改痕跡,有效提高了偽造檔案的鑒別能力[3]。

        (四)采用知識圖譜技術(shù)的檔案檢索利用

        知識圖譜技術(shù)最早由谷歌公司在2012年提出,旨在提升搜索引擎的性能和用戶體驗。知識圖譜通過結(jié)構(gòu)化數(shù)據(jù)的形式,將實體、關(guān)系及其屬性相互關(guān)聯(lián),形成一個全局的數(shù)據(jù)庫。這一技術(shù)不僅應(yīng)用于互聯(lián)網(wǎng)搜索引擎,也被應(yīng)用于檔案領(lǐng)域。如西北民族大學(xué)的研究團(tuán)隊提出了一種基于知識圖譜的自動問答系統(tǒng),利用自然語義處理技術(shù)對文書檔案數(shù)據(jù)進(jìn)行實體識別和關(guān)系抽取,從而提高了檔案數(shù)據(jù)的利用率和用戶的檢索效率。又如Neo4j等圖數(shù)據(jù)庫的普及,結(jié)合BiLSTM-CRF模型,實現(xiàn)檔案實體關(guān)系抽?。ㄈ缛宋铮录攸c關(guān)聯(lián)),推動了《中國抗日戰(zhàn)爭檔案目錄》等專題知識庫構(gòu)建。

        然而,本階段也存在一些不足:一是深度學(xué)習(xí)模型的訓(xùn)練需要大量的標(biāo)注數(shù)據(jù),不同領(lǐng)域的檔案需專門設(shè)計訓(xùn)練集,這增加了模型應(yīng)用的難度和成本。二是隱私與安全問題開始凸顯。隨著電子檔案數(shù)據(jù)量的增加,同時大眾對檔案網(wǎng)絡(luò)查詢檢索的便捷需求性提高,如何確保檔案信息的隱私和安全成為新的挑戰(zhàn)。

        三、第三階段:大語言模型與集成化應(yīng)用(2022年至今)

        2022年,OpenAI公司的生成式ChatGPT-3.5在繼AlphaGo之后,再度引發(fā)了全世界對人工智能的關(guān)注。其強(qiáng)大的文本數(shù)據(jù)學(xué)習(xí)、理解和表達(dá)能力,遠(yuǎn)遠(yuǎn)超越了上一個階段,對檔案領(lǐng)域也產(chǎn)生了更大的震動。

        (一)基于語言和語音理解的高效檔案交互

        由于大模型超強(qiáng)的語言理解能力,能夠接受人類語言的各種表達(dá)形式,不再要求必須按照某種固定格式的查詢語言,如SQL語言、正則表達(dá)式、檔案查詢系統(tǒng)的查詢條件組合框,就能實現(xiàn)語音、語言的交互。并且在這一階段,人工智能具備了連續(xù)和長上下文的交流能力,無須重復(fù)輸人查詢表達(dá)語言,就能對已有的不完整表達(dá)進(jìn)行反復(fù)補(bǔ)充修正,以獲取檔案查詢結(jié)果。這些特性都能極大地提升檔案查詢利用的效率和準(zhǔn)確度。

        (二)基于生成式AI的內(nèi)容生成服務(wù)

        AI技術(shù)不僅提高了檔案的數(shù)字化處理效率,還在檔案的利用階段提供了智能檢索、報告生成等支持,極大提高了檔案數(shù)據(jù)的價值。比如,某檔案館通過集成AI與大數(shù)據(jù)技術(shù),建立智能檔案管理平臺,實現(xiàn)自動化檔案整理與智能檢索;同時,利用生成式AI(如LLaMa、千問、DeepSeek等開源大模型)對檔案進(jìn)行自動摘要和報告生成,使得檔案利用效率得到大幅提升。

        但是,本階段依舊存在不足之處:一是缺乏復(fù)合型人才。雖然人工智能技術(shù)的使用門檻越來越低,但專門的檔案管理人員中,具備人工智能技術(shù)背景的復(fù)合型人才仍然匱乏,沒有專業(yè)的檔案收集、管理、利用人才對人工智能技術(shù)的深刻把握,就無法保證檔案工作的可靠開展。二是大語言模型因其基于概率推導(dǎo)和吸納廣泛的世界知識的原因,對具體的領(lǐng)域,容易產(chǎn)生知識幻覺,這導(dǎo)致檔案的分類、摘要、推薦等任務(wù)中可能出現(xiàn)一些看似言之鑿鑿,實則查無此據(jù)的內(nèi)容。這個問題,無論是對于國外率先領(lǐng)跑的OpenAI,還是對于國內(nèi)有超越之勢的后起之秀DeepSeek,都大量存在,廣被病。三是大模型因為訓(xùn)練和推理需要巨大的算力和能源,而檔案數(shù)據(jù)又不能輕易存儲于云端,各地各級中小型檔案館部署、訓(xùn)練、運(yùn)維本地化大模型就會面臨高昂的成本投人。如何在所有檔案館中普及和實現(xiàn)高效應(yīng)用仍面臨成本和技術(shù)適配的問題。

        四、未來展望:人工智能與檔案管理的深度融合

        未來,隨著生成式AI、量子計算、區(qū)塊鏈等新興技術(shù)的加入,人工智能與檔案管理的融合將進(jìn)一步深化,檔案專業(yè)人才對人工智能技術(shù)的更多學(xué)習(xí)掌握,將會推動檔案管理進(jìn)人更加智能化和自適應(yīng)的時代。具體來看,將呈現(xiàn)六大趨勢。

        (一)檔案管理系統(tǒng)的自學(xué)習(xí)與自優(yōu)化

        隨著大語言模型的幻覺問題被定位和徹底解決。檔案管理對AI技術(shù)的利用將會更加全面深人,檔案管理系統(tǒng)將具備自學(xué)習(xí)與自優(yōu)化能力,能夠根據(jù)用戶的行為和反饋不斷優(yōu)化模型參數(shù)和算法,提高檔案管理的智能化水平。這將推動文檔管理的完全智能化,實現(xiàn)檔案的自動分類、自動摘要、自動推薦等功能。

        (二)本地化大語言模型的定制與優(yōu)化

        針對大語言模型在檔案領(lǐng)域應(yīng)用的算力與成本問題,未來將有更多針對檔案領(lǐng)域的本地化大語言模型被定制和優(yōu)化。這些模型將結(jié)合檔案數(shù)據(jù)的特殊性,進(jìn)行輕量化設(shè)計,以降低對算力和存儲資源的需求。同時,通過持續(xù)學(xué)習(xí)和更新,本地化模型將更好地適應(yīng)檔案管理的實際需求,提高處理效率和準(zhǔn)確性。

        (三)跨模態(tài)檔案信息的智能融合

        隨著多媒體技術(shù)的快速發(fā)展,檔案形式不再局限于傳統(tǒng)的紙質(zhì)文檔,而是涵蓋了圖像、音頻、視頻等多種模態(tài)。未來,人工智能技術(shù)將實現(xiàn)跨模態(tài)檔案信息的智能融合,通過多模態(tài)學(xué)習(xí)技術(shù),將不同形式的檔案信息進(jìn)行有效整合和關(guān)聯(lián),為用戶提供更加全面、豐富的檔案檢索和利用體驗。

        (四)檔案智能安全與隱私保護(hù)

        隨著檔案信息化程度的提高,檔案安全和隱私保護(hù)問題日益凸顯。未來,人工智能技術(shù)將在檔案智能安全與隱私保護(hù)方面發(fā)揮重要作用。通過深度學(xué)習(xí)和機(jī)器學(xué)習(xí)技術(shù),可以實現(xiàn)對檔案數(shù)據(jù)的實時監(jiān)測和預(yù)警,及時發(fā)現(xiàn)并防范應(yīng)對潛在的安全風(fēng)險。同時,結(jié)合區(qū)塊鏈等分布式賬本技術(shù),可以確保檔案數(shù)據(jù)的不可篡改性和可追溯性,進(jìn)一步保障檔案的安全和隱私。

        (五)智能檔案服務(wù)與創(chuàng)新應(yīng)用

        人工智能技術(shù)將推動檔案服務(wù)模式的創(chuàng)新和發(fā)展。未來,智能檔案服務(wù)將更加注重用戶體驗和個性化需求,通過智能推薦、智能問答等技術(shù),為用戶提供更加便捷、高效的檔案檢索和利用服務(wù)。同時,結(jié)合虛擬現(xiàn)實、增強(qiáng)現(xiàn)實等新技術(shù),可以打造沉浸式的檔案體驗環(huán)境,讓用戶身臨其境地感受歷史文化的魅力。

        此外,人工智能技術(shù)還將在檔案編研、檔案展覽、檔案教育等方面發(fā)揮重要作用。通過智能編研技術(shù),可以實現(xiàn)對檔案數(shù)據(jù)的深度挖掘和分析,為歷史研究提供有力支持。通過智能展覽技術(shù),可以打造數(shù)字化的檔案展覽平臺,讓更多人了解檔案文化的價值。通過智能教育技術(shù),可以將檔案知識融入課堂教學(xué),培養(yǎng)學(xué)生的歷史素養(yǎng)和文化自信。

        (六)檔案人才與智能技術(shù)的融合培養(yǎng)

        未來,檔案領(lǐng)域?qū)⒏幼⒅厝瞬排c智能技術(shù)的融合培養(yǎng)。一方面,將加強(qiáng)對檔案管理人員的智能技術(shù)培訓(xùn),提高他們的技術(shù)素養(yǎng)和創(chuàng)新能力。另一方面,將鼓勵檔案專業(yè)人才與人工智能技術(shù)專家進(jìn)行跨領(lǐng)域合作,共同推動檔案管理與人工智能技術(shù)的深度融合和發(fā)展。

        近二十五年來,人工智能技術(shù)在檔案領(lǐng)域的應(yīng)用取得了顯著成效,推動了檔案管理的自動化、智能化變革。從初步應(yīng)用與基礎(chǔ)技術(shù)的發(fā)展,到深度學(xué)習(xí)與大數(shù)據(jù)時代的到來,再到如今大語言模型與集成化應(yīng)用的興起,人工智能技術(shù)不斷為檔案管理帶來新的機(jī)遇和挑戰(zhàn)。未來,隨著生成式AI、量子計算、區(qū)塊鏈等新興技術(shù)的加入,人工智能與檔案管理的融合將進(jìn)一步深化,并推動檔案管理進(jìn)入更加智能化、自適應(yīng)的時代。同時,我們也需要關(guān)注人工智能技術(shù)在檔案領(lǐng)域應(yīng)用中的倫理、法律和安全等問題,確保檔案事業(yè)的健康、可持續(xù)發(fā)展。

        參考文獻(xiàn):

        [1]劉云霞.淺談檔案管理的數(shù)字化]科技情報開發(fā)與經(jīng)濟(jì),2011(2):140-141.

        [2]楊巍.基于人工智能的超分辨率SR技術(shù)在照片檔案修復(fù)中的應(yīng)用探究[].中國檔案,2023(9):60-62.

        [3]陳佳,史愛武,姬鳳英.基于級聯(lián)深度卷積神經(jīng)網(wǎng)絡(luò)的檔案圖像真?zhèn)舞b別算法.蘭臺世界,2018(6):46-48.

        [4]王建林,陳萌萌,冶存花,等.基于知識圖譜的檔案領(lǐng)域問答系統(tǒng)研究與應(yīng)用.軟件工程與應(yīng)用,2024(2):190-198.

        [5]房開乾,王鑫鑫,歐葉玉.基于深度學(xué)習(xí)的檔案輔助分類應(yīng)用研究機(jī)電兵船檔案,2024(3):86-90.

        [6]岳蓓.大數(shù)據(jù)時代背景下高校檔案管理模式的變革和優(yōu)化].中國新通信,2022(14):37-39.

        基金項目:中國高等教育學(xué)會檔案工作分會2020年基金項目“數(shù)字生態(tài)視聞下的高校檔案制度建設(shè)研究—以西南地區(qū)為例”(項目編號:ZGD-ZC-2020-08)階段性研究成果之一

        猜你喜歡
        檢索深度人工智能
        深度理解一元一次方程
        2019年第4-6期便捷檢索目錄
        深度觀察
        深度觀察
        2019:人工智能
        商界(2019年12期)2019-01-03 06:59:05
        人工智能與就業(yè)
        深度觀察
        數(shù)讀人工智能
        小康(2017年16期)2017-06-07 09:00:59
        下一幕,人工智能!
        專利檢索中“語義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        成av人大片免费看的网站| 免费人成在线观看播放国产| 国产成人av综合色| 日本淫片一区二区三区| 久久国产劲爆∧v内射-百度 | 国产精品丝袜美女在线观看| 青青视频在线播放免费的| 欧美日韩在线视频| 亚洲欧美在线观看| 粗大挺进尤物人妻一区二区| 国产精品视频一区二区久久| 成 人色 网 站 欧美大片在线观看| 人妻在线日韩免费视频 | 中文字幕一区二区va| 在线播放av不卡国产日韩| 和外国人做人爱视频| 亚洲色大成在线观看| 国产精品黑丝美女av| 精品无码av一区二区三区不卡| 搡老熟女中国老太| 国产一区二区丰满熟女人妻| 日本大片一区二区三区| 亚洲人成网网址在线看| 自拍偷自拍亚洲精品播放| 国产精品亚洲av国产| 精品一区二区三区蜜桃麻豆| 国产成人亚洲精品| 久久无码人妻一区=区三区| 亚洲av大片在线免费观看| 亚洲国产精品久久久久久无码| 国产乱子伦一区二区三区| 中文亚洲AV片在线观看无码| 99久久国产精品免费热| 亚洲一区二区三区播放| 中文字幕一区二区人妻出轨| 国产偷闻女邻居av在线观看| 国产又猛又黄又爽| 国产天堂网站麻豆| 日本大片在线一区二区三区 | 久久久噜噜噜久久熟女| 99在线精品视频在线观看|