隨著人工智能的快速發(fā)展,數(shù)智化檔案管理正逐漸成為檔案管理領(lǐng)域的重要發(fā)展方向?!丁笆奈濉比珖?guó)檔案事業(yè)發(fā)展規(guī)劃》明確提出,檔案信息化建設(shè)要融入數(shù)字中國(guó)建設(shè),加快檔案數(shù)字化轉(zhuǎn)型,提升檔案管理的數(shù)字化、智能化水平,這為航天檔案管理的轉(zhuǎn)型升級(jí)提供了政策依據(jù)和方向指引。航天檔案作為記錄航天活動(dòng)全過(guò)程的重要資料,涵蓋了從航天器設(shè)計(jì)、工藝、制造、發(fā)射到運(yùn)行維護(hù)等各個(gè)階段的海量數(shù)據(jù)信息,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)的歸檔管理對(duì)于航天任務(wù)的規(guī)劃、執(zhí)行和優(yōu)化具有重要意義。然而,航天檔案的專業(yè)性高、數(shù)據(jù)量龐大、數(shù)據(jù)類型復(fù)雜多樣,這給檔案分類工作帶來(lái)了巨大挑戰(zhàn)。傳統(tǒng)的檔案分類管理方法在處理這些復(fù)雜數(shù)據(jù)時(shí)存在諸多局限性,如數(shù)據(jù)處理效率低、分類準(zhǔn)確性不高、難以挖掘數(shù)據(jù)的潛在價(jià)值等。近年來(lái),人工智能憑借其強(qiáng)大的數(shù)據(jù)處理和分析能力,為航天檔案的分類管理提供了新的解決方案。
一、航天檔案類型及特點(diǎn)
隨著企業(yè)數(shù)智化制造工作的不斷推進(jìn),航天器研制模式正在逐步向“全三維模式”全面過(guò)渡,形成了以數(shù)字化、智能化技術(shù)為手段,以數(shù)據(jù)為基礎(chǔ),以整星、船、器骨架為系統(tǒng)級(jí)協(xié)同設(shè)計(jì)頂層依據(jù),以模型為設(shè)計(jì)輸出及信息傳遞載體的協(xié)同設(shè)計(jì)模式。在新研制模式下,航天檔案的類型具體可按內(nèi)容類型、格式類型、結(jié)構(gòu)化程度三個(gè)維度進(jìn)行詳細(xì)分類。以內(nèi)容類型分類可劃分為文本型、圖像型、數(shù)據(jù)型和三維模型,以格式類型分類可劃分為文本格式、電子表格格式、數(shù)值格式、圖像格式和模型格式,以結(jié)構(gòu)化程度分類可劃分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。在航天器研制過(guò)程中,結(jié)構(gòu)化數(shù)據(jù)作為多維度化、標(biāo)準(zhǔn)化、高度組織化的數(shù)據(jù)形式,與半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)共同貫穿設(shè)計(jì)、工藝、制造、測(cè)試驗(yàn)證和管理全過(guò)程,已成為航天檔案管理的重要數(shù)據(jù)類型。結(jié)構(gòu)化數(shù)據(jù)具有固定的格式、明確的字段定義和組織形式,信息存儲(chǔ)在數(shù)據(jù)庫(kù)里,可以用二維表結(jié)構(gòu)來(lái)邏輯表達(dá)。航天檔案中結(jié)構(gòu)化數(shù)據(jù)主要包括研制全生命周期中各環(huán)節(jié)的物料清單(BillofMaterial,BOM)數(shù)據(jù)、設(shè)計(jì)與工程數(shù)據(jù)、總裝工藝數(shù)據(jù)、生產(chǎn)與制造執(zhí)行數(shù)據(jù)、測(cè)試與驗(yàn)證數(shù)據(jù)、在軌運(yùn)行數(shù)據(jù)等。非結(jié)構(gòu)化數(shù)據(jù)不能以二維表的形式存儲(chǔ)在數(shù)據(jù)庫(kù)里,無(wú)固定格式和組織方式,如各類文檔、手冊(cè)、報(bào)表、圖片等。半結(jié)構(gòu)化數(shù)據(jù)是介于完全結(jié)構(gòu)化數(shù)據(jù)和完全無(wú)結(jié)構(gòu)化數(shù)據(jù)之間的數(shù)據(jù),如HTML頁(yè)面、XML文檔等。半結(jié)構(gòu)化數(shù)據(jù)具有一定的層次結(jié)構(gòu),數(shù)據(jù)以標(biāo)簽、屬性等形式組織。數(shù)據(jù)結(jié)構(gòu)具有較高的靈活性,可以根據(jù)需要進(jìn)行調(diào)整和擴(kuò)展。在航天檔案中,半結(jié)構(gòu)化數(shù)據(jù)主要用于存儲(chǔ)一些具有層次結(jié)構(gòu)的信息,如航天器的配置文件、項(xiàng)目文檔等。目前,航天數(shù)據(jù)的管理逐漸從傳統(tǒng)的流程驅(qū)動(dòng)向數(shù)據(jù)驅(qū)動(dòng)轉(zhuǎn)變,強(qiáng)調(diào)數(shù)據(jù)的存儲(chǔ)、共享和利用。這些數(shù)據(jù)的有效歸檔管理和利用對(duì)于航天任務(wù)的規(guī)劃、執(zhí)行和優(yōu)化具有重要意義。
二、航天檔案智能分類必要性分析
(一)傳統(tǒng)分類方法及存在的問(wèn)題
在航天領(lǐng)域,海量的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集中歸檔管理面臨著重大挑戰(zhàn)。航天檔案通過(guò)與業(yè)務(wù)系統(tǒng)集成接口進(jìn)入檔案管理系統(tǒng),在檔案管理系統(tǒng)中按照產(chǎn)品維度分類,同一產(chǎn)品下包含非結(jié)構(gòu)化數(shù)據(jù)集、結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)壓縮包文件。非結(jié)構(gòu)化數(shù)據(jù)的數(shù)字化歸檔管理模式相對(duì)成熟,主要采用人工分類和基于自定義規(guī)則的自動(dòng)分類兩種方式,人工分類依賴檔案管理人員的專業(yè)知識(shí)和經(jīng)驗(yàn),在不同檔案類目下創(chuàng)建歸檔任務(wù),通過(guò)檔案內(nèi)容特點(diǎn)將其歸入相應(yīng)的類目?;谧远x規(guī)則的檔案系統(tǒng)自動(dòng)分類則預(yù)先在檔案管理系統(tǒng)中設(shè)定一系列分類規(guī)則,根據(jù)檔案內(nèi)容中的元數(shù)據(jù)、關(guān)鍵詞、格式等特征進(jìn)行匹配分類。然而結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)由于結(jié)構(gòu)類型復(fù)雜,其有效歸檔管理仍面臨諸多挑戰(zhàn),如何精準(zhǔn)分類結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)是首要解決的問(wèn)題。
1.分類效率低
航天檔案數(shù)量的快速增長(zhǎng)和研制模式數(shù)字化轉(zhuǎn)型使得人工分類難以在有限的時(shí)間內(nèi)完成,影響檔案的及時(shí)歸檔和利用。而基于自定義規(guī)則的檔案系統(tǒng)自動(dòng)分類在面對(duì)多源異構(gòu)的檔案內(nèi)容時(shí),需要頻繁調(diào)整和優(yōu)化規(guī)則,增加了系統(tǒng)的維護(hù)成本和時(shí)間成本。
2.分類準(zhǔn)確性不足
目前,航天結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)以壓縮包的形式存儲(chǔ)于檔案管理系統(tǒng),傳統(tǒng)的人工組卷、案卷整理模式不適用于結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的歸檔管理,通過(guò)人工手段難以將這些數(shù)據(jù)準(zhǔn)確分類和整理,無(wú)法有效實(shí)現(xiàn)歸檔數(shù)據(jù)的快速檢索和知識(shí)再用。結(jié)構(gòu)化數(shù)據(jù)通常需要精確的模式匹配和嚴(yán)格的字段定義,人工操作容易因復(fù)雜的數(shù)據(jù)結(jié)構(gòu)和龐大的數(shù)據(jù)量而出現(xiàn)錯(cuò)誤,結(jié)構(gòu)化數(shù)據(jù)的分類規(guī)則比較復(fù)雜,人工難以精確理解和應(yīng)用這些規(guī)則,且無(wú)法實(shí)時(shí)處理動(dòng)態(tài)更新的結(jié)構(gòu)化數(shù)據(jù)[2。半結(jié)構(gòu)化數(shù)據(jù)兼具結(jié)構(gòu)化和非結(jié)構(gòu)化特點(diǎn),其數(shù)據(jù)格式多樣且存在嵌套結(jié)構(gòu),歸檔時(shí)需要同時(shí)處理格式解析、數(shù)據(jù)提取和數(shù)據(jù)分類等問(wèn)題,數(shù)據(jù)的內(nèi)容可能包含大量上下文信息,人工難以全面理解這些信息對(duì)分類的影響,容易導(dǎo)致分類不準(zhǔn)確。同時(shí),航天檔案內(nèi)容專業(yè)性強(qiáng),涉及多學(xué)科領(lǐng)域知識(shí),人工分類容易因知識(shí)局限或主觀判斷失誤而導(dǎo)致分類錯(cuò)誤。基于自定義規(guī)則的自動(dòng)分類則受限于規(guī)則的完備性和準(zhǔn)確性,對(duì)于一些模糊或不明確的內(nèi)容難以準(zhǔn)確分類,進(jìn)而會(huì)影響檔案檢索和利用的效果。
(二)智能分類的顯著優(yōu)勢(shì)
隨著人工智能技術(shù)的迅猛發(fā)展,尤其是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的突破,利用人工智能進(jìn)行檔案數(shù)據(jù)分類,可以解決人工分類的難點(diǎn)與不足,顯著提升檔案管理的效率和精準(zhǔn)度[3。AI大語(yǔ)言模型具有強(qiáng)大的語(yǔ)言理解能力,經(jīng)過(guò)大量的文本訓(xùn)練,能夠?qū)教鞕n案中的術(shù)語(yǔ)、復(fù)雜句子結(jié)構(gòu)以及上下文關(guān)系等進(jìn)行準(zhǔn)確地理解和分析。對(duì)于結(jié)構(gòu)化數(shù)據(jù)檔案,如飛行器參數(shù)和軌道參數(shù),人工智能能夠快速按照任務(wù)、階段等特征進(jìn)行精準(zhǔn)分類,便于后續(xù)檢索和利用,為航天任務(wù)規(guī)劃提供有力支持。半結(jié)構(gòu)化數(shù)據(jù)檔案,如傳感器日志和配置文件,通過(guò)AI大模型分類可挖掘其潛在價(jià)值,發(fā)現(xiàn)異常模式并輔助故障診斷。對(duì)于非結(jié)構(gòu)化數(shù)據(jù),通過(guò)大語(yǔ)言模型的自然語(yǔ)言處理技術(shù)可對(duì)文本型檔案進(jìn)行語(yǔ)義分析、關(guān)鍵詞提取等,理解文本核心內(nèi)容和主題,實(shí)現(xiàn)精準(zhǔn)分類,助力知識(shí)發(fā)現(xiàn)和決策支持。對(duì)于圖像型檔案,AI大模型可以通過(guò)識(shí)別和分析技術(shù),自動(dòng)檢測(cè)圖像中的自標(biāo)物體、場(chǎng)景和事件,進(jìn)行分類和標(biāo)注。利用計(jì)算機(jī)視覺(jué)技術(shù)和幾何分析方法,AI大模型可以對(duì)三維模型進(jìn)行特征提取和相似性比較,實(shí)現(xiàn)分類和檢索,從而快速找到相似的部組件模型,提高設(shè)計(jì)效率和零部件的通用性。智能分類后的檔案具有清晰的結(jié)構(gòu)和標(biāo)簽,檔案管理系統(tǒng)能更高效地進(jìn)行數(shù)據(jù)檢索,避免了人工分類的不一致性,確保數(shù)據(jù)分類的準(zhǔn)確性和規(guī)范性,打破信息孤島,便于數(shù)據(jù)共享與協(xié)同。
歸納起來(lái),應(yīng)用人工智能技術(shù)在航天檔案分類分析中具有三大優(yōu)勢(shì)。首先,它能夠通過(guò)上下文學(xué)習(xí)自動(dòng)處理和分析海量數(shù)據(jù)。其次,人工智能具有強(qiáng)大的學(xué)習(xí)和泛化能力,可以使用不同類型的科學(xué)數(shù)據(jù)和分類任務(wù)提高分類的準(zhǔn)確性和魯棒性。此外,人工智能還可以實(shí)現(xiàn)實(shí)時(shí)或近實(shí)時(shí)的執(zhí)行數(shù)據(jù)處理和分析,為航天器的任務(wù)規(guī)劃和決策提供及時(shí)支持。
三、基于人工智能的航天檔案分類框架
應(yīng)用人工智能技術(shù)實(shí)現(xiàn)檔案智能分類主要從檔案數(shù)據(jù)預(yù)處理、標(biāo)注檔案數(shù)據(jù)集、特征提取與選擇、模型訓(xùn)練與優(yōu)化、數(shù)據(jù)長(zhǎng)期保存與利用等方面展開。
(一)檔案數(shù)據(jù)預(yù)處理
在進(jìn)行分類分析之前,對(duì)航天檔案進(jìn)行預(yù)處理是必不可少的。人工智能技術(shù)可以用于數(shù)據(jù)清洗、去噪和歸一化等操作,從而提高數(shù)據(jù)的質(zhì)量和可用性。航天科學(xué)數(shù)據(jù)可能包含噪聲、缺失值和異常值等,機(jī)器學(xué)習(xí)中的聚類算法可以識(shí)別并剔除異常數(shù)據(jù)點(diǎn),提高數(shù)據(jù)質(zhì)量,增強(qiáng)數(shù)據(jù)的可用性。結(jié)構(gòu)化數(shù)據(jù)清洗的重點(diǎn)是處理缺失值、重復(fù)數(shù)據(jù)、異常值和數(shù)據(jù)一致性問(wèn)題,同時(shí)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化和格式化統(tǒng)一。半結(jié)構(gòu)化數(shù)據(jù)清洗的關(guān)鍵在于格式統(tǒng)一、數(shù)據(jù)提取與重組、缺失數(shù)據(jù)處理和去噪,以及字段名稱和數(shù)據(jù)類型的標(biāo)準(zhǔn)化。非結(jié)構(gòu)化數(shù)據(jù)清洗需要根據(jù)數(shù)據(jù)類型如文本、圖像等,采用不同的方法,包括去除噪聲、格式統(tǒng)一、數(shù)據(jù)增強(qiáng)、去除損壞數(shù)據(jù)等。元數(shù)據(jù)作為航天檔案信息的重要組成部分,用于描述檔案的內(nèi)容、特征、組織方式、文件格式、數(shù)據(jù)類型、數(shù)據(jù)結(jié)構(gòu)、管理過(guò)程和歷史信息等。元數(shù)據(jù)清洗主要是識(shí)別和處理不一致的數(shù)據(jù),包括數(shù)據(jù)格式、編號(hào)、名稱、編寫日期、編寫單位等信息。
(二)標(biāo)注檔案數(shù)據(jù)集
經(jīng)過(guò)預(yù)處理解析的數(shù)據(jù)需要進(jìn)行統(tǒng)一格式化處理和審查,通過(guò)確定數(shù)據(jù)分類規(guī)則和執(zhí)行數(shù)據(jù)標(biāo)注將數(shù)據(jù)歸類到預(yù)先設(shè)置的檔案數(shù)據(jù)集類目中,包括結(jié)構(gòu)化數(shù)據(jù)集、半結(jié)構(gòu)化數(shù)據(jù)集和非結(jié)構(gòu)化數(shù)據(jù)集。針對(duì)個(gè)別解析錯(cuò)誤未歸類匹配成功的數(shù)據(jù),采取人工審核分類的處理方式,給予合適的分類。
1.整理分類規(guī)則
檔案數(shù)據(jù)集整理分類依據(jù)文件擴(kuò)展名與格式類型、結(jié)構(gòu)化程度的對(duì)應(yīng)關(guān)系。文本、電子表格和數(shù)值格式DOC、DOCX、PDF、XLS、XLSX、CSV、XML、TXT。三維模型格式PRT和ASM。圖像格式TIF、NC、PNG、JPG、PSD、JPEG、BMP。結(jié)構(gòu)化數(shù)據(jù)包含數(shù)值、日期、布爾型等,格式CSV、XLSX,存儲(chǔ)于關(guān)系數(shù)據(jù)庫(kù)。半結(jié)構(gòu)化數(shù)據(jù)包含嵌套鍵對(duì)、列表,格式XML、JSON,存儲(chǔ)于NoSQL數(shù)據(jù)庫(kù)。非結(jié)構(gòu)化數(shù)據(jù)文本、圖像、音視頻,存儲(chǔ)于檔案文件系統(tǒng)。
2.數(shù)據(jù)標(biāo)注
結(jié)合檔案領(lǐng)域知識(shí)體系和數(shù)據(jù)集分類規(guī)則,確定檔案的標(biāo)注標(biāo)準(zhǔn)和類別定義。使用Python腳本或其他工具掃描文件,查閱目標(biāo)文件夾,提取所有文件的擴(kuò)展名。根據(jù)擴(kuò)展名匹配到對(duì)應(yīng)的格式類型和結(jié)構(gòu)化程度。輸出標(biāo)注結(jié)果的元數(shù)據(jù)表格,包含文件名、擴(kuò)展名、格式類型、結(jié)構(gòu)化程度和建議儲(chǔ)存位置。組織檔案管理人員進(jìn)行專業(yè)的標(biāo)注規(guī)則和標(biāo)準(zhǔn)培訓(xùn),對(duì)標(biāo)注后的數(shù)據(jù)進(jìn)行質(zhì)量檢查,對(duì)于擴(kuò)展名歸屬模糊的情況,人工審核并更新規(guī)則庫(kù),根據(jù)實(shí)際業(yè)務(wù)需求調(diào)整存儲(chǔ)位置,確保標(biāo)注的準(zhǔn)確性,可通過(guò)多輪標(biāo)注和一致性檢驗(yàn)提高標(biāo)注質(zhì)量。
(三)特征提取與選擇
從大量已完成標(biāo)注的檔案中提取出具有代表性和區(qū)分度的特征是分類分析的關(guān)鍵步驟,包括提取元數(shù)據(jù)信息、數(shù)值信息、時(shí)間序列數(shù)據(jù)、文本特征、標(biāo)簽特征、結(jié)構(gòu)特征和擴(kuò)展名等。傳統(tǒng)的特征提取方法往往依賴于人工設(shè)計(jì),而人工智能技術(shù)能夠自動(dòng)學(xué)習(xí)數(shù)據(jù)中的特征表示,進(jìn)行特征提取,減少數(shù)據(jù)維度的同時(shí)保留關(guān)鍵特征,為后續(xù)的分類提供有力支持。元數(shù)據(jù)作為數(shù)據(jù)的“數(shù)據(jù)”,為數(shù)據(jù)檔案提供描述性屬性信息,包括數(shù)據(jù)的來(lái)源、產(chǎn)品、分系統(tǒng)、版本、格式和創(chuàng)建時(shí)間等,元數(shù)據(jù)為智能分類提供重要的上下文信息。通過(guò)提取分析元數(shù)據(jù)中的數(shù)據(jù)來(lái)源和創(chuàng)建時(shí)間,可以更好地理解數(shù)據(jù)的背景和用途,從而更準(zhǔn)確地進(jìn)行分類。大語(yǔ)言模型還可以通過(guò)對(duì)元數(shù)據(jù)中的關(guān)鍵詞和描述性文本進(jìn)行分析,從而優(yōu)化分類策略。但是沒(méi)有一個(gè)分類算法能同時(shí)對(duì)結(jié)構(gòu)化數(shù)據(jù)集、半結(jié)構(gòu)化數(shù)據(jù)集和非結(jié)構(gòu)化數(shù)據(jù)集進(jìn)行最優(yōu)分類學(xué)習(xí),深度學(xué)習(xí)算法在處理復(fù)雜數(shù)據(jù)時(shí)具有明顯優(yōu)勢(shì)[4,傳統(tǒng)的機(jī)器學(xué)習(xí)算法支持向量機(jī)SVM和隨機(jī)森林在結(jié)構(gòu)化數(shù)據(jù)分類中更為高效和穩(wěn)定。卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)算法在非結(jié)構(gòu)化數(shù)據(jù)文本和圖像分類中效果良好,能自動(dòng)提取圖像中的邊緣、紋理、形狀等特征,實(shí)現(xiàn)對(duì)不同數(shù)據(jù)的分類。選擇合適的分類算法能夠顯著提高檔案分類的準(zhǔn)確率和效率。
(四)模型訓(xùn)練與優(yōu)化
應(yīng)用人工智能對(duì)海量的航天檔案進(jìn)行深度語(yǔ)義分析之后,提取出關(guān)鍵特征和語(yǔ)義信息,將結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)檔案進(jìn)行融合處理,形成智能分類模型,并將其融入到模型的訓(xùn)練過(guò)程中,使模型能夠更加精準(zhǔn)地識(shí)別和分類不同類型的航天檔案。同時(shí),隨著新數(shù)據(jù)的不斷積累,持續(xù)更新和優(yōu)化模型,以適應(yīng)數(shù)據(jù)的變化和提高分類性能。在優(yōu)化過(guò)程中,人工智能能夠動(dòng)態(tài)調(diào)整模型的分類策略,通過(guò)對(duì)模型輸出結(jié)果的實(shí)時(shí)反饋,結(jié)合航天領(lǐng)域的專業(yè)知識(shí)和數(shù)據(jù)特點(diǎn),識(shí)別分類過(guò)程中的異常或模糊區(qū)域,并對(duì)模型進(jìn)行針對(duì)性的優(yōu)化調(diào)整。根據(jù)航天最新研究成果和數(shù)據(jù)的變化趨勢(shì),持續(xù)更新模型的知識(shí)庫(kù),使其始終保持對(duì)前沿?cái)?shù)據(jù)檔案的適應(yīng)性和準(zhǔn)確性。
(五)數(shù)據(jù)長(zhǎng)期保存與利用
航天檔案利用人工智能進(jìn)行分類后,高效地管理和利用這些檔案數(shù)據(jù),對(duì)于航天技術(shù)的傳承、創(chuàng)新以及科研項(xiàng)目的順利實(shí)施具有不可替代的價(jià)值。分類后的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)中,每個(gè)數(shù)據(jù)表對(duì)應(yīng)一個(gè)特定類別。通過(guò)數(shù)據(jù)庫(kù)管理進(jìn)行數(shù)據(jù)的增、刪、改、查操作,確保數(shù)據(jù)的一致性和完整性。分類后的非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在文件存儲(chǔ)系統(tǒng),根據(jù)數(shù)據(jù)類型和分類結(jié)果,建立合理的文件目錄結(jié)構(gòu),按文檔目錄、圖像目錄、視頻自錄等劃分。每個(gè)對(duì)象附加元數(shù)據(jù),方便后續(xù)的檢索和管理。半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在NoSQL數(shù)據(jù)庫(kù)中,建立數(shù)據(jù)索引,對(duì)XML文件中的標(biāo)簽和屬性建立索引,對(duì)HTML頁(yè)面中的關(guān)鍵詞建立索引,提高數(shù)據(jù)的檢索效率。通過(guò)SQL語(yǔ)言對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行檢索。使用全文檢索引擎對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行檢索。對(duì)于半結(jié)構(gòu)化數(shù)據(jù)使用XPath語(yǔ)言和HTML解析器進(jìn)行解析和檢索,用戶可以根據(jù)頁(yè)面的標(biāo)簽、屬性和文本內(nèi)容進(jìn)行檢索。用戶界面可以集成結(jié)構(gòu)化數(shù)據(jù)查詢、非結(jié)構(gòu)化數(shù)據(jù)檢索和半結(jié)構(gòu)化數(shù)據(jù)瀏覽等功能,便于知識(shí)的后期利用。
人工智能技術(shù)在航天檔案分類分析中具有重要的應(yīng)用價(jià)值和廣闊的發(fā)展前景。通過(guò)檔案數(shù)據(jù)預(yù)處理、標(biāo)注檔案數(shù)據(jù)集、特征提取、模型訓(xùn)練與優(yōu)化等環(huán)節(jié),人工智能能夠有效提高檔案的分類效率和準(zhǔn)確性,為航天研制任務(wù)的順利開展提供有力支持。然而,目前仍存在一些挑戰(zhàn)需要克服,如模型的輕量化、多源數(shù)據(jù)融合等問(wèn)題。未來(lái),隨著人工智能技術(shù)的不斷發(fā)展,人工智能將在航天檔案分類分析中發(fā)揮更重要作用,為人類探索宇宙提供更加強(qiáng)大的工具和手段。
參考文獻(xiàn):
[1]韓曼茹.人工智能技術(shù)在檔案編目、檢索與利用中的應(yīng)用[J].山西檔案,2025(1):156-157.
[2]張新.人工智能技術(shù)服務(wù)檔案分類與檢索研究[J].蘭臺(tái)世界,2025(5):140-141.
[3]紀(jì)莉莎.基于人工智能的檔案檢索與利用研究[J].蘭臺(tái)內(nèi)外,2025(1):26-27.
[4]趙子葉.基于深度學(xué)習(xí)的多模態(tài)檔案資源的集成管理應(yīng)用[J].山西檔案,2024(4):52-53.
作者單位:北京空間飛行器總體設(shè)計(jì)部