張雯君
摘 要:本研究旨在探討基于知識發(fā)現(xiàn)的高校檔案知識圖譜,在知識管理與應(yīng)用領(lǐng)域的重要性。通過構(gòu)建高校檔案知識圖譜,實現(xiàn)高校檔案數(shù)據(jù)的智能化管理和應(yīng)用,解決檔案資源深度開發(fā)程度低等問題。在理論建構(gòu)方面,將高校檔案數(shù)字化轉(zhuǎn)型與創(chuàng)新高校檔案管理方式相結(jié)合,為高校檔案信息化建設(shè)提供新路徑和實踐指導(dǎo)。
關(guān)鍵詞:知識發(fā)現(xiàn);數(shù)據(jù)挖掘;高校檔案管理;知識圖譜
引言
知識發(fā)現(xiàn)這一概念起源于20世紀90年代美國底特律召開的第一屆數(shù)據(jù)挖掘研討會,通過多次迭代和交互,在數(shù)據(jù)中搜索新的、實用的、潛在有用的、最終可以理解的模式。包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、模型生成和模式驗證等步驟。將知識發(fā)現(xiàn)與高校檔案相融合,構(gòu)建高校檔案知識圖譜,實現(xiàn)高校檔案數(shù)據(jù)深度聚合,為高校檔案發(fā)展注入新動能。
一、 高校檔案信息知識發(fā)現(xiàn)的研究基礎(chǔ)
1.高校檔案信息知識發(fā)現(xiàn)的必要性
高校檔案是高校歷史與文化傳承的珍貴載體,記錄了高校發(fā)展歷程、重大事件、人才培養(yǎng)、學(xué)術(shù)成果等方面的信息,對高校的歷史、文化和發(fā)展有著極為重要的意義。然而,隨著高校檔案資料不斷增長和多元化,傳統(tǒng)檔案管理面臨著許多挑戰(zhàn),知識發(fā)現(xiàn)作為智能化管理的重要技術(shù),在檔案信息挖掘方面具有顯著優(yōu)勢,可協(xié)助高校檔案管理部門提高管理效率和質(zhì)量,促進高校檔案領(lǐng)域的數(shù)字化轉(zhuǎn)型和創(chuàng)新發(fā)展。
首先,知識發(fā)現(xiàn)可提高檔案信息挖掘的深度和廣度,通過自動化、智能化的分析,深入發(fā)現(xiàn)檔案信息之間的關(guān)聯(lián)性和規(guī)律性,為相關(guān)領(lǐng)域的研究和應(yīng)用提供支持和幫助。例如,通過分析學(xué)生選課和成績信息,預(yù)測學(xué)生學(xué)業(yè)和職業(yè)方向,為學(xué)生提供更好的指導(dǎo)和服務(wù)。其次,加強檔案信息的安全性,利用加密和權(quán)限控制技術(shù)發(fā)現(xiàn)和預(yù)防安全風(fēng)險。最后,提高檔案管理的效率和精度,實現(xiàn)檔案信息的精確檢索和語義關(guān)聯(lián),通過自動化的方式減少人工操作的時間和誤差。
2.高校檔案信息知識發(fā)現(xiàn)的可行性
知識發(fā)現(xiàn)具備從海量結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)中獲取知識的能力,并通過可視化、推理、預(yù)測等手段,使知識更容易被吸收和理解。在高校檔案管理方面,知識發(fā)現(xiàn)技術(shù)具有以下優(yōu)勢:
(1)學(xué)術(shù)研究方面。利用檔案知識發(fā)現(xiàn)技術(shù),研究高校歷史和文化的演變,探究歷史事件和思想流派對高校發(fā)展的深遠影響,分析高校人才培養(yǎng)和學(xué)術(shù)成果的規(guī)律,為高校學(xué)術(shù)建設(shè)和發(fā)展提供有力支持。
(2)教學(xué)工作方面。基于高校檔案挖掘出有效的教學(xué)資源,以較早的課程、教材、課件或教學(xué)方法為依據(jù),為教學(xué)工作提供指導(dǎo)和借鑒,創(chuàng)新教學(xué)模式。
(3)學(xué)校管理方面。深入挖掘高校檔案中蘊含的管理思想、創(chuàng)新活動以及組織機構(gòu)等重要信息,為高校的精細化管理提供前沿資料。
(4)文化傳承方面。高校檔案是高校文化傳承的重要載體,運用知識發(fā)現(xiàn)技術(shù)發(fā)掘和整理高校傳統(tǒng)文化、校史、風(fēng)俗等方面的信息,有助于弘揚校園文化,促進校園文化的傳承與創(chuàng)新。
二、高校檔案知識發(fā)現(xiàn)構(gòu)建技術(shù)
1.數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中尋找有價值、可理解的信息。在數(shù)字檔案領(lǐng)域,數(shù)據(jù)挖掘能夠幫助檔案管理員在非結(jié)構(gòu)化數(shù)據(jù)中尋找到隱藏在文獻中的關(guān)系、模式和規(guī)律,從而改善檔案管理狀態(tài),提供更好的檔案服務(wù)。數(shù)據(jù)挖掘常用的算法包括分類算法、集合算法、關(guān)聯(lián)規(guī)則算法、回歸算法和檢測異常算法等。
2.機器學(xué)習(xí)技術(shù)
機器學(xué)習(xí)關(guān)注于如何提升算法在體驗式學(xué)習(xí)中的性能。機器學(xué)習(xí)肇始于1943年Warren McCulloch和Walter Pitts提出的神經(jīng)網(wǎng)絡(luò)層次結(jié)構(gòu)模型,該模型為機器學(xué)習(xí)的研發(fā)奠定了基礎(chǔ)。機器學(xué)習(xí)的形式依賴于人類參與程度的差異,在這方面,機器學(xué)習(xí)可以被分類為有監(jiān)督、無監(jiān)督和半監(jiān)督學(xué)習(xí)。有監(jiān)督學(xué)習(xí)在人類制定訓(xùn)練集目標的前提下,創(chuàng)建數(shù)據(jù)集函數(shù)并預(yù)測相應(yīng)的新數(shù)據(jù)結(jié)果;而無監(jiān)督學(xué)習(xí)則是在不使用手動選擇數(shù)據(jù)的情況下,由計算機獨立執(zhí)行整個過程的學(xué)習(xí);部分監(jiān)督學(xué)習(xí)則處于有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)之間,利用大量未標記數(shù)據(jù)來識別模式以完成任務(wù)。機器學(xué)習(xí)還依賴于歸納、推理和分類等技術(shù),以讓計算機自主學(xué)習(xí)和適應(yīng)不同的場景。支持向量機(SVM)、神經(jīng)網(wǎng)絡(luò)、決策樹等機器學(xué)習(xí)算法都得到了廣泛應(yīng)用,計算機利用大量數(shù)據(jù)來推斷規(guī)律和模式,并據(jù)此做出正確的預(yù)測和決策。
3.三元組抽取技術(shù)
三元組抽取技術(shù)從句子中提取實體和其對應(yīng)關(guān)系的信息,關(guān)鍵步驟包括從句子中提取實體對并進一步確定實體對間的語義關(guān)系。若實體對之間存在語義關(guān)系,則需明確該關(guān)系所屬的關(guān)系類別,通常用關(guān)系三元組來描述。在先驗規(guī)則的引導(dǎo)下,對句子進行語法和語義分析,將主語、謂語和賓語等元素分別匹配,抽取出符合“主語-謂語-賓語”這一三元組關(guān)系的信息,為知識圖譜構(gòu)建提供基礎(chǔ)。
三、知識發(fā)現(xiàn)構(gòu)建流程及功能實現(xiàn)
1.知識發(fā)現(xiàn)構(gòu)建流程
知識發(fā)現(xiàn)涉及多學(xué)科科學(xué)原理,如人工智能、數(shù)據(jù)挖掘、自然語言處理等技術(shù)領(lǐng)域。知識發(fā)現(xiàn)是將源自多個數(shù)據(jù)源的未知或不完整的知識信息進行處理、分析和挖掘,為實際應(yīng)用提供指導(dǎo),實現(xiàn)知識管理與知識共享的過程。知識發(fā)現(xiàn)構(gòu)建過程分為三個階段,即數(shù)據(jù)采集和預(yù)處理、模型構(gòu)建和驗證、知識整合和應(yīng)用知識。
(1)數(shù)據(jù)采集和預(yù)處理
數(shù)據(jù)采集是指從數(shù)據(jù)庫、傳感器、API、文本文件和網(wǎng)頁等各類數(shù)據(jù)源中提取,收集、整理和記錄有關(guān)特定事物數(shù)據(jù)信息的過程。采集的數(shù)據(jù)應(yīng)保證質(zhì)量和完整性,便于后續(xù)數(shù)據(jù)處理和分析的準確性和可靠性。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)匹配和數(shù)據(jù)整合等步驟。數(shù)據(jù)清洗可以去除數(shù)據(jù)中的異常值和重復(fù)值,數(shù)據(jù)匹配則可以將來自不同數(shù)據(jù)源的數(shù)據(jù)整合和合并,數(shù)據(jù)整合則可以將多個數(shù)據(jù)集合并成一個大的數(shù)據(jù)集。
(2)模型構(gòu)建和驗證
利用機器學(xué)習(xí)和人工智能技術(shù),在原始數(shù)據(jù)中選擇目標數(shù)據(jù),確定目標數(shù)據(jù)之后構(gòu)建知識發(fā)現(xiàn)模型。創(chuàng)建模型是整體實施的一部分,選擇適當?shù)膮?shù)和輸入變量來確保最佳值,所選擇的變量在數(shù)量和關(guān)聯(lián)性上不宜太多、太強,應(yīng)具有良好的數(shù)據(jù)質(zhì)量。通過聚類的方法界定發(fā)現(xiàn)知識的有效性,識別原始數(shù)據(jù)的有效知識和無效知識,形成最終可以被利用的知識。
(3)知識整合和可視化
根據(jù)數(shù)據(jù)驗證的結(jié)果,將分析得到的信息和知識轉(zhuǎn)化為模型、圖表等形式。并運用可視化方式以直觀和易懂的方式呈現(xiàn)出來。例如,繪制散點圖表示各個數(shù)據(jù)點之間的關(guān)系、使用柱狀圖來展示不同組別之間的差異等。
2.知識發(fā)現(xiàn)功能實現(xiàn)
知識發(fā)現(xiàn)功能體現(xiàn)在三個方面,一是自動對文本數(shù)據(jù)標記、分類、過濾及整合并建立索引,將文本數(shù)據(jù)結(jié)構(gòu)化處理,幫助用戶更好地做出決策,實現(xiàn)資源共享和重復(fù)利用;二是通過文本挖掘、信息抽取等技術(shù)實現(xiàn)對文檔中的實體、屬性和關(guān)系等信息的自動化提取,輔助檔案管理人員快速獲取文檔中的重要信息。同時,實現(xiàn)文檔之間的關(guān)聯(lián)分析,深入挖掘文檔內(nèi)隱含的知識;三是輔助檔案管理人員對文檔審查和合規(guī)性檢驗,實現(xiàn)對文檔內(nèi)容的自動化檢驗和驗證,簡化工作程序,并提高準確性。
四、基于知識發(fā)現(xiàn)的高校檔案知識圖譜構(gòu)建應(yīng)用研究
知識圖譜是從文本中抽取數(shù)據(jù)和本體,采用圖譜的形式表示知識,通過關(guān)系和語義連接不同的實體,構(gòu)建具有語義表達和推理能力的知識體系?;谥R發(fā)現(xiàn)的高校檔案知識圖譜構(gòu)建,是利用計算機語言處理技術(shù)和大數(shù)據(jù)存儲技術(shù),對高校檔案資源開展分析和處理,利用圖譜中的關(guān)系和屬性信息,實現(xiàn)對高校檔案知識和信息的發(fā)現(xiàn)。研究內(nèi)容包括高校檔案資源的數(shù)據(jù)結(jié)構(gòu)和組織方式、知識圖譜的構(gòu)建和維護、知識圖譜檢索算法的設(shè)計和優(yōu)化等方面。通過應(yīng)用知識發(fā)現(xiàn)技術(shù),對知識圖譜構(gòu)建產(chǎn)生積極影響,提高其質(zhì)量、完備性和應(yīng)用效果。
1.知識發(fā)現(xiàn)對高校知識圖譜構(gòu)建中的優(yōu)化作用
知識圖譜是以實體為節(jié)點,以關(guān)系為邊構(gòu)建的一個語義網(wǎng)絡(luò)結(jié)構(gòu),構(gòu)建過程中,存在知識不完備性和信息缺失性。運用知識發(fā)現(xiàn)技術(shù)可挖掘隱藏的關(guān)系,發(fā)現(xiàn)未知實體屬性,并將信息補全。例如,在科研檔案關(guān)系圖譜中,如果缺失兩個節(jié)點之間的關(guān)系,可以根據(jù)已有的關(guān)系,推斷兩個節(jié)點之間是否存在其他未被發(fā)現(xiàn)的關(guān)系,從而完成信息補全。對初步建立的高校檔案知識圖譜,采取建立模型、優(yōu)化算法等措施對圖譜開展檢驗和驗證,優(yōu)化圖譜結(jié)構(gòu)和相關(guān)參數(shù),使高校知識圖譜更專業(yè)、準確。
2.高校檔案知識圖譜的功能應(yīng)用
通過高校檔案知識圖譜的研究和應(yīng)用,可有效解決高校檔案在分類、管理和利用等方面的問題,從而構(gòu)建一個智能化、服務(wù)型的檔案館管理平臺。智能化的檔案館管理平臺將有助于推進高校的智慧化校園建設(shè),為高校的教學(xué)科研和管理服務(wù)提供支持,為高校的可持續(xù)發(fā)展提供有力支撐。
(1)智能檢索和挖掘
利用人工智能和自然語言處理技術(shù),抽取主題、內(nèi)容、時間、地點及人物等高校檔案資源關(guān)鍵細節(jié)信息和知識點,轉(zhuǎn)化為結(jié)構(gòu)化的圖譜。用戶通過關(guān)鍵字、語義等自然語言檢索方式,獲取到與之相關(guān)的高校檔案信息,如學(xué)校歷史沿革、校園文化、學(xué)術(shù)成果等,實現(xiàn)精準信息檢索和篩選。利用數(shù)據(jù)挖掘技術(shù),對歷年高校各學(xué)科的學(xué)生人數(shù)、科研成果、教師隊伍等各類數(shù)據(jù)開展分析,發(fā)現(xiàn)數(shù)據(jù)內(nèi)在聯(lián)系和規(guī)律性,提高檔案資源的利用價值。在科研方面,可以通過挖掘高校檔案中的歷史科研成果和文獻數(shù)據(jù),為當前高校的科學(xué)研究提供借鑒、啟示和指導(dǎo)。
(2)智能分析和管理
高校檔案管理借助知識圖譜的智能分析實現(xiàn)高效、準確的管理。智能分析具有全方位梳理檔案信息體系的功能,運用智能化的內(nèi)容聚類和歸納,以及語義分析等技術(shù)實現(xiàn)集中式管理;智能管理通過科學(xué)整合和自動化認定檔案價值、分析檔案密級,實現(xiàn)精準歸檔;利用大數(shù)據(jù)和機器學(xué)習(xí)技術(shù)實現(xiàn)檔案分類整理和保管;建立智能化管理系統(tǒng),提升檔案管理效率和準確性,為高校決策提供精準和有力支持。
(3)智能推薦和融合
智能推薦通過知識建設(shè)和挖掘過程中數(shù)據(jù)推薦技術(shù),為用戶推薦與需求相關(guān)的檔案資源,并通過不同的呈現(xiàn)方式和展示平臺,打造出不同領(lǐng)域、層次、類型等高??珙I(lǐng)域的檔案資源推薦平臺。知識圖譜融合將不同領(lǐng)域的知識有機整合起來,通過聯(lián)合索引和檔案關(guān)聯(lián)相互結(jié)合,實現(xiàn)知識的互通和共享。智能推薦和融合是高校檔案館整合、應(yīng)用檔案和文獻信息的重要手段,在學(xué)術(shù)研究和教學(xué)中發(fā)揮重要作用。
3.高校檔案知識圖譜的構(gòu)建框架
基于知識圖譜構(gòu)建方式,總體架構(gòu)自下而上劃分為數(shù)據(jù)采集及分析層、知識挖掘?qū)?、可視化展示層。?shù)據(jù)采集及分析層作為最基礎(chǔ)的層次,為知識圖譜構(gòu)建提供基礎(chǔ)保障。知識挖掘?qū)永盟惴ê图夹g(shù)從數(shù)據(jù)中挖掘出有用知識,將知識通過關(guān)系或者結(jié)構(gòu)的方式,建立起豐富的知識庫。可視化展示層將挖掘出來的知識以直觀的形式展現(xiàn)出來,讓人們更好地理解和應(yīng)用這些知識。
(1)數(shù)據(jù)采集及分析層
收集高校檔案資源的相關(guān)信息,包括檔案資料、文獻、圖片和音視頻等。運用自然語言處理、圖像識別等技術(shù),對文本、圖片等數(shù)據(jù)開展特征分析和提取,將所得信息存儲到知識圖譜中。通過數(shù)據(jù)預(yù)處理和清洗,將數(shù)據(jù)中的冗余信息和錯誤信息去除,保留有效信息。
(2)知識挖掘?qū)?/p>
根據(jù)高校檔案資源的特征,將其構(gòu)建成一個層次結(jié)構(gòu)的知識圖譜,其中各個節(jié)點之間相互關(guān)聯(lián),形成一個完整的檔案知識體系。通過搜索、關(guān)聯(lián)、推理等算法,對知識圖譜中的數(shù)據(jù)進行挖掘和分析,以發(fā)現(xiàn)其中隱含的知識和價值,整合并提升高校檔案資源的利用價值。
(3)可視化展示層
知識圖譜是一種以圖形化方式展示知識體系的工具,它可以將高校檔案資源之間的關(guān)聯(lián)性以圖形化呈現(xiàn),讓用戶直觀地了解這些資源的結(jié)構(gòu)和內(nèi)容。通過將知識圖譜以圖表、列表等形式進行可視化展示,用戶更好地利用和管理這些資源,快速定位所需信息,實現(xiàn)高效地查找和利用。
4.檔案知識圖譜構(gòu)建和應(yīng)用的不足之處
首先,檔案知識圖譜構(gòu)建所涉及的數(shù)據(jù)質(zhì)量問題是制約其應(yīng)用的關(guān)鍵因素。由于檔案信息質(zhì)量的不統(tǒng)一性,在進行知識圖譜構(gòu)建時,數(shù)據(jù)質(zhì)量難以得到保障,影響知識圖譜的應(yīng)用效果;其次,知識圖譜構(gòu)建難度問題。檔案知識圖譜的構(gòu)建涉及多種技術(shù)手段,包括自然語言處理、本體構(gòu)建和數(shù)據(jù)挖掘等領(lǐng)域的知識,以及領(lǐng)域知識與技術(shù)手段的融合。因此,建立一個高質(zhì)量的知識圖譜,需要一支專業(yè)技術(shù)團隊的支持;最后,知識圖譜應(yīng)用的效益問題。檔案知識圖譜的建立需要有明確的應(yīng)用目標和需求,否則只是一種形式化處理,無法實現(xiàn)對檔案資源的有效利用和共享。
五、結(jié)語
針對高校檔案領(lǐng)域的知識發(fā)現(xiàn)和知識圖譜應(yīng)用是一項新興研究,要持續(xù)地探索知識發(fā)現(xiàn)和知識圖譜的優(yōu)勢、共建,以及提高知識體系的利用價值,推動該領(lǐng)域的研究和發(fā)展,彰顯高校檔案資源價值,為社會作出卓越的貢獻。相信隨著人工智能技術(shù)和數(shù)據(jù)科學(xué)研究的不斷深入,高校檔案領(lǐng)域的知識發(fā)現(xiàn)和知識圖譜應(yīng)用必將迎來更大的突破和成就,為未來的發(fā)展打下堅實的基礎(chǔ)。
參考文獻:
[1]鄧 君,王 阮.數(shù)字人文視域下口述歷史檔案資源知識發(fā)現(xiàn)模型構(gòu)建[J].檔案學(xué)研究,2022(01):110-116.
[2]譚 曉,李 輝,許海云.基于多維數(shù)據(jù)知識內(nèi)容和關(guān)聯(lián)深層融合的知識發(fā)現(xiàn)研究綜述[J].科技情報研究,2021(04):58-68.
[3]王曉燕.數(shù)據(jù)挖掘技術(shù)在檔案信息管理中的應(yīng)用[J].蘭臺世界,2012(23):25-26.
[4]梁逸寒.基于實體鏈接的關(guān)聯(lián)知識發(fā)現(xiàn)技術(shù)研究與應(yīng)用[D].電子科技大學(xué),2022.
[5]田 玲,張謹川,張晉豪,周望濤,周 雪.知識圖譜綜述——表示、構(gòu)建、推理與知識超圖理論[J].計算機應(yīng)用,2021(08):2161-2186.
[6]洪 亮,宋 睿,朱麗雅,侯雯君.知識關(guān)聯(lián)視角下的文化遺產(chǎn)知識大圖研究:理論、方法和趨勢[J].圖書情報知識,2022(02):133-143.
[7]鄧 君,王 阮.口述歷史檔案資源知識圖譜與多維知識發(fā)現(xiàn)研究[J].圖書情報工作,2022(07):4-16.
(作者單位:山東建筑大學(xué))