亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于本體的檔案知識共享服務(wù)模式構(gòu)建＊

2022-02-19 13:24:40李海平李京林

甘肅科技 2022年24期

馬強，李海平，李京林，徐濤△

（1.西北民族大學(xué)，甘肅蘭州 730030；2.甘肅省檔案館，甘肅蘭州 730010）

1 引言

2020年底，全國檔案局長館長會議上明確提出“要加快推進檔案信息化戰(zhàn)略轉(zhuǎn)型，切實保障信息化建設(shè)的前瞻性、針對性、實效性，進一步加強頂層設(shè)計，大力完善基礎(chǔ)設(shè)施，加強標(biāo)準規(guī)范建設(shè)，積極推動互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)、人工智能、區(qū)塊鏈技術(shù)和檔案工作的深度融合，加快檔案信息資源共享服務(wù)平臺建設(shè)，拓展檔案工作數(shù)字化、網(wǎng)絡(luò)化、智能化的應(yīng)用場景?！?/p>

在這種發(fā)展要求下，將新一代信息技術(shù)和檔案信息化工作相結(jié)合，對于研究檔案領(lǐng)域智能化、個性化的知識共享服務(wù)已經(jīng)有了一定進展。黃雪梅和黃永勤[1]從體系結(jié)構(gòu)、業(yè)務(wù)模式等幾個方面，進一步闡明檔案知識業(yè)務(wù)系統(tǒng)的規(guī)劃設(shè)計和使用理念；呂元智[2]從用戶實際利用檔案服務(wù)行為的不同視角出發(fā)，分析與設(shè)計檔案管理知識服務(wù)信息系統(tǒng)框架；在分析國內(nèi)外關(guān)于區(qū)塊鏈技術(shù)建立電子檔案管理系統(tǒng)的研究和實踐的基礎(chǔ)上，左晉佺和張曉娟[3]又提出了采用“聯(lián)盟+公眾”雙區(qū)塊鏈技術(shù)的電子文檔系統(tǒng)；張斌等[4]提出了如何構(gòu)建基于檔案館的大型知識庫，從而向廣大用戶實時提供知識集成服務(wù)。

傳統(tǒng)檔案館的知識服務(wù)管理系統(tǒng)通過收集用戶信息，并提供單一的檢索、瀏覽服務(wù)機制，存在檔案資源利用率低、針對性弱、異構(gòu)化資源難以實時共享等主要缺陷[5]。為此，通過利用本體技術(shù)關(guān)聯(lián)自然語言處理、知識圖譜等知識構(gòu)建檔案知識庫，使檔案信息資源結(jié)構(gòu)化、語義化和知識化，再融合用戶偏好特征，以準確獲取、動態(tài)更新用戶檔案需求，從而強化用戶使用檔案的獲得感和滿足感。本文將從檔案本體構(gòu)建出發(fā)，闡述人工智能技術(shù)在檔案知識共享服務(wù)中使用的主要方法和技術(shù)，從而為提高檔案用戶體驗和優(yōu)化服務(wù)效果提供參考。

2 基于本體的檔案知識共享服務(wù)

1.1 基于本體的檔案知識共享服務(wù)

構(gòu)建檔案領(lǐng)域本體前提下，通過信息技術(shù)和人工智能技術(shù)支撐構(gòu)建檔案知識庫[6]，結(jié)合不同用戶在數(shù)據(jù)查詢時的行為和興趣愛好信息，構(gòu)建并實時更新用戶興趣行為模型，全面描述用戶興趣特征及個性化需求，智能拓展與滿足用戶潛在相關(guān)知識需求，從而可以有效地實現(xiàn)協(xié)同管理客戶的資源,從而提升客戶服務(wù)、服務(wù)質(zhì)量的全過程[7]。與傳統(tǒng)檔案信息服務(wù)的對比見表1。

表1 基于本體的檔案知識共享服務(wù)與傳統(tǒng)檔案知識服務(wù)對比

1.2 檔案知識共享服務(wù)模式框架與核心內(nèi)容

基于檔案本體的知識共享服務(wù)模式核心內(nèi)容有核心技術(shù)、用戶興趣與行為建模、知識庫管理、知識服務(wù)機制和知識應(yīng)用。建設(shè)框架如圖1所示。

圖1 建設(shè)框架

2 基于本體的檔案知識共享服務(wù)核心內(nèi)容研究

2.1 核心技術(shù)

2.1.1 本體技術(shù)

本體是用來定義如何組成某個“領(lǐng)域”的一個詞匯表及其中的具體術(shù)語與其詞的關(guān)系，并用來明確定義一個詞匯的列表及其外延的基本規(guī)則。本體知識是相關(guān)概念的一種結(jié)構(gòu)化知識規(guī)范和表現(xiàn)形式，可以直接形成對某一領(lǐng)域相關(guān)概念的知識共享和共同性的理解，完成知識資源共享和性能重用[8]。

本體語義描述語言是一種具有良好的描述語法和基本語義，以及具備一定表達能力的形式化描述語言。OWL是一種描述標(biāo)準本體類型的語言，它具備很強的語義表達能力，有利于領(lǐng)域本體的資源描述和構(gòu)建，更有助于資源的整合與共享。

領(lǐng)域本體的復(fù)合構(gòu)造設(shè)計技術(shù)有很多種，國內(nèi)主流是斯坦福大學(xué)醫(yī)學(xué)院研究的七步法[8]，適合于各個領(lǐng)域自然本體的復(fù)合構(gòu)造。本文借鑒七步法，重點考慮以檔案主題詞內(nèi)容為依據(jù)建立檔案的本體。詳細步驟如圖2所示。

圖2 檔案領(lǐng)域本體構(gòu)建過程

2.1.2 自然語言處理

自然語言處理技術(shù)（NLP）是溝通機器語言與人類自然語言的主要橋梁，是一種以快速實現(xiàn)各類人機交互為主要目的信息技術(shù)[9]。NLP有兩大類核心的內(nèi)容：自然語言理解和自然語言生成，包括核心步驟，如分詞、詞性標(biāo)注、起名實體識別等。

分詞是通過把包含詞語、句子、文字等信息的資料,分解成以詞為基本單元的結(jié)構(gòu),方便人們進行資料的后續(xù)管理以及資料操作的管理。

詞性標(biāo)注是在任何已給出的句子中，得出每個詞的語法范圍，確定其詞性，并對其詞進行定義標(biāo)注，在自然語言處理中也是一項非常重要的基礎(chǔ)性任務(wù)[10]。

命名實體識別(NER)是指在自然文本中識別各種實體所指稱的特定界限和語義類別，包括人名、地名、機構(gòu)名稱、專有名詞等。在分析檔案的信息時,可對文檔信息中的信息進行訓(xùn)練與整合,便于文檔知識庫中各種實體的特殊語義關(guān)系的填充[10]。比較經(jīng)典的深度學(xué)習(xí)模型有BERT+BiLSTM+CRF。

2.1.3 知識圖譜

知識圖譜是基于Google為加強其搜索引擎知識性能而設(shè)計的知識庫，其實質(zhì)是用來準確描述處于客觀世界的各個概念語義實體以及各概念實體之間的客觀關(guān)系的大型概念語義知識網(wǎng)絡(luò)，是指以實體概念為節(jié)點，以客觀關(guān)系為邊，由三元組結(jié)構(gòu)構(gòu)成的一種以實體視角看待世界客觀關(guān)系的結(jié)構(gòu)。三元組是由實體、屬性或特殊屬性值和關(guān)系所形成，圖3是一種簡易社交網(wǎng)絡(luò)圖譜。

圖3 社交網(wǎng)絡(luò)圖譜

知識圖譜的整體構(gòu)建包括邏輯架構(gòu)和知識管理架構(gòu)，分為知識模式層和建立數(shù)據(jù)層，其中數(shù)據(jù)層由一系列知識事實數(shù)據(jù)構(gòu)成，新知識將管理存儲在以這些事實為單位的基礎(chǔ)之上。知識模式層是建立本體數(shù)據(jù)庫規(guī)范其在數(shù)據(jù)層的一系列知識事實和表達[11]；知識管理架構(gòu)指的是建立模型架構(gòu)，知識圖譜大多采用自底向上的構(gòu)造法。

知識圖譜的關(guān)鍵技術(shù)[12]主要有知識表示抽取、知識形式表示、知識融合和知識邏輯推理，其中知識表示抽取指的是抽取知識中實體、關(guān)系與屬性等事實性的表達形式；知識形式表示指的是通過三元組準確地表達知識中的實體、關(guān)系與屬性之間的復(fù)雜語義聯(lián)系；知識融合指的是同一框架規(guī)范下對異構(gòu)數(shù)據(jù)信息進行整合、消歧等綜合處理操作的過程；知識邏輯推理指的是進一步解析推理和發(fā)掘隱藏的相關(guān)知識，從而擴充可用知識庫[13]。

2.2 用戶興趣行為與建模

用戶興趣行為建模是從用戶注冊的基本信息和瀏覽、檢索等歷史瀏覽活動中分析和建立用戶興趣模型的重要步驟,力求準確、全面地描述用戶的個性化知識要求,建模過程可以細分為用戶模型表示、模型初始值優(yōu)化和用戶模型更新。

2.2.1 用戶模型表示

通過本體語義概念層次結(jié)構(gòu)、語義邏輯推理以及功能語義分析用戶個性潛在需求，將其中自然語言邏輯關(guān)系轉(zhuǎn)換為用戶本體語義概念間邏輯關(guān)系，滿足用戶個性潛在需求并及時發(fā)現(xiàn)其潛在興趣，實現(xiàn)滿足用戶興趣的語義抽象化、結(jié)構(gòu)化語義表示與信息存儲[14]。

2.2.2 用戶興趣模型初始化

興趣采集內(nèi)容為用戶個性化信息，有主要信息，如姓名、性別、年齡等；網(wǎng)頁瀏覽、檢索、訪問歷史、評價等行為記錄信息，通過深挖，摸清用戶的需求，構(gòu)成用戶特征行為數(shù)據(jù)庫。利用數(shù)據(jù)挖掘、自然語言處理等技術(shù)，將用戶利用行為信息進行分類，總結(jié)不同用戶的行為偏好與行為模式、習(xí)慣等的相互變化，構(gòu)建基于不同用戶需求的用戶行為管理知識庫。圖4為用戶興趣模型搭建過程。

圖4 用戶興趣模型構(gòu)建流程

2.2.3 用戶興趣模型更新

根據(jù)用戶使用歷史與興趣愛好變化，動態(tài)改善與修正用戶興趣模型，以長期反映用戶個性化需求。

2.3 知識服務(wù)機制

基于檔案領(lǐng)域本體的檔案知識服務(wù)過程如圖5所示。首先,利用概念推理方法提取文件信息,建立結(jié)構(gòu)化的文檔數(shù)據(jù)庫。其次,通過提取用戶的興趣愛好、行為特點,并存入檔案用戶行為本體庫,從而形成了語義的檔案用戶興趣愛好行為模式[14]。然后，通過檔案知識的處理與分析及成果的呈現(xiàn),制定服務(wù)策略與處理檢索結(jié)果，生成用戶個性化信息檢索、推薦信息列表及相關(guān)知識語義鏈接等展示給用戶。最后，對檔案用戶的反饋信息進行動態(tài)收集，對檔案本體庫和用戶興趣行為模型進行更新。

圖5 檔案知識服務(wù)機制

2.4 知識庫管理

分為知識抽取、表示、存儲及更新，主要管理用戶興趣資源、檔案知識以及服務(wù)檔案用戶過程中產(chǎn)生的新知識。

2.4.1 知識抽取

從各種異構(gòu)檔案數(shù)據(jù)源中分別抽取檔案實體、特定檔案實體關(guān)系以及實體屬性等結(jié)構(gòu)化數(shù)據(jù)信息。對檔案實體的識別提取，可以轉(zhuǎn)化成標(biāo)號順序的問題，常用的方法有深度循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合條件隨機場（CRF）[15]；提取特定檔案實體關(guān)系常用的是根據(jù)訓(xùn)練數(shù)據(jù)分析設(shè)計有效的關(guān)系特征值，根據(jù)監(jiān)督提取方法學(xué)習(xí)各種分類問題模型的方法；實體屬性的提取主要是從不同的檔案信息來源中，對具體的檔案實體進行屬性信息的采集，一般情況下等同于實體關(guān)系抽取問題。

2.4.2 知識表示

由于檔案實體擁有各種各樣的屬性關(guān)系，因此可以用檔案實體、檔案實體關(guān)系的屬性圖來表示知識。除了數(shù)據(jù)屬性圖之外，這里主要介紹用資源信息描述框架（RDF）來進行知識的表示，主要特點是數(shù)據(jù)易于獨立發(fā)布和實時分享各類數(shù)據(jù)，通過兩個實體的關(guān)系鏈接而形成一個有向的數(shù)據(jù)網(wǎng)絡(luò)。見表2和圖6所示。

表2 三元組表

圖6 三元組有向圖

2.4.3 知識存儲

把各種關(guān)系信息保存到數(shù)據(jù)庫系統(tǒng)中，以實體-關(guān)系-實體或?qū)嶓w-屬性-值的三元組形式為信息的主要表達方式，從而形成了一種強大的實體關(guān)聯(lián)語義網(wǎng)絡(luò)。由于檔案知識關(guān)系結(jié)構(gòu)復(fù)雜，主要使用Neo4J圖數(shù)據(jù)庫（如圖7），還可以使用MySQL關(guān)系型數(shù)據(jù)庫等。

圖7 圖數(shù)據(jù)庫表示多家公司之間關(guān)系

2.4.4 知識更新

知識的自動更新主要包括新增數(shù)據(jù)后將新的概念添加到本體庫中，在充分考慮現(xiàn)有數(shù)據(jù)源的安全可靠性、數(shù)據(jù)的一致性等因素，實體、關(guān)系和屬性值均有新增或更新。

2.5 知識應(yīng)用

根據(jù)不同檔案用戶個性化需求行為，可以主動提供專業(yè)知識資源問答、知識資源推薦和專業(yè)知識資源檢索等各類服務(wù)。

2.5.1 知識問答

利用本體語義表示與邏輯推理能力有效回答用戶問題，首先進行本體預(yù)處理，明確用戶提問意圖；然后匹配檔案知識庫中相似度高的知識，若成功則自動返回測試結(jié)果，否則自動刪除匹配用戶關(guān)聯(lián)的數(shù)據(jù)并及時更新反饋用戶意見[15-16]。

2.5.2 知識推薦

根據(jù)相應(yīng)用戶興趣愛好和訪問歷史，準確地預(yù)測其潛在用戶需求，通過系統(tǒng)檢索收集檔案知識庫中符合相應(yīng)用戶潛在需求的檔案知識，經(jīng)系統(tǒng)分類、排序后以適當(dāng)方式對其進行用戶推薦。

2.5.3 知識檢索

利用本體的綜合邏輯推理與語義表示理解能力，分別處理多個檢索查詢請求，實現(xiàn)語義表示理解與邏輯拓展，并對檢索結(jié)果進行語義匹配、排序及數(shù)據(jù)顯示，從而大大提升檔案數(shù)據(jù)的知識利用率。

3 結(jié)語

文章概述了基于本體的檔案知識服務(wù)核心內(nèi)容，主要從內(nèi)涵、主要技術(shù)、用戶興趣模型構(gòu)建、知識服務(wù)過程、知識管理與應(yīng)用5方面介紹了檔案知識服務(wù)模式過程。此外，檔案信息化資源、利用、安全體系建設(shè)全面推進，檔案信息化戰(zhàn)略轉(zhuǎn)型不斷深化，也成為新時期檔案科技與信息化建設(shè)的重點。