亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        安徽師范大學(xué)圖書(shū)館館藏徽州文書(shū)數(shù)據(jù)庫(kù)平臺(tái)建設(shè)研究*

        2023-03-07 02:23:56王毓銘張霞云董家魁劉和文
        圖書(shū)館研究 2023年1期
        關(guān)鍵詞:徽州文書(shū)館藏

        王毓銘,張霞云,董家魁,劉和文

        (安徽師范大學(xué)圖書(shū)館,安徽 蕪湖 241002)

        近年來(lái),館藏特色資源數(shù)據(jù)庫(kù)平臺(tái)建設(shè)成為業(yè)界和學(xué)界的研究熱點(diǎn),國(guó)外如Ball,MJ等通過(guò)學(xué)術(shù)信息管理系統(tǒng)(IAIMS)整合老年醫(yī)學(xué)、高血壓相關(guān)館藏內(nèi)容形成特色資源[1],國(guó)內(nèi)圖書(shū)館特色資源數(shù)據(jù)庫(kù)系統(tǒng)平臺(tái)建設(shè)起步較晚,主要涉及到的技術(shù)包括DIPS、TRS、TPI 等[2]。部分圖書(shū)館利用C/S或B/S 架構(gòu)站點(diǎn)自建特色資源平臺(tái),如:國(guó)家海洋中心使用TRS系統(tǒng)構(gòu)建海洋數(shù)字資源庫(kù)[3];杭州市圖書(shū)館建設(shè)的民國(guó)圖書(shū)、民國(guó)期刊、古籍、家譜、地方文獻(xiàn)等數(shù)據(jù)庫(kù)[4]。現(xiàn)有特色資源數(shù)據(jù)庫(kù)平臺(tái)功能包含混合索引、并行檢索、搜索引擎、主題詞字典、多風(fēng)格多類(lèi)型自定義資源發(fā)布等,最新技術(shù)方案中逐步實(shí)現(xiàn)全文檢索、數(shù)據(jù)挖掘、知識(shí)圖譜等最新功能服務(wù)。而徽州文書(shū)作為特色資源之一,數(shù)量巨大、類(lèi)型豐富,可以充分反映區(qū)域政治經(jīng)濟(jì)、風(fēng)俗民情等社會(huì)形態(tài),各收藏單位相繼建設(shè)了特色數(shù)據(jù)庫(kù),如:安徽大學(xué)“徽州文書(shū)書(shū)目數(shù)據(jù)庫(kù)”(2005 年),黃山學(xué)院“徽州文書(shū)特色文獻(xiàn)數(shù)據(jù)庫(kù)”(2007年),上海交通大學(xué)“中國(guó)地方歷史文獻(xiàn)數(shù)據(jù)庫(kù)”(2015 年),中山大學(xué)“徽州文書(shū)數(shù)據(jù)庫(kù)”(2019年),等等。此外,日本京都大學(xué)的“中國(guó)清代民國(guó)公私文書(shū)”(2003 年)也包含大量徽州文書(shū)資源數(shù)據(jù)。從數(shù)據(jù)庫(kù)類(lèi)型上看,已建設(shè)的各類(lèi)徽州文書(shū)數(shù)據(jù)庫(kù)中,除“中國(guó)地方歷史文獻(xiàn)數(shù)據(jù)庫(kù)”為全文文本數(shù)據(jù)庫(kù)外,其他均為圖像庫(kù)或書(shū)目庫(kù);在運(yùn)行方式上,大多數(shù)已建設(shè)的徽州文書(shū)數(shù)據(jù)庫(kù)并未提供開(kāi)放預(yù)覽,僅廣西師范大學(xué)的“徽州文書(shū)數(shù)據(jù)庫(kù)”等少數(shù)數(shù)據(jù)庫(kù)提供半開(kāi)放資源瀏覽,但數(shù)據(jù)庫(kù)仍需授權(quán)后方可使用。在總結(jié)已建設(shè)圖書(shū)館特色資源數(shù)據(jù)庫(kù)的技術(shù)、管理、服務(wù)經(jīng)驗(yàn)后,充分考慮館藏徽州文書(shū)現(xiàn)狀與保存利用需求,建設(shè)安徽師范大學(xué)圖書(shū)館(以下簡(jiǎn)稱(chēng)我館)館藏徽州文書(shū)特色數(shù)據(jù)庫(kù)平臺(tái)。

        1 館藏徽州文書(shū)管理平臺(tái)建設(shè)方案

        我館館藏徽州文書(shū)近千件八千余頁(yè),涵蓋土地關(guān)系文書(shū)、賦役文書(shū)、商業(yè)文書(shū)、宗族文書(shū)等類(lèi)型,具有整體時(shí)間跨度長(zhǎng)、地域分布廣、歸戶性強(qiáng)、種類(lèi)多樣等特點(diǎn)。我館館藏文書(shū)具有極高價(jià)值,主要體現(xiàn)在:一是善本多,據(jù)統(tǒng)計(jì),近千件徽州文書(shū)中有600 余件為清乾隆以前保存均較為完好的善本,宋、元至明代嘉靖時(shí)期者近200件,迄今國(guó)內(nèi)公布的同時(shí)期的徽州文書(shū)檔案總量?jī)H數(shù)百件;其中《元至正五年二月初九日休寧縣朱右寵賣(mài)山契約》《元至正六年二月十二日陸保黃賣(mài)山契約》更為國(guó)內(nèi)僅存為數(shù)不多的元代徽州文書(shū)。二是孤本多,民間契約往往具有唯一性的特點(diǎn),我館館藏中多為徽州民間契約,且均為孤本。其他的魚(yú)鱗圖冊(cè)、保甲冊(cè)、戶口環(huán)冊(cè)等也為國(guó)內(nèi)僅存的孤本。

        為了加強(qiáng)特色資源的利用,2019 年我館啟動(dòng)館藏徽州文書(shū)資源平臺(tái)建設(shè),平臺(tái)建設(shè)分為徽州文書(shū)數(shù)據(jù)化與數(shù)據(jù)庫(kù)管理平臺(tái)建設(shè)兩個(gè)階段,徽州文書(shū)特色數(shù)據(jù)庫(kù)平臺(tái)建設(shè)流程圖如圖1所示。

        圖1 徽州文書(shū)特色資源數(shù)據(jù)庫(kù)平臺(tái)建設(shè)流程圖

        文書(shū)數(shù)據(jù)化包括元數(shù)據(jù)設(shè)計(jì)與收割、徽州文書(shū)原件掃描、資源數(shù)據(jù)加工、發(fā)布級(jí)文件處理等步驟,主要是對(duì)徽州文書(shū)基礎(chǔ)數(shù)據(jù)、原件掃描圖像、應(yīng)用發(fā)布文件進(jìn)行流式處理。數(shù)據(jù)庫(kù)管理平臺(tái)建設(shè)包括數(shù)據(jù)存取系統(tǒng)建設(shè)、館藏徽州文書(shū)管理平臺(tái)開(kāi)發(fā)、徽州文書(shū)發(fā)布檢索服務(wù)平臺(tái)建設(shè),主要用于徽州文書(shū)元數(shù)據(jù)的存儲(chǔ)、數(shù)據(jù)庫(kù)平臺(tái)管理以及徽州文書(shū)數(shù)據(jù)庫(kù)檢索等。

        2 徽州文書(shū)資源數(shù)據(jù)化

        2.1 徽州文書(shū)元數(shù)據(jù)設(shè)計(jì)

        特色資源的數(shù)據(jù)庫(kù)設(shè)計(jì)需要建立規(guī)范的資源建設(shè)標(biāo)準(zhǔn),確保特色數(shù)字資源建設(shè)長(zhǎng)期穩(wěn)定運(yùn)行[5]。元數(shù)據(jù)設(shè)計(jì)是特色資源數(shù)據(jù)庫(kù)建設(shè)首先要考慮的問(wèn)題,目的在于通過(guò)將不同類(lèi)型特色資源按標(biāo)準(zhǔn)化的采集方案匯聚形成各類(lèi)特色資源元數(shù)據(jù),最終滿足不同用戶對(duì)于各類(lèi)特色資源數(shù)字化和元數(shù)據(jù)采集的不同需求[6]。由于徽州文書(shū)外部特征獨(dú)特,內(nèi)容涉及各個(gè)方面,筆者結(jié)合通用資源的元數(shù)據(jù)設(shè)置,參考圖書(shū)、論文、音視頻、人物等類(lèi)型資源的元數(shù)據(jù)設(shè)置和《民間歷史文獻(xiàn)整理概論》[7],定義了17 個(gè)徽州文書(shū)元數(shù)據(jù)字段(具體如表1 所示)。其中:描述字段包括財(cái)產(chǎn)號(hào)/標(biāo)識(shí)符、題名、尺寸、人物及機(jī)關(guān)團(tuán)體、主題詞/關(guān)鍵詞、實(shí)物形態(tài)、保存狀況、館藏信息、語(yǔ)種、相關(guān)資源等10個(gè);內(nèi)容字段包括時(shí)間、涉事地點(diǎn)、歸戶、譜系、金額、賦役、頁(yè)數(shù)等7 個(gè)。描述性字段與內(nèi)容字段的設(shè)計(jì)在于以標(biāo)識(shí)符、資源文件路徑為主要字段連接資源元數(shù)據(jù)與資源文件,以實(shí)現(xiàn)檢索發(fā)現(xiàn)、分析統(tǒng)計(jì)、資源服務(wù)等功能,充分揭示徽州文書(shū)的內(nèi)容特征和形式特征。

        表1 特色資源通用平臺(tái)元數(shù)據(jù)字段設(shè)置

        2.2 館藏徽州文書(shū)掃描

        資源數(shù)字化是特色資源庫(kù)建設(shè)的基礎(chǔ)工作,針對(duì)數(shù)據(jù)庫(kù)平臺(tái)的功能要求和文書(shū)的品相,徽州文書(shū)數(shù)字化采取拍攝式掃描和資源收割的方式。數(shù)字化資源的圖像質(zhì)量具體要求定為:300DPI(像素密度),24 位色彩色階和JPEG/JPEG2000(壓縮方式)。為保證后期校正處理和使用服務(wù)時(shí)的色彩準(zhǔn)確性,在每一份文書(shū)掃描后添加專(zhuān)用色卡拍攝圖。

        由于文書(shū)的品相不同,在數(shù)字化加工過(guò)程中,針對(duì)文書(shū)頁(yè)面褶皺、殘缺、破損等現(xiàn)實(shí)情況,事先做了修復(fù)處理,在數(shù)字化過(guò)程中專(zhuān)門(mén)標(biāo)注。

        針對(duì)大開(kāi)本的文書(shū),采取圖片裁剪和分頁(yè)的形式來(lái)處理,保證每件文書(shū)數(shù)字化資源“一圖一頁(yè)”,清晰完整。

        2.3 徽州文書(shū)數(shù)據(jù)化加工

        數(shù)據(jù)化加工是將徽州文書(shū)掃描件轉(zhuǎn)化至用戶可用資源文件的主要步驟,包括對(duì)資源文件加工、元數(shù)據(jù)關(guān)聯(lián)和補(bǔ)全。考慮可用資源在傳輸速率和使用效果兩個(gè)維度的切實(shí)矛盾,資源加工的要素主要為資源文件版式、容量、DPI、分辨率。在數(shù)據(jù)化加工流程中:首先,對(duì)每件資源進(jìn)行“一圖一頁(yè)”的統(tǒng)一版式、一致的壓縮分辨率和DPI控制處理,在可清晰辨識(shí)內(nèi)容基礎(chǔ)上,容量限制在200 KB 至1 MB 之間,以同時(shí)滿足讀者瀏覽資源時(shí)對(duì)加載效率和使用體驗(yàn)的要求。其次,將徽州文書(shū)加工資源進(jìn)行元數(shù)據(jù)關(guān)聯(lián)匹配,最終形成文書(shū)資源散件727份,多頁(yè)或成冊(cè)文書(shū)203份,總計(jì)8 809頁(yè)。最后,針對(duì)發(fā)布應(yīng)用的實(shí)際使用場(chǎng)景和用戶資源需求,在完成元數(shù)據(jù)補(bǔ)充基礎(chǔ)上,進(jìn)行整體和獨(dú)立分頁(yè)的發(fā)布應(yīng)用級(jí)數(shù)字對(duì)象生成,包括PDF 資源文件、基于都柏林核心集字段的元數(shù)據(jù)描述文件、目錄結(jié)構(gòu)信息文件、資源封裝信息文件和資源原件圖像。

        此外,由于存在魚(yú)鱗圖冊(cè)、保甲冊(cè)、戶口環(huán)冊(cè)等類(lèi)型的成冊(cè)文書(shū)資源,需按古籍文獻(xiàn)規(guī)范要求對(duì)頁(yè)面布局、放大率、默認(rèn)打開(kāi)頁(yè)等項(xiàng)進(jìn)行配置,并添加導(dǎo)覽標(biāo)簽,便于讀者用戶對(duì)此類(lèi)文書(shū)資源的高效使用。

        3 徽州文書(shū)資源庫(kù)平臺(tái)建設(shè)

        我館館藏徽州文書(shū)資源庫(kù)平臺(tái)的建設(shè)是以規(guī)范化、通用性為建設(shè)指導(dǎo)原則,以數(shù)據(jù)存取子系統(tǒng)、徽州文書(shū)管理平臺(tái)、檢索服務(wù)子系統(tǒng)為節(jié)點(diǎn),完成對(duì)徽州文書(shū)的歸類(lèi)、元數(shù)據(jù)著錄、整理、數(shù)字化掃描、資源加工和加工成品發(fā)布的整體工作流程。

        3.1 數(shù)據(jù)存取子系統(tǒng)

        在館藏徽州文書(shū)管理平臺(tái)系統(tǒng)中,需要進(jìn)行數(shù)據(jù)資源存儲(chǔ)的包括徽州文書(shū)元數(shù)據(jù)、資源原始數(shù)據(jù)和加工數(shù)據(jù)。其中,元數(shù)據(jù)存儲(chǔ)于結(jié)構(gòu)化數(shù)據(jù)庫(kù)中,資源原始數(shù)據(jù)和加工數(shù)字對(duì)象存儲(chǔ)于文件存儲(chǔ)系統(tǒng)中。

        徽州文書(shū)元數(shù)據(jù)在建設(shè)過(guò)程中使用MySQL+Redis 數(shù)據(jù)庫(kù)的混用方案。MySQL 數(shù)據(jù)庫(kù)作為結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn),Redis 作為內(nèi)存緩存存儲(chǔ)系統(tǒng),對(duì)資源集數(shù)據(jù)進(jìn)行同步并向前端服務(wù)提供高速數(shù)據(jù)讀取服務(wù)?;谝陨霞軜?gòu),形成管理平臺(tái)和發(fā)布檢索服務(wù)在元數(shù)據(jù)使用層面的讀寫(xiě)分離數(shù)據(jù)存取方案。在數(shù)字對(duì)象與資源文件存儲(chǔ)方面,子系統(tǒng)使用mofileFS分布式文件存儲(chǔ)方案,利用其適用于海量小文件的特性,充分滿足大量容量為1 MB至10 MB大小的徽州文書(shū)數(shù)字化對(duì)象文件的高效存取需求。

        基于以上數(shù)據(jù)存取子系統(tǒng)建設(shè),為館藏徽州文書(shū)管理平臺(tái)提供完整的數(shù)據(jù)、文件讀寫(xiě)底層方案,進(jìn)而完成館藏徽州文書(shū)管理平臺(tái)的功能和服務(wù)開(kāi)發(fā)。

        3.2 徽州文書(shū)管理平臺(tái)

        徽州文書(shū)管理平臺(tái)和發(fā)布檢索服務(wù)使用ThinkPHP5.1+Vue.js的開(kāi)發(fā)框架進(jìn)行前后端分離,前后端通過(guò)鑒權(quán)與業(yè)務(wù)API 通信實(shí)現(xiàn)數(shù)據(jù)流通,平臺(tái)以功能模塊化的思路進(jìn)行開(kāi)發(fā)建設(shè),結(jié)合徽州文書(shū)掃描和數(shù)據(jù)化加工過(guò)程中的具體流程節(jié)點(diǎn),整體設(shè)計(jì)為6個(gè)主要模塊,分別是管理控制、資源數(shù)據(jù)上傳、資源加工管理、數(shù)據(jù)標(biāo)引管理、數(shù)據(jù)集管理、發(fā)布管理,平臺(tái)的一、二級(jí)功能模塊如圖2所示。

        圖2 圖書(shū)館特色資源通用平臺(tái)架構(gòu)設(shè)計(jì)

        3.2.1 平臺(tái)管理

        管理控制模塊對(duì)館藏徽州文書(shū)平臺(tái)的非業(yè)務(wù)操作和功能進(jìn)行整體管理,模塊建設(shè)以RBAC 模型(Role-Based Access Control:基于角色的訪問(wèn)控制)進(jìn)行開(kāi)發(fā)建設(shè),使得平臺(tái)具有高自由度、可持續(xù)優(yōu)化更新等優(yōu)勢(shì),具體功能包括管理員管理、菜單管理、權(quán)限管理和日志統(tǒng)計(jì)。管理員以自身角色所擁有的菜單和功能訪問(wèn)權(quán)限對(duì)平臺(tái)系統(tǒng)進(jìn)行管理,平臺(tái)建設(shè)完成后通過(guò)限制管理員賬號(hào)對(duì)平臺(tái)管理進(jìn)行管控,后續(xù)的功能更新和優(yōu)化可基于菜單管理和權(quán)限管理模塊進(jìn)行自定義配置。

        3.2.2 數(shù)據(jù)加工管理

        數(shù)據(jù)加工流程在平臺(tái)中由資源數(shù)據(jù)上傳模塊、資源加工管理模塊和數(shù)據(jù)標(biāo)引管理模塊組成。

        首先,資源數(shù)據(jù)上傳模塊包含標(biāo)準(zhǔn)管理、元數(shù)據(jù)管理、文件管理、數(shù)據(jù)關(guān)聯(lián)子模塊。標(biāo)準(zhǔn)管理模塊在本平臺(tái)中僅額外添加有徽州文書(shū)類(lèi)型字段標(biāo)準(zhǔn),作為元數(shù)據(jù)管理中徽州文書(shū)元數(shù)據(jù)導(dǎo)入的字段標(biāo)準(zhǔn)。標(biāo)準(zhǔn)管理模塊在通用平臺(tái)中設(shè)計(jì)對(duì)更多類(lèi)型的資源導(dǎo)入預(yù)處理;元數(shù)據(jù)管理和文件管理分別向徽州文書(shū)元數(shù)據(jù)和掃描圖片提供入庫(kù)、管理功能,完成入庫(kù)后可通過(guò)數(shù)據(jù)關(guān)聯(lián)子模塊以特定識(shí)別字段進(jìn)行元數(shù)據(jù)與資源文件的關(guān)聯(lián)操作,完成數(shù)據(jù)初始導(dǎo)入。

        其次,資源加工管理模塊則主要對(duì)導(dǎo)入掃描圖片的進(jìn)一步加工,包括圖像裁剪、圖片分頁(yè)、圖像壓縮等。此外,在通用平臺(tái)框架中該模塊還設(shè)計(jì)有文本OCR提取、音視頻處理、壓縮轉(zhuǎn)碼等功能模塊。

        最后,數(shù)據(jù)標(biāo)引模塊管理主要進(jìn)行徽州文書(shū)元數(shù)據(jù)字段的補(bǔ)充標(biāo)目,包括基于切詞匹配、年代轉(zhuǎn)化等的自動(dòng)標(biāo)目過(guò)程和面向圖書(shū)館處理人員的手動(dòng)標(biāo)目模塊。標(biāo)目過(guò)程需符合對(duì)應(yīng)標(biāo)目規(guī)則子模塊中預(yù)設(shè)的內(nèi)容,包括可標(biāo)目字段,字段類(lèi)型范圍等。

        3.2.3 數(shù)據(jù)集發(fā)布管理

        發(fā)布管理模塊實(shí)現(xiàn)對(duì)徽州文書(shū)發(fā)布檢索服務(wù)的管理,包括發(fā)布審核、檢索設(shè)置和可視化配置。在功能上,發(fā)布審核子模塊完成對(duì)發(fā)布字段、發(fā)布資源內(nèi)容、發(fā)布資源描述信息等內(nèi)容的審核;檢索設(shè)置實(shí)現(xiàn)對(duì)資源關(guān)聯(lián)數(shù)據(jù)表、統(tǒng)一檢索模式和高級(jí)檢索字段與數(shù)據(jù)表字段對(duì)應(yīng)關(guān)系進(jìn)行配置;可視化配置子模塊提供對(duì)資源集檢索服務(wù)的可視化展示方式進(jìn)行配置選擇。

        3.3 徽州文書(shū)檢索服務(wù)子系統(tǒng)

        檢索服務(wù)子系統(tǒng)是對(duì)館藏徽州文書(shū)資源加工數(shù)據(jù)的應(yīng)用。子系統(tǒng)由Vue.js 框架搭建,通過(guò)后端鑒權(quán)API 實(shí)現(xiàn)數(shù)據(jù)通信。服務(wù)以徽州文書(shū)資源檢索發(fā)現(xiàn)為核心,通過(guò)欄目分類(lèi)、檢索發(fā)現(xiàn)、排序篩選和關(guān)聯(lián)推薦實(shí)現(xiàn)對(duì)資源的多維度揭示。檢索過(guò)程主要使用元數(shù)據(jù)中的題名、人物、主題詞/關(guān)鍵詞、館藏信息、相關(guān)資源、時(shí)間、地點(diǎn)、頁(yè)數(shù)字段等字段,通過(guò)統(tǒng)一檢索、高級(jí)檢索、結(jié)果集二級(jí)檢索、關(guān)聯(lián)推薦等揭示、發(fā)現(xiàn)方式,進(jìn)一步提升用戶使用檢索服務(wù)的效率和體驗(yàn)。資源詳情頁(yè)面提供資源明細(xì)瀏覽、資源分享下載、自定義批注等功能,充分滿足用戶資源使用需求。同時(shí),以開(kāi)放眾包的服務(wù)理念進(jìn)一步通過(guò)用戶瀏覽批注行為,完善館藏徽州文書(shū)資源服務(wù)內(nèi)容。

        4 徽州文書(shū)資源數(shù)據(jù)庫(kù)功能特色

        我館徽州文書(shū)資源庫(kù)平臺(tái)的建設(shè),除了具備存儲(chǔ)和檢索服務(wù)功能外,還形成具備量化分析和一定數(shù)字人文研究能力的特色。相較于現(xiàn)有其他徽州文書(shū)數(shù)據(jù)庫(kù),本平臺(tái)特色主要聚焦:技術(shù)層面對(duì)數(shù)據(jù)管理規(guī)范化;內(nèi)容層面融入數(shù)字人文思想,構(gòu)建資源知識(shí)點(diǎn)并引入檢索發(fā)現(xiàn)服務(wù);服務(wù)層面更多體現(xiàn)在共建共享機(jī)制和多維檢索發(fā)現(xiàn)服務(wù)中。

        4.1 完善數(shù)據(jù)管理維護(hù)機(jī)制

        特色資源建設(shè)是一個(gè)長(zhǎng)期的過(guò)程,完善資源數(shù)據(jù)管理機(jī)制應(yīng)該融入整個(gè)工作流程中。館藏徽州文書(shū)數(shù)據(jù)庫(kù)對(duì)元數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)采集、文件上傳、資源加工、資源數(shù)據(jù)化、發(fā)布文件處理全流程進(jìn)行有效管理,明確數(shù)據(jù)加工、存儲(chǔ)、傳輸、備份環(huán)節(jié)的維護(hù)細(xì)節(jié)。

        具體包括:(1)數(shù)據(jù)庫(kù)系統(tǒng)的性能優(yōu)化和數(shù)據(jù)安全保障。平臺(tái)結(jié)構(gòu)化數(shù)據(jù)通過(guò)MySQL + Redis的數(shù)據(jù)庫(kù)方案進(jìn)行讀寫(xiě),數(shù)據(jù)加工管理與資源數(shù)據(jù)服務(wù)實(shí)現(xiàn)讀寫(xiě)分離,提高使用服務(wù)中資源加工數(shù)據(jù)傳輸效率,控制數(shù)據(jù)庫(kù)寫(xiě)入渠道入口,提升數(shù)據(jù)安全保障。(2)數(shù)據(jù)流中任一環(huán)節(jié)可追溯機(jī)制,管理平臺(tái)前后端分離,模塊化功能通過(guò)鑒權(quán)API獲取使用數(shù)據(jù),簡(jiǎn)化內(nèi)部數(shù)據(jù)流,便于追溯資源數(shù)據(jù)化過(guò)程的任一環(huán)節(jié),降低數(shù)據(jù)維護(hù)難度,提升數(shù)據(jù)更新效率。(3)資源數(shù)據(jù)流式處理。在現(xiàn)有徽州文書(shū)資源采集加工發(fā)布流程下,對(duì)于數(shù)據(jù)可進(jìn)行流式處理,以現(xiàn)有930 件(8 809 頁(yè))館藏徽州文書(shū)為例,自數(shù)據(jù)入庫(kù)、加工直至發(fā)布級(jí)文件生成并更新至檢索系統(tǒng),全部流程可控制在60-90分鐘。

        4.2 構(gòu)建知識(shí)點(diǎn)發(fā)現(xiàn)索引

        平臺(tái)數(shù)據(jù)標(biāo)引管理中開(kāi)發(fā)有知識(shí)點(diǎn)半自動(dòng)標(biāo)引模塊,以節(jié)點(diǎn)名稱(chēng)、類(lèi)型、上級(jí)節(jié)點(diǎn)、關(guān)聯(lián)詞字段自動(dòng)構(gòu)建知識(shí)點(diǎn)數(shù)據(jù),在經(jīng)由人工審核修正后,知識(shí)點(diǎn)按關(guān)聯(lián)關(guān)系組建多維度多層級(jí)的知識(shí)點(diǎn)網(wǎng)絡(luò),在檢索服務(wù)中提升優(yōu)化數(shù)據(jù)發(fā)現(xiàn)和關(guān)聯(lián)資源推薦的有效性。以圖3為例,在平臺(tái)徽州文書(shū)資源中,與“稅”相關(guān)的文書(shū)類(lèi)型通過(guò)知識(shí)點(diǎn)網(wǎng)絡(luò)可直接提取為稅契、稅銀、稅課、稅單、收稅匯票、推稅匯票、歸戶票。聚焦到“地稅”類(lèi)型,提取包含14份散件資源,可進(jìn)一步按朝代、年份、地域、類(lèi)型等進(jìn)行進(jìn)一步關(guān)聯(lián)、細(xì)分。此類(lèi)關(guān)聯(lián)數(shù)據(jù)的形成可用于后續(xù)檢索發(fā)現(xiàn)和資源推薦服務(wù),幫助用戶在尋求相關(guān)資源時(shí)可自行快速獲取更多關(guān)聯(lián)研究?jī)?nèi)容。

        圖3 徽州文書(shū)數(shù)據(jù)“稅”相關(guān)類(lèi)型與地稅數(shù)據(jù)知識(shí)節(jié)點(diǎn)提取

        4.3 實(shí)現(xiàn)徽州文書(shū)數(shù)據(jù)共建共享

        特色數(shù)據(jù)庫(kù)建設(shè)往往需要耗費(fèi)大量人力物力,而圖書(shū)館也面臨資源有限、經(jīng)費(fèi)匱乏的現(xiàn)狀[8]。因此,合理的共建共享機(jī)制將直接影響資源共建、機(jī)構(gòu)合作。在本平臺(tái)徽州文書(shū)資源的共建共享機(jī)制上共設(shè)計(jì)有3層獨(dú)立方案,包括數(shù)據(jù)庫(kù)層面元數(shù)據(jù)字段標(biāo)準(zhǔn)化、接口層面鑒權(quán)API 數(shù)據(jù)共享、服務(wù)層面資源授權(quán)下載,以多層次的數(shù)據(jù)共建共享,充分保障資源的通用性和專(zhuān)業(yè)性。

        數(shù)據(jù)庫(kù)層面元數(shù)據(jù)字段標(biāo)準(zhǔn)化,平臺(tái)在分析徽州文書(shū)特征基礎(chǔ)上定義了其元數(shù)據(jù)的17 種字段,其中充分考慮兼容都柏林核心集(Dublin Core Element Set)元素字段,保證與其他類(lèi)型數(shù)據(jù)庫(kù)的兼容性,提供數(shù)據(jù)共建共享的底層標(biāo)準(zhǔn)基礎(chǔ)。

        接口層面鑒權(quán)API數(shù)據(jù)共享,API是元數(shù)據(jù)標(biāo)準(zhǔn)可解析后數(shù)據(jù)實(shí)現(xiàn)同步獲取的主要途徑之一,平臺(tái)API 可通過(guò)請(qǐng)求令牌信息識(shí)別訪問(wèn)者身份實(shí)現(xiàn)數(shù)據(jù)通信,對(duì)平臺(tái)合作機(jī)構(gòu)可提供全面且可定制化的數(shù)據(jù)支持。

        服務(wù)層面資源授權(quán)下載,平臺(tái)支持授權(quán)個(gè)人用戶按權(quán)限導(dǎo)出資源字段標(biāo)準(zhǔn)、資源發(fā)布文件和原始文件,通過(guò)基于合作平臺(tái)的用戶互認(rèn)等機(jī)制,即可擴(kuò)大平臺(tái)間用戶群體,在用戶層面實(shí)現(xiàn)資源共享。

        4.4 資源高效多維度檢索發(fā)現(xiàn)體系

        徽州文書(shū)資源庫(kù)平臺(tái)資源發(fā)現(xiàn)通過(guò)多維度多渠道的方式,降低平臺(tái)資源發(fā)現(xiàn)難度(具體見(jiàn)圖4所示)。具體服務(wù)中以自主檢索、復(fù)合檢索、多維篩選、關(guān)聯(lián)推薦等形式組合,通過(guò)多個(gè)入口提取命中資源數(shù)據(jù),增加服務(wù)廣度;結(jié)合資源主題詞、類(lèi)型、年代、地域等特征信息,便于簡(jiǎn)化數(shù)據(jù)字段索引設(shè)置,提升數(shù)據(jù)提取效率,提升發(fā)現(xiàn)深度;遵從主題詞匹配優(yōu)先并使用瀏覽量、資源評(píng)分等參數(shù)的混合排序規(guī)則,優(yōu)化展示排序。最終實(shí)現(xiàn)從元數(shù)據(jù)、分析數(shù)據(jù)、知識(shí)點(diǎn)關(guān)聯(lián)數(shù)據(jù)等多個(gè)維度完成資源數(shù)據(jù)的整體發(fā)現(xiàn),實(shí)現(xiàn)用戶對(duì)所需資源的高效準(zhǔn)確定位和發(fā)現(xiàn)。

        圖4 徽州文書(shū)檢索服務(wù)頁(yè)面

        5 結(jié)語(yǔ)

        徽州文書(shū)資源庫(kù)平臺(tái)實(shí)現(xiàn)對(duì)我館徽州文書(shū)資源的數(shù)字化存儲(chǔ)、管理和檢索功能,初步建設(shè)徽州文書(shū)知識(shí)圖譜和資源推薦系統(tǒng)。在建設(shè)過(guò)程和試用過(guò)程中,筆者對(duì)徽州文書(shū)資源庫(kù)平臺(tái)擬定了進(jìn)一步完善平臺(tái)通用性功能的完善方向。同時(shí),在知識(shí)圖譜構(gòu)建和檢索發(fā)現(xiàn)上進(jìn)一步挖掘資源內(nèi)容中的人、物、事節(jié)點(diǎn),進(jìn)而組建更完善的語(yǔ)義網(wǎng),使資源使用者尤其是研究學(xué)者可以更好地進(jìn)行內(nèi)容發(fā)現(xiàn)、挖掘和分析。但還存在加工過(guò)程遵從以專(zhuān)用元數(shù)據(jù)標(biāo)準(zhǔn)處理收割數(shù)據(jù)資源、以發(fā)布應(yīng)用文件規(guī)范對(duì)資源加工進(jìn)行各維度閾值限制、平臺(tái)資源加工僅支持人工輸入構(gòu)建全文數(shù)據(jù)等不足,在數(shù)字人文理論與技術(shù)發(fā)展的當(dāng)下,這也是本平臺(tái)后續(xù)發(fā)展需要重點(diǎn)攻克的內(nèi)容。

        猜你喜歡
        徽州文書(shū)館藏
        館藏
        高山仰止處 幽密跌宕地——徽州大峽谷
        中老年保健(2022年5期)2022-08-24 02:36:38
        太行山文書(shū)精品選(17)
        徽州春雪
        江淮法治(2022年3期)2022-03-16 06:54:26
        監(jiān)獄執(zhí)法文書(shū)規(guī)范探討
        徽州綠蔭
        博物館的生存之道:館藏能否變賣(mài)?
        黑水城出土《宋西北邊境軍政文書(shū)》中“砲”類(lèi)文書(shū)再討論
        西夏學(xué)(2019年1期)2019-02-10 06:22:40
        知還印館藏印選——古印篇
        溪邊橋下,春里徽州
        火花(2016年7期)2016-02-27 07:45:42
        免费国产裸体美女视频全黄| 男子把美女裙子脱了摸她内裤| 鲁丝一区鲁丝二区鲁丝三区| 美女扒开内裤露黑毛无遮挡| 亚洲一区二区三区免费av| 国产v综合v亚洲欧美大天堂| 无码啪啪人妻| 亚洲中文字幕一区二区在线| 中文字幕隔壁人妻欲求不满| 无码人妻精品一区二区三区蜜桃| 欧美国产综合欧美视频| 亚洲免费网站观看视频| 欧美白人最猛性xxxxx| 99久久99久久久精品久久| 18禁国产美女白浆在线| 中文片内射在线视频播放| 久久精品国产亚洲av蜜点| 国产成人小视频| 亚洲欧美日韩在线一区| 亚洲色成人WWW永久在线观看| 无码视频一区二区三区在线播放| 免费高清视频在线观看视频| 精品不卡视频在线网址| 国产精品黑丝美女啪啪啪| 亚洲欧美牲交| 性夜影院爽黄a爽在线看香蕉| 亚洲AV无码精品色欲av| 中文字幕乱码av在线| 亚洲中文字幕乱码在线观看| 一个少妇的淫片免费看| 日本一本之道高清不卡免费| 疯狂做受xxxx高潮欧美日本| 国产aⅴ夜夜欢一区二区三区| 中文字幕乱码人妻无码久久久1| 国产小车还是日产的好| 国产日产高清一区二区三区| 久久久精品国产性黑人| 国产女主播白浆在线观看| 久久久久亚洲av无码专区桃色| 丝袜国产高跟亚洲精品91| 免费国人成人自拍视频|