亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        全媒體檔案信息資源語(yǔ)義組織與服務(wù)研究

        2019-03-20 06:06:58任妍龐宇飛荊欣
        檔案管理 2019年2期
        關(guān)鍵詞:大數(shù)據(jù)

        任妍 龐宇飛 荊欣

        摘 要:本文針對(duì)數(shù)據(jù)化時(shí)代檔案信息資源深層次組織、管理與服務(wù)問(wèn)題,提出了全媒體檔案信息資源語(yǔ)義組織與服務(wù)的一般思路,并針對(duì)元數(shù)據(jù)語(yǔ)義轉(zhuǎn)換、檔案數(shù)據(jù)語(yǔ)義分析與表述、語(yǔ)義組織與存儲(chǔ)、語(yǔ)義檢索與服務(wù)以及系統(tǒng)實(shí)現(xiàn)等相關(guān)問(wèn)題進(jìn)行初步探討。

        關(guān)鍵詞:全媒體;大數(shù)據(jù);檔案資源;語(yǔ)義組織;語(yǔ)義服務(wù)

        Abstract: This paper proposed the general idea for semantic organization and service of omni media Archives information resources in the case of problems faced to deep organization, management and service of Archive information resources in the period of big data. A preliminary discussion was made on related issues such as semantic transformation of meta data, semantic analysis and representation of Archive data, semantic organization and storage, semantic retrieval and service, system implementation and so on.

        Keywords: Omni media; Big data; Archive resources; Semantic organization; Semantic service

        1 引言

        數(shù)字化與數(shù)據(jù)化的過(guò)程中,檔案信息資源的載體形態(tài)和載體類(lèi)型越來(lái)越豐富,各類(lèi)文本、圖形、圖像、音頻、視頻、動(dòng)畫(huà)以及各種類(lèi)型的三維建模數(shù)據(jù)不斷涌現(xiàn),大數(shù)據(jù)和人工智能技術(shù)在信息化進(jìn)程中的不斷普及和應(yīng)用也帶來(lái)了檔案工作新的機(jī)遇和挑戰(zhàn)。檔案工作僅僅處于科學(xué)保管和有效利用檔案信息資源層面上,已經(jīng)不能滿足人們對(duì)信息的個(gè)性化、便捷化和人性化等方面的更高需求。人們對(duì)檔案信息資源的需求不局限于瀏覽檔案的原件,更多的是檔案信息內(nèi)容,檔案信息資源的語(yǔ)義組織就顯得極為重要。

        傳統(tǒng)的檔案信息資源組織過(guò)程,一般是根據(jù)檔案信息資源載體類(lèi)型的不同分別進(jìn)行加工和處理。在這種情況下,各類(lèi)信息資源在語(yǔ)義上的相關(guān)度往往是通過(guò)鏈接的形式進(jìn)行描述和處理的,語(yǔ)義上的聚合度不是很高,基于內(nèi)容的檔案信息資源深層次組織、管理與服務(wù)難以開(kāi)展。對(duì)于圖形、圖像等異構(gòu)的檔案全媒體載體形態(tài),單純使用元數(shù)據(jù)描述方式不能滿足檔案信息資源庫(kù)語(yǔ)義組織的要求,需要運(yùn)用模式識(shí)別和語(yǔ)義標(biāo)注等手段,通過(guò)智能代理工具和方法,將這類(lèi)信息進(jìn)行語(yǔ)義組織和存儲(chǔ),共同納入檔案信息資源語(yǔ)義知識(shí)庫(kù)體系[1]。這需要對(duì)全媒體檔案信息資源進(jìn)行語(yǔ)義組織與服務(wù),本文擬在這方面初步研討。

        2 語(yǔ)義組織與服務(wù)基本思路

        全媒體檔案信息資源語(yǔ)義組織與服務(wù)的實(shí)現(xiàn),需要在圖形、圖像、動(dòng)畫(huà)、音頻和視頻類(lèi)數(shù)據(jù)的文本化處理和元數(shù)據(jù)組織基礎(chǔ)上進(jìn)行。非文本數(shù)據(jù)的文本化處理可通過(guò)模式識(shí)別技術(shù)和深度學(xué)習(xí)算法實(shí)現(xiàn),元數(shù)據(jù)組織通過(guò)分詞技術(shù)和自動(dòng)著錄與標(biāo)引技術(shù)實(shí)現(xiàn)。

        本文重點(diǎn)分析元數(shù)據(jù)語(yǔ)義轉(zhuǎn)換、語(yǔ)義識(shí)別、標(biāo)注、表示、描述、存儲(chǔ)、檢索和提供利用等方面的內(nèi)容,即全媒體檔案信息資源語(yǔ)義組織與服務(wù)的基本流程包括元數(shù)據(jù)語(yǔ)義轉(zhuǎn)換、檔案數(shù)據(jù)語(yǔ)義分析與表述、語(yǔ)義組織與存儲(chǔ)、語(yǔ)義檢索與服務(wù)等四個(gè)方面。

        元數(shù)據(jù)語(yǔ)義轉(zhuǎn)換,即利用語(yǔ)義知識(shí)庫(kù)組織檔案信息的內(nèi)容,運(yùn)用檔案語(yǔ)義詞典進(jìn)行檔案元數(shù)據(jù)語(yǔ)義轉(zhuǎn)換。

        語(yǔ)義分析與表述,即運(yùn)用詞法分析技術(shù)進(jìn)行信息內(nèi)容的分詞、詞性標(biāo)注、句法標(biāo)注、語(yǔ)義和語(yǔ)境標(biāo)注。

        語(yǔ)義組織與存儲(chǔ),即通過(guò)存儲(chǔ)節(jié)點(diǎn)控制使檔案信息內(nèi)容按語(yǔ)義關(guān)系進(jìn)行鏈接,按語(yǔ)義關(guān)聯(lián)關(guān)系進(jìn)行組織和存儲(chǔ),形成規(guī)范化的檔案信息內(nèi)容語(yǔ)義網(wǎng)絡(luò)知識(shí)體系。

        語(yǔ)義檢索與服務(wù),即按一定的技術(shù)方法與手段形成檔案信息語(yǔ)義知識(shí)管理服務(wù)體系,提供檔案信息資源語(yǔ)義檢索和智能服務(wù)。

        3 語(yǔ)義組織與服務(wù)一般框架

        3.1 元數(shù)據(jù)語(yǔ)義轉(zhuǎn)換策略。元數(shù)據(jù)語(yǔ)義轉(zhuǎn)換策略是在自動(dòng)著錄和解析的基礎(chǔ)上通過(guò)檔案語(yǔ)義詞典生成檔案信息語(yǔ)義集合的策略。

        元數(shù)據(jù)著錄標(biāo)引。檔案著錄標(biāo)引是按照檔案著錄規(guī)則、中國(guó)檔案主題詞表、中國(guó)檔案分類(lèi)表進(jìn)行的,其中檔案元數(shù)據(jù)主要包括題名、檔號(hào)、檔案館(室)代號(hào)、分類(lèi)號(hào)、主題詞、關(guān)鍵詞、提要、文件號(hào)、責(zé)任者、載體類(lèi)型、載體形態(tài)、保管期限、密級(jí)、文種、稿本、形成時(shí)間、附件、鏈接地址、正文等。元數(shù)據(jù)著錄標(biāo)引在現(xiàn)有的檔案管理信息系統(tǒng)中已經(jīng)具有一定的積累,是生成檔案信息語(yǔ)義集合的數(shù)據(jù)基礎(chǔ)。

        檔案語(yǔ)義詞典的建立。檔案語(yǔ)義詞典可參照國(guó)家檔案局頒布的關(guān)于檔案元數(shù)據(jù)和檔案基本數(shù)據(jù)規(guī)范[2],資源基礎(chǔ)是檔案原生數(shù)據(jù)及其元數(shù)據(jù)集合。《中國(guó)檔案主題詞表》的基本結(jié)構(gòu)分為主表、附表和輔助索引三大部分,包含字順表、范疇索引、詞族索引、主題詞索引等。字順表作為主題詞表的主體,可以通過(guò)詞性分析,進(jìn)行語(yǔ)義關(guān)聯(lián)規(guī)范化組織,建立檔案信息語(yǔ)義分析系統(tǒng)的基本詞匯控制數(shù)據(jù)集合,為檔案信息資源的語(yǔ)義組織和分析提供語(yǔ)義結(jié)構(gòu)標(biāo)準(zhǔn)化和系統(tǒng)化控制基礎(chǔ)[3]。

        語(yǔ)義集合的生成。在語(yǔ)義詞典確定的基礎(chǔ)上,通過(guò)模式識(shí)別等技術(shù)對(duì)全媒體信息源進(jìn)行文本化處理,利用分詞技術(shù)實(shí)現(xiàn)詞匯的提取,進(jìn)而進(jìn)行語(yǔ)義關(guān)聯(lián)分析并生成語(yǔ)義信息集合。

        檔案信息內(nèi)容的文本語(yǔ)義抽取。從檔案的原生數(shù)據(jù)源之中識(shí)別和標(biāo)注相關(guān)信息,并按照一定的標(biāo)準(zhǔn)和規(guī)范對(duì)這些信息進(jìn)行語(yǔ)義化描述,形成語(yǔ)義信息集合。在此基礎(chǔ)上,對(duì)檔案信息資源的內(nèi)容、背景、時(shí)空環(huán)境、載體形態(tài)等進(jìn)行內(nèi)外多維度語(yǔ)義屬性、特征、句法依存等關(guān)聯(lián)分析,形成檔案信息資源語(yǔ)義詞表和句法關(guān)聯(lián)信息集合[4]。

        3.2 語(yǔ)義分析與表述方法。語(yǔ)義分析是運(yùn)用語(yǔ)義區(qū)分量表對(duì)信息內(nèi)容進(jìn)行表述的方法。相對(duì)于關(guān)鍵詞和元數(shù)據(jù),語(yǔ)義分析對(duì)于信息內(nèi)容涉及概念表述更加全面和準(zhǔn)確,所產(chǎn)生的歧義更小,詞語(yǔ)和句法的關(guān)聯(lián)度更強(qiáng)。一般來(lái)講,語(yǔ)義關(guān)聯(lián)關(guān)系是基于上下文的語(yǔ)義之間的同一性、隸屬性、相關(guān)性、間接性、直接性等關(guān)系[5]。

        通用的語(yǔ)義關(guān)聯(lián)分析方法是檔案信息資源語(yǔ)義分析的重要參考。檔案信息資源是各類(lèi)社會(huì)職能活動(dòng)中所產(chǎn)生的原始記錄,每一份檔案材料內(nèi)容都與人們所從事的社會(huì)實(shí)踐活動(dòng)密切相關(guān),都有其相應(yīng)的立檔單位特點(diǎn)、組織和活動(dòng)風(fēng)格、產(chǎn)生的時(shí)代背景、工作性質(zhì)、社會(huì)環(huán)境等,有其特定的語(yǔ)境,以及語(yǔ)義和語(yǔ)境的關(guān)聯(lián)關(guān)系。檔案信息資源與其他數(shù)字資源一樣可以運(yùn)用字串語(yǔ)義、文本語(yǔ)義、圖片語(yǔ)義、音頻語(yǔ)義、視頻語(yǔ)義、語(yǔ)義索引、語(yǔ)義匹配等語(yǔ)義關(guān)聯(lián)分析方法進(jìn)行處理。

        語(yǔ)義分析與表述的基本方法。首先,通過(guò)語(yǔ)義特征分析,進(jìn)行概念標(biāo)注與描述,以明確所涉及的信息內(nèi)容相關(guān)概念以及概念的屬性和相互之間的關(guān)系,通過(guò)對(duì)檔案信息資源多種媒體元素的內(nèi)容屬性分析與標(biāo)注,揭示相互之間的語(yǔ)義關(guān)聯(lián)性;其次,進(jìn)行語(yǔ)義相關(guān)度分析和語(yǔ)義描述,針對(duì)各類(lèi)詞語(yǔ)在檔案信息資源內(nèi)容上下文之間的關(guān)系,通過(guò)一定的模型和算法確定相互之間的語(yǔ)義關(guān)聯(lián)度和相似度并形成檔案信息內(nèi)容語(yǔ)義元素關(guān)聯(lián)網(wǎng)絡(luò)集合[6]。

        3.3 語(yǔ)義組織與存儲(chǔ)技術(shù)。檔案信息內(nèi)容的語(yǔ)義組織包括檔案信息資源內(nèi)容體系和知識(shí)體系的語(yǔ)義關(guān)系組織、詞匯體系與元數(shù)據(jù)體系的映射關(guān)系組織等各個(gè)方面[7]。

        全媒體檔案信息語(yǔ)義組織可以運(yùn)用本體工具對(duì)檔案信息內(nèi)容所涉及的概念以及概念之間的關(guān)系進(jìn)行加工處理,據(jù)此完成檔案信息資源的內(nèi)容、需求的語(yǔ)義組織以及建立兩者之間的語(yǔ)義鏈接。

        語(yǔ)義描述和組織一般使用融合自然語(yǔ)言處理的語(yǔ)義網(wǎng)技術(shù)進(jìn)行標(biāo)注、表示、描述、組織和存儲(chǔ)。目前所使用的語(yǔ)義網(wǎng)技術(shù)包括資源描述框架RDF(Resource Description Framework)、網(wǎng)絡(luò)本體語(yǔ)言O(shè)WL(Web Ontology Language)。RDF使用SPO(Subject Predicate Object)三元組定義語(yǔ)義模型,并通過(guò)類(lèi)、屬性以及關(guān)系形成語(yǔ)義網(wǎng)絡(luò)模型。OWL使用本體(Ontology)定義的語(yǔ)義模型進(jìn)行描述。在此基礎(chǔ)上可以實(shí)現(xiàn)語(yǔ)義抽取、語(yǔ)義表示、語(yǔ)義融合、語(yǔ)義推理、語(yǔ)義檢索等操作。利用Java工具箱Jana,可以支撐RDF與OWL語(yǔ)義網(wǎng)應(yīng)用并利用Apache Jena Fuseki服務(wù)器完成語(yǔ)義網(wǎng)數(shù)據(jù)的存儲(chǔ)與服務(wù)。

        3.4 語(yǔ)義檢索與服務(wù)系統(tǒng)。全媒體檔案信息資源語(yǔ)義組織與服務(wù)系統(tǒng)的基本結(jié)構(gòu)有語(yǔ)義組織層、語(yǔ)義關(guān)聯(lián)層、語(yǔ)義應(yīng)用層等三個(gè)層次。

        語(yǔ)義組織層,對(duì)檔案信息資源的內(nèi)容進(jìn)行語(yǔ)義分析并形成檔案信息資源語(yǔ)義本體結(jié)合;語(yǔ)義關(guān)聯(lián)層,將檔案信息的內(nèi)容進(jìn)行語(yǔ)義化組織并進(jìn)行語(yǔ)義化關(guān)聯(lián),形成語(yǔ)義關(guān)聯(lián)網(wǎng)絡(luò)數(shù)據(jù)集合;語(yǔ)義應(yīng)用層,按照應(yīng)用層的服務(wù)需求,根據(jù)語(yǔ)義關(guān)聯(lián)的檔案信息內(nèi)容,提供語(yǔ)義檢索服務(wù)[8]。

        語(yǔ)義檢索與服務(wù)系統(tǒng)的三層結(jié)構(gòu)包含檔案信息本體數(shù)據(jù)庫(kù)管理機(jī)制、語(yǔ)義本體推理機(jī)制、語(yǔ)義知識(shí)檢索機(jī)制、語(yǔ)義應(yīng)用控制機(jī)制等,通過(guò)系統(tǒng)集成共同構(gòu)成人機(jī)交互的全媒體檔案信息資源語(yǔ)義組織與服務(wù)體系。

        參考文獻(xiàn):

        [1]張倩.語(yǔ)義Web技術(shù)對(duì)高校檔案信息檢索工作的應(yīng)用價(jià)值[J].城建檔案,2018(02):85-87.

        [2]張素萍.基于語(yǔ)義的電子健康檔案信息組織模式[J].醫(yī)學(xué)信息學(xué)雜志,2015,36(09):65-68.

        [3]段榮婷.基于簡(jiǎn)約知識(shí)組織系統(tǒng)的《中國(guó)檔案主題詞表》語(yǔ)義網(wǎng)絡(luò)化應(yīng)用研究[J].檔案學(xué)通訊,2011(02):72-75.

        [4]徐一男,李禾.基于藝術(shù)語(yǔ)義特征抽取的藝術(shù)檔案信息聚合初探[J].圖書(shū)情報(bào)導(dǎo)刊,2017,2(04):52-56.

        [5]呂元智.數(shù)字檔案資源跨媒體語(yǔ)義關(guān)聯(lián)聚合實(shí)現(xiàn)策略研究[J].檔案學(xué)研究,2015(05):60-65.

        [6]石秀春.數(shù)字化檔案信息的語(yǔ)義相似性研究[J].檔案學(xué)研究,2013(02):51-53.

        [7]林周佳.檔案的語(yǔ)義級(jí)檢索技術(shù)研究[J].檔案與建設(shè),2007(09):24-25.

        [8]譚靜.基于語(yǔ)義關(guān)聯(lián)的高校圖書(shū)情報(bào)檔案數(shù)字資源整合研究[J].圖書(shū)館學(xué)刊,2016,38(11):38-40+45.

        (作者單位:任妍,武漢大學(xué)信息管理學(xué)院;龐宇飛、荊欣,鄭州航空工業(yè)管理學(xué)院 來(lái)稿日期:2018-12-20)

        猜你喜歡
        大數(shù)據(jù)
        基于在線教育的大數(shù)據(jù)研究
        “互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
        基于大數(shù)據(jù)的小微電商授信評(píng)估研究
        大數(shù)據(jù)時(shí)代新聞的新變化探究
        商(2016年27期)2016-10-17 06:26:00
        淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
        今傳媒(2016年9期)2016-10-15 23:35:12
        “互聯(lián)網(wǎng)+”對(duì)傳統(tǒng)圖書(shū)出版的影響和推動(dòng)作用
        今傳媒(2016年9期)2016-10-15 22:09:11
        大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        亚洲依依成人亚洲社区| 国产av无码专区亚洲av蜜芽| 国产精品一卡二卡三卡| 亚洲av无码乱观看明星换脸va| 亚洲韩国在线| 综合久久一区二区三区| 亚洲人成在线播放网站| 无码人妻久久一区二区三区不卡| 精品视频999| 综合人妻久久一区二区精品| 免费亚洲老熟熟女熟女熟女| 狠狠综合久久av一区二区| 伊人99re| 免费毛片一区二区三区女同| 成人影院视频在线免费观看| 亚洲一区二区三区最新视频| 亚洲人不卡另类日韩精品| 国产真实乱对白精彩久久老熟妇女| 国内免费AV网站在线观看| 亚洲日本视频一区二区三区| 国产精品高清视亚洲乱码| 亚洲国产欧美日韩欧美特级| 99ri国产在线观看| 蜜桃一区二区三区在线视频| 成人午夜高潮a∨猛片| 成人欧美日韩一区二区三区| 免费啪啪视频一区| 按摩女内射少妇一二三区| 蜜桃传媒一区二区亚洲av婷婷| 天美传媒一区二区| 加勒比精品久久一区二区三区| 国产不卡av一区二区三区| 亚洲av永久无码精品古装片| 无码av天堂一区二区三区| 热久久这里只有| 永久免费看黄在线观看| 久久精品国产字幕高潮| 少妇高潮惨叫久久久久久| 国产亚洲三级在线视频| 中文乱码字幕精品高清国产| 亚洲熟女乱色综合亚洲图片|