亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        檔案文本結(jié)構(gòu)化:概念、原理與路徑

        2019-12-17 11:42:39趙生輝西藏民族大學(xué)管理學(xué)院
        浙江檔案 2019年12期
        關(guān)鍵詞:結(jié)構(gòu)化語(yǔ)義框架

        趙生輝/西藏民族大學(xué)管理學(xué)院

        胡 瑩/云南大學(xué)歷史與檔案學(xué)院

        我國(guó)檔案信息化范式正在由“檔案數(shù)字化”升級(jí)為“檔案數(shù)據(jù)化”[1][2]。在電子文件或檔案數(shù)字化成果的基礎(chǔ)上,對(duì)文本信息進(jìn)行結(jié)構(gòu)化描述和標(biāo)注,使采用自然語(yǔ)言表述的檔案信息在供用戶閱讀和利用的同時(shí),具有被計(jì)算機(jī)自動(dòng)分析和處理的潛力。深入分析檔案文本結(jié)構(gòu)化的概念內(nèi)涵、技術(shù)原理與實(shí)踐路徑,對(duì)于檔案數(shù)據(jù)化工程的戰(zhàn)略規(guī)劃具有重要參考價(jià)值。

        1 檔案文本結(jié)構(gòu)化的概念界定

        “檔案文本結(jié)構(gòu)化(Archival Text Structuring)”是指參照某種結(jié)構(gòu)化模型,將表示檔案內(nèi)容的文字符號(hào)序列轉(zhuǎn)換為計(jì)算機(jī)可以高速、精準(zhǔn)處理的數(shù)據(jù)形式。檔案文本結(jié)構(gòu)化的過(guò)程也是檔案數(shù)據(jù)化加工的過(guò)程,其結(jié)果是產(chǎn)生計(jì)算機(jī)可以高速處理的檔案文本數(shù)據(jù)。在數(shù)字化環(huán)境下,文本的內(nèi)容與顯示具有相對(duì)可分離性,檔案文本結(jié)構(gòu)化只關(guān)注文本的語(yǔ)義信息,與文本的字體、字號(hào)、顏色等顯示屬性無(wú)關(guān)?!皺n案文本結(jié)構(gòu)化”體現(xiàn)了“面向人工(Human Oriented)”與“面向機(jī)器(Machine Oriented)”兩種應(yīng)用需求的沖突與平衡:一方面,檔案文本需要人的閱讀才能被理解,應(yīng)該采用人工易于理解的自然語(yǔ)言文本進(jìn)行社會(huì)信息的記錄與描述;另一方面,大數(shù)據(jù)和人工智能時(shí)代的檔案管理需要充分考慮計(jì)算機(jī)的高速自動(dòng)分析需求,盡可能采取某種便于計(jì)算機(jī)處理的邏輯結(jié)構(gòu)進(jìn)行存儲(chǔ)和管理。檔案文本結(jié)構(gòu)化是對(duì)上述兩種應(yīng)用需求的平衡,其成果是檔案和數(shù)據(jù)兩種屬性的集合體。它既是以結(jié)構(gòu)化數(shù)據(jù)形態(tài)存在的檔案文本,也是內(nèi)容信息具有檔案價(jià)值的電子數(shù)據(jù);既可以像其他類型的檔案一樣提供閱讀和利用,也可以支持計(jì)算機(jī)自動(dòng)操作和分析,為用戶提供更為精細(xì)化和智能化的檔案信息服務(wù)。

        2 檔案文本結(jié)構(gòu)化的技術(shù)原理

        檔案文本結(jié)構(gòu)化以現(xiàn)代認(rèn)知語(yǔ)言學(xué)當(dāng)中的框架語(yǔ)義學(xué)(Frame Semantics)理論為指導(dǎo),致力于在多種基礎(chǔ)資源的支撐下,實(shí)現(xiàn)檔案文本符號(hào)序列的層級(jí)化、顆?;驼Z(yǔ)義化。

        2.1 理論基礎(chǔ)

        “框架理論”是美國(guó)麻省理工學(xué)院人工智能實(shí)驗(yàn)室的馬文·明斯基(Marvin Minsky)于1975年提出的一種認(rèn)知學(xué)說(shuō),基本觀點(diǎn)包括:框架(Frame)指存儲(chǔ)在人的大腦當(dāng)中與典型情境相關(guān)的基本知識(shí)結(jié)構(gòu),是基于以前記憶的“知識(shí)空框”,限定認(rèn)知范疇的大致結(jié)構(gòu),具體內(nèi)容需要根據(jù)不同的認(rèn)知情境進(jìn)行填充、修改或更新[3]。根據(jù)框架理論,人們?cè)陂喿x檔案時(shí)之所以可以快速理解文本的含義,是因?yàn)榇竽X中已經(jīng)存儲(chǔ)了關(guān)于同類文檔的認(rèn)知框架,熟知認(rèn)知框架的人可以將某個(gè)文字符號(hào)與其代表的語(yǔ)義信息聯(lián)系起來(lái),快速完成對(duì)文本內(nèi)容的結(jié)構(gòu)化解析。要讓計(jì)算機(jī)具備簡(jiǎn)單的閱讀和理解檔案文本的能力,就要把人閱讀檔案文本時(shí)的所依賴的認(rèn)證框架提供給計(jì)算機(jī),即構(gòu)建特定領(lǐng)域檔案的語(yǔ)義框架庫(kù)。因此,檔案文本結(jié)構(gòu)化的基本思路是將人類有關(guān)特定領(lǐng)域檔案文本邏輯結(jié)構(gòu)的知識(shí)予以“外化”,形成可供參照的領(lǐng)域檔案語(yǔ)義框架庫(kù);在此基礎(chǔ)上,參照特定認(rèn)知框架,在檔案文本適當(dāng)位置嵌入結(jié)構(gòu)或語(yǔ)義標(biāo)記,將人對(duì)文本結(jié)構(gòu)的理解轉(zhuǎn)換成為計(jì)算機(jī)可以識(shí)別、共享和處理的形式。

        2.2 基礎(chǔ)資源

        語(yǔ)義框架(Semantic Frame)可分為上層和終端層兩部分。上層是對(duì)語(yǔ)義要素相互關(guān)系的層級(jí)化描述,終端層由一系列的語(yǔ)義槽(Semantic Slots)[4]組成,需要用具體的實(shí)例或者數(shù)據(jù)來(lái)填充才能描述事物的特征。語(yǔ)義框架主要通過(guò)對(duì)框架元素(Frame Elements)和詞元(Lexical Unit)兩種對(duì)象的結(jié)構(gòu)化描述來(lái)表達(dá),框架元素只有被某個(gè)具體的詞元所表征時(shí)才能被用戶理解。因此,檔案文本結(jié)構(gòu)化涉及的基礎(chǔ)資源主要包括“語(yǔ)義框架庫(kù)”和“詞元本體庫(kù)”兩大類型,需要按照“面向領(lǐng)域、需求驅(qū)動(dòng)”的原則,采用人工與機(jī)器相結(jié)合的方式,經(jīng)過(guò)不斷修正和完善進(jìn)行構(gòu)建。領(lǐng)域檔案語(yǔ)義框架庫(kù)旨在構(gòu)建、集成和保存特定檔案管理領(lǐng)域絕各類常見檔案的語(yǔ)義框架,為檔案文本的語(yǔ)義標(biāo)注提供邏輯參照體系。作為框架語(yǔ)義槽的填充要素,詞元在框架當(dāng)中發(fā)揮了非常重要的作用,同一主題類型的檔案文本的差異性主要是通過(guò)詞元的差異性來(lái)體現(xiàn)的。為提高檔案信息服務(wù)的智能化程度,可以對(duì)特定領(lǐng)域詞元背后的語(yǔ)義關(guān)系進(jìn)行梳理,明確各相關(guān)概念之間的語(yǔ)義關(guān)系,構(gòu)建領(lǐng)域本體知識(shí)庫(kù),作為檔案文本結(jié)構(gòu)化的基礎(chǔ)資源。建設(shè)特定領(lǐng)域詞元本體知識(shí)庫(kù)的目的,是將語(yǔ)義框架要素可能的取值限定在可控的范圍之內(nèi),明確各類詞元之間的語(yǔ)義關(guān)系,為基于本體的語(yǔ)義推理和查詢擴(kuò)展提供支持。

        2.3 技術(shù)路線

        第一,文本層級(jí)化細(xì)分?!拔谋緦蛹?jí)化”是對(duì)檔案文本的宏觀結(jié)構(gòu)逐層細(xì)化的過(guò)程,每深入一層,原本作為整體存在的文本或者模塊就被劃分成為若干個(gè)更小的模塊。通常情況下,切分的粒度越小,涉及的工作量就越大,檔案文本當(dāng)中嵌入的標(biāo)記符號(hào)就越多,文本結(jié)構(gòu)就越復(fù)雜。上述邏輯結(jié)構(gòu)可以用XML提供的文檔對(duì)象模型(Document Object Model,DOM)來(lái)表示和處理[5]。DOM用根節(jié)點(diǎn)表示整個(gè)XML文件,每個(gè)XML標(biāo)簽是一個(gè)元素節(jié)點(diǎn)(nodes),多個(gè)節(jié)點(diǎn)構(gòu)成樹狀的層級(jí)結(jié)構(gòu)[6]。檔案文本采用DOM進(jìn)行標(biāo)注和表示時(shí),就可以通過(guò)訪問(wèn)DOM屬性和方法完成相關(guān)數(shù)據(jù)操作。

        第二,信息顆粒化映射?!靶畔㈩w?;笔侵笇n案文本當(dāng)中所蘊(yùn)含的各類細(xì)粒度語(yǔ)義要素轉(zhuǎn)換為數(shù)據(jù)形式的過(guò)程。例如某檔案題名為《深圳市人民政府關(guān)于加強(qiáng)檔案工作的指導(dǎo)意見》,可以將其轉(zhuǎn)換為三個(gè)等價(jià)數(shù)據(jù)表達(dá)式:“發(fā)文機(jī)關(guān)=深圳市人民政府”“主題=加強(qiáng)檔案工作”“文種=意見(下行)”[7]。檔案類型具有多樣性,有的檔案要素轉(zhuǎn)換為數(shù)據(jù)形式之后語(yǔ)義信息并沒(méi)有任何損失,而檔案當(dāng)中的大多數(shù)自然語(yǔ)言文本段落無(wú)法全部轉(zhuǎn)換為數(shù)據(jù)形式,只能參照語(yǔ)義框架,抽取其中較為重要的關(guān)鍵信息進(jìn)行轉(zhuǎn)換,轉(zhuǎn)換的結(jié)果是形成自然語(yǔ)言文本段落的核心語(yǔ)義數(shù)據(jù)集,兩者并不能完全等價(jià)。為了體現(xiàn)這種并非嚴(yán)格意義上的對(duì)應(yīng)關(guān)系,本文將檔案文本信息顆?;庸しQ為“數(shù)據(jù)映射(Data Mapping)”,即用結(jié)構(gòu)化數(shù)據(jù)來(lái)表達(dá)的各類檔案文本的核心語(yǔ)義信息,兩者可以等價(jià)也可以不等價(jià)。

        第三,詞元語(yǔ)義化關(guān)聯(lián)。詞元的語(yǔ)義關(guān)聯(lián)涉及兩個(gè)層面的問(wèn)題:第一,詞元的自然語(yǔ)言文字符號(hào)與檔案整體的關(guān)系;第二,詞元的自然語(yǔ)言文字符號(hào)與外部世界的關(guān)系。第一個(gè)問(wèn)題主要通過(guò)語(yǔ)義框架的結(jié)構(gòu)要素標(biāo)記來(lái)解決,例如標(biāo)記〈發(fā)文機(jī)關(guān)〉國(guó)務(wù)院〈/發(fā)文機(jī)關(guān)〉的含義就是某文書檔案的制發(fā)機(jī)關(guān)是國(guó)務(wù)院,計(jì)算機(jī)可以通過(guò)〈發(fā)文機(jī)關(guān)〉標(biāo)記明確公文的制發(fā)者。第二個(gè)問(wèn)題主要通過(guò)基于本體的詞元語(yǔ)義標(biāo)注來(lái)解決。參考領(lǐng)域本體知識(shí)庫(kù),對(duì)檔案詞元文本進(jìn)行語(yǔ)義標(biāo)注的意義在于,添加了語(yǔ)義標(biāo)記之后,計(jì)算機(jī)就能準(zhǔn)確理解該詞元文字符號(hào)所指代的外部世界的實(shí)體對(duì)象,從而可以調(diào)動(dòng)與該實(shí)體相關(guān)聯(lián)的各類知識(shí),通過(guò)語(yǔ)義推理方法,更好地完成檔案管理領(lǐng)域的復(fù)雜性、智能化檢索任務(wù)。

        3 檔案文本結(jié)構(gòu)化的實(shí)踐路徑

        根據(jù)檔案管理部門介入的時(shí)間點(diǎn)和介入方式的不同,檔案文本結(jié)構(gòu)化工程可以分為“后端結(jié)構(gòu)化”“前端結(jié)構(gòu)化”“云端結(jié)構(gòu)化”三種實(shí)踐路徑。

        3.1 后端結(jié)構(gòu)化:檔案數(shù)據(jù)化加工

        檔案文本的后端結(jié)構(gòu)化,指在紙質(zhì)檔案數(shù)字化掃描成果的基礎(chǔ)上進(jìn)行深度開發(fā),通過(guò)對(duì)檔案圖像進(jìn)行文字識(shí)別和語(yǔ)義標(biāo)注,將檔案文本轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),便于計(jì)算機(jī)自動(dòng)分析和處理。檔案文本結(jié)構(gòu)化是對(duì)檔案數(shù)字化加工的延續(xù),數(shù)字化階段編制完成的檔案元數(shù)據(jù)依然有效,其檢索不限于針對(duì)檔案整體的粗粒度檢索,還包括深入到檔案文本的細(xì)粒度內(nèi)容檢索,可以支持更為復(fù)雜的語(yǔ)義推理和擴(kuò)展查詢。檔案文本數(shù)據(jù)化成果并非天然具有法律效力,只有嚴(yán)格規(guī)范數(shù)字化掃描、文字識(shí)別、語(yǔ)義標(biāo)注、信息抽取等環(huán)節(jié),才能最大限度地減少檔案語(yǔ)義信息在加工過(guò)程中出現(xiàn)損失和失真的可能性??紤]到信息抽取環(huán)節(jié)無(wú)法做到語(yǔ)義數(shù)據(jù)與源文本完全等價(jià),因此在檔案智能服務(wù)過(guò)程中,要慎重使用計(jì)算機(jī)系統(tǒng)經(jīng)過(guò)自動(dòng)分析提供的結(jié)果,必要時(shí)要調(diào)閱檔案圖像進(jìn)行確認(rèn)與核對(duì)。

        3.2 前端結(jié)構(gòu)化:檔案受限生成

        檔案文本前端結(jié)構(gòu)化,是指檔案管理部門需要對(duì)檔案形成過(guò)程進(jìn)行前端控制,使電子文件在最初生成時(shí)就符合結(jié)構(gòu)化管理的各項(xiàng)要求,以便于計(jì)算機(jī)處理的數(shù)據(jù)形態(tài)存在。具體而言,檔案管理部門需要通過(guò)制定相應(yīng)的標(biāo)準(zhǔn)規(guī)范,使業(yè)務(wù)部門在業(yè)務(wù)系統(tǒng)設(shè)計(jì)或者更新?lián)Q代時(shí),充分考慮檔案數(shù)據(jù)化處理的需求,在文本中嵌入規(guī)范化的檔案結(jié)構(gòu)標(biāo)記和詞元語(yǔ)義標(biāo)記,使電子文件可以在供人工閱讀的同時(shí),按照便于計(jì)算機(jī)處理的數(shù)據(jù)形式進(jìn)行保存。上述過(guò)程中,電子文件產(chǎn)生者不能自由編輯文本,而是在電子文件管理系統(tǒng)中,按照給定的語(yǔ)義框架模板,錄入覆蓋到所有核心語(yǔ)義框架要素的詞元序列,最終由計(jì)算機(jī)自動(dòng)生成結(jié)構(gòu)化的檔案文本,本文將這種模式稱為“檔案受限生成”。按照受限模板生成的檔案數(shù)據(jù)本身就具有憑證效力,在業(yè)務(wù)系統(tǒng)中可以驅(qū)動(dòng)業(yè)務(wù)流程的進(jìn)行,在司法活動(dòng)中可以作為證據(jù)使用。通過(guò)受限模板生成的電子檔案可以有多種呈現(xiàn)的方式,既可以與框架顯示模板文件相匹配生成規(guī)定版式的文檔,也可以靈活調(diào)用其中的某些框架要素組合成多種多樣的視圖,在不需要顯示時(shí)也可以保存在文檔數(shù)據(jù)庫(kù)或者關(guān)系型數(shù)據(jù)庫(kù)當(dāng)中,供計(jì)算機(jī)程序調(diào)用和分析[8]。

        3.3 云端結(jié)構(gòu)化:檔案數(shù)據(jù)化外包

        檔案文本結(jié)構(gòu)化所涉技術(shù)更為復(fù)雜,尤其是檔案語(yǔ)義框架庫(kù)和詞元本體知識(shí)庫(kù)的構(gòu)建需要大量領(lǐng)域?qū)I(yè)知識(shí)和數(shù)據(jù)科學(xué)知識(shí)支撐,在業(yè)務(wù)機(jī)構(gòu)現(xiàn)有人力資源和技術(shù)條件不具備時(shí),也可以考慮通過(guò)檔案數(shù)據(jù)化工程外包的方式來(lái)實(shí)現(xiàn),以提高工作效率和專業(yè)化程度。檔案文本云端結(jié)構(gòu)化是指社會(huì)組織不再自行開發(fā)檔案數(shù)據(jù)化系統(tǒng),而是借助專業(yè)的檔案信息化服務(wù)商提供的云計(jì)算平臺(tái),由檔案數(shù)據(jù)服務(wù)商在系統(tǒng)后臺(tái)完成檔案數(shù)據(jù)化加工的過(guò)程[9]。云端結(jié)構(gòu)化路徑可以保持與現(xiàn)有辦公系統(tǒng)的良好銜接,業(yè)務(wù)機(jī)構(gòu)將檔案掃描圖像或者非結(jié)構(gòu)化電子文件提交給數(shù)據(jù)服務(wù)商,由數(shù)據(jù)服務(wù)商依托云端的檔案框架庫(kù)和詞元本體庫(kù)等基礎(chǔ)資源完成映射和標(biāo)注,經(jīng)過(guò)驗(yàn)收保存回業(yè)務(wù)機(jī)構(gòu)的檔案文本數(shù)據(jù)庫(kù),供檔案智能檢索系統(tǒng)和其他應(yīng)用系統(tǒng)調(diào)用。

        猜你喜歡
        結(jié)構(gòu)化語(yǔ)義框架
        框架
        促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
        廣義框架的不相交性
        結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
        語(yǔ)言與語(yǔ)義
        WTO框架下
        法大研究生(2017年1期)2017-04-10 08:55:06
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        一種基于OpenStack的云應(yīng)用開發(fā)框架
        基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
        認(rèn)知范疇模糊與語(yǔ)義模糊
        欧美成人秋霞久久aa片| 国产丝袜高跟美腿一区在线| 日韩亚洲国产中文字幕| 中文字幕一区二区中文| 国产成人精品久久综合| 国产午夜成人久久无码一区二区 | 最新福利姬在线视频国产观看| 中文字幕在线乱码日本| 国产国语亲子伦亲子| 131美女爱做视频| 国产成人精品三上悠亚久久| 午夜视频在线观看国产| 99久久无色码中文字幕人妻蜜柚| 久久久精品人妻一区二区三区蜜桃 | 波多野结衣久久精品99e| 无码夜色一区二区三区| 无码AV无码免费一区二区| 中国亚洲av第一精品| 少妇饥渴xxhd麻豆xxhd骆驼| 成在线人视频免费视频| 亚洲综合精品一区二区| 美女mm131爽爽爽| 亚洲欧洲精品成人久久曰影片| 国产亚洲精品不卡在线| 午夜视频一区二区三区四区| 久久不见久久见免费影院| 中文字幕 人妻熟女| 亚洲精品无人区一区二区三区| 亚洲美女毛多水多免费视频| 亚洲裸男gv网站| 亚洲av日韩aⅴ无码电影| 国产亚洲精品综合一区二区| 无码人妻精品中文字幕| 97午夜理论片在线影院| 亚洲AV日韩AV高潮喷潮无码| 日本女优激情四射中文字幕 | 日本边添边摸边做边爱的网站| 91精品91久久久久久| 国产精品老熟女乱一区二区| 香港台湾经典三级a视频| 久久99热精品这里久久精品|