亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

中國(guó)少數(shù)民族語言語義電子文件初探★

2017-06-05 09:32:52趙生輝

云南檔案 2017年5期

■趙生輝

■趙生輝

本文參照語義網(wǎng)思想，提出了“中國(guó)少數(shù)民族語言語義電子文件”的概念，構(gòu)建了少數(shù)民族語言語義電子文件的邏輯模型，分析了作為核心技術(shù)的多民族語言通用語義本體模型的構(gòu)建原理，并對(duì)這一領(lǐng)域需要關(guān)注的重點(diǎn)研究方向進(jìn)行了梳理。

電子文件管理少數(shù)民族語言語義網(wǎng) 跨語言信息檢索

中國(guó)是統(tǒng)一的多民族國(guó)家，多語言、多文字是民族地區(qū)社會(huì)生活的基本特征。一般認(rèn)為，除了全國(guó)通用的漢語普通話和規(guī)范漢字之外，目前全國(guó)正在使用的少數(shù)民族語言在80種以上，正在使用的少數(shù)民族文字在30種左右[1]。近年來，伴隨著少數(shù)民族語言文字信息處理技術(shù)的快速發(fā)展，以蒙古文、藏文、哈薩克文、柯爾克孜文、朝鮮文、狀文、彝文等為代表的少數(shù)民族語言字處理軟件、辦公自動(dòng)化系統(tǒng)、編輯出版系統(tǒng)、廣告照排系統(tǒng)、節(jié)目制作系統(tǒng)等開始在民族地區(qū)的政府機(jī)關(guān)、企事業(yè)單位和社會(huì)生活中得到應(yīng)用，一大批少數(shù)民族語言文字網(wǎng)站相繼開通[2]。與此同時(shí)，如何應(yīng)對(duì)語言文字多樣性帶來的挑戰(zhàn)，穩(wěn)妥、科學(xué)、有效地管理隨之產(chǎn)生的少數(shù)民族語言電子文件，已成為民族地區(qū)檔案管理工作迫切需要研究和解決的問題。

一、概念提出

中國(guó)少數(shù)民族語言電子文件（Electronic Records in Minority Languages of China）是核心內(nèi)容以我國(guó)境內(nèi)現(xiàn)存的或者曾經(jīng)存在過的少數(shù)民族語言文字或語音符號(hào)作為信息記錄形式的電子文件[3]。與國(guó)家通用語言文字電子文件相比，少數(shù)民族語言電子文件的管理需求具有諸多特殊性，其中最為顯著的就是“異構(gòu)性（heterogeneous）”特征?！爱悩?gòu)性”是信息工程學(xué)術(shù)語，是指信息系統(tǒng)各組成要素之間的差異性。少數(shù)民族語言電子文件的“異構(gòu)性”可分為“編碼異構(gòu)性（Coding heterogeneous）”、“邏輯異構(gòu)性 (Logic heterogeneous)”和“語義異構(gòu)性(Semantic heterogeneous)”三個(gè)方面?！熬幋a異構(gòu)性”是指由不同語言文字底層代碼之間的沖突而出現(xiàn)的不可兼容的現(xiàn)象。例如，我國(guó)政府自上個(gè)世紀(jì)80年代起陸續(xù)制定并頒布了使用人口較多的幾種少數(shù)民族語言文字字符集編碼國(guó)家標(biāo)準(zhǔn)，當(dāng)時(shí)主要考慮單機(jī)版的應(yīng)用需求，因而所使用的編碼空間是重合的。采用上述國(guó)家標(biāo)準(zhǔn)的少數(shù)語言字信息處理系統(tǒng)產(chǎn)生的不同語種的少數(shù)民族語言電子文件在同一系統(tǒng)讀取時(shí)就會(huì)出現(xiàn)代碼沖突或亂碼現(xiàn)象。目前，這一問題可以通過包括多種語言文字的中文統(tǒng)一編碼體系GB18030、GB13000或國(guó)際統(tǒng)一編碼體系Unicode得以解決?！斑壿嫯悩?gòu)性”是指不同來源的電子文件在邏輯結(jié)構(gòu)上可能是千差萬別的，要進(jìn)行信息共享必須進(jìn)行特定的加工處理，使之可以實(shí)現(xiàn)互操作。目前，在基于XML的元數(shù)據(jù)結(jié)構(gòu)自定義技術(shù)的支持下，邏輯異構(gòu)電子文件的整合問題已經(jīng)得到部分解決。

與“編碼異構(gòu)性”和“邏輯異構(gòu)性”相比，最難解決的是語義層面上的異構(gòu)性問題?！罢Z義異構(gòu)性”是指由于語言文字本身的差異性所造成的用戶閱讀和理解障礙，即通常意義上的“語言鴻溝（Language Divide）”。在傳統(tǒng)電子文件管理模式下，計(jì)算機(jī)和網(wǎng)絡(luò)充當(dāng)信息傳遞的媒介，只負(fù)責(zé)產(chǎn)生、保存和傳遞電子文件，其中蘊(yùn)含語義信息必須依靠人的閱讀和理解完成。如果用戶沒有掌握某特定語種少數(shù)民族語言文字，即使該語種電子文件記錄的內(nèi)容非常重要，也不能被該用戶所理解和利用。作為統(tǒng)一的多民族國(guó)家，我國(guó)民族地區(qū)特殊的信息生態(tài)決定了少數(shù)民族語言電子文件應(yīng)用的“非孤立性”。在民族地區(qū)社會(huì)生活當(dāng)中，國(guó)家通用語言文字和少數(shù)民族語言文字同時(shí)發(fā)揮著重要作用，以其中一種作為信息記錄符號(hào)的時(shí)候，同時(shí)要考慮不能識(shí)讀這一文字的其他社會(huì)群體的閱讀需求。由于人類語言系統(tǒng)的復(fù)雜性，“語義異構(gòu)性”的消除還面臨巨大障礙，很多技術(shù)難題短期內(nèi)難以攻克，但是采取可能的措施降低語義異構(gòu)性帶來的溝通障礙，已成為少數(shù)民族語言電子文件管理的核心需求，語義電子文件（Semantic Electronic Records）正是在上述背景下提出的。

“語義電子文件”是語義網(wǎng)（Semantic Web）思想在電子文件管理領(lǐng)域的應(yīng)用。語義網(wǎng)是萬維網(wǎng)創(chuàng)始人蒂姆·伯納斯 -李（Tim Berners-Lee）1998年提出的概念，其核心思想是通過給萬維網(wǎng)上的各類文檔添加語義標(biāo)記，從而使計(jì)算機(jī)能夠“理解”互聯(lián)網(wǎng)的內(nèi)容。語義網(wǎng)要求數(shù)據(jù)及其參照統(tǒng)一規(guī)范產(chǎn)生的語義信息同期創(chuàng)建，這一點(diǎn)正好符合電子文件管理的“前端控制”原則，也就是要從源頭開始為電子文件的共享和利用做準(zhǔn)備。中國(guó)少數(shù)民族語言語義電子文件就是通過標(biāo)注通用語義符號(hào)支持多語言信息交流的少數(shù)民族語言電子文件。這里的語義標(biāo)記是用來表征某少數(shù)民族語言文字語義信息的代碼符號(hào)，通常由事先設(shè)計(jì)好的多民族語言通用語義參照體系映射而來。少數(shù)民族語言語義電子文件在生成文字符號(hào)的同時(shí)，可以標(biāo)注和傳遞語言文字背后所蘊(yùn)含的語義信息，從而使各少數(shù)民族語言文字與國(guó)家通用語言文字之間、各語種少數(shù)民族語言文字之間有了共同的語義基礎(chǔ)，可以基于共同的語義代碼體系進(jìn)行高精度信息共享和交換。本文擬在構(gòu)建少數(shù)民族語言語義電子文件研究框架的基礎(chǔ)上，分析這一領(lǐng)域研究的核心問題，展望未來研究趨勢(shì)。少數(shù)民族語言語義電子文件對(duì)于提高民族地區(qū)電子文件管理的一體化程度，促進(jìn)各民族人口之間的溝通和交流具有重要的促進(jìn)意義。

二、邏輯模型

少數(shù)民族語言語義電子文件是按照語義網(wǎng)思想提出的一種解決我國(guó)多民族語言電子文件信息共享問題的構(gòu)想方案。蒂姆·伯納斯-李在提出語義網(wǎng)理念之初，曾經(jīng)提出過著名的“語義網(wǎng)分層模型”[4]。該模型將語義網(wǎng)的實(shí)現(xiàn)分為Unicode/URI、XML、RDF Schema、Ontology、Proof、Trust共七層，其中信任層Trust伴隨數(shù)字簽名DigitalSignature的使用。參照上述模型，對(duì)我國(guó)少數(shù)民族語言語義電子文件的結(jié)構(gòu)模型概要分析和規(guī)劃如下：

圖1 少數(shù)民族語言語義電子文件的邏輯模型

圖1是中國(guó)少數(shù)民族語言語義電子文件的邏輯模型，其中左側(cè)的層次結(jié)構(gòu)模型整體上分為6層，自底向上分別為：編碼層通過一體化的編碼方案確保不同語種電子文件直接能夠兼容；內(nèi)容層是電子文件通過源語言記錄和表達(dá)的核心內(nèi)容；語義層是語義電子文件的核心部分，需要參照通用語義體系進(jìn)行映射和標(biāo)注；元數(shù)據(jù)層是維護(hù)電子文件真實(shí)性、完整性和可讀性的重要方式，電子文件是否具有證據(jù)效力，與元數(shù)據(jù)的完整程度有非常緊密的聯(lián)系，元數(shù)據(jù)著錄內(nèi)容也可以嵌入通用語義標(biāo)記實(shí)現(xiàn)跨語言信息共享；檢索層，即通過語義檢索語言實(shí)現(xiàn)多語種電子文件的內(nèi)容檢索；應(yīng)用層，基于統(tǒng)一的語義參照體系實(shí)現(xiàn)的諸如數(shù)字資源整合、跨語言輔助閱讀、跨語言信息檢索、跨語言知識(shí)發(fā)現(xiàn)等應(yīng)用。少數(shù)民族語言語義電子文件實(shí)現(xiàn)跨語言信息交互的方式如圖1右側(cè)所示。國(guó)家通用語言文字電子文件(N)和各語種少數(shù)民族語言電子文件(Mi)在生成時(shí)參照共同的語義表達(dá)體系進(jìn)行映射，在正文或者元數(shù)據(jù)當(dāng)中嵌入通用語義標(biāo)記(Sj)?；谶@些通用語義標(biāo)記，不同語種電子文件在邏輯上就被聯(lián)結(jié)為一個(gè)整體，可以支持全局性的信息檢索。在檢索系統(tǒng)中以國(guó)家通用語言文字檢索詞進(jìn)行檢索的時(shí)候，系統(tǒng)會(huì)根據(jù)該檢索詞的語義聯(lián)系，自動(dòng)查找與之對(duì)應(yīng)的各少數(shù)民族語言文字的檢索詞，從而獲得所有與某一主題相關(guān)的電子文件。由于不同語種電子文件都標(biāo)注了語義標(biāo)記，基于這些標(biāo)記可以開發(fā)出多種類型的應(yīng)用，使得計(jì)算機(jī)輔助跨語言閱讀、機(jī)器翻譯等技術(shù)的實(shí)現(xiàn)變得相對(duì)容易。在語義電子文件管理模式實(shí)現(xiàn)之后，采用某種少數(shù)民族語言文字作為記錄符號(hào)的電子文件可以轉(zhuǎn)換為其他各語種的信息，方便對(duì)應(yīng)語種人口的閱讀和理解。例如，如果國(guó)家通用語言文字“政府”一詞的通用語義代碼用G001表示，那藏文的、蒙古文的、彝文的、朝鮮文的等詞匯都可以用G001進(jìn)行標(biāo)注，從而基于通用語義代碼將各語種少數(shù)民族語言文字聯(lián)結(jié)為一個(gè)整體，可以基于通用語義代碼實(shí)現(xiàn)各少數(shù)民族語言文字與國(guó)家通用語言文字之間的相互轉(zhuǎn)換，也可以實(shí)現(xiàn)任意兩種少數(shù)民族語言文字之間的轉(zhuǎn)換。

三、技術(shù)原理

中國(guó)少數(shù)民族語言語義電子文件的實(shí)現(xiàn)，關(guān)鍵在于構(gòu)建可供多種語言語義映射的“通用語義參照體系”?！巴ㄓ谜Z義參照體系”是對(duì)“通用語義空間（UniversalSemantic Space）”的形式化表述方式。這里的“通用語義空間”，是指人類社會(huì)的各種自然語言所描述的語義對(duì)象及其關(guān)系所構(gòu)成的虛擬空間，是客觀世界和思維活動(dòng)中各類語義對(duì)象的總和?！巴ㄓ谜Z義空間”與各種自然語言的“語義空間”之間是“表現(xiàn)”和“映射”關(guān)系：一方面，通用語義空間是一種觀念意義上的空間，它無法脫離自然語言空間而獨(dú)立存在，通用語義空間的語義對(duì)象必須通過某種具體的自然語言才能展現(xiàn)出來從而被人們所理解；另外一方面，任何一種自然語言本質(zhì)上是對(duì)“通用語義空間”進(jìn)行映射的結(jié)果，相當(dāng)于以某種具體的自然語言所展現(xiàn)的“通用語義空間”視圖。從“通用語義空間”視角看來，跨語言信息閱讀實(shí)際上是實(shí)現(xiàn)“通用語言空間”不同語種“自然語言視圖”的切換過程。那么，如果可以用代碼表達(dá)通用語義空間的語義對(duì)象，并基于這一代碼，實(shí)現(xiàn)多個(gè)自然語言視圖當(dāng)中等價(jià)語素的語義關(guān)聯(lián)，則可以非常方便地實(shí)現(xiàn)這些等價(jià)語素不同語種語義符合之間的切換，可以大大降低不同語種語言文字等價(jià)語素轉(zhuǎn)換的難度和執(zhí)行速度，如圖2所示。

圖2 通用語義參照體系的實(shí)現(xiàn)原理

“通用語義代碼（Universal Semantic Code，USC）”是一種為實(shí)現(xiàn)多語言信息交流而專門設(shè)計(jì)的人工編碼體系，該體系獨(dú)立于任何一種具體的自然語言，其存在主要是為多種自然語言同義語素的定位和關(guān)聯(lián)提供邏輯基礎(chǔ)，也是多種自然語言一體化信息檢索和語義共享的邏輯中介?！巴ㄓ谜Z義代碼”本身并沒有任何特殊含義，其建構(gòu)必須以某種具體的自然語言作為語義參照對(duì)象，結(jié)合我國(guó)語言文字工作的總體規(guī)劃，多民族語言通用語義代碼體系的構(gòu)建應(yīng)當(dāng)以國(guó)家通用的漢語和規(guī)范漢字作為參照語言文字。因此，對(duì)少數(shù)民族語言電子文件進(jìn)行“通用語義代碼（USC）”的標(biāo)注，本質(zhì)上是參照國(guó)家通用語言文字進(jìn)行語義映射的過程，因而也是以國(guó)家通用語言文字為核心的多民族語言信息資源共享體系的實(shí)現(xiàn)方式。

由于人類語言的復(fù)雜性，“通用語義參照體系”的建立是一項(xiàng)非常艱巨的任務(wù)。目前，實(shí)現(xiàn)不同語種語言文字等價(jià)語素之間的語義轉(zhuǎn)換常用的語義參照體系主要有：機(jī)讀雙語詞典（Machine-Read BilingualDictionary）、雙語語料庫（Bilingual Corpus）、多語言敘詞表（Multilingual Thesauri）、多語言本體（MultilingualOntology）等等，這些方法主要是為實(shí)現(xiàn)語言文字的對(duì)等翻譯而設(shè)計(jì)的，需要有專門的語言學(xué)知識(shí)作為基礎(chǔ)，并且需要經(jīng)過長(zhǎng)期的積累和優(yōu)化才能最終投入應(yīng)用。從發(fā)展的趨勢(shì)來看，基于多語言本體的語義轉(zhuǎn)換正在日益受到重視而成為主流方法。作為信息學(xué)術(shù)語，本體是指共享概念的形式化說明，能夠用規(guī)范化的方式描述關(guān)鍵概念及其邏輯關(guān)系。目前，全球最著名的本體模型是由美國(guó)普林斯頓大學(xué)的語言學(xué)家、心理學(xué)家和計(jì)算機(jī)專家聯(lián)合創(chuàng)建的Word Net,該模型囊括了絕大多數(shù)英語常見詞匯，并揭示了這些詞匯直接的語義關(guān)系。本體建立需要投入巨大的精力和成本，為了降低工作難度，目前世界上絕大多數(shù)國(guó)家和地區(qū)的多語言本體都是基于Word Net或者采用與Word Net類似的架構(gòu)建立的，例如歐盟建立的歐洲多語言詞網(wǎng)Euro Word Net，俄羅斯建立的俄英雙語本體模型Russian Word Net等等，我國(guó)一些機(jī)構(gòu)建立的多語言本體的技術(shù)原理也與之類似，例如北京大學(xué)計(jì)算語言學(xué)研究所的中文概念詞典CCD、中科院計(jì)算機(jī)語言信息中心的How Net、我國(guó)臺(tái)灣地區(qū)建立的中英雙語知識(shí)詞網(wǎng)等[5]。

我國(guó)少數(shù)民族語言文字語義信息技術(shù)目前還處在初級(jí)階段，能夠支持跨語言信息組織與檢索的技術(shù)資源非常少，需要國(guó)家民族事務(wù)管理委員會(huì)和各民族地區(qū)信息化管理部門高度重視，國(guó)內(nèi)相關(guān)研究機(jī)構(gòu)共同協(xié)作，完成我國(guó)多民族語言通用語義本體的設(shè)計(jì)與開發(fā)工作。鑒于通用本體開發(fā)工作的復(fù)雜性和長(zhǎng)期性，在研究初期可以在確定整體模型開發(fā)原則和規(guī)范的前提下，優(yōu)先一些跨語種信息共享需求較為迫切的領(lǐng)域本體模型，隨著領(lǐng)域本體模型的逐步積累，再進(jìn)行多民族語言通用本體模型的整合。根據(jù)現(xiàn)實(shí)需求，我國(guó)多民族語言通用語義本體模型可以采用開放式結(jié)構(gòu)設(shè)計(jì)，初期進(jìn)行國(guó)家通用語言文字和蒙古語、藏語、維吾爾語、哈薩克語、柯爾克孜語、壯語、傣語、朝鮮語等使用人口較多，具有較大社會(huì)影響力的少數(shù)民族語言文字的統(tǒng)一編碼，今后根據(jù)實(shí)際需要可以繼續(xù)補(bǔ)充其他語種的少數(shù)民族語言文字。

四、研究方向

與語義網(wǎng)一樣，“少數(shù)民族語言語義電子文件”到目前為止還只是美好的技術(shù)愿景，需要檔案管理機(jī)構(gòu)、業(yè)務(wù)工作部門、技術(shù)支持部門的協(xié)同工作，共同推進(jìn)。當(dāng)前，中國(guó)少數(shù)民族語言語義電子文件研究領(lǐng)域需要關(guān)注的問題主要有以下方面：

1.“中國(guó)多民族語言文字通用語義本體模型”的協(xié)同構(gòu)建。

這是語義電子文件構(gòu)建最為核心的任務(wù)，需要以國(guó)家通用語言文字為參照，設(shè)計(jì)通用語義代碼體系，實(shí)現(xiàn)藏語、蒙古語、維吾爾語、哈薩克語、柯爾克孜語、壯語、傣語、朝鮮語等少數(shù)民族語言文字的語義映射。要完成這一任務(wù)，必須由精通各少數(shù)民族語言文字的學(xué)者與計(jì)算語言學(xué)、知識(shí)管理、計(jì)算機(jī)科學(xué)等學(xué)科的專家共同協(xié)作完成。鑒于這一任務(wù)的艱巨性，可以采用任務(wù)分解的方法，分期完成。同時(shí)，需要立足我國(guó)民族地區(qū)信息化建設(shè)實(shí)際，在滿足應(yīng)用需求的前提下，適度降低通用本體構(gòu)建的精度要求。

2.中國(guó)少數(shù)民族語言電子文件語義信息標(biāo)注與質(zhì)量控制規(guī)范。

在通用語義本體模型建立之后，如何進(jìn)行語義信息標(biāo)注也是需要探討和研究問題，例如人工標(biāo)注的工作效率太低，要實(shí)現(xiàn)自動(dòng)化語義信息標(biāo)注又面臨諸如詞語切分、語義選擇、語義消歧等多方面困難。此外，標(biāo)注的精度和粒度也是需要考慮的問題，大粒度、低精度語義信息標(biāo)注只需要對(duì)篇章內(nèi)容進(jìn)行概括，用多語言主題詞表就可以滿足要求，但是高精度、細(xì)粒度的語義信息標(biāo)注則要細(xì)化到每句話，甚至要進(jìn)行詞語切分后對(duì)每個(gè)詞的語義信息進(jìn)行高精度標(biāo)注。究竟要采用哪一種精度和粒度，取決于電子文件內(nèi)容的重要程度和它的利用場(chǎng)合。同時(shí)，語義信息標(biāo)注質(zhì)量也需要進(jìn)行評(píng)價(jià)和控制。

3.基于領(lǐng)域本體的少數(shù)民族語言語義電子文件管理實(shí)踐。

本體分為通用本體和領(lǐng)域本體兩種，多民族語言通用本體模型的長(zhǎng)遠(yuǎn)目標(biāo)是實(shí)現(xiàn)對(duì)各語言主要詞匯的全面覆蓋，從而為構(gòu)建多語言無障礙交流奠定基礎(chǔ)。然而，本體構(gòu)建是一項(xiàng)高度負(fù)責(zé)的工作，從更加現(xiàn)實(shí)一些的角度出發(fā)，可以優(yōu)先發(fā)展部分領(lǐng)域的多語言本體模型，以滿足這些領(lǐng)域的跨語言信息共享需要。例如，我國(guó)民族地區(qū)司法機(jī)關(guān)當(dāng)中，國(guó)家通用語言文字司法文書和少數(shù)民族語言文字司法文書都是認(rèn)可的，可以結(jié)合司法機(jī)關(guān)的多語言信息共享需求，開發(fā)司法領(lǐng)域多民族語言電子文件管理的相關(guān)探索。

4.少數(shù)民族語言語義電子文件管理需求的嵌入與生命周期控制。

少數(shù)民族語言語義電子文件語義信息是要在內(nèi)容信息生成后就要進(jìn)行標(biāo)注的，需要與內(nèi)容信息一同參與電子文件的處理、保存、歸檔和利用等環(huán)節(jié)。因此，語義信息嵌入式需要在概念階段就嵌入電子文件管理系統(tǒng)功能需求當(dāng)中，成為系統(tǒng)設(shè)計(jì)考慮的重要問題。在電子文件的整個(gè)生命周期當(dāng)中，語義標(biāo)記信息需要完整保存，而且在業(yè)務(wù)處理過程中產(chǎn)生少數(shù)民族語言文字處理結(jié)果是同樣需要進(jìn)行語義信息標(biāo)注。在電子文件對(duì)應(yīng)的業(yè)務(wù)處理完成之后，電子文件執(zhí)行歸檔操作時(shí)，語義信息的完整程度也是歸檔鑒定的重要內(nèi)容。總之，在少數(shù)民族語言電子文件管理生命周期當(dāng)中，作為表征內(nèi)容和管理過程的語義代碼，需要與核心內(nèi)容信息同期創(chuàng)建，同時(shí)管理，最終成為歸檔電子文件不可或缺的組成部分。

5.基于通用語義代碼的少數(shù)民族語言電子文件利用模式。

由于電子文件當(dāng)中嵌入了通用語義代碼，不同語言文字的電子文件就建立了語義關(guān)聯(lián)，從而使電子文件的利用方式變得更加多樣。例如，可以開發(fā)基于跨語言閱讀系統(tǒng)，用戶讀取少數(shù)民族語言文字電子文件的時(shí)候，鼠標(biāo)可以提示對(duì)應(yīng)詞語的國(guó)家通用語言文字或者另外一種少數(shù)民族語言文字的詞義，供利用者概要理解電子文件的主題信息。在電子文件的所有詞語進(jìn)行了語義標(biāo)注的情況下，可以通過詞頻分析等方法，揭示電子文件內(nèi)容的深層次規(guī)律，從而使電子文件編研具有新的可能性。

五、結(jié)論

中國(guó)少數(shù)民族語言電子文件是核心內(nèi)容以我國(guó)境內(nèi)現(xiàn)存的或者曾經(jīng)存在過的少數(shù)民族語言文字或語音符號(hào)作為信息記錄形式的電子文件。中國(guó)少數(shù)民族語言語義電子文件就是通過標(biāo)注通用語義符號(hào)支持多語言信息交流的少數(shù)民族語言電子文件，是語義網(wǎng)（Semantic Web）思想在電子文件管理領(lǐng)域的應(yīng)用。少數(shù)民族語言語義電子文件的邏輯模型整體上分為編碼層、內(nèi)容層、語義層、元數(shù)據(jù)層、檢索層和應(yīng)用層共6個(gè)層次，關(guān)鍵在于構(gòu)建可供多種語言語義映射的“通用語義參照體系”。“通用語義參照體系”的主流實(shí)現(xiàn)方式是多語言通用本體模型，其建立是一項(xiàng)非常艱巨的任務(wù)，需要相關(guān)研究機(jī)構(gòu)共同協(xié)作設(shè)計(jì)與開發(fā)。中國(guó)少數(shù)民族語言語義電子文件研究領(lǐng)域需要關(guān)注的問題主要有“中國(guó)多民族語言文字通用語義本體模型”協(xié)同構(gòu)建、中國(guó)少數(shù)民族語言電子文件語義信息標(biāo)注和質(zhì)量控制規(guī)范、基于領(lǐng)域本體的少數(shù)民族語言語義電子文件管理實(shí)踐、少數(shù)民族語言語義電子文件管理需求的嵌入與生命周期控制和基于通用語義代碼的少數(shù)民族語言電子文件利用模式等方面。

[1]中華人民共和國(guó)國(guó)務(wù)院新聞辦公室，中國(guó)的民族政策與各民族共同繁榮發(fā)展[M],北京：人民出版社，2009.10:32.

[2]趙生輝，數(shù)字紐帶：中國(guó)少數(shù)民族語言電子文件集成管理的體系架構(gòu)研究[M].西安：陜西師范大學(xué)出版社，2014.3.

[3]趙生輝，中國(guó)少數(shù)民族語言電子文件管理初探[J].檔案學(xué)通訊.2011（2）.

[4]Grigoris Antoniou.語義網(wǎng)基礎(chǔ)教程[M].北京：機(jī)械工業(yè)出版社.2014.09:10.

[5]劉偉成，孫吉紅，多語言本體及其在跨語言信息檢索中的應(yīng)用[J]，武漢科技大學(xué)學(xué)報(bào)，2008（10）.

[6]司莉，莊曉喆，賈歡.近10年國(guó)外多語言信息組織與檢索研究進(jìn)展與啟示[J].中國(guó)圖書館學(xué)報(bào).2015(4).

[7]吳丹，本體驅(qū)動(dòng)的跨語言信息檢索研究[J].現(xiàn)代圖書情報(bào)技術(shù).2006(5).

[8]塔娜等.面向跨語言信息檢索的蒙漢語義詞典構(gòu)建[A].第三屆全國(guó)少數(shù)民族青年自然語言信息處理學(xué)術(shù)研討會(huì)論文集.北京：中央民族大學(xué)出版社，2002：12-15.

[9]劉登峰.艾斯卡爾·艾木都拉.維、漢多語種檔案信息管理系統(tǒng) [J].計(jì)算機(jī)工程，2008（20）: 263-268

[10]趙小兵,邱莉蓉.多民族語言本體知識(shí)庫構(gòu)建技術(shù)[J].中文信息學(xué)報(bào)，2011（4）：34.

作者單位：西藏民族大學(xué)管理學(xué)院

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

中國(guó)少數(shù)民族語言語義電子文件初探★

一、概念提出

二、邏輯模型

三、技術(shù)原理

四、研究方向

五、結(jié)論

一、概念提出

二、邏輯模型

三、技術(shù)原理

四、研究方向

五、結(jié)論