亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于敘詞分類的海洋科技信息的數(shù)據(jù)轉(zhuǎn)儲

        2016-11-09 02:25:27徐建良
        關鍵詞:詞表文檔海洋

        史 珂,徐建良

        (中國海洋大學 信息科學與工程學院,山東 青島 266100)

        ?

        基于敘詞分類的海洋科技信息的數(shù)據(jù)轉(zhuǎn)儲

        史珂,徐建良

        (中國海洋大學 信息科學與工程學院,山東 青島 266100)

        在研究敘詞表分類的基礎上,調(diào)研了國家海洋局第一海洋研究所海洋科技信息數(shù)據(jù)。根據(jù)這些電子資源的存儲方式與存儲結(jié)構,對其進行數(shù)據(jù)的轉(zhuǎn)儲,設計了標準的XML文件,以便數(shù)據(jù)資源的二次使用與共享。

        敘詞表;海洋信息;數(shù)據(jù)轉(zhuǎn)儲

        引用格式:史珂,徐建良. 基于敘詞分類的海洋科技信息的數(shù)據(jù)轉(zhuǎn)儲[J].微型機與應用,2016,35(16):72-74,79.

        0 引言

        在對現(xiàn)有的海洋科技信息數(shù)據(jù)的研究中發(fā)現(xiàn),其存儲方式大多數(shù)以是Word文件或Excel文件的形式分散在科學家和各個研究部門手中。由于各個科研機構的管理方式和科研工作者的編寫習慣不一致,導致異構數(shù)據(jù)源在不同文件中的組織結(jié)構、語義層次不同,從而使整個海洋科技信息的數(shù)據(jù)出現(xiàn)雜亂、重復、語義不一致等現(xiàn)象,這就造成了海洋科技信息的數(shù)據(jù)資源沒有辦法滿足海洋科研工作者的科研成果的共享與二次使用,同時也不能滿足與國際科研機構的數(shù)據(jù)交換[1]。這種情況對我國海洋科學考察領域的發(fā)展產(chǎn)生了嚴重的阻礙。

        把這些碎片化的異構數(shù)據(jù)源進行整合從而達到規(guī)范化是目前各個機構和科研工作者的首要任務。通過對海洋科技信息數(shù)據(jù)格式和內(nèi)容的研究,本文設計了一種規(guī)范、標準的XML文件,把海洋科技信息數(shù)據(jù)資源轉(zhuǎn)儲到該自定義的XML文件,使海洋相關數(shù)據(jù)得到最大化的共享和利用,同時也為我國即將開展的數(shù)字海洋計劃提供了一定的數(shù)據(jù)資源。

        1 海洋科技信息數(shù)據(jù)格式

        按照Soergel的理論把敘詞表分為兩類,分別為基于術語的敘詞表(term-based thesaurus )和基于概念的敘詞表(concept-based thesaurus )[1]。其中,前者是一種集合,該集合結(jié)構清晰,因為這種類型的敘詞表只包含一種實體類型,這種實體就是術語,而術語與術語之間存在的關系分有3種,分別為層級關系、相關關系、等同關系[2]。而另外一種敘詞表,即基于概念的敘詞表,則由兩種實體類型組成,其中一種是概念,另外一種是術語。概念是一個簡單的結(jié)構單一的思想單元[3],概念的基本信息包括優(yōu)選術語、非優(yōu)選術語、范圍附注等,概念之間同樣也存在層級關系、相關關系。結(jié)合海洋科技信息數(shù)據(jù)源的存儲結(jié)構和存儲類型,可以把這些數(shù)據(jù)資源簡單分為兩類:

        (1)把以Word文檔作為存儲結(jié)構的敘詞看作基于概念的敘詞表,不僅有術語、關鍵詞,還有概念,概念用來對關鍵詞進行進一步解釋。

        (2)把以Excel文檔作為存儲結(jié)構的敘詞看作基于術語的敘詞表,不僅有術語關鍵詞,還有詞間的層級關系。

        圖1 海洋科技信息敘詞表類型

        其關系結(jié)構如圖1所示。

        2 Word和Excel模板規(guī)范

        海洋科技信息文檔的格式和組織架構雖然相對比較固定,但仍然存在語義與結(jié)構的不一致現(xiàn)象,直接從這樣的Word和Excel文檔中提取關鍵信息,容易導致數(shù)據(jù)的混亂,同時也對提取的算法要求頗高,這就需要先通過Word的語義模型和Excel的行列關系規(guī)范文檔的結(jié)構。

        通過域的設定,可以把字體、位置、顏色等顯示樣式規(guī)范化[4]。域中的數(shù)據(jù)都是可變的,如果以后用戶自主創(chuàng)建Word文檔,只需更改域中的文字信息即可,不需要再對樣式、排版進行編輯,其中敘詞用加粗字體表示,對應概念用普通字體表示,敘詞與概念之間用空格銜接,如圖2所示。對于這種建立模版方法,在插入每一個域時,都需要輸入相應的提示文本,作為該域的語義信息。

        圖2 海洋科技信息Word模版示意圖

        而對于Excel文檔,一般情況下總共4列,同一行上后一個列屬于前一個列的子類,最后一列對應敘詞,除此之外的每一列都對應一個分類,如果以樹狀結(jié)構列出表中的層次關系的話,即每個葉子節(jié)點為敘詞,每個非葉子節(jié)點都為分類,且分類中也可包含其他分類,如圖3所示。

        圖3 海洋科技信息Excel模版示意圖

        3 Word和Excel信息抽取

        Microsoft Office 2010提供了通過將自定義XML Schema架構插入工作薄,導出符合結(jié)構需求的XML文件的功能。該功能是在Office文檔和XML結(jié)構之間創(chuàng)建了一個映射,進行Office文檔中數(shù)據(jù)的分離。

        3.1自定義XML Schema

        XML Schema文件的主要定義可擴展標記語言的合法構建結(jié)構,它可以定義出現(xiàn)在文檔中的元素、元素的層次結(jié)構、子元素的次序、子元素的數(shù)目、元素是否為空、文檔中的屬性、元素和屬性的數(shù)據(jù)類型、元素和屬性的默認值以及固定值等[5]。本文自定義的XML Schema文件結(jié)構如下。

        3.2Word到標準XML文檔

        使用了上文通過域定義的語義模版后的Word文檔如圖4所示。使用XML Schema中定義的元素對Word文檔的關鍵字進行手動映射,這樣就把與邏輯相關的一些標記插入到了Word文檔中,以便根據(jù)實際需要通過標識符來方便地對文檔進行處理。具體實現(xiàn)方式如下。

        圖4 Schema文檔中的元素與Word文檔關鍵字的映射

        (1)在菜單中選擇“開發(fā)工具-架構”,在彈出的窗口中選擇“添加架構”,將XML Schema文件附加到Word文檔。

        (2)在添加架構完成后,就可以利用該Schema文件中的元素批注Word文檔。Word文檔右側(cè)的“XML結(jié)構”窗格可將附加架構中的自定義元素映射到文檔關鍵字。

        完成Schema文檔中的元素與Word文檔關鍵字的映射后,需要對剛創(chuàng)建的文檔進行保存,其保存格式為XML文件,保存后的XML文檔結(jié)構效果如下。

        3.3Excel到標準XML文檔

        把XML Schema文件添加到Excel文檔中的具體步驟如下。

        (1)在菜單中選擇“開發(fā)工具-源”,在彈出的右側(cè)窗口中選擇“XML映射”,將XML Schema文件附加到Excel文檔。

        (2)使用“XML源”將Excel文檔單元格映射到XML架構元素。

        Excel會自動創(chuàng)建一個XML映射對象,通過鼠標拖曳XML映射元素到相應關鍵詞上,實現(xiàn)它們之間的映射,這樣就可以將單元格中的數(shù)據(jù)反映到XML架構的元素上,其顯示效果如圖5所示。

        圖5 Schema文檔中的元素與Excel文檔關鍵字的映射

        完成Schema文檔中的元素與Excel文檔關鍵字的映射后,Microsoft Excel導出的標準XML文件格式如下。基于這種通用結(jié)構,可以方便有效地完成海洋數(shù)據(jù)向各個應用或者數(shù)據(jù)庫的轉(zhuǎn)儲工作。

        4 結(jié)論

        本文研究的資料直接來源于國家海洋局第一海洋研究所,能客觀真實地反映該領域的知識結(jié)構框架,概念更專指,能有效克服“嵌入迷失問題”(詞表過大導致用戶迷失了方向)和“藝術博物館現(xiàn)象”(用戶花了很多時間卻沒有找到任何有用信息)[6]。本文通過使用Microsoft Office 2010自帶的映射功能完成標準XML文件的生成,為數(shù)據(jù)的管理和二次利用提供了有效的途徑。

        [1] 傅強. 中國大洋研究成果數(shù)據(jù)庫平臺系統(tǒng)建設[D]. 青島:國家海洋局第一海洋研究所, 2007.

        [2] BANERJEE S, PEDERSEN T. Extended gloss overlaps as a measure of semantic relatedness[C]. International Joint Conference on Artificial Intelligence, IJCAI, 2003: 805-810.[3] BUDANITSKY A, HIRST G. Evaluating wordnet-based measures of lexical semantic relatedness[J]. Computational Linguistics, 2006, 32(1): 13-47.

        [4] Chen Zeqiang, Chen Nengcheng. Use of service middleware based on ECHO with CSW for discovery and registry of MODIS data[J].地球空間信息科學學報(英文版), 2010, 13(3):191-200.

        [5] LEE D, CHU W W. Comparative analysis of six XML schema languages[J]. ACM Sigmod Record, 2000, 29(3):76-87.

        [6] AITCHISON J, CLARKE S D. The thesaurus: a historical viewpoint, with a look to the future[J]. Cataloging & classification quarterly, 2004, 37(3-4): 5-21.

        Marine science and technology information data dump based on thesaurus classification

        Shi Ke,Xu Jianliang

        (Institute of Information Science and Engineering, Ocean University of China, Qingdao 26610, China;)

        On the basis of classification of the thesaurus, this paper researches the marine science and technology information provided by the First Institute of Oceanography, SOA. According to the storage mode and storage structure of electronic resources, this paper carries on the data dump, and designs the standard XML file for secondary using and sharing of the data resources.

        thesaurus; marine information; data dump

        TP274

        A

        10.19358/j.issn.1674- 7720.2016.16.021

        2016-03-30)

        史珂(1989-),女,碩士研究生,主要研究方向:軟件工程技術。

        徐建良(1969),男,博士,教授,主要研究方向:計算復雜性理論、計算機軟件與理論。

        猜你喜歡
        詞表文檔海洋
        有人一聲不吭向你扔了個文檔
        A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
        英語世界(2021年13期)2021-01-12 05:47:51
        海洋的路
        當代音樂(2018年4期)2018-05-14 06:47:13
        愛的海洋
        琴童(2017年7期)2017-07-31 18:33:48
        第一章 向海洋出發(fā)
        小學科學(2017年5期)2017-05-26 18:25:53
        基于RI碼計算的Word復制文檔鑒別
        敘詞表與其他詞表的互操作標準
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        國外敘詞表的應用與發(fā)展趨勢探討*
        圖書館建設(2012年3期)2012-10-23 05:16:30
        不讓他人隨意下載Google文檔
        電腦迷(2012年4期)2012-04-29 06:12:13
        亚洲禁区一区二区三区天美| 久久久久久久98亚洲精品| 国产一区二区三区国产精品| 亚洲av推荐网站在线观看| 欧美群妇大交群| 国内精品久久久久影院一蜜桃| 欧美一级人与嘼视频免费播放| 亚洲国产av中文字幕| 精品国产成人av久久| 亚洲中文字幕久久精品无码喷水| 一本色道久久88加勒比—综合| 成人妇女免费播放久久久| 欧美综合区| 亚洲天堂av路线一免费观看| 亚洲av永久无码精品网站| 久久亚洲精品成人av| 白色橄榄树在线免费观看| 中文字幕人妻av四季| 中文字幕亚洲欧美在线不卡| 久久午夜无码鲁丝片直播午夜精品| 日韩国产精品一本一区馆/在线| 精品精品国产一区二区性色av| 午夜时刻免费入口| 4444亚洲人成无码网在线观看| 欧洲无码一级毛片无遮挡| 人妻精品人妻一区二区三区四区 | 国产尤物自拍视频在线观看| 国产a√无码专区亚洲av| 国产美女遭强高潮网站| 成人国产一区二区三区精品不卡| 蜜桃码一区二区三区在线观看| 一本色道久久hezyo无码 | 日本VA欧美VA精品发布| 精品少妇白浆一二三区| 国产av无码专区亚洲av果冻传媒 | 日韩精品视频久久一区二区| 无码中文字幕日韩专区视频| 一区二区在线亚洲av蜜桃| 在线视频观看一区二区| 国产色在线 | 亚洲| 亚洲自拍另类欧美综合|