亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        企業(yè)級(jí)非結(jié)構(gòu)化數(shù)據(jù)中心存儲(chǔ)組織形式探究

        2014-09-29 01:29:02王延田肖少輝姜傳鑫
        電力勘測(cè)設(shè)計(jì) 2014年1期
        關(guān)鍵詞:原形數(shù)據(jù)模型結(jié)構(gòu)化

        王延田,肖少輝,姜傳鑫

        (1.中國電力工程顧問集團(tuán)公司,北京 100120 2.北京洛斯達(dá)數(shù)字遙感技術(shù)有限公司,北京 100120)

        1 概述

        在大型企業(yè)中,日常處理的業(yè)務(wù)數(shù)據(jù)按類型可分為為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)通常是指可以用二維表結(jié)構(gòu)來邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù),如目前管理信息系統(tǒng)中最常使用的關(guān)系型數(shù)據(jù)庫就屬于結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)通常是相對(duì)于結(jié)構(gòu)化數(shù)據(jù)而言,不方便用二維表結(jié)構(gòu)來表現(xiàn)的數(shù)據(jù),包括以WORD、PDF、EXCEL和JPG等格式組成的各類辦公文檔、報(bào)表憑證,以及圖像和音頻/視頻等數(shù)據(jù)文件均為非結(jié)構(gòu)化數(shù)據(jù)。也有將介于界定嚴(yán)格的結(jié)構(gòu)化數(shù)據(jù)和完全無結(jié)構(gòu)的數(shù)據(jù)之間的數(shù)據(jù)形式稱之為半結(jié)構(gòu)化數(shù)據(jù),這類數(shù)據(jù)有HTML頁面、XML、XBRL等。

        在企業(yè)信息化應(yīng)用過程中產(chǎn)生的數(shù)據(jù),能夠采用關(guān)系型數(shù)據(jù)庫處理的結(jié)構(gòu)化數(shù)據(jù)約占企業(yè)數(shù)據(jù)總量的20%,而其他80%的非結(jié)構(gòu)化數(shù)據(jù)無法完全采用關(guān)系型數(shù)據(jù)庫來處理。

        科學(xué)管理和合理應(yīng)用這些非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)成為企業(yè)正確決策、增強(qiáng)核心競(jìng)爭(zhēng)力的關(guān)鍵。2010 年,由中央辦公廳、國務(wù)院辦公廳聯(lián)合下發(fā)《電子文件暫行管理辦法》(廳字[2009]39號(hào)),明確要求大型企業(yè)電子文件管理需要滿足統(tǒng)一管理、全程管理、規(guī)范標(biāo)準(zhǔn)、便于利用、安全保密五大要求。

        以上要求為企業(yè)級(jí)非結(jié)構(gòu)化數(shù)據(jù)中心的建立提出了明確的指導(dǎo)方向,如何設(shè)計(jì)和構(gòu)建一套滿足非結(jié)構(gòu)化數(shù)據(jù)中心統(tǒng)一管理、面向服務(wù)的數(shù)據(jù)存儲(chǔ)組織形式,成為亟待研究和解決的問題。該組織形式的研究直接影響到數(shù)據(jù)中心面對(duì)海量非結(jié)構(gòu)化數(shù)據(jù)的承載能力、擴(kuò)展能力以及面向多業(yè)務(wù)系統(tǒng)的服務(wù)能力。

        2 研究目標(biāo)與路線

        2.1 研究目標(biāo)

        針對(duì)以上的需求描述,此次的研究目標(biāo)以現(xiàn)有成熟存儲(chǔ)技術(shù)為基礎(chǔ),結(jié)合現(xiàn)有非結(jié)構(gòu)化數(shù)據(jù)理論知識(shí),最終形成非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)規(guī)劃,建立非結(jié)構(gòu)化數(shù)據(jù)元數(shù)據(jù)模型、屬性關(guān)系模型以及分類對(duì)象模型。通過這些模型的建立,優(yōu)化非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ),方便數(shù)據(jù)的快速檢索和有效管理。

        2.2 研究路線

        根據(jù)研究建設(shè)目標(biāo),采用先期調(diào)研、方案設(shè)計(jì)和原形系統(tǒng)建設(shè)的研究路線推進(jìn)非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)方案的研究,驗(yàn)證存儲(chǔ)方案的有效性和易用性。

        圖1 課題研究路線

        (1)先期調(diào)研階段:首先調(diào)研企業(yè)現(xiàn)有基礎(chǔ)設(shè)施、存儲(chǔ)能力以及非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)應(yīng)用情況。然后收集現(xiàn)有非結(jié)構(gòu)化數(shù)據(jù)處理理論和成熟技術(shù),結(jié)合本企業(yè)實(shí)際情況,制定數(shù)據(jù)存儲(chǔ)的初步方案。

        (2)方案設(shè)計(jì)階段:基于先期調(diào)研及數(shù)據(jù)存儲(chǔ)初步方案的基礎(chǔ)上,重點(diǎn)研究非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)規(guī)劃、元數(shù)據(jù)模型、屬性關(guān)系模型以及分類對(duì)象模型等關(guān)鍵技術(shù)。利用這些知識(shí)體系支撐非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)、檢索和對(duì)外標(biāo)準(zhǔn)服務(wù)應(yīng)用。

        (3)原形系統(tǒng)建設(shè)階段:根據(jù)先期確定的研究目標(biāo),按照方案設(shè)計(jì)階段形成的技術(shù)方案,進(jìn)行原形系統(tǒng)建設(shè)。原形系統(tǒng)能夠?qū)Ψ墙Y(jié)構(gòu)化數(shù)據(jù)實(shí)現(xiàn)物理存儲(chǔ)、屬性檢索、全文檢索和對(duì)外標(biāo)準(zhǔn)化服務(wù)功能,實(shí)現(xiàn)并驗(yàn)證方案設(shè)計(jì)階段所建立的存儲(chǔ)規(guī)劃理論和各種模型理論。

        3 存儲(chǔ)設(shè)計(jì)

        3.1 存儲(chǔ)規(guī)劃設(shè)計(jì)

        存儲(chǔ)規(guī)劃主要考慮將非結(jié)構(gòu)化數(shù)據(jù)的物理存儲(chǔ)與邏輯存儲(chǔ)進(jìn)行分離,因此采用SAN網(wǎng)絡(luò)存儲(chǔ)與數(shù)據(jù)庫存儲(chǔ)相配合的模式進(jìn)行,并將檢索與文本內(nèi)容進(jìn)行有效分離、合理分布。每一個(gè)非結(jié)構(gòu)化數(shù)據(jù)分配一個(gè)唯一ID,將其對(duì)應(yīng)的邏輯信息,如文件名稱、文件大小、所屬分類、文件存放路徑等,一并存儲(chǔ)到數(shù)據(jù)庫中。而文件的存放的路徑盡量縮短,由過去的樹狀存儲(chǔ)模式轉(zhuǎn)換為扁平模式,以提高海量文件訪問速度。同時(shí),生成伴生文件,存儲(chǔ)數(shù)據(jù)庫中存放的邏輯信息,便于文件的日后遷移和索引處理。

        圖2 存儲(chǔ)規(guī)劃圖

        3.2 元數(shù)據(jù)模型設(shè)計(jì)

        通過對(duì)非結(jié)構(gòu)化數(shù)據(jù)的分析,可以得出數(shù)據(jù)擁有系統(tǒng)屬性和擴(kuò)展屬性兩類。系統(tǒng)屬性即為文件自身所包含的自然屬性,例如名稱、大小、創(chuàng)建日期、創(chuàng)建人等。但非結(jié)構(gòu)化數(shù)據(jù)除了自然屬性外還會(huì)有業(yè)務(wù)擴(kuò)展屬性,例如會(huì)議紀(jì)要就包含了會(huì)議時(shí)間、會(huì)議地點(diǎn)、議題、參會(huì)人員等。同時(shí),元數(shù)據(jù)和擴(kuò)展屬性的數(shù)量也會(huì)隨著人們對(duì)事物認(rèn)識(shí)的不斷提升而增加,因此需要增加元數(shù)據(jù)描述文件對(duì)元數(shù)據(jù)進(jìn)行定義,在數(shù)據(jù)分類中增加擴(kuò)展屬性描述的信息。對(duì)元數(shù)據(jù)模型的認(rèn)識(shí)是屬性關(guān)系模型和分類對(duì)象模型的基礎(chǔ),也決定了非結(jié)構(gòu)化信息提取的方式和解析算法。

        3.3 屬性關(guān)系模型設(shè)計(jì)

        在系統(tǒng)元數(shù)據(jù)和擴(kuò)展屬性中,屬性之間存在一定的關(guān)聯(lián)關(guān)系,這些關(guān)系相互結(jié)合形成關(guān)系網(wǎng)絡(luò),在每個(gè)關(guān)系上設(shè)置權(quán)重,便可構(gòu)成以任一節(jié)點(diǎn)為中心橫向親屬網(wǎng)絡(luò)圖。通過該模型以及計(jì)算機(jī)圖形學(xué)與人工智能理論可以提供給非結(jié)構(gòu)化數(shù)據(jù)查詢者一個(gè)建議的搜索路徑,便于其快速找到所關(guān)注的內(nèi)容。例如,通過會(huì)議地點(diǎn)來查詢資料的用戶很可能同樣系統(tǒng)通過會(huì)議時(shí)間來進(jìn)行進(jìn)一步檢索。同時(shí),通過該模型還可以提供查詢結(jié)果的動(dòng)態(tài)展示,突出顯示查詢者重點(diǎn)關(guān)注的屬性信息。

        圖4 屬性關(guān)系模型圖

        3.4 分類對(duì)象模型設(shè)計(jì)

        因企業(yè)內(nèi)部應(yīng)用的需要,非結(jié)構(gòu)化數(shù)據(jù)有著明顯的業(yè)務(wù)分類需要。該分類可能影響到文件數(shù)據(jù)的存儲(chǔ)位置,分類也代表著某些屬性的聚合。例如文件分類包含了系統(tǒng)屬性,會(huì)議分類除了包含系統(tǒng)屬性外包含了與會(huì)議相關(guān)的屬性集合。因此,分類對(duì)象模型是一個(gè)倒金字塔形的分類模型,位于上部的分類繼承位于下部分類的部分或者全部屬性。該金字塔結(jié)構(gòu)反映了人類對(duì)事物認(rèn)識(shí)演化過程,隨著認(rèn)識(shí)的逐步深入而是分類更加細(xì)化,構(gòu)成了屬性關(guān)系的縱向網(wǎng)絡(luò)。

        圖5 分類對(duì)象模型示意圖

        4 原形系統(tǒng)應(yīng)用情況

        隨著原形系統(tǒng)的實(shí)施和應(yīng)用,正逐漸成為某企業(yè)非結(jié)構(gòu)化數(shù)據(jù)中心,并且相繼接入了門戶系統(tǒng)、OA系統(tǒng)、生產(chǎn)經(jīng)營統(tǒng)計(jì)平臺(tái)、電網(wǎng)規(guī)劃平臺(tái)等多個(gè)業(yè)務(wù)系統(tǒng)。原形系統(tǒng)為上述業(yè)務(wù)系統(tǒng)提供了內(nèi)容存儲(chǔ)服務(wù)、內(nèi)容訪問服務(wù)和內(nèi)容管理及挖掘服務(wù)等。降低其他系統(tǒng)在非結(jié)構(gòu)化數(shù)據(jù)管理方面的開發(fā)費(fèi)用和時(shí)間成本,更專注于其自身業(yè)務(wù)需求。進(jìn)一步提升了非結(jié)構(gòu)化數(shù)據(jù)中心的應(yīng)用價(jià)值,形成了很好的集約效益。

        5 小結(jié)與展望

        本次課題研究成果很好地解決了企業(yè)級(jí)非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)組織形式問題,使得非結(jié)構(gòu)化數(shù)據(jù)在企業(yè)內(nèi)部得到高效存儲(chǔ)和便捷應(yīng)用,也為企業(yè)級(jí)非結(jié)構(gòu)化數(shù)據(jù)中心進(jìn)行數(shù)據(jù)集中存儲(chǔ)、統(tǒng)一管理、標(biāo)準(zhǔn)服務(wù)奠定了堅(jiān)實(shí)的基礎(chǔ),已成為企業(yè)信息化建設(shè)的重要組成部分。

        [1]張志剛,姚偉.海量非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)問題初探[J].中國檔案,2009,(8).

        [2]陳靜,尚鮮連,顧晨宇.基于SOA的非結(jié)構(gòu)化信息檢索的模型研究[J].自動(dòng)化術(shù)與應(yīng)用,2009,(11).

        [3]程志華,倪時(shí)龍,黃文思,龔賀.企業(yè)級(jí)非結(jié)構(gòu)化數(shù)據(jù)管理平臺(tái)研究及實(shí)踐[J].電力信息化,2012,(03).

        [4]李未,浪波.一種非結(jié)構(gòu)化數(shù)據(jù)庫的四面體數(shù)據(jù)模型[J].中國科學(xué),2010,40(8).

        猜你喜歡
        原形數(shù)據(jù)模型結(jié)構(gòu)化
        促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
        結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
        原形
        幽默大師(2019年10期)2019-10-17 02:09:24
        Baba Yaga邪惡女巫——芭芭亞加
        面板數(shù)據(jù)模型截面相關(guān)檢驗(yàn)方法綜述
        加熱爐爐內(nèi)跟蹤數(shù)據(jù)模型優(yōu)化
        基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
        基于軟信息的結(jié)構(gòu)化轉(zhuǎn)換
        面向集成管理的出版原圖數(shù)據(jù)模型
        一種顧及級(jí)聯(lián)時(shí)空變化描述的土地利用變更數(shù)據(jù)模型
        日本不卡的一区二区三区| 大陆极品少妇内射aaaaaa| 亚洲av无码专区电影在线观看| 国内精品大秀视频日韩精品| 国产 无码 日韩| 中文日本强暴人妻另类视频| 久久久久久自慰出白浆| 亚洲欧美成人一区二区在线电影| 国产午夜亚洲精品理论片不卡| 国产女人18毛片水真多| 亚洲精品AⅤ无码精品丝袜无码| 美女被躁到高潮嗷嗷免费观看| 国产成人av无码精品| 国产绳艺sm调教室论坛| 99久久人妻无码精品系列蜜桃| 国产精品毛片av一区二区三区| 亚洲字幕中文综合久久| 伊人久久大香线蕉av网禁呦| 二区在线视频| 亚洲综合天堂av网站在线观看| 国产精品久久久三级18| 国产午夜精品理论片| 国产亚洲女在线线精品| 日本丰满少妇高潮呻吟| 在线观看的a站免费完整版 | 欧美人与动人物牲交免费观看| 亚洲AV无码国产精品久久l| 日韩人妻中文字幕一区二区| 国产白浆一区二区在线| 香港三级日本三级a视频| 亚洲 欧美 唯美 国产 伦 综合 | 丰满多毛少妇做爰视频| 午夜视频免费观看一区二区| 国产精品福利高清在线| 日本一卡2卡3卡4卡无卡免费网站 亚洲av无码一区二区三区不卡 | 国产精品白浆无码流出| 久久一二三四区中文字幕| 麻豆精品一区二区综合av| 亚洲av麻豆aⅴ无码电影| 亚洲成a∨人片在线观看无码| 精品黑人一区二区三区久久hd |