亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于本體論的多源異構(gòu)數(shù)據(jù)集成方法研究

        2018-03-26 02:14:46劉金晶曹文潔
        軟件導刊 2018年3期
        關(guān)鍵詞:多源數(shù)據(jù)集成異構(gòu)

        劉金晶 曹文潔

        摘要:大數(shù)據(jù)時代信息呈指數(shù)級爆炸式增長,不同的數(shù)據(jù)采集、處理和存儲方式使得這些海量數(shù)據(jù)具有來源復雜、結(jié)構(gòu)異構(gòu)的特點,難以共享和互操作。傳統(tǒng)的數(shù)據(jù)集成方式已經(jīng)不能適應企業(yè)獲取信息、使用信息需求。為解決多源異構(gòu)的數(shù)據(jù)集成效率和質(zhì)量問題,基于本體論概念和語言,借鑒本體識別和表達方式,設計了一種領域內(nèi)表達數(shù)據(jù)屬性與關(guān)系的元模型?;谠撛P停瑢︻I域內(nèi)數(shù)據(jù)建立相應的模型并形成規(guī)則,規(guī)范和約束了多源異構(gòu)數(shù)據(jù)集成過程和質(zhì)量,提高了數(shù)據(jù)集成的效率和數(shù)據(jù)利用率。

        關(guān)鍵詞:多源;異構(gòu);數(shù)據(jù)集成;本體

        DOIDOI:10.11907/rjdk.172462

        中圖分類號:TP391

        文獻標識碼:A文章編號文章編號:16727800(2018)003019803

        英文摘要Abstract:The arrival of large data age makes the information exponentially explosive, and different data collection, processing and storage methods make these massive data have the characteristics of complex source structure, it is difficult to share and interoperate. The traditional way of data integration has been unable to apply to the enterprise to obtain information, the use of information needs. In order to solve the efficiency and quality of multisource heterogeneous data integration, this paper designs a metamodel that expresses the attributes and relationships of data in the field based on the concept and language of ontology and the recognition and expression of ontology. Based on this metamodel, the corresponding models are established in the data infield, the rules are formed, and the process and quality of multisource heterogeneous data integration are constrained, and the efficiency of data integration and data utilization are improved.

        英文關(guān)鍵詞Key Words:multisource;heterogeneous; data integration; ontology

        0引言

        信息技術(shù)革命與經(jīng)濟社會活動的交融催生了大數(shù)據(jù)。大數(shù)據(jù)是以容量大、類型多、存取速度快、應用價值高、價值密度低為主要特征的數(shù)據(jù)集合,常規(guī)技術(shù)無法滿足對這些紛繁復雜的海量信息進行采集、處理、分析與使用的需求[1]。因此,大數(shù)據(jù)的采集、分析和存儲技術(shù)不斷更新,大數(shù)據(jù)處理平臺得到了廣泛應用。

        通用的系統(tǒng)架構(gòu)與數(shù)據(jù)流包括以下工作:由前端網(wǎng)絡分流設備將多個業(yè)務系統(tǒng)和渠道發(fā)過來的數(shù)據(jù)流量接入到處理系統(tǒng),然后用軟硬件分流器對數(shù)據(jù)流進行分析、過濾、分發(fā)和推送,這是前端數(shù)據(jù)處理平臺;數(shù)據(jù)接入層接收前端的各類數(shù)據(jù)轉(zhuǎn)發(fā)到后端,由統(tǒng)一的數(shù)據(jù)抽取和轉(zhuǎn)換平臺對數(shù)據(jù)進行抽取、格式轉(zhuǎn)換并加載到大數(shù)據(jù)平臺,進行數(shù)據(jù)分析和數(shù)據(jù)挖掘,同時用戶還可根據(jù)挖掘需求,設計查詢?nèi)蝿樟骷案嗟膽孟到y(tǒng)[2]。

        1研究現(xiàn)狀

        多數(shù)據(jù)來源的系統(tǒng)不僅需要接入前端數(shù)據(jù),還包括大量的第三方數(shù)據(jù)、歷史數(shù)據(jù)、不同信息系統(tǒng)間的交換數(shù)據(jù)等。數(shù)據(jù)接入層面臨著數(shù)據(jù)量大、結(jié)構(gòu)參差不齊、數(shù)據(jù)質(zhì)量差等多方面的困難與挑戰(zhàn)。

        以公安行業(yè)數(shù)據(jù)為例,分為以下幾類:①公安基礎工作數(shù)據(jù)信息。包括人員信息、案件信息、物品信息、線索信息、場所信息等;②公安內(nèi)網(wǎng)共享數(shù)據(jù)信息。包括公安部及各省市公安內(nèi)網(wǎng)中的在逃人員信息、盜搶汽車信息、違法犯罪人員信息、法輪功信息、通緝令、預警信息、研判指令等;③外部社會信息。包括互聯(lián)網(wǎng)刊載的違法犯罪信息、商業(yè)網(wǎng)站異常信息、保險理賠信息、個人資信信息、中介機構(gòu)信息、檢察機關(guān)案件信息、審判機關(guān)案件信息、信用卡組織信息、公證機構(gòu)信息等[3]。

        在為綜合性數(shù)據(jù)平臺提供接入服務時,不僅要面對數(shù)據(jù)來源眾多、結(jié)構(gòu)差異較大的問題,還會涉及到地域不同、警種不同、建設廠商不同等帶來的數(shù)據(jù)差異性。同是犯罪嫌疑人信息,交通管理部門、刑事偵查部門、經(jīng)濟偵查部門等關(guān)注點完全不同,數(shù)據(jù)結(jié)構(gòu)存在很大差異;即使是相同業(yè)務,不同地方的業(yè)務系統(tǒng)建設廠商不同,所設計的數(shù)據(jù)結(jié)構(gòu)也完全不同;即使相同地方,早期上下級部門的業(yè)務系統(tǒng)也可能由不同廠商承建,存在同樣的問題;不同地域也會有不同的業(yè)務重點,可能有些地方的業(yè)務在另一些地方?jīng)]有,或者信息豐富程度差異很大。

        傳統(tǒng)的數(shù)據(jù)集成方法在一定程度上可以解決各數(shù)據(jù)源結(jié)構(gòu)上存在的異構(gòu)問題,但忽略了數(shù)據(jù)的語義信息,在進行數(shù)據(jù)共享和互操作時存在很多不足,檢索得到的共享數(shù)據(jù)冗余多,無效信息多[4]。

        一個好的多源異構(gòu)數(shù)據(jù)集成平臺,需要對多個數(shù)據(jù)源進行統(tǒng)一處理,屏蔽數(shù)據(jù)之間的物理和邏輯差異,實現(xiàn)統(tǒng)一的表示、存儲和管理,將多源異構(gòu)數(shù)據(jù)集成為互相理解、相互關(guān)聯(lián)的有機整體,以解決數(shù)據(jù)來源廣泛、結(jié)構(gòu)異構(gòu)問題[5],從而更好地發(fā)揮數(shù)據(jù)價值。

        2異構(gòu)數(shù)據(jù)集成

        為實現(xiàn)上述需求,基于本體論的異構(gòu)數(shù)據(jù)集成概念應運而生。

        本體最早是一個哲學概念,關(guān)心的是客觀現(xiàn)實的抽象本質(zhì)[6]。從20 世紀 90 年代開始,其引起了人工智能領域的廣泛關(guān)注,被應用在知識工程、知識表達、自然語言理解、 信息檢索、信息集成和知識管理等諸多領域,并隨著應用的范圍越來越廣而賦予了一些新的含義。

        本體定義為共享概念模型的形式化規(guī)范說明,其有4層含義:①概念模型指通過抽象出客觀世界中一些現(xiàn)象的相關(guān)概念而得到的模型,所表現(xiàn)的含義獨立于具體的環(huán)境狀態(tài);②使用的概念及使用這些概念的約束都有明確定義;③形式化指本體是計算機可讀的;④共享指本體中體現(xiàn)的是共同認可的知識,反映的是相關(guān)領域中公認的概念集。本體有良好的概念層次結(jié)構(gòu),能有效支持邏輯推理。本體的目標是捕獲相關(guān)領域知識[7],提供對該領域知識的共同理解,確定該領域內(nèi)共同認可的詞匯,并從不同層次的形式化模式上給出這些詞匯與詞匯間相互關(guān)系的明確定義。因此,基于本體的異構(gòu)數(shù)據(jù)集成系統(tǒng),首先,需要領域?qū)<覅⑴c創(chuàng)建領域本體,提供共享知識庫;其次,需要表達能力豐富并具有一定邏輯推理能力的本體描述語言;最后,通過選擇合理的映射方法,將不同數(shù)據(jù)源的語義異構(gòu)數(shù)據(jù)轉(zhuǎn)換成集成系統(tǒng)能夠理解的統(tǒng)一語義信息。此外, 系統(tǒng)還應具有一定的普遍性和可擴展性[6]。

        3實踐案例

        為適應多地市、多系統(tǒng)、多來源、多結(jié)構(gòu)的各式數(shù)據(jù)接入與匯聚,本文通過分析來源數(shù)據(jù),利用本體概念,結(jié)合領域知識,設計了一套基于本體論的元模型,如圖1所示,圖中的類代表本體。

        類具有以下屬性:

        (1)類名:唯一定義一個類,類名遵循相應的表達規(guī)范,由“角色”、“修飾詞”、“本體”組成,角色、修飾詞為可選,但主體部分必須明確,即類的本體。如“手機號碼”、“完整的手機號碼”、“負責人完整的手機號碼”都是符合規(guī)范的類名。

        (2)規(guī)范:定義了類的實例校驗方法,比如“手機號碼”規(guī)范可以是一個校驗手機號是否合法的正則表達式。不是所有的類都有明確的規(guī)范,比如“聯(lián)系方式”就不具備規(guī)范條件。

        (3)值域:定語了類的實例范圍,比如“行政區(qū)劃”的值域是一個由區(qū)劃代碼組成的集合,年齡可以是一個[0,120]的閉區(qū)間,不是所有類都有明確的值域。

        (4)說明:對該類的上下文、出現(xiàn)場景進行說明,便于工作人員進行知識庫維護。

        根據(jù)實際的數(shù)據(jù)接入、匯聚和提取需求,定義類之間的關(guān)系:①等價:雙方除了類名和上下文不同,代表了不同的本體,但規(guī)范、值域完全相同,比如“固定電話”和“傳真號碼”之間的關(guān)系就是等價關(guān)系;②映射等價:雙方除了類名和上下文不同,代表了不同的本體,但雙方的值域存在映射關(guān)系,且進行映射運算后值域相等,如“行政區(qū)劃”和“郵政編碼”;③組成:一個類的實例由明確的規(guī)則組成,比如“完整的固化號碼”就是由“電話區(qū)號”、“固化號碼”、“分機號”組成;④推導:一個類的實例可以推導出其它類的實例,比如“身份證號碼”就可以推導出“戶籍地區(qū)劃”、“出生日期”、“性別”等;⑤包含:A類在特定情境下的實例集合組成了B類,則稱A類包含B類,也即A是B的父類,B是A的子類。B類完全繼承A類的規(guī)則和值域,但可以有自己獨特的規(guī)則和值域;⑥依賴:兩個類總是同時出現(xiàn),單獨出現(xiàn)無法傳遞完整的信息,B類的規(guī)范和值域依賴于A類的取值,如“證件類型”和“證件號碼”。

        根據(jù)以上元模型定義,對聯(lián)系電話相關(guān)的類建立模型如圖2所示。

        圖2中“聯(lián)系電話”、“短信號碼”、“一般手機號”都是沒有確定的校驗規(guī)范和值域的類,但在業(yè)務領域中有些場景采集的數(shù)據(jù)就屬于這些類。

        建立這樣的模型后,數(shù)據(jù)的接入?yún)R聚問題就轉(zhuǎn)變成哪些類需要匯聚到父類、哪些類需要接入到子類、哪些類需要進行推導運算后接入到匹配的類的問題。通過將要集成的數(shù)據(jù)集屬性與這些類之間建立映射關(guān)系的規(guī)則,約束數(shù)據(jù)接入時的可選范圍,并根據(jù)類的規(guī)范校驗,規(guī)范來源數(shù)據(jù),實現(xiàn)數(shù)據(jù)交換與共享[7]。同時這些規(guī)則經(jīng)過最初的業(yè)務總結(jié)、試驗、沉淀之后,可以積累為規(guī)則庫,為后續(xù)數(shù)據(jù)接入?yún)R聚的程序化實現(xiàn)奠定基礎。

        基于需求和模型復雜度,結(jié)構(gòu)化數(shù)據(jù)庫可以承載所有的模型數(shù)據(jù)、實例數(shù)據(jù)和規(guī)則數(shù)據(jù)。這些知識數(shù)據(jù)量不大,但很重要,對一致性、高可靠性要求很高,所以采用傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫存儲這些數(shù)據(jù)。

        通過上述方案,再結(jié)合逐漸完善的行業(yè)數(shù)據(jù)標準,多源異構(gòu)數(shù)據(jù)集成工作效率得到了顯著提升,全新的數(shù)據(jù)接入由原來的每人每天3~5個數(shù)據(jù)集提升到每人每天5~10個數(shù)據(jù)集,且通過這種集成方式接入的數(shù)據(jù)質(zhì)量有了明顯改善,基本杜絕了完全不兼容的類的數(shù)據(jù)接入錯誤。

        4結(jié)語

        數(shù)據(jù)紛繁復雜、多樣與海量的特點,給大數(shù)據(jù)集成的效率、質(zhì)量帶來了很大困難,最終造成數(shù)據(jù)接入效率低下、數(shù)據(jù)質(zhì)量不高、數(shù)據(jù)整合率、利用率低等問題。本文提出一種基于本體論的多源異構(gòu)數(shù)據(jù)接入和匯聚方法,通過建立領域內(nèi)的本體類庫并定義它們之間的關(guān)系,使每個接入數(shù)據(jù)的屬性都有對應的本體類,通過類之間的關(guān)系約束規(guī)范數(shù)據(jù)接入過程和結(jié)果,提高了項目實施效率,提升了數(shù)據(jù)質(zhì)量,為數(shù)據(jù)平臺更好地使用數(shù)據(jù)、分析數(shù)據(jù)、挖掘知識提供了很好的數(shù)據(jù)基礎。

        參考文獻參考文獻:

        [1]張春艷.大數(shù)據(jù)時代的公共安全治理[J].國家行政學院學報,2014(5):102103.

        [2]公安情報大數(shù)據(jù)解決方案[EB/OL].http://www.sugon.com/solution/detail/id/936.html.

        [3]馬新建,夏士雄.基于本體的多源異構(gòu)數(shù)據(jù)集成方法研究[J].軟件天地,2008(6):291292.

        [4]李亢,李新明,劉東.多源異構(gòu)裝備數(shù)據(jù)集成研究綜述[J].中國電子科學研究院學報,2015(2):162163.

        [5]蘇立悅,董明,楊東.大規(guī)模定制下基于本體的服務產(chǎn)品配置研究[J].計算機應用研究,2010(2):483484.

        [6]馬新建,夏士雄.基于本體的多源異構(gòu)數(shù)據(jù)集成方法研究[J].軟件天地,2008(9):291292.

        [7]劉文韜,陳智宏,許炎,等.基于本體論的交通異構(gòu)數(shù)據(jù)集成系統(tǒng)[J].計算機系統(tǒng)應用,2010,19(3):1011.

        責任編輯(責任編輯:杜能鋼)

        猜你喜歡
        多源數(shù)據(jù)集成異構(gòu)
        ETC拓展應用場景下的多源異構(gòu)交易系統(tǒng)
        試論同課異構(gòu)之“同”與“異”
        基于GNSS硬件在環(huán)的多源融合定位高逼真仿真方法
        異構(gòu)醇醚在超濃縮洗衣液中的應用探索
        overlay SDN實現(xiàn)異構(gòu)兼容的關(guān)鍵技術(shù)
        電信科學(2016年11期)2016-11-23 05:07:56
        成本與制造數(shù)據(jù)集成分析
        基于Biztalk的異構(gòu)醫(yī)療信息系統(tǒng)數(shù)據(jù)集成研究
        信息系統(tǒng)集成與數(shù)據(jù)集成策略研究
        一種利用點特征和互信息的多源遙感影像配準方法
        遙感信息(2015年3期)2015-12-13 07:26:54
        基于數(shù)據(jù)集成的水上項目國家隊數(shù)據(jù)庫網(wǎng)絡管理平臺的設計與開發(fā)
        国产在线看不卡一区二区| 一本久道久久综合狠狠操| 国产综合一区二区三区av| 日本97色视频日本熟妇视频| 中文字幕亚洲入口久久| 久草视频在线播放免费| 激情五月天色婷婷久久| 在线视频观看国产色网| 免费欧洲毛片a级视频老妇女| 农村欧美丰满熟妇xxxx| 少妇被爽到高潮动态图| 亚洲中文字幕第一页在线| 91久久国产综合精品| 在线视频日韩精品三区| 亚洲精品中文字幕一二三四| 亚洲av无码国产精品色午夜字幕| 中文字幕熟妇人妻在线视频| 亚洲最大成av人网站| 中文字幕亚洲精品码专区| 国产一区二区三区精品成人爱| 国产丝袜长腿美臀在线观看| 无码人妻精品中文字幕| 国产精品成人久久电影| 色两性网欧美| 国产一区二区三区视频免费在线| 亚洲日本一区二区三区四区| 亚洲国产精品久久久久秋霞小说| 午夜性无码专区| 乱码午夜-极国产极内射| 日韩在线视精品在亚洲| 精品女同av一区二区三区| 国产日产桃色精品久久久| 亚洲精品美女久久777777| 国产va免费精品高清在线| 亚洲熟妇无码久久精品疯| 色婷婷av一区二区三区不卡| 亚洲av成人精品一区二区三区 | 日韩中文字幕精品免费一区| 亚洲在中文字幕乱码熟女| 久久亚洲中文字幕乱码| 亚洲精品久久久久久久不卡四虎|