亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        物聯(lián)網(wǎng)海量異構(gòu)數(shù)據(jù)存儲(chǔ)與共享策略研究

        2016-05-31 07:24:43李廷力
        電子學(xué)報(bào) 2016年2期
        關(guān)鍵詞:數(shù)據(jù)存儲(chǔ)物聯(lián)網(wǎng)

        田 野,袁 博,李廷力

        (1.中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心物聯(lián)網(wǎng)信息中心,北京100190; 2.北京百度網(wǎng)訊科技有限公司,北京100085)

        ?

        物聯(lián)網(wǎng)海量異構(gòu)數(shù)據(jù)存儲(chǔ)與共享策略研究

        田野1,袁博1,李廷力2

        (1.中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心物聯(lián)網(wǎng)信息中心,北京100190; 2.北京百度網(wǎng)訊科技有限公司,北京100085)

        摘要:隨著物聯(lián)網(wǎng)向各行業(yè)的深入發(fā)展,各行業(yè)的信息化進(jìn)程也進(jìn)入了快車道.信息服務(wù)作為物聯(lián)網(wǎng)在各行業(yè)應(yīng)用中重要的公共服務(wù)之一,一直受到廣泛關(guān)注.然而,當(dāng)前物聯(lián)網(wǎng)信息服務(wù)系統(tǒng)面對(duì)物聯(lián)網(wǎng)海量異構(gòu)數(shù)據(jù)存在性能低下、共享困難等問題.因此,本文提出了一種基于NoSQL、REST以及國(guó)家物聯(lián)網(wǎng)標(biāo)識(shí)管理公共服務(wù)平臺(tái)(NIOT)的存儲(chǔ)與共享策略,并著重對(duì)該系統(tǒng)的構(gòu)成、邏輯設(shè)計(jì)進(jìn)行了詳盡闡述.針對(duì)性能改進(jìn)的策略設(shè)計(jì)了適當(dāng)?shù)牧炕u(píng)測(cè),實(shí)驗(yàn)結(jié)果表明提出策略具有較好的效果,基于實(shí)驗(yàn)結(jié)果對(duì)進(jìn)一步的優(yōu)化進(jìn)行了討論.

        關(guān)鍵詞:物聯(lián)網(wǎng);海量異構(gòu)數(shù)據(jù);信息服務(wù)系統(tǒng);數(shù)據(jù)存儲(chǔ);數(shù)據(jù)共享

        1 引言

        物聯(lián)網(wǎng)雖然已在物流、交通、電力等行業(yè)形成了一定規(guī)模的應(yīng)用,但整體還處于發(fā)展初期,其信息化、智能化程度仍然較低,需要專門的研究以突破物聯(lián)網(wǎng)信息化、智能化進(jìn)程中的難題.

        從信息處理視角出發(fā),如圖1左邊所示,物聯(lián)網(wǎng)至下而上可分為四個(gè)層次:感知層、網(wǎng)絡(luò)層、數(shù)據(jù)層以及應(yīng)用層.信息服務(wù)系統(tǒng)位于數(shù)據(jù)層,它向下接收海量多源異構(gòu)的數(shù)據(jù),向上服務(wù)于各類規(guī)模應(yīng)用,提供多樣化的信息服務(wù),起到承上啟下的作用,是實(shí)現(xiàn)物聯(lián)網(wǎng)互聯(lián)互通的前提;基于信息服務(wù)系統(tǒng),可使物聯(lián)網(wǎng)應(yīng)用具備對(duì)現(xiàn)實(shí)世界各類物體的信息采樣、智能追蹤、智能監(jiān)控和智能管理等功能,因此,物聯(lián)網(wǎng)信息服務(wù)系統(tǒng)是物聯(lián)網(wǎng)信息化進(jìn)程中不可或缺的基石.

        作為物聯(lián)網(wǎng)信息化、智能化的重要手段,物聯(lián)網(wǎng)信息服務(wù)系統(tǒng)是一個(gè)重要的研究方向.其結(jié)構(gòu)如圖1右邊所示,物聯(lián)網(wǎng)信息服務(wù)系統(tǒng)主要由持久化存儲(chǔ)系統(tǒng)、數(shù)據(jù)接口、服務(wù)操作、安全機(jī)制、共享機(jī)制等部分構(gòu)成;在功能上,該系統(tǒng)目標(biāo)是存儲(chǔ)并管理物聯(lián)網(wǎng)數(shù)據(jù),支撐不同規(guī)模數(shù)據(jù)(實(shí)時(shí)的、歷史性的)的信息處理,并提供良好的開放性,支持不同物聯(lián)網(wǎng)應(yīng)用之間實(shí)現(xiàn)數(shù)據(jù)共享.基于該系統(tǒng),物聯(lián)網(wǎng)應(yīng)用可實(shí)現(xiàn)對(duì)現(xiàn)實(shí)世界各類物體的信息采樣以及智能追蹤、監(jiān)控和管理等功能.

        物聯(lián)網(wǎng)數(shù)據(jù)具有多源異構(gòu)、規(guī)模巨大、時(shí)空關(guān)聯(lián)、冗余度高、多維標(biāo)量等特性[1],現(xiàn)有物聯(lián)網(wǎng)信息服務(wù)系統(tǒng)解決方案在時(shí)空關(guān)聯(lián)處理,多維事件查詢等方面取得了較多成果,但在面對(duì)海量異構(gòu)數(shù)據(jù)時(shí)還存在存儲(chǔ)性能差、數(shù)據(jù)共享困難的問題.?dāng)?shù)據(jù)存儲(chǔ)問題主要體現(xiàn)在老式關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)模式不能滿足多源、異構(gòu)、海量的物聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)需求.?dāng)?shù)據(jù)共享問題主要體現(xiàn)在缺乏有效共享機(jī)制解決物聯(lián)網(wǎng)應(yīng)用閉環(huán),容易形成信息孤島.針對(duì)以上兩個(gè)問題,本文開展物聯(lián)網(wǎng)信息服務(wù)系統(tǒng)海量異構(gòu)數(shù)據(jù)的存儲(chǔ)與共享策略研究,提出一種基于非關(guān)系型數(shù)據(jù)庫(kù)(Not Only SQL,NoSQL)技術(shù)的存儲(chǔ)方案和策略,實(shí)驗(yàn)證明,該方案提高了海量數(shù)據(jù)下物聯(lián)網(wǎng)信息服務(wù)系統(tǒng)的性能;同時(shí)探索了異構(gòu)物聯(lián)網(wǎng)數(shù)據(jù)的共享機(jī)制,助力于打破物聯(lián)網(wǎng)普遍存在的應(yīng)用閉環(huán).

        2 相關(guān)工作

        2.1物聯(lián)網(wǎng)海量數(shù)據(jù)存儲(chǔ)

        數(shù)據(jù)存儲(chǔ)是物聯(lián)網(wǎng)信息服務(wù)系統(tǒng)的核心,許多工作都基于不同技術(shù)(文件系統(tǒng)、數(shù)據(jù)庫(kù))開展對(duì)物聯(lián)網(wǎng)海量數(shù)據(jù)存儲(chǔ)的研究,并取得不少成果.

        (1)基于文件系統(tǒng)

        多數(shù)研究關(guān)注使用分布式文件系統(tǒng)存儲(chǔ)物聯(lián)網(wǎng)海量數(shù)據(jù)[2,3],這類文件系統(tǒng)建立于本地文件系統(tǒng)上,通過網(wǎng)絡(luò)將若干存儲(chǔ)節(jié)點(diǎn)相連,邏輯上將獨(dú)立的存儲(chǔ)節(jié)點(diǎn)聚合為一個(gè)文件系統(tǒng)整體,統(tǒng)一管理節(jié)點(diǎn)物理資源,同時(shí)提供并發(fā)控制實(shí)現(xiàn)多用戶文件訪問,可以解決I/O瓶頸、空間動(dòng)態(tài)擴(kuò)展等問題.

        然而,無論是本地文件系統(tǒng)還是分布式文件系統(tǒng),都存在如下問題:文件結(jié)構(gòu)與應(yīng)用緊耦合導(dǎo)致數(shù)據(jù)共享困難;數(shù)據(jù)冗余度大導(dǎo)致數(shù)據(jù)不一致;大量物聯(lián)網(wǎng)小數(shù)據(jù)[2]需要專門處理方法[4,5];物聯(lián)網(wǎng)數(shù)據(jù)的多維度、多粒度特性導(dǎo)致數(shù)據(jù)檢索困難;文件系統(tǒng)處理實(shí)時(shí)在線數(shù)據(jù)流處理能力較差.

        因此,基于文件系統(tǒng)的方案并不適用于存儲(chǔ)物聯(lián)網(wǎng)海量數(shù)據(jù).

        (2)基于數(shù)據(jù)庫(kù)技術(shù)

        數(shù)據(jù)庫(kù)技術(shù)從數(shù)據(jù)模型角度主要分為兩大類:關(guān)系型數(shù)據(jù)庫(kù)和非關(guān)系型數(shù)據(jù)庫(kù).

        關(guān)系型數(shù)據(jù)庫(kù)技術(shù)成熟,多數(shù)物聯(lián)網(wǎng)海量存儲(chǔ)方案都選擇這種技術(shù)為基礎(chǔ)[6,7].然而,簡(jiǎn)單將數(shù)據(jù)庫(kù)推廣至物聯(lián)網(wǎng)很難滿足其需求,因此一些研究針對(duì)物聯(lián)網(wǎng)數(shù)據(jù)的特性提出了相應(yīng)地解決方案,文獻(xiàn)[8]在分析物品移動(dòng)路徑特征與采樣數(shù)據(jù)實(shí)際應(yīng)用狀況的基礎(chǔ)上,針對(duì)物流倉(cāng)儲(chǔ)提出了一個(gè)面向RFID海量數(shù)據(jù)的新數(shù)據(jù)模型RFID-Cuboids,既完整保存了物品狀態(tài)變化,又對(duì)數(shù)據(jù)進(jìn)行了顯著壓縮.由于上述存儲(chǔ)方案僅針對(duì)物聯(lián)網(wǎng)某種技術(shù)或業(yè)務(wù)領(lǐng)域,應(yīng)用場(chǎng)景局限性大.因此,文獻(xiàn)[9]面向整個(gè)物聯(lián)網(wǎng),特別針對(duì)物聯(lián)網(wǎng)數(shù)據(jù)時(shí)空關(guān)聯(lián)特性,在改良RDBMS基礎(chǔ)上提出了兼容鍵值(Key-Value)查詢方式的數(shù)據(jù)庫(kù)模型RDB-KV.該方案對(duì)于重復(fù)度較高的數(shù)據(jù),在保證數(shù)據(jù)正確性的前提下減少了數(shù)據(jù)量,提高了數(shù)據(jù)質(zhì)量.然而該方案核心技術(shù)為RDBMS,它處理物聯(lián)網(wǎng)數(shù)據(jù)存在海量數(shù)據(jù)存儲(chǔ)困難、不支持模糊查詢、不滿足數(shù)據(jù)流實(shí)時(shí)查詢需求等不足.

        因此,一些新興的數(shù)據(jù)庫(kù)技術(shù)得到了不少關(guān)注,尤其是NoSQL技術(shù).該技術(shù)由于性能、擴(kuò)展性方面的優(yōu)勢(shì)已在互聯(lián)網(wǎng)中處理大數(shù)據(jù)方面有較成功的應(yīng)用.較為流行的開源NoSQL數(shù)據(jù)庫(kù)有MongoDB、Redis以及Cas-sandra等;應(yīng)用較廣的非開源數(shù)據(jù)庫(kù)有谷歌的BigTable以及亞馬遜的Dynamo等.

        已有一些工作將NoSQL數(shù)據(jù)庫(kù)應(yīng)用于物聯(lián)網(wǎng)領(lǐng)域,如文獻(xiàn)[10]將NoSQL應(yīng)用構(gòu)建物聯(lián)網(wǎng)異構(gòu)多媒體數(shù)據(jù)存儲(chǔ)架構(gòu).但由于NoSQL技術(shù)種類眾多,該方案并未給出合理的選擇依據(jù).此外,已有方案對(duì)物聯(lián)網(wǎng)感知數(shù)據(jù)的時(shí)空關(guān)聯(lián)性以及數(shù)據(jù)不確定性方面并沒進(jìn)行研究,對(duì)于如何使用NoSQL應(yīng)對(duì)物聯(lián)網(wǎng)數(shù)據(jù)的種類特性研究深度不夠.

        (3)混合技術(shù)

        部分應(yīng)用出于自身考慮設(shè)計(jì)了數(shù)據(jù)庫(kù)與文件系統(tǒng)結(jié)合使用的方式.

        文獻(xiàn)[11]針對(duì)智能電網(wǎng)數(shù)據(jù)存儲(chǔ),設(shè)計(jì)了RDBMS與本地文件系統(tǒng)結(jié)合的存儲(chǔ)架構(gòu),將數(shù)據(jù)存儲(chǔ)于文件系統(tǒng)中,而文件路徑及時(shí)間信息則存儲(chǔ)于數(shù)據(jù)庫(kù).該方案本質(zhì)上是對(duì)本地文件系統(tǒng)方案的改進(jìn),提高文件檢索效率.但這種改進(jìn)效果不大,其仿真實(shí)驗(yàn)結(jié)果表明,其執(zhí)行時(shí)間長(zhǎng)、性能差.文獻(xiàn)[3]使用分布式文件系統(tǒng)HDFS與數(shù)據(jù)庫(kù)結(jié)合構(gòu)建智慧醫(yī)療應(yīng)用,對(duì)不同格式數(shù)據(jù)進(jìn)行了分類存儲(chǔ),借助數(shù)據(jù)庫(kù)的強(qiáng)大查詢功能支持語義規(guī)則分析.

        混合式可以利用數(shù)據(jù)庫(kù)與文件系統(tǒng)各自的優(yōu)點(diǎn),但由于涉及兩類存儲(chǔ)系統(tǒng),在訪問數(shù)據(jù)時(shí)比單一系統(tǒng)增加了額外的開銷,系統(tǒng)性能也會(huì)受到影響.

        2.2物聯(lián)網(wǎng)數(shù)據(jù)共享

        在物聯(lián)網(wǎng)數(shù)據(jù)共享方面,數(shù)據(jù)交換標(biāo)準(zhǔn)定義了物聯(lián)網(wǎng)數(shù)據(jù)交換協(xié)議與交互方式.PML(Physical Markup Language,物理標(biāo)識(shí)語言)、EDDL(Electronic Device Description Language,電子設(shè)備描述語言)、M2MXML及NGTP (Next Generation Telematics Protocol,下一代遠(yuǎn)距離通信協(xié)議)是物聯(lián)網(wǎng)中主流的應(yīng)用層數(shù)據(jù)交換標(biāo)準(zhǔn),應(yīng)用于某特定行業(yè)、領(lǐng)域或業(yè)務(wù).由于各標(biāo)準(zhǔn)本身的局限性,難以通過它們實(shí)現(xiàn)不同物聯(lián)網(wǎng)應(yīng)用之間的無縫連接與互聯(lián)互通,這也正是物聯(lián)網(wǎng)閉環(huán)產(chǎn)生的重要原因之一.

        因此,有大量研究解決感知網(wǎng)與互聯(lián)網(wǎng)數(shù)據(jù)共享問題.框架方面,文獻(xiàn)[12]基于DNS提出物聯(lián)網(wǎng)數(shù)據(jù)共享框架,但僅是理論探討;技術(shù)方面,受限應(yīng)用協(xié)議(Constrained Application Protocol,CoAP)[13]為受限網(wǎng)絡(luò)和節(jié)點(diǎn)制定符合REST風(fēng)格的應(yīng)用協(xié)議,通過特定網(wǎng)關(guān)實(shí)現(xiàn)CoAP協(xié)議與HTTP協(xié)議的映射,達(dá)到物聯(lián)網(wǎng)與互聯(lián)網(wǎng)進(jìn)行數(shù)據(jù)共享目的.此外,文獻(xiàn)[14]研究了如何使用REST接口共享傳感數(shù)據(jù),文獻(xiàn)[15]研究了REST在RFID網(wǎng)絡(luò)中的應(yīng)用.因此,REST更有利于實(shí)現(xiàn)物聯(lián)網(wǎng)異構(gòu)數(shù)據(jù)共享.

        總體而言,當(dāng)前的物聯(lián)網(wǎng)信息服務(wù)系統(tǒng)的研究存在兩個(gè)突出的問題:面向物聯(lián)網(wǎng)海量數(shù)據(jù),存儲(chǔ)性能較低;面向物聯(lián)網(wǎng)異構(gòu)數(shù)據(jù),缺乏有效的共享機(jī)制,導(dǎo)致了物聯(lián)網(wǎng)應(yīng)用閉環(huán)的廣泛存在.

        3 面向物聯(lián)網(wǎng)海量異構(gòu)數(shù)據(jù)的存儲(chǔ)方案及策略

        3.1存儲(chǔ)技術(shù)選擇

        3.1.1定性分析

        主流存儲(chǔ)技術(shù)有RDBMS和NoSQ,LNoSQL在性能、擴(kuò)展性和異構(gòu)數(shù)據(jù)處理更優(yōu),對(duì)數(shù)據(jù)一致性要求不高,更加符合物聯(lián)網(wǎng)需求.從數(shù)據(jù)模型的角度,NoSQL可分為四類: (1)鍵值(Key-Value)型,通過某種方式為值建立索引,值通過一個(gè)唯一的鍵進(jìn)行檢索,典型代表為Redis、Membase、Voldemort; (2)文檔型(Document),將key-value對(duì)封裝到j(luò)son或類json文檔中,文檔可嵌套,典型代表有MongoDB、CouchDB、Riak; (3)列式(Column Family),存儲(chǔ)數(shù)據(jù)以“列”為單位,典型代表有Cassandra、Hbase、Hypertable; (4)圖式(Graph),管理有復(fù)雜密集關(guān)聯(lián)的數(shù)據(jù),適于基于關(guān)系復(fù)雜數(shù)據(jù)的應(yīng)用,典型代表有Neo4J、GraphDB等.

        下面對(duì)NoSQL的Redis、MongoDB、Cassandra以及RDBMS的MySQL進(jìn)行評(píng)測(cè)分析: MySQL適合在線事務(wù)處理應(yīng)用,但由于其擴(kuò)展性差,不適合物聯(lián)網(wǎng)海量異構(gòu)數(shù)據(jù)存儲(chǔ); Redis是純內(nèi)存操作,性能高,但海量數(shù)據(jù)很難全內(nèi)存處理; MongoDB不僅支持海量數(shù)據(jù)存儲(chǔ),還有效解決海量數(shù)據(jù)訪問效率問題,且支持復(fù)雜數(shù)據(jù)結(jié)構(gòu),能有效應(yīng)對(duì)異構(gòu)數(shù)據(jù); Cassandra是由一堆數(shù)據(jù)庫(kù)節(jié)點(diǎn)共同構(gòu)成的一個(gè)分布式網(wǎng)絡(luò)服務(wù),也適用于海量數(shù)據(jù)存儲(chǔ),其數(shù)據(jù)接口與MongoDB類似,但查詢稍弱.因此,MongoDB與Cassandra能滿足物聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)需求,能支持海量數(shù)據(jù)背景下物聯(lián)網(wǎng)信息服務(wù)系統(tǒng)的構(gòu)建.

        3.1.2定量分析

        本文設(shè)計(jì)了如下性能測(cè)評(píng),為確定具體數(shù)據(jù)庫(kù)技術(shù)提供量化依據(jù).評(píng)測(cè)包括:

        (1)并發(fā)寫測(cè)試,分別使用1、2、4、8、16個(gè)線程向數(shù)據(jù)庫(kù)插入數(shù)據(jù),每個(gè)線程共插入10萬條數(shù)據(jù),每次寫入一條.并發(fā)寫性能計(jì)算方法如下:

        其中,Pinsert表示插入性能,計(jì)量單位為“條/秒”,Nthread表示線程數(shù),Ninsert表示每條線程插入記錄數(shù),tmax表示最長(zhǎng)耗時(shí).所有測(cè)試用例執(zhí)行5次,結(jié)果為去掉最大、最小值后取平均值.

        (2)并發(fā)讀測(cè)試,分別使用1、2、4、8、16、32、64個(gè)線程對(duì)各個(gè)數(shù)據(jù)庫(kù)執(zhí)行查詢.查詢內(nèi)容等效于如下SQL語句:

        select * from dataset where moteid ='1'and date ='2004-03-22';

        讀測(cè)試數(shù)據(jù)規(guī)模約5000萬條,結(jié)果集約5萬條.由于查詢規(guī)模大,一次查詢耗時(shí)長(zhǎng),因此并發(fā)讀性能以查詢時(shí)延衡量,結(jié)果取各線程最長(zhǎng)耗時(shí),測(cè)試用例同樣執(zhí)行五遍并按前文所述方法取平均值.圖2展示并發(fā)讀寫的性能評(píng)測(cè)結(jié)果,其中Redis性能最優(yōu),MongoDB其次.

        綜上所述,MongoDB最適用于支持物聯(lián)網(wǎng)信息服務(wù)系統(tǒng)建設(shè),雖然性能較Redis低,但在應(yīng)對(duì)海量數(shù)據(jù)方面具備更大優(yōu)勢(shì).

        3.2存儲(chǔ)策略

        本文針對(duì)海量異構(gòu)物聯(lián)網(wǎng)數(shù)據(jù)提出了存儲(chǔ)策略,包含:預(yù)處理、統(tǒng)一數(shù)據(jù)表達(dá)方式、數(shù)據(jù)分布等.在預(yù)處理中,將物聯(lián)網(wǎng)數(shù)據(jù)分為輕量級(jí)數(shù)據(jù)和多媒體數(shù)據(jù),并將多媒體數(shù)據(jù)進(jìn)行輕量化處理存儲(chǔ),減少存儲(chǔ)數(shù)據(jù)量,提高數(shù)據(jù)質(zhì)量;統(tǒng)一數(shù)據(jù)表達(dá)方式使得物聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)更規(guī)范,易于共享;數(shù)據(jù)分布主要從數(shù)據(jù)和數(shù)據(jù)庫(kù)層面入手,改善存儲(chǔ)效率.

        3.2.1知識(shí)密度

        下面先定義“知識(shí)密度”概念.

        定義1知識(shí)密度.指盡可完整表述某特定信息所需的數(shù)據(jù)量與原始數(shù)據(jù)量之比,用小數(shù)表示.

        例如,一段音頻最高噪聲為85分貝,這個(gè)“知識(shí)”用字符串表示:<max-noise: 85>

        假設(shè)音頻大小為1KB,而該字符串14個(gè)英文字符,占14字節(jié),則其知識(shí)密度為0.0137(14/1024).

        知識(shí)密度大小由具體關(guān)心的知識(shí)決定.仍以音頻為例,若要獲得不同時(shí)間段噪聲大小,通過處理手段得出噪聲序列{ 16,23,85,45,61},仍用字符串表示: <noise-seq: 16,23,85,45,61>

        該知識(shí)密度為0.0254(26/1024),比之前高.

        3.2.2預(yù)處理

        數(shù)據(jù)預(yù)處理由數(shù)據(jù)接收節(jié)點(diǎn)完成,處理過程如圖3所示,主要有四個(gè)處理階段,其中如下兩個(gè)階段是本文提出的預(yù)處理策略中的核心:

        (1)數(shù)據(jù)分類

        原始采樣數(shù)據(jù)被分為兩類:輕量級(jí)數(shù)據(jù),包括數(shù)值型及字符型,其特征是占用空間小,傳輸開銷少;多媒體數(shù)據(jù),包括視頻、圖像、音頻以及信號(hào)等,其特征是存儲(chǔ)空間和計(jì)算資源需求大.在預(yù)處理中,針對(duì)這兩類不同數(shù)據(jù)處理方式各異.

        (2)增稠知識(shí)密度

        增稠知識(shí)密度是存儲(chǔ)策略中的重要處理步驟,主要針對(duì)多媒體數(shù)據(jù).多媒體數(shù)據(jù)占用存儲(chǔ)空間大,知識(shí)密度低,需要輕量化處理,提取有價(jià)值部分,將關(guān)鍵知識(shí)以較低數(shù)據(jù)量進(jìn)行存儲(chǔ),提高數(shù)據(jù)應(yīng)用效率,其原始數(shù)據(jù)可根據(jù)實(shí)際需求確定是否保存.

        根據(jù)實(shí)際應(yīng)用需要,輕量化多媒體數(shù)據(jù)時(shí)需要提取出兩類數(shù)據(jù)值,最大化保存數(shù)據(jù)蘊(yùn)含信息:興趣值,通過算法提取應(yīng)用最關(guān)心的信息,如智能交通系統(tǒng)需要從監(jiān)控視頻中分析出一小時(shí)內(nèi)交通違規(guī)數(shù)量及違規(guī)車輛的車牌號(hào)等;摘要值,同樣由特定算法計(jì)算(如MD5),用于對(duì)多媒體數(shù)據(jù)進(jìn)行簡(jiǎn)要描述,其知識(shí)密度幾乎為0,是固定長(zhǎng)度字符串,用于輔助多媒體數(shù)據(jù)去重與檢索,如判定兩幅圖是否一樣可通過比對(duì)摘要值.

        3.2.3數(shù)據(jù)表達(dá)

        物聯(lián)網(wǎng)數(shù)據(jù)的異構(gòu)性為數(shù)據(jù)表達(dá)帶來了困難,標(biāo)準(zhǔn)化表達(dá)方式有助于降低數(shù)據(jù)存儲(chǔ)難度,提高數(shù)據(jù)管理效率,方便數(shù)據(jù)共享.本文設(shè)計(jì)一種統(tǒng)一方式實(shí)現(xiàn)異構(gòu)物聯(lián)網(wǎng)數(shù)據(jù)的表達(dá),整體設(shè)計(jì)如下:

        結(jié)合NoSQL數(shù)據(jù)庫(kù)數(shù)據(jù)格式特點(diǎn),信息服務(wù)系統(tǒng)中原子存儲(chǔ)單元定義為SampleElement:

        SampleElement是有序鍵值對(duì),其中key∈Char,是value的名稱;而value∈Char∪Number,用于存儲(chǔ)實(shí)際采樣值,實(shí)例如下:<temperature: 50>或<audioText: “Hello world”>,表示采樣溫度50℃,從音頻中提取文本“Hello world”.

        如圖4所示,信息服務(wù)系統(tǒng)中基本存儲(chǔ)單元是一條記錄,即SampleRecord,由SampleElement構(gòu)成的集合.SampleRecord包括兩部分信息:靜態(tài)信息,如物體對(duì)象ID、所屬領(lǐng)域、物體類型等,是物體的特征信息,基本保持不變,只需存儲(chǔ)一次;動(dòng)態(tài)信息,即物體實(shí)際采樣值,如時(shí)間、地點(diǎn)、狀態(tài)及環(huán)境信息,反映物體變化情況,由輕量級(jí)數(shù)據(jù)和稠化知識(shí)密度的多媒體數(shù)據(jù)兩部分構(gòu)成.

        其中,rID,sID,tID∈String,rID是記錄的ID,具有唯一性,tID是物體的物品碼,sID是物品碼所屬的標(biāo)準(zhǔn)碼.在物聯(lián)網(wǎng)領(lǐng)域內(nèi),標(biāo)識(shí)編碼存在多種體系,如EPC編碼體系、OID編碼體系等,因此需要明確標(biāo)識(shí)所屬標(biāo)準(zhǔn)進(jìn)行區(qū)分.field∈String用于標(biāo)識(shí)物品所屬領(lǐng)域; type等是物體的其他靜態(tài)描述信息; t∈Instant是采樣時(shí)間; loc∈Point是采樣地點(diǎn),Point是二維值如(x,y),可自定義空間; v∈String∪Number是采樣的輕量經(jīng)數(shù)據(jù); vm∈SampleMedia用于表達(dá)預(yù)處理后的多媒體數(shù)據(jù),定義如下:

        其中,type,format∈String,分別表示該多媒體數(shù)據(jù)類型(如音頻、圖像或視頻)及格式(如jpeg,gif,mp4等) ; vinterest∈String∪Number指從多媒體數(shù)據(jù)中提取的興趣值; vdigest∈String指輕量化多媒體數(shù)據(jù)后提取的摘要值; poriginal是指向多媒體數(shù)據(jù)原始值的指針.

        如圖4所示,一個(gè)集合由若干條SampeRecord組成,一條SampleRecord可視作RDMBS表中的一行.通過SampleRecord可實(shí)現(xiàn)對(duì)物聯(lián)網(wǎng)異構(gòu)數(shù)據(jù)的統(tǒng)一表達(dá),并有助于數(shù)據(jù)的共享.

        下面實(shí)例化介紹SampleRecord各部分內(nèi)容.示例1: ((objID:”a01”,field:”agriculture”,type:”shed”),(t: t1,loc: (40.1,20.5),(light: 50,humidity: 0.56,light: 23.1) ),表示對(duì)物聯(lián)網(wǎng)農(nóng)業(yè)領(lǐng)域應(yīng)用中大棚的采樣數(shù)

        SampleRecord具體定義如下:據(jù),采樣時(shí)間為t1,地點(diǎn)為GPS坐標(biāo)(40.1,20.5),光照度為50勒克斯,相對(duì)濕度為56%,濕度為23.1攝氏度.示例2: ((objID:”b123”,field:”traffic”,type:”car”),(t: t2,loc: (123,1024),speed: 210,capturePhoto: (type:”image”,format:”jpeg”,plateNumber:”BJ0A435”,digestValue:”b38767a34dd2d764c0d5979860 10e5b1”,originalValue:”p1”) ) ),來源于交通領(lǐng)域的超速檢測(cè),采樣地點(diǎn)為(123,1024),這是自定義空間坐標(biāo),超速車輛速度是210km/h,記錄中包含一個(gè)多媒體數(shù)據(jù)capturePhoto,指抓拍的超速車輛照片,格式為jpeg,從照片中提取的興趣值為車牌號(hào)BJ0A435,摘要值“b38767a34dd2d764c0d597986010e5b1”是MD5值,指向該照片的原始數(shù)據(jù)指針為p1.

        3.2.4數(shù)據(jù)分布

        數(shù)據(jù)分布分為數(shù)據(jù)層面和數(shù)據(jù)庫(kù)層面.?dāng)?shù)據(jù)層面,考慮數(shù)據(jù)的邏輯分布;數(shù)據(jù)庫(kù)層面,從數(shù)據(jù)物理分布入手,研究數(shù)據(jù)是否應(yīng)該分布到不同實(shí)體機(jī)器/或不同的片存儲(chǔ),以及數(shù)據(jù)分布的策略.

        (1)數(shù)據(jù)類型

        對(duì)于數(shù)據(jù)類型,將多媒體數(shù)據(jù)與輕量級(jí)數(shù)據(jù)分離存儲(chǔ).為提高集群性能,多媒體數(shù)據(jù)原始值與輕量化數(shù)據(jù)分離存儲(chǔ).若需要獲得多媒體數(shù)據(jù)的原始值,可使用SampleMedia中的原始數(shù)據(jù)指針.

        分離存儲(chǔ)有兩種選擇,包括:設(shè)置主副集群,兩個(gè)集群各運(yùn)行一個(gè)數(shù)據(jù)庫(kù)實(shí)例,將多媒體數(shù)據(jù)原始值存儲(chǔ)于副集群中,外部用戶對(duì)副集群無感知,兩個(gè)集群之間通過某種方式通信獲得數(shù)據(jù);將多媒體數(shù)據(jù)與輕量化數(shù)據(jù)存儲(chǔ)于不同集合中,但邏輯上仍在同一個(gè)數(shù)據(jù)庫(kù)中.第一種選擇擁有獨(dú)立的計(jì)算能力應(yīng)對(duì)多媒體數(shù)據(jù)的需求,但通信會(huì)帶來額外開銷;第二種選擇不會(huì)造成額外通信開銷,但由于分享共同的計(jì)算資源,在性能上會(huì)造成一定的影響.

        (2)數(shù)據(jù)庫(kù)

        由于系統(tǒng)采用分布式架構(gòu),當(dāng)數(shù)據(jù)量增加到單個(gè)機(jī)器無法完全存儲(chǔ)時(shí),必須進(jìn)行數(shù)據(jù)分片[16],分散到不同機(jī)器存儲(chǔ),使得集群可不依靠強(qiáng)大服務(wù)器實(shí)現(xiàn)海量數(shù)據(jù)存儲(chǔ).

        分片有助于提升存儲(chǔ)能力和服務(wù)器性能,但并非一定能提升性能,如果應(yīng)用不合理反而會(huì)造成性能損耗.在分片的情況下,一個(gè)查詢的執(zhí)行時(shí)間Tq如下公式所示:

        其中,Tt是客戶端與服務(wù)器的傳輸時(shí)延; Tp是解析查詢指令并將指令分發(fā)給從節(jié)點(diǎn)的時(shí)間; Ts是查詢指令在單臺(tái)機(jī)器的執(zhí)行時(shí)間; Ta是從多個(gè)節(jié)點(diǎn)中匯集查詢結(jié)果的時(shí)間,與并行執(zhí)行指令的機(jī)器數(shù)據(jù)Np成正比.通常Tt與Tp要遠(yuǎn)小于Ts與Ta,因此.如果并行執(zhí)行指令節(jié)省時(shí)間少于匯集結(jié)果引發(fā)的額外開銷,則整體執(zhí)行時(shí)間將增加.

        因此,對(duì)于規(guī)模較小的數(shù)據(jù)不必分片,以避免存儲(chǔ)空間的擴(kuò)展帶來的時(shí)間開銷.在數(shù)據(jù)量增大的情況下,分片帶來的附加性能開銷是小于數(shù)據(jù)量較小時(shí)分片帶來的開銷的.

        4 共享機(jī)制

        數(shù)據(jù)共享主要解決在信息服務(wù)系統(tǒng)中數(shù)據(jù)抽象、數(shù)據(jù)定位和數(shù)據(jù)獲取三個(gè)問題,本節(jié)從這三個(gè)問題入手,介紹在物聯(lián)網(wǎng)數(shù)據(jù)共享方面的研究,主要分為兩部分:基于REST的信息服務(wù)解決數(shù)據(jù)抽象和獲取,基于國(guó)家物聯(lián)網(wǎng)標(biāo)識(shí)管理公共服務(wù)平臺(tái)(NIOT)[17~19]解決數(shù)據(jù)定位.

        4.1基于REST的信息共享服務(wù)

        REST是一種設(shè)計(jì)準(zhǔn)則,目的是指導(dǎo)網(wǎng)絡(luò)程序開發(fā),降低開發(fā)復(fù)雜性,提高系統(tǒng)可伸縮性.ROA是RESTful架構(gòu)中的典型實(shí)例,它將實(shí)際問題轉(zhuǎn)換成REST描述,形成一種明確、簡(jiǎn)單易用的架構(gòu).本文采用ROA架構(gòu)設(shè)計(jì)并實(shí)現(xiàn)物聯(lián)網(wǎng)信息服務(wù)系統(tǒng).

        4.1.1資源定義

        在REST設(shè)計(jì)原則中,一切可以被命名的實(shí)體都可被抽象為資源,資源不但包括傳統(tǒng)網(wǎng)絡(luò)中的信息、鏈接、計(jì)算、存儲(chǔ)等,更包括物聯(lián)網(wǎng)中接入網(wǎng)關(guān)、感知網(wǎng)絡(luò)、感知數(shù)據(jù)等一系列信息.

        本文設(shè)計(jì)的物聯(lián)網(wǎng)信息服務(wù)系統(tǒng)將資源分為三類:對(duì)象資源、索引資源和知識(shí)資源.其中,對(duì)象資源指單個(gè)物體對(duì)象對(duì)應(yīng)的資源,是單條數(shù)據(jù)記錄或數(shù)據(jù)記錄的集合;索引資源指某一類或某個(gè)集合資源的索引,通過該資源可以獲取資源列表,進(jìn)而實(shí)現(xiàn)對(duì)對(duì)象資源的訪問;知識(shí)資源指通過某種手段或算法(如統(tǒng)計(jì)、過濾、圖像識(shí)別等)基于對(duì)象資源進(jìn)行操作所生成的資源,通常代表某種知識(shí).

        為了方便資源管理,本文對(duì)資源進(jìn)行層次化管理方式,分為實(shí)體級(jí)、應(yīng)用級(jí)和系統(tǒng)級(jí).其中,實(shí)體級(jí)指在此級(jí)別上訪問的資源都是單個(gè)實(shí)體資源,對(duì)象資源、索引資源、知識(shí)資源都屬于實(shí)體級(jí)資源;應(yīng)用級(jí)指若干實(shí)體資源的集合,一個(gè)應(yīng)用中存在多個(gè)感知對(duì)象,屬于該應(yīng)用的所有對(duì)象資源都被劃歸為同一個(gè)集合中;系統(tǒng)級(jí)指信息服務(wù)系統(tǒng)層級(jí)的資源,信息服務(wù)系統(tǒng)層級(jí)由若干個(gè)應(yīng)用組成.

        圖5展示了資源層級(jí)與資源類型間的關(guān)系.資源間的關(guān)系通過索引資源的標(biāo)識(shí)發(fā)生狀態(tài)轉(zhuǎn)移獲得對(duì)象資源及知識(shí)資源.對(duì)象資源標(biāo)識(shí)可通過狀態(tài)獲得感知數(shù)據(jù)或知識(shí)資源.知識(shí)資源通過一定方式可進(jìn)行知識(shí)提取,獲得生成數(shù)據(jù).圖5概要展示了資源類型間的關(guān)系,實(shí)際上,各類資源還可以有更多層次的轉(zhuǎn)移路徑,如某索引資源可以轉(zhuǎn)移到另一索引資源,進(jìn)而實(shí)現(xiàn)對(duì)不同類型資源的靈活組織.

        4.1.2資源標(biāo)識(shí)

        使資源具備開放性的方式是構(gòu)造資源標(biāo)識(shí)并對(duì)外發(fā)布,使得資源可以被尋址定位,本小節(jié)將詳細(xì)闡述資源標(biāo)識(shí)的構(gòu)成、設(shè)計(jì).

        (1)標(biāo)識(shí)概念

        基于ROA的信息服務(wù)將為每個(gè)資源分配一個(gè)全局唯一的資源標(biāo)識(shí)符URI,并對(duì)資源提供全局共享請(qǐng)求消息分類系統(tǒng).信息服務(wù)系統(tǒng)接收到應(yīng)用程序的資源請(qǐng)求后,先將請(qǐng)求分解,并將分析結(jié)果進(jìn)行語義處理,然后得到一個(gè)URI列表,并對(duì)被請(qǐng)求URI進(jìn)行解析處理,最終將該資源決策及相關(guān)資源通過超文本形式資源表示發(fā)送至應(yīng)用程序.由于REST架構(gòu)是無狀態(tài)的,因此每個(gè)請(qǐng)求都須包含理解該請(qǐng)求所需的全部信息.如一個(gè)溫度資源查詢請(qǐng)求,URI格式如下,標(biāo)識(shí)了中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心智能家庭應(yīng)用中1號(hào)樓702房間的溫度資源:

        http: / /www.niot.cn/smarthome/building4/ room402/temperature

        (2)標(biāo)識(shí)構(gòu)成

        資源描述是信息服務(wù)系統(tǒng)進(jìn)行資源管理的基礎(chǔ),URI描述的資源應(yīng)表現(xiàn)資源相關(guān)特性.本文設(shè)計(jì)的URI描述采用與資源本身信息和屬性結(jié)合的方式,即不同URI的同一級(jí)別表示同一類屬性.重點(diǎn)考慮如下屬性:網(wǎng)絡(luò)名,資源所在網(wǎng)絡(luò)的名稱(如sina、unicom等) ;應(yīng)用領(lǐng)域,使用資源的應(yīng)用所在領(lǐng)域(如交通、農(nóng)業(yè)等) ;資源類型,資源屬性的分類(如溫度、濕度等) ;資源ID,資源名稱或編號(hào);位置信息,標(biāo)明資源所在位置,可多級(jí)表示.

        (3)標(biāo)識(shí)設(shè)計(jì)

        本文設(shè)計(jì)URI層次資源管理方式,URI的根是系統(tǒng)級(jí)資源,通過應(yīng)用ID獲得應(yīng)用級(jí)資源;在應(yīng)用級(jí)資源中,通過實(shí)例資源ID獲得實(shí)例級(jí)資源(對(duì)象資源、索引資源、知識(shí)資源).不同層級(jí)之間通過索引資源實(shí)現(xiàn)訪問,在索引資源中可以通過單個(gè)對(duì)象ID向下級(jí)訪問獲得對(duì)象資源,索引資源中提供有限的只讀操作,如果需要對(duì)對(duì)象資源進(jìn)行編輯,需要通過鑒權(quán)等方式獲得資源的編輯權(quán)限.

        表1給出資源標(biāo)識(shí)具體設(shè)計(jì),其中“/”代表系統(tǒng)級(jí)資源;“Application”代表應(yīng)用級(jí)資源,通過“id”獲得實(shí)例級(jí)資源,實(shí)例級(jí)資源可以相互嵌套;“oper”指預(yù)設(shè)的操作(如統(tǒng)計(jì)等)用于生成知識(shí)資源;“data”指感知數(shù)據(jù)或生成數(shù)據(jù).

        表1 資源標(biāo)識(shí)設(shè)計(jì)

        表1中規(guī)定了對(duì)資源進(jìn)行的操作,POST創(chuàng)建資源,GET、PUT、DELETE表示獲取、更新、刪除資源,其他操作通過自定義“oper”實(shí)現(xiàn).

        4.1.3資源表述

        ROA架構(gòu)下,URI具備多重表述的特性,可根據(jù)實(shí)際應(yīng)用需求生成不同格式的數(shù)據(jù),都是“邏輯”URI.邏輯URI與傳統(tǒng)的WEB應(yīng)用中的“物理”URI區(qū)別在于邏輯URI沒有格式后綴.當(dāng)資源表述形式改變后,物理URI也要變更,已發(fā)布URI將失效.而邏輯URI則無需變更,可永久保持其有效性.

        邏輯URI: http: / /www.datacenter.com/data/10

        物理URI: http: / /www.datacenter.com/ data/10.html

        不同資源表述(如JSON、XML等)都可傳輸數(shù)據(jù),但選擇何種資源表述需綜合考慮性能、帶寬占用以及可讀性等因素.本文選擇XML和JSON進(jìn)行評(píng)測(cè),測(cè)試不同資源表述對(duì)信息服務(wù)系統(tǒng)額外開銷,為資源表述方式選擇提供量化參考.

        測(cè)試內(nèi)容為:在不同字段數(shù)、不同有效載荷下,傳輸時(shí)延和存儲(chǔ)開銷.結(jié)果如表2所示,在相同有效載荷下,XML比JSON存儲(chǔ)開銷大,且處理與傳輸時(shí)延大于JSON.

        表2 不同數(shù)據(jù)交換格式性能對(duì)比

        在物聯(lián)網(wǎng)應(yīng)用中,數(shù)據(jù)是多維或高維的,JSON比XML更具空間優(yōu)勢(shì).但是,JSON可讀性差,更適用于M2M應(yīng)用.

        4.1.4標(biāo)準(zhǔn)接口

        資源被發(fā)布、定位后,需要與外界交互.標(biāo)準(zhǔn)接口用以減少交互成本,方便數(shù)據(jù)共享.

        基于REST風(fēng)格的信息服務(wù)接口,交互都可由若干HTTP標(biāo)準(zhǔn)請(qǐng)求實(shí)現(xiàn),本文定義了GET、PUT、DELETE以及POST以完成對(duì)資源的CRUD(Create、Retrieve、Update、Delete)操作(詳見表1).

        另一方面,REST對(duì)系統(tǒng)進(jìn)行了層次化劃分,增加了層間數(shù)據(jù)處理開銷和延遲,同時(shí)HTTP協(xié)議據(jù)包頭也會(huì)降低系統(tǒng)性能.本文對(duì)REST應(yīng)用開展性能評(píng)測(cè)(如圖6所示),評(píng)測(cè)使用RESTful數(shù)據(jù)接口與原生數(shù)據(jù)接口的信息服務(wù)系統(tǒng),在不同數(shù)據(jù)大小時(shí)測(cè)試數(shù)據(jù)傳輸時(shí)延.結(jié)果表明采用REST架構(gòu)增加了數(shù)據(jù)傳輸延遲,但仍在可接受范圍內(nèi).

        4.2基于NIOT的信息共享服務(wù)

        物聯(lián)網(wǎng)擁有海量資源,如何實(shí)現(xiàn)資源發(fā)現(xiàn)、定位是個(gè)難題,本文基于NIOT物聯(lián)網(wǎng)標(biāo)識(shí)平臺(tái)[17~19]對(duì)海量資源進(jìn)行統(tǒng)一的標(biāo)識(shí)管理.

        4.2.1資源發(fā)現(xiàn)定位

        實(shí)現(xiàn)應(yīng)用間互聯(lián)互通的關(guān)鍵是資源發(fā)現(xiàn)與定位,以確定數(shù)據(jù)所在位置.發(fā)現(xiàn)是指對(duì)單個(gè)物體對(duì)象查找其全生命周期所有資源,涉及的多個(gè)環(huán)節(jié)均可能建立獨(dú)立信息服務(wù)系統(tǒng)(如商品全生命周期的生產(chǎn)、物流、銷售等環(huán)節(jié)),因此發(fā)現(xiàn)會(huì)涉及不同的信息服務(wù)系統(tǒng);定位是確定單個(gè)資源的信息服務(wù)系統(tǒng)地址,通過解析服務(wù)實(shí)現(xiàn).

        本文采用NIOT管理資源標(biāo)識(shí),實(shí)現(xiàn)資源發(fā)現(xiàn)與定位.NIOT平臺(tái)基于DNS為物聯(lián)網(wǎng)資源提供公共服務(wù),包括資源注冊(cè)、解析和搜索三個(gè)子系統(tǒng).其系統(tǒng)架構(gòu)及信息服務(wù)系統(tǒng)關(guān)系如圖7所示.

        針對(duì)物聯(lián)網(wǎng)中的異構(gòu)標(biāo)識(shí),NIOT為兼容異構(gòu)多編碼,設(shè)計(jì)兩段式的標(biāo)識(shí)結(jié)構(gòu),標(biāo)準(zhǔn)碼+物品碼,標(biāo)準(zhǔn)碼識(shí)別編碼格式,物品碼標(biāo)識(shí)實(shí)體對(duì)象,分別由標(biāo)準(zhǔn)碼名字服務(wù)器SNS和物品碼名字服務(wù)器TNS提供服務(wù).

        4.2.2協(xié)調(diào)工作流程

        一個(gè)資源在信息服務(wù)系統(tǒng)中被創(chuàng)建時(shí),其標(biāo)識(shí)在NIOT中注冊(cè).注冊(cè)信息包括:資源標(biāo)識(shí)(URI)、物品碼、標(biāo)準(zhǔn)碼,以及數(shù)據(jù)抽象標(biāo)準(zhǔn)的描述性信息(如:領(lǐng)域)等.NIOT對(duì)收到的資源信息進(jìn)行URI映射處理,完成注冊(cè).用戶可使用解析系統(tǒng)定位數(shù)據(jù)位置;使用搜索系統(tǒng)實(shí)現(xiàn)相關(guān)資源的檢索與發(fā)現(xiàn).

        5 系統(tǒng)實(shí)現(xiàn)與評(píng)價(jià)

        本文實(shí)現(xiàn)了原型系統(tǒng),流程圖如圖8所示.系統(tǒng)采用Java語言,基于JDK1.6平臺(tái)開發(fā);使用Oracle的Jersey框架實(shí)現(xiàn)REST風(fēng)格數(shù)據(jù)接口;結(jié)合NIOT實(shí)現(xiàn)數(shù)據(jù)定位;底層數(shù)據(jù)庫(kù)采用MongoDB;同時(shí)開發(fā)了中間件以實(shí)現(xiàn)數(shù)據(jù)的預(yù)處理.

        下面從定性和定量?jī)煞矫鎸?duì)原型系統(tǒng)進(jìn)行評(píng)價(jià).其中,定性分析主要分析開放性、可擴(kuò)展性、靈活性、可靠性、高效性、可用性和安全性七個(gè)方面,定量分析則重點(diǎn)分析系統(tǒng)并發(fā)讀寫性能.

        5.1定性分析

        本文選取三種物聯(lián)網(wǎng)信息服務(wù)系統(tǒng),包括EPCIS[20]、SeaCloudDM[21]和Sensor.Network[12].表3展示了三種方案與本方案的功能分析.

        表3 方案定性分析

        在開放性方面,本文基于REST和NIOT,數(shù)據(jù)共享機(jī)制貫穿數(shù)據(jù)抽象、發(fā)布、發(fā)現(xiàn)、定位和獲取全流程,增強(qiáng)了其開放性,方便了數(shù)據(jù)共享.其他系統(tǒng)雖也采用REST,但很少考慮異構(gòu)數(shù)據(jù)存儲(chǔ)、表達(dá)、資源發(fā)現(xiàn)與獲取等;另一方面,大多數(shù)REST應(yīng)用只考慮系統(tǒng)功能,不考慮系統(tǒng)性能,本方案對(duì)資源表述形式和標(biāo)準(zhǔn)接口對(duì)系統(tǒng)整體性能的影響進(jìn)行了評(píng)測(cè)與討論,充分考慮到了性能方面的影響.

        在擴(kuò)展性和可靠性方面,現(xiàn)有方案大多采用RDBMS技術(shù),可擴(kuò)展性差.雖然有研究考慮使用非關(guān)系型數(shù)據(jù)庫(kù)技術(shù),但沒有系統(tǒng)考慮存儲(chǔ)策略;本方案的存儲(chǔ)技術(shù)既可以橫向擴(kuò)展支持存儲(chǔ)能力擴(kuò)容,又可通過數(shù)據(jù)分片與備份機(jī)制,實(shí)現(xiàn)數(shù)據(jù)冗余存儲(chǔ),有效防止了單點(diǎn)失效帶來的數(shù)據(jù)丟失.

        在靈活性方面,一方面,感知數(shù)據(jù)的異構(gòu)性、多屬性特征導(dǎo)致其存儲(chǔ)管理方式有很大不同,本方案的統(tǒng)一表達(dá)方式將不同類型感知數(shù)據(jù)轉(zhuǎn)化為數(shù)值型及字符型存儲(chǔ),在面對(duì)異構(gòu)數(shù)據(jù)有較高的靈活度;另一方面,利用NoSQL的存儲(chǔ)特性,可輕松實(shí)現(xiàn)異構(gòu)數(shù)據(jù)存儲(chǔ)時(shí)數(shù)據(jù)字段的靈活增刪.雖然SeaCloudDM在RDBMS基礎(chǔ)上也提供基于鍵值形式存儲(chǔ),其性能很差.

        在高效性方面,大多方案基于RDBMS,在海量數(shù)據(jù)下很難提供高性能查詢,且并發(fā)支持度低;本方案基于NoSQL技術(shù)提供高并發(fā)能力,且設(shè)計(jì)了相關(guān)的存儲(chǔ)策略,以滿足物聯(lián)網(wǎng)數(shù)據(jù)實(shí)際需求,并進(jìn)一步的提高數(shù)據(jù)質(zhì)量,增強(qiáng)海量數(shù)據(jù)讀寫性能.

        在可用性方面,本方案提供了標(biāo)準(zhǔn)的數(shù)據(jù)接口,減少了應(yīng)用開發(fā)成本,提升了系統(tǒng)可用性,但服務(wù)功能還較少.SQL已不適應(yīng)物聯(lián)網(wǎng)時(shí)空相關(guān)性及動(dòng)態(tài)流式等特征,而NoSQL也僅能支持功能有限的鍵值查詢,所有方案都缺乏復(fù)雜、靈活的查詢服務(wù).

        在安全性方面,由于物聯(lián)網(wǎng)感知數(shù)據(jù)多涉及敏感、隱私信息,其安全問題需要專門考慮,本方案并未做相關(guān)研究,只是通過數(shù)據(jù)庫(kù)的原生認(rèn)證方式與訪問控制方式一定程度地保證數(shù)據(jù)安全.

        綜上,本方案優(yōu)點(diǎn)如下:支持海量數(shù)據(jù),并通過分布策略保證數(shù)據(jù)平衡;標(biāo)準(zhǔn)化數(shù)據(jù)接口,且與NIOT結(jié)合,支持多平臺(tái)數(shù)據(jù)共享;統(tǒng)一數(shù)據(jù)表達(dá)方式,便于管理;數(shù)據(jù)獨(dú)立,支持多源異構(gòu)的數(shù)據(jù).

        缺點(diǎn)包括:可用性有待加強(qiáng),缺乏復(fù)雜、靈活的查詢服務(wù);數(shù)據(jù)安全保障有限.

        5.2定量分析

        在性能上,從并發(fā)讀和并發(fā)寫兩方面展開評(píng)測(cè).

        并發(fā)寫測(cè)試分別使用1、2、4、8、16個(gè)線程向數(shù)據(jù)庫(kù)插入數(shù)據(jù),每個(gè)線程共插入10萬條數(shù)據(jù),每次寫入一條;并發(fā)讀測(cè)試分別使用1、2、4、8、16個(gè)線程對(duì)各個(gè)數(shù)據(jù)庫(kù)執(zhí)行查詢,查詢操作,數(shù)據(jù)規(guī)模約5000萬條,結(jié)果集約5萬條.

        所有評(píng)測(cè)方案均采用REST風(fēng)格接口,但本方案使用NoSQL技術(shù),并采用了前述提到的存儲(chǔ)策略,而其他方案采用RDBMS存儲(chǔ)系統(tǒng).

        測(cè)試環(huán)境參數(shù)包括: Intel至強(qiáng)X5670 2.93GHz (6CPU )的CPU,8GB內(nèi)存,160GB硬盤,紅帽Linux4.1.2-48的OS,mysql-5.5.17/mongodb-2.0.4數(shù)據(jù)庫(kù),測(cè)試語言為Python/JAVA,網(wǎng)絡(luò)平均延遲1.1ms.本文實(shí)現(xiàn)了兩個(gè)版本,早期系統(tǒng)采用MySQL,部署了1臺(tái)服務(wù)器;而改進(jìn)方案基于MongoDB,數(shù)據(jù)庫(kù)集群包括3臺(tái)服務(wù)器.

        本次測(cè)評(píng)數(shù)據(jù)選取物聯(lián)網(wǎng)真實(shí)數(shù)據(jù),包括英特爾伯克利實(shí)驗(yàn)室230萬條WSN數(shù)據(jù)[22]和華盛頓大學(xué)計(jì)算機(jī)學(xué)院lahar項(xiàng)目約330萬條RFID數(shù)據(jù)[23].

        性能評(píng)測(cè)結(jié)果如圖9所示,在并發(fā)寫情況下,MongoDB方案可保持至少20%,最高約200%的性能優(yōu)勢(shì);在并發(fā)查詢情況下,MongoDB方案時(shí)延遠(yuǎn)低于MySQL方案,且隨并發(fā)數(shù)線性增長(zhǎng).測(cè)試結(jié)果表明改進(jìn)方案性能有明顯提升.

        另一方面,整體系統(tǒng)的測(cè)試較單純數(shù)據(jù)庫(kù)系統(tǒng)對(duì)比差異有所減少,這是因?yàn)?應(yīng)用REST構(gòu)建的標(biāo)準(zhǔn)接口導(dǎo)致了性能下降;采用集群方式存儲(chǔ)海量數(shù)據(jù),分片增加了數(shù)據(jù)的傳輸時(shí)延.

        6 總結(jié)

        本文針對(duì)物聯(lián)網(wǎng)信息服務(wù)系統(tǒng)面對(duì)海量異構(gòu)數(shù)據(jù)性能低下、共享困難等問題,開展了物聯(lián)網(wǎng)信息服務(wù)系統(tǒng)存儲(chǔ)與共享策略的研究,提出一種優(yōu)化方案: (1)基于NoSQL存儲(chǔ)技術(shù)提供高存儲(chǔ)性能,并提出相應(yīng)的預(yù)處理、數(shù)據(jù)分類以及數(shù)據(jù)分布策略,以提高數(shù)據(jù)質(zhì)量,減少存儲(chǔ)空間開銷; (2)標(biāo)準(zhǔn)化的信息服務(wù)接口,且與國(guó)家物聯(lián)網(wǎng)標(biāo)識(shí)管理公共服務(wù)平臺(tái)結(jié)合,支持多平臺(tái)數(shù)據(jù)共享; (3)設(shè)計(jì)了統(tǒng)一數(shù)據(jù)表達(dá)方式,便于管理、理解與共享; (4)數(shù)據(jù)獨(dú)立,采取的數(shù)據(jù)模型并未對(duì)感知的數(shù)據(jù)格式進(jìn)行任何前提假設(shè),可以靈活應(yīng)對(duì)多源異構(gòu)的數(shù)據(jù).

        本文主要采用NoSQL數(shù)據(jù)庫(kù)解決數(shù)據(jù)存儲(chǔ)共享問題,然而,它卻缺乏關(guān)系數(shù)據(jù)庫(kù)快速解決復(fù)雜問題的能力.下一步,將重點(diǎn)研究如何結(jié)合兩種關(guān)系數(shù)據(jù)庫(kù)的優(yōu)點(diǎn),進(jìn)一步提高本文提出方案的性能.

        參考文獻(xiàn)

        [1]Li Tingli,Liu Yang,Tian Ye,et al.A storage solution for massive IoT data based on NoSQL[A].Proceedings of the 2012 IEEE International Conference on Internet of Things [C].USA: IEEE,2012.50-57.

        [2]Zhang Yin,Han Weili,Wang Wei,et al.Optimizing the storage of massive electronic pedigrees in HDFS[A].Proceedings of the 3rdInternational Conference on the Internet of Things[C].USA: IEEE,2012.68-75.

        [3]Zhang Guigang,Li Chao,Zhang Yong,et al.SemanMedical: a kind of semantic medical monitoring system model based on the IoT sensors[A].Proceedings of the IEEE 14thInternational Conference on e-Health Networking,Applications and Services[C].USA: IEEE,2012.238-243.

        [4]L Paul,M Dirk,B Andre.HashFS: applying hashing to optimize file systems for small file reads[A].Proceedings of the International Workshop on Storage Network Architecture and Parallel I/Os[C].USA: IEEE,2010.33-42.

        [5]Zhang Yang and Liu Dan.Improving the efficiency of storing for small files in HDFS[A].Proceedings of the International Conference on Computer Science&Service System[C].USA: IEEE,2012.2239-2242.

        [6]Yang Hui,Qin Yong,F(xiàn)eng Gefei,et al.Online monitoring of geological CO2 storage and leakage based on wireless sensor networks[J].IEEE Sensors Journal,2013,13(2) : 556-562.

        [7]Chang Penho,Wand Tsanpin.Supporting personal mobility with integrated RFID in VoIP systems[A].Proceedings of the International Conference on New Trends in Information and Service Science[C].USA: IEEE,2009.1353-1359.

        [8]H Gonzalez,Han Jiawei,Li Xiaolei,et al.Warehousing and analyzing massive RFID data sets[A].Proceedings of the 22ndInternational Conference on Data Engineering[C].USA: IEEE,2006.83.

        [9]丁治明,高需.面向物聯(lián)網(wǎng)海量傳感器采樣數(shù)據(jù)管理的數(shù)據(jù)庫(kù)集群系統(tǒng)框架[J].計(jì)算機(jī)學(xué)報(bào),2012,35(6) : 2514-2517.Ding Zhiming,Gao Xu.A database cluster system framework for managing massive sensor sampling data in the Internet of things[J].Chines Journal of Computers,2012,35 (6) : 2514-2517.(in Chinese)

        [10]M D Francesco,Li Na,M Raj,et al.A storage infrastructure for heterogeneous and multimedia data in the Internet of things[A].Proceedings of the 2012 IEEE International Conference on Internet of Things[C].USA: IEEE,2012.26-33.

        [11]A M Marìa,H L Sergio,S Abel,et al.A comparative study of data storage and processing architectures for the smart grid[A].Proceedings of the First IEEE International Conference on Smart Grid Communications[C].USA: IEEE,2010.285-290.

        [12]Deng Zhongliang,Xu Binxu,Li Ning.A sharing platform based on the Internet of things[A].Proceedings of the In-ternational Conference on Computational Intelligence and Software Engineering[C].USA: IEEE,2010.1-4.

        [13]IETF RFC 7252.Constrained application protocol (Co-AP),2014[S].

        [14]Gao Lei,Zhang Chunhong,Sun Li.RESTful web of things API in sharing sensor data[A].Proceedings of the International Conference on Internet Technology and Applications[C].USA: IEEE,2011.1-4.

        [15]D Guinard,M Mueller,V Trifa.RESTifying Real-world Systems a Practical Case Study in RFID[M].Germany: Springer-Verlag,2011.359-379.

        [16]Liu Yimeng,Wang Yizhi and Jin Yi.Research on the improvement of MongoDB auto-sharding in cloud environment[A].Proceedings of the 7thInternational Conference on the Computer Science&Education[C].USA: IEEE,2012.851-854.

        [17]Tian Ye,Liu Yang,Yan Zhiwei,et al.RNS-a publice resource name service platform for the IoT[A].Proceedings of the 2012 IEEE International Conference on Internet of Things[C].USA: IEEE,2012.234-239.

        [18]劉陽(yáng),李馨遲,田野,等.物聯(lián)網(wǎng)名字服務(wù)關(guān)鍵技術(shù)研究[J].電子學(xué)報(bào),2014,42(10) : 2032-2039.Liu Yang,Li Xinchi,Tian Ye,et al.Research on key technology of name service for the Internet of things[J].Acta Electronica Sinica,2014,42(10) : 2032-2039.(in Chinese)

        [19]NIOT.國(guó)家物聯(lián)網(wǎng)標(biāo)識(shí)管理公共服務(wù)平臺(tái)[OL].http: / /www.cniotroot.cn,2015.

        [20]GS1 Standard Version 1.1.EPC information services (EPCIS) version 1.1,2014[S].

        [21]Fan Chunxiao,Song Jie,Wen Zhigang,et al.A scalable Internet of things lean data provision architecture based on ontology[A].Proceedings of the IEEE GCC Conference and Exhibition[C].USA: IEEE,2011.553-556.

        [22]Intel Berkeley Research Lab.Intel lab data.[OL].http: / /db.csail.mit.edu/labdata/labdata.html,2004

        [23]University of Washington,CSE.The lahar project RFID data[OL].http: / /lahar.cs.washington.edu/displayPage.php? path =./content/Download/RFIDData/ rfidData.html,2012.

        田野男,1979年出生,重慶涪陵人.博士,副研究員,碩士生導(dǎo)師,中國(guó)計(jì)算機(jī)學(xué)會(huì)高級(jí)會(huì)員.2006年博士畢業(yè)于中國(guó)科學(xué)院計(jì)算技術(shù)研究所,2009年進(jìn)入中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心.從事物聯(lián)網(wǎng)、下一代互聯(lián)網(wǎng)、網(wǎng)絡(luò)安全方面的有關(guān)研究.

        E-mail: tianye@ cnic.cn

        袁博(通信作者)男,1984年出生,河北唐山人.2013年博士畢業(yè)于清華大學(xué),同年加入中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心.主要從事物聯(lián)網(wǎng)標(biāo)識(shí)方面的研究工作.

        E-mail: yuanbo@ cnic.cn

        李廷力男,1987年出生,四川什邡人.2013年碩士畢業(yè)于中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心.從事物聯(lián)網(wǎng)信息處理方面的研究工作.

        A Massive and Heterogeneous Data Storage and Sharing Strategy for Internet of Things

        TIAN Ye1,YUAN Bo1,LI Ting-li2
        (1.Computer Network Information Center,Chinese Academy of Science,Beijing 100190,China; 2.Beijing Baidu Netcom Science and Technology Company,Ltd,Beijing 100085,China)

        Abstract:With the development of the Internet of Things (IoT),it accelerates the process of the informatization of all industries.Information service is an important service in the IoT.However,massive and heterogeneous data of the IoT brings the storage huge challenges to the information service.This paper proposes an IoT information service system to solve the current problem of the performance shortfalls and the difficulty of data sharing,which is based on NoSQL,REST and NIOT (National IOT id management and public service platform).The work focuses on improving the performance of the system and exploring the expression of storage and the sharing mechanism of the heterogeneous data.The test result shows that the solution proposed by this paper significantly enhanced the system performance.The relevant achievements of this paper provide reference for facilitating the development of the IoT information service system.

        Key words:internet of things; massive and heterogeneous data; information service system; data storage; data sharing

        作者簡(jiǎn)介

        基金項(xiàng)目:國(guó)家科技支撐計(jì)劃(No.2015BAK36B02) ;國(guó)家發(fā)改委2012物聯(lián)網(wǎng)技術(shù)研發(fā)產(chǎn)業(yè)化專項(xiàng)(物聯(lián)網(wǎng)標(biāo)識(shí)管理公共服務(wù)平臺(tái)) ;中國(guó)科學(xué)院一三五規(guī)劃重點(diǎn)培育方向(No.CNIC-PY-1403)

        收稿日期:2014-04-23;修回日期: 2015-08-26;責(zé)任編輯:藍(lán)紅杰

        DOI:電子學(xué)報(bào)URL: http: / /www.ejournal.org.cn10.3969/j.issn.0372-2112.2016.02.002

        中圖分類號(hào):TP311

        文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):0372-2112 (2016) 02-0247-11

        猜你喜歡
        數(shù)據(jù)存儲(chǔ)物聯(lián)網(wǎng)
        大數(shù)據(jù)時(shí)代檔案信息建設(shè)的認(rèn)識(shí)和實(shí)踐
        淺談電力大數(shù)據(jù)平臺(tái)關(guān)鍵技術(shù)研究與應(yīng)用
        開源數(shù)據(jù)庫(kù)數(shù)據(jù)存儲(chǔ)的實(shí)現(xiàn)路徑分析
        基于Android開發(fā)的APP數(shù)據(jù)存儲(chǔ)研究
        哈希算法在物聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)中的應(yīng)用
        基于物聯(lián)網(wǎng)的煤礦智能倉(cāng)儲(chǔ)與物流運(yùn)輸管理系統(tǒng)設(shè)計(jì)與應(yīng)用
        基于高職院校物聯(lián)網(wǎng)技術(shù)應(yīng)用人才培養(yǎng)的思考分析
        基于LABVIEW的溫室管理系統(tǒng)的研究與設(shè)計(jì)
        論智能油田的發(fā)展趨勢(shì)及必要性
        中國(guó)或成“物聯(lián)網(wǎng)”領(lǐng)軍者
        白色白色白色在线观看视频| 狠狠色狠狠色综合日日不卡| 国产一区a| 亚洲福利av一区二区| 亚洲熟女乱一区二区三区| 国产午夜精品av一区二区麻豆| 久久午夜伦鲁片免费无码| 国产精品国产三级国产专播| 精品久久精品久久精品| 无码专区一ⅴa亚洲v天堂| 亚洲综合无码无在线观看| 高清无码精品一区二区三区| 国内精品女同一区二区三区| 亚洲色一区二区三区四区| 久久精品人人做人人综合| 一区二区三区不卡在线| 神马不卡影院在线播放| 天天做天天爱夜夜爽毛片毛片| 国产在线精品欧美日韩电影| 国产在线视频h| 国产亚洲精品一品二品| 日韩精品视频一区二区三区| 亚洲av熟妇高潮30p| 亚洲中文字幕无线乱码va| 激情五月我也去也色婷婷| 日本一卡2卡3卡4卡无卡免费网站| 国产尻逼视频| 国产精品亚洲av一区二区三区| 国产麻花豆剧传媒精品mv在线| 午夜亚洲av永久无码精品| 精品人妻少妇一区二区中文字幕 | 国産精品久久久久久久| 亚洲欧洲久久久精品| 日韩在线精品免费观看| 乱码1乱码2美美哒| 婷婷综合久久中文字幕蜜桃三电影| 精品午夜一区二区三区| 可免费观看的av毛片中日美韩| 色多多a级毛片免费看| 在线观看一区二区女同| 精品人妻在线一区二区三区在线|