任 偉
(南通科技職業(yè)學(xué)院,江蘇 南通 226007)
基于云計(jì)算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘模型研究
任 偉
(南通科技職業(yè)學(xué)院,江蘇 南通 226007)
隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展,數(shù)據(jù)挖掘、云計(jì)算、物聯(lián)網(wǎng)等技術(shù)在人們生活、工作當(dāng)中占據(jù)著越來(lái)越重要的地位。本文分析了物聯(lián)網(wǎng)、信息融合技術(shù)及其應(yīng)用方法,闡述了以云為中心的物聯(lián)網(wǎng)數(shù)據(jù)處理模型,并以城市公共交通出租車數(shù)據(jù)集為例,描述了數(shù)據(jù)處理的基本過(guò)程,驗(yàn)證了物聯(lián)網(wǎng)實(shí)時(shí)數(shù)據(jù)處理的可行性與可操作性。
云計(jì)算;物聯(lián)網(wǎng);數(shù)據(jù)挖掘;模型
數(shù)據(jù)挖掘技術(shù)是從一個(gè)隨機(jī)海量數(shù)據(jù)中,提取有效可用的信息,進(jìn)而過(guò)渡到信息數(shù)據(jù)挖掘其應(yīng)用價(jià)值的過(guò)程。數(shù)據(jù)挖掘平臺(tái)在物聯(lián)網(wǎng)、云計(jì)算等強(qiáng)大技術(shù)的支持下,功能更加強(qiáng)大,結(jié)構(gòu)更加穩(wěn)固,進(jìn)而將模式辨別、統(tǒng)計(jì)學(xué)等科技元素融為一體,使得數(shù)據(jù)處理高效而經(jīng)濟(jì)。數(shù)據(jù)挖掘技術(shù)在現(xiàn)代科技領(lǐng)域中發(fā)揮著極其重要作用。
物聯(lián)網(wǎng)(“Internet of things”,簡(jiǎn)稱 IOT。)是指物與物之間相通相連的一種網(wǎng)絡(luò),是信息時(shí)代最重要的技術(shù)之一。物聯(lián)網(wǎng)利用其本身強(qiáng)大的辨別和智能感知技術(shù),在網(wǎng)絡(luò)中融會(huì)貫通,使物物相連的同時(shí),也使互聯(lián)網(wǎng)客戶端的應(yīng)用業(yè)務(wù)得以延伸。為此,物聯(lián)網(wǎng)被稱之為繼計(jì)算機(jī)、Internet之后的第三次世界信息產(chǎn)業(yè)浪潮。
物聯(lián)網(wǎng)的應(yīng)用領(lǐng)域十分廣泛,從智能交通、政府工作、環(huán)境保護(hù),再到智慧城市、公共安全、環(huán)境監(jiān)測(cè)、食品溯源、智能家居等,都或多或少涉及到物聯(lián)網(wǎng)的應(yīng)用。具體而言,在家電、電網(wǎng)、食品以及鐵路橋梁等物之中設(shè)置傳感器,對(duì)網(wǎng)絡(luò)信息予以整合,進(jìn)而通過(guò)中心控制系統(tǒng),反饋、解決實(shí)時(shí)信息,方可達(dá)到有效管理、提高生產(chǎn)的目的。在應(yīng)用領(lǐng)域中進(jìn)一步創(chuàng)新,加強(qiáng)用戶體驗(yàn),是物聯(lián)網(wǎng)未來(lái)發(fā)展的核心所在。
首先,物聯(lián)網(wǎng)技術(shù)具有強(qiáng)大感知能力,利用諸多傳感器,獲取不同信息源的實(shí)時(shí)數(shù)據(jù),這些數(shù)據(jù)具有不用的形式、內(nèi)容,并且根據(jù)一定的周期頻率搜集環(huán)境信息,予以更新。
其次,物聯(lián)網(wǎng)是一種基于互聯(lián)網(wǎng)的泛在網(wǎng)絡(luò),其技術(shù)核心仍然是互聯(lián)網(wǎng)。由物聯(lián)網(wǎng)傳感器定時(shí)收集信息,利用網(wǎng)絡(luò)協(xié)議傳遞物體實(shí)時(shí)信息。由于數(shù)據(jù)信息量大,導(dǎo)致形成海量數(shù)據(jù),在傳遞期間,為確保實(shí)時(shí)性信息,必須與不同結(jié)構(gòu)的協(xié)議、網(wǎng)絡(luò)相適應(yīng)。
再次,物聯(lián)網(wǎng)中的傳感器具有智能化處理的功能。物聯(lián)網(wǎng)將傳感器和智能處理相結(jié)合,利用云計(jì)算、模式識(shí)別等各種智能技術(shù),擴(kuò)充其應(yīng)用領(lǐng)域。從傳感器獲得的海量信息中分析、加工和處理出有意義的數(shù)據(jù),以適應(yīng)不同用戶的不同需求,發(fā)現(xiàn)新的應(yīng)用領(lǐng)域和應(yīng)用模式。
信息與技術(shù)融合,又稱數(shù)據(jù)融合。通過(guò)計(jì)算機(jī)技術(shù),在一定原則下,綜合、分析多種信息源的傳感器信息,以此來(lái)取得一個(gè)或者是單個(gè)信息源所不及的有價(jià)值信息。也可以是多傳感器信息融合,綜合一個(gè)或多個(gè)信息源,進(jìn)而獲取相關(guān)數(shù)據(jù)、關(guān)聯(lián)信息,以此來(lái)精準(zhǔn)估計(jì)身份、確定位置,動(dòng)態(tài)評(píng)估、處理信息的過(guò)程。該過(guò)程具有持續(xù)性和創(chuàng)新性,最終實(shí)現(xiàn)結(jié)果的更新。
信息融合技術(shù)中,具有代表性的方法,有以下幾種:
第一,小波分析方法:這種方法最大的特征在于局部化信息時(shí)域,可良好解決分布特征信息、信號(hào)。
第二,加權(quán)平均方法:對(duì)傳感器所獲取的信息實(shí)施加權(quán)平均,最后的融合值為平均過(guò)后的數(shù)值,是信息融合技術(shù)中最簡(jiǎn)單直接的一種方法。
第三,概率論:分析不同傳感器信息源,將錯(cuò)誤、低水平的信息刪除,如果已知條件為先驗(yàn)概率,則通過(guò)貝葉斯概率法,最終取得有價(jià)值的信息融合結(jié)果。
第四,卡爾曼濾波法:適用于低層次動(dòng)態(tài)實(shí)時(shí)傳感器冗余信息,于線性系統(tǒng)而言,當(dāng)傳感器噪聲、系統(tǒng)噪聲達(dá)到建模條件時(shí),此方法可提取有意義的統(tǒng)計(jì)融合值,在此期間的存儲(chǔ)不需要太大的空間,對(duì)信息的處理可以達(dá)到實(shí)時(shí)化。
第五,D-S證據(jù)理論方法:此方法可擴(kuò)充概率論,可應(yīng)用于人工智能、辨別技術(shù)、專家系統(tǒng)以及系統(tǒng)決策領(lǐng)域。
第六,模糊邏輯理論法:這種邏輯是一種多數(shù)據(jù)邏輯,在推理期間,可反應(yīng)出傳感器的不確定性。該方法可運(yùn)用在多傳感器信息融合技術(shù)中。
第七,貝葉斯信息融合方法:多傳感器信息融合時(shí),將諸多不同傳感器傳遞的不確定信息,以概率來(lái)表示,把互相獨(dú)立的決策視作樣本空間劃分,利用貝葉斯概率方法,予以處理,最后利用系統(tǒng)決策中的準(zhǔn)則,獲取有用信息。
云計(jì)算作為一種新型技術(shù),與物聯(lián)網(wǎng)的結(jié)合,是社會(huì)發(fā)展的必然結(jié)果。圖1是基于云計(jì)算所形成的數(shù)據(jù)處理平臺(tái),也是物聯(lián)網(wǎng)數(shù)據(jù)處理中的挖掘環(huán)節(jié)。在模型中,充分考慮了挖掘算法與推薦算法的并行運(yùn)行與分布運(yùn)行。模型將數(shù)據(jù)處理平臺(tái)分為三個(gè)基本層次,分層設(shè)計(jì)的思想使得整個(gè)物聯(lián)網(wǎng)數(shù)據(jù)處理的有效性更高,處理效率也得到極大的提升。自下而上為:云計(jì)算支撐平臺(tái)層、數(shù)據(jù)挖掘能力層、數(shù)據(jù)挖掘云服務(wù)層。
提供文件或數(shù)據(jù)存儲(chǔ)空間以及數(shù)據(jù)計(jì)算能力,是數(shù)據(jù)處理平臺(tái)的基石。在該平臺(tái)中,融入了第三方挖掘算法服務(wù),業(yè)務(wù)運(yùn)作可以基于企業(yè)自主研發(fā)的云計(jì)算平臺(tái),也可以基于第三方提供的云計(jì)算平臺(tái)來(lái)進(jìn)行,這也是物聯(lián)網(wǎng)的便捷性所在。
圖1 基于云計(jì)算的數(shù)據(jù)處理平臺(tái)模型Fig.1 A model of data processing platform based on cloud computing
給予整個(gè)平臺(tái)數(shù)據(jù)挖掘的基礎(chǔ)能力。在該層次中,必須要有基本的算法服務(wù)管理、調(diào)度引擎和數(shù)據(jù)并行處理框架。同時(shí),還需要對(duì)數(shù)據(jù)挖掘云服務(wù)層的能力提供必然的支撐。從某種程度上來(lái)說(shuō),數(shù)據(jù)挖掘能力的高低,直接影響云計(jì)算的服務(wù)能力,整個(gè)物聯(lián)網(wǎng)的服務(wù)力都將受到影響。
對(duì)外提供數(shù)據(jù)挖掘云服務(wù),其服務(wù)能力封裝的接口形式對(duì)外是具有多樣性的,簡(jiǎn)單的對(duì)象訪問(wèn)協(xié)議、XML或者本地應(yīng)用程序編程接口等形式,都可以成為云服務(wù)的對(duì)外接口形式。物聯(lián)網(wǎng)的基本作用就是利用信息技術(shù)為用戶提供更加便捷的服務(wù)。而云服務(wù)的存在,就是為了強(qiáng)化其服務(wù)能力。云服務(wù)層實(shí)際上是綜合其下兩層的數(shù)據(jù)處理,實(shí)現(xiàn)的某種用戶需求。另外,云服務(wù)層還可以支持結(jié)構(gòu)化的查詢語(yǔ)言語(yǔ)句的訪問(wèn),從而使得數(shù)據(jù)在處理的過(guò)程中,語(yǔ)言的轉(zhuǎn)化更加方便。
物聯(lián)網(wǎng)中,運(yùn)用不同傳感器所采集到的數(shù)據(jù)多數(shù)為實(shí)時(shí)數(shù)據(jù)流,對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行處理和加工成為物聯(lián)網(wǎng)數(shù)據(jù)處理的核心問(wèn)題。本文通過(guò)對(duì)路面部分公共交通監(jiān)控定位數(shù)據(jù)的采集與處理以感知城市交通狀況。與此同時(shí),還搭建了原型系統(tǒng)來(lái)處理物聯(lián)網(wǎng)的實(shí)時(shí)數(shù)據(jù)。
筆者通過(guò)利用出租車GPS獲得的行車軌跡信息作為傳感數(shù)據(jù)來(lái)源,搭建原型系統(tǒng)以及必要的驗(yàn)證平臺(tái)。在某城市采集數(shù)據(jù)時(shí),有7648輛出租車在一天時(shí)間內(nèi)正常行駛的軌跡信息,傳感采樣的數(shù)據(jù)達(dá)1800萬(wàn)條。在處理數(shù)據(jù)時(shí),需要處理好兩個(gè)問(wèn)題。第一,交通狀況處于不斷變化中,應(yīng)該如何確保實(shí)時(shí)處理的數(shù)據(jù)對(duì)交通狀況的有效性。第二,出租車在城市中隨機(jī)行使,在時(shí)空維度上,采集的數(shù)據(jù)呈現(xiàn)出非均勻稀疏狀態(tài)且分布在不同道路中。因此,筆者提出利用在線實(shí)時(shí)估算法建立物聯(lián)網(wǎng)實(shí)時(shí)數(shù)據(jù)處理系統(tǒng)。
為了能夠解決缺失值估算的問(wèn)題,所以運(yùn)用多元線性回歸方法的在線算法。運(yùn)用多元線性回歸模型來(lái)運(yùn)算出有關(guān)的系數(shù):
式子中:vit代表t時(shí)刻區(qū)域ri的交通條件;vkt,k={1.2.3…m}代表臨近區(qū)域中 rk在 t時(shí)刻的交通條件;βk代表 vit和vkt的偏相關(guān)系數(shù);μ代表隨機(jī)誤差項(xiàng)。
式子中:?itv代表 vit的估計(jì);vkt,k={1.2.3…m}代表區(qū)域中t時(shí)刻的真實(shí)值。
再運(yùn)用式子(2)運(yùn)算出系數(shù)估計(jì)值,解決方案的具體算法,見(jiàn)圖2。
圖2 在交通缺失的情況下的估計(jì)算法Fig.2 Estimation algorithm in the absence of traffic
運(yùn)用 geohash法分割地球表現(xiàn)經(jīng)緯度,在維度[90-90]、經(jīng)度[180-180]中不斷迭代二分,直至達(dá)到需要的精度位置。運(yùn)用原始二進(jìn)制來(lái)儲(chǔ)存與操作,可以把 geohash轉(zhuǎn)化成浮點(diǎn)數(shù),以便根據(jù)浮點(diǎn)數(shù)自動(dòng)儲(chǔ)存和訪問(wèn)。運(yùn)用 geohash從二進(jìn)制的字符串到浮點(diǎn)數(shù)的映射設(shè)計(jì),因?yàn)檠芯繀^(qū)域被限制在一個(gè)城市中,geohash二進(jìn)制字符串的多位是一樣的,出租車GPS數(shù)據(jù)集中前十位是相同的。把相同部位截?cái)?,壓縮數(shù)據(jù)以方便下一步計(jì)算。對(duì)有效位實(shí)施移位操作,得到儲(chǔ)存浮點(diǎn)數(shù)。以達(dá)到簡(jiǎn)化運(yùn)算的目的,把地區(qū)分成9個(gè)矩形(如圖3),估算樣本參考區(qū)就有8個(gè)。來(lái)自一個(gè)估算方向以及速度的兩組樣本臨近兩側(cè)的樣本區(qū),每組采樣組區(qū)都會(huì)有圖3所示的矩形區(qū)域??杖眳^(qū)域值是按照一個(gè)估算速度方向中兩側(cè)臨近樣本得到了交通信息來(lái)估算。
圖3 區(qū)域交通網(wǎng)絡(luò)劃分Fig.3 Division of regional traffic network
實(shí)時(shí)數(shù)據(jù)處理系統(tǒng)的運(yùn)行流程,見(jiàn)圖 4。出租車軌跡數(shù)據(jù)集中的信息按照時(shí)間順序依次排列到消息隊(duì)列中。在處理過(guò)程中,包括了4種業(yè)務(wù)處理邏輯,一種Spout和三種Bolt。Spout讀取數(shù)據(jù)消息隊(duì)列;Bolt切分每條原始數(shù)據(jù),處理為標(biāo)準(zhǔn)化數(shù)據(jù)處理結(jié)構(gòu)。完成樣本區(qū)域中的 geohash劃分,最后實(shí)施聚合操縱業(yè)務(wù)。在具體運(yùn)用中,數(shù)據(jù)傳感速度非常高,若使用傳統(tǒng)數(shù)據(jù)庫(kù)處理,其效率很低。所以使用內(nèi)存數(shù)據(jù)來(lái)儲(chǔ)存,減少數(shù)據(jù)處理時(shí)延。在實(shí)時(shí)數(shù)據(jù)處理過(guò)程中,分布了五臺(tái)臺(tái)式計(jì)算機(jī),并將其組成集群運(yùn)行環(huán)境,將ubuntu server操作系統(tǒng)安裝在節(jié)點(diǎn)上,通過(guò)web頁(yè)面實(shí)現(xiàn)將數(shù)據(jù)呈現(xiàn)出來(lái),實(shí)現(xiàn)用戶的交互。
運(yùn)用上述算法設(shè)計(jì)以及分布式計(jì)算框架,在當(dāng)前計(jì)算機(jī)設(shè)備環(huán)境中也能夠滿足應(yīng)用提出的數(shù)據(jù)處理實(shí)時(shí)性的要求。在數(shù)據(jù)交互與訪問(wèn)過(guò)程中,計(jì)算單元時(shí)延保持為毫秒級(jí),能夠滿足數(shù)據(jù)實(shí)時(shí)性要求。
隨著科學(xué)技術(shù)的發(fā)展,人們的工作和生活對(duì)網(wǎng)絡(luò)的實(shí)際需求將不斷增加,以云為中心的物聯(lián)網(wǎng)數(shù)據(jù)處理與傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)相比,可拓展性更強(qiáng),數(shù)據(jù)處理效率和準(zhǔn)確性更高,其面向的服務(wù)群體更廣,提供的服務(wù)力有更大的發(fā)展?jié)摿Α?/p>
圖4 實(shí)時(shí)數(shù)據(jù)處理系統(tǒng)結(jié)構(gòu)Fig.4 The structure of real time data processing system
[1] 丁巖, 楊慶平, 錢煜明. 基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)研究[J]. 中興通訊技術(shù), 2013(01).
[2] 張毅, 崔曉燕. 基于云計(jì)算平臺(tái)的物聯(lián)網(wǎng)數(shù)據(jù)挖掘研究[J].軟件, 2014(01).
[3] 卜范玉, 王鑫, 張清辰. 基于云計(jì)算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘模型[J]. 電腦與信息技術(shù), 2012(06).
[4] 張春梅. 云計(jì)算物聯(lián)網(wǎng)體系的數(shù)據(jù)挖掘模式設(shè)計(jì)[J]. 信息系統(tǒng)工程, 2017(02).
[5] 解姍姍. 一種基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)[J]. 安陽(yáng)師范學(xué)院學(xué)報(bào), 2015(05).
[6] 熊敏, 林榮恒, 鄒華. 云計(jì)算環(huán)境下的自適應(yīng)資源監(jiān)測(cè)模型設(shè)計(jì)[J]. 新型工業(yè)化, 2012(11).
[7] 葛曉玢, 劉杰. 基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)研究[J]. 德鎮(zhèn)學(xué)院學(xué)報(bào), 2017(03).
[8] 張宏萌. 云計(jì)算平臺(tái)下智能車輛管理系統(tǒng)的研究與設(shè)計(jì)[J].中小企業(yè)管理與科技, 2012(04).
[9] 趙會(huì)群, 李會(huì)峰, 劉金鑾. RFID物聯(lián)網(wǎng)復(fù)雜事件模式聚類算法研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2017(03).
[10] 李立, 張玉州, 江克勤. 一種改進(jìn)的基于云平臺(tái)的物聯(lián)網(wǎng)數(shù)據(jù)挖掘算法[J]. 安慶師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2014(06).
Research on Data Mining Model of Internet of Things Based on Cloud Computing
REN Wei
(Nantong science and technology Academy, Nantong, Jiangsu 226007)
With the development of computer and network technology, data mining, cloud computing, Internet of things and other technologies occupy more and more important position in people's life and work. This paper analyzes the networking, information fusion technology and its application method, describes the data processing model of IOT cloud centric, and the city public transportation taxi data set as an example, describes the basic process of data processing, real-time data processing and networking verifies the feasibility and operability.
Cloud computing; Internet of things; Data mining; Model
TP391.8
A
10.3969/j.issn.1003-6970.2017.12.045
本文著錄格式:任偉. 基于云計(jì)算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘模型研究[J]. 軟件,2017,38(12):229-232
任偉(1981-),男,講師,主要研究方向:云計(jì)算、物聯(lián)網(wǎng)技術(shù)。