楊曉娟
(河南牧業(yè)經(jīng)濟學(xué)院,河南 鄭州 450000)
數(shù)據(jù)挖掘技術(shù)是從海量、龐大的數(shù)據(jù)庫中,篩選和提取具有價值的信息數(shù)據(jù),并對信息數(shù)據(jù)進行深入挖掘和分析。另外,在綜合應(yīng)用物聯(lián)網(wǎng)技術(shù)和云計算技術(shù)的基礎(chǔ)上,完成對數(shù)據(jù)挖掘模型的構(gòu)建,確保該模型具有功能運行良好、結(jié)構(gòu)穩(wěn)定可靠等特點,確保各種統(tǒng)計學(xué)因素進行有效的融合[1],從而實現(xiàn)對物聯(lián)網(wǎng)數(shù)據(jù)的高效化、智能化處理,使得物聯(lián)網(wǎng)數(shù)據(jù)處理成本降到最低。所以,充分發(fā)揮和利用數(shù)據(jù)挖掘技術(shù)的應(yīng)用優(yōu)勢,如何科學(xué)地設(shè)計數(shù)據(jù)挖掘模型是技術(shù)人員必須思考和解決的問題。
1.1.1 物聯(lián)網(wǎng)概念
物聯(lián)網(wǎng)作為一種重要網(wǎng)絡(luò),可以將不同物體進行相連相通,有效突顯出信息時代特點。物聯(lián)網(wǎng)使用原理是借助智能感知技術(shù),融會貫通處理網(wǎng)絡(luò)[2],保證物物相連的穩(wěn)定性和可靠性,同時,還要有效地延伸和擴大互聯(lián)網(wǎng)客戶端。物聯(lián)網(wǎng)主要適用于智能交通、環(huán)境保護、智能家居等領(lǐng)域。
1.1.2 物聯(lián)網(wǎng)特點
物聯(lián)網(wǎng)主要具有以下幾個特點:(1)感知能力強。通過綜合運用多種傳感器,可以實現(xiàn)對多種實時數(shù)據(jù)的獲取,這些實時數(shù)據(jù)在形式、內(nèi)容呈現(xiàn)上具有一定的差異。(2)智能化處理能力強。通過將物聯(lián)網(wǎng)與傳感器的有效結(jié)合,可以獲得較高的智能化處理能力,然后,從海量信息數(shù)據(jù)中,可以深入分析和挖掘出有價值的信息數(shù)據(jù),從而滿足用戶的實際使用需求。
1.2.1 信息融合技術(shù)概念
信息融合技術(shù)又叫數(shù)據(jù)融合,主要通過運用計算機技術(shù),對多種傳感器信息進行綜合化分析和處理,從而獲得有用的信息數(shù)據(jù)。另外,也可以融合處理多個傳感器信息,將多個信息源進行綜合化處理,從而獲得需要的信息數(shù)據(jù)[3]。然后,在關(guān)聯(lián)處理信息的基礎(chǔ)上,對身份信息和位置信息進行估計和確定。整個過程表現(xiàn)出一定的創(chuàng)新性和時效性,有利于后期數(shù)據(jù)結(jié)果的實時化更新和發(fā)布。
1.2.2 信息融合技術(shù)的基本方法
信息融合技術(shù)基本方法如圖1所示,可以看出,該技術(shù)基本方法主要包含以下幾種:(1)小波分析法。該方法除了可以直接分析分布特征信息外,還能分析分布特征信號。(2)加權(quán)平均法。通過加權(quán)平均法對傳感器收集的信息進行處理,并獲得相應(yīng)的融合值,該融合值屬于平均值,是信息融合技術(shù)的典型應(yīng)用[4]。(3)概率論法。通過概率論法對不同傳感器信息源進行分析和整理,有針對性地刪除錯誤信息、低水平信息,如果將先驗概率直接設(shè)置為已知條件,可以采用貝葉斯概率法獲得最終信息融合結(jié)果。(4)卡爾曼濾波法。該方法主要適用于傳感器冗余信息處理。線性系統(tǒng)在實際運行時,一旦產(chǎn)生的傳感器噪聲符合設(shè)置的建模條件,通過利用卡爾曼濾波法可以實現(xiàn)融合值的提取和統(tǒng)計,無需占用太大存儲空間,促使信息數(shù)據(jù)處理向高效化、實時化發(fā)展。(5)D-S證據(jù)理論方法。該方法主要適用于專家系統(tǒng)、人工智能等領(lǐng)域,可以實現(xiàn)對概率論的有效擴充。(6)模糊邏輯理論法。該方法內(nèi)部主要用到多數(shù)據(jù)邏輯處理技術(shù),在實際推理過程中,該方法可以真實、有效地突顯傳感器的隨機性和不確定性[5],被廣泛地應(yīng)用于多傳感器信息融合領(lǐng)域,取得了良好的應(yīng)用效果。(7)貝葉斯信息融合法。在融合處理多傳感器信息時,要使用概率,精確地表示不同傳感器傳遞的隨機性和不確定性,利用獨立決策,科學(xué)地劃分和處理樣本空間,最后,嚴(yán)格按照系統(tǒng)決策的相關(guān)標(biāo)準(zhǔn)和要求,獲得最終有價值的信息數(shù)據(jù)。
圖1 信息融合技術(shù)基本方法
物聯(lián)網(wǎng)與云計算兩種先進技術(shù)的有效結(jié)合是信息時代發(fā)展的必然趨勢?;谠朴嬎愕臄?shù)據(jù)挖掘模型,如圖2所示,為后期高效化處理物聯(lián)網(wǎng)數(shù)據(jù)提供重要的技術(shù)支持。在具體設(shè)計中,數(shù)據(jù)挖掘模型除了用到挖掘算法的并行運行模式[6],還用到推薦算法的分布運行模式。另外,數(shù)據(jù)挖掘模型的設(shè)計,運用了分層設(shè)計思想,有效地保證物聯(lián)網(wǎng)數(shù)據(jù)處理的可靠性和有效性,使得物聯(lián)網(wǎng)數(shù)據(jù)處理效率得以顯著提升。數(shù)據(jù)挖掘模型主要包含以下幾個層次。
圖2 基于云計算的數(shù)據(jù)挖掘模型
云計算支撐平臺層設(shè)計,為用戶提供充足的數(shù)據(jù)存儲空間,使得模型具有較高的數(shù)據(jù)計算能力,因此,該層次被視為數(shù)據(jù)處理模型的“骨架”。在該模型中,主要用到第三方挖掘算法。整個模型業(yè)務(wù)運作方式主要利用云計算平臺[7],有效地突出物聯(lián)網(wǎng)的智能性和便捷性。
數(shù)據(jù)挖掘能力層設(shè)計為整個模型提供強大的數(shù)據(jù)挖掘功能。在具體設(shè)計中,該層次要從服務(wù)管理、數(shù)據(jù)并行處理等環(huán)節(jié)入手,保證框架處理水平,使得整個數(shù)據(jù)挖掘模型表現(xiàn)出較高的數(shù)據(jù)挖掘云服務(wù)能力。通常情況下,數(shù)據(jù)挖掘能力大小,對云計算服務(wù)性能和物聯(lián)網(wǎng)的服務(wù)能力產(chǎn)生明顯的影響。
數(shù)據(jù)挖掘云服務(wù)層通常會用到多種封裝接口,如對象訪問協(xié)議接口、XML接口、程序編程接口。物聯(lián)網(wǎng)技術(shù)的應(yīng)用優(yōu)勢是借助信息化技術(shù)為用戶提供更加優(yōu)質(zhì)的智能化服務(wù)體驗,而云計算技術(shù)的應(yīng)用優(yōu)勢是不斷地提高模型的服務(wù)能力[8]。在設(shè)計云服務(wù)層時,要利用這兩種技術(shù)的優(yōu)勢,結(jié)合用戶實際需求,不斷地提高整個模型的服務(wù)水平。同時,通過設(shè)計云服務(wù)層,可以方便用戶快速地訪問各種數(shù)據(jù)庫查詢語句,促使數(shù)據(jù)在實際處理期間,表現(xiàn)出強大的語言轉(zhuǎn)化能力。
在整個物聯(lián)網(wǎng)中,通過運用不同種類的傳感器,對所需數(shù)據(jù)進行采集,發(fā)現(xiàn)采集到的數(shù)據(jù)主要以實時數(shù)據(jù)流為主,因此,在進行物聯(lián)網(wǎng)數(shù)據(jù)處理時,技術(shù)人員除了要重視對實時數(shù)據(jù)流的處理[9],還要重視對實時數(shù)據(jù)流的加工。本文以某出租車數(shù)據(jù)集為研究對象,將采集和處理好的出租車交通相關(guān)定位數(shù)據(jù)呈現(xiàn)在用戶面前,便于用戶全面、實時地了解和掌握當(dāng)前城市實際交通狀況。此外,技術(shù)人員還要重視對原始系統(tǒng)的搭建,為后期和加工處理物聯(lián)網(wǎng)實時數(shù)據(jù)提供一定的便利。
在獲取傳感數(shù)據(jù)時,要利用出租車GPS技術(shù),完成對行車軌跡信息的全面化獲取和整理,同時,還要做好原型系統(tǒng)的搭建,并對數(shù)據(jù)挖掘模型進行科學(xué)驗證。在采集某城市交通數(shù)據(jù)時,采集到的交通信息主要涉及8 000輛以上出租車當(dāng)天行駛軌跡數(shù)據(jù)信息,采集到的傳感數(shù)據(jù)相對較多,為1 900萬條。為保證數(shù)據(jù)處理質(zhì)量,技術(shù)人員要重點做好對以下兩種問題的處理:(1)交通狀況始終處于不斷變化的狀態(tài),通過對重要數(shù)據(jù)的實時化、有效化處理,可以確保交通狀況信息的完整性和可靠性。(2)城市中的所有出租車在實際行駛時,均采用隨機行駛的方式,同時,所采集的數(shù)據(jù)在時空緯度上呈現(xiàn)的狀態(tài)特點為均勻性、稀疏性,這些數(shù)據(jù)主要分布于不同的道路中。所以,在實時估算法的應(yīng)用背景下,可以完成對物聯(lián)網(wǎng)實時數(shù)據(jù)處理平臺的搭建和開發(fā)[10]。
為避免出現(xiàn)估算缺失值現(xiàn)象,技術(shù)人員要在構(gòu)建多元線性回歸模型的基礎(chǔ)上,運用在線算法,精確地計算出相關(guān)系數(shù)。
vit=β0+β1v1t+β2v2t+...+βmvmt+μt
(1)
公式(1)中的vit表示出租車于t時刻,在ri區(qū)域內(nèi)所對應(yīng)的交通條件;vkt,k={1,2,3...m},表示出租車于t時刻,在rk中對應(yīng)的交通條件;βk表示vit和vkt兩者之間的偏相關(guān)系數(shù);μ表示隨機誤差項。
(2)
通過公式(2)可以精確地計算出系數(shù)估計值,在交通缺失情況下的估計算法。
通過geohash法(地址編碼方法)對地球表現(xiàn)經(jīng)緯度進行科學(xué)化分割,并在指定的緯度、經(jīng)度上,對地球經(jīng)緯度進行不斷迭代二分處理,直到獲得最終精度位置即可。在原始二進制的應(yīng)用背景下,可以實現(xiàn)對位置精度信息的安全化存儲和操作,同時,還能對geohash進行轉(zhuǎn)化,使其全部轉(zhuǎn)化為相應(yīng)的浮點數(shù),便于用戶結(jié)合所獲得的浮點數(shù)自動存儲和訪問需要的數(shù)據(jù)。另外,在geohash法的應(yīng)用背景下,可以將二進制的字符串一一映射到浮點數(shù)中。在某個城市,確定的研究區(qū)域始終保持不變,運用二進制,獲得的字符串完全相同,在某出租車GPS數(shù)據(jù)集中,前10位字符串保持一致。此時,采用截斷的方式,對相同部位的字符串進行截斷處理,并對需要的數(shù)據(jù)進行壓縮處理,這為后期計算提供重要依據(jù)和參考。通過采用移位操作的方式,對有效位進行處理,可以獲得需要存儲的浮點數(shù)。為實現(xiàn)對整個運算流程的優(yōu)化,需要將整個區(qū)域劃分為9個矩形,然后,獲得8個估算樣本參考區(qū)。結(jié)合確定好的估算速度方向,確定出空缺區(qū)域值,然后結(jié)合最終獲得的交通信息,開展相關(guān)估算工作。
在實時處理數(shù)據(jù)期間,出租車相關(guān)行駛軌跡數(shù)據(jù)按照設(shè)置好的時間順序,集中分布于消息隊列中。為保證實時數(shù)據(jù)處理效率和效果,在驗證原型系統(tǒng)結(jié)構(gòu)時,需要重視對一種Spout業(yè)務(wù)和3種Bolt業(yè)務(wù)邏輯關(guān)系的處理。其中,在處理Bolt業(yè)務(wù)邏輯關(guān)系時,要做好對各條原始數(shù)據(jù)的切分處理,確保原始數(shù)據(jù)被直接處理為一種典型的標(biāo)準(zhǔn)化數(shù)據(jù)結(jié)構(gòu)。在整個樣本區(qū)域中,當(dāng)geohash劃分工作完成后,要重視對業(yè)務(wù)的聚合操縱處理,確保數(shù)據(jù)傳感速度顯著提升,如果采用傳統(tǒng)數(shù)據(jù)庫處理模式,會降低數(shù)據(jù)傳感速度。因此,在儲存數(shù)據(jù)時,要提高數(shù)據(jù)內(nèi)存利用率,不斷縮短數(shù)據(jù)處理時間。另外,為提高實時數(shù)據(jù)處理水平,要利用5臺臺式計算機,完成集群運行環(huán)境的搭建,同時,將需要使用的操作系統(tǒng)安裝和固定于節(jié)點上,然后,利用Web頁面,將這些數(shù)據(jù)形象、直觀地呈現(xiàn)在用戶面前,保護用戶交互效率和效果。
通過靈活運用上述算法,完成分布式計算框架的設(shè)計,并結(jié)合當(dāng)前計算機設(shè)備運行環(huán)境需求,突出數(shù)據(jù)處理的時效性。另外,在進行交換和訪問數(shù)據(jù)時,需要將計算單元時延設(shè)置為ms級,總之,原型系統(tǒng)結(jié)構(gòu)經(jīng)過驗證,發(fā)現(xiàn)在處理實時數(shù)據(jù)方面具有一定的可行性和可操作性。
綜上所述,在科學(xué)技術(shù)的不斷普及和推廣下,人們對網(wǎng)絡(luò)性能提出了更高的要求,本文通過綜合運用物聯(lián)網(wǎng)和云計算技術(shù),完成對數(shù)據(jù)挖掘模型的科學(xué)化設(shè)計,并驗證該模型的有效性和可靠性。結(jié)果發(fā)現(xiàn),與傳統(tǒng)數(shù)據(jù)處理模式相比,本文設(shè)計的數(shù)據(jù)挖掘模型具有較高的拓展性,不僅可以提高數(shù)據(jù)處理效率,還能保證數(shù)據(jù)處理準(zhǔn)確度,為用戶提供更加優(yōu)質(zhì)的服務(wù)。