葉雯
摘 要:近年來(lái),數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用和大數(shù)據(jù)的研究與應(yīng)用無(wú)疑將數(shù)據(jù)推向了更加核心的位置。文章結(jié)合數(shù)據(jù)挖掘技術(shù)與無(wú)線(xiàn)網(wǎng)絡(luò)的現(xiàn)狀進(jìn)行剖析,對(duì)校園用戶(hù)的無(wú)線(xiàn)軌跡大數(shù)據(jù)進(jìn)行研究與分析,可對(duì)在校學(xué)生的學(xué)業(yè)生活行為做預(yù)警。
關(guān)鍵詞:數(shù)據(jù)挖掘;軌跡大數(shù)據(jù);無(wú)線(xiàn)網(wǎng)絡(luò)
沒(méi)有數(shù)據(jù),一切無(wú)從談起。大數(shù)據(jù)時(shí)代,方方面面的數(shù)據(jù)錯(cuò)綜復(fù)雜、種類(lèi)繁復(fù),網(wǎng)絡(luò)數(shù)據(jù)不可不謂是其中比較特殊的一種。網(wǎng)絡(luò)數(shù)據(jù)既可以被記錄、被修改,又可形成規(guī)律或軌跡,但想從變化萬(wàn)千的網(wǎng)絡(luò)大數(shù)據(jù)中尋找到值得的信息或希望發(fā)現(xiàn)的規(guī)律,難度是非常大的。既不可能僅通過(guò)人力做篩選和甄別,也不可能完全依靠機(jī)器學(xué)習(xí)來(lái)實(shí)現(xiàn)某個(gè)特定的目標(biāo)。目前這方面的研究較為淺顯和稀少。
1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是從大量不完全、有噪聲、模糊、隨機(jī)數(shù)據(jù)中作歸納推理,挖掘潛在模式,提取隱含知識(shí)[1]。
數(shù)據(jù)挖掘技術(shù)以傳統(tǒng)數(shù)學(xué)(Traditional Mathematics)和統(tǒng)計(jì)學(xué)(Statistics)為基石,增加模式識(shí)別(Pattern Recognition)、機(jī)器學(xué)習(xí)(Machine Learning)、數(shù)理統(tǒng)計(jì)(Mathematical Statistics)、人工智能(Artificial Intelligence)等多種技術(shù)方法,運(yùn)用流數(shù)據(jù)(Stream Data)和數(shù)據(jù)庫(kù)(Data Base)實(shí)現(xiàn)工作機(jī)制。在計(jì)算機(jī)信息科學(xué)技術(shù)不斷向前發(fā)展的各個(gè)階段,還逐步地融匯了數(shù)據(jù)安全(Data Security)、數(shù)據(jù)結(jié)構(gòu)算法(Data Structure Algorithm)、信息檢索(Information Retrieval)、信號(hào)處理(Signal Procession)、信息論(Information Theory)等多種技術(shù)[2-6]。
大數(shù)據(jù)的研究和數(shù)據(jù)挖掘技術(shù)應(yīng)用的關(guān)系是相輔相成的。在研究大數(shù)據(jù)過(guò)程中采用數(shù)據(jù)挖掘的方法是必須、也是最佳的途徑,并且也只有借助相對(duì)成熟的數(shù)據(jù)挖掘技術(shù)才能實(shí)現(xiàn)大數(shù)據(jù)的研究。隨著大數(shù)據(jù)的研究愈發(fā)深入,也勢(shì)必會(huì)促進(jìn)和完善數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用。
2 軌跡大數(shù)據(jù)的特征及應(yīng)用
軌跡大數(shù)據(jù)是大數(shù)據(jù)類(lèi)庫(kù)中一種較為有特點(diǎn)、非典型性的數(shù)據(jù)種類(lèi)。軌跡大數(shù)據(jù)是隨著衛(wèi)星導(dǎo)航、無(wú)線(xiàn)通信、普適計(jì)算技術(shù)的不斷發(fā)展,人們?cè)谑褂脦в卸ㄎ还δ艿闹悄芤苿?dòng)設(shè)備的同時(shí),主動(dòng)或被動(dòng)地留下了移動(dòng)軌跡數(shù)據(jù),并被記錄保存而形成了時(shí)空軌跡數(shù)據(jù)[7]。個(gè)人或群體的軌跡大數(shù)據(jù)包含了時(shí)間信息以及該段時(shí)間內(nèi)個(gè)人或群體隨著時(shí)間推移的位置變化信息,甚至包含個(gè)人或群體在該段時(shí)間內(nèi)某個(gè)時(shí)間點(diǎn)的移動(dòng)方向以及運(yùn)動(dòng)速度等信息。
大數(shù)據(jù)具有4個(gè)“V”[8]:數(shù)據(jù)規(guī)模(Volumes)巨大、數(shù)據(jù)種類(lèi)(Variety)繁多且復(fù)雜、數(shù)據(jù)價(jià)值(Value)密度低和數(shù)據(jù)處理速度要求(Velocity)精而快(1秒定律)[9]。軌跡數(shù)據(jù)符合大數(shù)據(jù)量大、多樣、實(shí)時(shí)的3個(gè)“V”特征,但軌跡大數(shù)據(jù)的采樣受人或設(shè)備、采樣方式方法、采樣頻率、數(shù)據(jù)存儲(chǔ)方式等因素的影響,具有時(shí)空序列性、異頻采樣型和數(shù)據(jù)質(zhì)量差等特性[10]。因此,軌跡大數(shù)據(jù)的采集、數(shù)據(jù)預(yù)處理與預(yù)處理數(shù)據(jù)的應(yīng)用等過(guò)程都較為繁瑣和復(fù)雜,每一步的精確性與精準(zhǔn)性都將影響下一階段數(shù)據(jù)運(yùn)用與實(shí)現(xiàn)的效果。
大數(shù)據(jù)時(shí)代,對(duì)個(gè)人或群體的軌跡大數(shù)據(jù)分析,無(wú)疑對(duì)社會(huì)體系中各種社會(huì)問(wèn)題的解決和推進(jìn)都有重大的意義,比如高校環(huán)境下通過(guò)無(wú)線(xiàn)網(wǎng)絡(luò)對(duì)學(xué)生移動(dòng)終端的記錄,可以有效地對(duì)學(xué)生的行為進(jìn)行分析,做到有效、及時(shí)的學(xué)生分析、教務(wù)分析、消費(fèi)分析、學(xué)工分析、網(wǎng)絡(luò)分析、圖書(shū)館分析以及失聯(lián)預(yù)警分析、網(wǎng)絡(luò)預(yù)警分析和消費(fèi)預(yù)警分析等。
3 無(wú)線(xiàn)網(wǎng)絡(luò)發(fā)展
無(wú)線(xiàn)通信技術(shù)發(fā)展的勢(shì)頭甚至比計(jì)算機(jī)發(fā)展的鼎盛時(shí)期還要迅猛,計(jì)算機(jī)科學(xué)技術(shù)的發(fā)展也已經(jīng)從網(wǎng)絡(luò)時(shí)代逐步過(guò)渡到了無(wú)線(xiàn)互聯(lián)時(shí)代。相較于臺(tái)式電腦,甚至筆記本電腦,人們?cè)絹?lái)越更偏好輕巧便捷、體積較小、便于隨身攜帶的移動(dòng)終端設(shè)備,比如智能手機(jī)和平板電腦等電子產(chǎn)品。新興的無(wú)線(xiàn)網(wǎng)絡(luò)技術(shù),例如WiFi,WiMax,ZigBee,Adhoc,BlueTooth和超寬帶(Ultra Wide Band,UWB),在辦公室、家庭、高校、工廠、公園、餐飲店、咖啡廳等大眾生活的方方面面都得到了廣泛應(yīng)用?;跓o(wú)線(xiàn)網(wǎng)絡(luò)的定位技術(shù)在設(shè)備跟蹤監(jiān)控、社區(qū)安防、倉(cāng)庫(kù)貨物監(jiān)控、人員緊急救護(hù)等領(lǐng)域顯示了廣泛的應(yīng)用前景[11]。如耳熟能詳?shù)闹Ц秾?、微信、云閃付、各大銀行網(wǎng)銀系統(tǒng)平臺(tái)等消費(fèi)支付手段,也涉及了社會(huì)生活的各行各業(yè),如辦公、購(gòu)物、餐飲、文化、娛樂(lè)、休閑、交通等各個(gè)方面。無(wú)線(xiàn)網(wǎng)絡(luò)可謂無(wú)處不在,也大大方便了人們的生活,提高了生活效率?!耙徊渴謾C(jī)行天下”的生活已不是夢(mèng),現(xiàn)金支付方式,甚至現(xiàn)金,也離人們的生活愈發(fā)遙遠(yuǎn),出行不再擔(dān)憂(yōu)沒(méi)有現(xiàn)金、找不到ATM或者錢(qián)包被盜。很多人,尤其是年輕的受眾群體,幾乎不再依賴(lài)于現(xiàn)金支付的生活;付現(xiàn)找零的交易方式既易出現(xiàn)假幣、找錯(cuò)錢(qián)等問(wèn)題,也比較浪費(fèi)時(shí)間,掃碼支付大大節(jié)省了消費(fèi)者的排隊(duì)和付款時(shí)間,相應(yīng)緩解了高峰期交通或運(yùn)營(yíng)排隊(duì)通道的壓力。
4 無(wú)線(xiàn)網(wǎng)絡(luò)軌跡大數(shù)據(jù)研究
在高校校園中,也開(kāi)始普及無(wú)線(xiàn)網(wǎng)絡(luò)的應(yīng)用,學(xué)生在教學(xué)樓、圖書(shū)館、食堂、宿舍等場(chǎng)所就能實(shí)現(xiàn)移動(dòng)終端的無(wú)線(xiàn)網(wǎng)絡(luò)連接,也自然而然會(huì)形成學(xué)生用戶(hù)的軌跡數(shù)據(jù)信息。南京工程學(xué)院建成的大數(shù)據(jù)分析平臺(tái)中的軌跡分析功能模塊就是抓取學(xué)生用戶(hù)的校園無(wú)線(xiàn)網(wǎng)絡(luò)使用數(shù)據(jù),進(jìn)而查詢(xún)到該學(xué)生用戶(hù)的行為軌跡,如圖1—4所示。
目前,基礎(chǔ)無(wú)線(xiàn)網(wǎng)絡(luò)數(shù)據(jù)的獲取存在缺失與遺漏等問(wèn)題,導(dǎo)致用戶(hù)行為軌跡數(shù)據(jù)偏少。后期基礎(chǔ)無(wú)線(xiàn)數(shù)據(jù)足夠豐富的情況下,無(wú)疑可以形成較為完整的軌跡數(shù)據(jù)信息,并對(duì)學(xué)生用戶(hù)的生活行為習(xí)慣做出合理的推測(cè),將有效對(duì)學(xué)生的學(xué)業(yè)、成績(jī)、出行等情況做出預(yù)警,大學(xué)生的在校安全又多了一份保障[12]。
5 結(jié)語(yǔ)
目前,基于大數(shù)據(jù)分析平臺(tái)的校園無(wú)線(xiàn)網(wǎng)絡(luò)數(shù)據(jù)還不盡完善,抓取到的學(xué)生上網(wǎng)信息比較雜亂,信息同步問(wèn)題也還有待考量,因此會(huì)造成產(chǎn)生的軌跡數(shù)據(jù)可能存在紕漏、缺失或不嚴(yán)謹(jǐn),對(duì)軌跡數(shù)據(jù)的預(yù)處理也是一個(gè)可能的研究問(wèn)題。對(duì)軌跡數(shù)據(jù)中的錯(cuò)誤和缺失,通常沒(méi)有固定算法,很多預(yù)處理中的決定都依賴(lài)于分析人員的經(jīng)驗(yàn)和對(duì)問(wèn)題的理解。然而,對(duì)于大量的軌跡數(shù)據(jù),人為一條軌跡一條軌跡地清理也是不現(xiàn)實(shí)的。因此,計(jì)算機(jī)的處理不可或缺,由此衍生出來(lái)的可視化分析結(jié)合了人的智慧和計(jì)算機(jī)的高效,應(yīng)該很適合解決軌跡大數(shù)據(jù)的數(shù)據(jù)預(yù)處理問(wèn)題。
[參考文獻(xiàn)]
[1]李鴻,羅鍵.基于粗糙集的數(shù)據(jù)挖掘在無(wú)線(xiàn)網(wǎng)絡(luò)入侵檢測(cè)中的應(yīng)用[J].現(xiàn)代計(jì)算機(jī),2007(3):110-112.
[2]董雪.基于數(shù)據(jù)挖掘技術(shù)的校園無(wú)線(xiàn)網(wǎng)絡(luò)優(yōu)化[J].電子設(shè)計(jì)工程,2018(17):40-44.
[3]魏革.基于Web條件下數(shù)據(jù)挖掘算法與數(shù)據(jù)倉(cāng)庫(kù)的接口設(shè)計(jì)與實(shí)現(xiàn)[J].電腦知識(shí)與技術(shù),2015(35):3-4.
[4]徐卓函.大數(shù)據(jù)時(shí)代人工智能的創(chuàng)新與發(fā)展研究[J].科技資訊,2015(33):30-31.
[5]白勇,羅文娟.論數(shù)據(jù)挖掘在高校圖書(shū)館用戶(hù)管理中的應(yīng)用[J].電子制作,2014(22):60.
[6]ZIAD S,THOMAS S,PHAM D.The efficiency of the RULES-4 classification learning algorithm in predicting the density of agents[J].Cogent Engineering,2014(1):986262.
[7]許佳捷,鄭凱,池明旻,等.軌跡大數(shù)據(jù):數(shù)據(jù)、應(yīng)用與技術(shù)現(xiàn)狀[J].通信學(xué)報(bào),2015(12):97-105.
[8]劉鵬,吳兆峰,胡谷雨.大數(shù)據(jù)—正在發(fā)生的深刻變革[J].中興通訊技術(shù),2013(4):2-7.
[9]楊剛,楊凱.大數(shù)據(jù)關(guān)鍵處理技術(shù)綜述[J].計(jì)算機(jī)與數(shù)字工程,2016(4):694-699.
[10]高強(qiáng),張鳳荔,王瑞錦,等.軌跡大數(shù)據(jù):數(shù)據(jù)處理關(guān)鍵技術(shù)研究綜述[J].軟件學(xué)報(bào),2017(4):959-992.
[11]唐煒,鄭小林,干紅華,等.基于運(yùn)動(dòng)估計(jì)的ZigBee無(wú)線(xiàn)網(wǎng)絡(luò)定位方法[J].計(jì)算機(jī)工程,2010(20):256-258,261.
[12]王祖超,袁曉如.軌跡數(shù)據(jù)可視分析研究[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2015(1):9-25.
Research on the large-scale data of the wireless network
Ye Wen
(Network and Information Centre of Nanjing Institute of Technology, Nanjing 211167, China)
Abstract:In recent years, the research and application of data mining technology to the research and application of large data has no doubt pushed the data to the more core position. Based on the analysis of the data mining technology and the current situation of the wireless network, the paper studies and analyzes the large data of the wireless track of the campus users, and can prejudge the school life behavior of the students.
Key words:data mining; track big data; wireless network