文/周旭
隨著互聯(lián)網(wǎng)時代的發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)量劇增,催生了關(guān)于數(shù)據(jù)研究的很多個方向,其中,數(shù)據(jù)挖掘就是關(guān)于數(shù)據(jù)處理的新方向。數(shù)據(jù)挖掘是關(guān)于數(shù)據(jù)和信息決策的前沿方向,從實(shí)質(zhì)上看,數(shù)據(jù)挖掘就是指在數(shù)據(jù)中發(fā)現(xiàn)隱藏的,人們事先不知道的,但是又具有潛在價值的信息的過程。目前,數(shù)據(jù)挖掘在商業(yè)領(lǐng)域的應(yīng)用比較廣泛,有專家曾經(jīng)指出,數(shù)據(jù)挖掘在21世紀(jì)將是企業(yè)商業(yè)成功與否的關(guān)鍵因素。數(shù)據(jù)挖掘是一個比較復(fù)雜的過程,一般來講,數(shù)據(jù)挖掘首先要分析數(shù)據(jù)的選擇,之后對數(shù)據(jù)進(jìn)行清理,將數(shù)據(jù)之間的差異清除掉,具體包括數(shù)據(jù)清洗、數(shù)據(jù)集成等,再進(jìn)行數(shù)據(jù)建模,通過模型的反饋,選擇出最佳的數(shù)據(jù)特征,最后得出科學(xué)的結(jié)論,對數(shù)據(jù)進(jìn)行分析,得出科學(xué)的結(jié)論來指導(dǎo)商業(yè)行為或者輔助科學(xué)研究。
機(jī)器學(xué)習(xí)的最早發(fā)展是20世紀(jì)50年代,主要是神經(jīng)模擬和決策理論技術(shù),到70年代關(guān)于機(jī)器學(xué)習(xí)的研究才逐漸多起來,成為了人工智能單獨(dú)的一個研究領(lǐng)域。當(dāng)前,關(guān)于機(jī)器學(xué)習(xí)的研究已經(jīng)進(jìn)入到自動化以及模式識別等領(lǐng)域,從理論研究逐漸開始了實(shí)踐應(yīng)用,而且取得了很好的成就,在商業(yè)領(lǐng)域的廣泛應(yīng)用就是很好的證明。比如在金融行業(yè)、零售行業(yè)等,金融分析員通過數(shù)據(jù)挖掘建立的預(yù)測模型,對引起市場波動的因素進(jìn)行分析分類,提高市場風(fēng)險預(yù)警能力。在零售行業(yè)中,銷售人員通過數(shù)據(jù)挖掘建立的模型了解潛在客戶人群,了解客戶的需求是什么,根據(jù)需求調(diào)整產(chǎn)品銷售策略,提高市場份額。
以商業(yè)數(shù)據(jù)庫為例,如果數(shù)據(jù)的驗(yàn)證過程不嚴(yán)謹(jǐn)?shù)脑挘蜁霈F(xiàn)一些錯誤的數(shù)據(jù)。此外,因?yàn)閿?shù)據(jù)來源渠道不同,會導(dǎo)致存在數(shù)據(jù)缺失的情況,由于數(shù)據(jù)的屬性也存在不同,數(shù)據(jù)編碼標(biāo)準(zhǔn)的不同,可能會導(dǎo)致無法對所有的數(shù)據(jù)屬性進(jìn)行分析。還存在數(shù)據(jù)的大小不等,所以在對不同類型的數(shù)據(jù)類型進(jìn)行分析方面,機(jī)器學(xué)習(xí)還存在不足。對于數(shù)據(jù)挖掘的預(yù)測精度是一個重要的方面,機(jī)器學(xué)習(xí)的預(yù)測精度一般情況下會低于訓(xùn)練數(shù)據(jù)的預(yù)測精度,所以提高對真實(shí)數(shù)據(jù)的預(yù)測精度也是機(jī)器學(xué)習(xí)的一個特性。此外,結(jié)果的可解釋性也是機(jī)器學(xué)習(xí)的一個重要特性,由于終端用戶的知識水平不同,所以需要對數(shù)據(jù)進(jìn)行預(yù)處理工作,讓用戶便于理解。機(jī)器學(xué)習(xí)的特性如表1所示。
以支持向量機(jī)定位方法為基礎(chǔ),將需要定位的區(qū)域柵格化,之后在定位區(qū)域內(nèi)采集一種測量報告。定位移動終端的話,需要借助計算來接收測量報告,對報告的相似性進(jìn)行度量,來判斷待定位移終端的柵格,應(yīng)用機(jī)器學(xué)習(xí)來對這一問題進(jìn)行解決。
仿真數(shù)據(jù)采集來源于一個周邊長為8km的正方形區(qū)域內(nèi),四個不同的時間段路測得到的四批數(shù)據(jù),用線測得到三批數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),為了保證機(jī)器學(xué)習(xí)定位方法的有效性,將第四批數(shù)據(jù)進(jìn)行篩選,在周圍10m內(nèi),把含有前三組訓(xùn)練的路測數(shù)據(jù)刪除。之后,以不同的時間段為依據(jù),合并相同通話中的相鄰的定位數(shù)據(jù),這樣可以減少定位數(shù)據(jù)量,提高定位的精度。
用機(jī)器學(xué)習(xí)對移動終端進(jìn)行定位,復(fù)雜程度比較高,計算的復(fù)雜程度與待定位區(qū)域的面積呈正比關(guān)系,區(qū)域面積越大,回歸模型以及分類會更復(fù)雜,函數(shù)的計算也就越復(fù)雜,因此,機(jī)器學(xué)習(xí)在進(jìn)行移動終端定位的過程中,區(qū)域面積越大,計算越復(fù)雜,耗費(fèi)的時間更長。利用基站的經(jīng)緯度進(jìn)行初步定位過程:首先將待定位區(qū)域邊長為8km的正方形劃分為1km的小正方形柵格,通過對定位數(shù)據(jù)集的數(shù)據(jù)進(jìn)行定位操作,以基站經(jīng)緯度為基礎(chǔ),對基站的1km邊長的正方形柵格進(jìn)行計算,初步獲取定位區(qū)域。
初次定位后,選一個邊長為2km的正方形,劃分為兩級柵格來支持向量機(jī)定位,兩級支持的方式,使數(shù)據(jù)計算復(fù)雜程度降低。在實(shí)踐中,對于定位精度的影響主要是正方形的柵格,柵格劃分的越小,定位的精度就會越高,第一級支持向量機(jī)定位,在選擇正方形柵格時,要考慮第二級的柵格大小,把兩級的分類問題總數(shù)最小化,保證在最小的定位階段對總量進(jìn)行計算。
在二次定位之后會有一個經(jīng)緯度輸出,以經(jīng)緯度為基礎(chǔ),對幾百米內(nèi)的正方形區(qū)域進(jìn)行選擇。因?yàn)橐韵蛄繖C(jī)為基礎(chǔ)的定位法誤差在百米以內(nèi),所以待定數(shù)據(jù)實(shí)際的經(jīng)緯度可能在以二次定位結(jié)果為中心的數(shù)百米正方形區(qū)域內(nèi)。之后進(jìn)行定位模型訓(xùn)練,將8km正方形中的訓(xùn)練數(shù)據(jù)進(jìn)行集中合并,可以減少運(yùn)算次數(shù)。最后對分類樣本進(jìn)行定位,以K-近鄰法為基礎(chǔ),對合并之后的訓(xùn)練數(shù)據(jù)進(jìn)行計算,之后同二次定位的數(shù)據(jù)繼續(xù)合并,對某一相似的特征以及距離進(jìn)行計算,得到三次定位的最后結(jié)果。通過三個階段的定位法得出的結(jié)果分析,定位速度及精度有了很大的提高,是GSM網(wǎng)絡(luò)戶外移動終端定位的最優(yōu)方案。
數(shù)據(jù)挖掘技術(shù)在社會發(fā)展中隨著科學(xué)技術(shù)的不斷進(jìn)步而發(fā)展,近年來發(fā)展迅速,應(yīng)用領(lǐng)域不斷擴(kuò)大。機(jī)器學(xué)習(xí)在數(shù)據(jù)挖掘中的應(yīng)用具有重要的意義,以GSM網(wǎng)絡(luò)戶外定位問題為例,介紹了以機(jī)器學(xué)習(xí)為基礎(chǔ)的定位方法,大大提高了定位的精度,縮短了定位時間。