鄭麗娟
一、前言
在目前大數(shù)據(jù)以及移動互聯(lián)網(wǎng)高速發(fā)展的新形勢下,通過移動互聯(lián)網(wǎng)下的海量數(shù)據(jù)通信與管理,可以充分的配置資源,降低成本,充分利用當(dāng)前數(shù)據(jù)庫以及分布式技術(shù)的優(yōu)勢,實(shí)現(xiàn)多方合理資源共享以及降低成本,提高政府公共工作效率與利潤。海量數(shù)據(jù)是互聯(lián)網(wǎng)入口的核心切入點(diǎn),由于當(dāng)前分布式存儲以及大數(shù)據(jù)是主要發(fā)展趨勢與熱點(diǎn)領(lǐng)域之一,對于海量數(shù)據(jù)的存儲和管理,通過移動網(wǎng)絡(luò)傳輸時(shí),如何進(jìn)行一定的壓縮是當(dāng)前的主要技術(shù)瓶頸。本文即針對此需求,結(jié)合空間數(shù)據(jù)傳輸?shù)奶攸c(diǎn),設(shè)計(jì)與研究面向移動網(wǎng)絡(luò)的海量空間數(shù)據(jù)壓縮管理算法。
二、空間數(shù)據(jù)格式基礎(chǔ)
1、空間數(shù)據(jù)的概念。本文研究的移動網(wǎng)絡(luò)條件下的主要數(shù)據(jù)來源不同于其他的一般信息系統(tǒng),由于智慧城市的管理需要,需要提供城市的基本的道路數(shù)據(jù)、建筑數(shù)據(jù),這些統(tǒng)稱為空間數(shù)據(jù),其科學(xué)概念是這么定義的,即地球上每一種物體都有其明確的空間屬性,包括它的坐標(biāo)、空間三維尺寸、空間拓?fù)鋵傩缘取?、GML語言與定位。本文研究中采用的空間數(shù)據(jù)是研究城市的基礎(chǔ)地理數(shù)據(jù),其數(shù)據(jù)格式是空間語言GML,是一種XML格式的擴(kuò)展,其具有標(biāo)簽化管理、坐標(biāo)清晰的特點(diǎn),是一種本質(zhì)上對空間對象進(jìn)行描述的,由開放地理信息協(xié)會制定標(biāo)準(zhǔn)的語言。該語言中立于各廠商,是一種開放的標(biāo)準(zhǔn),對空間數(shù)據(jù)有規(guī)范的編碼,另外可以快速在互聯(lián)網(wǎng)上進(jìn)行共享,繼承了XML的優(yōu)勢,對于網(wǎng)絡(luò)化傳輸有先天的優(yōu)勢,利于數(shù)據(jù)管理與網(wǎng)絡(luò)實(shí)時(shí)傳輸。
三、壓縮算法設(shè)計(jì)與實(shí)現(xiàn)
1、基于語義同構(gòu)的壓縮模型設(shè)計(jì)。在這個(gè)算法模型中,輸入端是現(xiàn)場采集或者后臺分發(fā)的數(shù)據(jù)的GML文件,以及自定義的分組個(gè)數(shù),首先,GML數(shù)據(jù)文檔經(jīng)過系統(tǒng)的提取以及解釋操作,得到了基于XML模型的數(shù)據(jù)文檔樹。然后進(jìn)行整體同構(gòu)壓縮的過程,壓縮過程中主要有2個(gè)子流程,主要是根據(jù)其數(shù)據(jù)文檔的數(shù)據(jù)內(nèi)容和坐標(biāo)聚類進(jìn)行的內(nèi)容同構(gòu)壓縮以及根據(jù)文檔標(biāo)簽特性進(jìn)行自動化替換的采用類似索引的思路進(jìn)行置換后壓縮,而數(shù)據(jù)內(nèi)容則是根據(jù)所付地物的坐標(biāo)進(jìn)行K-Means聚類算法對數(shù)據(jù)進(jìn)行空間分組并以各子坐標(biāo)系為原點(diǎn)重新計(jì)算坐標(biāo),從而大量壓縮數(shù)據(jù)內(nèi)容。
2、GML數(shù)據(jù)內(nèi)容同構(gòu)壓縮。本文研究中采用的空間數(shù)據(jù)是研究城市的基礎(chǔ)地理數(shù)據(jù),其數(shù)據(jù)格式是空間語言GML,是一種XML格式的擴(kuò)展,其具有標(biāo)簽化管理、坐標(biāo)清晰的特點(diǎn),是一種本質(zhì)上對空間對象進(jìn)行描述的,由開放地理信息協(xié)會制定標(biāo)準(zhǔn)的語言。該語言中立于各廠商,是一種開放的標(biāo)準(zhǔn),對空間數(shù)據(jù)有規(guī)范的編碼,另外可以快速在互聯(lián)網(wǎng)上進(jìn)行共享,繼承了XML的優(yōu)勢,對于網(wǎng)絡(luò)化傳輸有先天的優(yōu)勢,利于數(shù)據(jù)管理與網(wǎng)絡(luò)實(shí)時(shí)傳輸。經(jīng)過聚類算法的同構(gòu)壓縮,可以將大量長度較大的坐標(biāo)數(shù)值存儲為相對坐標(biāo),在數(shù)值量特別大的情況下,此種方法能有效的減少坐標(biāo)數(shù)值串的字節(jié)數(shù)量,進(jìn)一步降低文本文件的大小。
3、GML語義同構(gòu)壓縮。算法的主要過程為,首先遍歷文檔中的全部字符,然后提取重復(fù)率最高的標(biāo)簽,并用較簡單的字符進(jìn)行替代。如將重復(fù)率最高的
四、算法實(shí)驗(yàn)與效率分析4.1系統(tǒng)集成與開發(fā)環(huán)境
本文在學(xué)校實(shí)驗(yàn)室進(jìn)行相關(guān)模擬,主要網(wǎng)絡(luò)為中國電信專門提供的千兆光纖,網(wǎng)速相對較快,但是需要各種配置才能達(dá)到測試的需求。主要開發(fā)環(huán)境:Microsoft Visual Studio 2015;數(shù)據(jù)庫環(huán)境:SQL Server 2008;各Web瀏覽器主要采用Chrome瀏覽器。移動終端模型采用的是iPhone 6 Plus以及華為Mate 7,分別代表iOS 和Android智能操作系統(tǒng)
4.2移動網(wǎng)絡(luò)傳輸分析
為了更好的模擬海量數(shù)據(jù)處理時(shí)的網(wǎng)絡(luò)情況,本文采用了不同的數(shù)據(jù)量的文件進(jìn)行了各個(gè)不同網(wǎng)絡(luò)環(huán)境下的相應(yīng)的實(shí)驗(yàn)和測試,以實(shí)驗(yàn)針對海量數(shù)據(jù)管理、存儲和傳輸相應(yīng)的系統(tǒng)表現(xiàn)。本文在學(xué)校的200兆和千兆光纖環(huán)境下進(jìn)行了多用戶并發(fā)傳輸實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果圖表1所示。
通過上述結(jié)果可以看出,當(dāng)有不到10個(gè)的移動終端設(shè)備訪問監(jiān)控后臺系統(tǒng)時(shí),可以啟動十個(gè)線程對于數(shù)據(jù)請求進(jìn)行處理,當(dāng)用戶急劇增加時(shí),請求的響應(yīng)和數(shù)據(jù)發(fā)送時(shí)間會受到一定的減弱,一方面是由于數(shù)據(jù)傳輸和獲取時(shí)都需要線程加鎖等操作,另一方面并發(fā)線程小于并發(fā)消息 時(shí),消息在隊(duì)列中的排除時(shí)間會造成同步的延遲。
結(jié)語:本文對于系統(tǒng)的整個(gè)算法流程,特別是數(shù)據(jù)壓縮的關(guān)鍵技術(shù)和海量數(shù)據(jù)存儲管理的主要技術(shù)進(jìn)行了論述,給出了詳細(xì)的數(shù)據(jù)壓縮的方案,包括基于數(shù)據(jù)坐標(biāo)的聚類壓縮以及基于文檔標(biāo)簽特性的文本頻次壓縮方法。最后介紹開發(fā)的平臺環(huán)境以及數(shù)據(jù),使原形系統(tǒng)實(shí)驗(yàn)有一個(gè)客觀的對比性平臺,在Visual Studio平臺上進(jìn)行了二次開發(fā),分別形成了移動終端和后臺的原型系統(tǒng),介紹系統(tǒng)開發(fā)及實(shí)現(xiàn)并進(jìn)行相關(guān)實(shí)現(xiàn),最后進(jìn)行軟件測試,證明了軟件的有效性和科學(xué)性。