本文整理天津近年的經(jīng)濟數(shù)據(jù),采用支持向量機進行數(shù)據(jù)挖掘,構(gòu)建出產(chǎn)業(yè)結(jié)構(gòu)對天津經(jīng)濟發(fā)展影響的模型。利用該模型,分析天津市不同產(chǎn)業(yè)結(jié)構(gòu)的數(shù)據(jù),預(yù)測出不同產(chǎn)業(yè)結(jié)構(gòu)對天津自貿(mào)區(qū)發(fā)展的影響,進而對天津產(chǎn)業(yè)結(jié)構(gòu)調(diào)整產(chǎn)生借鑒意義。
天津經(jīng)濟發(fā)展對環(huán)渤海都市圈和中國經(jīng)濟發(fā)展戰(zhàn)略的實施都有著重要作用,天津自貿(mào)區(qū)的設(shè)立再次提升天津的經(jīng)濟地位,天津的發(fā)展在京津冀一體化系統(tǒng)和我國經(jīng)濟轉(zhuǎn)型中發(fā)揮示范引領(lǐng)作用。因此,天津經(jīng)濟研究具有必要性,對天津經(jīng)濟發(fā)展決策具有指導(dǎo)意義。
近年來,國內(nèi)外學(xué)者對經(jīng)濟預(yù)測給出了很多方法,而統(tǒng)計學(xué)習(xí)理論的支持向量機方法更具有代表性和深厚的理論基礎(chǔ)。支持向量機(Support
Vector Machine,SVM)在解決小樣本、高維度及非線性問題上優(yōu)勢明顯。目前,該方法在很多領(lǐng)域已經(jīng)得到廣泛的應(yīng)用,例如手寫識別,字符識別等。本文通過SVM對天津近年來的經(jīng)濟發(fā)展數(shù)據(jù)進行處理和研究,對天津經(jīng)濟進行預(yù)測,理論預(yù)測結(jié)果較好地符合實際值,進而說明了該研究是有效可行的。
研究現(xiàn)狀
隨著計算機領(lǐng)域的快速發(fā)展和大數(shù)據(jù)的興起,學(xué)者們運用數(shù)據(jù)挖掘方法,多角度對經(jīng)濟做了大量的研究。周子英等利用PCA-SVM模型對長株潭經(jīng)濟數(shù)據(jù)進行了驗證性測試和分析,該模型預(yù)測精度顯著提高。由向平將ARIMA模型、指數(shù)平滑模型、SVRg型加權(quán)組合,確定權(quán)系數(shù)的組合模型較單一模型的預(yù)測精度有所提高,但當模型個數(shù)增加時精度的增速會變緩。蔣輝提出灰色支持向量回歸自適應(yīng)在線模型。田豐闡述了光滑技術(shù)在SVM和TSVM中的應(yīng)用,并采用正則化方法。本文針對天津的不同產(chǎn)業(yè)數(shù)據(jù)進行分析,構(gòu)建產(chǎn)業(yè)結(jié)構(gòu)分析模型,利用SVM的優(yōu)勢進行經(jīng)濟數(shù)據(jù)預(yù)測,并采用RBF核函數(shù)以提高預(yù)測精度。
基于SVM天津產(chǎn)業(yè)結(jié)構(gòu)分析
(一)模型構(gòu)建
為了研究不同產(chǎn)業(yè)對天津經(jīng)濟發(fā)展的影響,構(gòu)建以下模型:
TJ=<產(chǎn)業(yè)數(shù)據(jù)集,評價指標,SVM算法,性能參數(shù)實驗結(jié)果>
其中,評價指標包括:年度全社會固定資產(chǎn)投資及其年增長率、全社會民間固定資產(chǎn)投資及其年增長率、全社會新增固定資產(chǎn)及年增長率、城鎮(zhèn)固定資產(chǎn)投資及其年增長率、新增固定資產(chǎn)及其增長率、資金來源合計及本年資金來源小計、國家預(yù)算內(nèi)資金、國內(nèi)貸款、自籌資金、企事業(yè)單位自由資金、城鎮(zhèn)固定資產(chǎn)投資項目、非私營單位從業(yè)人員數(shù)及其工資總額、私營單位從業(yè)人員數(shù)及其工資總額、私營單位及非私營單位的平均工資及其增長率等。
(二)算法實現(xiàn)
SVM首先通過使用非線性變換將輸入變換到一個高維空間,再在這個高維特征空間中求廣義最優(yōu)分類面,這樣,核函數(shù)就能夠反映高維特征空間中任意兩個樣本點之間的位置關(guān)系,因而對樣本點的分類具有重要意義。本文采用的RBF核函數(shù)適用范圍廣,并具有較大的收斂域,表示為:K(Xi,xi)=exp(yllx-Xill)2
(三)預(yù)測過程
將數(shù)據(jù)集進行預(yù)處理理,并確定分類標簽,執(zhí)行分類和預(yù)測,得到性能參數(shù),過程為:
1.將原始數(shù)據(jù)集進行預(yù)處理,分別形成測試集樣本和訓(xùn)練集樣本;
2.創(chuàng)建SVM模型,初始化參數(shù),拉格朗日乘子和及閥值賦初值;
3.利用訓(xùn)練樣本集建立目標函數(shù),求解函數(shù),得到拉格朗日乘子和以及閥值的值;
4.將參數(shù)帶入估計函數(shù)中得到預(yù)測模型,用測試課本求得下不同產(chǎn)業(yè)的預(yù)測值并且計算函數(shù)誤差,若誤差小于預(yù)先設(shè)定值時,結(jié)束學(xué)習(xí)過程,否則,返回繼續(xù)學(xué)習(xí)。
數(shù)據(jù)分析
(一)數(shù)據(jù)集
整理2013年天津統(tǒng)計局的年鑒數(shù)據(jù),根據(jù)不同產(chǎn)業(yè)的劃分,確定數(shù)據(jù)集。數(shù)據(jù)集的產(chǎn)業(yè)包括:農(nóng)林牧漁業(yè),采礦業(yè),制造業(yè),電力、熱力、燃氣及水生產(chǎn)和供應(yīng)業(yè),建筑業(yè),批發(fā)和零售業(yè),交通運輸、倉儲和郵政業(yè),住宿和餐飲業(yè),信息技術(shù)服務(wù)業(yè),金融業(yè),房地產(chǎn)業(yè),商務(wù)服務(wù)業(yè),科學(xué)技術(shù)服務(wù)業(yè),水利、環(huán)境和公共設(shè)施管理業(yè),居民服務(wù)業(yè),教育,衛(wèi)生和社會工作,文化、體育和娛樂業(yè),公共管理、社會保障和社會組織。
(二)實驗結(jié)果及分析
采用SVM算法進行實驗,求得性能參數(shù):正確率95%,特異性50%,敏感性100%。在數(shù)據(jù)集中,預(yù)測信息技術(shù)服務(wù)業(yè),公共管理、社會保障和社會組織對天津經(jīng)濟發(fā)展所起的帶動作用較弱,其他產(chǎn)業(yè)較強。由上可見,預(yù)測結(jié)果準確度比較高,模型建立比較合理。
對于存在的誤差,利用可行的技術(shù)進行聚類析,將遠離預(yù)測數(shù)據(jù)的預(yù)測結(jié)果舍棄,對余下的數(shù)據(jù)進行集成,將數(shù)據(jù)包含在平均值附近正態(tài)分布區(qū)域內(nèi),來提高預(yù)測精度。
結(jié)論與展望
本文采用支持向量機方法,分析天津的經(jīng)濟數(shù)據(jù)及產(chǎn)業(yè)結(jié)構(gòu)。由天津產(chǎn)業(yè)發(fā)展研究及其對天津經(jīng)濟的影響,來推動天津自貿(mào)區(qū)的發(fā)展,進而對天津的產(chǎn)業(yè)結(jié)構(gòu)調(diào)整提出借鑒意義,具有一定的先進性。(本文受天津財經(jīng)大學(xué)“大創(chuàng)計劃”項目(2015026),天津社會科學(xué)基金項目(TJYYl5-017),教育部人文社會科學(xué)研究一般項目(14YJA630025)資助。