劉 櫻,李月明,柯紫云
(西安歐亞學(xué)院,陜西 西安 710061)
伴隨 “互聯(lián)網(wǎng)+”行動(dòng)的興起,互聯(lián)網(wǎng)對(duì)于整體社會(huì)的影響已進(jìn)入到新的階段。網(wǎng)絡(luò)規(guī)模持續(xù)擴(kuò)張,互聯(lián)網(wǎng)用戶人數(shù)日益增長(zhǎng),使得互聯(lián)網(wǎng)的影響不斷擴(kuò)大,并且成為社會(huì)的重要基礎(chǔ)設(shè)施。通過對(duì)我國互聯(lián)網(wǎng)用戶人數(shù)的分析預(yù)測(cè),可以對(duì)國家和企業(yè)掌握互聯(lián)網(wǎng)的動(dòng)態(tài)發(fā)展情況進(jìn)行相關(guān)決策提供十分重要的依據(jù)[1]。
目前,互聯(lián)網(wǎng)用戶人數(shù)預(yù)測(cè)模型主要有Bass模型法、回歸分析法、BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)法等[2-4]。Bass模型法參數(shù)確定運(yùn)算量大,復(fù)雜度高;回歸分析法需要大量的樣本;BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)法建立和訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過程復(fù)雜,運(yùn)算量大。另外,針對(duì)互聯(lián)網(wǎng)用戶人數(shù)這種小量且規(guī)律相當(dāng)復(fù)雜的數(shù)據(jù),很多數(shù)據(jù)挖掘技術(shù)很難發(fā)揮其自身優(yōu)勢(shì)。
鄧聚龍?zhí)岢龌疑P?GM,Grey Model),是一種用于有效處理小樣本、貧信息、不確定性問題的一種方法[5]?;疑到y(tǒng)理論認(rèn)為:一切隨機(jī)變量或隨機(jī)過程都可以看做在一定范圍內(nèi)、一定時(shí)段上變化的灰色量或灰過程,處理灰色量,不是對(duì)它的統(tǒng)計(jì)規(guī)律和概率分布的尋求,而是借助數(shù)據(jù)來探尋數(shù)據(jù)之間的規(guī)律,從而將其變成比較有規(guī)律的數(shù)據(jù)序列,再建立模型進(jìn)行預(yù)測(cè)。文獻(xiàn)[6]應(yīng)用灰色預(yù)測(cè)與馬爾可夫鏈理論結(jié)合來預(yù)測(cè)交通事故,通過無偏灰色預(yù)測(cè)模型擬合系統(tǒng)的發(fā)展變化趨勢(shì),并以此進(jìn)一步進(jìn)行馬爾可夫預(yù)測(cè),在逐步預(yù)測(cè)中持續(xù)推陳出新,更新原始數(shù)據(jù)。文獻(xiàn)[7]利用灰色新城代謝模型對(duì)建筑廢物輸出進(jìn)行預(yù)測(cè)。文獻(xiàn)[8]用灰色預(yù)測(cè)模型預(yù)測(cè)天然氣消耗。目前,最常用的灰色模型為GM(1,1)模型,此模型在科技[9]、農(nóng)業(yè)[10]、經(jīng)濟(jì)[11]、城市化[12]等各個(gè)領(lǐng)域被廣泛應(yīng)用。然而,傳統(tǒng)的GM(1,1)灰色預(yù)測(cè)模型的精度有時(shí)難以達(dá)到要求,究其原因主要有:一是發(fā)展系數(shù)和灰色作用量的值依賴于原始序列和背景值的構(gòu)造形式;二是使用GM(1,1)模型預(yù)測(cè)時(shí),僅考慮過去的全體數(shù)據(jù),未充分利用新信息,因而導(dǎo)致精度較高的僅僅是原點(diǎn)數(shù)據(jù)以后的1或2個(gè)數(shù)據(jù)。
近年來,眾多學(xué)者致力于尋找改進(jìn)GM(1,1)模型來提高其預(yù)測(cè)精度的方法,例如初始條件優(yōu)化的近似指數(shù)序列灰色建模方法[13]。通過這些方法的使用,雖然GM(1,1)模型的預(yù)測(cè)精度一定程度上得到提高,但并沒有從根本上對(duì)GM(1,1)模型進(jìn)行改進(jìn)。基于此,本文通過重構(gòu)背景值和等維新息的思想對(duì)傳統(tǒng)的灰色預(yù)測(cè)模型進(jìn)行兩次改進(jìn),建立背景值重構(gòu)的等維新息灰色模型。
灰色模型具有微分、差分、指數(shù)兼容的性質(zhì),即灰色模型是通過建立差分方程,進(jìn)而推導(dǎo)出微分方程,且最終求得具有指數(shù)性質(zhì)的時(shí)間響應(yīng)函數(shù),進(jìn)而對(duì)原始數(shù)據(jù)進(jìn)行擬合和預(yù)測(cè)。GM(1,1)模型有3個(gè)基本操作:累加生成(AGO)、灰色建模和反向累加生成(IAGO)。
z(1)={z(1)(1),z(1)(1),…,z(1)(n)},
z(1)(k)=(x(1)(k-1)+x(1)(k))/2
k=2,3,…,n
(1)
設(shè)x(1)滿足:
dx(1)/dt+ax(1)=b
(2)
其中,a代表發(fā)展系數(shù),b代表灰色作用量。對(duì)應(yīng)的灰微分方程形式為:
x(0)(k)+az(1)(k)=b,k= 2,3,…,n
(3)
通過最小二乘法估計(jì)
(2)式的離散解為:
(4)
將上式累減還原,即可得到預(yù)測(cè)值:
(5)
眾所周知,對(duì)未來數(shù)據(jù)進(jìn)行預(yù)測(cè)是建模的主要目的,則評(píng)判模型效果的核心指標(biāo)是擬合的精度。越高的模型的精度,展示的是越好的預(yù)測(cè)效果。若模型的精度差,則對(duì)后期數(shù)據(jù)的分析處理將毫無意義,所以對(duì)模型精度的評(píng)定是非常有必要的。因此,灰色預(yù)測(cè)模型必須先通過精度檢驗(yàn)再?zèng)Q定其是否可以用于模擬、預(yù)測(cè)。模型精度的檢驗(yàn)參數(shù)主要有2個(gè):絕對(duì)誤差A(yù)E(k)、平均相對(duì)誤差MAE,分別定義為:
由(4)式可以看出,GM(1,1)模型的模擬及預(yù)測(cè)精度取決于發(fā)展系數(shù)a與灰色作用量b,而由(3)式能夠得知,求解a和b的數(shù)值依賴于背景值的構(gòu)造方式。所以影響GM(1,1)模型精度的關(guān)鍵因素之一就是背景值的構(gòu)造方法。
圖1描述的是背景值誤差,在區(qū)間[k-1,k]上對(duì)(1)式兩邊同時(shí)求積分可得:
圖1 背景值誤差的描述
背景值重構(gòu)的思路[11]:由(4)式可知x(1)(t)為非齊次指數(shù)函數(shù),不妨將x(1)(t)抽象為
x(1)(t)=Bexp (At)+C
(6)
(7)
當(dāng)t=1時(shí),有x(1)(1)=x(0)(1),即
BeA+C=x(0)(1)
又由于
x(0)(k)=x(1)(k)-x(1)(k-1)=BeAk-BeA(k-1)
可得:
(8)
對(duì)上式進(jìn)行化簡(jiǎn)得:
最后求得:
A=lnx(0)(k)-lnx(0)(k-1)
(9)
將(9)式代入(8)式得:
(10)
其中L(k)=lnx(0)(k)-lnx(0)(k-1)。
將(9)、(10)式代入(7)式得:
(11)
最后將式(9-11)代入式(6)得到新構(gòu)造的背景值計(jì)算公式為:
(12)
其中L(k)=lnx(0)(k)-lnx(0)(k-1),k= 2,3,…,n。
由以上分析可知,重構(gòu)的背景值減小了傳統(tǒng)模型背景值所產(chǎn)生的誤差。
對(duì)灰色系統(tǒng)來說,干擾系統(tǒng)的因素和系統(tǒng)的狀態(tài)都會(huì)隨著時(shí)間的變化而不斷變化。傳統(tǒng)的灰色預(yù)測(cè)模型下原點(diǎn)數(shù)據(jù)以后的1~2個(gè)數(shù)據(jù)準(zhǔn)確度較高,隨著時(shí)間推移,離時(shí)間原點(diǎn)越遠(yuǎn),模型的預(yù)測(cè)精準(zhǔn)度越低。所以,系統(tǒng)的變化和狀態(tài)必須由引入已知信息來反映,或在全未知信息的狀態(tài)下,由灰色信息來淡化灰平面的灰度,這種模型通過及時(shí)地加入了新的已知信息或灰色信息、刪除舊的數(shù)據(jù),因而可以較準(zhǔn)確地反映系統(tǒng)的變化狀態(tài),故稱為新息灰色模型[14-16]。但是灰色GM(1,1)模型長(zhǎng)期預(yù)測(cè)的有效性受時(shí)間序列長(zhǎng)短和數(shù)據(jù)變化的顯著影響,若數(shù)據(jù)序列太短,則長(zhǎng)期的預(yù)測(cè)模型難以建立;序列太長(zhǎng),系統(tǒng)受干擾的成分變大,將增多不穩(wěn)定因素,系統(tǒng)預(yù)測(cè)精度下降。因此通過在GM(1,1)模型中引入等維約束條件,構(gòu)建等維新息GM(1,1)模型,能夠彌補(bǔ)灰色系統(tǒng)模型的不足,使得預(yù)測(cè)預(yù)報(bào)的精度有效提高[17]。
自1997年以來,CNNIC開展統(tǒng)計(jì)調(diào)查工作已有22年,并于每年1月、7月分別發(fā)布統(tǒng)計(jì)報(bào)告2次,發(fā)布我國因特網(wǎng)上用戶人數(shù)、信息流量分布、用戶分布、上網(wǎng)計(jì)算機(jī)數(shù)、域名注冊(cè)等方面的統(tǒng)計(jì)信息情況。這給我國信息化發(fā)展提供了重要的咨詢,同時(shí)給政府、機(jī)構(gòu)和企業(yè)各界提供了關(guān)鍵的決策參考。根據(jù)中國互聯(lián)網(wǎng)信息中心(CNNIK)第44次發(fā)布的《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[1],截至2018年12月,中國網(wǎng)民規(guī)模達(dá)8.26億,互聯(lián)網(wǎng)普及率達(dá)61.2%。本文選取CNNIC于2019年7月發(fā)布的第44次報(bào)告數(shù)據(jù)(見表1),以我國互聯(lián)網(wǎng)用戶人數(shù)為例進(jìn)行分析。取2010-2015年的數(shù)據(jù)組成原始序列,在3種不同方案下運(yùn)用MATLAB 預(yù)測(cè)2016-2018年的互聯(lián)網(wǎng)用戶人數(shù)。
表1 2007-2015年我國互聯(lián)網(wǎng)用戶人數(shù)
灰色GM(1,1)模型。利用灰色系統(tǒng)建模方法,對(duì)2010-2015年的數(shù)據(jù)構(gòu)建灰色GM(1,1)模型。解得:a=-0.145 1,b=27 116。由此得到我國互聯(lián)網(wǎng)用戶人數(shù)的傳統(tǒng)灰色GM(1,1)模型為:
表2 傳統(tǒng)GM(1,1)模型的預(yù)測(cè)結(jié)果
背景值重構(gòu)的GM(1,1)模型。對(duì)2010-2015年的數(shù)據(jù)構(gòu)建背景值重構(gòu)的GM(1,1)模型,解得:a1=-0.133 1,b1=27 960。得到我國互聯(lián)網(wǎng)用戶人數(shù)的背景值重構(gòu)的GM(1,1)模型為:
表3 背景值重構(gòu)的GM(1,1)模型的預(yù)測(cè)結(jié)果
由表2~表4可以看出,背景值重構(gòu)的等維新息灰色預(yù)測(cè)模型的預(yù)測(cè)精度最高,它的平均相對(duì)誤差約比背景值重構(gòu)的GM(1,1)模型減少約2.30%,比傳統(tǒng)GM(1,1)模型減少5.83%,效果較好。
表4 背景值重構(gòu)的等維新息GM(1,1)模型的預(yù)測(cè)結(jié)果
對(duì)比各模型預(yù)測(cè)值與實(shí)際值可知,在互聯(lián)網(wǎng)用戶人數(shù)預(yù)測(cè)過程中,傳統(tǒng)GM(1,1)模型的預(yù)測(cè)結(jié)果只能反映用戶人數(shù)的大致趨勢(shì);背景值重構(gòu)的GM(1,1)模型在傳統(tǒng)GM(1,1)模型基礎(chǔ)上做了改進(jìn),預(yù)測(cè)精度高于GM(1,1)模型;而背景值重構(gòu)的等維新息GM(1,1)模型則是將2013年的實(shí)際值加入到系統(tǒng)中,去除了老數(shù)據(jù),使預(yù)測(cè)精度進(jìn)一步提高。因此,背景值重構(gòu)的等維新息GM(1,1)模型可以更好地預(yù)測(cè)互聯(lián)網(wǎng)用戶人數(shù)。
本文在白化方程上利用積分重構(gòu)的方式構(gòu)造了GM(1,1)模型的背景值,減少了傳統(tǒng)背景值對(duì)模型造成的誤差,提高了模型的精度。接著在背景值重構(gòu)的前提下,實(shí)時(shí)地加入了新的信息,建立等維新息GM(1,1)模型。結(jié)合第37次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告的數(shù)據(jù),通過仿真分析對(duì)互聯(lián)網(wǎng)用戶人數(shù)進(jìn)行灰色建模并進(jìn)行預(yù)測(cè),結(jié)果表明:使用背景值重構(gòu)的等維新息GM(1,1)模型的預(yù)測(cè)準(zhǔn)確率明顯高于背景值重構(gòu)的GM(1,1)模型和傳統(tǒng)GM(1,1)模型。