楊 霞,袁 丁,嚴(yán) 清,康巧琴
(四川師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,四川 成都 610101)
物聯(lián)網(wǎng)設(shè)備[1]用于房間監(jiān)測(cè)時(shí)可通過人體傳感器收集數(shù)據(jù),然后對(duì)傳感器數(shù)據(jù)進(jìn)行分析和預(yù)測(cè)。傳感器監(jiān)測(cè)常用的監(jiān)測(cè)設(shè)備為被動(dòng)紅外(PIR)運(yùn)動(dòng)探測(cè)器,PIR與攝像機(jī)相比,價(jià)格低廉、抗電磁干擾、更易于安裝、更加隱蔽,因此它對(duì)人來說不具有干擾性[2]。雖然攝像機(jī)能提供更準(zhǔn)確的監(jiān)測(cè),但攝像可能遭遇網(wǎng)絡(luò)攻擊,同時(shí)使用攝像機(jī)進(jìn)行監(jiān)測(cè)價(jià)格昂貴[3]。這些優(yōu)勢(shì)使得PIR傳感器在監(jiān)測(cè)和預(yù)測(cè)方面也越來越受歡迎。但是PIR不能檢測(cè)靜止的人體,當(dāng)人處于靜止?fàn)顟B(tài)時(shí),PIR不會(huì)產(chǎn)生監(jiān)測(cè)數(shù)據(jù);只有當(dāng)人運(yùn)動(dòng)時(shí),PIR才會(huì)產(chǎn)生數(shù)據(jù)[4],這使得PIR得到的統(tǒng)計(jì)信息誤差較大。如何通過預(yù)測(cè)算法來幫助用戶獲取更準(zhǔn)確的房間使用情況,包括獲取靜止人體對(duì)房間的使用情況,是非常有價(jià)值的事情。預(yù)測(cè)算法在擬合模型的同時(shí)可以對(duì)未來一段時(shí)間的趨勢(shì)進(jìn)行預(yù)測(cè),對(duì)人體紅外時(shí)間序列數(shù)據(jù)的預(yù)測(cè)有利于用戶及時(shí)規(guī)劃使用方案、房間節(jié)能和提高房間的使用率。因此研究出一種準(zhǔn)確率比較高的紅外時(shí)間序列預(yù)測(cè)模型具有十分重要的意義。
本文深入研究了Prophet模型、季節(jié)性差分自回歸滑動(dòng)平均(seasonal autoregressive integrated moving average,SARIMA)模型、三次指數(shù)平滑法(Holt-winters)模型、長短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)模型,對(duì)比了不同模型的優(yōu)缺點(diǎn),提出一種加權(quán)組合的Prophet-SARIMA預(yù)測(cè)模型,將預(yù)測(cè)模型用于人體紅外時(shí)間序列的統(tǒng)計(jì)分析上,該模型在人體紅外時(shí)間序列的預(yù)測(cè)上比其它預(yù)測(cè)模型更加準(zhǔn)確。
時(shí)間序列模型非常適合對(duì)不易建立精確數(shù)學(xué)模型和具有不確定性的系統(tǒng)建模。其中Box和Jenkins提出的求和自回歸移動(dòng)平均模型(autoregressive integrated moving ave-rage,ARIMA)[5]是非常經(jīng)典的模型。ARIMA模型從時(shí)間序列自身出發(fā),建立相應(yīng)的模型進(jìn)行分析,該方法計(jì)算簡(jiǎn)單、操作方便、定義了過去數(shù)據(jù)與現(xiàn)在數(shù)據(jù)的關(guān)系[6],但ARIMA模型對(duì)于既有季節(jié)性又有長期趨勢(shì)的時(shí)間序列,不足以提取其中的季節(jié)信息[7]。因此,為了能夠?qū)竟?jié)性組件建模,又提出了季節(jié)性差分自回歸滑動(dòng)平均模型SARIMA模型[8]。該方法在ARIMA模型的基礎(chǔ)上,充分考慮了周期性特征,并且使用外部信息來增強(qiáng)模型的預(yù)測(cè)能力,時(shí)間推理能力強(qiáng)[9,10]。
時(shí)間序列最常用的機(jī)器學(xué)習(xí)的模型是:Hochreiter提出的長期短期記憶網(wǎng)絡(luò)(LSTM)方法[11]。LSTM算法作為一類特殊設(shè)計(jì)的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可以學(xué)習(xí)時(shí)間序列中隱含的長期有用信息,并能實(shí)現(xiàn)樣本輸入和輸出的非線性關(guān)系,對(duì)噪聲具有較強(qiáng)的魯棒性和容錯(cuò)能力,但是該方法的參數(shù)復(fù)雜,訓(xùn)練難度較大、時(shí)間長且容易失敗[12-14]。
Taylor[15]等提出的Prophet預(yù)測(cè)模型,不同于傳統(tǒng)的時(shí)間預(yù)測(cè)模型,Prophet具有操作簡(jiǎn)單、參數(shù)易于解釋、自動(dòng)化處理、擬合速度快、自動(dòng)處理缺失值和數(shù)據(jù)非等距問題、可將結(jié)果按不同維度分解的特點(diǎn)[16,17],同時(shí)一個(gè)有效的預(yù)測(cè)模型將同時(shí)考慮目標(biāo)序列過去的行為數(shù)據(jù)和近期某些特殊點(diǎn)的影響,而一般的時(shí)間序列將這些特殊點(diǎn)視作離群點(diǎn)被剔除掉,忽略了其對(duì)目標(biāo)序列估值的作用,Prophet模型考慮了這些特殊點(diǎn)對(duì)趨勢(shì)變化的影響[18,19]。但是Prophet模型沒有考慮殘差的自相關(guān)性對(duì)預(yù)測(cè)性能的影響,并一定程度上舍棄了時(shí)間維度的推理能力。
組合預(yù)測(cè)模型是由Bates和Grange等提出[20,21],組合模型可以克服單一模型造成的偏頗,基于組合思想將單一的模型通過不同的方式組合起來,使之得到的預(yù)測(cè)結(jié)果比單一模型得到的結(jié)果更加準(zhǔn)確[22,23]。
為了充分發(fā)揮不同模型各自的優(yōu)勢(shì),本文在Prophet模型的基礎(chǔ)上引入SARIMA模型,提出一種動(dòng)態(tài)加權(quán)組合的Prophet-SARIMA預(yù)測(cè)模型。在兼顧Prophet模型的自動(dòng)化、參數(shù)簡(jiǎn)單、易于操作、考慮節(jié)假日特殊點(diǎn)的影響的特點(diǎn)的同時(shí),解決了Prophet模型對(duì)殘差考慮的缺失,提升了Prophet模型的時(shí)間推理能力,克服了單一模型反映的規(guī)律不全面問題。動(dòng)態(tài)獲取權(quán)值,通過計(jì)算得到最優(yōu)權(quán)值組合,從而大幅提升預(yù)測(cè)精度。實(shí)驗(yàn)結(jié)果表明,所提出的Prophet-SARIMA組合預(yù)測(cè)模型考慮了殘差自相關(guān)性檢驗(yàn),時(shí)間推理能力更強(qiáng),并且該組合預(yù)測(cè)模型的性能均優(yōu)于單項(xiàng)預(yù)測(cè)模型。
Prophet是Facebook公司于2017年開發(fā)的一種新的時(shí)間序列預(yù)測(cè)模型,不同于傳統(tǒng)的時(shí)間序列預(yù)測(cè)方法,Prophet本質(zhì)上是對(duì)時(shí)間序列曲線的擬合[15]。它采用廣義加性模型或乘法模型來擬合預(yù)測(cè)函數(shù),且模型預(yù)測(cè)速度快,同時(shí)Prophet還對(duì)含有異常值、節(jié)假日和趨勢(shì)變化的日常周期數(shù)據(jù)具有很強(qiáng)的適應(yīng)性,尤其對(duì)缺失值、趨勢(shì)的轉(zhuǎn)變和大量的異常值具有很強(qiáng)的魯棒性[16]。Prophet模型構(gòu)建的流程如圖1所示。
圖1 模型構(gòu)建流程
Prophet模型由4部分組成,包括growth(趨勢(shì)性)、seasonality(周期性)、holidays(節(jié)假日)、error(誤差項(xiàng))[17]。Prophet模型通過擬合這4項(xiàng),然后將結(jié)果疊加得到預(yù)測(cè)值,加法組合的基本形式如式(1)所示,乘法組合的基本形式如式(2)所示
F(t)=g(t)+s(t)+h(t)
(1)
F(t)=g(t)*s(t)*h(t)
(2)
其中,趨勢(shì)項(xiàng)g(t)用于擬合時(shí)間序列的非周期持續(xù)性變化,它是整個(gè)Prophet模型的核心。從數(shù)據(jù)中選擇變化點(diǎn)來實(shí)現(xiàn)趨勢(shì)的變化,變化點(diǎn)的增長率服從δ~Laplace(0,τ) 分布,τ負(fù)責(zé)控制增長率的調(diào)節(jié)強(qiáng)度[18]。趨勢(shì)項(xiàng)g(t)有兩種表達(dá)形式,一種基于邏輯回歸函數(shù),另一種基于分段線性函數(shù)。基于邏輯函數(shù)的精確形式如下
(3)
其中, C(t) 表示隨時(shí)間變化的模型容量,k表示增長率,m表示偏移量,δ、γ表示調(diào)整量,A表示指示向量?;诜侄尉€性函數(shù)的精確形式如下
g(t)=(k+Aδ)*t+(m+Aγ)
(4)
s(t)表示周期性變化,例如:每周、每月、每年的季節(jié)性變化,采用離散傅里葉級(jí)數(shù)來建模周期性分量[19],具體表達(dá)式如下
(5)
其中,L表示季節(jié)性的周期長度;N表示模型具有的周期個(gè)數(shù)。若要擬合復(fù)雜的季節(jié)性,N的取值就要越大,得到的擬合效果就會(huì)越好,但可能會(huì)出現(xiàn)過擬合的情況。N值的確定需要參考L的具體值,如果是年周期性,可將L設(shè)置為365.25,N設(shè)置為10;如果是周季節(jié)性,可將L設(shè)為7,N設(shè)置為3。
h(t)是節(jié)假日項(xiàng),每年的節(jié)假日或大事件會(huì)對(duì)時(shí)間序列產(chǎn)生趨勢(shì)很大的影響,例如每年的國慶節(jié)、春節(jié)等。因此將節(jié)假日效應(yīng)納入模型,以便提升模型預(yù)測(cè)的準(zhǔn)確率。考慮到不同時(shí)刻下的節(jié)假日影響,由于不同的節(jié)假日可作為獨(dú)立的模型,因此可通過設(shè)置時(shí)間窗的方式來模擬每個(gè)節(jié)假日前后的幾天對(duì)時(shí)間序列產(chǎn)生的影響。節(jié)假日模型具體表達(dá)形式為
(6)
Z(t)=[1(t∈M1),…,1(t∈ML)]
(7)
h(t)=Z(t)*k,k~Normal(0,γ2)
(8)
其中,Wi表示預(yù)測(cè)值受時(shí)間窗口內(nèi)的節(jié)假日的影響;i表示節(jié)假日;Mi表示時(shí)間t屬于該時(shí)間窗口,Mi是第i個(gè)虛擬變量值,1為Mi的值,如果時(shí)間變量t不屬于Mi,則值為0。模型的最后一部分為誤差項(xiàng),表示模型未預(yù)測(cè)到的波動(dòng),并且假設(shè)它服從高斯分布。
Jenkins和Box于20世紀(jì)70年代初提出求和自回歸移動(dòng)平均ARIMA模型,也稱為Box-Jenkins法,該模型是研究時(shí)間序列的著名方法[5]。ARIMA模型適用于平穩(wěn)時(shí)間序列,如果為非平穩(wěn)時(shí)間序列,需要先將時(shí)間序列通過差分轉(zhuǎn)化為平穩(wěn)時(shí)間序列再建模,之后再通過反變換還原時(shí)間序列。ARIMA模型包括自回歸(AR)模型和移動(dòng)平均(MA)模型[6]。 ARIMA(p,d,q) 模型的數(shù)學(xué)表達(dá)形式如下所示
Yi=θ0+φ1yt-1+φ2yt-2+…+φpyt-p+εt-θ1εt-1-
θ2εt-2-…-θqεt-q
(9)
其中,yt代表不同樣本的值;εi為服從正態(tài)分布的白噪聲序列;φi(i=1,2,…,p) 和θi(i=1,2,…,q) 分別為自回歸系數(shù)、移動(dòng)平均系數(shù)。p、d、q分別為ARIMA(p,d,q) 模型的自回歸階數(shù)、平穩(wěn)處理時(shí)的差分次數(shù)、移動(dòng)平均階數(shù)。
將Box-Jenkins法應(yīng)用于時(shí)間序列建模、預(yù)測(cè)的步驟見表1[7]。
表1 ARIMA模型建模步驟
SARIMA模型是ARIMA模型的一種變形,該模型主要針對(duì)具有季節(jié)性或周期性規(guī)律變化的時(shí)間序列[8]。SARIMA模型在ARIMA模型的基礎(chǔ)上添加了3個(gè)新的超參數(shù),以指定序列的季節(jié)性分量的自回歸、微分和移動(dòng)平均值,以及季節(jié)性周期的附加參數(shù)[9]。SARIMA模型核心要點(diǎn)是對(duì)數(shù)據(jù)的處理,將擬合后的誤差作為分析要素,充分考慮殘差信息。SARIMA模型可表示為SARIMA(p,d,q)×(P,D,Q)S, 該模型在平穩(wěn)化處理時(shí)除了使用差分還可以使用季節(jié)性差分。SARIMA模型的數(shù)學(xué)表達(dá)式為
(10)
表2 SARIMA建模步驟
為了充分發(fā)揮Prophet模型和SARIMA模型的優(yōu)勢(shì),提高預(yù)測(cè)的準(zhǔn)確性,克服單一模型的偏頗,本文在Prophet模型的基礎(chǔ)上引入SARIMA模型,提出基于Prophet和SARIMA的動(dòng)態(tài)加權(quán)組合預(yù)測(cè)模型。該模型既保留了Prophet模型簡(jiǎn)單、擬合速度快、自動(dòng)化建模、充分考慮節(jié)假日等特殊點(diǎn)對(duì)趨勢(shì)影響的優(yōu)勢(shì),又保留了SARIMA嚴(yán)謹(jǐn)?shù)哪P蜋z驗(yàn)與較強(qiáng)的推理能力,解決了Prophet對(duì)殘差自相關(guān)性檢測(cè)的缺失問題,使得模型推理能力更強(qiáng)。Prophet-SARIMA組合預(yù)測(cè)模型具體建模流程如圖2所示。
圖2 Prophet-SARIMA組合預(yù)測(cè)模型
首先分別使用Prophet模型和SARIMA模型,將分組得到的每小時(shí)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行建模,假設(shè)Prophet模型在t時(shí)刻的預(yù)測(cè)值是F(t),SARIMA模型在t時(shí)刻的預(yù)測(cè)值為R(t),t=1,2,…,N, 然后分別為兩個(gè)模型賦予動(dòng)態(tài)權(quán)值ω1、ω2。最后通過計(jì)算兩個(gè)模型的加權(quán)融合后的值,最終得到Prophet-SARIMA房間使用時(shí)長預(yù)測(cè)模型。此時(shí),Prophet-SARIMA組合預(yù)測(cè)模型可以表示為
Y(t)=ω1F(t)+ω2R(t),ω1+ω2=1,
t=1,2,…,N
(11)
Y(t)為Prophet模型與SARIMA模型的預(yù)測(cè)數(shù)據(jù)通過加權(quán)求和得出。通過計(jì)算兩種模型的最優(yōu)權(quán)值組合,得到Prophet-SARIMA組合預(yù)測(cè)模型。
組合模型最重要的就是權(quán)值的確定,為了尋找Prophet-SARIMA組合模型的最優(yōu)權(quán)值系數(shù)ω1、ω2,首先需要初始化參數(shù)ω1、ω2,使ω1、ω2滿足
ω1+ω2=1
(12)
ω1的取值范圍為[0,1]中順次遞增0.1的11個(gè)數(shù)值,ω2的取值范圍為[1,0]中順次遞減0.1的11個(gè)數(shù)值,然后將不同時(shí)刻下的權(quán)值系數(shù)ω1、ω2分別與該時(shí)刻下的Prophet模型和SARIMA模型的預(yù)測(cè)結(jié)果相乘,接下來將同一時(shí)刻的兩個(gè)預(yù)測(cè)結(jié)果求和,該和值就是組合模型的預(yù)測(cè)結(jié)果。通過迭代求解出11組中最優(yōu)的權(quán)值組合。確定權(quán)值的流程如圖3所示。
圖3 權(quán)值確定流程
Prophet-SARIMA模型的構(gòu)建步驟見表3。
表3 Prophet-SARIMA模型建模步驟
實(shí)驗(yàn)數(shù)據(jù)來源于四川省某高校智能監(jiān)測(cè)平臺(tái)監(jiān)控中心產(chǎn)生的每日傳感器數(shù)據(jù),采集日期從2019年9月1日~2020年2月10日,數(shù)據(jù)真實(shí)有效。每條數(shù)據(jù)由編號(hào)、設(shè)備號(hào)、設(shè)備類型、狀態(tài)標(biāo)記、和觸發(fā)時(shí)間組成,該數(shù)據(jù)集記6個(gè)月內(nèi)32間房間的實(shí)時(shí)使用情況。數(shù)據(jù)記錄從每天7∶00點(diǎn)開始直至23∶00結(jié)束。本文主要研究1 h的時(shí)間尺度房間使用時(shí)長預(yù)測(cè)。因此將數(shù)據(jù)集按每小時(shí)進(jìn)行分組,得到16組實(shí)測(cè)數(shù)據(jù),共3 216 189條時(shí)間序列。這些數(shù)據(jù)是傳感器的實(shí)時(shí)數(shù)據(jù),每當(dāng)有人進(jìn)入、離開或走動(dòng)時(shí),就會(huì)觸發(fā)傳感器,傳感器就會(huì)產(chǎn)生一條數(shù)據(jù)記錄。其中一組數(shù)據(jù)格式見表4。
表4 傳感器數(shù)據(jù)采集
為了符合模型的輸入?yún)?shù)格式要求,再將以上采集的數(shù)據(jù)按房間分組并按每小時(shí)為單位重新統(tǒng)計(jì),計(jì)算1 h內(nèi)的實(shí)際使用時(shí)長,定義1 h使用時(shí)長計(jì)算公式為
(13)
hOffi表示Off狀態(tài)對(duì)應(yīng)的時(shí)間戳、hOni-1表示On狀態(tài)對(duì)應(yīng)的時(shí)間戳、lengthD表示當(dāng)前分組的樣本長度。以每天12時(shí)為例,重新分組統(tǒng)計(jì)得到的數(shù)據(jù)格式見表5。serial number為數(shù)據(jù)編號(hào),ds為時(shí)間戳,y為統(tǒng)計(jì)計(jì)算得到的使用時(shí)長,單位為s。將得到的每組原始數(shù)據(jù)按3∶1劃分為訓(xùn)練集與測(cè)試集,其中訓(xùn)練集共2 412 141條數(shù)據(jù),測(cè)試集共804 047條數(shù)據(jù)。并指定2020年1月21日~2020年2月10日為預(yù)測(cè)區(qū)間。
表5 時(shí)長統(tǒng)計(jì)
為了評(píng)價(jià)各模型對(duì)房間使用時(shí)長的預(yù)測(cè)效果,本文使用均方誤差(RMSE)和平均絕對(duì)誤差(MAE)兩個(gè)指標(biāo)作為評(píng)估指標(biāo)。當(dāng)RMSE與MAE越小時(shí),模型預(yù)測(cè)效果越好,誤差越小。RMSE、MAE指標(biāo)計(jì)算公式如下
(14)
(15)
其中,y(t)是t時(shí)刻對(duì)應(yīng)的實(shí)測(cè)值,g(t)是t時(shí)刻對(duì)應(yīng)的預(yù)測(cè)值,n是樣本數(shù)。
3.3.1 Prophet模型構(gòu)建
Prophet模型可以將時(shí)間序列經(jīng)特定的函數(shù)變換為每日、每周、每月、每年等不同時(shí)間維度的組合形式,本文按“天”為粒度來進(jìn)行建模,對(duì)每天固定時(shí)間段的數(shù)據(jù)進(jìn)行建模和預(yù)測(cè)。同時(shí)本文考慮了節(jié)假日對(duì)趨勢(shì)變化的影響,因此在h(t)中設(shè)置采集區(qū)間包含的主要節(jié)日,具體設(shè)置見表6。
表6 主要節(jié)假日
由于季節(jié)性不是恒定因子,而是隨著趨勢(shì)在變化,所以根據(jù)以上設(shè)置,使用默認(rèn)參數(shù)配置和Prophet乘法模型建模,得到初始模型,為了更好的預(yù)測(cè),將Prophet的重要參數(shù)通過循環(huán)迭代得出最優(yōu)解。Prophet模型最終的參數(shù)配置見表7。
表7 Prophet參數(shù)設(shè)置
Prophet模型會(huì)得到分解的增長趨勢(shì)(trend)、每周趨勢(shì)(weekly)和每天趨勢(shì)(daily),以及節(jié)假日影響(holiday)。由于空間的局限和結(jié)果的相似,本文僅展示其中一組時(shí)間序列的建模結(jié)果。圖4給出了其中一間房間的每天12時(shí)統(tǒng)計(jì)數(shù)據(jù),被Prophet乘法模型分解得到的結(jié)果。由圖4中的趨勢(shì)圖可知,房間使用時(shí)長在12月末、1月初是最長的,且使用趨勢(shì)在不斷地變化,2020年2月趨勢(shì)明顯下降,是受春節(jié)節(jié)假日效應(yīng)的影響。并且從每周趨勢(shì)中可以看出,一周中周六、周天的使用時(shí)長最低,工作日的使用時(shí)長高于周末。從每日趨勢(shì)上可以看出,上午的房間使用時(shí)長高于下午和晚上。
圖4 預(yù)測(cè)結(jié)果分解
Prophet模型預(yù)測(cè)房間使用時(shí)長的結(jié)果如圖5所示。圖5中小黑點(diǎn)代表原使用時(shí)長數(shù)據(jù),實(shí)線代表預(yù)測(cè)值,陰影區(qū)域是80%的置信區(qū)間,沒有小黑點(diǎn)的陰影區(qū)域表示對(duì)房間使用時(shí)長的預(yù)測(cè)區(qū)間。此時(shí)預(yù)測(cè)值的均方誤差為18.71,平均絕對(duì)誤差為6.84。
圖5 Prophet預(yù)測(cè)結(jié)果
3.3.2 SARIMA模型構(gòu)建
使用statsmodels工具中的SARIMAX方法建立SARIMA模型。由分解法可知數(shù)據(jù)具有月度周期。由于SARIMA模型是通過尋找歷史數(shù)據(jù)之間的自相關(guān)性,來預(yù)測(cè)未來,要求數(shù)據(jù)必須是平穩(wěn)的,因此使用ADF檢驗(yàn)對(duì)數(shù)據(jù)進(jìn)行平穩(wěn)化判斷,ADF檢驗(yàn)結(jié)果見表8。由結(jié)果可以看出P值大于0.05,說明原始序列不平穩(wěn)。因此首先需要對(duì)原始序列進(jìn)行季節(jié)性差分處理,進(jìn)行一階差分后,再次使用ADF檢驗(yàn)判斷一階差分后的數(shù)據(jù)是否平穩(wěn)。
表8 原始序列ADF檢驗(yàn)
一階差分后的ADF檢驗(yàn)結(jié)果見表9。檢驗(yàn)結(jié)果表明,在1%的顯著性水平下拒絕原假設(shè),說明一階差分處理后的序列是平穩(wěn)的??蛇M(jìn)行SARIMA模型建模分析。
表9 一階差分序列ADF檢驗(yàn)
使用處理后的序列建立SARIMA模型,為了使模型簡(jiǎn)單化,更輕松準(zhǔn)確地獲取參數(shù)值,使用網(wǎng)格搜索法并結(jié)合赤池信息量準(zhǔn)則(AIC),確定階數(shù)p、q、P、Q。最終確定的模型為SARIMA(1,1,0)×(1,1,0)12。 SARIMA模型充分考慮到殘差的自相關(guān)性,在預(yù)測(cè)之前,需要對(duì)模型進(jìn)行顯著性檢驗(yàn),使用殘差密度圖、QQ圖和DW檢驗(yàn)來檢驗(yàn)?zāi)P蛯W(xué)習(xí)效果,判斷殘差是否存在自相關(guān)性與殘差是否滿足白噪聲。殘差密度如圖6所示,可以看出分布密度呈正態(tài)分布。如圖7所示的QQ圖可知,QQ圖呈線性分布則殘差服從正態(tài)分布,并且DW值為2.069,可知?dú)埐畈淮嬖谧韵嚓P(guān)性,并且為白噪聲序列。因此模型有效。最后使用該模型對(duì)預(yù)測(cè)區(qū)間的數(shù)據(jù)進(jìn)行預(yù)測(cè)。
圖6 殘差密度
圖7 QQ圖
3.3.3 Prophet-SARIMA模型構(gòu)建
為了充分利用Prophet模型與SARIMA模型的優(yōu)勢(shì),文本提出了基于Prophet和SARIMA模型的優(yōu)化組合模型。
在分別獲得Prophet模型和SARIMA模型的預(yù)測(cè)值后,本文使用3.2節(jié)中的評(píng)估指標(biāo)來評(píng)估不同權(quán)重系數(shù)對(duì)應(yīng)的Prophet-SARIMA模型預(yù)測(cè)結(jié)果的效果,將得到的11組加權(quán)預(yù)測(cè)結(jié)果記錄在表10中,根據(jù)表10可知,當(dāng)權(quán)值系數(shù)ω1=0.5、ω2=0.5時(shí),預(yù)測(cè)結(jié)果的均方誤差和平均絕對(duì)誤差均為最小,并且結(jié)果顯示,Prophet-SARIMA組合模型的預(yù)測(cè)效果均優(yōu)于Prophet和SARIMA單項(xiàng)模型的預(yù)測(cè)效果。
表10 不同權(quán)值對(duì)應(yīng)的評(píng)估結(jié)果
為了進(jìn)一步驗(yàn)證本模型的性能,對(duì)另一組房間的使用時(shí)長數(shù)據(jù)進(jìn)行建模并預(yù)測(cè),將Prophet-SARIMA模型的預(yù)測(cè)結(jié)果分別與SARIMA模型、Prophet模型、LSTM模型、Holt-winters模型的預(yù)測(cè)結(jié)果進(jìn)行了對(duì)比,各個(gè)模型的評(píng)估結(jié)果見表11,由表11可知,與LSTM模型、Holt-winters模型相比,Prophet-SARIMA組合預(yù)測(cè)模型的預(yù)測(cè)效果更佳,其次是LSTM模型。同時(shí)Prophet-SARIMA組合預(yù)測(cè)模型的預(yù)測(cè)效果優(yōu)于Prophet、SARIMA單項(xiàng)模型。因此在房間使用情況的預(yù)測(cè)方面,Prophet-SARIMA組合預(yù)測(cè)模型具有更高的準(zhǔn)確性和更強(qiáng)的適用性。
表11 不同模型的評(píng)估結(jié)果對(duì)比
統(tǒng)計(jì)傳感器采集的公共場(chǎng)所使用時(shí)長,并分析時(shí)長數(shù)據(jù)特征,對(duì)提升公共場(chǎng)所使用效率和應(yīng)急準(zhǔn)備有重要的指導(dǎo)作用。本文提出了一種基于Prophet模型和SARIMA模型的加權(quán)組合預(yù)測(cè)模型,解決了Prophet模型對(duì)殘差自相關(guān)性檢測(cè)的缺失,提升了Prophet模型的時(shí)間推理能力。該模型充分利用Prophet模型和SARIMA模型各自的優(yōu)點(diǎn),并與Prophet和SARIMA單項(xiàng)模型、LSTM模型、Holt-winters模型、不同權(quán)值系數(shù)下的組合模型進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,Prophet-SARIMA組合模型對(duì)人體紅外時(shí)間序列預(yù)測(cè)的性能明顯優(yōu)于單項(xiàng)的SARIMA預(yù)測(cè)模型與Prophet預(yù)測(cè)模型,同時(shí)優(yōu)于LSTM模型和Holt-winters模型。加權(quán)組合模型中權(quán)值的取值對(duì)預(yù)測(cè)結(jié)果的影響很大,如何設(shè)計(jì)算法獲取最優(yōu)權(quán)值是加權(quán)組合模型的關(guān)鍵。本文提出的Prophet-SARIMA組合預(yù)測(cè)模型,只涉及了兩種單項(xiàng)模型,未來將結(jié)合多個(gè)模型的優(yōu)勢(shì)進(jìn)行預(yù)測(cè),以便獲取更高的預(yù)測(cè)準(zhǔn)確率。同時(shí)Prophet模型在非線性預(yù)測(cè)上的精度較差,而神經(jīng)網(wǎng)絡(luò)在預(yù)測(cè)非線性部分的性能更優(yōu),未來還將考慮結(jié)合神經(jīng)網(wǎng)絡(luò)的模型來進(jìn)一步研究,從而尋找出更優(yōu)的建模方案。