李 斌,吳慶濤
(1.河南科技大學應(yīng)用工程學院現(xiàn)代教育技術(shù)中心,河南 三門峽 472000; 2.河南科技大學信息工程學院,河南 洛陽 471023)
互聯(lián)網(wǎng)中包含著海量網(wǎng)絡(luò)數(shù)據(jù),人們的生活方式和行為習慣因為互聯(lián)網(wǎng)的普及而發(fā)生著潛移默化的改變,人們在作各種決策時習慣于通過搜索引擎在互聯(lián)網(wǎng)上找尋相關(guān)信息,并作出各種決策。人們以搜索引擎為橋梁,以搜索關(guān)鍵詞為鑰匙在互聯(lián)網(wǎng)中找尋信息,所以搜索關(guān)鍵詞在一定程度上代表著人們的關(guān)注熱點,搜索量則可以代表關(guān)注程度。
近年來,對搜索頻度的研究一直是各界研究者關(guān)注的熱點。蒲東齊等[1]利用消費者通過互聯(lián)網(wǎng)的搜索痕跡與房地產(chǎn)相關(guān)的搜索詞匯對商品房的價格進行短期預(yù)測。高佳玲[2]認為網(wǎng)絡(luò)搜索關(guān)鍵詞數(shù)據(jù)映射著市場主體的關(guān)注點,揭示了市場主體行為趨勢,可以為宏觀經(jīng)濟問題提供所需要的微觀數(shù)據(jù)。路興[3]利用與環(huán)境相關(guān)的網(wǎng)絡(luò)搜索數(shù)據(jù)構(gòu)建指標體系,對我國公眾環(huán)境關(guān)心程度進行評價。孫燁等[4]認為網(wǎng)絡(luò)搜索引擎是旅游者獲取旅游信息的最重要入口,百度指數(shù)通過反映關(guān)鍵詞被搜索的次數(shù)表征旅游者的網(wǎng)絡(luò)關(guān)注度。趙曉龍[5]分析百度指數(shù)走勢與股票市場指數(shù)之間的關(guān)系,進而研究互聯(lián)時代下信息的獲取與關(guān)注對行為所產(chǎn)生的影響。王若佳[6]通過百度搜索數(shù)據(jù)分析中文網(wǎng)絡(luò)關(guān)鍵詞和我國流行性疾病監(jiān)測結(jié)果的相關(guān)性,擬合并比較各種預(yù)測模型,探討利用網(wǎng)絡(luò)搜索數(shù)據(jù)輔助流行病監(jiān)測的應(yīng)用可能等。
互聯(lián)網(wǎng)技術(shù)的提高與普及造成了數(shù)字信息爆炸,人們對相關(guān)關(guān)鍵詞的搜索痕跡數(shù)量足夠大,時效性足夠強。結(jié)合如上所述的各種搜索頻度研究成果,可以利用搜索頻度與搜索詞匯,對搜索目標熱度進行預(yù)測,分析熱度數(shù)據(jù)背后的深層次規(guī)律??紤]到項目的可行性,本文以“三門峽職業(yè)技術(shù)學院”為搜索關(guān)鍵詞對其周期搜索進行預(yù)測和分析。
灰色理論屬于應(yīng)用數(shù)學,1982年由鄧聚龍教授提出,是小樣本數(shù)據(jù)處理工具?;疑A(yù)測法[7]是一種對含有不確定因素的系統(tǒng)進行預(yù)測的方法?;疑到y(tǒng)是介于白色系統(tǒng)和黑色系統(tǒng)之間的過渡系統(tǒng)。白色系統(tǒng)是指系統(tǒng)內(nèi)部信息全部已知,即系統(tǒng)的信息是完全充分的。黑色系統(tǒng)是指系統(tǒng)內(nèi)部信息全部未知,只能通過與外界的聯(lián)系進行觀測研究?;疑到y(tǒng)內(nèi)的一部分信息是已知的,另一部分信息是未知的,系統(tǒng)內(nèi)各因素間有不確定的關(guān)系。
灰色系統(tǒng)理論著重研究“小樣本”、“貧信息”不確定性問題,并依據(jù)信息覆蓋,通過序列算子的作用探索事物運動的現(xiàn)實規(guī)律,其特點是“少數(shù)據(jù)建?!?,著重研究“外延明確,內(nèi)涵不明確”的對象[8],預(yù)測數(shù)據(jù)具有原始數(shù)據(jù)以時間序列形式出現(xiàn)和原始數(shù)據(jù)可以少到只有4個數(shù)據(jù)的特點?;疑A(yù)測法用等時距觀測到的反映預(yù)測對象特征的一系列數(shù)量值構(gòu)造灰色預(yù)測模型,生成有較強規(guī)律性的數(shù)據(jù)序列,然后建立相應(yīng)的微分方程模型,從而預(yù)測未來某一時刻的特征量,或達到某一特征量的時間[9]。
迄今為止,已有多種改進的灰色模型被提出并應(yīng)用于預(yù)測領(lǐng)域。曾冬玲等[10]認為馬爾科夫模型結(jié)合灰色模型(灰馬爾科夫模型)已成功應(yīng)用于預(yù)測領(lǐng)域。李瑤等[11]提出了一種動態(tài)優(yōu)化子集模糊灰馬爾科夫預(yù)測模型,將計算出的隸屬度向量作為馬爾科夫轉(zhuǎn)移矩陣向量的權(quán)重以修正預(yù)測值。李克昭等[12]在傳統(tǒng)灰色模型的基礎(chǔ)上構(gòu)造新的背景值,利用正化殘差序列修正殘差,預(yù)測效果良好。張文宇等[13]改進了GM-Markov模型,以西安市年客流量數(shù)據(jù)為研究對象,建立了以最小預(yù)測誤差平方和為目標函數(shù)的組合預(yù)測模型。此外,國外的優(yōu)化的灰色模型和灰色系統(tǒng)理論的改進也已經(jīng)取得了很多成果。Wang等[14]提出了一種改進的灰色多變量預(yù)測模型,用來預(yù)測中國工業(yè)能源消費情況。Zhao等[15]研究了混合優(yōu)化灰色模型,引入滾動機制,以上海市年用電量驗證其有效性,用滾動優(yōu)化的蟻群優(yōu)化算法結(jié)合灰色模型,顯著提高了年用電負荷的預(yù)測精度。Rezaeianzadeh等[16]結(jié)合人工神經(jīng)網(wǎng)絡(luò)模型和馬爾科夫鏈模型,提高了短期預(yù)測的可能性。這些研究成果說明還需要進一步探究灰色預(yù)測模型,根據(jù)離群數(shù)據(jù)來分析其產(chǎn)生機制并進行相應(yīng)的處理。
灰色模型是利用離散隨機數(shù)經(jīng)過生成變?yōu)殡S機性被顯著削弱而且較有規(guī)律的生成數(shù),建立起的微分方程形式的模型,這樣便于對其變化過程進行研究和描述?;疑A(yù)測模型稱為GM模型[17],G為Grey的第一個字母,M為Model的第一個字母。GM(1,1)表示一階的,一個變量的微分方程型預(yù)測模型。GM(1,1)是一階單序列的線性動態(tài)模型,主要用于時間序列預(yù)測[18]。
GM(1,1)的建模步驟如下:
1)對非負的原始時間序列X(0)=(x(0)(1),x(0)(2),…,x(0)(n))做一階累加得到生成數(shù)據(jù)序列X(1)=(x(1)(1),x(1)(2),…,x(1)(n)),其中x(1)(1)=x(0)(1), x(1)(k)=x(1)(k-1)+x(0)(k), k=2,3,…,n。
2)令Z(1)為X(1)均值系列:Z(1)=(z(1)(1),z(1)(2),…,z(1)(n)),其中z(1)(1)=0.5x(1)(1), z(1)(k)=0.5((x(1)(k)+x(1)(k-1)), k=2,3,…,n,則GM(1,1)的灰微分方程模型為:
x(0)(k)+az(1)(k)=b
其中a是常數(shù),稱為發(fā)展灰數(shù);b稱為內(nèi)生控制灰數(shù),是對系統(tǒng)的常定輸入。對應(yīng)的白化方程為:
其中:
其中t=1,2,…,n,用后減運算還原,即可得到原始序列X(0)的預(yù)測值[19]:
后驗差檢驗分別計算:
X(0)的均值:
X(0)的方差:
殘差的均值:
殘差的方差:
后驗差比值:
小誤差概率:
最后重點判決后驗差比值C和小誤差概率P,小誤差概率P≥0.9,預(yù)測精度在C>0.95或C<0.35時為好,在C>0.80或C<0.45時為合格。符合這些數(shù)值的表面原始序列預(yù)測方程可用,然后將不同時間區(qū)間數(shù)目代入即可預(yù)測出相應(yīng)時間段的預(yù)測值[20-21]。
互聯(lián)網(wǎng)世界資訊信息種類繁多,網(wǎng)絡(luò)渠道多樣化。經(jīng)調(diào)查發(fā)現(xiàn)某些內(nèi)容的網(wǎng)絡(luò)搜索數(shù)量顯著,分析搜集某年的相關(guān)網(wǎng)絡(luò)內(nèi)容,其數(shù)據(jù)不多。但若將時間間隔放大,或是以存在明顯變化者作為預(yù)測內(nèi)容,則能夠搜集到較完整數(shù)據(jù)。大數(shù)據(jù)是統(tǒng)計與計算機相結(jié)合發(fā)展的過程,即通過對經(jīng)濟社會活動與經(jīng)濟社會關(guān)系的定量、定性的觀測與實驗等過程,引入科學的技術(shù)和方法,達到對各種規(guī)律的有效把控、利用和管理的目的[22]。社交網(wǎng)絡(luò)交互數(shù)據(jù)及移動互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得的各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù),是大數(shù)據(jù)知識服務(wù)模型的根本[23]。
在獲得原始數(shù)據(jù)后,利用灰色系統(tǒng)理論的灰預(yù)測作為預(yù)測工具,驗證預(yù)測模型的誤差率是否可用,再利用Matlab工具批量進行計算,得到預(yù)測值,然后與歷史數(shù)據(jù)進行統(tǒng)一分析對比,以達到數(shù)據(jù)分析的目的[24]。本文以“三門峽職業(yè)技術(shù)學院”為百度搜索關(guān)鍵詞,探索此類大數(shù)據(jù)的共性分析。
圖1是2011年初至2017年底期間“三門峽職業(yè)技術(shù)學院”一詞百度搜索周指數(shù)變化曲線。分析詞匯熱度變化趨勢圖發(fā)現(xiàn):7年多的時間內(nèi),“三門峽職業(yè)技術(shù)學院”一詞的熱度變化趨勢呈看似雜亂無章的波浪起伏狀態(tài)。拋棄個別周可能因為突發(fā)熱點引起的周搜索指數(shù)偏高外,7年中周平均搜索指數(shù)大致為800~1000。
圖1 “三門峽職業(yè)技術(shù)學院”一詞百度搜索周指數(shù)變化
網(wǎng)絡(luò)爬蟲是一種較為常見的方式,爬蟲通過追蹤網(wǎng)上的超鏈接可以獲取互聯(lián)網(wǎng)中對應(yīng)的資源[25]。利用網(wǎng)絡(luò)爬蟲軟件從百度指數(shù)曲線上抓取2012-2017年“三門峽職業(yè)技術(shù)學院”一詞的百度周搜索指數(shù),計52周×6年共312個數(shù),如表1所示。按照灰色預(yù)測模型,按年度分析數(shù)據(jù)的內(nèi)在變化趨勢,預(yù)測2017年的周值,并與實際周值進行精度檢測。若符合精度誤差范圍則證明預(yù)測模型的時間響應(yīng)方程可用,并預(yù)測出2018年及2019年的熱詞周搜索指數(shù)。
表1 每周搜索次數(shù)(2012年1月至2017年12月)
周1234567891011121314151617181920212223242526年度201220132014201520162017344651683700965994366430639115714991792413496524744916144641650755872513961456185352418595607711220244384393408679224278282367506773239306343457996155634740343870111631375561836914112515621618696760788112213501482774856875917954133174485389511071107118746370074675696411273944436948358479694335368088559741147487524646769771127337645058967579085441647857881183611644504956778128779753934577257738109853974246777357408764125466547147369065215426206518511181554680893107511811440344651683700965994周2728293031323334353637383940414243444546474849505152年度2012201320142015201620176786861046112812611406863110215911744214125569271145115115791625179244773875381584113784124285466266727414404705776016208625376717528649891390589102611031202167420067331037106011591197130672399099910691089132989010761201124614871691750786961114112411328480625752753864111950952363071282486031438545847448750029229749451865670943143745948064967739039943344561892036537940841855372835136469297510661139406419471536574648373419445451512561347363397405497553305365377378597629332335389393601753339371372411606746
以每年的第1周為例,從2012年到2016年的原始序列(考慮矩陣的計算方便左移3位小數(shù)點,計算完畢后右移3位小數(shù)點即可)為X(0)=(0.344, 0.651, 0.683, 0.700, 0.965),由原始序列計算一次累加序列得X(1)=(0.344, 0.995, 1.678, 2.378, 3.343)。
如前述,建立矩陣:
計算(BTB)-1,并求出a、b:
將a和b代入時間響應(yīng)方程,由于X(1)(1)=0.344,故GM(1,1)預(yù)測模型的時間響應(yīng)方程為:
=4.14076e0.1358t-3.79676
表2 第1周搜索次數(shù)計算列表(2012-2017年)
指標年度20132014201520162017實際值X(0)0.6510.6830.7000.9650.994模型預(yù)測值^x(1)(t+1)0.60230.68990.79020.90521.0360殘差E(t)0.0487-0.0069-0.09000.0598-0.0420相對殘差e(t)/%7.48-1.01-12.896.20-4.23x(0)(t)-X0.048715-0.006890-0.0902400.059823-0.042840E(t)-E0.003024990.000000360.007047680.004370220.00133612
X(0)的均值:
X(0)的方差:
殘差的均值:
殘差的方差:
后驗差比值:
小誤差概率:
根據(jù)P≥0.95, C=0.422<0.45,表示預(yù)測等級合格,由此可知下列預(yù)測方程可用。
進行外推預(yù)測,依次令t=6, 7,代入第1周灰色模型的時間確認方程得:
后減運算得2018年度、2019年度第1周的熱詞搜索次數(shù)預(yù)測數(shù)為:
截止本文投稿時,百度指數(shù)曲線上2018年度第1周“三門峽職業(yè)技術(shù)學院”關(guān)鍵詞的搜索次數(shù)實際值為1023,與本模型預(yù)測值偏移量為125,誤差率為13%,基本符合預(yù)測期望值,進一步說明了本模型預(yù)測方程可用。
依此類推,可以利用GM(1,1)預(yù)測模型預(yù)測在一年內(nèi)的熱詞搜索得到2018、2019年度對應(yīng)時間周次“三門峽職業(yè)技術(shù)學院”的熱詞搜索次數(shù)。需要指出的是,每年內(nèi)各個時間周存在一定的突發(fā)因素會導致搜索次數(shù)存在一定的誤差,這也是上述預(yù)測等級僅為合格而不是較好的主要原因,但總體數(shù)據(jù)誤差應(yīng)在可以接受的范圍內(nèi)。鑒于計算繁瑣,可以利用Matlab編程工具實現(xiàn),具體程序如圖2所示。
圖2 Matlab程序源代碼
為進一步驗證此GM(1,1)模型的可用度,因為可以明顯看出每年相同周數(shù)據(jù)基本呈線性增長,所以仍以第1周數(shù)據(jù)構(gòu)建一元回歸模型[26]預(yù)測以與GM(1,1)模型進行對比驗證。
取年度時間數(shù)據(jù)為自變量,周搜索次數(shù)為因變量,運用SPSS軟件來實現(xiàn)預(yù)測。預(yù)測過程如圖3所示。
模型匯總
a.預(yù)測變量:(常量),X。
Anovab
a.預(yù)測變量:(常量),X。b.因變量:Y
系數(shù)a
a.因變量:Y
圖3 SPSS一元回歸分析結(jié)果圖
從圖3中可以知道模型的復相關(guān)系數(shù)(R)為0.946,所以回歸方程的擬合度達到要求??芍貧w方程的統(tǒng)計量F值為33.882, P值為0.004,方程很顯著。可知回歸方程的常數(shù)項為782.962,回歸系數(shù)為120.257,所以第1周的回歸方程為:
Y=782.962+120.257x
根據(jù)此方程可得2018年第1周的預(yù)測值為1143.7。以此類推,可以預(yù)測出2018年每周的預(yù)測值,并生成圖表與GM(1,1)預(yù)測值對比如圖4所示。從圖中對比折線圖可以明顯看出,2種預(yù)測模型的預(yù)測結(jié)果高度重合,這說明GM(1,1)模型預(yù)測值的科學性和準確性更具合理性。
大數(shù)據(jù)的核心和目標就是預(yù)測,所以需要根據(jù)監(jiān)測數(shù)據(jù)開展熱度預(yù)測[27],根據(jù)預(yù)測出來的數(shù)據(jù)和歷史數(shù)據(jù)對比后進行深度分析。出于篇幅原因,根據(jù)每周的搜索指數(shù)預(yù)測模型推導出來的2018年和2019年關(guān)鍵詞搜索預(yù)測次數(shù)就不再以數(shù)據(jù)方式列表,而是和2012年以來每周周搜索指數(shù)生成直觀的圖表,如圖5所示。
圖4 2種預(yù)測模型2018年預(yù)測結(jié)果對比圖
圖5 百度搜索關(guān)鍵詞“三門峽職業(yè)技術(shù)學院”周指數(shù)按年份統(tǒng)計對比圖
大數(shù)據(jù)分析是將描述性的、診斷性的、預(yù)測性的和規(guī)定性的模型用于數(shù)據(jù),來回答特定的問題或發(fā)現(xiàn)新的見解的過程[28]。大數(shù)據(jù)分析通常僅指使用預(yù)測分析、用戶行為分析或某些其他高級數(shù)據(jù)的分析方法,這些方法從數(shù)據(jù)中提取價值,很少涉及特定大小的數(shù)據(jù)集[29]。雖然現(xiàn)在互聯(lián)網(wǎng)關(guān)注某關(guān)鍵詞渠道來源多樣,比如知乎、有道、論壇以及各類手機端APP等,但百度周搜索指數(shù)作為觀察指標目前還是具有一定的權(quán)威性,因此本文的統(tǒng)計數(shù)據(jù)具有一定的可信度和觀察指標代表性。
由圖5可以直觀看出,從2012年開始到按照預(yù)測模型預(yù)測出來的2018年、2019年“三門峽職業(yè)技術(shù)學院”作為百度搜索關(guān)鍵詞有著顯著的時間特征。1)總搜索次數(shù)每年呈遞增趨勢,這與該校近年持續(xù)良好的發(fā)展勢頭正相關(guān),反映了社會各界對該學校辦學力量的關(guān)注度持續(xù)上升。2)從圖5可以清晰地看出,百度關(guān)鍵詞周搜索次數(shù)在一年內(nèi)的各周峰谷值有著明顯的起伏規(guī)律,比如每年的第3~4、8~10、26~29、33~34、36~37、45、52周搜索次數(shù)急劇上升,結(jié)合學校實際情況,可以推測出第3~4、36~37周應(yīng)為師生搜索校教務(wù)系統(tǒng)查分居多,第8~10周應(yīng)為學校單招前各地學生查詢學校情況和報名情況為主,第26~29周以及第33~34周的搜索次數(shù)飆升應(yīng)為高考填報志愿及批次錄取時的查詢較多。但第45周和第52周處于國慶假期和元旦假期前,搜索次數(shù)上升主要影響因素為何,仍需深入分析其原因。
本文雖是以“三門峽職業(yè)技術(shù)學院”為搜索關(guān)鍵詞,但預(yù)測結(jié)果及數(shù)據(jù)直觀圖同樣對其他各高校有可參考性。按照灰色預(yù)測模型得到的后2年預(yù)測值,結(jié)合直觀的圖表分析,參考從大數(shù)據(jù)中挖掘的信息,作為校方應(yīng)該正視的數(shù)據(jù)信息,可使即將到來的新學年有的放矢:1)要做到繼續(xù)提升自身內(nèi)涵及擴大宣傳,持續(xù)提升學??傮w影響力。2)要注重挖掘搜索低谷時間周內(nèi)的潛在信息,比如在假期中多引導學生利用頂崗實習系統(tǒng)和學校溝通等,引發(fā)熱點、制造沸點、擴大亮點。3)要將重點時間放在上述峰值周,峰值周正是影響高校招生錄取工作的關(guān)鍵階段,要廣泛利用其他各種媒介,以正能量信息全面覆蓋宣傳面,以個體的被動搜索引發(fā)蝴蝶效應(yīng),促進總體的主動搜索,帶動媒體的全面關(guān)注,從而為數(shù)據(jù)增加更多的新信息,實現(xiàn)數(shù)據(jù)產(chǎn)生價值的良性循環(huán)。
考慮到其他諸如每年寒暑假時間段不同、突發(fā)熱度事件等外在因素對預(yù)測值的的交叉影響,GM(1,1)預(yù)測模型亦有其不足之處,難免會出現(xiàn)偏差,如何改進此模型以達到更高的預(yù)測精度,是后續(xù)研究仍需解決的問題。