高鋮鋮,陳錫程,張 瑞,宋秋月,易 東,伍亞舟
陸軍軍醫(yī)大學(xué) 軍事預(yù)防醫(yī)學(xué)系 軍隊(duì)衛(wèi)生統(tǒng)計(jì)學(xué)教研室,重慶400038
2019 年12 月,湖北武漢地區(qū)爆發(fā)新型冠狀病毒性肺炎(Corona Virus Disease 2019,COVID-19)疫情,給我國經(jīng)濟(jì)社會(huì)造成巨大負(fù)面影響[1]。盡早知曉COVID-19的流行趨勢有利于更好地控制疾病的傳播與進(jìn)展,進(jìn)而降低其社會(huì)危害[2]。傳統(tǒng)的流行病監(jiān)測系統(tǒng)因數(shù)據(jù)來源和數(shù)據(jù)種類較為有限,對于新發(fā)性傳染病存在一定程度的報(bào)告延遲,無法提前對傳染病的發(fā)生進(jìn)行有效預(yù)警[3]。近年來,利用網(wǎng)絡(luò)數(shù)據(jù)監(jiān)測公共衛(wèi)生事件的研究逐漸增多,常用的傳染病預(yù)警模型主要包括支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、多元線性回歸和時(shí)間序列法[4]。其中最小二乘支持向量機(jī)(Least Squares Support Veotor Machine,LSSVM)是根據(jù)基礎(chǔ)模型的改進(jìn)優(yōu)化,已廣泛運(yùn)用于各類預(yù)警系統(tǒng)[5-7]。實(shí)際應(yīng)用時(shí),LSSVM 核心參數(shù)的精確選取將直接影響其泛化性和稀疏性,也是目前LSSVM模型相關(guān)研究的重點(diǎn)之一[8-9]。
LSSVM 模型參數(shù)選取傳統(tǒng)方法主要為經(jīng)驗(yàn)法、試湊法、交叉驗(yàn)證法等,但上述方法存在計(jì)算耗時(shí)長、代價(jià)大、準(zhǔn)確度低等不足,因此很難達(dá)到實(shí)際應(yīng)用要求[10]。近年來隨著人工智能領(lǐng)域的快速發(fā)展,多種新型智能優(yōu)化算法相繼發(fā)表,為預(yù)測模型的參數(shù)選取提供了新的思路。智能優(yōu)化算法無中心控制,有效增加了模型的魯棒性,且群體中的合作個(gè)體能力簡單,具有一定擴(kuò)充性,大大提高了模型參數(shù)尋優(yōu)的速度和精確性,已成為人工智能研究領(lǐng)域的熱點(diǎn)之一[11]。
因此,本研究利用百度指數(shù)及疫情數(shù)據(jù)分析網(wǎng)絡(luò)健康信息檢索數(shù)據(jù)與發(fā)病數(shù)據(jù)的相關(guān)性,構(gòu)建COVID-19的預(yù)警模型以指導(dǎo)疫情常態(tài)化防控。同時(shí),利用多種新型智能優(yōu)化算法,分別對百度指數(shù)COVID-19預(yù)警模型進(jìn)行參數(shù)尋優(yōu),對比各智能優(yōu)化算法的實(shí)際應(yīng)用效果,為新型智能優(yōu)化算法的推廣應(yīng)用提供一定的理論依據(jù)和分析策略。
1.1.1 多元宇宙優(yōu)化算法
多元宇宙優(yōu)化算法(Multi-Verse Optimizer,MVO)是近年來提出的一種元啟發(fā)式優(yōu)化算法,其靈感源于多元宇宙的物理理論,依據(jù)白洞、黑洞及蟲洞等主要概念構(gòu)建數(shù)學(xué)模型,模擬宇宙中物質(zhì)通過蟲洞由白洞向黑洞轉(zhuǎn)移的思想[12]。MVO算法的優(yōu)勢在于注重全局尋優(yōu)效果,僅需調(diào)控較少參數(shù)即可達(dá)到實(shí)現(xiàn)效果,操作難度較低且性能較佳,當(dāng)前已廣泛應(yīng)用于壓力容器設(shè)計(jì)、焊接梁設(shè)計(jì)等經(jīng)典工程問題中[13-14]。
MVO算法假定探索空間存在宇宙矩陣為:
其中,d為變量個(gè)數(shù),n為宇宙數(shù)量(候選解)。
圖1 MVO算法概念模型
為提升宇宙通過蟲洞改善物體膨脹率的可能性,假設(shè)蟲洞隧道總是建立在宇宙和最優(yōu)宇宙間,此機(jī)制可表述為:
其中,Xj代表目前最優(yōu)宇宙的第j個(gè)變量;ubj代表第j個(gè)變量的最高值;lbj代表第j個(gè)變量的最低值;xj i代表第k個(gè)宇宙的第j個(gè)變量;r2、r3、r4均代表0與1取值范圍的隨機(jī)數(shù)。上述機(jī)制中出現(xiàn)了蟲洞存在可能性(Wormhole Existence Probability,WEP)及旅程距離速率(Travelling Distance Rate,TDR)等兩個(gè)算法主要參數(shù),其隨時(shí)間(迭代次數(shù))變化曲線圖詳見圖2。
圖2 MVO算法WEP及TDR參數(shù)變化趨勢
1.1.2 黏菌優(yōu)化算法
黏菌優(yōu)化算法(Slime Mould Algorithm,SMA)由Li等[15]于2020年提出,其靈感來自于黏菌的擴(kuò)散和覓食行為,屬于元啟發(fā)算法。該算法與以往類似命名優(yōu)化算法有較大差異,主要模擬了黏菌在覓食過程中的行為和形態(tài)變化,而未對其完整生命周期進(jìn)行建模。通過權(quán)值指標(biāo)模擬黏菌靜脈狀管的形態(tài)變化和收縮模式之間的三種相關(guān)性[16]。
黏菌覓食過程,首先根據(jù)空氣中氣味接近食物,食物濃度越高,生物振蕩器波越強(qiáng),細(xì)胞質(zhì)流動(dòng)越快,黏菌靜脈狀管越粗。通過函數(shù)表達(dá)模擬該其逼近行為:
其中,LB與UB表示搜索范圍的上下邊界,vb的參數(shù)取值范圍是[-a,a],vc從1 線性減少至0。t表示當(dāng)前迭代,Xb表示當(dāng)前發(fā)現(xiàn)食物氣味濃度最高位置,X表示黏菌當(dāng)前位置,XA和XB表示隨機(jī)選取的兩個(gè)黏菌位置,W表示黏菌重量,S(i)表示X的適應(yīng)度,而DF表示所有迭代中的最佳適應(yīng)度。其中,參數(shù)a的函數(shù)表達(dá)為:
其中,max_t表示最大迭代次數(shù)。而W的表達(dá)式為:
其中,condition 表示S(i)排在前一半的種群,r表示[0,1]區(qū)間內(nèi)的隨機(jī)值,bF表示在當(dāng)前迭代過程中獲得的最優(yōu)適應(yīng)度,wF表示當(dāng)前迭代過程中得到的最差適應(yīng)度值,SmellIndex表示適應(yīng)度序列(最小值問題中為遞增序列)。
公式(4)表示的黏菌逼近食物行為,搜索黏菌個(gè)體位置X可以根據(jù)目前獲得的XB最佳位置進(jìn)行更新,同時(shí)vb、vc和W參數(shù)的微調(diào)可以改變黏菌位置。黏菌搜索個(gè)體在三維空間中的位置變化,可通過rand函數(shù)使個(gè)體形成任意角度的搜索向量,此概念同樣可擴(kuò)展至更高維空間。
1.1.3 平衡優(yōu)化算法
平衡優(yōu)化算法(Equilibrium Optimizer,EO)由Faramarzi等[17]于2020年提出,屬于元啟發(fā)算法,其靈感來自于在控制體積上進(jìn)行簡單混合的動(dòng)態(tài)質(zhì)量平衡,其中使用質(zhì)量平衡方程來描述控制體積中非反應(yīng)性成分的濃度。與大多數(shù)元啟發(fā)算法相似,EO 使用初始種群啟動(dòng)優(yōu)化過程,初始濃度由粒子的數(shù)量、尺寸及在規(guī)定搜索空間內(nèi)進(jìn)行均勻隨機(jī)初始化構(gòu)建,函數(shù)表達(dá)式如下:
其中,Cinitiali是第i個(gè)粒子的初始濃度,Cmin和Cmax表示維數(shù)的最小值和最大值,rand是取值范圍[0,1]的隨機(jī)向量,n為總體粒子數(shù)。評估粒子的適應(yīng)度函數(shù),然后將其排序確定平衡候選者。將5 個(gè)粒子確定為平衡候選者,并用于構(gòu)建一個(gè)平衡池向量,函數(shù)表達(dá)為:
濃度更新規(guī)則中的另一項(xiàng)指標(biāo)為指數(shù)項(xiàng)F,該指標(biāo)的準(zhǔn)確定義有助于EO算法在勘探與開發(fā)之間取得合理平衡,其函數(shù)表達(dá)為:
其中,a1是控制勘探能力的恒定值,其值越高,算法的勘探能力越強(qiáng),而開發(fā)性能就越弱,根據(jù)經(jīng)驗(yàn)測試一般a1設(shè)為恒定值2,r是介于0 到1 之間的隨機(jī)向量。EO算法中最為重要的算法指標(biāo)為生成速率(Generation rate)G,其通過改善開發(fā)階段來提供最為精確的解決方案,EO算法引入該指標(biāo)后,更新規(guī)則如下:
等式右邊第一項(xiàng)表示一個(gè)平衡濃度,而第二項(xiàng)和第三項(xiàng)則代表濃度的變化。第二項(xiàng)負(fù)責(zé)全局空間搜索尋優(yōu),第三項(xiàng)有助于使解決方案更加準(zhǔn)確。濃度更新示意圖如圖3所示。
最小二乘支持向量機(jī)是標(biāo)準(zhǔn)支持向量機(jī)模型的變型改進(jìn),其采用二次損失函數(shù)取代原先的不敏感損失函數(shù),從而將不等式約束問題轉(zhuǎn)化成等式約束問題,避免了二次規(guī)劃問題,可以有效提高模型運(yùn)算求解速度,其具體方程表達(dá)式為:
圖3 EO算法濃度更新示意圖
其中,目標(biāo)函數(shù)前一項(xiàng)確定了模型的泛化能力,后一項(xiàng)則對應(yīng)精確性,γ是正則化參數(shù),為可調(diào)節(jié)參數(shù),可用于控制J(w,ξ),其中ξ=[ξ1,ξ2,…,ξn]T表示預(yù)測值與真實(shí)值的誤差,w表示高維平面的相應(yīng)權(quán)值向量,而φ(xi)則用于將數(shù)據(jù)集映射至高維空間。模型引入Lagrange函數(shù)后可將w與ξ去除,最終用核函數(shù)形式表示矩陣方程并求解,得到?jīng)Q策函數(shù)為:
其中,k(xi,x)為核函數(shù),常用的核函數(shù)包括多項(xiàng)式核函數(shù)、線性核函數(shù)、Sigmoid 核函數(shù)和徑向基核(Radial Basis Function,RBF)核函數(shù),由于RBF 核函數(shù)只需要確定一個(gè)關(guān)鍵參數(shù)σ,即可用最小代價(jià)發(fā)揮核函數(shù)性能,完成特征空間的線性可分。因此,本研究選用的核函數(shù)為徑向基核函數(shù):
最小二乘支持向量機(jī)中有兩個(gè)關(guān)鍵參數(shù),分別為γ和σ,其中γ為正則化參數(shù),γ越大支持向量越大,從而影響模型訓(xùn)練和預(yù)測的速度;另一個(gè)關(guān)鍵參數(shù)σ是RBF核函數(shù)的參數(shù),表示RBF 核函數(shù)的寬度,σ低易導(dǎo)致模型欠擬合,而σ高則容易過擬合。LSSVM 中所有數(shù)據(jù)對于決策函數(shù)皆有貢獻(xiàn),并采用核函數(shù)映射而進(jìn)行非線性變換,其相關(guān)參數(shù)都必須要求精確匹配,否則將影響其稀疏性和泛化性。本研究初始預(yù)警模型構(gòu)建時(shí),設(shè)置關(guān)鍵參數(shù)為默認(rèn)值,之后分別采用MVO、SMA和EO算法選擇參數(shù),核函數(shù)皆選擇RBF。
2.1.1 疫情數(shù)據(jù)
本次研究中的COVID-19 每日確診病例數(shù)據(jù)均來源于國家衛(wèi)健委及各地區(qū)(納入31個(gè)省市區(qū)、不含港澳臺)衛(wèi)健委等官方渠道。每日全國新增確診數(shù)與國家衛(wèi)健委發(fā)布數(shù)據(jù)保持一致,其數(shù)據(jù)每日更新。因2月12日國家衛(wèi)健委頒發(fā)了《新型冠狀病毒感染的肺炎診療方案(試行第五版)》,將“臨床診斷病例”統(tǒng)計(jì)為確診病例,因此當(dāng)日新增14 840 例確診病例,屬于異常值,因此數(shù)據(jù)選取2020年2月13日始至2020年11月1日止。
2.1.2 百度指數(shù)
本次研究的網(wǎng)絡(luò)數(shù)據(jù)來源于百度搜索指數(shù)(http://index.baidu.com/)。百度指數(shù)是基于大量用戶檢索行為數(shù)據(jù)的共享平臺,以用戶檢索量為基礎(chǔ)、主題詞為統(tǒng)計(jì)對象,利用系統(tǒng)算法對各主題詞在搜索引擎中被檢索次數(shù)進(jìn)行加權(quán)求和。
2.2.1 初步搜集
主題詞的初步搜集方法包括經(jīng)驗(yàn)搜集法、技術(shù)搜集法及范圍搜集法[18]。本次研究選取范圍搜集法,其關(guān)鍵在于在篩選分析之前先依據(jù)經(jīng)驗(yàn)確定主題詞的選擇范圍,有利于在規(guī)避主題詞遺漏的同時(shí)降低工作量。依據(jù)機(jī)體的發(fā)病階段將主題詞分為預(yù)防、癥狀、治療及名稱類等,此外還利用百度自帶的主題詞推薦功能進(jìn)行詞匯擴(kuò)充,盡可能確保初步搜集的完整性,最終構(gòu)建初步主題詞表(20個(gè)主題詞),詳見表1。
表1 COVID-19初步主題詞表
2.2.2 互相關(guān)分析
互相關(guān)分析指利用互相關(guān)系數(shù)r對兩個(gè)不同時(shí)間序列間的相關(guān)程度進(jìn)行評估的方法,包括相關(guān)性分析及先行性分析。其實(shí)施方法為將被選指標(biāo)相較于基礎(chǔ)指標(biāo)進(jìn)行前后移動(dòng),然后對移動(dòng)后序列及基準(zhǔn)序列求相關(guān)系數(shù),相關(guān)系數(shù)最大時(shí)所對應(yīng)的移動(dòng)時(shí)間即為該指標(biāo)先行或延后的時(shí)間段。公式如下:
其中,y(i)代表基線指標(biāo),x(i)代表相對指標(biāo),其中i=1,2,…,n,d表示延遲數(shù),取正數(shù)時(shí)表示相對指標(biāo)x(i)向后移動(dòng),取負(fù)數(shù)時(shí)相對指標(biāo)x(i)向前移動(dòng)。本研究中對疫情每日新增病例數(shù)與百度指數(shù)進(jìn)行互相關(guān)分析,由于百度指數(shù)每日公布前一日統(tǒng)計(jì)數(shù)據(jù),而作為預(yù)警模型的主要變量,需要至少提前2 天才具有實(shí)際應(yīng)用價(jià)值,因此分別計(jì)算先行2至7天(疫情數(shù)據(jù)相對滯后2至7天)初選主題詞與疫情數(shù)據(jù)的相關(guān)系數(shù)r,再在得到的多個(gè)相關(guān)系數(shù)(要求具有統(tǒng)計(jì)學(xué)意義)中找出最大值,最終獲取16個(gè)主題詞(表2,標(biāo)記有“*”或“**”號),具體包括先行2 天的主題詞“新冠病毒”“新冠肺炎”“2019-nCoV/COVID-19”及“頭疼”,先行3天的主題詞“呼吸道感染”,先行5 天的主題詞“退燒藥”,先行6 天的主題詞“新型冠狀病毒”“體溫”“發(fā)熱”“口罩”“體溫計(jì)”“核酸檢測”“消毒劑”“疫情防控”“新冠疫苗”及“抗病毒藥物”。
2.3.1 數(shù)據(jù)預(yù)處理
因數(shù)據(jù)間數(shù)量級或量綱間存在差異,為確保量級較小的數(shù)據(jù)不會(huì)被掩蓋與忽略,需在建模前對數(shù)據(jù)行歸一化處理;公式如下:
其中,xi代表歸一化前各因素的輸入值;x'i代表歸一化后各因素的輸入值;xmax代表各因素的最大值;xmin代表各因素的最小值。以每日新增確診病例數(shù)(2020-02-13—2020-11-01)為因變量,自變量則依次選取歸一化處理后的各有效先行主題詞的百度指數(shù);共有263 組數(shù)據(jù),隨機(jī)抽取80%作為訓(xùn)練數(shù)據(jù)集(210組),剩下20%留做驗(yàn)證數(shù)據(jù)集(53組)。
2.3.2 LSSVM預(yù)警模型構(gòu)建
采用訓(xùn)練集(210 組)數(shù)據(jù)進(jìn)行模型構(gòu)建,使用MATLAB 中的lssvm 工具箱,參數(shù)設(shè)置默認(rèn)值:正則化參數(shù)γ=2,RBF核寬度σ=3。最終構(gòu)建模型均方誤差MSE=8.796 5,平均絕對誤差MAE=43.584 5,均方根誤差RMSE=127.472 8,決定系數(shù)R2=0.918 3,各項(xiàng)指標(biāo)結(jié)果表明模型擬合訓(xùn)練集數(shù)據(jù)情況較好(圖4)。
圖4 LSSVM模型訓(xùn)練集真實(shí)值與預(yù)測值對比
2.3.3 預(yù)測性能評價(jià)
提取測試數(shù)據(jù)集(53組),代入已經(jīng)構(gòu)建好的訓(xùn)練集LSSVM 預(yù)警模型,最終模型誤差分析結(jié)果:MSE=47.16,MAE=124.16,RMSE=343.35,R2=0.12,結(jié)果表明該模型的預(yù)測性能較低。模型測試集預(yù)測值與真實(shí)值對比情況詳見圖5。
分別選用MVO、SMA 和EO 三種新型智能算法優(yōu)化LSSVM模型,各智能優(yōu)化算法的關(guān)鍵參數(shù)設(shè)置如表3所示,目標(biāo)函數(shù)皆定為求不同迭代次數(shù)訓(xùn)練集(歸一化處理后)均方誤差MSE 的最小值,而MVO 算法將MSE設(shè)置為宇宙膨脹率,SMA 將MSE 設(shè)置為黏菌位置的適應(yīng)度,EO算法將MSE設(shè)置為粒子濃度的適應(yīng)度。LSSVM模型參數(shù)尋優(yōu)迭代收斂過程如圖6 所示,結(jié)果表明,MVO 和EO 算法在迭代初期迅速收斂,而SMA 算法收斂速度較慢,表明SMA 的全局搜索能力較MVO 和EO較弱,SMA 陷入局部最優(yōu)的風(fēng)險(xiǎn)更大。MVO、SMA 和EO 三種優(yōu)化算法尋優(yōu)50 次迭代耗時(shí)分別為44.25 s、45.11 s、89.75 s,結(jié)果表明EO算法的運(yùn)算效率低于MVO和SMA算法。
表2 新增病例數(shù)與主題詞百度指數(shù)的相關(guān)系數(shù)
圖5 LSSVM模型測試集真實(shí)值與預(yù)測值對比
表3 各智能優(yōu)化算法關(guān)鍵參數(shù)設(shè)置及迭代耗時(shí)
三種智能優(yōu)化算法優(yōu)化LSSVM預(yù)警模型、MVO與EO 算法最終輸出相同的模型參數(shù),預(yù)測性能對比結(jié)果如表4所示。結(jié)果表明:三種模型對于訓(xùn)練集和測試集擬合情況相近,測試集的誤差分析和擬合情況較優(yōu)化前皆有顯著提升,三種智能優(yōu)化算法皆提升了LSSVM 疫情預(yù)警模型的預(yù)測性能。圖7 展示了MVO-LSSVM 模型的真實(shí)值和預(yù)測值的擬合情況。
圖6 不同算法優(yōu)化LSSVM模型收斂曲線
圖7 MVO-LSSVM預(yù)警模型真實(shí)值與預(yù)測值對比
元啟發(fā)算法是在仿生學(xué)的啟發(fā)下,從自然界的隨機(jī)現(xiàn)象中收獲靈感,并將局部算法與隨機(jī)算法相結(jié)合的算法統(tǒng)稱[19]。其是在啟發(fā)算法的基礎(chǔ)上進(jìn)行的改進(jìn),雖然二者皆不能完全保證得到全局最優(yōu)解,但元啟發(fā)算法中引入了隨機(jī)因素,更不易陷入局部最優(yōu),同時(shí)其目標(biāo)函數(shù)無特殊要求,具有更廣泛應(yīng)用范圍,已成為目前最優(yōu)化問題求解、模型參數(shù)尋優(yōu)等研究中的熱點(diǎn)[20]。
表4 不同算法優(yōu)化LSSVM模型預(yù)測性能對比
據(jù)最新研究統(tǒng)計(jì),目前,元啟發(fā)算法已提出超過150多種,但大多數(shù)算法僅對部分特定問題具有較好優(yōu)化效果,尚未發(fā)現(xiàn)某元啟發(fā)算法能夠勝任所有的優(yōu)化問題[21]。元啟發(fā)算法根據(jù)受啟發(fā)機(jī)制差異,大致可分為模仿生物學(xué)過程與基于物理學(xué)理論兩大類,本研究選擇的三種新型智能算法,SMA 模仿了黏菌生物學(xué)過程,而MVO 和EO 為基于物理學(xué)理論的元啟發(fā)算法。元啟發(fā)算法的設(shè)計(jì)與改進(jìn)重點(diǎn),應(yīng)為平衡好集中式挖掘與多樣化探索之間的關(guān)系。集中式挖掘便于算法在某區(qū)域內(nèi)根據(jù)經(jīng)驗(yàn)快速、準(zhǔn)確尋出最優(yōu),但易導(dǎo)致算法陷入局部最優(yōu);多樣化探索可允許算法在較大可行域內(nèi)探索,避免陷入局部最優(yōu),但易導(dǎo)致算法耗時(shí)延長,獲取最優(yōu)解精度下降。因此,如何平衡好集中式挖掘與多樣化探索之間的關(guān)系,是目前元啟發(fā)式算法開發(fā)、改進(jìn)的關(guān)鍵。
本研究構(gòu)建的百度搜索指數(shù)COVID-19 預(yù)警模型中,引入了三種新型智能優(yōu)化算法進(jìn)行模型參數(shù)尋優(yōu)對比。各優(yōu)化算法的算法結(jié)構(gòu)、計(jì)算過程和研究特性皆有其各自特點(diǎn),相同標(biāo)準(zhǔn)參數(shù)設(shè)置時(shí),根據(jù)尋優(yōu)過程和最終模型預(yù)測性能對比結(jié)果,可得出以下結(jié)論:
(1)EO 算法收斂性強(qiáng),但算法的尋優(yōu)耗時(shí)較長,運(yùn)算效率較MVO和SMA算法低,對于復(fù)雜和實(shí)效性要求高的體系,EO算法優(yōu)勢較低。EO算法將粒子濃度作為搜索代理,濃度隨機(jī)更新以適應(yīng)平衡候選,這種隨機(jī)更新濃度的模式可以有效提升EO算法初始迭代的全局探索能力,從而避免其在整個(gè)優(yōu)化過程中陷入局部最優(yōu)解[17]。本次研究,EO算法的收斂效果較好,但實(shí)際應(yīng)用時(shí)應(yīng)注意規(guī)避其運(yùn)算時(shí)間較長的問題,可通過設(shè)置目標(biāo)函數(shù)尋優(yōu)閾值,減少實(shí)際迭代次數(shù),從而達(dá)到提升算法的運(yùn)算效率的目的。
(2)SMA優(yōu)化算法,收斂性較差,收斂速度較慢,表明其全局搜索能力較弱,陷入局部最優(yōu)的風(fēng)險(xiǎn)更大。分析認(rèn)為,該算法是一種基于黏菌的擴(kuò)散和覓食行為的智能優(yōu)化算法,但該算法為了提高其可擴(kuò)展性,算法開發(fā)過程使用了較為簡單的算法原理,未來可利用各類變異機(jī)制或加速機(jī)制增強(qiáng)算法的全局探索能力[15]。
(3)MVO優(yōu)化算法,運(yùn)算效率短,收斂性速度快,收斂性強(qiáng),最終構(gòu)建的MVO-LSSVM 模型預(yù)測精度和穩(wěn)定性皆較好,表明MVO 算法更適合解決此類優(yōu)化問題。分析認(rèn)為,該結(jié)果與MVO 算法原理更加注重全局尋優(yōu)效果有關(guān),僅需調(diào)控較少參數(shù)即可達(dá)到實(shí)現(xiàn)效果,從而表現(xiàn)出了更優(yōu)異的性能[12-13]。
本研究構(gòu)建的MVO-LSSVM 預(yù)警模型,具有較高的預(yù)測精度和穩(wěn)定性,具備一定的實(shí)際推廣應(yīng)用價(jià)值。同時(shí),在預(yù)警模型構(gòu)建階段充分考慮了實(shí)現(xiàn)的簡便性及預(yù)測的準(zhǔn)確性,旨在用簡潔、可行的操作實(shí)現(xiàn)對疫情的準(zhǔn)確預(yù)警。既往研究中還曾提及多種改善檢索數(shù)據(jù)準(zhǔn)確性的方案,包括還原百度指數(shù)的原始檢索數(shù)據(jù)進(jìn)而構(gòu)建模型[22]、針對各地區(qū)進(jìn)行各自建模以規(guī)避地區(qū)因素的影響[23]、利用語義分析技術(shù)進(jìn)而深入探究用戶檢索動(dòng)機(jī)等[24]。但以上方法均需要復(fù)雜的實(shí)施過程、極大程度地耗費(fèi)時(shí)間精力,且對于其能否有效提升檢索數(shù)據(jù)的準(zhǔn)確性尚無明確有效的研究支撐。本次研究的重點(diǎn)在于主題詞的搜集、篩選,確定相關(guān)性、先行性好的主題詞,進(jìn)而構(gòu)建預(yù)警模型。因此,本次研究一方面實(shí)現(xiàn)了模型構(gòu)建的簡易性,另一方面確保了模型的預(yù)測能力,可為后續(xù)疫情常態(tài)化防控階段的防疫行為預(yù)判提供一定參考。
4.4.1 智能算法優(yōu)化模型方面
本研究選取的MVO、SMA 和EO 算法皆為近年來新提出的智能優(yōu)化算法,相關(guān)的應(yīng)用研究報(bào)道較少,單從本次研究結(jié)果分析,MVO 算法優(yōu)勢明顯。但本次研究的對比結(jié)果是否具有代表性,尚需后期多種形式應(yīng)用研究的證實(shí)。隨著人工智能技術(shù)的深入發(fā)展,會(huì)有更多趨于完善的智能優(yōu)化算法提出,而如何避免陷入局部最優(yōu)解問題是未來智能算法重點(diǎn)需要解決的問題,同時(shí)需要警惕算法早熟的現(xiàn)象。
4.4.2 數(shù)據(jù)來源方面
隨著互聯(lián)網(wǎng)的多樣性發(fā)展,目前微博、微信等多家公司均已推出了自身的搜索平臺,雖然目前百度仍是目前國內(nèi)最大的搜索引擎,但其無法完整反映國內(nèi)的檢索需求。而百度指數(shù)僅是對于百度搜索平臺檢索量的間接性評價(jià),無法獲取二者間的精確數(shù)量關(guān)系,亦無法評價(jià)用戶直接瀏覽、參與主題詞相關(guān)內(nèi)容的頻次。此外,歷史數(shù)據(jù)可能對于檢索數(shù)據(jù)具有較好的互補(bǔ)作用,若將檢索數(shù)據(jù)構(gòu)建的預(yù)警模型與歷史發(fā)病數(shù)據(jù)結(jié)合,可能獲取效果更好的綜合模型[25];但COVID-19 疫情為首次爆發(fā),無法利用其發(fā)病的歷史數(shù)據(jù)對模型進(jìn)行修正及完善,限制了模型預(yù)警效能的進(jìn)一步提升。
后期研究展望:(1)整合各主流搜索平臺的檢索數(shù)據(jù),對于國內(nèi)用戶的實(shí)際檢索數(shù)據(jù)進(jìn)行全面性、綜合性評價(jià);(2)將單純檢索行為向?yàn)g覽、參與等多樣化行為擴(kuò)充,納入更多的相關(guān)性信息。
4.4.3 主題詞選取方面
主題詞的選擇主要依據(jù)主觀經(jīng)驗(yàn)及相關(guān)聯(lián)想,不可避免地存在相關(guān)主題詞的遺漏。此外,部分主觀上認(rèn)為COVID-19 存在相關(guān)性的主題詞可能出現(xiàn)百度指數(shù)過低,甚至未被收錄為百度指數(shù),因此個(gè)體認(rèn)知與公眾關(guān)注點(diǎn)可能存在一定偏差。技術(shù)選詞法有利于提升選擇精度,但其對于時(shí)間、精力、經(jīng)濟(jì)水平及設(shè)備條件等方面的要求較高,限制了其應(yīng)用于推廣[26]。此外,本文所選主題詞僅可代表2020年2月—11月間的用戶檢索行為,是否依然適用于長期后續(xù)結(jié)果仍尚需要進(jìn)一步分析。隨著用戶信息需要及檢索偏好的改變,后續(xù)應(yīng)適度改變主題詞以繼續(xù)確保檢索數(shù)據(jù)與疫情數(shù)據(jù)間的相關(guān)性。