摘 要:我國正在步入人口老齡化社會,政府為保障老人的每日三餐,在各地購買養(yǎng)老助餐服務,服務過程中出現(xiàn)虛假服務、盜用冒用等問題,威脅到政府和老人的財產安全,故提出E-ARLL算法對數(shù)據(jù)異常進行檢測。該方法使用Pearson相關系數(shù)和ANOVA(方差分析)對原始數(shù)據(jù)集進行劃分特征訓練集和特征驗證集,然后,將特征訓練集輸入到E-ARLL算法模型中,基于集成學習(Ensemble Method)思路,根據(jù)劃分好數(shù)據(jù)集的線性關系選擇適合的算法進行異常檢測。實驗結果表明,提出的方法對養(yǎng)老助餐服務數(shù)據(jù)異常檢測表現(xiàn)出良好的性能,最終異常數(shù)據(jù)識別率為99.4%,為政府購買服務的可信性帶來了新的驗證方法,具有深遠的意義。
關鍵詞:異常檢測;集成算法;養(yǎng)老服務
中圖分類號:TP391 文獻標識碼:A 文章編號:2096-4706(2024)08-0171-06
DOI:10.19850/j.cnki.2096-4706.2024.08.037
0 引 言
隨著人口老齡化的加深,老年人“吃飯難”的矛盾日漸突出,為解決老年人“用餐難”問題,中國各地紛紛出實招,通過社區(qū)自辦、和企業(yè)餐館合作等方式探索社區(qū)老人助餐服務模式[1],通過這種服務模式給社區(qū)老人帶來暖心的餐飲供應。然而在服務過程中,存在著一些養(yǎng)老服務數(shù)據(jù)可信問題,如老人助餐卡盜刷、代刷,服務機構虛假服務、謊報服務數(shù)量等問題。這些問題的存在不僅會影響老年人的生活質量,還對社會養(yǎng)老服務穩(wěn)定發(fā)展造成不良影響。因此,解決數(shù)據(jù)可信問題對提高養(yǎng)老服務質量、促進社會發(fā)展具有重要意義。
當前對于異常檢測的分類主要分為三種:單點異常、上下文異常、集體異常。對于單點數(shù)據(jù)檢測,使用較多的方法是隨機森林(Random Forest, RF)算法,如Zhang [2]等學者提出隨機森林結合極端梯度提升,建立風電機組故障檢測框架,提高檢測精確度;Sadaf [3]等學者采用自編碼器結合孤立森林對霧計算環(huán)境下數(shù)據(jù)包進行二進制分類;Xu [4]等學者提出改進孤立森林算法(SA-iForest),在UCI數(shù)據(jù)集中驗證該算法的準確性和效率。這些方法對于異常點與其他數(shù)據(jù)點有明顯差異能有效分類,而養(yǎng)老服務數(shù)據(jù)中數(shù)據(jù)特征存在多種異常數(shù)據(jù),也包含時序特征數(shù)據(jù),該部分需要采用上下文異常檢測方法進行識別。
而具有時序特征的數(shù)據(jù)現(xiàn)有的長短期記憶算法(Long Short Term Memory, LSTM)[5]算法和Prophet算法各有優(yōu)劣。如Nabipour [6]等學者對于股票走勢進行預測,使用RNN結合LSTM算法對比其他算法預測精度更高;Fan [7]等學者對于快速固化爐熱過程的數(shù)據(jù)使用MLP-LSTM混合算法進行分析,驗證了算法的可靠性;ChikkaKrishna [8]等學者基于Fb-Prophet和Neural-Prophet開發(fā)了STTP模型,進行對道路車流量的預測;趙英[9]等學者結合LSTM算法和Prophet算法對機房溫度進行建模,通過對兩種算法模型進行非線性組合得出較好的預測結果;還有一些采用機器學習的方法來實現(xiàn)異常數(shù)據(jù)的檢測,如Nikravesh [10]等學者對商業(yè)試驗移動網(wǎng)絡進行預測未需求,采用SVM、MLP、MLPWD算法進行試驗驗證。上述方法對于具有長期時序性特征的數(shù)據(jù)具有很好的識別效果,但上述方法對于不同的異常情況魯棒性較弱,和特征訓練集之間擬合度不佳。
為了解決這一問題,董紅瑤等[11]提出引入領域容差關系選擇集成分類算法,此方法構建多個基分類器進行加權集成最終預測分類結果,復雜度較高。在養(yǎng)老助餐服務領域助餐點設備算力有限,需要減少模型復雜度。
本文的數(shù)據(jù)集中包括時序特征,也有非線性特征等,因此對單點異常采用隨機森林和邏輯回歸進行分類,對上下文異常采用長短期記憶進行識別,能針對性地檢測出特征訓練集中的異常,再將檢測結果進行集合,提高模型檢測精確度,更具可靠性。
1 系統(tǒng)模型構建與方法設計
1.1 相關工作
本文收集了從2022年6月1日到2023年4月16日某市124個助餐點每日的用餐數(shù)據(jù),涵蓋了鳳陽縣、瑯琊區(qū)、明光市、南譙區(qū)、天長市下的39個街道,數(shù)據(jù)總量是303 828條。數(shù)據(jù)特征包括:姓名、類別、助餐點名稱、用餐類型、就餐方式、錄入方式、套餐價格、補貼金額、自付金額、創(chuàng)建日期、創(chuàng)建時間、區(qū)和街道,共計13個特征。通過對數(shù)據(jù)的分析,發(fā)現(xiàn)主要存在三種異常:
1)助餐點異常。若一個老人在一段時間內頻繁切換助餐點用餐,那么可能存在異常情況,比如身份冒用或者錯誤輸入數(shù)據(jù)。
2)補貼金額異常:每人每天的補貼金額是有上限的,若老人在一天內補貼金額超過上限,或者補貼金額數(shù)值不對,那么可能存在異常情況,比如系統(tǒng)故障或者老人信息錄入異常。
3)用餐類型異常。不同助餐點對于用餐類型的時間判斷標準不同,若存在數(shù)據(jù)用餐類型與時間對應不上,那么可能存在異常情況,比如系統(tǒng)延遲。
針對以上三種異常情況,本文提出多模型集成的異常點檢測方法,采用RF、LR和LSTM算法對數(shù)據(jù)進行分類,并將其預測結果和預測概率輸出。下一步將三種異常檢測的預測概率作為新的特征輸入到神經(jīng)網(wǎng)絡中,調整模型參數(shù),目的是找到最優(yōu)的檢測結果。
1.2 數(shù)據(jù)預處理
對各124個助餐點收集到的數(shù)據(jù)進行分析發(fā)現(xiàn)其中含有重復值、數(shù)據(jù)格式不一致等情況,為確保數(shù)據(jù)的準確性、一致性和可靠性,本文對數(shù)據(jù)進行數(shù)據(jù)清洗、特征選擇和特征轉換等操作,得到更有利于分析建模的數(shù)據(jù)集。
1.2.1 數(shù)據(jù)清洗
對數(shù)據(jù)集特征值為文本信息時,以部分老人在類別(A類、B類、C類、C1類、…、C4類、D類)特征是空值為例,類別和補貼金額存在著相關性,計算相同補貼金額對應的類別的眾數(shù)填充到類別特征,以下是算式描述:
(1)
其中xb表示類別,xh表示補貼金額,Mode表示補貼金額對應類別的眾數(shù),xbempty表示需要填充的空值。
對于特征訓練集的特征為數(shù)值信息時,以創(chuàng)建時間為空值為例,數(shù)據(jù)集是按照數(shù)據(jù)上傳采集順序排序的,存在數(shù)據(jù)為一天第一條或者最后一條,單以上下條數(shù)據(jù)的均值是無法合理填充的,將用餐類型作為條件,進行缺失值填充,以下是算式描述:
(2)
其中xq表示創(chuàng)建時間,xd表示用餐類型,ξ表示隨機數(shù)(ξ取10分鐘以內),若xd(j-1) ≠ xdj ≠ xd(j+1)時選取該用餐類型合理的時間范圍內隨機時間進行填充,如圖1所示填充空值。
1.2.2 特征編碼
數(shù)據(jù)集中存在較多的非數(shù)值型特征,其姓名特征包含的特征值種類較多,采用標簽編碼,降低空間開銷,例如:[“張三”“李四”“王五”]編碼為[1,2,3]。其他非數(shù)值型特征采用獨熱編碼,如表1所示,類型分為8種,根據(jù)每個類別的序列ID,只有唯一獨熱編碼與其對應。
通過數(shù)據(jù)預處理,得到完整且易于機器識別的數(shù)據(jù)集,易于后續(xù)的算法分析和建模。
1.2.3 特征選擇
數(shù)據(jù)特征中包含多種類型的特征,對于數(shù)字特征之間采用Pearson相關系數(shù)來衡量連續(xù)變量之間的線性關系,如補貼金額和套餐價格等數(shù)字特征。對于一些非數(shù)字特征對其進行編碼,轉換成適合模型使用的數(shù)字形式,采用ANOVA(方差分析)比較多個組的均值是否相等,如類別和補貼金額等。對三種異常情況選定好相關特征后,重新構建子數(shù)據(jù)集D1、D2和D3,以供研究使用。
2 E-ARLL算法
本文提出E-ARLL(Ensemble Method-Artificial Neural Network Integration Logistic Regression, Random Forest and Long Short Term Memory)算法對數(shù)據(jù)異常進行檢測。研究針對三種異常情況將數(shù)據(jù)集拆分為三個子數(shù)據(jù)集D1、D2和D3,補貼金額異常為非線性數(shù)據(jù)集,同時特征較多數(shù)據(jù)量大,選擇隨機森林算法處理,能夠有著精度高、抗擬合能力強的優(yōu)點;用餐類型異常為線性數(shù)據(jù)集,采用邏輯回歸算法更大程度的擬合數(shù)據(jù);助餐點異常為時序性相關數(shù)據(jù)集,選取長短期記憶算法挖掘數(shù)據(jù)中存在的時序信息。將三種算法的預測概率作為人工神經(jīng)網(wǎng)絡算法的輸入,在隱藏層對該三維數(shù)據(jù)映射到高緯空間,再輸出新的預測值進行評估,組合模型圖如圖2所示。
2.1 隨機森林分類器
以決策樹作為基學習器,在每一輪決策樹訓練過程中加入隨機特征選擇,對于每個決策樹節(jié)點隨機選擇一個包含k個特征的子集,,k表示整數(shù),然后再選擇一個最優(yōu)劃分屬性。通過每個特征的信息增益來確定最佳的分裂點。設有R個類Cr,r = (1, 2, 3, …, K),| Cr |表示屬于類Cr的樣本個數(shù),,設特征X有m個不同的取值{x1, x2, x3, …, xm},根據(jù)特征X的取值,將D1劃分為m個子集D11, D12, D13, …, D1m,| Dli |表示Dli個數(shù)據(jù)集樣本的個數(shù),Dir表示記子集Dli中屬于Cr的樣本集合,| Dir |表示Dir的樣本個數(shù),信息增益算法如下:
1)計算數(shù)據(jù)集D1的經(jīng)驗熵H(D1):
(3)
2)計算特征X對數(shù)據(jù)集D1的經(jīng)驗熵H(D1 | A):
(4)
3)計算信息增益:
(5)
不同的特征具有不同的信息增益,信息增益大的特征具有更強的分類能力,如下所示:
(6)
yrf表示RF(Random Forest)算法的預測值,RF表示預測模型。
2.2 邏輯回歸分類器
選擇sigmoid函數(shù)作為激活函數(shù),對D2數(shù)據(jù)集進行分析,采用隨機梯度下降法對隨機產生的一個初始值ω0進行不斷的迭代,得到最終的ω*,以下是邏輯回歸模型:
(7)
(8)
ylr表示LR(Logistic Regression)算法的預測值。
2.3 長短期記憶網(wǎng)絡分類器
對D3數(shù)據(jù)集進行分析,通過輸入門、輸出門和遺忘門來影響數(shù)據(jù)模型,最終決定每一個時間點,要忘記多少,記住多少,輸出多少,保障核心要素會隨著時間不停改變但是又能一直傳播下去。
(9)
ylstm表示LSTM(Long Short Term Memory)算法的預測值,LSTM表示預測模型。
2.4 神經(jīng)網(wǎng)絡分類器
神經(jīng)網(wǎng)絡(Artificial Neural Network, ANN)分為輸入層(Input Layer)、隱藏層(Hidden Layer)和輸出層(Output Layer)。本研究輸入層節(jié)點為x = [ yrf, ylr, ylstm],經(jīng)過隱藏層處理,將輸出結果表示為:
(10)
其中θ表示節(jié)點之間的權重值,y表示預測結果。
2.5 模型評估
設用餐數(shù)據(jù)集" 表示訓練的數(shù)據(jù)集, 表示對應的標簽,其中 ,數(shù)據(jù)集中包含n個樣本,將每條數(shù)據(jù)表示為 ,每條數(shù)據(jù)具有m個特征,其中i ∈ [1, m],將一個數(shù)據(jù)經(jīng)過不同模型后產生的結果為:
(11)
在本研究中,最終分類的結果會出現(xiàn)以下四種情況:
若yi == 1,則為真正類(True Positive, TP),該類樣本數(shù)為:
(12)
若yi = 0,= 1,則為假負類(False Negative, FN),該類樣本數(shù)為:
(13)
若yi = 1,= 0,則為假正類(False Positive, FP),該類樣本數(shù)為:
(14)
若yi = 0,= 0,則為真負類(True Negative, TN),該類樣本數(shù)為:
(15)
準確率(Accuracy):準確率是真正類和真負類數(shù)量占總樣本數(shù)的比例,算式表示為:
(16)
召回率(Recall):召回率(也被稱為真陽性率或靈敏度)是真正類的數(shù)量占實際為正類的比例,算式表示為:
(17)
精確率(Precision):精確率是真正類的數(shù)量占所有被預測為正類的比例,算式表示為:
(18)
F1值(F1 Score):F1值是精確度和召回率的調和平均數(shù),同時考慮召回率和精確率兩個因素,算式如下:
(19)
ROC(Receiver Operating Characteristic curve):ROC曲線評估模型分類準確率,它顯示在不同閾值下的真陽性率(True Positive Rate, TPR)與假陽性率(False Positive Rate, FPR)之間的關系,算式如下:
(20)
(21)
本文目標是找到一個綜合評估指標最高的模型,令M表示模型的集合,m表示選擇的模型,目標函數(shù)為:
(22)
3 仿真實驗與結果分析
養(yǎng)老助餐服務切實保障老人的就餐安全及便利,為獨居老人提供熱乎飯,為社會增添人文關懷。本研究對象為某市助餐點的用餐數(shù)據(jù),檢測異常數(shù)據(jù),為老人提供安全可靠的服務。傳統(tǒng)算法進行異常檢測只考慮了部分相關特征,不具備完整性,無法對數(shù)據(jù)集進行全面分析,導致部分異常難以檢測出來,本實驗對數(shù)據(jù)集特征,通過不同的相關性進行特征分類,將數(shù)據(jù)集劃分成三個子數(shù)據(jù)集,對三個子數(shù)據(jù)集中存在的異常分別進行檢測,再運用集成學習的思想,用神經(jīng)網(wǎng)絡對結果再次檢測,以獲得更好的性能和泛化能力,實驗環(huán)境如表2所示。
3.1 單異常點檢測
本文通過124個助餐點收集到的大量數(shù)據(jù) ,訓練適合數(shù)據(jù)特征的機器學習模型,優(yōu)化參數(shù)提高各個模型的分類準確率,實驗結果如圖3所示。
圖3主要是描述RF、LR和LSTM算法在準確性、召回率、精確率和F1值的性能,RF算法根據(jù)六個特征,包括:姓名、類別、用餐類型、創(chuàng)建日期、創(chuàng)建時間和補貼金額。決策樹選擇10棵,進行預測,結果表明RF算法在負樣本(真實樣本為負類)的分類上表現(xiàn)較好,但在正類樣本(真實樣本為正類)的識別上存在問題,可能是因為數(shù)據(jù)中負樣本較少,導致模型將樣本預測為多數(shù)類(正類),以最大程度提高Accuracy,但是降低了Recall。LR和LSTM算法在正類樣本(真實為正類)的識別上表現(xiàn)較好,可能因為模型過于“寬容”對于較多樣本都傾向于預測為正類,從而提高Recall??傮w數(shù)據(jù)在預測的F1值上都達到93%以上。
3.2 組合模型對比
圖4為驗證數(shù)據(jù)集前100條數(shù)據(jù)的三種算法預測概率,可以看出對負類的判別上RF算法檢測值更多,LR算法更偏向于將數(shù)據(jù)判別為正類。本文通過ANN對三種算法的預測概率進行加權平均的方法,不斷地調整權重,達到最優(yōu)的模型分類性能。對比投票和平均的方法分別進行實驗檢測。
圖5主要比較了基于投票、平均和ANN三種算法組合方法在準確性、召回率、精確率、F1值和RUC方面的性能,實驗結果表明,采用ANN進行加權平均的方法在本項目中取得了最佳的預測性能,各方面性能都較于另兩種方法更優(yōu)秀,預測F1值高達99.6%,對比投票和平均的方法提高1%,同時由圖5看出在ROC曲線中ANN和平均的方法AUC值是相似的,對于分類的預測性能表現(xiàn)較好。實驗表明ANN方法對于預測任務具有較好的泛化能力和分類性能。
4 結 論
本文提出了基于某市助餐點收集到的用餐數(shù)據(jù),采用集成學習的思路設計一種E-ARLL異常檢測模型。所提出的異常檢測方法主要分為兩個部分,首先采用RF、LR和LSTM對原始數(shù)據(jù)集進行分析,得到不同特征下對數(shù)據(jù)分類的預測概率,最后利用ANN對得到的預測概率進行訓練,獲得最終的預測結果,并計算評估指標,該模型F1值達到99.6%,這個結果表明本文的算法在該數(shù)據(jù)集上表現(xiàn)出非常出色的分類性能,能夠準確地將樣本分類為正類和負類,并且能夠捕捉到大部分正類樣本,同時盡可能地避免將負樣本錯誤地預測為正類,證明了模型的穩(wěn)健性和優(yōu)越性。
然而該數(shù)據(jù)集正負樣本不均衡,導致準確率和精確率較低,召回率較高,對于負樣本的預測不夠準確,后續(xù)的研究會針對該方面,采用類別平衡技術、權重調整等方法,提高對負樣本的識別率,提高模型的整體效果。在應用該算法到實際應用場景時,還需要對數(shù)據(jù)和模型進一步驗證和優(yōu)化,以確保該模型的可靠性和穩(wěn)定性。
參考文獻:
[1] 李盈盈,劉奕.智慧養(yǎng)老背景下社區(qū)養(yǎng)老服務優(yōu)化研究 [J].社會科學前沿,2023,12(10):5866-5873.
[2] ZHANG D H,QIAN L Y,MAO B J,et al. A Data-driven Design for Fault Detection of Wind Turbines Using Random Forests and XGBoost [J].IEEE Access,2018,6:21020-21031.
[3] SADAF K,SULTANA J. Intrusion Detection Based on Autoencoder and Isolation Forest in Fog Computing [J].IEEE Access,2020,8:167059-167068.
[4] XU D,WANG Y J,MENG Y L,et al. An Improved Data Anomaly Detection Method Based on Isolation Forest [C]//2017 10th International Symposium on Computational Intelligence and Design (ISCID).Hangzhou:IEEE,2017:287-291.
[5] YU Y,SI X S,HU C H,et al. A Review of Recurrent Neural Networks:LSTM Cells and Network Architectures [J]. Neural computation,2019,31(7):1235-1270.
[6] NABIPOUR M,NAYYERI P,JABANI H,et al. Predicting Stock Market Trends Using Machine Learning and Deep Learning Algorithms Via Continuous and Binary Data;a Comparative Analysis [J].IEEE Access,2020,8:150199-150212.
[7] FAN Y J,XU K K,WU H,et al. Spatiotemporal Modeling for Nonlinear Distributed Thermal Processes Based on KL Decomposition, MLP and LSTM Network [J].IEEE Access,2020,8:25111-25121.
[8] CHIKKAKRISHNA N K,RACHAKONDA P,TALLAM T. Short-Term Traffic Prediction Using Fb-PROPHET and Neural-PROPHET [C]//2022 IEEE Delhi Section Conference (DELCON).New Delhi:IEEE,2022:1-4.
[9] 趙英,翟源偉,陳駿君,等.基于LSTM-Prophet非線性組合的時間序列預測模型 [J].計算機與現(xiàn)代化,2020(9):6-11+18.
[10] NIKRAVESH A Y,AJILA S A,LUNG C-H. Mobile Network Traffic Prediction Using MLP,MLPWD,and SVM [C]//2016 IEEE International Congress on Big Data (BigData Congress).San Francisco:IEEE,2016:402-409.
[11] 董紅瑤,申成奧,李麗紅.基于鄰域容差熵選擇集成分類算法 [J].鄭州大學學報:理學版,2023,55(6):15-21.
作者簡介:胡俊杰(1997—),男,漢族,安徽合肥人,碩士研究生,研究方向:深度學習。
收稿日期:2024-01-23
基金項目:滁州學院校級重點科研項目(2022XJZD09);安徽省高校自然科學研究重大項目(2022AH040149)
Abnormal Detection Method of Pension Meal Service Data Based on E-ARLL Algorithm
HU Junjie, HUANG Meng
(School of Computer Science and Engineering, Anhui University of Science and Technology, Huainan 232001, China)
Abstract: China is entering an aging society. In order to ensure the three meals a day for the elderly, the government purchases pension meal services in various places. The 1 services, embezzlement, 1ly use and other problems in the service process threaten the property security of government and the elderly, so this paper proposes E-ARLL algorithm to detect abnormal data. This method uses Pearson correlation coefficient and ANOVA to divide the original dataset into the feature training set and the feature verification set, and then the feature training set is input into the E-ARLL algorithm model. Based on the thinking of Ensemble Method, the suitable algorithm is selected for abnormal detection according to the linear relationship of the divided dataset. The experimental results show that the proposed method shows good performance on the abnormal detection of pension meal service data, and the final abnormal data identification rate is 99.4%. It brings new verification methods to the credibility of government purchasing services, which has profound significance.
Keywords: abnormal detection; integrated algorithm; pension service