文章編號(hào):2096-1472(2024)03-0074-05
DOI:10.19644/j.cnki.issn2096-1472.2024.003.015
摘"要:為了避免硬盤出現(xiàn)故障而造成大量數(shù)據(jù)丟失,文章提出一種基于隨機(jī)森林的方法對(duì)硬盤的故障進(jìn)行預(yù)測(cè),降低其丟失數(shù)據(jù)的風(fēng)險(xiǎn)。首先,在數(shù)據(jù)預(yù)處理方面,對(duì)所采用的數(shù)據(jù)做特征映射預(yù)處理;其次,通過對(duì)決策樹進(jìn)行構(gòu)建及選取等,構(gòu)建隨機(jī)森林預(yù)測(cè)模型,根據(jù)所選取的特征屬性預(yù)測(cè)硬盤故障率所在的區(qū)間,并且特征屬性的變化能反映出硬盤故障率的變化趨勢(shì);最后,對(duì)構(gòu)建的隨機(jī)森林模型參數(shù)進(jìn)行調(diào)優(yōu),選取不同的n_estimators參數(shù)值進(jìn)行測(cè)試和優(yōu)化。實(shí)驗(yàn)結(jié)果表明,與XGBoost(Extreme Gradient Boosting)、LSTM(Long Short-Term Memory)等方法相比,本文方法的F1值(F-Measure)分別提高了0.93%和1.84%,并且對(duì)隨機(jī)森林預(yù)測(cè)模型的參數(shù)值進(jìn)行不同取值測(cè)試,最終準(zhǔn)確率達(dá)到98.18%,比默認(rèn)值提高了1.23%,證明該方法能更精確地預(yù)測(cè)硬盤故障率,反映出硬盤故障率基于特征屬性的變化趨勢(shì)。
關(guān)鍵詞:隨機(jī)森林;硬盤故障率;故障率預(yù)測(cè);特征映射;S.M.A.R.T屬性
中圖分類號(hào):TP391""文獻(xiàn)標(biāo)志碼:A
Research on Hard Disk Fault Rate Prediction Based on Random Forest
ZHANG Yongqiang1,4, KONG Junjun1, CUI Yao2, LI Xiangnan3,4
(1.School of Information Science and Engineering, Hebei University of Science and Technology, Shijiazhuang 050018, China;
2.Shijiazhuang Changhong Intelligent Technology Co., Ltd., Shijiazhuang 050004, China;
3.Shijiazhuang Chunxiao Internet Information Technology Co., Ltd., Shijiazhuang 050061, China;
4. Hebei Technology Innovation Center of Intelligent IoT, Shijiazhuang 050018, China)
zyq@hebust.edu.cn; kjunjun555@163.com; cuiyao@changhong.cc; xiangnan.li@chunxiao.net
Abstract: Aiming at hard disk faults which result in a large amount of data loss, this paper proposes a Random Forest-based method to predict hard disk faults and reduce the risk of data loss. Firstly, in terms of data processing, feature mapping preprocessing for the data used is performed. Secondly, by constructing and selecting Decision Trees, a Random Forest model is constructed to predict the range of hard disk fault rate based on the selected feature attributes, the changes of which reflect the changing trend of hard disk fault rate. Finally, the parameters of the constructed Random Forest model are optimized and tested with different n_estimators parameter values. The experimental results show that compared with methods such as XGBoost (Extreme Gradient Boosting) and LSTM (Long Short Term Memory), the F1 value (F-Measure) of the proposed method has increased by 0.93% and 1.84%, respectively. In addition, the parameter values of the Random Forest model are tested with different values, and the final accuracy reaches 98.18%, which is 1.23% higher than the default value. This proves that the proposed method can predict the hard disk fault rate more accurately and reflect the changing trend of the hard disk fault rate based on feature attributes.
Key words: Random Forest; hard disk fault rate; fault rate prediction; feature mapping; S.M.A.R.T attribute
0""引言(Introduction)
隨著互聯(lián)網(wǎng)、信息技術(shù)的發(fā)展,新時(shí)代數(shù)據(jù)中心也迅速發(fā)展,數(shù)據(jù)存儲(chǔ)的數(shù)量呈指數(shù)增長(zhǎng),而硬盤驅(qū)動(dòng)器是數(shù)據(jù)存儲(chǔ)系統(tǒng)中常見的一種設(shè)備,大量的數(shù)據(jù)都存儲(chǔ)在硬盤驅(qū)動(dòng)器上[1]。根據(jù)存儲(chǔ)服務(wù)商Backblaze對(duì)硬盤使用情況的統(tǒng)計(jì)報(bào)告,硬盤經(jīng)常出現(xiàn)故障,并且是最嚴(yán)重的一類硬件故障,它會(huì)導(dǎo)致大量的數(shù)據(jù)丟失,降低硬盤使用的可靠性。若能提前預(yù)測(cè)硬盤的壽命,進(jìn)而對(duì)硬盤進(jìn)行有針對(duì)性的維護(hù),則會(huì)降低數(shù)據(jù)丟失的可能性。目前,自我監(jiān)測(cè)、分析及報(bào)告技術(shù)(Self-Monitoring Analysis and Reporting Technology, S.M.A.R.T)可以對(duì)硬盤進(jìn)行故障預(yù)測(cè),它是一種自動(dòng)的硬盤狀態(tài)檢測(cè)與預(yù)警系統(tǒng)和規(guī)范[2],但S.M.A.R.T閾值檢測(cè)法僅能實(shí)現(xiàn)簡(jiǎn)單的磁盤故障評(píng)測(cè),在達(dá)到0.1%誤判率(False Acceptance Rate, FAR)時(shí),其故障檢測(cè)率(False Discovery Rate, FDR)僅有3%~10%,無法滿足用戶的實(shí)際需求。因此,本文提出一種隨機(jī)森林預(yù)測(cè)模型,根據(jù)所選取的特征屬性預(yù)測(cè)硬盤故障率所在的區(qū)間,并且根據(jù)特征屬性的變化預(yù)測(cè)硬盤故障率的變化趨勢(shì),進(jìn)而對(duì)硬盤故障率進(jìn)行準(zhǔn)確地預(yù)測(cè)。
1""相關(guān)工作(Related work)
近年來,眾多的研究者利用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)對(duì)硬盤故障率預(yù)測(cè)問題開展了研究。姜少彬等[3]使用一種非監(jiān)督對(duì)抗學(xué)習(xí)方法對(duì)硬盤進(jìn)行故障預(yù)測(cè),設(shè)計(jì)了一種基于長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的自編碼器,并引入生成式對(duì)抗網(wǎng)絡(luò)增強(qiáng)非監(jiān)督學(xué)習(xí)。與傳統(tǒng)監(jiān)督和半監(jiān)督的方法相比,盡管該模型在訓(xùn)練時(shí)不需要使用異常樣本,避免了模型過擬合問題,但是該模型預(yù)測(cè)的準(zhǔn)確率還有待提高。喬旭坤等[4]建立了基于機(jī)器學(xué)習(xí)的硬盤故障檢測(cè)評(píng)估平臺(tái),在統(tǒng)一的實(shí)驗(yàn)平臺(tái)中對(duì)隨機(jī)森林、邏輯回歸、多層感知神經(jīng)網(wǎng)絡(luò)、決策樹、樸素貝葉斯、極端梯度提升樹、梯度提升決策樹和AdaBoost算法模型進(jìn)行了故障預(yù)測(cè)性能比較,但實(shí)驗(yàn)中只針對(duì)同一公司的同一種型號(hào)的硬盤進(jìn)行測(cè)試。李國等[5]根據(jù)精度和多樣性值選取決策樹并對(duì)其分配權(quán)重,組成變權(quán)重隨機(jī)森林模型對(duì)硬盤進(jìn)行故障預(yù)測(cè),最終達(dá)到93.12%的故障檢測(cè)率和0.008%的誤報(bào)率。BASAK等[6]討論了所使用的長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的架構(gòu),描述了選擇各種超參數(shù)的機(jī)制,并預(yù)測(cè)磁盤是否會(huì)在未來10天內(nèi)發(fā)生故障,但是預(yù)測(cè)的精度不高。李順等[7]提出一種基于深度學(xué)習(xí)長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)的硬盤剩余壽命預(yù)測(cè)方法。該方法相對(duì)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法能夠捕獲硬盤特征的序列信息,建立的LSTM模型可以在訓(xùn)練樣本和測(cè)試樣本上分別達(dá)到0.27和1.85的平均絕對(duì)誤差(Mean Absolute Error, MAE),但是對(duì)硬盤壽命預(yù)測(cè)還沒有達(dá)到更好的精度。XU等[8]引入了一種基于遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)的新方法,以基于逐漸變化的順序S.M.A.R.T屬性評(píng)估硬盤驅(qū)動(dòng)器的健康狀態(tài)。與簡(jiǎn)單的故障預(yù)測(cè)方法相比,健康狀態(tài)評(píng)估在實(shí)踐中更有價(jià)值,技術(shù)人員能夠根據(jù)緊急程度安排不同硬盤驅(qū)動(dòng)器的恢復(fù)。曹渝昆等[9]提出一種基于LSTM神經(jīng)網(wǎng)絡(luò)的風(fēng)機(jī)齒輪帶斷裂故障預(yù)測(cè)方法,結(jié)合風(fēng)電廠SCADA(Supervisory Control and Data Acquisition)系統(tǒng)的風(fēng)機(jī)運(yùn)行狀態(tài)監(jiān)控?cái)?shù)據(jù),在隨機(jī)森林算法的數(shù)據(jù)特征篩選基礎(chǔ)之上,采用LSTM對(duì)齒輪帶故障進(jìn)行預(yù)測(cè)。劉雅卉等[10]對(duì)ATM機(jī)交易數(shù)據(jù)集進(jìn)行交易特征提取,針對(duì)不同故障情景將數(shù)據(jù)分為正常-異常二分類,通過Bootstrap重抽樣,建立多棵CART(Classification and Regression Tree)決策樹,形成隨機(jī)森林模型,實(shí)現(xiàn)ATM機(jī)故障的診斷?;谏鲜鲅芯?,對(duì)硬盤故障的預(yù)測(cè)準(zhǔn)確率還有待提高??梢愿鶕?jù)硬盤S.M.A.R.T屬性以外的屬性進(jìn)行預(yù)測(cè),比如對(duì)硬盤的型號(hào)、使用天數(shù)等屬性進(jìn)行預(yù)測(cè)。此外,對(duì)隨機(jī)森林模型的參數(shù)進(jìn)行了調(diào)優(yōu),在原有的基礎(chǔ)上可以提高預(yù)測(cè)的準(zhǔn)確率,并且對(duì)所采用的數(shù)據(jù)做出特征映射[11]等預(yù)處理,通過本文方法可以更精確地預(yù)測(cè)硬盤故障率,反映出硬盤故障率基于特征屬性的變化趨勢(shì)。
2""隨機(jī)森林預(yù)測(cè)模型(Random Forest prediction model)
隨機(jī)森林模型是將許多棵決策樹整合到一起成為森林并用來預(yù)測(cè)最終結(jié)果[12],根據(jù)所選取的特征屬性預(yù)測(cè)硬盤故障率所在的區(qū)間,根據(jù)特征屬性的變化預(yù)測(cè)硬盤故障率的變化趨勢(shì)。隨機(jī)森林預(yù)測(cè)模型包括決策樹的構(gòu)建、隨機(jī)森林算法參數(shù)調(diào)優(yōu)等內(nèi)容,其模型圖如圖1所示。
2.1""決策樹的構(gòu)建
使用隨機(jī)森林模型預(yù)測(cè)硬盤故障率所在區(qū)間,主要根據(jù)所選取的特征屬性進(jìn)行分類預(yù)測(cè)。通過計(jì)算硬盤的品牌、型號(hào)、內(nèi)存大小、使用數(shù)量、使用時(shí)間5個(gè)屬性的基尼系數(shù),通過計(jì)算對(duì)比選取決策樹的根節(jié)點(diǎn)以及依次所選用的葉子節(jié)點(diǎn)。決策樹的構(gòu)建過程如圖2所示。
其中,對(duì)于決策樹構(gòu)建的節(jié)點(diǎn),是通過計(jì)算所選屬性的基尼系數(shù)選取的,基尼系數(shù)如公式(1)所示:
在構(gòu)建決策樹的過程中,分類算法計(jì)算所有可能的分裂帶來的基尼系數(shù),進(jìn)而選擇基尼系數(shù)小的分裂作為下一次的分支。通過遞歸執(zhí)行分支算法生成決策樹模型,直到所有節(jié)點(diǎn)不滿足分裂條件為止。
2.2""隨機(jī)森林算法
隨機(jī)森林模型是一種經(jīng)典的Bagging模型,其弱學(xué)習(xí)器為決策樹模型。隨機(jī)森林模型在原始數(shù)據(jù)集中隨機(jī)抽樣,構(gòu)成n個(gè)不同的樣本數(shù)據(jù)集,然后根據(jù)這些數(shù)據(jù)集搭建n個(gè)不同的決策樹模型,根據(jù)這些決策樹的投票結(jié)果獲得最終的分類結(jié)果[13]。
輸入:訓(xùn)練數(shù)據(jù)D,隨機(jī)森林中決策樹個(gè)數(shù)N,選取的特征值個(gè)數(shù)M。
輸出:隨機(jī)森林硬盤故障率預(yù)測(cè)模型。
建立的隨機(jī)森林模型參數(shù)對(duì)預(yù)測(cè)結(jié)果很重要,為了更好地預(yù)測(cè)結(jié)果,本模型引用GridSearchCV對(duì)參數(shù)調(diào)優(yōu),預(yù)測(cè)結(jié)果的準(zhǔn)確率在原有的基礎(chǔ)上有一定程度的提高。關(guān)于隨機(jī)森林算法參數(shù)調(diào)優(yōu)的步驟如下。
(1)設(shè)置所有參數(shù)為默認(rèn)值。建立基于隨機(jī)森林的硬盤故障率預(yù)測(cè)模型,其中的參數(shù)默認(rèn)設(shè)置值如表1所示。
最終的參數(shù)為默認(rèn)值的預(yù)測(cè)結(jié)果,如表2所示,準(zhǔn)確率為96.95%,查準(zhǔn)率為91.10%,查全率為91.08%,F(xiàn)1值為97.04%。
(2)創(chuàng)建GridSearchCV對(duì)象,并對(duì)參數(shù)n_estimators進(jìn)行調(diào)優(yōu)。對(duì)參數(shù)n_estimators調(diào)優(yōu)不會(huì)增加模型的復(fù)雜度,對(duì)模型預(yù)測(cè)準(zhǔn)確率的提升有幫助。
(3)對(duì)外層的Bagging框架進(jìn)行參數(shù)調(diào)優(yōu),先對(duì)參數(shù)n_estimators進(jìn)行調(diào)參,其他參數(shù)仍然設(shè)置為默認(rèn)值。參數(shù)n_estimators的設(shè)置范圍為1~101,步長(zhǎng)為10。
(4)輸出的較優(yōu)準(zhǔn)確率和最優(yōu)參數(shù)與默認(rèn)值對(duì)比如表2所示。
從對(duì)比結(jié)果來看,調(diào)參后,在原有準(zhǔn)確率的基礎(chǔ)上,預(yù)測(cè)的準(zhǔn)確率有一定程度的提高。
2.3""硬盤故障率預(yù)測(cè)處理流程
硬盤故障率預(yù)測(cè)的處理流程如圖3所示。根據(jù)數(shù)據(jù)集擁有的其他屬性特征預(yù)測(cè)故障率特征的值,采用硬盤的品牌、型號(hào)、內(nèi)存大小、使用數(shù)量、使用時(shí)間等特征值,構(gòu)建隨機(jī)森林預(yù)測(cè)模型,用于預(yù)測(cè)硬盤故障率。把數(shù)據(jù)集按照8∶2拆分成訓(xùn)練集與測(cè)試集,首先輸入訓(xùn)練數(shù)據(jù),其次使用經(jīng)過預(yù)處理的數(shù)據(jù)形成訓(xùn)練模型進(jìn)行故障率預(yù)測(cè),最后輸出預(yù)測(cè)結(jié)果。
3""實(shí)驗(yàn)及方法(Experiments and methods)
3.1""實(shí)驗(yàn)環(huán)境
操作系統(tǒng):Windows 10;開發(fā)環(huán)境:PyCharm;程序語言:Python 3.9。
3.2""數(shù)據(jù)集與特征選擇
實(shí)驗(yàn)數(shù)據(jù)選用Backblaze公開數(shù)據(jù)集,選取2016—2021年的匯總數(shù)據(jù),數(shù)據(jù)集的特征屬性包括硬盤的品牌、型號(hào)、數(shù)量、使用時(shí)間、內(nèi)存大小、故障率。選取公開數(shù)據(jù)集用到的6個(gè)特征屬性進(jìn)行故障預(yù)測(cè)處理,數(shù)據(jù)集屬性值對(duì)應(yīng)表如表3所示。
3.3""實(shí)驗(yàn)數(shù)據(jù)處理
首先進(jìn)行數(shù)據(jù)預(yù)處理,對(duì)原始數(shù)據(jù)中的缺失值進(jìn)行填補(bǔ),將其填充為0;對(duì)于異常值,因?yàn)榘惓V档挠涗浐苌?,所以可以直接刪除包含異常值的記錄。
其次進(jìn)行特征映射,其中硬盤品牌轉(zhuǎn)換規(guī)則如表4所示。硬盤故障率分為13個(gè)區(qū)間,其轉(zhuǎn)換規(guī)則如表5所示。
3.4""評(píng)價(jià)指標(biāo)
對(duì)算法進(jìn)行評(píng)價(jià),選擇統(tǒng)一的評(píng)價(jià)指標(biāo),包括準(zhǔn)確率(Accuracy)、查準(zhǔn)率(Precision)、查全率(Recall)、查準(zhǔn)率與查全率的調(diào)和平均值(F1)、混淆矩陣[14]。
查準(zhǔn)率也叫精度,簡(jiǎn)記為P,表示預(yù)測(cè)為正例的樣本中[TP(True Positive)+FP(False Positive)]有多少是真正的正樣本(TP),其公式如下:
混淆矩陣是對(duì)分類問題的預(yù)測(cè)結(jié)果的總結(jié),是衡量分類型模型準(zhǔn)確率中最基本、最直觀且計(jì)算最簡(jiǎn)單的方法。使用計(jì)數(shù)值匯總正確和不正確預(yù)測(cè)的數(shù)量,并按照每個(gè)類別進(jìn)行細(xì)分,這是混淆矩陣的關(guān)鍵?;煜仃囷@示了分類模型在進(jìn)行預(yù)測(cè)時(shí)會(huì)對(duì)哪一部分產(chǎn)生混淆,不僅能了解分類模型所犯的錯(cuò)誤,更重要的是可以了解錯(cuò)誤的類型。正是這種對(duì)結(jié)果的分解,克服了僅使用分類準(zhǔn)確率衡量本文模型帶來的局限性。
本實(shí)驗(yàn)通過隨機(jī)森林硬盤故障率預(yù)測(cè)模型運(yùn)行的結(jié)果混淆矩陣和準(zhǔn)確率如圖4所示。從圖4可以看出混淆矩陣統(tǒng)計(jì)的本文隨機(jī)森林模型的正確預(yù)測(cè)和不正確預(yù)測(cè)的數(shù)量,并且不正確預(yù)測(cè)的數(shù)量較少。
4""實(shí)驗(yàn)結(jié)果及分析(Experimental results and analysis)
本文隨機(jī)森林模型與XGBoost算法[15]和長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)模型[16]的評(píng)價(jià)指標(biāo)對(duì)比如表6所示,從中可以看出,構(gòu)造的隨機(jī)森林方法F1值達(dá)到98.17%,相比XGBoost和LSTM算法效果較好。
通過對(duì)特征值進(jìn)行特征映射等預(yù)處理,并且對(duì)隨機(jī)森林預(yù)測(cè)模型的參數(shù)進(jìn)行調(diào)參,在設(shè)置默認(rèn)參數(shù)的基礎(chǔ)上,通過對(duì)參數(shù)的調(diào)優(yōu),提高了模型預(yù)測(cè)的準(zhǔn)確率。取得的預(yù)測(cè)結(jié)果如表7所示,從中可以看出,對(duì)隨機(jī)森林預(yù)測(cè)模型進(jìn)行參數(shù)調(diào)整后,其預(yù)測(cè)的準(zhǔn)確率達(dá)到98.18%,相比之前明顯提高。
根據(jù)ROC(Receiver Operating Characteristic)曲線衡量模型的預(yù)測(cè)效果。ROC曲線與橫軸圍成的面積大小稱為學(xué)習(xí)器的AUC(Area Under ROC Curve),該值越接近于1,說明這個(gè)模型的預(yù)測(cè)效果越好。隨機(jī)森林預(yù)測(cè)模型的ROC曲線圖如圖5所示,橫坐標(biāo)和縱坐標(biāo)分別為反正例率(False Positive Rate, FPR)、真正例率(True Positive Rate, TPR)。從圖5可以看出,隨機(jī)森林預(yù)測(cè)模型的效果較好。本文方法是基于多分類的分類模型,由表5可知,預(yù)測(cè)結(jié)果的種類分為13種,所以ROC曲線圖中“ROC curve of class”1~13對(duì)應(yīng)的是13種分類結(jié)果。
實(shí)驗(yàn)對(duì)基于隨機(jī)森林的算法進(jìn)行硬盤故障率預(yù)測(cè),采用Backblaze公開數(shù)據(jù)集,選取2016—2021年的數(shù)據(jù),硬盤的型號(hào)、數(shù)量、使用時(shí)間、內(nèi)存大小等特征作為自變量,硬盤故障率作為因變量。在原有的預(yù)測(cè)結(jié)果是否為故障的基礎(chǔ)上,通過基于隨機(jī)森林模型的方法對(duì)硬盤故障率的所在區(qū)間進(jìn)行預(yù)測(cè),結(jié)果反映出特征屬性變化后其硬盤故障率的變化,并且對(duì)隨機(jī)森林預(yù)測(cè)模型參數(shù)進(jìn)行調(diào)優(yōu)后,最終預(yù)測(cè)準(zhǔn)確率可達(dá)到98.18%。
5""結(jié)論(Conclusion)
數(shù)據(jù)是信息時(shí)代的寶貴資源,硬盤作為保存數(shù)據(jù)的主要部件,提高硬盤的可靠性對(duì)提高數(shù)據(jù)存儲(chǔ)的安全具有重要意義。為了解決硬盤出現(xiàn)故障導(dǎo)致數(shù)據(jù)丟失的問題,提出了基于隨機(jī)森林模型的方法對(duì)硬盤進(jìn)行故障率預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,與XGBoost、LSTM的方法相對(duì)比,基于隨機(jī)森林的方法的精度提高了1%~2%,并且對(duì)模型的n_estimators參數(shù)進(jìn)行調(diào)參后,最終預(yù)測(cè)準(zhǔn)確率可達(dá)到98.18%,所以可以對(duì)硬盤的故障情況進(jìn)行有效的預(yù)測(cè)。本研究可以對(duì)硬盤故障率的數(shù)據(jù)劃分區(qū)間,并且對(duì)區(qū)間進(jìn)行特征映射預(yù)處理,相比傳統(tǒng)的方法,在對(duì)硬盤故障預(yù)測(cè)結(jié)果為是否故障的情況下,更容易反映出硬盤故障率的變化。
本實(shí)驗(yàn)雖然可以很好地對(duì)硬盤故障進(jìn)行預(yù)測(cè),但是對(duì)于故障率區(qū)間轉(zhuǎn)換的細(xì)化程度還需進(jìn)一步優(yōu)化。下一步工作將致力于更準(zhǔn)確地預(yù)測(cè)硬盤故障率具體值,并且提高模型的泛化能力和預(yù)測(cè)精度。
參考文獻(xiàn)(References)
[1] LI J,STONES R J,WANG G,et al. Hard drive failure prediction using Decision Trees[J]. Reliability engineering amp; system safety,2017,164:55-65.
[2] 萬成威,王霞,王猛. 基于SMART數(shù)據(jù)模式的HDD硬盤狀態(tài)預(yù)測(cè)方法[J/OL]. 電訊技術(shù),2022:1-6[2024-1-15].https:∥kns.cnki.net/kcms/detail/51.1267.TN. 20221118.1710.002.html.
[3] 姜少彬,杜春,陳浩,等. 一種硬盤故障預(yù)測(cè)的非監(jiān)督對(duì)抗學(xué)習(xí)方法[J]. 西安電子科技大學(xué)學(xué)報(bào),2020,47(2):118-125.
[4] 喬旭坤,李順,李君,等. 基于機(jī)器學(xué)習(xí)的硬盤故障預(yù)測(cè)研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2022,32(6):215-220.
[5] 李國,常甜甜,李靜. 基于變權(quán)重隨機(jī)森林的硬盤故障預(yù)測(cè)方法[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2021,42(10):2988-2994.
[6] BASAK S,SENGUPTA S,DUBEY A. Mechanisms for integrated feature normalization and remaining useful life estimation using LSTMs applied to hard-disks[C]∥IEEE. Proceedings of the IEEE: 2019 IEEE International Conference on Smart Computing(SMARTCOMP). Piscataway:IEEE,2019:208-216.
[7] 李順,李君,吳鑫,等. 基于LSTM的硬盤剩余壽命預(yù)測(cè)[J]. 浙江萬里學(xué)院學(xué)報(bào),2020,33(4):69-77.
[8] XU C,WANG G,LIU X G,et al. Health status assessment and failure prediction for hard drives with recurrent neural networks[J]. IEEE transactions on computers,2016,65(11):3502-3508.
[9] 曹渝昆,巢俊乙,王曉飛. 基于LSTM神經(jīng)網(wǎng)絡(luò)的風(fēng)機(jī)齒輪帶斷裂故障預(yù)測(cè)[J]. 電氣自動(dòng)化,2019,41(4):92-95.
[10] 劉雅卉,滕志霞. 基于隨機(jī)森林的ATM機(jī)監(jiān)測(cè)預(yù)警方法[J]. 電子技術(shù)與軟件工程,2018(12):162-164.
[11] 程淼海,樓俏,王瓊,等. 基于隨機(jī)森林算法的配網(wǎng)搶修故障量預(yù)測(cè)方法[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2016,25(9):137-143.
[12] 呂紅燕,馮倩. 隨機(jī)森林算法研究綜述[J]. 河北省科學(xué)院學(xué)報(bào),2019,36(3):37-41.
[13] 王梓杰,周新志,寧芊. 基于PCA和隨機(jī)森林的故障趨勢(shì)預(yù)測(cè)方法研究[J]. 計(jì)算機(jī)測(cè)量與控制,2018,26(2):21-23,26.
[14] LI J,STONES R J,WANG G,et al. New metrics for disk failure prediction that go beyond prediction accuracy[J]. IEEE access,2018,6:76627-76639.
[15] 王陶,吳鑫,李君,等. 基于XGBoost算法的硬盤故障預(yù)測(cè)[J]. 數(shù)字技術(shù)與應(yīng)用,2021,39(2):123-126.
[16] 伍乙杰,黃文灝,賴仕達(dá),等. 基于隨機(jī)森林和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的超短期負(fù)荷預(yù)測(cè)研究[J]. 電氣自動(dòng)化,2022,44(5):35-37,40.
作者簡(jiǎn)介:
張永強(qiáng)(1981-),男,博士,副教授。研究領(lǐng)域:人工智能,電磁防護(hù)理論與技術(shù)。
孔君君(2000-),女,碩士生。研究領(lǐng)域:人工智能。
崔"搖(1982-),男,工程師。研究領(lǐng)域:物聯(lián)網(wǎng),企業(yè)數(shù)字化管理,傳感網(wǎng)。
李向南(1985-),男,碩士。研究領(lǐng)域:物聯(lián)網(wǎng)應(yīng)用,邊緣智能研究。
收稿日期:2023-10-27
基金項(xiàng)目:河北省自然科學(xué)基金(F2022208002);河北省高等學(xué)??茖W(xué)技術(shù)研究重點(diǎn)項(xiàng)目(ZD2021048)