Tom Macaulay Charles
數(shù)據(jù)科學(xué)家正在分析列車和基礎(chǔ)設(shè)施故障,以支持預(yù)測性維護(hù).
倫敦交通局(TfL,Transport for London)正在利用數(shù)據(jù)科學(xué)找出倫敦地鐵列車和基礎(chǔ)設(shè)施中斷的原因,并預(yù)測這些故障什么時候會出現(xiàn),從而提高服務(wù)質(zhì)量。
為幫助倫敦交通局實現(xiàn)“讓倫敦跑起來”的宣傳口號,所有列車、車站、信號、軌道和自動扶梯每天都要投入運營。其中任何一個出現(xiàn)小問題都有可能導(dǎo)致大的中斷。
為提高其可靠性并降低維護(hù)成本,一個由三個數(shù)據(jù)科學(xué)家組成的團(tuán)隊以及可靠性分析人員小組一直在研究故障原因,怎樣減少故障。
他們正在研究預(yù)測性維護(hù)怎樣降低成本,改進(jìn)服務(wù)。目前在中心線路上正在進(jìn)行的一個項目分析地鐵事件,以預(yù)測發(fā)動機什么時候會出現(xiàn)故障。
倫敦交通局的數(shù)據(jù)科學(xué)家Akis Tsiotsios在一次人工智能大會上解釋說:“預(yù)計每年能節(jié)約300萬英鎊,這極其重要,因為這類故障成本非常高,已經(jīng)采取了很多計劃維護(hù)措施,以防止發(fā)生故障?!?/p>
老地鐵繼續(xù)運行
1863年在帕丁頓(Paddington)和法靈頓街(Farringdon Street)之間開通了世界上的第一條地鐵,現(xiàn)在它已成為環(huán)線、中心線、漢默史密斯線和城市線的一部分。
它仍然是世界上最繁忙的地鐵網(wǎng)絡(luò)之一。每天早上,538趟列車運行在270個車站之間,預(yù)計該網(wǎng)絡(luò)今年將運送14億人次,覆蓋8600萬公里,相當(dāng)于110次往返月球。
需要定期維護(hù)維多利亞時代的基礎(chǔ)設(shè)施和老化的車廂,以避免停運。
大概一半的延誤是由倫敦交通局資產(chǎn)問題引起的,其維護(hù)成本占總預(yù)算的59%。
外部因素也會導(dǎo)致服務(wù)中斷。在一個數(shù)據(jù)科學(xué)項目中,倫敦交通局通過找出故障與溫度、濕度和降雨之間的關(guān)系,研究了天氣條件怎樣影響列車編組的可靠性。
研究小組考慮了一個匯合了所有系統(tǒng)的失敗概率模型,但決定應(yīng)該有更強大的選項來確定單個子系統(tǒng)組件是否更容易出現(xiàn)故障。
分析結(jié)果產(chǎn)生了熱圖,顯示每一因素對每一系統(tǒng)和組件的影響。
發(fā)現(xiàn)高溫是導(dǎo)致故障的主要原因。低溫也有顯著的影響。
研究人員將這些反饋給相關(guān)方,幫助他們圍繞維護(hù)和更新做出決策。
他們的最終目的是查明導(dǎo)致所有資產(chǎn)故障的原因,以便進(jìn)行預(yù)防性維護(hù)。
選擇最佳數(shù)據(jù)分析模型
為了了解故障的原因,研究小組研究了倫敦交通局資產(chǎn)、故障、維護(hù)、服務(wù)操作和天氣等外部問題的數(shù)據(jù)集。故障發(fā)生的因素包括溫度、出發(fā)地點、使用率和維修率。
他們分析了每一因素對故障率的影響,基于故障發(fā)生頻率的影響程度,以及與故障相關(guān)的成本。
Tsiotsios說:“這樣使我們能夠大概了解不同因素的影響,對其進(jìn)行對比以便知道應(yīng)采取什么措施來進(jìn)行緩解?!?/p>
其難點包括信息孤島、數(shù)據(jù)丟失、由于倫敦交通局不斷更新其資產(chǎn)而導(dǎo)致時間受限,以及故障出現(xiàn)頻率較低而使得數(shù)據(jù)比較稀疏,等等。
倫敦交通局是非常依賴于安全關(guān)鍵應(yīng)用的大企業(yè),因此數(shù)據(jù)科學(xué)團(tuán)隊需要與不同的部門合作,實施有效的時間表。
Tsiotsios說:“我們想讓相關(guān)方盡可能的參與進(jìn)來,因為這些項目每一個都涉及很多不同的部門,我們對工作人員的期望以及我們要努力實現(xiàn)的目標(biāo)都有一些時間要求?!?/p>
工作人員采取的維修決策應(yīng)盡可能減少故障和維護(hù)成本。
他們可以根據(jù)里程或者運行時間進(jìn)行維護(hù),但這可能最終會因為過度維護(hù)資產(chǎn)而浪費資金,也有可能因維護(hù)不足而導(dǎo)致出現(xiàn)太多的故障。
數(shù)據(jù)科學(xué)家認(rèn)為更好的選擇是分析歷史故障和維護(hù)數(shù)據(jù),以確定故障概率。這樣他們才能查明可能的原因。
然后,他們可以評估故障成本,確定有多少是可以接受的,設(shè)置固定的維護(hù)頻率。
這種選擇是一個進(jìn)步,但仍然不是最佳的,因為有一些故障是不可避免的,而很多故障則可以通過維護(hù)來避免。
Tsiotsios說:“我們要做的是,在某一資產(chǎn)即將出現(xiàn)故障之前,獨立地維護(hù)每一項資產(chǎn)。
“我們討論的是預(yù)測性維護(hù),這里的問題是當(dāng)某一類系統(tǒng)要出現(xiàn)故障時,我們怎樣才能預(yù)測出來。”
倫敦交通局的預(yù)測性維護(hù)
倫敦交通局通過分析已經(jīng)收集的遠(yuǎn)程狀態(tài)監(jiān)測數(shù)據(jù),進(jìn)行預(yù)測性維護(hù)。
倫敦交通局某些資產(chǎn)上的傳感器不斷監(jiān)測基本狀態(tài),確認(rèn)軌道上發(fā)生的事件。
有成百上千的這類事件,從車門關(guān)閉到列車以一定速度經(jīng)過等。
例如,如果車門出現(xiàn)故障,那么故障出現(xiàn)前就會有相應(yīng)的征兆。
Tsiotsios說:“這里的想法是,出現(xiàn)故障之前的事件模式應(yīng)該反映這些征兆。
“換句話說,故障前的事件模式應(yīng)該與正?;蛘呓】颠\行的事件模式有明顯的不同。”
為了對所有這些數(shù)據(jù)進(jìn)行建模,他們開發(fā)了一個機器學(xué)習(xí)分類器,可以區(qū)分這些不同的模式。
然后,算法可以評估在前幾天或者幾小時內(nèi)發(fā)生的事件的模式,然后預(yù)測是否會發(fā)生故障。
機器學(xué)習(xí)模型被應(yīng)用于數(shù)據(jù),以預(yù)測是否會發(fā)生故障,預(yù)計將出現(xiàn)故障的資產(chǎn)很快就會出現(xiàn)在工程師的顯示屏上。在出現(xiàn)故障之前,就會把有問題的資產(chǎn)從服務(wù)中撤出并進(jìn)行維護(hù)。
倫敦交通局的數(shù)據(jù)科學(xué)項目
倫敦交通局正在進(jìn)行一些數(shù)據(jù)分析實驗以改進(jìn)地鐵服務(wù),包括上述的中心線路項目。
這使用了每天從制造商狀態(tài)監(jiān)控系統(tǒng)下載到服務(wù)器上的數(shù)據(jù)。然后算法評估過去五天里的事件模式,預(yù)測第二天是否會出現(xiàn)故障。
他們還在維多利亞線路上進(jìn)行了概念驗證,通過異常檢測來預(yù)測車門故障,還有一些其他項目來分析傳感器產(chǎn)生的信號,持續(xù)監(jiān)測性能。
另一個數(shù)據(jù)科學(xué)項目則支持倫敦交通局開展監(jiān)測并改進(jìn)其數(shù)據(jù)質(zhì)量的工作。
很多倫敦交通局的數(shù)據(jù)都有錯誤,或者丟失了信息。數(shù)據(jù)科學(xué)小組正在使用自由文本字段,工程師利用這些字段輸入關(guān)于故障征兆的詳細(xì)信息,以及為解決問題所采取的行動,訓(xùn)練機器學(xué)習(xí)分類器,這些分類器分析文本中的模式以預(yù)測哪些組件會出現(xiàn)故障。
到目前為止,該算法在識別組件時已被證明正確率達(dá)到75%。
任何被標(biāo)記的組件都會由專家進(jìn)行檢查。
Tsiotsios說:“我們的目標(biāo)不是建立一款自動為我們填充數(shù)據(jù)的機器學(xué)習(xí)工具。我們不想用一個也會出錯的工具來代替我們工程師的專業(yè)知識。
“我們想開發(fā)一款質(zhì)量保證工具來監(jiān)控數(shù)據(jù)質(zhì)量,以便自動檢測什么時候記錄了錯誤的數(shù)據(jù),并建立一個過程,在此過程中我們會向輸入團(tuán)隊提供反饋,這樣,將來會變得越來越好?!?/p>