潘曉峰
一、概述
在現(xiàn)網(wǎng)維護工作中,BRAs設(shè)備接口板或主控板CPU高是常見的故障之一。單板CPU高并不一定影響設(shè)備業(yè)務運行,往往不是導致設(shè)備業(yè)務故障的根因,因此單板CPU高是只是設(shè)備異常運行的表現(xiàn)。在某些情況下cPU使用率可以協(xié)助進行網(wǎng)上問題定位。本文以華為ME60為例介紹CPU高問題的定位思路及解決措施。
二、CPU高問題基本定位思路
(1)采集單板CPU占用率:
在CPU高時,第一時間采集單板CPU各任務占用率,以華為設(shè)備為例:display cpu-usage。
(2)查看告警、日志信息:
查看設(shè)備告警、歷史告警、日志信息,確認CPU高問題發(fā)生時間點和觸發(fā)任務:
a)單板CPu默認超過80%時設(shè)備會上報告警,低于80%會報告警恢復。
b)設(shè)備自啟動后,日志會每間隔30分鐘記錄一次整機CPU和內(nèi)存信息,用于監(jiān)控設(shè)備CPU/內(nèi)存運行軌跡,ME60在CPU超過80%會日志記錄告警和CPU占用率TOP3的任務。
(3)報文上送擁塞導致接口板CPU高:
①問題原因
現(xiàn)網(wǎng)約50%的CPU高問題都和大量報文在接口板上送CPU處理有關(guān),導致單板報文大量上送的原因各不相同,如二層環(huán)路、惡意攻擊、大量用戶同時撥號、大量IPOE用戶正常ARP學習等都可能導致大量報文上送。
②定位和處理方法:
1、確認CPU高的任務模塊,如果SOCK/VPR/FECD/PES/TSD/SPMT等模塊CPU占用較高,則可以確認是單板報文上送過多導致。
2、按照前面所描述的方法查看單板的CP-CAR上送統(tǒng)計,連續(xù)查看CP-CAR~送計數(shù)確認是哪類報文上送多導致CPU高。
3、display attack-source-trace slot