楊遠航,張 鑫,石恒初,張榮奎,孔德志
(1.云南電力調度控制中心,云南昆明 650011;2.云南云電同方科技有限公司,云南 昆明 650200)
電網設備的運行維護工作是電力工業(yè)中的基礎環(huán)節(jié),正常電力運維的工作主要包括設備的日常巡視、設備的缺陷管理和檢修、設備臺賬的維護以及設備隱患管理[1]。運維工作需要處理的事務較多,繁瑣費時,為了提高工作效率,對電網設備臺賬輸入的方式進行創(chuàng)新使用,以往臺賬輸入多依賴于人工,電力設備臺賬輸入自動化的創(chuàng)新使用節(jié)省了大量人力。電力設備臺賬輸入的自動化主要通過電網設備臺賬標簽采集功能實現,通過標簽采集功能,自動獲取電網設備臺賬信息[2]。以往使用的電網設備臺賬標簽采集功能多數受到使用平臺的限制,存在兼容性差的問題,因此,采用OCR 技術,設計基于OCR 技術的電網設備臺賬標簽采集功能[3-5]。將該技術應用在電網設備臺賬標簽采集功能中,減少人力手動輸入的時間,大幅度提升工作效率,同時解決以往電網設備臺賬標簽采集功能存在的兼容性差的問題。
電網設備臺賬多數以文本圖像的形式存在,其中包含大量的文本信息,為電網設備制定合適大小的臺賬標簽,利用OCR 技術識別標簽,獲取其中的電網設備信息,通過采集功能采集到計算機中。
通常采用光學掃描儀使用OCR 技術識別圖像,分辨率是重要參數,描述了在空間上的精細程度[6]。獲得圖像后,對圖像進行預處理,圖像預處理的好壞將會直接影響OCR 技術的實際識別能力,預處理主要包括二值化、去噪、形變反變換等[7-8]。
經過二值化處理的圖像前后顯示如圖1 所示。
圖1 二值化處理前后文本圖像
其處理過程主要利用二值數學形態(tài)學,其基本運算包括膨脹、腐蝕[9]。在形態(tài)變換過程中,將結構元素設置為Q(r),對工作空間W中的每一點r,膨脹的定義為:
圖2 預處理后的目標圖像
從圖中可以明顯看出,與原始的目標圖像相比,經過預處理后的圖像更加清晰,空白處也得到了填補。
在完成圖像預處理操作后,得到二值圖像。使用OCR 技術識別圖像文本信息特征,OCR 識別文本信息關鍵在于字符分割和特征提取。利用光學儀器掃描目標圖像后[13],借助圖像的水平投影實現行切分,水平投影和垂直投影效果如圖3 所示。
圖3 文本圖像投影效果
投影的計算公式如下:
找到最后一條黑色像素點個數為0 的白色文本行,將其標記為Line(i++),作為行文本的上下分界線,依此找滿足條件的邊界線,完成文本圖像行切分。
字符切分需借助圖像的垂直投影實現,垂直投影的計算公式如式(5)所示。
掃描文本圖像像素矩陣,將最后一個不等于0的垂直線段記為C(i),將第一個等于0 的垂直線段記為C(j),位于C(i)和C(j)之間的字符就是切分的單一字符,繼續(xù)執(zhí)行掃描操作,確定所有字符的左右分界線,完成字符切分任務。
由于某些英文字符和中文字符是合體字,字符之間的間隔區(qū)分不明顯,在切分時,容易造成字符的錯誤切割[14]。因此對英文字符和中文字符分別采取不同的解決方案,避免出現誤判的情況。對于等寬字符,采用固定寬度的滑動窗口進行字符隔離;對于非等寬字符,模糊處理寬度值大于平均值的字符,重新切分下一個切分點的英文字符。
對于中文字符,根據垂直投影將文本切割成單個字符,再根據字符寬度分類,得到正確的字符寬度后進行二次分割[15]。中文字符分割流程如圖4 所示。
圖4 中文字符分割流程圖
通過上述過程將電網設備臺賬標簽文本圖像中的字符進行切分,達到提升文本圖像質量的目的,進而提取文本圖像中的字符結構特征。結構特征指的是字符本身具有的特點,用于標識出唯一漢字。
天葬師仍然沒有轉頭,直到顫巍巍地走出幾步之后,回答的聲音才終于響起:“天葬師也無權駁回任何一個族人提出的,關乎云浮興衰存亡的訴求!”
計算每個像素點的方向線索特征,根據組成漢字的基本元素以及其元素的反方向一共構成一個8維的方向矢量,如圖5 所示。
圖5 方向矢量示意圖
依據圖5 所示方向矢量圖,計算8 維矢量的和,最后得到一個128 維的矢量就是文本圖像字符方向像素矢量特征。
設計電網設備臺賬標簽采集功能,將其與服務器直接進行數據交互,使用OCR 相機對標簽進行拍攝[16],通過上述圖像預處理與特征提取過程,得到文本信息,將標簽信息整合并傳送至服務器中。
控制相機拍攝電網設備臺賬標簽,使用OCR 技術對相機拍攝到的圖像進行光學字符識別處理,將文本信息轉換為字符串,上傳至服務器并存儲在本地數據庫中。采集功能的實現主要依賴于通信接口電路,保證采集的信息安全合理地傳輸至數據庫中。
使用常用的RS-232 標準串口進行通信,由于RS-232 標準采用-15~-3 V 和+3~+15 V 電平范圍定義邏輯“1”和“0”,方便提高數據傳輸的抗干擾能力,由此設計RS-232 通信接口電路,如圖6 所示。
圖6 RS-232通信接口電路
通過設計的通信接口電路,使得經過OCR 技術處理并識別的電網設備臺賬標簽信息能夠傳輸至數據庫中,保證采集功能正常運行。至此,基于OCR技術的電網設備臺賬標簽采集功能設計完成。
一般情況下,電網設備臺賬標簽采集功能依賴于計算機系統(tǒng),針對以往的采集功能存在兼容性差的問題,電網設備臺賬標簽采集功能仿真測試基于Windows 系統(tǒng)實現,在計算機中使用數據模擬器生成隨機的數據流,使用基于不同技術的電網設備臺賬標簽采集功能采集數據,通過采集完成后的反饋結果,分析基于不同技術的電網設備臺賬標簽采集功能的兼容性。命令執(zhí)行界面如圖7 所示。
圖7 數據流隨機生成命令執(zhí)行界面
隨機選取的數據流相關屬性如表1 所示。
表1 測試數據屬性
為了保證功能測試的公平性,使用表中隨機生成的數據,測試基于不同技術的電網設備臺賬標簽采集功能。
使用基于RFID 技術的電網設備臺賬標簽采集方法獲得測試結果1,使用基于機器學習的采集功能獲得測試結果2,使用基于OCR 技術的電網設備臺賬標簽功能獲得測試結果3。具體的測試結果如圖8所示。
從圖8 顯示結果中可以看出,測試結果1 中的第3 組和第5 組出現請求未響應情況,第6 組和第9組測試出現請求超時的情況;測試結果2 中同樣第3組存在請求未響應的情況,第5 組和第10 組存在請求超時的情況;測試結果3 中測試結果正常,未出現異常情況。綜上所述,設計的基于OCR 技術的電網設備臺賬標簽采集功能比其他兩種更加完善,沒有出現異常情況,兼容性更好。
圖8 基于不同技術的采集功能測試結果
電網設備臺賬標簽采集功能的出現對電網設備的管理與巡檢有重要意義,通過采集功能大大節(jié)省了電網設備巡檢和管理所需的人力物力,提高了工作效率。文章通過設計基于OCR 技術的電網設備臺賬標簽采集功能,解決了以往采集功能中存在的問題,通過應用OCR 技術使得電網設備調賬標簽采集功能兼容性更好。