胡家明
(貴州高質(zhì)云檢信息科技有限公司,貴州 貴陽550000)
目前檢驗檢測在全球范圍內(nèi)已經(jīng)建立了完整的產(chǎn)業(yè)鏈,以美國、歐洲、日本為代表的發(fā)達國家基本上主導(dǎo)了全球范圍內(nèi)的檢測儀器設(shè)備與檢測服務(wù)認(rèn)證相關(guān)業(yè)務(wù),并在國際貿(mào)易中承擔(dān)著重要的第三方檢測服務(wù)角色。當(dāng)前我國由高速發(fā)展向高質(zhì)量發(fā)展過渡,在發(fā)展過程中檢驗檢測機構(gòu)作為標(biāo)尺的重要作用,但作為現(xiàn)階段的檢驗檢測行業(yè),處于發(fā)展的瓶頸期,如何擺脫傳統(tǒng)技術(shù)束縛,成為了當(dāng)下的熱點話題。本文設(shè)計采用大數(shù)據(jù)架構(gòu),結(jié)合互聯(lián)網(wǎng)、無線通信等技術(shù)將實驗儀器采集到的數(shù)據(jù)上傳至云平臺,保證了數(shù)據(jù)的準(zhǔn)確性、實時性和可靠性,大大提高了檢測機構(gòu)的辦公效率和公信力。
設(shè)計需要以檢測機構(gòu)中實驗室檢測數(shù)據(jù)作為數(shù)據(jù)源,將海量數(shù)據(jù)提供給運營商實現(xiàn)應(yīng)用系統(tǒng)功能開發(fā)。下面介紹實驗室檢測數(shù)據(jù)如何具體作為數(shù)據(jù)源提供給大數(shù)據(jù)平臺,實驗室儀器用于檢測分析送檢產(chǎn)品含量超標(biāo),將檢測的數(shù)據(jù)通過RS232 總線發(fā)送至PC 機上,PC 機應(yīng)用軟件將生成的PDF 文檔數(shù)據(jù)提取出特征數(shù)據(jù)通過無線傳輸方式發(fā)送至前置機,而前置機一方面將數(shù)據(jù)發(fā)送至阿里云OSS 作為數(shù)據(jù)備份存儲,另一方面將數(shù)據(jù)發(fā)送至大數(shù)據(jù)平臺提供數(shù)據(jù)分析、數(shù)據(jù)接口、數(shù)據(jù)查詢和數(shù)據(jù)交換等服務(wù),從而在應(yīng)用層實現(xiàn)在線認(rèn)定、在線檢測、在線報告等遠(yuǎn)程服務(wù)(如圖1)。
在以往中的大數(shù)據(jù)架構(gòu)中需要導(dǎo)入大量復(fù)雜數(shù)據(jù),再借助kappa 架構(gòu)或lambda 架構(gòu)對數(shù)據(jù)進行建模分析、提取出有價值的數(shù)據(jù),但對于檢驗檢測機構(gòu)這是不適用的,不同檢測機構(gòu)中的不同實驗室儀器生成的數(shù)據(jù)表格很難統(tǒng)一,存在很多差異,這對于在大數(shù)據(jù)平臺實現(xiàn)數(shù)據(jù)處理難度非常大,所以在檢驗檢測的大數(shù)據(jù)平臺搭建中數(shù)據(jù)處理在數(shù)據(jù)源就已經(jīng)完成。各種儀器生成的PDF 文檔數(shù)據(jù)在PC 端就實現(xiàn)數(shù)據(jù)引入、處理和分析,然后發(fā)送至前置機再轉(zhuǎn)入云端實現(xiàn)流處理和批處理,通過數(shù)據(jù)作為平臺業(yè)務(wù)支撐引入其他服務(wù)。信息化平臺搭建需要的主要有數(shù)據(jù)源、數(shù)據(jù)存儲、實時信息引入、批處理和流處理下面逐一介紹模塊。
圖1 總體框架圖
數(shù)據(jù)是整個大數(shù)據(jù)平臺架構(gòu)的基石,為信息化平臺提供各種服務(wù)支持,本次設(shè)計檢驗檢測信息化平臺的搭建使用的數(shù)據(jù)源以實驗室儀器檢測出的數(shù)據(jù),數(shù)據(jù)源主要包括:報告時間、試樣ID、稀釋倍數(shù)、檢測含量以及相關(guān)性等。
檢驗檢測機構(gòu)每天處理海量數(shù)據(jù),將數(shù)據(jù)備份存儲,建立Web 服務(wù)器日志文件保證數(shù)據(jù)的可靠性、安全性便于后續(xù)查詢,設(shè)計將實驗室PC 機生成的PDF 文檔數(shù)據(jù)發(fā)送至前置機再轉(zhuǎn)發(fā)至阿里云OSS 服務(wù)器實現(xiàn)數(shù)據(jù)存儲隨時查看上傳數(shù)據(jù)是否失真。
實時性是大數(shù)據(jù)信息化平臺的一個重要標(biāo)準(zhǔn),將數(shù)據(jù)放入緩存區(qū),確保在規(guī)定的時間內(nèi)發(fā)送。檢驗檢測機構(gòu)每天都會生成大量的數(shù)據(jù),利用Python 腳本實現(xiàn)PDF 文檔數(shù)據(jù)特征提取發(fā)送至前置機,通過前置機發(fā)送至數(shù)據(jù)分析平臺在提升數(shù)據(jù)的安全性上,保證了數(shù)據(jù)的實時性。
由于實驗室檢測數(shù)據(jù)集是海量的,因此大數(shù)據(jù)信息化平臺的解決方案通常必須使用長時間運行的批處理作業(yè)來處理數(shù)據(jù)文件。本次設(shè)計改進處理方式能夠保證在上傳文件不丟失的基礎(chǔ)上實現(xiàn)實時性,提升批處理文件效率。
圖2 大數(shù)據(jù)信息化平臺結(jié)構(gòu)圖
實驗室儀器在PC 機上生成的PDF 文檔數(shù)據(jù)通過解析形成Json 格式的數(shù)據(jù)發(fā)送至前置機,再由前置機通過Http 協(xié)議的POST 請求發(fā)送實現(xiàn)數(shù)據(jù)的實時處理。
數(shù)據(jù)傳輸方式分為有線跟無線方式兩種,在實驗室采用無線通信方式。無線通信一方面減少實驗室網(wǎng)絡(luò)布線,保證原來實驗室儀器布局。另一方面降低了成本,每臺PC 機都連接上網(wǎng)線則需要在每一個實驗室安裝6 口或8 口網(wǎng)口交換機同時需要將網(wǎng)線鋪地或鋪過墻的方式需要大量的網(wǎng)線布置。本次設(shè)計采用無線通信方式實現(xiàn)數(shù)據(jù)發(fā)送,每個檢測機構(gòu)通過配備的前置機與云端建立數(shù)據(jù)通信。
圖3 實驗室數(shù)據(jù)發(fā)送方式
WiFi 網(wǎng)絡(luò)通信:
實驗室PC 機與機房中的前置機通過無線傳輸方式實現(xiàn)數(shù)據(jù)通信,設(shè)計使用最常用且性價比較高的WiFi 傳輸方式。在傳輸方式上又分為兩種模式:AP、STA、AP 混合STA。AP 模式為無線接入點,以一個無線路由器作為網(wǎng)絡(luò)的中心,接入AP 模式下的設(shè)備能夠相互訪問連接,STA 模式由一個AP 和許多STA 組成,AP 作為無線網(wǎng)絡(luò)的中心完成STA 信息的轉(zhuǎn)發(fā),STA 設(shè)置Client 實現(xiàn)com數(shù)據(jù)與WiFi 網(wǎng)絡(luò)數(shù)據(jù)的相互交換。本次設(shè)計采用STA 模式實現(xiàn)各個實驗室PC 機相互通信,通過在實驗室放置WiFi 路由器覆蓋整個檢測機構(gòu)設(shè)置實驗室PC 機使之都在同一IPV4 頻段下,這樣做的目的是與機房中的前置機實現(xiàn)數(shù)據(jù)通信。
圖4 WiFi 網(wǎng)絡(luò)
傳統(tǒng)實驗室儀器采集的數(shù)據(jù)發(fā)送給PC 機生成PDF文檔數(shù)據(jù),然后再根據(jù)手動方式輸入特征數(shù)據(jù)打印產(chǎn)品檢測報告,這樣顯然不能滿足現(xiàn)代化處理方式。通過使用OCR(Optical Character Recognition,光學(xué)字符識別)字符識別的手段翻譯成計算機文字。對于OCR 識別一般采用的識別軟件將圖片中的文字轉(zhuǎn)為文本格式。本次設(shè)計利用python 腳本語言使用pdfplumber 識別框架,該框架能夠?qū)ξ淖?、表格、?shù)據(jù)特征提取。同時使用pyQt5 設(shè)計界面,便于實驗室人員操作。
PDF 文件主要有四個部分:文件頭,對象集合,交叉引用表,文件尾。在解析的過程中先解析文件尾,得到交叉應(yīng)用表以及根對象編號,將這些再逐層解析文檔內(nèi)容。解析中需對文檔內(nèi)容對象進行分析,如果是直接對象就直接存儲實際內(nèi)容,間接對象通過指針尋址。
實驗室儀器采集數(shù)據(jù)發(fā)送PC 機會生成一個PDF 文檔,在PC 機上生成的PDF 文檔數(shù)據(jù)直接發(fā)送至大數(shù)據(jù)信息化平臺處理對云服務(wù)器和運行算法都很難實現(xiàn),設(shè)計采用在本地完成數(shù)據(jù)采集、處理和發(fā)送減輕云服務(wù)器的運算負(fù)擔(dān)。通過python 腳本代碼使用pdfplumber 庫實現(xiàn)PDF 文檔轉(zhuǎn)為文本格式數(shù)據(jù),再使用正則方法提取不同的數(shù)據(jù)內(nèi)容。
對于實驗室人員需要使用人機操作界面完成一鍵操作。實現(xiàn)的需求有當(dāng)點擊界面發(fā)送按鈕自動將指定路徑下的PDF 文檔數(shù)據(jù)完成解析,將解析過后的數(shù)據(jù)發(fā)送至另一個路徑完成保存,然后將解析后的數(shù)據(jù)進行特征數(shù)據(jù)提取詳情顯示,一般的顯示內(nèi)容有進樣名稱,采集儀器、采集方法等,與此同時將特征數(shù)據(jù)與對應(yīng)的文檔內(nèi)容發(fā)送至前置機。設(shè)計加入容錯機制,使用線程方法不斷讀取路徑下文檔設(shè)計界面設(shè)置三個指示燈,默認(rèn)為全黃色。當(dāng)運行時,第一個指示燈綠色表示PDF 文檔解析成功,第二個指示燈變?yōu)榫G色表示發(fā)送前置機成功,第三個指示燈變綠色表示數(shù)據(jù)發(fā)送云端成功。
圖5 PDF 基本組成
圖6 人機操作界面
基于pyQt5 設(shè)計的人機操作界面在上實驗室PC 機運行,操作步驟第一步將數(shù)據(jù)存儲在指定的文件夾路徑且名字不可設(shè)置與之前相同文件名,第二步雙擊生成好的exe 應(yīng)用程序,第三步點擊開始解析。完成以上操作運行過程會根據(jù)指示燈顯示,指示燈全部為綠色表示成功入庫,同時在詳情中顯示提取PDF 文檔的特征數(shù)據(jù)(如圖7)。
搭建檢驗檢測信息化平臺依托大數(shù)據(jù)實現(xiàn)數(shù)據(jù)可視化,平臺上設(shè)計了多種多樣的功能幫助檢驗檢測人員簡化送檢流程提高工作效率,主要功能有日志管理、緩存監(jiān)控、任務(wù)軌跡、流程管理、表單設(shè)計、表單管理等功能。下面對這些功能進行逐一介紹:
圖7 界面運行結(jié)果
(1)日志管理功能:對平臺采集過的數(shù)據(jù)進行云存儲,做到檢驗檢測進行的每一步都有跡可循、有據(jù)可依,存儲方式安全,數(shù)據(jù)不會遺失。
(2)緩存監(jiān)控功能:對平臺采集的數(shù)據(jù)和實驗室環(huán)境進行實時監(jiān)控,如果采集的數(shù)據(jù)或者是實驗室環(huán)境出現(xiàn)問題可以第一時間發(fā)現(xiàn),極大的提高了采集數(shù)據(jù)的高效性和實驗室的安全性。
(3)任務(wù)軌跡功能:對已完成和正在進行的項目進行軌跡追蹤,方便工作人員通過數(shù)據(jù)可視化直觀的看到項目的進行情況。
(4)流程管理功能:對不同的檢測任務(wù)流程進行監(jiān)控,可以實時的監(jiān)控到不同任務(wù)的工作情況以及工作進度并且可以對正在進行項目流程進行調(diào)整,方便檢測人員管理項目。
(5)表單設(shè)計功能:根據(jù)需要,可以在線對采集的數(shù)據(jù)在線生成合適的表單,編輯方式靈活多變,可以滿足多種數(shù)據(jù)格式要求。
(6)表單管理功能:對已生成的表單進行大批量管理,可以對已有的表單進行刪除、提交和修改。
實現(xiàn)檢驗檢測機構(gòu)資源整合,建立在線送檢,實現(xiàn)傳統(tǒng)檢測機構(gòu)與互聯(lián)網(wǎng)結(jié)合,提高檢驗檢測機構(gòu)的信息化水平和檢測服務(wù)能力,檢測過程信息化、檢測儀器物聯(lián)網(wǎng)化、檢測結(jié)果報告數(shù)字化,確保數(shù)據(jù)檢測的各環(huán)節(jié)全程可控制。促進大數(shù)據(jù)行業(yè)發(fā)展。檢驗檢測認(rèn)證公共服務(wù)平臺的建設(shè)與大數(shù)據(jù)的發(fā)展緊密相連,平臺收集各個渠道的檢測業(yè)務(wù)數(shù)據(jù),經(jīng)過大數(shù)據(jù)分析,精準(zhǔn)的為政府工作提供有效的決策,也更好的規(guī)范檢測業(yè)務(wù)行業(yè)。促進高新區(qū)業(yè)務(wù)發(fā)展。大數(shù)據(jù)信息化檢驗檢測、認(rèn)證資源將通過平臺實現(xiàn)共享,為打造以省高新示范區(qū)企業(yè)產(chǎn)品研發(fā)、生產(chǎn)和使用提供檢驗檢測與認(rèn)證的“一站式”服務(wù)。