韓美林 程峻杰 楊陽
摘要:生物相分析是污水廠運行管理的重要手段,但目前以人工分析為主,原因在于圖像背景多變、目標物類型較多,不同階段、不同環(huán)境下的生物特征多變[1]。本文借助圖像處理的知識對活性污泥中生物相進行識別,通過PCA算法降低生物相圖像特征的維度,再利用支持向量機(SVM)對降維后的生物相圖像進行分類識別,最后使用MATLAB軟件對已知生物相數據庫進行仿真。數據結果表明,該方法能夠較為準確的識別出活性污泥中的生物相。
Abstract: Biological phase analysis is an important means of operation and management of wastewater treatment plants. However, it is mainly based on manual analysis. The reason is that the background of the image is variable and the types of targets are many. The biological characteristics in different stages and environments are variable. In this paper, the bio-phase of activated sludge is identified by the knowledge of image processing. The dimension of bio-image features is reduced by PCA algorithm. Then, the support vector machine (SVM) is used to classify and identify the reduced-phase bio-phase images. Finally, MATLAB is used to simulate a known bio-phase database. The data show that the method can accurately identify the biological phase in the activated sludge.
關鍵詞:污水處理;生物相識別;主成分分析
Key words: sewage treatment;biological phase identification;principal component analysis
中圖分類號:X703? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1006-4311(2019)34-0184-02
1? 緒論
在傳統(tǒng)的污水處理廠運行管理中,生物相分析是污水處理廠運行管理的重要手段,但傳統(tǒng)的生物相分析依賴于人的經驗,對從業(yè)人員的專業(yè)知識要求高,這顯然無法在我國大量小微污水處理廠(站)得到推廣應用。圖像處理技術的飛速發(fā)展為解決上述問題提供了新的思路,然而目前生物相自動分析并不成熟,主要問題在于:鏡檢圖像背景多變、目標物類型較多;現場條件較差,獲得的圖像質量太差?;谝陨戏治觯疚慕柚鷪D像處理的知識對活性污泥中生物相進行識別,從而為污水廠采用智能化手段進行管理提供理論與技術基礎[2]。
2? 主成分分析算法原理
主成分分析算法主要作用是用于在多變量統(tǒng)計分析中對數據進行分析,目標是盡量用最少數量的維度,盡可能精確地描述數據[3]。PCA的本質實際上是K-L變換,K-L變換將會使得向量的值發(fā)生變化,但是所存在的向量數目是不會改變的,即使數值發(fā)生改變也會變成小數值,所以能夠一邊減少向量的維數一邊對向量的主要特性進行保留[4],因此經常被應用于特征的提取。
3? 生物相識別過程
3.1 構建特征空間
經過基本簡單的預處理后,將庫中每個對象的前五張圖像載入作為訓練集,后五張載入作為測試集。將生物相圖像設置為矩陣得到訓練樣本集[5]。接著對訓練樣本的均值進行求取,為了將差異性表現出來,在減掉均值之后,就得到了N幅差異圖像。然后在去掉均值。再對協(xié)方差矩陣進行求取和特征分解,但是考慮到矩陣很大的矩陣,所以我們需要先轉換然后對其進行分解。最后對其進行歸一化處理,得到歸一化特征向量,從而達到了減少本實驗中高特征維數的目的[7]。
3.2 特征提取
特征提取就是提取出生物相圖像中差異性最大的特征,接下來進行有序識別工作。為了得到訓練集坐標系數,需要將訓練集生物相圖像和測試集圖像在特征子空間進行投影,從而得到的這組系數就可以作為生物相識別的依據[8]。
3.3 SVM分類算法介紹
3.3.1 SVM算法原理簡介
要完成生物相的識別,在PCA算法完成特征提取之后還需要結合支持向量機法對特征提取后的生物相用進行識別。支持向量機(support vector machine)是通過將結構化的風險控制在最小限度來改善機器學習的泛化能力,在統(tǒng)計的樣本量很少的時候將經驗風險和置信范圍抑制到最小限度的分類算法[9]。
3.3.2 SVM算法重要參數
C與gamma在SVM模型中是兩個相對來說比較重要的參數。其中C表示的是懲罰系數,通俗的來講就是對誤差的容忍程度。C太大或太小,都會導致泛化能力變差。gamma是一個參數,在選擇作為核心的RBF函數后與函數一同出現。它在將數據分配到一個新的特征空間之后,隱含地確定了數據的分配,影響到訓練與預測的速度[10]。
3.3.3 SVM訓練函數和測試函數
選取兩組圖片來利用SVM算法進行訓練測試處理,其中一組圖片作為訓練數據來使用,另外一組圖片作為測試數據。除了選取訓練測試數據之外,還需要做的就是利用MATLAB軟件提供的svmtrain函數和svmclassify函數編寫訓練函數與測試函數。
4? 生物相識別系統(tǒng)結果與分析
本文是利用MATLAB R2017a軟件設計的生物相識別系統(tǒng),主要實現的功能是在MATLAB GUI界面中點擊“讀取庫”時,系統(tǒng)會得到降維后的主成分特征圖;點擊“打開”時,系統(tǒng)會輸入一張生物相圖片;點擊“識別”時,系統(tǒng)會準確識別出訓練集中的圖片。
主成分分析法可以起到降低維度的作用,可以去除圖像像素之間的相關性,可以把多指標合成為幾個相互無關的主成分,每個主成分都反映了原始變量的大部分信息,并且所含的信息互不重復。對訓練集中的全體樣本進行規(guī)格化,對訓練集中的生物相圖像利用SVM進行訓練,通過一對一投票決定其最終類別歸屬來實現生物相的識別。通過利用MATLAB軟件仿真得到如圖1、圖2所示實驗結果。
本文利用圖像處理技術生物相的特征,通過系統(tǒng)設計實現了生物相的識別。為了本系統(tǒng)的可行性,采集了800張的生物相圖像樣本,分為8組,每組100張圖像。實驗結果如表1所示。
從表1可以看出,整個實驗的檢測時間為59秒,單幅生物相檢測識別時間為59/800=0.074s,因此該程序的檢測識別速度較快。由表統(tǒng)計,檢測結果的誤判數為71,檢測識別系統(tǒng)的準確率(800-71)/800×100%=91.125%。
5? 結論
在實驗中,利用PCA算法將圖像樣本的特征向量從10304維降到20維,在之后運用SVM算法進行分類的時候,使得數據簡化,極大的減少了系統(tǒng)運行時間。同時,對數據進行降維之后,識別率并沒有隨著維數的降低而降低,而是依舊保持著非常高的識別率,足以證明了經過PCA處理后圖像特征向量具有舍棄區(qū)分能力弱,相對一致的特征。最后使用MATLAB軟件對已知生物相數據庫進行仿真。仿真結果表明,該方法能夠準確識別出活性污泥中的生物相,從而為污水廠采用智能化手段進行管理提供理論與技術基礎。
參考文獻:
[1]任勇.活性污泥法在污水處理中常見的問題探討[J].建材與裝飾,2019(15):286-287.
[2]劉惠娜.城市污水SBR處理生物相種群與處理效率相關性研究[D].廣東工業(yè)大學,2005.
[3]宋金晶.基于子空間幾何特征分析的人臉識別方法研究[D].同濟大學,2006.
[4]李琳琳.一種改進的基于主成分分析的人臉識別技術[J].電信快報,2016(7):39-42.
[5]劉衛(wèi)凱,郝雅倩,鄭晗,齊立萍.人臉識別綜述[J].信息記錄材料,2018,19(07):13-14.
[6]李宜清,程武山.融合PCA的支持向量機人臉檢測研究[J].計算機測量與控制,2019,27(03):49-54.
[7]付康,陳中舉,杜友福.基于PCA和SVM的人臉識別研究[J].電腦知識與技術,2019,15(07):209-211.
[8]楊博雄,楊雨綺.利用PCA進行深度學習圖像特征提取后的降維研究[J].計算機系統(tǒng)應用,2019,28(01):279-283.
[9]張持健,劉雪,張賀,張燕習.基于PCA和非線性SVC的小數據人臉識別[J].無線電通信技術,2019,45(01):73-77.
[10]劉惠娜.城市污水SBR處理生物相種群與處理效率相關性研究[D].廣東工業(yè)大學,2005.