王家俊,楊家紅,邵學(xué)廣
(1.云南中煙工業(yè)有限責(zé)任公司,云南 昆明 650221;2.湖南師范大學(xué) 信息科學(xué)與工程學(xué)院,湖南 長(zhǎng)沙 410081;3.南開大學(xué) 化學(xué)學(xué)院,天津 300071)
近紅外譜區(qū)早在1800年由英國(guó)物理學(xué)家、天文學(xué)家Herschel觀察發(fā)現(xiàn)[1],但1938年后人們才開始近紅外光譜的分析探索工作[2],首次實(shí)際應(yīng)用為1960年Norris等[3]通過(guò)濾光片近紅外結(jié)合多元線性回歸(MLR)方法測(cè)定農(nóng)產(chǎn)品中水分、蛋白質(zhì)等含量,并提出了光譜的Norris導(dǎo)數(shù)濾波法。20世紀(jì)70年代中期,光柵型近紅外光譜儀開始應(yīng)用[4],但由于近紅外光譜吸收譜帶寬、重疊嚴(yán)重、吸收信號(hào)弱、靈敏度低、抗干擾性差等使人們淡漠了其應(yīng)用。自20世紀(jì)70年代初,Wold等[5]提出將化學(xué)計(jì)量學(xué)作為一門學(xué)科,此后,隨著計(jì)算機(jī)技術(shù)、化學(xué)計(jì)量學(xué)及儀器分析技術(shù)的發(fā)展與融合,人們重新認(rèn)識(shí)了近紅外光譜的價(jià)值,近紅外光譜分析技術(shù)、化學(xué)計(jì)量學(xué)方法開始在農(nóng)業(yè)、食品、飲料、石油、材料、制藥和醫(yī)學(xué)等領(lǐng)域得到了廣泛研究與應(yīng)用[6-10]。基于近紅外光譜分析技術(shù)的優(yōu)勢(shì),加之計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的興起,丹麥較早地實(shí)踐了“近紅外+網(wǎng)絡(luò)技術(shù)”對(duì)谷物的品質(zhì)分析與質(zhì)量管理。此后,法國(guó)、德國(guó)和瑞典等國(guó)家也相繼構(gòu)建了谷物品質(zhì)近紅外光譜分析網(wǎng)絡(luò)系統(tǒng),并成立了相關(guān)實(shí)驗(yàn)室、網(wǎng)管中心等一些技術(shù)運(yùn)維服務(wù)機(jī)構(gòu),入網(wǎng)儀器主要為FOSS、Perten的近紅外光譜儀。1998年,Davies[11]稱近紅外光譜技術(shù)將成為光譜分析中“從沉睡者變?yōu)榱藛⒚餍恰钡募夹g(shù),McClure[12]在評(píng)述204年(1800~2003年)近紅外光譜分析技術(shù)的歷史發(fā)展中認(rèn)為,近紅外光譜技術(shù)已經(jīng)成熟,已成為解決眾多領(lǐng)域分析問(wèn)題的引人注目的工具。
雖然我國(guó)近紅外光譜分析技術(shù)的研究起步較晚,但發(fā)展十分迅速,從2006年北京召開的全國(guó)第一屆近紅外光譜學(xué)術(shù)會(huì)議至2018年在昆明召開的全國(guó)第七屆近紅外光譜學(xué)術(shù)會(huì)議暨亞洲第六屆近紅外光譜學(xué)術(shù)會(huì)議可以看出,無(wú)論是近紅外光譜儀器研制、化學(xué)計(jì)量學(xué)理論研究及其軟件開發(fā)、近紅外光譜分析網(wǎng)絡(luò)化研究,還是近紅外光譜分析技術(shù)在農(nóng)業(yè)、石化、糧食、食品、煙草、紡織和制藥等領(lǐng)域的應(yīng)用,均獲得了長(zhǎng)足的發(fā)展[13-16]。國(guó)內(nèi)近紅外光譜分析網(wǎng)絡(luò)化研究始于2001年中國(guó)農(nóng)業(yè)大學(xué)嚴(yán)衍祿團(tuán)隊(duì)率先研發(fā)的“中國(guó)農(nóng)業(yè)近紅外光譜分析技術(shù)及網(wǎng)絡(luò)系統(tǒng)”;2008年,國(guó)家農(nóng)業(yè)信息化工程研究中心聯(lián)合有關(guān)高等院校及科研院所,構(gòu)建了涵蓋我國(guó)糧食主要產(chǎn)區(qū)的谷物近紅外光譜分析網(wǎng)絡(luò)系統(tǒng),入網(wǎng)儀器均為FOSS Infratec1241近紅外光譜儀,同時(shí)設(shè)立參比實(shí)驗(yàn)室、網(wǎng)管中心等運(yùn)維部門,該系統(tǒng)結(jié)合GPS/GIS(全球衛(wèi)生定位系統(tǒng)/地理信息系統(tǒng))技術(shù)對(duì)我國(guó)主要產(chǎn)區(qū)的小麥品質(zhì)分布進(jìn)行監(jiān)測(cè),并建立了小麥品種鑒別、產(chǎn)地識(shí)別的模型,應(yīng)用于指導(dǎo)谷物收購(gòu)[14],該系統(tǒng)的建立為“近紅外光譜分析+互聯(lián)網(wǎng)”模式的拓展應(yīng)用起到了積極的示范作用。
綜上所述,近紅外分析技術(shù)離不開相關(guān)新技術(shù)、新方法的融合應(yīng)用。云技術(shù)、網(wǎng)絡(luò)技術(shù)和高速通訊技術(shù)的發(fā)展,為近紅外光譜分析技術(shù)網(wǎng)絡(luò)化搭建嶄新的平臺(tái)提供了可能。
在國(guó)內(nèi)煙草行業(yè),近紅外光譜法的應(yīng)用研究始于20世紀(jì)90年代中后期,研究者應(yīng)用近紅外光譜對(duì)煙草中水分和一些主要化學(xué)成分進(jìn)行了定量分析[17-19]。云南紅河卷煙廠于2002年建立了生產(chǎn)現(xiàn)場(chǎng)近紅外光譜實(shí)驗(yàn)室,將其應(yīng)用于烤煙收購(gòu)的現(xiàn)場(chǎng)質(zhì)量控制、后續(xù)煙葉倉(cāng)儲(chǔ)醇化質(zhì)量跟蹤分析,以及輔助材料(如卷煙紙)質(zhì)量控制和卷煙生產(chǎn)過(guò)程質(zhì)量監(jiān)測(cè)等方面[20-26]。近紅外光譜分析技術(shù)已成為重要的煙草質(zhì)檢質(zhì)控手段之一。近幾年,隨著煙草企業(yè)的聯(lián)合重組與整合,對(duì)煙葉原料品類多樣化提出了更高要求,為解決煙葉原料質(zhì)量信息的快速交換與共享,掌控不同產(chǎn)地?zé)熑~原料的質(zhì)量狀況,實(shí)現(xiàn)原料的統(tǒng)籌優(yōu)化與合理應(yīng)用提供技術(shù)支持,2015年云南中煙以“互聯(lián)網(wǎng)+近紅外光譜分析”的基本模式構(gòu)建了以原料研究為導(dǎo)向的煙葉原料近紅外分析網(wǎng)絡(luò)系統(tǒng),該系統(tǒng)主要由以下3個(gè)部分構(gòu)成:
(1)近紅外光譜分析網(wǎng)絡(luò)實(shí)驗(yàn)室:每一個(gè)網(wǎng)點(diǎn)的近紅外光譜分析網(wǎng)絡(luò)實(shí)驗(yàn)室是整個(gè)網(wǎng)絡(luò)系統(tǒng)的數(shù)據(jù)“發(fā)源地”,依據(jù)相應(yīng)的實(shí)驗(yàn)室規(guī)范(包含近紅外校正模型建立、驗(yàn)證、應(yīng)用和維護(hù)的技術(shù)標(biāo)準(zhǔn)等)運(yùn)行,保障近紅外光譜分析數(shù)據(jù)的可靠性和準(zhǔn)確性。實(shí)驗(yàn)室是網(wǎng)絡(luò)系統(tǒng)的“感知層”,其主要功能是實(shí)現(xiàn)各廠(復(fù)烤公司)的初烤烤煙、復(fù)烤片煙和庫(kù)存片煙等煙葉原料主要化學(xué)成分指標(biāo)的快速檢測(cè),并上傳數(shù)據(jù)。
(2)網(wǎng)絡(luò)平臺(tái):基于WebService服務(wù)架構(gòu),采用Hadoop生態(tài)圈/Oracle數(shù)據(jù)庫(kù)等技術(shù),集成各網(wǎng)點(diǎn)近紅外光譜實(shí)驗(yàn)室檢測(cè)的數(shù)據(jù)信息及其相應(yīng)的質(zhì)量屬性數(shù)據(jù)。該平臺(tái)是系統(tǒng)的“網(wǎng)絡(luò)層”,其主要功能是采用Web模式,實(shí)現(xiàn)各網(wǎng)點(diǎn)的數(shù)據(jù)上傳下載,以及用戶查詢和在線統(tǒng)計(jì)分析等。
(3)數(shù)據(jù)挖掘分析技術(shù)子系統(tǒng):針對(duì)煙草近紅外光譜分析數(shù)據(jù)的特點(diǎn),該子系統(tǒng)集成了化學(xué)計(jì)量學(xué)的光譜處理方法、多元定量分析方法和模式識(shí)別定性分析方法,其主要功能是對(duì)煙葉原料質(zhì)量屬性、化學(xué)成分?jǐn)?shù)據(jù)進(jìn)行深入挖掘分析,探索煙葉原料的品質(zhì)類別、質(zhì)量變化趨勢(shì)和規(guī)律。該子系統(tǒng)主要面向高級(jí)用戶。
該系統(tǒng)5年來(lái),基于網(wǎng)絡(luò)平臺(tái),各網(wǎng)點(diǎn)實(shí)驗(yàn)室的規(guī)范化運(yùn)行,實(shí)現(xiàn)了原料檢測(cè)數(shù)據(jù)的交換和共享,為評(píng)估烤煙收購(gòu)質(zhì)量,合理組配復(fù)烤模塊單元,提供了即時(shí)的數(shù)據(jù)支持;在產(chǎn)品開發(fā)和維護(hù)方面,針對(duì)性使用煙葉原料,研發(fā)新產(chǎn)品配方、優(yōu)化配伍和維護(hù)產(chǎn)品質(zhì)量穩(wěn)定發(fā)揮了積極的輔助作用,系統(tǒng)功能基本達(dá)到了設(shè)計(jì)預(yù)期。然而,為進(jìn)一步探索分析煙葉原料品質(zhì)類別、配方模塊(單元)相似性、質(zhì)量變化趨勢(shì)和規(guī)律,在綜合利用近紅外光譜數(shù)據(jù)、理化性質(zhì)數(shù)據(jù)和一些與質(zhì)量相關(guān)的半結(jié)構(gòu)化非結(jié)構(gòu)化數(shù)據(jù)時(shí),由于集成的常規(guī)性質(zhì)數(shù)據(jù)維度有限,滿足不了質(zhì)量表征的需求,加之,在網(wǎng)絡(luò)平臺(tái)上面對(duì)大量的數(shù)據(jù)處理分析,傳統(tǒng)的化學(xué)計(jì)量學(xué)定性定量建模計(jì)算模式難以適應(yīng),制約了多變量數(shù)據(jù)(如光譜)的深入挖掘和挖掘效率。
圖1 MSPC與SPC的比較Fig.1 Comparison of MSPC and SPC
2.2.1 近紅外光譜儀的差異與光譜標(biāo)準(zhǔn)化煙草可視為一種多成分復(fù)雜化學(xué)體系的天然作物,迄今為止,從煙草中鑒定出來(lái)的化學(xué)成分多達(dá)5 500余種。煙草質(zhì)量與這些化學(xué)成分的相關(guān)性尚未研究清楚,通常采用的常規(guī)化學(xué)成分指標(biāo)(如煙堿、總氮、總糖、還原糖、鉀、氯、灰分和pH值等)因其成分指標(biāo)有限,在評(píng)估煙草整體質(zhì)量特征時(shí)存在不足,普遍認(rèn)為,煙草在燃吸時(shí)的整體質(zhì)量特征是煙草中這些復(fù)雜成分相互協(xié)同作用的結(jié)果。在近紅外光譜定量分析中,煙草近紅外光譜包含大量潛在的物質(zhì)組成信息尚未充分利用,不同質(zhì)量特征的煙草具有自身的特征近紅外光譜,應(yīng)用適當(dāng)?shù)幕瘜W(xué)計(jì)量學(xué)模式識(shí)別方法,如PLS-DA(偏最小二乘判別分析法)、SIMCA(簇類獨(dú)立軟模式分類法)等結(jié)合近紅外光譜挖掘煙草的整體質(zhì)量特征歸屬,對(duì)尋求質(zhì)量特征相似或相近的替代原料,保障規(guī)?;a(chǎn)品制造穩(wěn)定的原料供給有著不可或缺的輔助作用。再如,通過(guò)近紅外光譜建立多變量統(tǒng)計(jì)過(guò)程控制(MSPC)類模型,用于監(jiān)測(cè)成品煙絲或中間配方單元的過(guò)程質(zhì)量的穩(wěn)定性,比單變量(如水分、溫度、填充值等)統(tǒng)計(jì)過(guò)程控制(SPC)具有顯著優(yōu)勢(shì),如圖1中樣品1和3的穩(wěn)定性異常情況,在變量1和變量2的SPC范圍內(nèi)屬正常,但通過(guò)MSPC就可被監(jiān)測(cè)出來(lái)。
倘若只需測(cè)定性質(zhì)數(shù)據(jù)入網(wǎng),不管是何種類型光譜儀,參考相關(guān)近紅外多元校正定量分析技術(shù)標(biāo)準(zhǔn),只要建立有效的校正模型,保證近紅外測(cè)定的性質(zhì)數(shù)據(jù)與參考方法測(cè)定的數(shù)據(jù)無(wú)顯著差異或滿足用戶預(yù)期即可。但若想進(jìn)一步挖掘近紅外光譜中的潛在信息(如整體性、模糊性表征不同產(chǎn)地之間的烤煙質(zhì)量特征歸屬),光譜數(shù)據(jù)采集的“標(biāo)準(zhǔn)化”就特別重要。這就要求網(wǎng)絡(luò)化環(huán)境中的近紅外光譜儀必須具有優(yōu)良的光學(xué)特性,儀器之間的差異最小,保證對(duì)不同產(chǎn)區(qū)網(wǎng)點(diǎn)的近紅外光譜儀測(cè)量的光譜數(shù)據(jù)進(jìn)行分析時(shí),儀器的差異不會(huì)造成明顯影響。但事實(shí)上,即使是同一廠家同一型號(hào)同一個(gè)批次生產(chǎn)的光譜儀也很難實(shí)現(xiàn)這一目標(biāo)。近紅外光譜儀之間的差異是進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)共享、挖掘光譜數(shù)據(jù)信息面臨的問(wèn)題之一。降低或消除不同臺(tái)(套)儀器測(cè)量同一組樣品時(shí)造成的光譜差異,可通過(guò)兩種途徑來(lái)解決,一是“軟拷貝”,即借鑒模型轉(zhuǎn)移的化學(xué)計(jì)量學(xué)方法,根據(jù)兩臺(tái)儀器測(cè)量的光譜之間的差異,建立一個(gè)光譜的數(shù)學(xué)關(guān)系,然后通過(guò)這個(gè)數(shù)學(xué)關(guān)系校正光譜,使兩臺(tái)儀器測(cè)量的光譜盡量相似;二是 “硬拷貝”,即通過(guò)儀器廠商提升儀器制造水平,降低儀器之間的差異,特別是不同批次生產(chǎn)的儀器之間的差異,使其測(cè)量的光譜盡量相似,差異盡量最小,不會(huì)對(duì)后續(xù)直接拷貝應(yīng)用光譜數(shù)據(jù)造成明顯的影響。作為網(wǎng)絡(luò)用戶來(lái)說(shuō),后者的解決方案尤為理想。例如,對(duì)置于不同生態(tài)產(chǎn)區(qū)的近紅外檢測(cè)網(wǎng)點(diǎn),如云南地區(qū)生態(tài)多樣、氣候立體,使用紅河產(chǎn)區(qū)或昭通產(chǎn)區(qū)的烤煙樣品建立校正模型,相互不適應(yīng)。這是因?yàn)閮僧a(chǎn)地樣品的近紅外光譜在主成分分析(PCA)的主成分空間中存在異常的聚類,相互轉(zhuǎn)移模型,必須添加當(dāng)?shù)氐拇硇詷悠?,刪除不必要的異常聚類的異地樣品,才能保證模型的適應(yīng)性,若要兼顧對(duì)產(chǎn)地間烤煙的光譜進(jìn)行定性分析,判斷質(zhì)量的相似性,“硬拷貝”實(shí)現(xiàn)光譜數(shù)據(jù)的一致性比“軟拷貝”有優(yōu)勢(shì),且近紅外檢測(cè)網(wǎng)點(diǎn)越多,優(yōu)勢(shì)越明顯。但“硬拷貝”需儀器生產(chǎn)制造中執(zhí)行嚴(yán)格統(tǒng)一的標(biāo)準(zhǔn),在實(shí)際執(zhí)行中存在一定困難?!败浛截悺笔轻槍?duì)儀器間的差異建立光譜的校正模型,執(zhí)行起來(lái)相對(duì)較容易,這是因?yàn)閷?shí)現(xiàn)“軟拷貝”的核心是根據(jù)兩臺(tái)儀器光譜之間的差異建立一個(gè)光譜的數(shù)學(xué)關(guān)系,即校正模型(稱為轉(zhuǎn)移模型)使兩臺(tái)儀器的光譜盡量相似。目前模型轉(zhuǎn)移的化學(xué)計(jì)量學(xué)方法已比較成熟,如PDS(分段直接標(biāo)準(zhǔn)化)、SST(光譜空間轉(zhuǎn)化)以及基于雙模型的方法[27-29]等已基本能滿足實(shí)際應(yīng)用的需要。當(dāng)然,“軟拷貝”需建立任意兩臺(tái)儀器間的轉(zhuǎn)移模型,當(dāng)網(wǎng)絡(luò)系統(tǒng)儀器臺(tái)數(shù)較多時(shí)會(huì)給實(shí)際工作帶來(lái)不便。
圖2 煙草校正樣本集的近紅外方差光譜示意圖Fig.2 NIR variance spectrum of tobacco calibration sample set
近紅外光譜應(yīng)用于煙草或類似煙草的天然產(chǎn)物的定量或定性分析在中低頻段(6 000~4 000 cm-1)隱含的信息最多(圖2),這些譜段或所包含的波長(zhǎng)對(duì)建模的貢獻(xiàn)最大。因此,較寬的波段或全譜的近紅外光譜儀若能通過(guò)“硬拷貝”實(shí)現(xiàn)光譜數(shù)據(jù)采集的標(biāo)準(zhǔn)化,是近紅外光譜分析網(wǎng)絡(luò)化的重要基礎(chǔ)。
2.2.2 建模效率低與自動(dòng)優(yōu)化建模通常,在建立樣本數(shù)量大于3 000個(gè)以上的近紅外光譜校正模型時(shí),樣本量越大,涉及高維矩陣運(yùn)算的速度越慢,對(duì)計(jì)算機(jī)性能的要求越高。且在建模過(guò)程中,如組織訓(xùn)練集或校正樣本集、清洗異常樣本、篩選適宜的建模數(shù)據(jù)等基本為基于“文件夾”來(lái)操作完成,對(duì)網(wǎng)絡(luò)環(huán)境中大體量的數(shù)據(jù)資源,因缺乏探索性數(shù)據(jù)分析的網(wǎng)絡(luò)計(jì)算手段而難以充分利用,導(dǎo)致傳統(tǒng)的建模方式和流程效率低、適應(yīng)性差。利用網(wǎng)絡(luò)資源進(jìn)行化學(xué)計(jì)量學(xué)網(wǎng)絡(luò)計(jì)算,研究者進(jìn)行了各種嘗試,早在2009年,為了充分利用網(wǎng)絡(luò)閑置資源,Sim等[30]從化學(xué)信息學(xué)角度論述了網(wǎng)格計(jì)算,但其可能屬于“學(xué)院派風(fēng)格”,難以推廣應(yīng)用于企業(yè),幸運(yùn)的是現(xiàn)代云計(jì)算技術(shù)為化學(xué)計(jì)量學(xué)計(jì)算研究搭建了高靈活性平臺(tái)。如何利用諸如Hadoop、Spark等生態(tài)圈技術(shù)[31],通過(guò)分布式計(jì)算提升定性、定量建模效率,并結(jié)合長(zhǎng)期積累的建模經(jīng)驗(yàn)、知識(shí)(包含相關(guān)的波長(zhǎng)或波段選擇、光譜預(yù)處理方法及其經(jīng)驗(yàn)參數(shù)設(shè)置、模型誤差水平控制等)實(shí)現(xiàn)自動(dòng)化建模,這是分析工作者要聯(lián)合網(wǎng)絡(luò)計(jì)算專家實(shí)現(xiàn)近紅外光譜分析網(wǎng)絡(luò)化云計(jì)算所需解決的問(wèn)題。顯然,把傳統(tǒng)的近紅外光譜定量、定性分析涉及的訓(xùn)練集樣本或校正集樣本的篩選、光譜預(yù)處理、建模等化學(xué)計(jì)量學(xué)方法(算法)網(wǎng)絡(luò)化,開發(fā)分布式計(jì)算的化學(xué)計(jì)量學(xué)軟件系統(tǒng),共享應(yīng)用網(wǎng)絡(luò)軟、硬件資源優(yōu)勢(shì),平衡計(jì)算負(fù)載,實(shí)現(xiàn)近紅外光譜分析的云計(jì)算,可能是一種較好的解決思路。
Hadoop系統(tǒng)中基于Google GFS(Google File System)實(shí)現(xiàn)的HDFS(Hadoop Distributed File System)解決了海量數(shù)據(jù)的存儲(chǔ)問(wèn)題。近幾年來(lái),數(shù)據(jù)密集型計(jì)算框架不斷出現(xiàn),從開始離線的MapReduce,到擅長(zhǎng)迭代計(jì)算的Spark,流數(shù)據(jù)處理框架Storm,分布式存儲(chǔ)數(shù)據(jù)庫(kù)HBase等,可以將多個(gè)系統(tǒng)部署到統(tǒng)一集群中,共享集群資源并統(tǒng)一調(diào)度和使用。整個(gè)分布式處理主要包括數(shù)據(jù)收集子系統(tǒng)(Scribe、Chukwa、Flume)、消息隊(duì)列管理子系統(tǒng)(RabbitMQ、ZeroMQ、Kafka)、流式數(shù)據(jù)處理子系統(tǒng)(Storm、Samza、Flink、Spark Streaming)和數(shù)據(jù)存儲(chǔ)子系統(tǒng)(HBase、Redis)4個(gè)子系統(tǒng)[32],每個(gè)子系統(tǒng)均有不同的開源構(gòu)架。
Hadoop平臺(tái)在進(jìn)行海量數(shù)據(jù)分析時(shí),響應(yīng)時(shí)間往往達(dá)到小時(shí)級(jí)。Spark數(shù)據(jù)處理是建立在統(tǒng)一抽象的RDD(Resilient Distributed Dataset)之上,并以基本一致的方式應(yīng)對(duì)各種數(shù)據(jù)處理場(chǎng)景,包括MapReduce、SQL查詢、流計(jì)算、機(jī)器學(xué)習(xí)以及圖計(jì)算等。RDD是一個(gè)容錯(cuò)的、并行的數(shù)據(jù)結(jié)構(gòu),可以顯式地將數(shù)據(jù)存儲(chǔ)到磁盤和內(nèi)存中,并能控制數(shù)據(jù)的分區(qū)。RDD通過(guò)提供包括Map、FlatMap、Filter等算子來(lái)完成數(shù)據(jù)預(yù)處理(數(shù)據(jù)抽取、轉(zhuǎn)換及加載)、特征工程及最終提供數(shù)據(jù)服務(wù),如數(shù)據(jù)挖掘中的模型訓(xùn)練、預(yù)測(cè)等。研究表明,Spark可以比傳統(tǒng)Hadoop提高2~8倍的計(jì)算性能[33],采用Spark的近紅外光譜分析分布式處理構(gòu)架見圖3。
圖3 采用Spark的近紅外光譜分析分布式處理構(gòu)架示意圖Fig.3 Distributed processing architecture of NIRS analysis by Spark
YARN是一種通用的資源管理系統(tǒng),基本思想是將資源管理和作業(yè)控制分為兩個(gè)獨(dú)立進(jìn)程,有一個(gè)全局的資源管理器(RM)負(fù)責(zé)資源分配和調(diào)度,每一個(gè)具體應(yīng)用如PCA、KNN(K最鄰近分類法)等有一個(gè)特有的Application Master(AM)負(fù)責(zé)應(yīng)用程序管理,資源管理器和節(jié)點(diǎn)管理器(Node Manager)構(gòu)成整個(gè)數(shù)據(jù)計(jì)算框架。YARN可提供如FairScheduler、Capacity Scheduler等多種直接調(diào)度器?;赮ARN的近紅外分布式處理工作流程見圖4。DMLC-Core可實(shí)現(xiàn)分析算法處理進(jìn)程(job)的提交,完全不用考慮集群數(shù)據(jù)讀寫、進(jìn)程管理等問(wèn)題。Rabit是一種可容錯(cuò)的AllReduce,很好地解決了機(jī)器節(jié)點(diǎn)的故障問(wèn)題,可應(yīng)用于MPI、SGE、YARN等多個(gè)平臺(tái)。例如在采用梯度下降進(jìn)行線性模型訓(xùn)練,在每一輪訓(xùn)練中,每個(gè)節(jié)點(diǎn)分別進(jìn)行梯度計(jì)算得到梯度增量Δw,將Δw通過(guò)AllReduce樹形結(jié)構(gòu)由根節(jié)點(diǎn)進(jìn)行匯總,然后更新w,并將更新的w下發(fā)到每個(gè)節(jié)點(diǎn)上,然后開始下一輪訓(xùn)練。
圖4 基于YARN的近紅外光譜分析工作流程示意圖Fig.4 NIRS analysis workflow based on YARN
PCA是數(shù)據(jù)處理中廣泛應(yīng)用的降維算法,對(duì)于樣本矩陣(n×p型,p遠(yuǎn)小于n),計(jì)算PCA的最好方法是先計(jì)算出所有統(tǒng)計(jì)量(時(shí)間復(fù)雜度為O(p2n)),再對(duì)相關(guān)系數(shù)矩陣或協(xié)方差矩陣(p×p型)進(jìn)行SVD分解(時(shí)間復(fù)雜度為O(p3))。以Spark中RowMatrix類型的分布式矩陣為例來(lái)說(shuō)明分布式PCA算法的具體流程(見圖5)。首先將從HDFS文件系統(tǒng)讀入的數(shù)據(jù)轉(zhuǎn)換為DenseMatrix類型的矩陣A1,矩陣A1的各個(gè)光譜列向量L1,L2,…,Lp鏈接在一個(gè)數(shù)組上從而構(gòu)造成“向量數(shù)組”結(jié)構(gòu),再放入RDD中對(duì)每個(gè)列向量并行地求解所需表征的列向量均值、方差等統(tǒng)計(jì)量,進(jìn)而對(duì)每一個(gè)列向量進(jìn)行標(biāo)準(zhǔn)化處理,這些存在于RDD中的列向量將會(huì)被重構(gòu)成RowMatrix類型的矩陣A2,求矩陣A2的格拉姆矩陣,進(jìn)而求得矩陣A2的協(xié)方差矩陣,再使用ScalaNLP的SVD方法求解特征值、特征向量,最后根據(jù)這些統(tǒng)計(jì)參數(shù)得到分布式光譜矩陣列向量L1,L2,…,Lp的主成分分量。分布式PCA算法[34]不僅可實(shí)現(xiàn)帶標(biāo)準(zhǔn)化的PCA功能,并且表現(xiàn)出良好的算法性能,適用于大型數(shù)據(jù)集的PCA運(yùn)算。
圖5 基于Spark的PCA算法流程示意圖Fig.5 Workflow of PCA algorithm based on Spark
2.2.3 數(shù)據(jù)挖掘效率與中心云、邊緣云構(gòu)建云計(jì)算服務(wù)是一種集中式服務(wù),所有數(shù)據(jù)均通過(guò)網(wǎng)絡(luò)傳輸?shù)皆朴?jì)算中心進(jìn)行處理。資源的高度集中與整合使得云計(jì)算具有很高的通用性,然而,面對(duì)物聯(lián)網(wǎng)設(shè)備和數(shù)據(jù)的爆發(fā)式增長(zhǎng),基于云計(jì)算模型的聚合性服務(wù)逐漸顯露出其在實(shí)時(shí)性、網(wǎng)絡(luò)制約、資源開銷和隱私保護(hù)上的不足。邊緣計(jì)算是一種在網(wǎng)絡(luò)邊緣執(zhí)行計(jì)算任務(wù)的新型計(jì)算模型,相比于云計(jì)算模型,能夠更加迅速、可靠和節(jié)能地響應(yīng)用戶需求。數(shù)據(jù)在本地處理也可以提升用戶隱私保護(hù)程度。另外,邊緣計(jì)算減小了服務(wù)對(duì)網(wǎng)絡(luò)的依賴,在離線狀態(tài)下也能夠提供基礎(chǔ)業(yè)務(wù)服務(wù)。近紅外光譜分析邊緣計(jì)算部署見圖6。
圖6 近紅外光譜分析邊緣計(jì)算部署示意圖Fig.6 Edge computing for NIRS analysis
在近紅外光譜定性、定量建?;蚝罄m(xù)的各種數(shù)據(jù)挖掘?qū)嶋H應(yīng)用中,涉及的資源可以來(lái)自“中心云”或“邊緣云”。如對(duì)各大產(chǎn)區(qū)煙草質(zhì)量進(jìn)行整體性比照分析、探索各大煙區(qū)煙草質(zhì)量特征、支持原料生產(chǎn)基地系統(tǒng)規(guī)劃會(huì)用到中心云的數(shù)據(jù)資源;如對(duì)某個(gè)產(chǎn)區(qū)煙草歷時(shí)性數(shù)據(jù)作趨勢(shì)分析、探索煙草質(zhì)量的穩(wěn)定性與變化走向、輔助基層植煙區(qū)改進(jìn)或調(diào)整生產(chǎn)措施會(huì)用到“邊緣云”的數(shù)據(jù)資源。所以,作為云計(jì)算的補(bǔ)充構(gòu)建“邊緣云”與邊緣計(jì)算具有較好的實(shí)用性。
近紅外光譜分析技術(shù)應(yīng)用至今,為企業(yè)從原輔材料到產(chǎn)品的質(zhì)量管控帶來(lái)豐厚經(jīng)濟(jì)效益的同時(shí),積累了海量的近紅外光譜分析數(shù)據(jù)和與之相關(guān)的質(zhì)量屬性、特征數(shù)據(jù)(包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)),為大數(shù)據(jù)分析提供了基礎(chǔ)性數(shù)據(jù);伴隨物聯(lián)網(wǎng)、云計(jì)算和邊緣計(jì)算等技術(shù)的興起,憑借近紅外光譜分析自身的技術(shù)優(yōu)勢(shì),基于“近紅外光譜分析+互聯(lián)網(wǎng)”模式的近紅外光譜網(wǎng)絡(luò)分析方法將會(huì)逐步建立,如何構(gòu)建近紅外光譜網(wǎng)絡(luò)分析方法,并結(jié)合行業(yè)領(lǐng)域知識(shí)以及長(zhǎng)期積累培育的歷史數(shù)據(jù),挖掘?qū)ζ髽I(yè)有價(jià)值的信息,對(duì)原料的規(guī)模化精細(xì)化生產(chǎn)種植、原輔材料的應(yīng)用優(yōu)化選擇、產(chǎn)品配方設(shè)計(jì)和過(guò)程質(zhì)量監(jiān)測(cè)等,將發(fā)揮越來(lái)越重要的輔助作用,以下幾方面是未來(lái)值得關(guān)注的研究課題:
(1)基于分布式架構(gòu)的適合于近紅外光譜數(shù)據(jù)、質(zhì)量屬性、質(zhì)量特征數(shù)據(jù)(結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))以及與相關(guān)業(yè)務(wù)數(shù)據(jù)的大數(shù)據(jù)云平臺(tái)的設(shè)計(jì)開發(fā)。其主要目的是從煙草的產(chǎn)地生態(tài)環(huán)境、等級(jí)、品種以及相應(yīng)的近紅外光譜、理化性質(zhì)(包含煙葉的形態(tài)形狀圖像、化學(xué)成分指標(biāo)等)數(shù)據(jù)中,分析挖掘與感官質(zhì)量相關(guān)的特征信息,服務(wù)于煙葉原料的精細(xì)化種植及科學(xué)合理應(yīng)用。煙草大數(shù)據(jù)云平臺(tái)兼顧云計(jì)算和數(shù)據(jù)存儲(chǔ)的功能,包括基礎(chǔ)架構(gòu),數(shù)據(jù)的采集、存取、處理、統(tǒng)計(jì)分析,價(jià)值信息挖掘,模型預(yù)測(cè)和結(jié)果展示等方面。可面向服務(wù)對(duì)象的規(guī)模、復(fù)雜程度部署“中心云”和“邊緣云”,有利于集約化網(wǎng)絡(luò)資源,提升數(shù)據(jù)的統(tǒng)計(jì)分析處理以及數(shù)據(jù)挖掘的效率。
(2)基于云平臺(tái)的近紅外光譜自動(dòng)化(智能)建模系統(tǒng)設(shè)計(jì)與開發(fā)。主要目的是將傳統(tǒng)的近紅外光譜定性、定量分析的化學(xué)計(jì)量學(xué)方法(算法)網(wǎng)絡(luò)化,開發(fā)分布式計(jì)算的化學(xué)計(jì)量學(xué)系統(tǒng),并融合長(zhǎng)期積累的建模經(jīng)驗(yàn)、煙草領(lǐng)域知識(shí),共享網(wǎng)絡(luò)軟、硬件資源優(yōu)勢(shì),實(shí)現(xiàn)近紅外光譜分析自動(dòng)化建模,這無(wú)論是對(duì)近紅外光譜定性定量分析的普通用戶,還是對(duì)近紅外光譜數(shù)據(jù)進(jìn)行深度挖掘的高級(jí)用戶,均具有較好的便利性和實(shí)用性。
(3)基于云計(jì)算、邊緣計(jì)算的化學(xué)計(jì)量學(xué)模式識(shí)別技術(shù)的質(zhì)量屬性、特征模式分析的網(wǎng)絡(luò)搜索引擎設(shè)計(jì)與開發(fā)。其主要目的是利用近紅外光譜構(gòu)建的質(zhì)量特征類模型,搜索網(wǎng)絡(luò)共享資源(“中心云”或“邊緣云”)中具有相近或相似質(zhì)量特征的近紅外光譜(樣本),即在網(wǎng)絡(luò)共享資源中“淘寶”,尋求在產(chǎn)品制造中煙葉原料的替代應(yīng)用,保障產(chǎn)品質(zhì)量的穩(wěn)定。搜索引擎形式類似“百度”或“Google”,在利用類模型進(jìn)行搜索時(shí),具有較強(qiáng)的云計(jì)算或邊緣計(jì)算功能。
(4)滿足不同應(yīng)用場(chǎng)景的APP、微信小程序、公眾號(hào)等互聯(lián)網(wǎng)+應(yīng)用的設(shè)計(jì)與開發(fā)。其主要功能和目的是針對(duì)不同應(yīng)用場(chǎng)景或職能部門,利用中心云數(shù)據(jù)或邊緣云數(shù)據(jù)進(jìn)行一些簡(jiǎn)單的在線統(tǒng)計(jì)分析計(jì)算,并對(duì)結(jié)果進(jìn)行可視化展示,如原料生產(chǎn)部門可快速實(shí)現(xiàn)對(duì)煙葉質(zhì)量指標(biāo)的比較,分析煙葉質(zhì)量的穩(wěn)定性、質(zhì)量變化趨勢(shì)等。