田錫煒,王冠,張嗣良,莊英萍
工業(yè)生物過程智能控制原理和方法進展
田錫煒1,3,王冠1,3,張嗣良1,2,3,莊英萍1,2,3
1 華東理工大學 生物工程學院,上海 200237 2 生物反應器工程國家重點實驗室,上海 200237 3 國家生化工程技術研究中心 (上海),上海 200237
工業(yè)生物過程是一個復雜的系統(tǒng)過程,對活體細胞代謝過程的認識是實現(xiàn)高效工業(yè)生物制造的基礎。文中首先綜述了工業(yè)發(fā)酵過程多尺度優(yōu)化控制原理和實踐,包括多尺度理論與裝備、細胞宏觀代謝在線檢測傳感技術以及生理代謝參數(shù)相關分析。在此基礎上,對工業(yè)生物過程智能控制——感知細胞內(nèi)生理代謝特性新型傳感技術、大數(shù)據(jù)庫建立和數(shù)據(jù)深度計算以及生物過程智能決策進行了綜述和展望。
工業(yè)生物過程,在線傳感技術,生理代謝,過程大數(shù)據(jù),智能控制
工業(yè)生物過程是利用微生物或細胞代謝生產(chǎn)相關細胞或代謝產(chǎn)物的過程,由于涉及到復雜的活體細胞代謝,經(jīng)常會出現(xiàn)完全一樣的操作條件,但最后的結果卻千差萬別的不可控現(xiàn)象,究其原因就在于對活體細胞代謝過程中的核心問題——細胞代謝特性沒有掌控。因此在實現(xiàn)高效工業(yè)生物制造過程中,需要對細胞生理代謝特性的在線檢測,進而感知過程;在獲得海量的過程參數(shù)變化信息后,如何使過程參數(shù)可視化,同時建立過程參數(shù)的海量數(shù)據(jù)庫,為后續(xù)的大數(shù)據(jù)分析奠定基礎;對過程大數(shù)據(jù)如何進行深度學習、數(shù)據(jù)挖掘等算法,實現(xiàn)實時生物過程智能分析、診斷與精確控制,進而實現(xiàn)智能化制造。
本文將就工業(yè)發(fā)酵過程感知——在線傳感技術、生理代謝特征參數(shù)可視化與過程大數(shù)據(jù)庫的構建、基于過程參數(shù)與大數(shù)據(jù)庫知識的比對進而實現(xiàn)狀態(tài)識別、狀態(tài)決策的基本研究方法的現(xiàn)狀和未來發(fā)展前景進行探討。
在生物反應器中,細胞代謝是一個非常復雜的活體生命系統(tǒng):一方面細胞代謝過程的特性由細胞類型所確定,例如,頭孢菌素C (Cephalosporin C) 的生產(chǎn)菌主要為頂頭孢霉菌;另一方面細胞代謝過程的特性也會受到生物反應器設計和外界環(huán)境條件的影響,相同的生產(chǎn)菌種,其培養(yǎng)基、過程調(diào)控策略的不同都會最終表現(xiàn)在產(chǎn)量上的差異,同時生物反應器內(nèi)部結構的不同則會顯著影響其內(nèi)部流場變化,包括物質傳遞、混合和剪切等,同樣會對最終產(chǎn)物產(chǎn)量造成影響。因此,細胞反應過程是存在著基因尺度、細胞尺度、反應器尺度等多尺度、多輸入、多輸出的復雜系統(tǒng) (圖1),為了實現(xiàn)生物過程的優(yōu)化與放大,需要對生物反應過程進行跨尺度的觀察與調(diào)控[1]。
通過設計和制造配有多參數(shù)檢測的生物反應器系統(tǒng),包括生物反應器和計算機控制及數(shù)據(jù)采集兩部分,能夠較為系統(tǒng)地獲得細胞在生物反應器中的過程宏觀代謝特性 (圖2)[2]。
一般來說,上述提到的生物反應器體積在實驗室規(guī)模為5–50 L,而工業(yè)規(guī)模則多為百噸級。在檢測多參數(shù)的過程中,除了常規(guī)環(huán)境參數(shù)包括溫度、轉速、通氣量、pH、溶氧 (Dissolved oxygen, DO) 以外,還會對過程中的尾氣組分進行在線分析檢測,主要包括O2濃度和CO2濃度,從而可以用來實時在線獲得關鍵細胞生理參數(shù)、氧氣攝取速率 (Oxygen uptake rate, OUR) 和二氧化碳釋放速率 (Carbon dioxide evolution rate, CER)。此外,為了精確計算OUR和CER,在實驗室生物反應器中會配備熱質量流量計和全罐稱重系統(tǒng)來準確精確控制通氣量和發(fā)酵工作體積,而工業(yè)規(guī)模則一般配置渦街流量計和差壓變送器來實現(xiàn)相關功能。
近十幾年來,隨著在線傳感技術的快速發(fā)展,許多先進在線傳感器應用到生物工程領域,包括過程尾氣質譜儀、活細胞傳感器、電子鼻等,為生物過程的優(yōu)化和放大技術進步起到了重要作用。
圖1 生物反應器內(nèi)細胞多尺度網(wǎng)絡示意圖[2]
圖2 多參數(shù)生物反應器示意圖[2]
1.2.1 過程尾氣質譜儀
過程尾氣質譜儀能夠實現(xiàn)發(fā)酵過程尾氣組分的實時在線檢測,包括N2、O2、CO2等,從而對于認知發(fā)酵過程中細胞的代謝活性具有重要意義。目前,美國Extrel公司生產(chǎn)的質譜儀在生物工程領域具有較大的應用市場。其產(chǎn)品主要通過四級桿方式進行檢測,當檢測樣品進入進樣系統(tǒng)后,氣體分子會受到離子源的轟擊,形成不同帶電荷離子,然后在磁場的作用下,不同的離子會根據(jù)質荷比的不同落在檢測器的不同位置上,從而實現(xiàn)全譜掃描。
1.2.2 電子鼻
電子鼻又稱氣味掃描儀,最初是用于快速檢測食品中特定成分含量的一種儀器。隨著其應用領域的不斷拓展,目前在發(fā)酵行業(yè)也已經(jīng)作為一種重要的在線傳感器。電子鼻與過程質譜儀類似,也是對尾氣成分進行在線檢測,但其原理則是通過SnO2氣敏膜對氣體成分和含量響應不同來實現(xiàn)定性和定量檢測。一般來說,SnO2氣敏膜具有高靈敏、快速響應的特點,因此能夠對氣體中微量成分進行測定。目前,常規(guī)的氣敏膜靈敏度為1–10 000 mg/kg,但是部分氣敏膜能夠達到100 ng/L的靈敏度。
1.2.3 活細胞傳感器
活細胞傳感器的檢測原理是正?;罴毎哂型暾募毎ぃ浒麅?nèi)的帶電荷離子在特定頻率的交變電場下能夠發(fā)生極化現(xiàn)象,從而使得每一個正常活細胞可以被認為是一個非常小的電容器。因此通過檢測發(fā)酵液環(huán)境中的電容信號,再經(jīng)過一定的信號數(shù)據(jù)處理,就能夠得到相應的電容值,其大小與發(fā)酵液環(huán)境中的活細胞量呈正相關。相比之下,死細胞由于細胞膜破碎,胞內(nèi)離子釋放到環(huán)境中,同時發(fā)酵液環(huán)境中固體顆粒等物質并不帶電荷,因此不會對電容值的測定造成影響,從而能夠很好地特異性檢測活細胞生物量。
多參數(shù)生物反應器系統(tǒng)能夠通過計算機實現(xiàn)過程參數(shù)的在線檢測和采集。一方面,數(shù)據(jù)采集與反應器的計算機自動控制形成完整的控制系統(tǒng),另一方面研究人員從大量的數(shù)據(jù)中挖掘工藝過程調(diào)控所需的依據(jù)也是重要的研究內(nèi)容。華東理工大學張嗣良研究團隊在控制論的基礎上,結合生物過程特性以及生物反應器特點,自主開發(fā)了適用于發(fā)酵過程多尺度參數(shù)相關分析用的軟件包 (BIOSTAR)[3]。圖3即為頭孢菌素C發(fā)酵過程多參數(shù)曲線圖,利用BIOSTAR軟件獲得的在線檢測參數(shù) (包括表征細胞生理代謝特性的OUR、CER、RQ及離線測得的頭孢菌素C產(chǎn)量等) 的實時變化趨勢,通過結合生物學知識,對這些參數(shù)開展相關分析,就有可能實現(xiàn)在反應器尺度了解細胞代謝、甚至基因尺度變化的情況,最后實現(xiàn)發(fā)酵過程的優(yōu)化。
1.3.1 細胞微觀與宏觀生理代謝特性研究
細胞是生物體完成各種代謝反應的場所,在這個過程中,各種代謝物都會在胞內(nèi)外形成動態(tài)平衡,從而維持細胞代謝的穩(wěn)定。代謝通量研究是認知細胞代謝的重要內(nèi)容,代謝物濃度與代謝通量密切相關。細胞通過代謝網(wǎng)絡利用環(huán)境中碳源和氮源進行生長和生產(chǎn),整個過程是一個復雜的涉及多組學 (基因組、轉錄組、蛋白組、代謝組、環(huán)境組等) 共同響應的過程。其中微觀代謝通量信息是直接認識細胞生理代謝最有效的手段之一。13C同位素分析法是最常用的微觀代謝通量計算技術,但是目前國內(nèi)外更多是基于穩(wěn)態(tài)條件 (代謝穩(wěn)態(tài)和同位素穩(wěn)態(tài)) 下的通量分析,因此很難具體應用到實際的工業(yè)生物過程中,因為工業(yè)規(guī)模生產(chǎn)過程多涉及非代謝穩(wěn)態(tài)條件 (分批培養(yǎng)或補料分批培養(yǎng))。針對13C代謝流測定技術在實際生產(chǎn)應用中碰到的實驗成本高、實驗周期長等困難,華東理工大學莊英萍研究團隊提出裝置微型化、標記動態(tài)化及取樣快速化的解決思路,從而研究批培養(yǎng)和補料批培養(yǎng)過程中胞內(nèi)代謝途徑通量的變化[1]。
圖3 頭孢菌素C發(fā)酵過程在線參數(shù)變化趨勢圖
另一方面,在生物過程多參數(shù)分析過程中,各參數(shù)表現(xiàn)出離散、非線性、混雜等特性,這主要是由細胞代謝復雜性以及對環(huán)境響應敏感性綜合作用的結果。往往初始狀態(tài)的細微差別會隨著生物過程的進行在結果中產(chǎn)生巨大差異,表現(xiàn)出系統(tǒng)的多態(tài)性和不穩(wěn)定性,為此必須開展有關生物學機理現(xiàn)象認識的研究,才有可能在生物反應過程的強化中取得突破性進展。參數(shù)相關性分析是指生物過程中環(huán)境參數(shù)和生理參數(shù)、狀態(tài)參數(shù)和過程參數(shù)、直接參數(shù)和間接參數(shù)、在線參數(shù)和離線參數(shù)之間存在的耦合相關性。其反映的是細胞代謝過程中物質流、能量流、信息流之間的相互作用和平衡,究其原因可能是細胞多尺度 (基因尺度、細胞尺度、反應器尺度) 代謝過程中某一水平,但其宏觀表征則為不同尺度參數(shù)間的相關性。
1.3.2 細胞生理代謝特性與生物反應器流場特性相結合的放大研究
細胞代謝過程在實驗室規(guī)模取得小試優(yōu)化成功后,如何實現(xiàn)工業(yè)規(guī)模生物反應器的放大,關鍵在于大規(guī)模生物反應器中重現(xiàn)細胞最優(yōu)的生理狀態(tài)。通過先進的過程在線傳感檢測技術能夠有效認識過程細胞生理代謝特性的變化,并對關鍵敏感參數(shù)進行表征,因此在大規(guī)模生物反應器中獲得小試生物反應器相似的關鍵參數(shù)變化,則能夠大大提升生物過程放大成功率。同時,在此過程中需要對生物反應器流場特性進行研究,不同規(guī)模生物反應器并不只是簡單的體積比例放大,更多的是內(nèi)部結構對細胞代謝的影響,因此需要在工藝調(diào)控策略和生物反應器流場特性之間找到最適平衡點,從而實現(xiàn)小試規(guī)模的最優(yōu)細胞生理狀態(tài)。
雖然攪拌反應器結構比較簡單,但其內(nèi)部流場的結構卻隨著攪拌槳結構形式、操作條件的不同而存在很大差異。攪拌反應器內(nèi)流場特性的研究主要通過實驗測定和數(shù)值模擬兩種方法。早期的流速測定方法有畢托管、電磁流速計、壓電探頭及熱線風速儀等,這些測定方法有一個共同的特點也是影響其在流場測定中發(fā)展的一個缺點,即它們都是接觸式的,也就是它們在流場中會與流場相互作用從而影響流場使測得的速度并不能真實還原流場的信息。為了解決這一問題,各種不同的非接觸式流場測定技術相繼產(chǎn)生,其中多以激光為重要手段獲取流場內(nèi)的詳細信息,比較典型的是激光粒子成像測速技術 (PIV)。這種方法以激光為媒介,不需要在流場中插入探頭,實現(xiàn)了流場測定的非接觸性要求。
紅霉素 (Erythromycin) 是由紅色糖多孢菌代謝產(chǎn)生的大環(huán)內(nèi)酯類抗生素,是我國目前年產(chǎn)量達萬噸的抗生素大品種。隨著臨床用途增加和新一代紅霉素衍生物的開發(fā),紅霉素的生產(chǎn)和銷售日趨活躍。我國已成為紅霉素生產(chǎn)的第一大國,但相比于國外先進的生產(chǎn)水平和產(chǎn)品質量還是存在一定差距。紅霉素生產(chǎn)過程中發(fā)酵單位、組分及設備大型化過程的工程放大難題是紅霉素產(chǎn)業(yè)所面臨的主要問題。為此,結合紅霉素生物合成及生理代謝特性,從發(fā)酵組分代謝工程改造調(diào)控、發(fā)酵過程全局敏感參數(shù)調(diào)控、生理參數(shù)OUR跨尺度放大調(diào)控等層面,解析紅霉素發(fā)酵過程微觀與宏觀代謝流相結合的細胞代謝特性,并在大型生物反應器 (372 m3發(fā)酵罐) 實現(xiàn)生產(chǎn)效能強化。
1.4.1 紅霉素組分代謝工程改造調(diào)控
紅霉素發(fā)酵過程存在有效組分紅霉素A含量低、雜質組分偏高等問題,通過傳統(tǒng)誘變改造等方法很難實現(xiàn)抗生素發(fā)酵組分改善,因此采用代謝工程策略,建立紅霉素工業(yè)生產(chǎn)菌高效遺傳轉化系統(tǒng),通過表達單元設計和插入位點調(diào)節(jié)紅霉素A合成后修飾途徑中關鍵基因甲基化酶 (EryK) 和羥基化酶 (EryG) 的表達強度,發(fā)酵表型篩選發(fā)現(xiàn)重組菌可實現(xiàn)雜質組分 (紅霉素B和C) 的完全消除,有效組分紅霉素A 發(fā)酵產(chǎn)量提高20%以上[4-5]。
1.4.2 發(fā)酵過程全局敏感參數(shù)調(diào)控
結合紅霉素生產(chǎn)菌的生理特性,研究發(fā)現(xiàn)生物反應器中細胞生理受到環(huán)境氮響應調(diào)節(jié),并影響胞內(nèi)微觀代謝流特征性變化,因此通過建立從種子培養(yǎng)、菌體前期生長、產(chǎn)物合成不同階段的全局氮調(diào)控策略,能夠強化紅霉素合成代謝流[6-10]。氮調(diào)控作用機制研究發(fā)現(xiàn),種子培養(yǎng)階段,氮響應調(diào)節(jié)胞內(nèi)蛋白酶、淀粉酶等酶活性及菌絲形態(tài)是影響種子培養(yǎng)質量的關鍵;發(fā)酵前期生長階段,速效氮源玉米漿可調(diào)節(jié)發(fā)酵氧代謝強度OUR水平,并促進紅霉素合成單元丙酰輔酶A前體來源的主要氨基酸代謝流增加,強化啟動紅霉素合成;紅霉素合成期,速效氮源硫酸銨無阻遏抑制作用,NH4+的吸收依靠谷氨酰胺轉氨途徑強化TCA循環(huán),增加紅霉素A合成的供應量,并有效調(diào)節(jié)菌體細胞活性及紅霉素發(fā)酵組分。上述研究成果在工業(yè)生產(chǎn)規(guī)模中得到應用并建立了多種氮源全局跨尺度調(diào)控策略,使紅霉素工業(yè)發(fā)酵生產(chǎn)水平從7 000 U/mL 提高到8 000 U/mL以上,實現(xiàn)了國內(nèi)首個紅霉素基因工程菌的產(chǎn)業(yè)化,且發(fā)酵組分優(yōu)勢明顯,雜質組分遠低于歐洲藥典質量標準。
1.4.3 生理參數(shù)OUR 跨尺度放大調(diào)控
由于反應器結構形式和操作條件的變化,細胞在不同反應器尺度表現(xiàn)出不同的代謝特性,通過發(fā)酵過程氮調(diào)控、OUR、RQ等參數(shù)研究發(fā)現(xiàn),大型生物反應器 (372 m3生產(chǎn)罐) 發(fā)酵后期TCA循環(huán)關鍵酶活降低、紅霉素合成前體利用減弱是造成紅霉素合成速率下降的重要原因。細胞生理參數(shù)OUR可表征紅霉素合成的代謝強度,從而作為反應器過程放大跨尺度操作因子;同時結合流場特性研究進行反應器結構形式設計優(yōu)化,采用基于不同反應器細胞生理代謝特性趨于一致原則,實現(xiàn)紅霉素從50 L-132 m3–372 m3發(fā)酵罐規(guī)模逐級放大。上述研究克服了傳統(tǒng)發(fā)酵放大過程依據(jù)相似原理的缺陷,為大型生物反應器過程強化提供了新思路[11-13]。
過程分析技術 (Process analytical technology, PAT) 是由美國食品藥品監(jiān)督管理局 (FDA) 引入的一項監(jiān)管舉措,通過即時測量原料、過程中物料以及過程本身的關鍵技術指標來實現(xiàn)過程設計、分析和控制,目的是保證過程的可靠性,確保最終產(chǎn)品的質量[14]。在生物過程監(jiān)測和控制領域,過程變量的監(jiān)測能力尤其是連續(xù)實時監(jiān)測至關重要,它是實現(xiàn)細胞高效生產(chǎn)的基礎。美國FDA關于PAT的倡議與生物制藥的過程分析和控制密切相關。該倡議旨在應用高效過程傳感技術,對生產(chǎn)過程進行實時過程診斷和精確調(diào)控來提高生產(chǎn)效率和產(chǎn)品質量,并建立一種通過監(jiān)測與質量相關的過程變量來確保生產(chǎn)產(chǎn)品質量的標準生產(chǎn)流程。
生物反應器內(nèi)的細胞培養(yǎng)是復雜的三相系統(tǒng),包括氣相 (罐頂氣體、發(fā)酵液氣泡)、液相 (發(fā)酵液) 和固相 (懸浮生物質)。因此,傳感器必須監(jiān)測生物過程所有三相的化學、物理和生物參數(shù) (圖4)。生物學變量,如細胞密度、細胞活力、細胞形態(tài)、蛋白質或DNA含量等,這些需要取樣和后續(xù)分析。細胞培養(yǎng)過程最常用的傳感器主要測量過程 (在線) 物理參數(shù)和化學參數(shù)。培養(yǎng)液中葡萄糖、乳酸鹽、代謝物等物質監(jiān)測可以通過在線監(jiān)測生物傳感器 (電化學或光學) 或通過配有熒光吸收和質譜檢測器的液相/氣相色譜儀來實現(xiàn)。在這些傳感器的基礎上,如今一些新型的生物過程監(jiān)測傳感器,尤其是光譜傳感器,如在線拉曼分析儀、在線中紅外分析儀、在線熒光分析儀以及低場核磁共振儀等正在逐漸被應用于工業(yè)生物過程分析[15]。
生物反應器是工業(yè)生物過程進行的場所,受限于生物反應器自身內(nèi)部結構的設計以及外界通氣攪拌等功率輸入,細胞會有很長的運動軌跡,加之高的細胞代謝活性,大規(guī)模培養(yǎng)常常是一個不均一的體系,表現(xiàn)在大規(guī)模反應器內(nèi)存在溶氧、底物濃度、pH以及剪切梯度問題[16-18]。開發(fā)感知細胞內(nèi)生理代謝特性的新型傳感器可以加速對于細胞在大規(guī)模反應器內(nèi)動態(tài)生理代謝響應的了解與認識,總結細胞應對秒級至小時級擾動的響應機理。在過去十年中,遺傳編碼的熒光傳感器 (Genetically encoded fluorescent sensors) 已經(jīng)逐步被開發(fā)應用于生物 (醫(yī)學) 過程研究,揭示細胞內(nèi)動態(tài)代謝調(diào)節(jié)規(guī)律[19]。自然界中,部分細菌轉錄調(diào)控蛋白和細胞周質結合蛋白對其相應底物具有很強的親和力和特異性,結合后會引發(fā)顯著的構象變化。通過融合這些蛋白與熒光蛋白 (Fluorescent protein),在蛋白特異性結合過程引起構象變化進而產(chǎn)生熒光變化,實現(xiàn)單細胞或亞細胞分辨率下的動態(tài)代謝變化檢測與成像 (圖5)。此類型的高靈敏探針已經(jīng)在動態(tài)檢測胞內(nèi)pH、K+、Ca2+、NADH、NAD+/NADH比、NADPH、谷氨酸、NO、ROS、GSSG/GSH比、ATP/ADP比等方面得到應用[20]。
未來細胞內(nèi)生物傳感器的研究工作包括傳感元件、檢測元件的開發(fā),微型化與智能化生物傳感器的研究等,從而適應于選擇性、靈敏性、穩(wěn)定性更高的應用環(huán)境。同時,為適應未來高通量檢測的需求,將細胞傳感器技術和生物芯片技術結合開發(fā)細胞芯片傳感器,即陣列化的細胞群將細胞傳感器高靈敏度的優(yōu)點和生物芯片高通量檢測的優(yōu)點結合起來,亦具有廣闊的發(fā)展前景[21]。
圖4 生物過程監(jiān)測示意圖[14]
圖5 熒光傳感器工作原理示意圖
自從阿法狗戰(zhàn)勝人類頂級棋手之后,深度學習、人工智能再一次變得火熱起來。然而,更大的數(shù)據(jù)庫并不一定有助于模型學習到更深刻的見解。訓練數(shù)據(jù)的質量是模型性能的主導因素,應該重點專注于數(shù)據(jù)的質量、價值以及多樣性,而不僅僅是數(shù)據(jù)的規(guī)模,“深度數(shù)據(jù)” (Deep data) 比大數(shù)據(jù) (Big data) 更具價值。生物技術過程中智能控制的發(fā)展在十年前僅被認為是令人興奮但又模糊不清的愿景,如今已成為一個密集而現(xiàn)實的研究領域。在該領域取得成功的關鍵之一是選擇合適的軟件工具來構建智能系統(tǒng)。理想的工具必須既能反映控制問題的實時性,又能反映生物技術系統(tǒng)本身的特性[22]。
隨著大數(shù)據(jù)時代的到來,針對海量數(shù)據(jù)存儲過程中并發(fā)、可用、可擴展性等高性能要求,傳統(tǒng)的關系型數(shù)據(jù)庫已經(jīng)不能應對這些調(diào)整。在選擇數(shù)據(jù)存儲解決方案時,相比較SQL (關系型數(shù)據(jù)庫),NoSQL (非關系型數(shù)據(jù)庫) 脫穎而出。NoSQL的優(yōu)越性體現(xiàn)在:1) 具有靈活的數(shù)據(jù)模型,可以處理非結構化/半結構化的大數(shù)據(jù);2) 很容易實現(xiàn)可伸縮性 (向上擴展與水平擴展);3) 數(shù)據(jù)庫支持動態(tài)模式;4) 支持自動分片;5) 支持自動復制。但是不管選用哪種數(shù)據(jù)存儲方案,大數(shù)據(jù)庫的建立一般會經(jīng)歷數(shù)據(jù)收集、數(shù)據(jù)存儲、數(shù)據(jù)分析、數(shù)據(jù)可視化與輸出 (智能決策) 階段。其中,數(shù)據(jù)收集、清理和管理通常占機器學習項目總開發(fā)工作的90%以上。為了更好地為機器學習準備數(shù)據(jù)集,一般需要做到如下幾點:1) 闡明問題;2) 建立數(shù)據(jù)收集機制;3) 格式化數(shù)據(jù);4) 減少數(shù)據(jù);5) 完成數(shù)據(jù)清理;6) 分解數(shù)據(jù);7) 重新調(diào)整數(shù)據(jù);8) 將數(shù)據(jù)分散。其中針對數(shù)據(jù)信息融合的問題,通過采用主成分分析、因子分析、貝葉斯學習、人工神經(jīng)網(wǎng)絡等方法對原始數(shù)據(jù)進行清洗、填充和降維,進而采用聚類分析、主成分回歸等方法提取特征數(shù)據(jù)信息,從而將多源數(shù)據(jù)在同一層次進行融合。圖6概述了生物過程大數(shù)據(jù)相關分析的數(shù)據(jù)處理。
生物過程研究解決實際生產(chǎn)問題時,面對細胞內(nèi)高度分支研究的海量數(shù)據(jù)和反應器過程中所獲得的各種傳感器數(shù)據(jù),以及生物過程具有生命系統(tǒng)的復雜性、時變性、全局性等特點,遇到極大困難[22]。但是如何在這些紛繁而又混雜的生物過程海量數(shù)據(jù)中找出關鍵因果關系,并作出過程優(yōu)化的科學決策,是一項艱巨、費時的工作[22]。抓住大數(shù)據(jù)時代發(fā)展機遇,加速推進生物過程智能化,需要將機器學習 (Machine learning,ML)應用于生物過程大數(shù)據(jù)分析與智能決策。機器學習是一門多領域交叉學科,涉及概率論、統(tǒng)計學、逼近論、凸分析、算法復雜度理論等多門學科,其專門研究計算機是怎樣模擬或實現(xiàn)人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構,使之不斷改善自身的性能[24]。
圖6 用于生物過程大數(shù)據(jù)相關分析的數(shù)據(jù)處理系統(tǒng)[23]
大數(shù)據(jù)時代的生物過程研究,在實現(xiàn)生物技術產(chǎn)業(yè)化時,由于從基因、細胞到生物反應器操作的生物過程高度復雜性[22],細胞內(nèi)外海量組學數(shù)據(jù)和細胞外過程傳感器數(shù)據(jù)的智能處理與整合需要實現(xiàn)實時人機交互與智能信息處理。生物過程多參數(shù)相關分析時,遵循的一個重要理念就是不熱衷于尋找因果關系,注重相關關系的發(fā)現(xiàn)和利用,從生物過程的海量數(shù)據(jù)中找到與過程優(yōu)化和放大相關的關鍵參數(shù)[23]。
在海量數(shù)據(jù)庫的數(shù)據(jù)處理和數(shù)據(jù)分析過程中,應用有效的數(shù)據(jù)挖掘技術能夠大大提升數(shù)據(jù)處理的速度,同時也能夠提升數(shù)據(jù)處理的準確性[23]。應用融合生物過程機理和工業(yè)生物過程大數(shù)據(jù)的智能建模和分析技術,能夠綜合數(shù)據(jù)驅動和機理分析兩者的優(yōu)點,從而在挖掘海量數(shù)據(jù)內(nèi)在知識信息的基礎上,表征機理特征,降低模型計算復雜度,提升模型魯棒性。通過采用軟測量、模糊聚類、回歸神經(jīng)網(wǎng)絡、深度卷積神經(jīng)網(wǎng)絡等技術,實現(xiàn)生物過程機理模型與數(shù)據(jù)模型深度融合的智能動態(tài)模型。通過大數(shù)據(jù)實時計算系統(tǒng),調(diào)用復雜的機器學習、數(shù)據(jù)挖掘、智能推薦等算法,在計算機與細胞之間實現(xiàn)海量數(shù)據(jù)交互 (學習能力、自適應能力、糾偏能力),掀起一場以“智能細胞工廠”為核心的工業(yè)生物技術革命,從而開啟行業(yè)智慧應用新時代,搶占科技競爭制高點,提升我國工業(yè)生物過程自動化、數(shù)字化和智能化水平,躋身創(chuàng)新型工業(yè)生物技術強國。
[1] Zhuang YP, Tian XW, Zhang SL. Cell culture process optimization and scale-up based on multi-scale parameter related analysis. Biotechnol. Business, 2018, 14(1): 49–55 (in Chinese).莊英萍, 田錫煒, 張嗣良. 基于多尺度參數(shù)相關分析的細胞培養(yǎng)過程優(yōu)化與放大. 生物產(chǎn)業(yè)技術, 2018, 14(1): 49–55.
[2] Zhang SL, Chu J. Multi-Scale Microbial Process Optimization. Beijing: Chemical Industry Press, 2003: 21–40 (in Chinese). 張嗣良, 儲炬. 多尺度微生物過程優(yōu)化. 北京: 化學工業(yè)出版社, 2003: 21–40.
[3] East China University of Science and Technology. Fermentation process analysis software based on biological information (referred to as BIOSTAR). Copyright Registration Number: 2009SR027762 (in Chinese). 華東理工大學. 基于生物信息的發(fā)酵過程工藝分析軟件(簡稱發(fā)酵之星). 著作權登記號: 2009SR027762.
[4] Chen Y, Deng W, Wu JQ, et al. Genetic modulation of the overexpression of tailoring genesandleading to the improvement of erythromycin a purity and production infermentation. Appl Environ Microbiol, 2008, 74(6): 1820–1828.
[5] Wu JQ, Zhang QL, Deng W, et al. Toward improvement of erythromycin a production in an industrialstrain via facilitation of genetic manipulation with an artificialsite for specific recombination. Appl Environ Microbiol, 2011, 77(21): 7508–7516.
[6] Zou X, Hang HF, Chu J, et al. Enhancement of erythromycin A production with feeding available nitrogen sources in erythromycin biosynthesis phase. Bioresour Technol, 2009, 100(13): 3358–3365.
[7] Chen Y, Wang ZJ, Chu J, et al. Significant decrease of broth viscosity and glucose consumption in erythromycin fermentation by dynamic regulation of ammonium sulfate and phosphate. Bioresour Technol, 2013, 134: 173–179.
[8] Chen Y, Wang ZJ, Chu J, et al. The glucose RQ-feedback control leading to improved erythromycin production by a recombinant strainZL1004 and its scale-up to 372 m3fermenter. Bioprocess Biosyst Eng, 2015, 38(1): 105–112.
[9] Zou X, Li WJ, Zeng W, et al. An assessment of seed quality on erythromycin production by recombinantstrain. Bioresour Technol, 2011, 102(3): 3360–3365.
[10] Zou X, Zeng W, Chen CF, et al. Fermentation optimization and industrialization of recombinantstrains for improved erythromycin a production. Biotechnol Bioprocess Eng, 2010, 15(6): 959–968.
[11] Zou X, Hang HF, Chen CF, et al. Application of oxygen uptake rate and response surface methodology for erythromycin production by. J Ind Microbiol Biotechnol, 2008, 35(12): 1637–1642.
[12] Zou X, Xia JY, Chu J, et al. Real-time fluid dynamics investigation and physiological response for erythromycin fermentation scale-up from 50 L to 132 m3fermenter. Bioprocess Biosyst Eng, 2012, 35(5): 789–800.
[13] Zou X, Hang HF, Chu J, et al. Oxygen uptake rate optimization with nitrogen regulation for erythromycin production and scale-up from 50 L to 372 m3scale. Bioresour Technol, 2009, 100(3): 1406–1412.
[14] Yi XP. PAT and on-line biological detection technology for animal cell culture. Biotechnol Business, 2018, 14(1): 33–40 (in Chinese). 易小萍. 動物細胞培養(yǎng)過程PAT和在線生物檢測技術. 生物產(chǎn)業(yè)技術, 2018, 14(1): 33–40.
[15] Wang ZJ, Wang P, Zhang Q, et al. Principle and application of physiological parameters detection biosensor technology in microbial fermentation process optimization. Biotechnol Business, 2018, 14(1): 19–32 (in Chinese). 王澤建, 王萍, 張琴, 等. 微生物發(fā)酵過程生理參數(shù)檢測傳感器技術與過程優(yōu)化. 生物產(chǎn)業(yè)技術, 2018, 14(1): 19–32.
[16] Wang G, Tang WJ, Xia JY, et al. Integration of microbial kinetics and fluid dynamics toward model-driven scale-up of industrial bioprocesses. Eng Life Sci, 2015, 15(1): 20–29.
[17] Wang G, Wu BF, Zhao JF, et al. Power input effects on degeneration in prolonged penicillin chemostat cultures: a systems analysis at flux, residual glucose, metabolite, and transcript levels. Biotechnol Bioeng, 2018, 115(1): 114–125.
[18] Wang G, Zhao JF, Haringa C, et al. Comparative performance of different scale-down simulators of substrate gradients incultures: the need of a biological systems response analysis. Microb Biotechnol, 2018, 11(3): 486–497.
[19] Zhao YZ, Yang Y. Profiling metabolic states with genetically encoded fluorescent biosensors for NADH. Curr Opin Biotechnol, 2015, 31: 86–92.
[20] Hu HY, Wang AX, Huang L, et al. Monitoring cellular redox state under hypoxia using a fluorescent sensor based on eel fluorescent protein. Free Radic Biol Med, 2018, 120: 255–265.
[21] Xin WW, Wang JL. Novel cell-based biosensors based on measurement of fluorescence. Prog Biochem Biophys, 2011, 38(2): 185–190 (in Chinese). 辛文文, 王景林. 基于熒光檢測的新型細胞傳感器. 生物化學與生物物理進展, 2011, 38(2): 185–190.
[22] Zhang SL. Biological process research in the age of big data. Biotechnol Business, 2016, 12(3): 34–39 (in Chinese). 張嗣良. 大數(shù)據(jù)時代的生物過程研究. 生物產(chǎn)業(yè)技術, 2016, 12(3): 34–39.
[23] Zhang SL, Pan HL, Huang MZ, et al. Big data and intelligentialized method for industrial bioprocess. Biotechnol Business, 2018, 14(1): 86–93 (in Chinese). 張嗣良, 潘杭琳, 黃明志, 等. 生物過程大數(shù)據(jù)分析與智能化. 生物產(chǎn)業(yè)技術, 2018, 14(1): 86–93.
[24] Chen F. Research on deep learning and visual attention technology for accurate image understanding[D]. Beijing: National University of Defense Technology, 2016 (in Chinese).陳飛. 面向精確圖像理解的深度學習與視覺注意技術研究[D]. 北京: 國防科技大學, 2016.
Progress in intelligent control of industrial bioprocess
Xiwei Tian1,3, Guan Wang1,3, Siliang Zhang1,2,3, and Yingping Zhuang1,2,3
1,,200237,2,200237,3(),200237,
Industrial bioprocess is a complex systematic process and bio-manufacturing can be realized on the basis of understanding the metabolism process of living cells. In this article, the multi-scale optimization principle and practice of industrial fermentation process are reviewed, including multi-scale optimizing theory and equipment, on-line sensing technology for cellular macroscopic metabolism, and correlated analysis of physiological parameters. Furthermore, intelligent control of industrial bioprocess is further addressed, in terms of new sensing technology for intracellular physiological metabolism, big database establishment and data depth calculation, intelligent decision.
industrial bioprocess, on-line sensing technology, physiological metabolism, process big data, intelligent control
10.13345/j.cjb.190240
莊英萍 博士,研究員,博導,現(xiàn)任華東理工大學生物工程學院院長,國家生化工程技術研究中心 (上海) 主任,“國家高技術研究發(fā)展計劃 (863)”生物和醫(yī)藥領域工業(yè)生物技術主題專家,中國微生物學會第十屆理事會常務理事,生化過程模型化與控制專業(yè)委員會主任委員,中國化工學會生物化工專業(yè)委員會副主任委員。長期從事發(fā)酵過程的優(yōu)化與放大研究,與團隊共同建立了完整的理論、方法與裝備,并在數(shù)十個品種的工業(yè)發(fā)酵產(chǎn)品中成功應用。近年獲“國家科技進步二等獎”三項,發(fā)表SCI論文100余篇,獲授權發(fā)明專利近30項。
田錫煒, 王冠, 張嗣良, 等. 工業(yè)生物過程智能控制原理和方法進展. 生物工程學報, 2019, 35(10): 2014–2024.
Tian XW, Wang G, Zhang SL, et al. Progress in intelligent control of industrial bioprocess. Chin J Biotech, 2019, 35(10): 2014–2024.
June9, 2019;
August 7, 2019
Supported by: Fundamental Research Funds for the Central Universities (Nos. 22221817014, WF1814032).
Yingping Zhuang. Tel: +86-21-64251257; Fax: +86-21-64253702; E-mail: ypzhuang@ecust.edu.cn
中央高?;究蒲袠I(yè)務費專項(Nos. 22221817014, WF1814032)資助。
(本文責編 郝麗芳)