編者按
《從加速數(shù)字化轉(zhuǎn)型,到建設(shè)質(zhì)量強國》一文為宗福季教授2022年5月至7月發(fā)表于香港科大內(nèi)地辦“教授專欄”上的文章。經(jīng)作者授權(quán),本刊分三期刊載,本期為該文第三部分。
如今,不只是制造業(yè),醫(yī)療保健、教育、零售、金融服務(wù)、銀行、保險、電信、公共服務(wù)行業(yè),特別是醫(yī)療保健和教育行業(yè)在疫情期間都在加速數(shù)字化轉(zhuǎn)型。在這些行業(yè)中大數(shù)據(jù)也面臨著挑戰(zhàn):以手機生產(chǎn)為例,從產(chǎn)品開發(fā)起,到物料進廠、單板加工、焊接插件、單板裝配、老化測試、整機裝配,到最后包裝發(fā)貨送到客戶手中,每道工序上的機器都能夠自動采集數(shù)據(jù)。將機器及采集到的數(shù)據(jù)與系統(tǒng)數(shù)據(jù)庫結(jié)合,就形成了工業(yè)大數(shù)據(jù),不過到這一步也只是剛開始。對于大數(shù)據(jù)而言,我們需要明確目的,是預(yù)測、改善質(zhì)量、做質(zhì)量控制還是其他一些目的,并據(jù)此收集相關(guān)數(shù)據(jù)。此外,在建模中也存在著很多的挑戰(zhàn)。
這些挑戰(zhàn)雖然看起來在向?qū)嶋H應(yīng)用靠攏,但其次并不限于應(yīng)用學(xué)科。很多問題雖然目的明確且偏向于應(yīng)用,但是他們的答案往往包含很多理論。具體來說,工業(yè)大數(shù)據(jù)在質(zhì)量4.0中面對的挑戰(zhàn)如下。
數(shù)據(jù)完整性的挑戰(zhàn):我們通常感覺數(shù)據(jù)很多很全,但實際上絕大多數(shù)數(shù)據(jù)是不完整的。每個產(chǎn)品都有很多工序,在每個環(huán)節(jié)收集數(shù)據(jù)的目的也各不相同,比如為了進行庫存管理進行的數(shù)據(jù)收集等。數(shù)據(jù)由于收集的目的不同,往往呈現(xiàn)零散的情況,并且不完整。實際生產(chǎn)過程并不是為了統(tǒng)計建模收集數(shù)據(jù)。因此,在大多數(shù)情況下,我們無法獲得所有的相關(guān)數(shù)據(jù),而如何根據(jù)不完整的數(shù)據(jù)進行統(tǒng)計建模是一個挑戰(zhàn)。
數(shù)據(jù)質(zhì)量的挑戰(zhàn):有些數(shù)據(jù)收集會比較精確,但是多數(shù)時候數(shù)據(jù)的質(zhì)量無法控制。這是由于在收集數(shù)據(jù)時,有時需要的數(shù)據(jù)比較粗略,只需要用低成本的方法采集,如手寫填表格、目測等方式。即便是最先進的工廠,收集到的數(shù)據(jù)質(zhì)量也是有差別的。而不同質(zhì)量的數(shù)據(jù)對統(tǒng)計建模造成的影響之一,是導(dǎo)致無法精確建模。數(shù)據(jù)質(zhì)量的高低直接影響分析結(jié)果的有效性,如果用于企業(yè)決策的數(shù)據(jù)失真,將會導(dǎo)致企業(yè)決策與預(yù)期目標之間出現(xiàn)偏差。
數(shù)據(jù)場景的挑戰(zhàn):數(shù)據(jù)收集的場景包括數(shù)據(jù)在何時采集、在哪一條生產(chǎn)線采集、采集人是誰、采集機器是哪種、采集狀態(tài)是什么等一系列問題。比如,星期一早上收集的數(shù)據(jù)與星期五下午收集的數(shù)據(jù)就可能有明顯差別。這是由于周一上班的人比較懶散、周五下班前的人想匆忙將事情做完導(dǎo)致的。就算是同一個工廠同一條生產(chǎn)線的兩臺一樣的機器,如果購買的時間不一樣,機器的關(guān)鍵參數(shù)也會有所不同。這些問題都會影響最終的數(shù)據(jù)判斷,進而影響決策判斷。在互聯(lián)網(wǎng)數(shù)據(jù)的分析框架下,數(shù)據(jù)場景也許不會分得這么細,但都有具體的質(zhì)量問題需要解決。因此,數(shù)據(jù)場景非常重要,而在大部分數(shù)據(jù)庫中這些數(shù)據(jù)場景都是缺失的。
領(lǐng)域知識的挑戰(zhàn):在長期發(fā)展中,各行各業(yè)的專業(yè)知識大量累積,如何將專業(yè)知識與數(shù)據(jù)建模相結(jié)合仍是一個亟待解決的難題。數(shù)據(jù)技術(shù)驅(qū)動著各領(lǐng)域?qū)<彝瑫r扮演數(shù)據(jù)專家、算法專家及系統(tǒng)工程師的角色,不僅要熟悉本行業(yè)本專業(yè)的知識,還要掌握數(shù)據(jù)建模及分析能力。
數(shù)據(jù)隱私的挑戰(zhàn):數(shù)據(jù)隱私對于工業(yè)大數(shù)據(jù)特別重要。通常工業(yè)大數(shù)據(jù)并不是某一個單獨公司的數(shù)據(jù),包括了許許多多工序的數(shù)據(jù)。這些數(shù)據(jù)有些在供應(yīng)商,有些在客戶方手中。但是由于數(shù)據(jù)涉及到企業(yè)機密,有些企業(yè)可能不會共享數(shù)據(jù)。企業(yè)數(shù)據(jù)具有資產(chǎn)性質(zhì),能夠帶來經(jīng)濟價值,并且企業(yè)可以通過數(shù)據(jù)在市場中獲取利益。為了獲取競爭優(yōu)勢,企業(yè)往往不愿意共享資源,但為了獲取更多資源又提倡其他主體共享數(shù)據(jù)。數(shù)據(jù)隱私不僅僅是道德問題,而且牽扯到其他主體是否愿意共享數(shù)據(jù)。比如華為手機的制造,涉及產(chǎn)業(yè)鏈上的很多企業(yè),如果這些數(shù)據(jù)不聯(lián)合到一起,是很難將工業(yè)大數(shù)據(jù)做到極致的。
樣本稀缺的挑戰(zhàn):樣本稀缺似乎和目前海量數(shù)據(jù)的情形相互矛盾。事實上,看起來海量的數(shù)據(jù)只是一個幻覺。在真正進行數(shù)據(jù)分析時,我們會發(fā)現(xiàn)數(shù)據(jù)量是不夠的。目前,大多數(shù)企業(yè)的生產(chǎn)線已經(jīng)成熟,產(chǎn)品不良率極低,數(shù)據(jù)分布非常不均勻。以六西格瑪(6 Sigma)級別為例,在每百萬個產(chǎn)品中僅有3個次品。這導(dǎo)致收集的數(shù)據(jù)中,絕大多數(shù)是平穩(wěn)合格的產(chǎn)品數(shù)據(jù),能夠用于改善次品信息的不良產(chǎn)品數(shù)據(jù)量極少。而建模時針對的,恰恰是不良產(chǎn)品。因此,看似海量的數(shù)據(jù)中真正有效的數(shù)據(jù)其實極其稀缺。目前針對數(shù)據(jù)不均衡情況提出的一些解決方法中,有一些解決數(shù)據(jù)樣本比例為1∶9問題的方法,但在實際應(yīng)用中對這種數(shù)據(jù)極度稀缺且數(shù)據(jù)維度很高的問題還沒有很好的解決方案。
以上問題可能有些瑣碎,但都是實際存在的挑戰(zhàn),且這些挑戰(zhàn)對于產(chǎn)業(yè)、社會都具有很大影響。如何應(yīng)對這些挑戰(zhàn),是值得思考和研究的重點。
展望當今世界,質(zhì)量大數(shù)據(jù)的思想已經(jīng)遠遠超過了工業(yè)生產(chǎn)的范疇,在其他領(lǐng)域也得到了廣泛的拓展應(yīng)用。下面介紹3個大數(shù)據(jù)應(yīng)用實例,它們在不同程度上運用了質(zhì)量4.0、質(zhì)量大數(shù)據(jù)的思想,并且對實時數(shù)據(jù)的運用有較高要求,同時存在著部分尚待解決的挑戰(zhàn)。
實例A:地鐵客流及擁擠度監(jiān)控
隨著智能城市的發(fā)展,公共交通服務(wù)如URT系統(tǒng)(城市軌道交通系統(tǒng)),在人們的日常通勤和出行中扮演著越來越重要的作用。例如,香港的地鐵每天承運超過五百萬名乘客。眾所周知,突發(fā)事件可能導(dǎo)致異常人員流動,最壞的情況還可能導(dǎo)致踩踏事件的發(fā)生。這些突發(fā)事件可能包括交通事故、交通管制、慶典活動、抗議活動甚至災(zāi)難的發(fā)生。例如,2014年12月31日上海外灘跨年夜活動曾經(jīng)發(fā)生一起踩踏事件。我們不希望有此類事件再次發(fā)生,就需要對人流量與擁擠度進行預(yù)測與監(jiān)控。在這里,強調(diào)一定要進行預(yù)測,而不是等人流量已經(jīng)到達警戒線之后再進行警告,那時往往已經(jīng)太遲。因此,我們需要做到在人流量擁擠到警戒線之前進行預(yù)警。
擁擠度預(yù)測,對公共交通行業(yè)日益重要。我們需要根據(jù)乘客流量的數(shù)據(jù)(進站時間、出站時間、逗留時間等),預(yù)測站點發(fā)生擁擠的時刻,以便提前采取調(diào)流等措施減緩擁擠。在實例中部分站點涉及換乘問題,在建模時也應(yīng)一并考慮。我們在該項目中獲得了人群進出地鐵口的數(shù)據(jù),也就是說我們知道所有人在何時何地進入地鐵站,在何時何地從地鐵站走出來。理論上,我們可以知道人在地鐵站里如何通行,但由于隱私關(guān)系暫時沒有獲得這方面數(shù)據(jù)。我們當時獲得的數(shù)據(jù)是一個網(wǎng)狀的結(jié)構(gòu),可以分析在什么時間點、在哪個地鐵站可能造成擁擠。這個問題并不像很多人想象得那么簡單。數(shù)據(jù)是網(wǎng)狀結(jié)構(gòu),并不是在某一時間點進站的人多就會造成擁擠,其中包含了換乘乘客與出站乘客。因此,單看進站人數(shù)是不準確的,這是一個有趣的建模問題。在這個問題上還有很多內(nèi)容可以做,比如如果提供了監(jiān)視器的數(shù)據(jù),可以結(jié)合不同的數(shù)據(jù)源對人流量進行預(yù)估建模。目前,我們所做的只是一個開端。
實例B:大數(shù)據(jù)驅(qū)動的客戶滿意度指數(shù)——在線數(shù)據(jù)與問卷數(shù)據(jù)融合
關(guān)于工業(yè)大數(shù)據(jù)框架下客戶滿意度的調(diào)查問題,起源于密歇根大學(xué)早年研發(fā)出的顧客滿意度指數(shù)模型。這一框架沿用至今已二十余年,廣泛應(yīng)用于企業(yè)、國家層面的顧客滿意度指數(shù)調(diào)查。早期,該指數(shù)模型數(shù)據(jù)來源于調(diào)查問卷,而如今顧客滿意度不僅可以通過問卷獲得,還可以通過諸如社交網(wǎng)絡(luò)、網(wǎng)頁平臺等方式獲得。同時,對于企業(yè)產(chǎn)品不再局限于給出分數(shù),還可以對其進行評論。這些數(shù)據(jù)是海量實時的,并且問題的數(shù)據(jù)輸入可以是問卷調(diào)查形式,也可以是在線評論。
目前存在的問題,是如何融合問卷數(shù)據(jù)與在線數(shù)據(jù)。數(shù)據(jù)融合的形式有多來源和多模態(tài)形式。多來源表示不同來源的數(shù)據(jù)形式,而多模態(tài)表示不同形態(tài)的數(shù)據(jù)形式。有些人認為可以不要問卷的數(shù)據(jù),只用在線數(shù)據(jù),這在目前是行不通的。這不僅因為多模態(tài)數(shù)據(jù)比單模態(tài)數(shù)據(jù)能更好地進行評論有用性預(yù)測,而且問卷獲得的數(shù)據(jù)與在線獲得的數(shù)據(jù)數(shù)據(jù)源是不一樣的,獲得的信息也不同,用在線數(shù)據(jù)完全取代問卷數(shù)據(jù)仍是不可行的。比如問卷調(diào)查能收集每個維度的數(shù)據(jù),而在線數(shù)據(jù)只能收集部分維度的數(shù)據(jù),有些維度的數(shù)據(jù)是缺失的。因此,如何進行數(shù)據(jù)融合仍充滿挑戰(zhàn)。
實例C:山體滑坡安全監(jiān)測
該項目背景是統(tǒng)計過程監(jiān)控觀念的延伸。統(tǒng)計過程控制以前只用于生產(chǎn)線的監(jiān)控,隨著大數(shù)據(jù)技術(shù)的發(fā)展,現(xiàn)在可以用于更廣泛的產(chǎn)業(yè)。香港在斜坡管理方面做得比較好,設(shè)有斜坡管理署專門管理斜坡的安全,因此香港不少房子是修建在半山上的。但如果斜坡管理不好就可能因為土石流——大量巖石、泥土和碎石流下山坡,導(dǎo)致重大安全事故。
監(jiān)測斜坡安全的傳統(tǒng)方法是定期(一季、一年)挖深洞,以采集土壤數(shù)據(jù),研究土壤松弛程度。其缺點是,香港斜坡很多,該方法成本很昂貴,而且獲得的數(shù)據(jù)不是實時數(shù)據(jù)。我們提供的新方法是采用基于加速度計的傳感器系統(tǒng)來監(jiān)測和預(yù)測滑坡。具體方法是在現(xiàn)場設(shè)置多個傳感器,收集傳感器數(shù)據(jù),監(jiān)測有無地面擾動異常,用于預(yù)測滑坡發(fā)生,以提前采取措施減少事故發(fā)生和人員傷亡。目前,我們收集過一些數(shù)據(jù),在地震發(fā)生時斜坡監(jiān)控數(shù)據(jù)有明顯不同。如何根據(jù)數(shù)據(jù)監(jiān)控山體滑坡其實是一個很難的問題,因為它并不是純粹的數(shù)據(jù)監(jiān)控,還涉及土木專業(yè)關(guān)于土壤建立的一些模型和一些既有指標。由于需要跟土木專業(yè)高度結(jié)合,所以數(shù)據(jù)也需要與相關(guān)人員協(xié)作探索,與土壤性質(zhì)、山體性質(zhì)等要素結(jié)合使用。雖然進行滑坡和斜坡監(jiān)測與預(yù)測有不小的困難,但卻是非常有影響力的重要項目。
綜上所述,首先,大數(shù)據(jù)在工業(yè)領(lǐng)域被大量使用,并且其獲取幾乎是“免費”的、低成本的。但我們對這些數(shù)據(jù)僅僅做了部分淺層的探索,如何運用這些工業(yè)大數(shù)據(jù)是未來所面臨的挑戰(zhàn)之一。
其次,在數(shù)字化轉(zhuǎn)型范式下,質(zhì)量和質(zhì)量專業(yè)人員都面臨著巨大的機遇。我們可以進一步發(fā)掘方法從大數(shù)據(jù)中創(chuàng)造價值,如數(shù)據(jù)質(zhì)量和安全保證、大數(shù)據(jù)驅(qū)動過程和產(chǎn)品質(zhì)量監(jiān)控、改進和優(yōu)化、故障診斷和風(fēng)險管理、多種非結(jié)構(gòu)化數(shù)據(jù)源的融合、客戶滿意度管理、智能預(yù)測質(zhì)量等。
第三,盡管工具在不斷發(fā)展,數(shù)據(jù)探索智能化不斷提升,但人的參與對充分挖掘工業(yè)大數(shù)據(jù)的潛力仍至關(guān)重要。在數(shù)據(jù)科學(xué)和數(shù)據(jù)分析領(lǐng)域,尤其是在統(tǒng)計建模和機器學(xué)習(xí)過程中,人扮演著重要角色。例如,數(shù)據(jù)可視化、建立決策推斷系統(tǒng)、將質(zhì)量專家和高層管理人員的專業(yè)知識與實際數(shù)據(jù)相結(jié)合等,都對數(shù)據(jù)的充分挖掘起到了重要作用。
以上三點都非常重要,尤其是第三點?,F(xiàn)在智能化是熱點,但在智能化過程中人在扮演什么角色呢?目前,雖然軟硬件不斷進步,但是人仍在兩個方面發(fā)揮著重要的功能:一是建立模型,尤其是統(tǒng)計建模、機器學(xué)習(xí)。如何建立模型、如何進行數(shù)據(jù)分析,至少在未來二十年之內(nèi)仍然有很大前景,需要有數(shù)據(jù)科學(xué)專家、統(tǒng)計專家及行業(yè)專家將具體場景轉(zhuǎn)化為智能模型。二是如何將人的專業(yè)知識與模型結(jié)合起來。各行各業(yè)在過去累積了海量的專業(yè)知識,如何使用不同方法解決問題、如何將這些知識底蘊與現(xiàn)代數(shù)據(jù)科學(xué)相互結(jié)合、人的專業(yè)技能如何與人工智能強強互補等,都是需要深入探討的問題。
在質(zhì)量4.0下,我們面臨的不僅僅是機遇,也有挑戰(zhàn)。工業(yè)大數(shù)據(jù)在質(zhì)量4.0發(fā)展中的重要作用不可估量,而質(zhì)量4.0又是建設(shè)質(zhì)量強國路線圖上關(guān)鍵的一個階段。我們應(yīng)大力發(fā)展質(zhì)量4.0,通過充分利用工業(yè)大數(shù)據(jù),發(fā)掘數(shù)據(jù)背后的價值,促進產(chǎn)業(yè)的數(shù)字化,為建設(shè)質(zhì)量強國及轉(zhuǎn)型升級提供新動力。
(全文完)
(部分內(nèi)容已刊登Tsung, F.,"The Application of Industrial Big Data in Quality Innovation in the Context of Digital Transformation",Journal of Macro-Quality Research,Vol. 9, No. 3, 2021.)