李 剛
王鵬在巴黎
在復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,有一個(gè)人每天早晨不到7點(diǎn),就早早來到辦公室忙碌,有時(shí)是查閱科研資料,有時(shí)是處理未完成的工作,有時(shí)只是靜靜思考一些科研中沒有解決的難點(diǎn),他就是復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授王鵬。
辦公室可以說是王鵬最常“打卡”的地方,他每天都要處理大大小小多達(dá)幾十件事情,弦繃得緊緊的,有時(shí)候忙起來經(jīng)常不知早晚。盡管做的工作很費(fèi)腦筋,神經(jīng)時(shí)常處于高度緊張狀態(tài),但對(duì)王鵬來說,能夠做有意義的事情,就是自身價(jià)值的最好體現(xiàn)。
多年來,王鵬一直在工業(yè)物聯(lián)網(wǎng)大數(shù)據(jù)、智能運(yùn)維等研究方向上潛心鉆研。他帶領(lǐng)團(tuán)隊(duì)對(duì)數(shù)據(jù)進(jìn)行高效的收集、存儲(chǔ)、處理和應(yīng)用,充分發(fā)揮出數(shù)據(jù)應(yīng)有的作用?!拔覀兯龅难芯恳粊硎且獙?duì)工業(yè)大數(shù)據(jù)進(jìn)行管理,包括如何存儲(chǔ)、查詢數(shù)據(jù);二來就是要對(duì)收集到的數(shù)據(jù)進(jìn)行分析,比如工業(yè)生產(chǎn)中遇到故障需檢測(cè)時(shí),這就需要通過對(duì)數(shù)據(jù)進(jìn)行分析來發(fā)現(xiàn)和診斷故障?!焙喍處拙湓?,看似王鵬已經(jīng)將自己的科研工作介紹完畢,但背后往往是常人難以想象的付出與堅(jiān)持。尤其近年來,“大數(shù)據(jù)”一詞“火”遍國內(nèi)外,其影響力之大,已經(jīng)滲透到各行各業(yè)。在各種數(shù)據(jù)呈爆炸性增長的同時(shí),傳感器網(wǎng)絡(luò)、物聯(lián)網(wǎng)、云數(shù)據(jù)中心、移動(dòng)互聯(lián)網(wǎng)等多種新技術(shù)的發(fā)展也相應(yīng)推動(dòng)了監(jiān)測(cè)型應(yīng)用的快速發(fā)展,并迅速積累了海量的監(jiān)測(cè)型時(shí)間序列歷史數(shù)據(jù),這對(duì)如何高效查詢和分析處理這些數(shù)據(jù)提出了更高要求。“如何快速查詢處理數(shù)據(jù)和有效分析數(shù)據(jù),是我們正在做也一直會(huì)做的事情?!蓖貔i堅(jiān)定地表示。
采訪過程中,“數(shù)據(jù)管理”是王鵬提到次數(shù)最多的詞。要知道,過去計(jì)算機(jī)一般都以計(jì)算為中心,而近年來,眾多領(lǐng)域的專家學(xué)者都逐漸認(rèn)識(shí)到了數(shù)據(jù)的重要性。在新的科學(xué)時(shí)代面前,傳感器網(wǎng)絡(luò)和物聯(lián)網(wǎng)、工業(yè)4.0、云數(shù)據(jù)中心、移動(dòng)互聯(lián)網(wǎng)等一大批新技術(shù)得到了快速發(fā)展,也造成了機(jī)器產(chǎn)生的時(shí)序數(shù)據(jù)的爆發(fā)式增長。面對(duì)大規(guī)模的監(jiān)測(cè)型時(shí)間序列歷史數(shù)據(jù),科學(xué)家意識(shí)到數(shù)據(jù)的應(yīng)用早已超過傳統(tǒng)計(jì)算的范圍,從這些海量數(shù)據(jù)中尋找科學(xué)規(guī)律,并對(duì)數(shù)據(jù)進(jìn)行高效的查詢和分析處理變得越來越重要,這也正是王鵬團(tuán)隊(duì)亟須解決的問題。
王鵬表示,機(jī)器產(chǎn)生的數(shù)據(jù)和互聯(lián)網(wǎng)上的主要由人產(chǎn)生的數(shù)據(jù)存在很多的不同。對(duì)海量機(jī)器數(shù)據(jù)的加工和處理存在著諸多困難。之前大多數(shù)做法僅是將數(shù)據(jù)收集到數(shù)據(jù)庫里,收集之后卻不知該如何處理。這些數(shù)據(jù)不僅不能發(fā)揮作用,反而會(huì)成為新的負(fù)擔(dān)。并且,機(jī)器數(shù)據(jù)有其獨(dú)特之處。在監(jiān)測(cè)型應(yīng)用中被監(jiān)測(cè)的對(duì)象不僅結(jié)構(gòu)復(fù)雜多樣,其數(shù)據(jù)還具有海量、異構(gòu)、低質(zhì)等特性,這些特點(diǎn)無疑對(duì)數(shù)據(jù)的管理、查詢和分析都提出了更大的挑戰(zhàn)。
科研中遇到的困難和挑戰(zhàn)并不可怕,王鵬從2016年開始,就帶領(lǐng)團(tuán)隊(duì)展開對(duì)國家自然科學(xué)基金“大規(guī)模監(jiān)測(cè)型時(shí)間序列歷史數(shù)據(jù)的查詢和分析關(guān)鍵技術(shù)研究”這一項(xiàng)目的探索,希望能在監(jiān)測(cè)型時(shí)序數(shù)據(jù)的處理和大數(shù)據(jù)查詢分析等方面尋找到新的突破。
談起與數(shù)據(jù)打交道,王鵬回憶:那是源于進(jìn)入21世紀(jì)后,以物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)為代表的新一代信息技術(shù)快速發(fā)展,他發(fā)現(xiàn)研究數(shù)據(jù)對(duì)未來多種行業(yè)的發(fā)展很有必要。恰巧那時(shí)“智慧城市”興起,它同樣是一種運(yùn)用新一代信息集成技術(shù)促進(jìn)城市規(guī)劃、建設(shè)、管理和服務(wù)智慧化的新理論和新模式。大數(shù)據(jù)在“智慧城市”建設(shè)中扮演很重要的角色,王鵬介紹,他所做的項(xiàng)目研究與“智慧城市”有異曲同工之處。例如,團(tuán)隊(duì)以橋梁為研究對(duì)象,他們基于橋梁健康監(jiān)測(cè)等實(shí)際應(yīng)用需求出發(fā),分別從統(tǒng)一的數(shù)據(jù)表示模型、數(shù)據(jù)組織方式、查詢處理和分析處理4個(gè)方面展開研究。幾年來團(tuán)隊(duì)所做的努力對(duì)監(jiān)測(cè)型數(shù)據(jù)處理和大數(shù)據(jù)查詢分析研究產(chǎn)生了重要的推動(dòng)作用,并應(yīng)用到多個(gè)大型橋梁上,為橋梁的健康養(yǎng)護(hù)提供了快速的數(shù)據(jù)支持。
王鵬在德國參加達(dá)堡論壇時(shí)與參會(huì)人員的合影
數(shù)據(jù)作為重要且寶貴的資源與財(cái)富,不僅是科研的戰(zhàn)略高地,也正在一點(diǎn)點(diǎn)改變科研工作者的研究方式,通過對(duì)大數(shù)據(jù)的深入挖掘,取得新的科學(xué)發(fā)現(xiàn)已經(jīng)成為數(shù)據(jù)研究領(lǐng)域的主流研究手段,諸如人類基因組計(jì)劃、全球變化研究等,浩瀚的數(shù)據(jù)量正不斷產(chǎn)生著重要的科學(xué)發(fā)現(xiàn)。
近幾年來,王鵬團(tuán)隊(duì)取得的重要科學(xué)發(fā)現(xiàn)集中于針對(duì)時(shí)序數(shù)據(jù)的查詢和分析,他們所研究的時(shí)間序列數(shù)據(jù)是在一系列的時(shí)間點(diǎn)上所觀測(cè)到的數(shù)值序列,其廣泛存在于商業(yè)、金融及科學(xué)研究等多個(gè)領(lǐng)域。而監(jiān)測(cè)型時(shí)間序列數(shù)據(jù),可簡單看做是通過外部的表征現(xiàn)象來觀測(cè)被監(jiān)測(cè)對(duì)象的內(nèi)部機(jī)理,這種觀測(cè)最主要的目的是要在時(shí)間序列數(shù)據(jù)、被監(jiān)測(cè)對(duì)象內(nèi)部狀態(tài)和外部影響因素三者之間建立起一座查詢與分析的橋梁,進(jìn)而了解被監(jiān)測(cè)對(duì)象的內(nèi)部狀態(tài)和外部影響因素。
為了搭建好觀測(cè)數(shù)據(jù)之橋,研究過程中,王鵬團(tuán)隊(duì)一一克服了被監(jiān)測(cè)對(duì)象規(guī)模龐大、結(jié)構(gòu)復(fù)雜、狀態(tài)多樣等多種難題?!捌渲斜O(jiān)測(cè)型時(shí)間序列數(shù)據(jù)的復(fù)雜性為我們對(duì)數(shù)據(jù)的查詢與分析帶來極大的挑戰(zhàn)?!被叵肫鹉嵌渭w奮戰(zhàn)的日子,王鵬仍歷歷在目。他提到,監(jiān)測(cè)型時(shí)間序列數(shù)據(jù)的復(fù)雜性主要表現(xiàn)為海量、異構(gòu)、低質(zhì)3方面,想要在實(shí)際應(yīng)用中對(duì)海量的監(jiān)測(cè)型時(shí)間序列進(jìn)行處理,就需要針對(duì)這3方面復(fù)雜性表現(xiàn),建立一種集內(nèi)部狀態(tài)、外部影響因素于一體的數(shù)據(jù)統(tǒng)一表示模型,并在此基礎(chǔ)上進(jìn)一步研究高效的分布式數(shù)據(jù)組織技術(shù)、查詢處理技術(shù)和分析技術(shù),從而建立相應(yīng)的原型系統(tǒng),來實(shí)現(xiàn)對(duì)海量監(jiān)測(cè)型時(shí)間序列的處理需求。
為此,在王鵬團(tuán)隊(duì)的努力下,他們?cè)跁r(shí)間序列數(shù)據(jù)處理方面取得了多項(xiàng)研究成果。團(tuán)隊(duì)在時(shí)間序列相似性查詢方面提出的DSTree、KV-match等方法,受到國際同行的認(rèn)可,在數(shù)據(jù)庫頂級(jí)會(huì)議VLDB上,團(tuán)隊(duì)發(fā)表的綜述論文提出的DSTree索引被推薦為相似性查詢的最佳算法。并且,因?yàn)樵谠擃I(lǐng)域的貢獻(xiàn),王鵬被邀請(qǐng)參加了2019年在德國舉辦的以“Data Series Management(序列數(shù)據(jù)管理)”為主題的達(dá)堡論壇(Dagstuhl Seminar)。達(dá)堡論壇是世界頂級(jí)的計(jì)算機(jī)領(lǐng)域研討論壇。王鵬團(tuán)隊(duì)提出的pHMM時(shí)間序列狀態(tài)切分發(fā)表在數(shù)據(jù)庫領(lǐng)域頂級(jí)會(huì)議SIGMOD上,并在后續(xù)的多個(gè)領(lǐng)域Tutorial(教程指南)上被介紹。
新技術(shù)的研發(fā)是為了什么?在王鵬心中,沒有什么比研究成果落地更重要的了。團(tuán)隊(duì)提出的分類算法、相似查詢算法、狀態(tài)切分算法等,相繼應(yīng)用到高鐵、船舶、衛(wèi)星、橋梁等多個(gè)重要制造領(lǐng)域和基礎(chǔ)設(shè)施領(lǐng)域。例如,在高鐵軌道的異常檢測(cè)中,被用于軌道多波不平順、路基拱起等多種異常情況;在衛(wèi)星測(cè)試中,被用于進(jìn)行衛(wèi)星工況的自動(dòng)識(shí)別和閾值動(dòng)態(tài)調(diào)整。
為了讓大數(shù)據(jù)分析的理論和算法的珍貴科研果實(shí)有更廣泛的實(shí)用價(jià)值,王鵬近年來也在思考如何形成面向個(gè)性化、服務(wù)化和智能化等模式的企業(yè)制造大數(shù)據(jù)分析算法庫及開發(fā)系統(tǒng),以及系統(tǒng)開發(fā)成功后又該怎么與企業(yè)特點(diǎn)相結(jié)合,以此來解決企業(yè)在實(shí)際應(yīng)用過程中出現(xiàn)的問題。
從2020年開始,王鵬帶領(lǐng)團(tuán)隊(duì)展開新項(xiàng)目“制造大數(shù)據(jù)分析關(guān)鍵技術(shù)與算法”的研究,目前已經(jīng)取得一系列階段性成果。例如,團(tuán)隊(duì)針對(duì)制造業(yè)領(lǐng)域和數(shù)據(jù)的特點(diǎn),就制造業(yè)大數(shù)據(jù)中存在的多階段跨時(shí)空尺度等問題進(jìn)行開拓創(chuàng)新,包括以數(shù)據(jù)耦合的形態(tài)定義為基礎(chǔ),梳理和研究制造領(lǐng)域數(shù)據(jù)耦合關(guān)聯(lián)的整體分類和方法等,相關(guān)方法可以為離散和流程制造領(lǐng)域中的預(yù)測(cè)性維護(hù)、異常診斷溯源等提供一種新的解決方法。團(tuán)隊(duì)還創(chuàng)新性地將機(jī)理和數(shù)據(jù)模型兩者融合在一起,為制造業(yè)中裝備的缺陷檢測(cè)、故障溯源、性能預(yù)測(cè)評(píng)估等提供了一種有針對(duì)性的精準(zhǔn)服務(wù)模式。
在王鵬看來,科研團(tuán)隊(duì)的成長與進(jìn)步離不了“創(chuàng)新”二字。在團(tuán)隊(duì)培養(yǎng)方面,王鵬也時(shí)常強(qiáng)調(diào)要用創(chuàng)新的思維展開研究,同時(shí),創(chuàng)新也要?jiǎng)?wù)實(shí),要能切實(shí)解決實(shí)際問題。這種思想也被帶進(jìn)了王鵬的教學(xué)中,形成了一套清晰的教學(xué)邏輯?!芭囵B(yǎng)學(xué)生就要讓學(xué)生明白自己在做哪些研究,需要解決哪些問題,這樣才能有針對(duì)性地去創(chuàng)新,去思考,明白該從哪些角度研發(fā)新技術(shù)來解決問題?!蓖貔i表示。
從事數(shù)據(jù)管理與分析的這些年,數(shù)據(jù)時(shí)時(shí)刻刻都在王鵬的頭腦中盤旋,他也一直想要在數(shù)據(jù)管理與分析的研究中找到更多的突破口。馬克思曾說過:“在科學(xué)上沒有平坦的大道,只有不畏勞苦沿著陡峭山路攀登的人,才有希望達(dá)到光輝的頂點(diǎn)?!睍r(shí)光匆匆,盡管已經(jīng)研究數(shù)據(jù)多年,但王鵬追尋數(shù)據(jù)光亮的赤忱始終未變,他也會(huì)帶著最寶貴的科研初心,繼續(xù)沿著數(shù)據(jù)之光前行。