王艷敏
2012年,沈為在美國羅德島州第一次參加CVPR會議。
如果有人朝你扔過來一個球,通常你會怎么辦?——當然是馬上把它接住。這個問題看似很簡單,但其背后有著一套非常復雜的處理過程:首先球進入人類的視網(wǎng)膜,經(jīng)過分析后,圖像的信號被發(fā)送到大腦,視覺皮層會更加徹底地去分析圖像,把它發(fā)送到剩余的皮質(zhì),與已知的任何物體相比較,進行物體類別和位置軌跡的分析,最終決定你下一步的行動:舉起雙手、接住球(之前已經(jīng)預測到它的行進軌跡)。上述過程只在零點幾秒內(nèi)發(fā)生,幾乎都是下意識的行為,很少會出差錯。然而對于想要重塑人類視覺的科學家來說,這卻是個待解的難題,因為他們要還原的是一系列環(huán)環(huán)相扣的過程。
如何讓計算機像人類那樣“看”?這便是計算機視覺學科研究最核心的問題。更確切地說,計算機視覺就是利用攝像機和計算機代替人類視覺:對同樣的視覺輸入信號(圖像、視頻),計算機視覺須與人類視覺得到同樣的識別與理解結(jié)果。
“隨著大數(shù)據(jù)時代的到來,人工智能被廣泛地應用到社會生活的各個方面。作為其重要的組成部分,計算機視覺已經(jīng)迎來了它最好的發(fā)展時機。”上海交通大學人工智能研究院副教授沈為說。為計算機添上眼睛,正是他為之奮力拼搏的事業(yè)。
“曾任美國約翰斯·霍普金斯大學助理研究教授”“在計算機視覺相關領域的頂級學術(shù)會議和期刊上發(fā)表論文50余篇,包括IEEE TPAMI、IEEE TMI、CVPR、ICCV等,論文在Google Scholar上被引用3700余次”“曾先后主持國家自然科學基金青年基金和面上項目”“獲上海市教委‘晨光計劃’,上海大學蔡冠深優(yōu)秀教師獎”“任SCI期刊Neurocomputing編委”……翻開沈為的簡歷,滿滿的都是他耀眼的經(jīng)歷和所取得的非凡成就。當被問及奧秘何在,沈為的回答很簡單:“無非兩點——興趣加堅持?!?/p>
2003年,沈為以優(yōu)異的成績被華中科技大學信息與通信工程專業(yè)錄取??缮蠈W后,他卻發(fā)現(xiàn)這個專業(yè)并沒有想象中有意思?!巴ㄐ殴こ谈嗟氖桥c信號、聲波、頻段相關,這些東西看不見摸不著,無法切實感受到。而計算機視覺是進行圖像處理,所見即所得,這讓我萌發(fā)了轉(zhuǎn)變學習方向的想法。”沈為說。本科畢業(yè)后,他申請到本校的博士。在讀博期間受白翔教授的影響,他初次領略到計算機視覺之美,也是在白翔教授的推薦下,他前往微軟亞洲研究院實習?!霸谀抢?,我遇到了生命中的另一位恩師——屠卓文教授?!鄙驗檎f。
微軟亞洲研究院是微軟公司在亞太地區(qū)設立的基礎及應用研究機構(gòu),也是微軟在美國本土以外規(guī)模最大的研究機構(gòu),被戲稱為“中國計算機視覺和機器學習的黃埔軍?!薄W鳛槲④泚喼扪芯吭焊呒壯芯繂T、加州大學圣地亞哥大學教授,屠卓文在國際機器視覺方面擁有很高的權(quán)威性。在屠卓文的影響下,沈為開始了機器學習,這進一步激發(fā)了他的研究興趣。
博士畢業(yè)后,沈為來到上海大學,成為該校的一名老師。除了授課,沈為將大部分時間都花在實驗室里。這期間,他先后開展了國家自然科學基金青年項目“基于有監(jiān)督學習的自然圖像中骨架提取和物體識別研究”及面上項目“基于自然圖像中深度形狀特征提取的一般物體檢測研究”的研究。
魯梅爾哈特獎獲得者、印第安納大學的心理學和認知科學教授Linda B. Smith指出形狀在人眼識別目標的過程中發(fā)揮著比其他特征更為重要的作用。就如不到兩歲的人類小孩,看到彎曲的弧線就會聯(lián)想到月亮。沈為的項目研究正是基于這一理念所開展,他希望構(gòu)建基于形狀描述符的圖像中物體檢測與識別視覺系統(tǒng)。圖像中形狀描述符,包括輪廓和骨架等。瑞典皇家理工學院計算機系教授Tony Lindeberg指出這些形狀描述符為物體存在的位置提供了假設,即這里可能存在這樣大小的一個事物(“there might be something there of about that size”)。從圖像中提取形狀描述符,其難度在于如何區(qū)分真實目標的形狀特征和由復雜背景產(chǎn)生的干擾。以輪廓檢測為例,美國工程院院士Jitendra Malik曾專門撰文定義輪廓和邊緣的區(qū)別:輪廓是物體與物體之間的邊界,而邊緣是圖像中底層特征,如亮度、顏色和紋理的快速變化產(chǎn)生的。這兩者有關聯(lián),但是并不相同。前者具有一定的語義性,而后者還包含很多語義無關的信號。在兩項國家自然科學基金的項目研究中,沈為系統(tǒng)地建立了一套從物體形狀分析、目標形狀特征提取到形狀表征引導的目標分割與識別的計算機制和方法,有效推動了場景文字檢測與識別等相關應用的發(fā)展。
“吾生也有涯而知也無涯”,為了進一步開闊眼界,2016年,沈為遠赴美國約翰斯·霍普金斯大學計算機科學系進行交流學習,從2018年起在計算機科學系任助理研究教授,與艾倫·尤勒教授共事。沈為說:“艾倫·尤勒是著名物理學家史蒂芬·霍金的學生,人工智能領域的先驅(qū)。他為人親切隨和,與學生相處時,并不以老師自居,而是作為朋友進行交流。由于知識豐富、經(jīng)驗充足,他在學術(shù)上常常有自己獨到的見解?!痹趯W生中有這樣一種說法,能成為艾倫·尤勒的學生,上輩子一定是天使??梢娔塬@得他的指導,何其幸運!在艾倫·尤勒的幫助下,沈為學到了很多,這其中之一便是醫(yī)學影像處理技術(shù)。
和IEEE TPAMI主編Sven Dickinson(右一)在約翰斯·霍普金斯大學的合影
約翰斯·霍普金斯醫(yī)學院是美國數(shù)一數(shù)二的醫(yī)學研究機構(gòu),艾倫·尤勒教授帶領團隊開展了多項關于醫(yī)學方面的重大研究。沈為有幸參與了基于CT影像的早期胰腺癌診斷的項目研究,并提出了多項CT影像中胰腺腫瘤分割技術(shù):針對早期胰腺導管癌腫瘤在CT影像中的征象不明顯的問題,提出了基于胰管形狀建模與形變估計的胰腺導管癌腫瘤定位方法,實現(xiàn)在不降低特異性的情況下,將早期胰腺導管癌診斷敏感性提升了3%;針對雙脈相CT圖像融合難題,提出深度特征空間中CT圖像雙脈相配準方法,實現(xiàn)基于雙脈相融合的胰腺導管癌腫瘤分割方法,大幅提高胰腺導管癌腫瘤分割精度;針對腫瘤像素級標注耗時長、花費高等痛點問題,提出基于圖像級標注的胰腺腫瘤分割方法,通過引導式注意力機制,構(gòu)建像素級標注與圖像級標注的橋梁,在弱監(jiān)督下,實現(xiàn)與全監(jiān)督下相當?shù)囊认倌[瘤分割精度,可大幅減少醫(yī)生的標注工作……
2020年8月,沈為回到了祖國,把上海交通大學人工智能研究院作為他工作的新起點。雖然還需要時間適應新環(huán)境,但沈為已開始著手組建團隊、挖掘項目資源等,此外,他還有一項重要的工作需要完成——擔任2022年國際計算機視覺與模式識別大會(CVPR 2022)領域主席。
CVPR是世界頂級的計算機視覺會議,近年來參會人數(shù)高速增長,2019年參會人數(shù)接近1萬人。CVPR有著較為嚴苛的錄用標準,近幾年錄取率不超過25%,而口頭報告的論文比例更是不高于5%。大會的領域主席通常由程序主席指定,起著承上啟下的關鍵作用,在某種程度上直接決定了自己分管的20~30篇文章的命運。因此,領域主席一般都是由業(yè)內(nèi)頗有建樹、有判斷力的專家學者擔任。
成為CVPR的領域主席,對沈為而言既是一種責任,也是一種肯定。2011年,還在讀博的沈為給CVPR投了第一篇論文,到如今成為程序主席負責審稿,角色轉(zhuǎn)變的背后有著太多的艱辛與付出!“紙上得來終覺淺,絕知此事要躬行”,在接下來的時光里,沈為希望能從“紙上”走出去,實現(xiàn)相關技術(shù)的成果轉(zhuǎn)化,為推動我國計算機視覺產(chǎn)業(yè)的發(fā)展貢獻一份自己的力量!