找姜育剛不易,尤其要讓他同意接受采訪更不易。盡管是當下炙手可熱的人工智能分支——計算機視覺領域——頗具影響力的學者,但上網查一下姜育剛的媒體采訪信息并不多。幾周前,他應啟明星協(xié)會之邀參加了一次人工智能主題的星友早餐會,那次會上他作了主導發(fā)言,內容豐富,涉及當下大家感興趣的人工智能與各行業(yè)的結合,怎么看ChatGPT帶來的機遇與挑戰(zhàn)等。也是在那次會上我約他作啟明星專訪,他同意了。我理解這個同意的背后是一份信任,對啟明星協(xié)會,對采訪者的信任。采訪是在復旦大學邯鄲路校區(qū)綜合樓內人事處一間會議室,去年起復旦大學人事處處長成了他的新職,而計算機科學技術學院教授、博士生導師,上海市智能視覺計算協(xié)同創(chuàng)新中心主任這些名分下的工作也要占用他大量的時間。這是我和姜育剛的第二次見面,睿智的目光、彬彬有禮的舉止再次加深了我對他的印象。
我們的評測結果要與全球同行比高低
姜育剛,1981年生于遼寧省鐵嶺市。按啟明星采訪慣例,我本要求他談一下從小求學經歷有些什么故事,但他用“很簡單”一筆帶過,而建議把重點放到與專業(yè)的關聯(lián)上。姜育剛博士就讀于香港城市大學,導師是楊宗樺教授。楊教授是馬來西亞籍華人,是在多媒體信息處理領域頗有影響力的學者,也是姜育剛真正進入視頻(那時主要是電影電視內容)處理領域的領路人?!澳菚r的視頻分析主要是以鏡頭為單位來識別內容,訓練計算機對每個鏡頭包含的物體、場景等一一分類打標簽。這種機器識別的語義信息對后期視頻檢索非常有用,也是當時很前沿的方向。”姜育剛介紹,如果沒有辦法打標簽,不斷增長的視頻素材只能大量積壓,查找起來就會十分困難。傳統(tǒng)視頻是分鏡頭的,檢索的單位就是鏡頭,所謂打標簽就是讓計算機自動識別一個鏡頭中存在的場景、物體,比如人、車、下雨、下雪等。有了標簽就可以實現(xiàn)自動化的檢索,這在當時是一個極具挑戰(zhàn)的課題。
具體談到視頻檢索這個課題及課題的來源時,姜育剛說該項課題與很多需要研究者自己去找問題并設法求解的研究模式不同?!耙曨l檢索課題不是我去找的,而是美國國家標準與技術研究院(NIST)定義的,并向全世界這個領域的研究者公開征求答案。我讀博期間一上手就是這個課題。這個課題的評測是對全球開放的,組織者NIST實際上是想通過公開評測來知道世界上有多少能做這類研究的團隊及其技術水準。這種具有挑戰(zhàn)性的征集方式吸引了全球這方面的專業(yè)人士。NIST每年會公布數(shù)據(jù),啟動這樣的評測。評測優(yōu)勝者會受邀參加每年10—11月在馬里蘭州的研討會。我參加過好幾次研討會。這種視頻檢索評測的運作已有多年,也已經成體系了,極大推動了這一領域的技術革新?!苯齽傆眠@段經歷想說明他不是通過自己找到問題進入研究之門,而是通過做給定的重要問題,追求更好的結果來開展研究。在姜育剛看來,這種在公開選拔賽中勝出的難度極大,因為你的結果要與全球同行直接正面交鋒比試,做得不好后續(xù)文章都很難發(fā)出來。2005年底開始進入這個評測領域的姜育剛說他也是在當時的技術體系下,跟著楊老師花了很長時間,搞清楚技術、工程細節(jié),摸清門道后才敢上手。2006年首次嘗試后,2007年二次參賽的姜育剛的成績排在全球前5位,這個成績對于領域新人是一個很不錯的結果。“經驗特別重要,2006年做完了會公布結果,2007年做的時候就可以借鑒2006年的經驗去找到自己可以攻克的點,幫助你拿到更好的結果。持續(xù)參加這個評測的好處是讓你始終盯著這個方向,始終處于前沿位置?!?/p>
2007年,姜育剛和卡內基 · 梅隆大學的華人學者楊俊合作發(fā)了兩篇文章,他們從頭至尾梳理了當時NIST視頻識別評測的技術體系及方法的優(yōu)化,總結了很多經驗。這兩篇文章被引超2 000次。這個過程中姜育剛從楊俊那里學到很多經驗?;?007年的研究結果,2008年繼續(xù)參賽的香港城市大學團隊拿到了全球第一名的佳績,值得一提的是2008年,IBM沃森研究院、卡內基 · 梅隆大學等單位都參與了,是一次全球高手云集的比試。
在一流大學團隊得到重要的能力訓練
2008年4月,由楊老師推薦并在香港政府獎學金支持下,姜育剛去美國哥倫比亞大學數(shù)字視頻與多媒體實驗室訪學一年。2008—2009年在哥大訪問的姜育剛參與了當時哥大團隊的無人機視頻分析項目。在十多年前,既沒有這么多的高性能計算集群,也沒有大量標注好的視頻數(shù)據(jù)集,所以視頻分析尤其是這種航拍視頻分析是十分具有挑戰(zhàn)性的。這個項目需要對航拍視頻中的物體及物體行為進行識別。然而,高空拍攝的干擾因素很多,如陽光陰影、目標很小等都會對識別構成挑戰(zhàn)。育剛也為此開發(fā)了一個用于人、車、噪聲干擾等識別的工具,譬如陰影等干擾因素怎么篩除等。這一分類工具得到了好評。姜育剛回憶道:“在哥大期間一直在做大項目,經常干到下半夜。對人的鍛煉很大,學到很多東西?!?/p>
2009年博士畢業(yè)后,姜育剛在哥大同一團隊繼續(xù)從事博士后研究。他尤其提到哥大的博士后合作導師張世富(Shih-Fu Chang,現(xiàn)任哥大工學院院長、美國國家工程院院士)對他的影響和幫助:“我和導師經常交流,每次一般不少于一小時,這種交流很燒腦,他會不停地問你各種細節(jié)問題,因此你要很認真地準備和回答,包括為什么要用這個方法,為什么要這么做,細節(jié)是什么等等,每一步都要回答,每一步要有依據(jù)?;剡^頭來想,正是這個過程幫助我去理思路,選問題,選方案,然后反復去想方案的合理性。經過這樣歷練,我以后不管什么答辯碰到提問都沒有發(fā)怵過。這真的是一種能力的訓練。”
學成回國前的2010年,姜育剛還參加了一個互聯(lián)網視頻內容分析的項目。當時互聯(lián)網視頻已經越來越普及,這個項目的目的是通過分析互聯(lián)網視頻中的內容,來了解互聯(lián)網輿情。2010年,NIST在評測中加入了互聯(lián)網視頻識別賽道,姜育剛牽頭開發(fā)的系統(tǒng)首次參賽就拿了第一名,高于IBM等所有參與團隊。這個結果公布后他的導師非常開心,不想讓他走,極力挽留,但姜育剛還是如期回到了國內?!盎叵肫饋?,我覺得自己很幸運,當年選擇了一個自己喜歡的方向,遇到了很好的導師和合作者,這么多年從來沒有放棄過,一直在視頻分析領域深入鉆研,在評測數(shù)據(jù)集構建、核心算法研發(fā)以及成果應用幾個方面都做了一些有意義的工作?!?/p>
復旦團隊是國際上這一領域的第一梯隊
2011年姜育剛作為引進人才受聘于復旦大學計算機科學技術學院。入職復旦的十多年來,育剛的崗位、職務多有變動,從復旦大學計算機科學技術學院院長、軟件學院院長到校人事處處長,以及上海市智能視覺計算協(xié)同創(chuàng)新中心主任、國家科技創(chuàng)新2030“新一代人工智能”重大項目負責人等。其研究領域也隨著承擔不同任務有所側重,包括多媒體信息處理、計算機視覺、魯棒可信人工智能等。但是,他的科研主軸主線基本上還是在視頻內容識別方面,用他的話說就是專注于計算機視覺、圖像視頻處理和內容識別領域的研究。也因為這種堅持和堅守,復旦團隊一直位居國際上視頻識別領域的第一梯隊。在2014年美國電氣與電子工程師協(xié)會國際多媒體與博覽會(IEEE ICME)移動端視覺識別挑戰(zhàn)賽中,團隊獲得了最佳精度獎;在歐洲MediaEval評測中,團隊2014年、2015年蟬聯(lián)暴力視覺內容識別任務第一名;在2016年國家網信辦指導的全國網絡輿情分析技術邀請賽中,團隊獲得特定視頻識別賽道金獎;在2019年谷歌公司主辦的YouTube-8M全球最大規(guī)模視頻識別挑戰(zhàn)賽中,團隊獲得全球第二名(亞洲第一)。這都是他們多年來在這個競爭特別激烈的領域始終專注、未敢半點懈怠才能得到的結果。育剛也因此獲得2019年度上海市青年科技杰出貢獻獎、2022年度國際模式識別學會會士(IAPR Fellow)等榮譽。
從ChatGPT技術的火爆引出的話題
原定的采訪時間已經過了一刻鐘,姜育剛還是很有耐心地回應我關于下一步互聯(lián)網視頻分析的走向,以及怎么看近期火熱的ChatGPT技術等問題。育剛說:“互聯(lián)網視頻分析目前的類別標簽已上萬,打的標簽越多對內容的索引越周全,這樣要什么就可抓取什么。在今天的自媒體內容生成時代,一個重要的用途是通過標簽可以識別使用者的喜好,諸如軍事、科技、文化、飲食等每一個個體感興趣的內容,都可以推送到個體,實現(xiàn)千人千面、精準推薦。近期備受關注的大語言模型展現(xiàn)出了令人矚目的通用智能能力,但它也存在許多局限性。例如,它缺乏事實依據(jù),經常生成不合實際的內容。它是通過大量數(shù)據(jù)學習詞語之間的依賴關系而生成內容的。然而,它并不了解這些句子后面的許多事實依據(jù)。微軟已經嘗試將其搜索引擎與大語言模型結合起來,這是一個很好的方向。因為搜索引擎所找到的基本上都是事實,這樣控制生成內容的范圍就可以避免憑空捏造。”
姜育剛認為,當前,文本大模型已經得到了廣泛的研究和應用,接下來的發(fā)展方向將是多模態(tài)大模型,即結合語言信息更好地理解以及生成視聽覺數(shù)據(jù)。盡管視覺數(shù)據(jù)的細粒度理解和生成很難,目前的結果還不盡理想,但這是一個非常重要的發(fā)展方向。目前來看,多模態(tài)大模型有兩個重要方向:(1)如何結合文本模型對視覺數(shù)據(jù)完成更高精度的內容識別?比如通過對已經發(fā)生事件的語義總結并結合視覺信息對未來可能發(fā)生的事件做一個預測和推理;(2)如何生成時序連貫、細節(jié)清晰的視頻?現(xiàn)有的一些工作生成的視頻幀不夠連貫、也不夠清晰,生成具有時序一致性的視頻也是目前的研究熱點。
擁抱人工智能技術的同時也要善于趨利避害
近年來,姜育剛在多個場合呼吁發(fā)展可信人工智能,保障人工智能健康發(fā)展。幾周前的那次啟明星早餐會上,姜育剛有一段話說得很到位,這里我借用過來作為本篇采訪的結語:“21世紀初,當我開始攻讀博士學位時,人工智能發(fā)展并不順利,技術水平不夠好,應用受限,研究人員也相對不多。得益于2010年以來深度學習等諸多技術突破,人工智能領域取得了非常迅猛的發(fā)展。特別在數(shù)據(jù)、算法、算力這三要素均衡提升之后,人工智能領域的應用迎來了爆發(fā)式的增長,給各行各業(yè)帶來深遠的影響。我個人認為人工智能未來的發(fā)展速度將更加迅猛。當然,我們在擁抱人工智能的同時也要趨利避害,處理好數(shù)據(jù)安全、知識產權、科技倫理等挑戰(zhàn)。只有做到安全、可靠、可控,才能走得更穩(wěn)、更遠?!?/p>
江世亮采寫于2023年6月22日