亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        又一通用模型發(fā)布SAM是如何做到“分割一切”的

        2023-04-20 17:40:31裴宸緯
        科學導報 2023年25期
        關鍵詞:科研人員物體編碼

        裴宸緯

        SAM是一類處理圖像分割任務的通用模型。與以往只能處理某種特定類型圖片的圖像分割模型不同,SAM可以處理所有類型的圖像。相比于以往的圖像分割模型,SAM可以識別各種輸入提示,確定圖像中需要分割的內(nèi)容,還可以靈活集成到虛擬現(xiàn)實/增強現(xiàn)實等其他系統(tǒng)中,且目前對于一些它未見過或相對模糊的場景,也能實現(xiàn)較好的圖像分割效果。

        最近一段時間,人工智能通用模型領域頻現(xiàn)“爆款”。4月,Meta公司發(fā)布了一款名為“Segment Anything Model”(SAM)的通用模型,號稱可以“零樣本分割一切”。也就是說,SAM能從照片或視頻圖像中對任意對象實現(xiàn)一鍵分割,并且能夠零樣本遷移到其他任務中。

        在相關展示頁面中,科技日報記者看到,在一張包含水果、案板、刀具、綠植、儲物架等眾多物體、背景雜亂的廚房照片中,該模型可迅速識別出不同的物體,以粗線條勾勒出物體輪廓,并用不同顏色對不同物體進行區(qū)分?!斑@就是SAM最重要的功能——圖像分割?!敝袊茖W院自動化研究所多模態(tài)人工智能系統(tǒng)全國重點實驗室研究員、中國科學院大學人工智能學院教授楊戈向記者表示。

        那么,SAM的技術原理是什么?相比于此前的圖像分割模型,該模型有何不同?未來又有可能在哪些方面應用?

        楊戈向記者解釋道,像SAM這樣可以處理多種不同類型任務的人工智能模型,叫作通用模型。與之相對,那些專門處理一種類型任務的人工智能模型,叫作專有模型。

        打個形象的比喻,通用模型就好比是一個“多面手”。它具有處理一般事務的能力,但是在精度等性能上往往會遜色于只處理一種類型任務的專有模型。

        既然通用模型可能會在精度上低于專有模型,為什么還要費盡心力地開發(fā)通用模型?對此,楊戈表示,通用模型與專有模型定位不同。通用模型帶來的,是解決分割問題的新范式,特別是幫助科研人員提升在解決專有任務時的效率,“以前,面對不同的任務需求,科研人員往往需要開發(fā)不同的專有模型來應對。這樣開發(fā)出的模型精度確實會更高,但是往往也會付出較大的研發(fā)成本,而且研發(fā)的模型通用性不強?!睏罡暾f。

        通用模型能夠?qū)⑺腥蝿斩继幚淼谩鞍司挪浑x十”,因此科研人員往往只需在通用模型的基礎上進行優(yōu)化,使之更加符合任務需求即可,而不需要費盡心力地從零開始搭建專有模型。因此,通用模型的初始開發(fā)成本可能會高,但隨著使用通用模型的次數(shù)越來越多,其應用成本也會越來越低。

        SAM就是一類處理圖像分割任務的通用模型。與以往只能處理某種特定類型圖片的圖像分割模型不同,SAM可以處理所有類型的圖像?!霸赟AM出現(xiàn)前,基本上所有的圖像分割模型都是專有模型。”楊戈補充道,“打個比方,在醫(yī)學領域,有專門分割核磁圖像的人工智能模型,也有專門分割CT影像的人工智能模型。但這些模型往往只在分割專有領域內(nèi)的圖像時,才具有良好性能,而在分割其他領域的圖像時往往性能不佳。”

        有業(yè)內(nèi)專家表示,相比于以往的圖像分割模型,SAM可以識別各種輸入提示,確定圖像中需要分割的內(nèi)容,還可以靈活集成到虛擬現(xiàn)實/增強現(xiàn)實等其他系統(tǒng)中,且目前對于一些它未見過或相對模糊的場景,也能實現(xiàn)較好的圖像分割效果;同時,SAM建立了一套圖像分割的通用模型,降低了對于特定場景建模知識、訓練計算、數(shù)據(jù)標記的需求,有望在統(tǒng)一框架下完成圖像分割任務。目前Meta公司已經(jīng)開放共享SAM的代碼和訓練數(shù)據(jù)集。

        那么,SAM是通過什么技術手段,實現(xiàn)對物體的識別與分割?尤其是在面對復雜環(huán)境、甚至沒遇到過的物體和圖像時,SAM又是怎么做到準確識別與分割的?

        “根據(jù)Meta發(fā)布的相關論文,SAM的模型結構其實并不是特別復雜?!睏罡旮嬖V記者,“它用到了一個叫作‘編碼解碼器’的構架。”

        記者了解到,SAM先通過圖像編碼器為圖像生成編碼,同時用一個輕量級編碼器將用戶的文字提示轉(zhuǎn)換為提示編碼。然后,SAM將圖像編碼分別和提示編碼信息源組合在一起,輸送到一個輕量級解碼器中,用于預測分割掩碼。這樣一來,一旦使用者給出提示,則每個提示只需要幾毫秒就能在瀏覽器中得到結果響應。

        楊戈用了一個生動的例子解釋SAM的運行原理。“比如說,給你一張帶有貓和狗的圖片?!畬⒄掌械呢垬俗⒊鰜怼@就是提示;但是對于機器來說,它并不能直接‘明白’這種文字性提示,因此就需要將文字性提示轉(zhuǎn)換為機器能夠理解的提示編碼。”同理,對于照片中的貓和狗,機器實際上并不能直接“明白”什么是貓、什么是狗,而是將照片中的貓和狗與圖片編碼對應起來。SAM通過訓練學習提示編碼與圖片編碼的不同結合,理解人類在文字提示中表述的希望如何分割這張圖片。一旦“將照片中的貓標注出來”這句提示被輸入時,SAM就能快速運行,得到人類想要的結果。

        既然SAM并沒有真正理解什么是貓、什么是狗,它又是如何準確地執(zhí)行人類賦予的任務的呢?

        “雖然SAM并沒有完全理解人類的語言和視覺的能力,但是通過對海量數(shù)據(jù)的學習,SAM仍然能夠做到準確執(zhí)行任務?!睏罡杲忉尩?,用于訓練SAM的數(shù)據(jù)集的數(shù)據(jù)量,是以往最大數(shù)據(jù)集的6倍。在這個數(shù)據(jù)集中,包括1100萬張圖像,和11億個標注(可簡單理解為11億個物體)。這是一個“走量”的過程,數(shù)據(jù)量越大,機器分割圖像的能力就越準確;即使在某張圖中出現(xiàn)了這11億個物體之外的物體,機器也往往能夠根據(jù)以往經(jīng)驗以較高的準確率“推斷”出它是什么物體,并將其納入自己的數(shù)據(jù)庫,這就是為什么SAM對于從未見過的物體,也能有很好的識別與分割效果。

        “需要注意的是,這11億個標注也不是純手工完成的,而是通過漸進的方式自動完成標注的。一開始,這個數(shù)據(jù)集中只有相對少量的標注數(shù)據(jù)??蒲腥藛T先用這些數(shù)據(jù)訓練出一個模型,然后再讓這個模型自動標注數(shù)據(jù),并通過人工對標注結果進行改進,這就得到了比上一個數(shù)據(jù)集更大一些的數(shù)據(jù)集。如此循環(huán)往復,就能得到海量標注數(shù)據(jù)集?!睏罡暄a充道。

        功能如此強大的圖像分割通用模型,將給計算機視覺領域帶來哪些改變?

        “我認為,SAM的出現(xiàn)將為計算機視覺領域的科研人員帶來工作范式上的變化?!睏罡陮τ浾哒f道,“SAM的出現(xiàn)確實會對目前一些與機器人視覺相關的研究領域造成沖擊,但從總體上看,SAM的出現(xiàn)會提升相關科研人員的效率。”

        楊戈解釋道,以往科研人員構建圖像分割模型,是一個“從下到上、從零開始”的過程;而圖像分割通用模型則將模型構建方式變成了“從上到下”,即在已有性能和泛化能力更強的模型基礎上繼續(xù)修改、優(yōu)化,“這可能確實會取代某些專有模型,但從總體上看它將有利于整個領域的發(fā)展?!?/p>

        此外,在具體應用上,圖像分割通用模型前景十分廣闊。

        工業(yè)中的機器視覺、自動駕駛、安防等一些原來采用計算機視覺技術的行業(yè),因為長尾場景多,需要大量標簽數(shù)據(jù),因此訓練成本較高。有了圖像分割通用模型后,這些領域內(nèi)定制化開發(fā)產(chǎn)品的成本可能會降低,由此帶來毛利率的提升;還有一些領域,過去因為樣本量少而難以應用深度學習等人工智能算法?,F(xiàn)在,由于SAM在零樣本或者少量樣本上表現(xiàn)優(yōu)異,一些新的應用領域?qū)⒈煌卣?,比如從代碼驅(qū)動變?yōu)橐曈X驅(qū)動的機器人、流程工業(yè)場景等。

        同時,由于SAM可以接受來自其他系統(tǒng)的輸入提示,因此科幻片中根據(jù)用戶視覺焦點信息來識別并選擇對應物體或?qū)⒊蔀榭赡堋?/p>

        SAM不僅將在上述這些前沿領域發(fā)揮作用,同樣或?qū)糜谌藗兊娜粘I睢!氨热缭卺t(yī)學影像診斷領域,SAM可能會催生出精度更高的醫(yī)學影像模型,提升醫(yī)療水平;在拍照過程中,SAM的加入或?qū)崿F(xiàn)更快更智能的人臉識別。”楊戈說道。

        猜你喜歡
        科研人員物體編碼
        科技部等五部門聯(lián)合發(fā)文開展減輕青年科研人員負擔專項行動
        科研人員破譯黑豬肉特征風味物質(zhì)
        基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達圖像配準
        《全元詩》未編碼疑難字考辨十五則
        治療艾滋病,中國科研人員有了新發(fā)現(xiàn)
        廣東公安科研人員風采
        深刻理解物體的平衡
        子帶編碼在圖像壓縮編碼中的應用
        電子制作(2019年22期)2020-01-14 03:16:24
        我們是怎樣看到物體的
        Genome and healthcare
        国产白嫩美女在线观看| 黑人老外3p爽粗大免费看视频| 亚洲精品国产一区二区| 中出内射颜射骚妇| 亚洲一区二区三区久久不卡| 久久综合加勒比东京热| 天堂网站一区二区三区| 亚洲性爱视频| 亚洲午夜无码久久yy6080| 蜜臀久久久精品国产亚洲av| 亚洲精品国产第一区二区| 无码国模国产在线观看| 91av视频在线| 免费av在线视频播放| 麻豆资源在线观看视频| 97人妻碰碰视频免费上线| 在线观看亚洲AV日韩A∨| 成年人视频在线播放麻豆| 韩国av一区二区三区不卡| 成人国内精品久久久久一区| 国产精品无码Av在线播放小说| 一区二区三区人妻在线| 曰韩少妇内射免费播放| 激情综合色五月丁香六月亚洲 | 伊人久久综合精品无码av专区| 久久91精品国产91久| 男男啪啪激烈高潮无遮挡网站网址 | 精品一区二区三区影片| 中国亚洲av第一精品| 人妻饥渴偷公乱中文字幕| 国产不卡一区二区三区免费视| 国产真实二区一区在线亚洲| 久久综合精品人妻一区二区三区 | 午夜性刺激免费看视频| 亚洲av无码日韩精品影片| 久久99精品久久久久久国产人妖| 蜜桃视频一区二区三区四| 天天爽天天爽夜夜爽毛片| 狠狠躁夜夜躁AV网站中文字幕| 中文片内射在线视频播放| 四虎影视久久久免费观看 |