中國科學院深圳先進技術研究院高性能計算技術研究中心張云團隊在智能視頻編碼優(yōu)化理論與方法方面的研究取得進展。相應成果“Deep learning based chroma prediction for versatile video coding(基于神經(jīng)網(wǎng)絡的色度預測)”2020 年 11 月 3 日在線發(fā)表于 IEEE Transactions on Circuits and Systems for Video Technology。
視頻數(shù)據(jù)爆炸式增長給存儲和傳輸帶來了巨大的壓力和挑戰(zhàn),這迫切地需要快速、高效的視頻編碼方案。而下一代視頻編碼方法仍是采用憑統(tǒng)計經(jīng)驗手工設計預測函數(shù)的編碼方案,在一定程度上限制了編碼性能的提升。如何使用先進的學習工具在給定帶寬的條件下最大化視頻質量、提高壓縮效率成為了未來智能視頻編碼優(yōu)化的關鍵問題。該文從計算機視覺和人工智能的角度出發(fā),將視頻編碼中的色度預測問題模型化為計算機視覺中的圖像上色問題,以進一步消除顏色通道之間的冗余?;诰矸e神經(jīng)網(wǎng)絡的色度預測包含兩個子網(wǎng)絡:亮度下采樣和色度預測。采用線性模型結果作為色度初始化以增強性能,采用量化參數(shù)來表征編碼失真消除壓縮噪聲影響。在編碼器設計過程中,為了取得更好的編碼性能,該文利用率失真優(yōu)化方法從傳統(tǒng)色度預測方法和所提出的方法中選擇代價最小的預測策略。
結果顯示,與現(xiàn)有傳統(tǒng)方法相比,該文方法在 Y、U、V 分量分別可以節(jié)省 4.28%、3.34% 和 4.63% 的網(wǎng)絡帶寬。
針對現(xiàn)有視頻編碼模塊中的局限性問題,從計算機視覺和人工智能的角度出發(fā),實現(xiàn)了由信號處理領域問題向人工智能領域問題的轉變,以海量視頻/圖像數(shù)據(jù)為基礎,研究結合神經(jīng)網(wǎng)絡模型的視頻編碼方法,最終實現(xiàn)智能視頻編碼優(yōu)化理論與方法的創(chuàng)新,預期成果能應用于下一代視頻編碼標準及視頻壓縮的相關領域。
色度預測性能對比(需要預測的塊位于右下角)[1][1] Zhu LW, Zhang Y, Wang SQ, et al. Deep learning based chroma prediction for versatile video coding [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2020, doi: 10.1109/TCSVT.2020.3035356.