亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于FPGA的HEVC去方塊濾波硬件設(shè)計(jì)

        2023-03-07 10:02:22陳焯淼陳志峰汪家華
        電視技術(shù) 2023年1期

        陳焯淼,陳志峰,陳 建,汪家華

        (福州大學(xué) 物理與信息工程學(xué)院,福建 福州 350108)

        0 引 言

        當(dāng)前,基于超高清視頻的多媒體娛樂(lè)需求快速增長(zhǎng),對(duì)視頻編碼技術(shù)提出了更高的要求。高效視頻編碼(High Efficiency Video Coding,HEVC)是視頻編碼專家組(Video Coding Experts Group,VCEG)和運(yùn)動(dòng)圖像專家組(Moving Picture Expert Group,MPEG)組成的視頻編碼聯(lián)合協(xié)作組(JCT-VC)共同開(kāi)發(fā)的一種視頻編碼標(biāo)準(zhǔn)[1]。與現(xiàn)有的H.264/AVC標(biāo)準(zhǔn)相比,HEVC標(biāo)準(zhǔn)在相同的視覺(jué)質(zhì)量下,降低了50%的比特率[2]。塊效應(yīng)是基于塊的視頻壓縮存在的最為明顯的偽影問(wèn)題,這是因?yàn)閳D像塊的變換和量化是相互獨(dú)立的。為此,H.265/HEVC標(biāo)準(zhǔn)沿用了H.264/AVC標(biāo)準(zhǔn)的環(huán)路濾波技術(shù),采用去方塊濾波器來(lái)改善主客觀視頻質(zhì)量。由于必須對(duì)塊邊界附近的所有像素進(jìn)行濾波,HEVC標(biāo)準(zhǔn)中的去方塊濾波算法仍然有很高的計(jì)算復(fù)雜度,約占HEVC視頻解碼器計(jì)算復(fù)雜度的20%[3]。因此,新的視頻編碼標(biāo)準(zhǔn)的硬件實(shí)現(xiàn)對(duì)于行業(yè)應(yīng)用來(lái)說(shuō)非常重要。

        文獻(xiàn)[4]—文獻(xiàn)[10]中,已有學(xué)者提出了一些關(guān)于去方塊濾波硬件實(shí)現(xiàn)的研究工作。HSU等人提出一種新穎的內(nèi)存結(jié)構(gòu)和數(shù)據(jù)訪問(wèn)形式,設(shè)計(jì)了一個(gè)雙行DBF濾波器[4]。TANG等人提出一種具有兩個(gè)垂直和兩個(gè)水平邊界的8×8塊的無(wú)SRAM去方塊濾波架構(gòu)[5]。CHRISTOPHER等人提出一種用于去方塊濾波器的高效資源共享硬件架構(gòu)。該架構(gòu)利用四個(gè)邊緣濾波器并行過(guò)濾8×8塊的兩個(gè)邊緣[6]。AYADI等人針對(duì)亮度32×32編碼塊內(nèi)的所有塊邊界提出了一種新的DBF硬件架構(gòu)[7]。SHEN等人提出一種基于1/4LCU的隔行存儲(chǔ)組織來(lái)解決DF垂直和水平過(guò)濾之間的數(shù)據(jù)依賴性,并實(shí)現(xiàn)了去方塊濾波與SAO聯(lián)調(diào)[8]。文獻(xiàn)[9]設(shè)計(jì)了一個(gè)單邊緣去方塊濾波器,每幀視頻被分成32×32個(gè)塊,通過(guò)流水線的方式再將其分割成8×32個(gè)像素的塊來(lái)處理,但是大幅度增加了外部存儲(chǔ)帶寬。文獻(xiàn)[10]提出一種高通量、低功耗的DBF架構(gòu)。該架構(gòu)每個(gè)時(shí)鐘能夠處理64個(gè)樣本,在兩條并行數(shù)據(jù)路徑中處理亮度和色度分量。

        上述一些研究工作為了追求高并行、高效率而大大增加了面積。本文重點(diǎn)研究一種高效的去方塊濾波器在現(xiàn)場(chǎng)可編程邏輯門陣列(Field Programmable Gate Array,F(xiàn)PGA)上的實(shí)現(xiàn),它以極少的資源消耗,通過(guò)流水線的形式來(lái)提高工作效率;重復(fù)利用重構(gòu)RAM來(lái)輸入輸出數(shù)據(jù),按濾波順序進(jìn)行濾波。經(jīng)計(jì)算,處理一個(gè)最大編碼單元(Largest Coding Unit, LCU)共需要907個(gè)周期。

        1 算法原理

        去方塊濾波過(guò)程共分為4個(gè)步驟,其流程如圖1所示,詳細(xì)介紹如下。

        圖1 去方塊濾波流程

        (1)確定濾波邊界。去方塊濾波只對(duì)8×8的PU(Prediction Unit,預(yù)測(cè)單元)或TU(Transform Unit,變換單元)塊邊界進(jìn)行濾波,因此需遍歷每個(gè)CU(Coding Unit編碼單元),檢查每個(gè)CU中的8×8邊界是否是PU或者TU的邊界。每個(gè)邊界都有一個(gè)濾波標(biāo)志,根據(jù)PU,TU的劃分模式,將需要濾波的邊界置為1。

        (2)計(jì)算邊界強(qiáng)度(Boundary Strength,BS)。根據(jù)編碼參數(shù)初步判斷,邊界強(qiáng)度有0,1,2三種。實(shí)際濾波垂直邊界是以8×4為基本單位,水平以4×8為基本單位。根據(jù)每4×4塊的編碼參數(shù)來(lái)確定邊界的濾波強(qiáng)度。

        (3)濾波開(kāi)關(guān)決策。根據(jù)邊界兩邊像素值的變化程度判斷邊界是否需要濾波。若邊界兩邊區(qū)域像素本身就不平坦,則在邊界處像素的跳躍自然被認(rèn)為正常的,因此不需要濾波。而濾波強(qiáng)弱選擇則根據(jù)邊界兩邊像素值的變化率來(lái)判斷濾波強(qiáng)度。

        (4)濾波。濾波分為亮度分量的強(qiáng)濾波、亮度分量的弱濾波以及色度分量的濾波。亮度分量的強(qiáng)濾波,需對(duì)邊界兩邊各3個(gè)像素進(jìn)行修正;亮度分量的弱濾波,需對(duì)邊界兩邊1~2個(gè)像素進(jìn)行修正;色度分量的濾波是指,當(dāng)獲取邊界強(qiáng)度模塊判定BS=2時(shí),色度分量需要進(jìn)行濾波操作,需對(duì)邊界兩邊各1個(gè)像素進(jìn)行修正。

        2 硬件設(shè)計(jì)

        2.1 去方塊濾波硬件框架

        DBF的總體架構(gòu)如圖2所示。整體可分為主控制模塊、濾波模塊及數(shù)據(jù)緩存模塊。主控模塊包括狀態(tài)機(jī)控制和地址生成模塊。其中,狀態(tài)機(jī)協(xié)調(diào)整個(gè)DBF模塊的工作過(guò)程,控制流水線的翻轉(zhuǎn)信號(hào)(Is_ver)、亮度/色度轉(zhuǎn)換信號(hào)(Is_luma)及空閑/工作狀態(tài)信號(hào),地址生成模塊根據(jù)狀態(tài)機(jī)狀態(tài)以及計(jì)數(shù)器的計(jì)數(shù)值生成像素和編碼參數(shù)在存儲(chǔ)器中的地址。

        圖2 去方塊濾波硬件架構(gòu)

        濾波模塊包括編碼參數(shù)計(jì)算、邊界強(qiáng)度計(jì)算、濾波決策及選擇性濾波等子模塊。其中,濾波決策子模塊根據(jù)編碼參數(shù)計(jì)算出的邊界處像素值差別的判決門限(tc)、濾波開(kāi)關(guān)的判決門限(β)和邊界強(qiáng)度計(jì)算出的BS,判斷是否需要進(jìn)行強(qiáng)、弱濾波,還是不濾波;選擇性濾波子模塊對(duì)來(lái)自輸入緩存(buffer)的P和Q像素塊,同時(shí)進(jìn)行強(qiáng)濾波、弱濾波或不濾波操作。該設(shè)計(jì)的濾波順序?yàn)椋毫炼却怪薄炼人健却怪薄人?,并根?jù)濾波決策結(jié)果選擇對(duì)應(yīng)的濾波種類或未濾波數(shù)據(jù)輸出。

        數(shù)據(jù)緩存模塊又可以分為像素緩存(data_ram)和編碼參數(shù)(param_ram)緩存。其中,data_ram用來(lái)存放像素,做完垂直濾波后的像素將重新寫(xiě)回data_ram中,用于下一階段的水平濾波;param_ram用來(lái)存放編碼參數(shù),在輸入像素的同時(shí)輸入編碼參數(shù),用于計(jì)算閾值和邊界處像素值差別的判決門限以及邊界強(qiáng)度BS。

        2.2 邊界判斷與邊界強(qiáng)度計(jì)算模塊的硬件實(shí)現(xiàn)

        去方塊濾波架構(gòu)中,邊界判斷和邊界強(qiáng)度計(jì)算模塊是較復(fù)雜的計(jì)算單元,在濾波數(shù)據(jù)準(zhǔn)備好前就需要得到邊界強(qiáng)度的值。而由第1節(jié)內(nèi)容可知,計(jì)算邊界強(qiáng)度前還需要確定濾波邊界,具體的電路結(jié)構(gòu)如圖3所示。

        圖3 邊界判斷&邊界強(qiáng)度計(jì)算電路結(jié)構(gòu)

        首先,將cu、tu和pu的劃分結(jié)構(gòu)都整合到查找表中,然后根據(jù)輸入的cu_depth(cu深度)、tu_depth(tu深度)、pu_partition(pu劃分方式)和Q塊的地址來(lái)判斷該4×4塊是否有濾波邊界。值得注意的是,Q塊的邊界情況與對(duì)應(yīng)的P塊是一致的,因此只需要判斷一個(gè)4×4塊的邊界情況即可。然后,根據(jù)濾波邊界結(jié)果來(lái)計(jì)算對(duì)應(yīng)的BS值。對(duì)于沒(méi)有邊界的塊,BS直接置0;對(duì)于有濾波邊界的塊,還需根據(jù)P塊和Q塊對(duì)應(yīng)的預(yù)測(cè)模式(pred_mode_p和pred_mode_q)、非零變換系數(shù)標(biāo)志位(cbf_p和cbf_q)和運(yùn)動(dòng)矢量(mv_p和mv_q)來(lái)進(jìn)一步計(jì)算BS的值。

        2.3 流水線控制時(shí)序

        以64×64的編碼樹(shù)單元(Coding Tree Unit,CTU)的DBF處理為例,數(shù)據(jù)輸入、編碼參數(shù)計(jì)算、濾波操作、數(shù)據(jù)輸出組成的四級(jí)流水線如圖4所示。去方塊的數(shù)據(jù)處理單元通常是4×4大小的P塊和Q塊,為了處理方便,每個(gè)時(shí)鐘周期讀取一個(gè)P塊或一個(gè)Q塊數(shù)據(jù),即每個(gè)時(shí)鐘能讀取16個(gè)像素,讀取一個(gè)P塊和Q塊的數(shù)據(jù)共需要花費(fèi)2個(gè)時(shí)鐘。

        圖4 流水線示意圖

        在讀取像素的同時(shí)讀取編碼參數(shù),并在一個(gè)時(shí)鐘內(nèi)計(jì)算得到在濾波階段所需要的參數(shù)(BS、β、tc)。在濾波階段獲取到參數(shù)之后,消耗2個(gè)時(shí)鐘得到濾波后的數(shù)據(jù)并更新到P,Q塊輸出寄存器中。由于P,Q塊輸出寄存器中的數(shù)據(jù)是同時(shí)更新,需再等待一個(gè)時(shí)鐘后寄存器的數(shù)據(jù)按輸入順序串行輸出。這樣輸入到輸出共花了5個(gè)時(shí)鐘。為了節(jié)省資源消耗,將垂直濾波后的像素根據(jù)地址生成模塊中的地址重新寫(xiě)回重構(gòu)RAM中,用于下一階段的水平濾波,做完水平濾波后再輸出到外部。

        3 實(shí)驗(yàn)結(jié)果

        本文提出的DBF硬件架構(gòu)是在Verilog中設(shè)計(jì)的,并使用Altera FPGA開(kāi)發(fā)平臺(tái)進(jìn)行綜合與時(shí)序分析。其中,選用QuartusⅡ16.1為EDA開(kāi)發(fā)工具,所選擇的器件型號(hào)為Altera Arria10 10AS066N3F40E2SG。通過(guò)RTL仿真對(duì)并行體系結(jié)構(gòu)進(jìn)行了測(cè)試和驗(yàn)證,得到了仿真結(jié)果,完全符合軟件代碼的結(jié)果。表1將實(shí)驗(yàn)結(jié)果與之前的工作進(jìn)行了對(duì)比。首先,所提出的硬件架構(gòu)能夠達(dá)到215 MHz的工作主頻,在907個(gè)時(shí)鐘周期內(nèi)實(shí)現(xiàn)了去方塊濾波器的所有功能。文獻(xiàn)[4]在768個(gè)時(shí)鐘周期內(nèi)僅實(shí)現(xiàn)了BS計(jì)算和濾波操作,而文獻(xiàn)[7]花費(fèi)了2 252個(gè)時(shí)鐘周期僅實(shí)現(xiàn)了亮度濾波操作;其次,所提架構(gòu)僅消耗了5 212個(gè)查找表和1 291個(gè)寄存器,與文獻(xiàn)[4]和[7]相比,架構(gòu)在邏輯資源利用上有更大的優(yōu)勢(shì),查找表和寄存器資源不到文獻(xiàn)[7]的十分之一。

        表1 與先前工作的比較(CTU尺寸64×64)

        4 結(jié) 語(yǔ)

        本文提出了一種高效的HEVC去方塊濾波器的硬件架構(gòu)。因其采用垂直濾波和水平濾波模塊的共用結(jié)構(gòu),復(fù)用了數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),合理利用了FPGA片上資源,在提高系統(tǒng)吞吐量的同時(shí),大大縮減了資源消耗。實(shí)驗(yàn)綜合結(jié)果表明,本文的設(shè)計(jì)可以以215 MHz的時(shí)鐘頻率對(duì)1 080p@60fps視頻實(shí)現(xiàn)實(shí)時(shí)去方塊濾波,但吞吐率并不是最優(yōu)。如何提高該架構(gòu)的吞吐率,是下一步的研究目標(biāo)。

        天堂丝袜美腿在线观看| 香港三日本三级少妇三级视频| 亚洲日韩一区二区三区| 色婷婷资源网| 农村国产毛片一区二区三区女| 日本黄色特级一区二区三区| 亚洲成人中文字幕在线视频| 午夜福利啪啪片| 亚洲黄色免费网站| 男女男生精精品视频网站| 亚洲一区二区三区特色视频| 痉挛高潮喷水av无码免费| 欧美韩日亚洲影视在线视频| 鲁丝一区鲁丝二区鲁丝三区| 天堂久久一区二区三区| 成人影院在线视频免费观看| 特级做a爰片毛片免费看无码| 亚洲欧洲日产国码无码AV一| 亚洲中文字幕日产喷水| 日本视频在线播放一区二区 | 日产学生妹在线观看| 国产精品jizz观看| 成年人男女啪啪网站视频| 精品国产精品久久一区免费式| 日韩毛片免费无码无毒视频观看| 巨爆乳中文字幕爆乳区| 国产成人亚洲精品一区二区三区| 国产精品免费一区二区三区四区 | 高清国产日韩欧美| 国产精品成人有码在线观看| 青春草在线视频观看| 色老头在线一区二区三区| 91综合久久婷婷久久| 国产视频在线播放亚洲| 四虎影在永久在线观看| 野花在线无码视频在线播放| 亚洲AV无码成人精品区日韩密殿| 精品一区二区三区久久| 老司机亚洲精品影院| 亚洲日韩精品A∨片无码加勒比| 国产理论亚洲天堂av|