亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合有向圖集與并行架構的HEVC去塊濾波*

        2016-09-20 09:00:35揭月馨
        計算機與生活 2016年9期
        關鍵詞:依賴性線程解碼

        揭月馨,劉 浩

        東華大學 信息科學與技術學院,上海 201620

        融合有向圖集與并行架構的HEVC去塊濾波*

        揭月馨,劉浩+

        東華大學 信息科學與技術學院,上海 201620

        去塊濾波;有向無環(huán)圖集;并行處理;多核平臺;通用并行計算架構

        1 引言

        在解碼視頻中,人眼察覺到的圖像塊邊界處的不連續(xù)現(xiàn)象,稱為塊效應。塊效應是由于視頻編碼的分塊處理造成的,會引起視覺感知質(zhì)量的下降。為了消除塊效應,MPEG系列標準引入了去塊濾波器,對解碼的圖像塊進行平滑處理,來消除虛假邊緣并提高壓縮比[1]。H.264/AVC運用環(huán)路濾波器來去除塊效應,環(huán)路濾波器位于運動矢量補償環(huán)內(nèi),屬于線性濾波[2]。面向高清應用的高效視頻編碼(high efficiency video coding,HEVC)壓縮率較H.264/AVC提高了一倍,復雜度則增加了數(shù)倍[3]。HEVC重建像素在被寫入解碼圖像緩沖區(qū)之前,需要進行兩個處理步驟:去塊濾波、采樣點自適應補償[4]。相比于H.264/ AVC,HEVC簡化了去塊濾波的決策過程,以易于壓縮數(shù)據(jù)的并行處理[5]。

        視頻解碼程序?qū)τ布蠛芨?,隨著多核處理器的普及,多核環(huán)境下的動態(tài)并行加速已成為提高解碼性能的有效方式[6]。有向無環(huán)圖(directed acyclic graph,DAG)是描述動態(tài)系統(tǒng)時序過程的有效工具。文獻[7]應用有向無環(huán)圖的理論,提出了基于多核處理器體系結構的多視點視頻編碼時空數(shù)據(jù)并行算法,能夠在多種硬件平臺上獲得接近線性的加速比。文獻[8]提出了一種基于DAG的并行解碼方法,將視頻環(huán)路濾波結構視為DAG進行處理。在實現(xiàn)去塊濾波時,壓縮數(shù)據(jù)之間存在復雜的依賴性,現(xiàn)有的并行處理方案存在并行度小,同步互斥開銷大等不足。文獻[9]結合H.264/AVC去塊濾波算法及眾核處理器的結構特性,提出了一種可減少數(shù)據(jù)依賴性的去塊濾波并行優(yōu)化方案。該并行方案在算法上增大了并行度,減少了同步開銷,同時通過片上眾核處理器的硬件支持,采用計算與通信重疊等優(yōu)化策略,使得優(yōu)化后的實現(xiàn)方案達到了數(shù)倍的性能提升。

        HEVC提供了易于數(shù)據(jù)并行處理的結構單元,如片(Slice)和Tile,在不同的Slice和Tile中,數(shù)據(jù)信息是相互獨立的,這樣有利于將其分配給不同的運算單元來處理。HEVC采用環(huán)路去塊濾波器來去除塊效應,使得解碼后的圖像具有較好的視覺效果,然而由于環(huán)路去塊濾波器的處理過程具有一定的數(shù)據(jù)依賴性,導致濾波時間較長。在去塊濾波器中,乘法運算次數(shù)多且濾波系數(shù)不確定的特點為濾波結構的設計帶來極大挑戰(zhàn)。文獻[10]提出了一種濾波單元數(shù)可配置的HEVC去塊濾波VLSI(very large scale integration)結構,針對濾波塊間相互獨立進行濾波的特性,設計了濾波單元數(shù)可配置的流水級并行結構,該結構將濾波單元設計成基本調(diào)度單元,且數(shù)量可調(diào)節(jié)。

        隨著圖形處理器(graphics processing unit,GPU)的快速發(fā)展,GPU的并行處理能力和可編程能力得到了很大程度的提高。HEVC去塊濾波具有一定的并行性,當GPU處理核心數(shù)目增多時,可通過增加并行度來提升處理速率[11]。CPU、GPU、ASCI等硬件平臺具有各自的優(yōu)缺點以及不同的應用領域,文獻[12]對這些平臺的濾波實現(xiàn)性能進行了初步的比較。現(xiàn)有的文獻并沒有深入研究HEVC去塊濾波算法層和硬件平臺層之間的跨層并行實現(xiàn)機制?;谒惴▽拥挠邢驘o環(huán)圖集(directed acyclic graph set,DAGS)和硬件平臺層的通用并行計算架構(compute unified device architecture,CUDA),本文針對HEVC去塊濾波提出了一種跨層并行處理機制,充分利用圖像幀的獨立像素區(qū)域(independent pixel region,IPR)減少對緩存的調(diào)度訪問。所提方案降低了HEVC濾波過程中的數(shù)據(jù)依賴性,便于多核平臺的并行處理。本文比較了“串行”、“DAGS+多核CPU”、“DAGS+ GPU”3種不同的HEVC去塊濾波實現(xiàn)機制,結果表明,所提“DAGS+GPU”機制平均取得了11~24倍的解碼加速比,在保證率失真性能相當?shù)那闆r下顯著減少了解碼時間。

        2 視頻解碼中的并行處理

        HEVC在Slice的基礎上引入了Tile的概念。如圖1所示,Tile被定義為由圖像中垂直和水平邊界的交點所分割得到的矩形區(qū)域。一幀圖像中的各個Tile在編碼時共享頭信息,每個Tile可以獨立解碼。在支持Tile的同時,HEVC同樣支持Slice處理。在同一幅圖像中,Slice和Tile可同時使用,且兩者的分割互不干擾,一個Slice可包含若干個Tile。

        Fig.1 Segmentation map for Tile圖1 Tile分割示意圖

        顯卡廠商NVIDIA推出了一種將GPU作為數(shù)據(jù)并行運算平臺的CUDA架構,作為一項同時支持硬件和軟件的技術,CUDA利用圖形處理器中的多顆計算核心進行通用計算,使得并行處理的性能得到了顯著的提升[13]。CUDA架構分為兩個部分,主機Host和設備Device,通常CPU被看作是主機,而GPU則被認為是設備,一個系統(tǒng)中可以存在一個主機和若干個設備。CPU主要針對執(zhí)行大量離散而相互獨立任務的系統(tǒng),通過提高單個線程的性能來減少執(zhí)行和通信延遲?;贑UDA的GPU應用技術具有計算密集、高度并行及控制簡單等特點,近年來得到了迅速發(fā)展。

        3 基于DAGS和多核平臺的跨層并行濾波

        3.1基于DAGS的算法層并行處理

        如圖2所示,在HEVC中,每幀被分成編碼樹結構(coding tree unit,CTU),可以通過遞歸的四叉樹分割成更小的編碼單元(coding unit,CU)。去塊濾波遵循如圖2(a)和圖2(b)所示的CTU和CU結構,圖中數(shù)字表示編解碼順序。CU能夠進一步地再分割成預測單元(prediction unit,PU)和變換單元(transform unit,TU)。每個邊緣由一個或多個部分組成,而一個部分是由8×8像素集中的亮度分量和4×4像素集中的色度分量組成。如圖2(c)所示,若一個CU有16× 16像素集的亮度分量,那么這個CU將有4個垂直邊緣v1、v2、v3和v4,并且有4個水平邊緣h1、h2、h3和h4。對于每個CU,垂直邊緣的處理都在水平邊緣之前,濾波垂直邊緣和水平邊緣的順序是從頂部到底部,從左邊到右邊。

        HEVC去塊濾波器的處理流程為:首先對整個圖像的垂直邊緣進行水平濾波,然后對水平邊緣進行垂直濾波。該順序使得多次水平(垂直)濾波可以并行展開,采用多個CTU聯(lián)合解碼的方式進行濾波,這樣可以減少處理時延。HEVC濾波過程的數(shù)據(jù)依賴關系原本由3個子任務構成:邊緣鑒別(edge discrimination,ED)、邊界強度計算(boundary strength computation,BSC)和濾波(deblocking filtering,DF)[14]。ED主要用來確定是否進行濾波,而BSC用來決定濾波時是強濾波還是普通濾波,每個濾波處理得出的結果都可以被當作輸入用于后續(xù)的ED和DF。在保持不改變?yōu)V波順序的前提下,可考慮將ED子任務和DF子任務合并為邊緣鑒別濾波(edge discrimination filtering,EDF),步驟如下:

        步驟1 把整個濾波過程分成EDF和BSC兩部分,且為了增加并行性,在EDF同時進行BSC。

        步驟2 采用Markov過渡概率矩陣和哈夫曼樹相結合的方法,解決BSC負載不平衡的問題。

        步驟3 基于DAGS和CUDA的并行EDF過程。

        Fig.2 Processing order of deblocking filter圖2 去塊濾波器的處理順序

        HEVC標準規(guī)定了待濾波像素及各自評測像素的細節(jié)。圖3給出了一個16×16 CU中濾波像素的分類樣例,白色像素既不會被垂直濾波也不會被水平濾波,濾波器一次處理的像素集合Donce位于濾波區(qū)域的中間,濾波器兩次處理的像素集合Dtwice位于濾波區(qū)域的邊緣。濾波像素集表示如下:

        其中,Dc為濾波像素的完整集合;Donce和Dtwice分別為Dc的子集。集合Donce是由垂直邊緣或水平邊緣的僅一次濾波像素組成,集合Dtwice是由垂直和水平邊緣濾波像素組成。在EDF中,像素集合Donce和像素集合Dtwice沒有數(shù)據(jù)依賴性,因此Donce可以在Dtwice之前被并行處理。

        Dtwice分為4種情況:如圖4所示的一個大小為N×N的CU,N表示亮度分量8個連續(xù)像素或色度分量4個連續(xù)像素的水平或垂直數(shù)量。v1,v2,…,v(n×n)為垂直濾波,h1,h2,…,h(n×n)為水平濾波,灰色區(qū)域代表兩次濾波像素,屬于Dtwice。把這些區(qū)域根據(jù)濾波條件分為4種情況,分別標記為A、B、C、D。這些像素集合包括亮度分量的6×6像素集、色度分量的2×2像素集。情況A、B和C分別位于CTU的左上、上和左邊界,這幾種情況中的像素都有相似的濾波條件。

        Fig.3 Classification example of filtered pixels for 16×16 CU圖3 16×16 CU的濾波像素分類樣例

        Fig.4 ClassifyingDtwiceinto4casesmarkedasA,B,CandD圖4 將Dtwice分成4種情況(分別標記為A,B,CD)

        根據(jù)DAGS并行度,Dtwice亮度分量和色度分量的依賴性分析是相似的。為了便于解釋,只分析了情況A、B、C、D中像素集合標記為a,b,…,n,p的亮度分量。每一種情況都有4個像素集合,并且每一個像素集合都是3×3的像素集。例如,情況A中像素集為a,b,c,d。像素集之間的依賴性如圖5中的DAGS所示。每個節(jié)點表示獨立像素區(qū)域進行邊緣濾波的某一子任務。例如,節(jié)點av1意味著該像素集a是由邊緣v1濾波。該數(shù)據(jù)依賴性在4種情況中是彼此不同的。EDF任務之間的依賴性取決于DAGS的時序關系。例如,任務ah1與任務av1之間有一定的依賴性。色度分量的DAGS與那些亮度分量是相同的,唯一區(qū)別是像素集a,b,…,n,p代表1×1像素集的色度分量。所提算法對于色度分量的Dtwice進行相似的處理。當DAGS中的一些節(jié)點入度為0時,這些節(jié)點可并行處理。在后續(xù)階段中,那些處理過的節(jié)點將會從DAGS中移除,并且該數(shù)據(jù)依賴性也將更新。在算法層的DAGS并行處理中,濾波像素之間的邏輯關系并未改變。

        Fig.5 Dependencies among IPRs are represented as DAGS圖5DAGS:獨立像素區(qū)域的時序依賴關系

        3.2基于CUDA的平臺層并行處理

        前文使用DAGS來降低濾波過程中的時序依賴性,還需要結合多核平臺實現(xiàn)并行濾波,本節(jié)將應用多核CPU或GPU平臺來提高濾波加速比。在執(zhí)行濾波前,塊濾波的邊界強度(boundary strength,BS)條件由已獲取的解碼數(shù)據(jù)來估計[4]。每個BS條件被存儲在一個比特位中,當條件是假時為0,是真時為1。8個BS條件與其對應的比特位如表1所述。從而邊界條件被存儲在兩個字節(jié)中,一個字節(jié)用于水平濾波,另一個字節(jié)用于垂直濾波。該方式減少了對CPU的緩存訪問,可直接采用GPU處理。在CPU或GPU中,對于每個邊界最后的BS值可以通過位操作快速獲得。

        Table 1 Boundary strength condition and its bit position表1 濾波的邊界強度條件及其比特位

        因為僅需要4個像素,8×8像素集邊界的網(wǎng)格中3個像素可能會被濾波,幾個非重疊的塊可以進行并行濾波。將那些基于DAGS的EDF任務劃分為IPR,它們在8×8像素網(wǎng)格的相對位置如圖6所示。圖中IPR標為灰色正方形,需要濾波的8×8邊界標為實線。在這些區(qū)域的內(nèi)部,進行水平邊界的垂直濾波之前必須先執(zhí)行垂直邊界的水平濾波。對于一個8× 8像素網(wǎng)格中的塊邊界,色度分量也會被濾波,同樣是使用這種方式,IPR濾波準則是相同的,但是BS條件必須根據(jù)色度二次抽樣的結果格式讀取。接著,每個IPR(由4個邊界組成)在CPU或者GPU上的一個線程中濾波。為了計算色度分量的BS值,會使用不同IPR的BS條件。由于內(nèi)存的內(nèi)容沒有更新,存儲器不會被寫入,各IPR之間沒有數(shù)據(jù)依賴性。在使用CPU執(zhí)行濾波方案時,獨立濾波的IPR通過使用POSIX線程的API均勻分布在CPU內(nèi)核中[15]。

        Fig.6 Relative position of IPRs in 8×8 grid圖6 IPR在8×8像素網(wǎng)格的相對位置

        在GPU中執(zhí)行去塊濾波時,每個GPU線程負責濾波一個IPR。因此,若每個GPU線程塊由32個GPU線程(32個GPU線程為1個warp,warp是CUDA中每個核的最小執(zhí)行單位)組成,將會對一行中的32 個IPR進行濾波。GPU線程塊被配置成二維的線程格(Grid),其規(guī)模為:

        其中,WF代表一幀的寬度;HF代表一幀的高度。所有的GPU全局存儲器訪問都是在warp級執(zhí)行的。然而,若一個warp內(nèi)部的GPU線程需要使用大塊的內(nèi)存地址,總內(nèi)存訪問就會變得序列化。為了避免這一缺陷,所使用的存儲器地址被適當?shù)貙剩沟脤τ谡麄€warp的處理只需要一個特定的內(nèi)存區(qū)域。另一方面,如果幀和BS條件數(shù)據(jù)能夠滿足GPU的全局內(nèi)存,則以一個光柵掃描順序的矢量形式進行存儲,并且warp被限制在IPR中的單一行,GPU的全局內(nèi)存可以減小。GPU共享高速緩存也可以用來存儲臨時像素以增加效率。在GPU去塊濾波器中,內(nèi)存轉(zhuǎn)移(從主機到設備和從設備到主機)是最耗時的過程。不過,多個CUDA流可以用于異步重疊內(nèi)存?zhèn)鬏敽虶PU內(nèi)核。用這種方法,GPU線程塊被分布在所定義的CUDA流之間。圖7解釋了如何使用異步CUDA流實現(xiàn)并行化,減少整個處理時間。

        由于GPU內(nèi)核處理可以由內(nèi)存轉(zhuǎn)移來完全重疊,在GPU中執(zhí)行的總處理時間只取決于該幀的分辨率,通過實驗得到針對不同分辨率幀的并行CUDA流的最佳數(shù)目,通過并行的CUDA流來減少內(nèi)存從主機到設備的轉(zhuǎn)移時間。下文將分別測量CPU或GPU處理各類測試序列所用的平均濾波時間,并比較哪種方案能獲得更高的加速比。

        Fig.7 Example of asynchronous CUDA streams processing圖7異步CUDA流處理范例

        4 實驗結果分析

        下面評估所提方案在不同硬件平臺上的執(zhí)行效果。測試序列包括HEVC通用測試條件規(guī)定的A類、B類和E類序列,還包括由CrowRun、ParkJoy和DucksTakeOff組成的分辨率為3 840×2 160(超高清4K)的S類序列。實驗比較了“串行”、“DAGS+多核CPU”、“DAGS+GPU”3種不同的去塊濾波實現(xiàn)機制。源代碼為HEVC測試模型HM12.0,它的“串行”實現(xiàn)被作為基準方案[16-17]。硬件平臺是英特爾i5-4570K@CPU 3.20 GHz,使用P線程庫分配4個CPU核心之間的負載。在GPU方面,使用NVIDIA的Tesla K20c 706 MHz、CUDA5.5。

        為了直觀比較不同去塊濾波方案的重建質(zhì)量,選取測試序列BasketballDrive中的一幀來觀察解碼圖像質(zhì)量。圖8(a)、(b)、(c)分別為HM12.0解碼器采用“串行”、“DAGS+多核CPU”和“DAGS+GPU”去塊濾波的解碼圖像,可以看出,所提去塊濾波方案的圖像解碼質(zhì)量與基準方案基本相當。

        Fig.8 Comparison of BasketballDrive deblocking effect(QP=32)圖8 BasketballDrive去塊濾波的效果(QP=32)

        表2給出了各HVEC去塊濾波方案在不同分辨率和量化參數(shù)(quantization parameter,QP)條件下的平均執(zhí)行時間。正如人們所期望的,在多核平臺上執(zhí)行去塊濾波能夠有效地減少濾波時間,得到較高的加速比。從表2中可以看出,對于各種類型的視頻序列,多核CPU方案大幅提高了解碼速度,平均加速比為14.1,通過使用4個內(nèi)核達到了14.1/4=3.53的單核效率,克服了以往HEVC多核去塊濾波器效率低下的問題,具有一定的實用性。

        Table 2 Average time for HEVC deblocking filter表2各方案HEVC去塊濾波的平均時間

        為了進一步評估所提方案的擴展性,圖9描述了相對于HM12.0的“串行”基準方案來觀測所提并行方案的平均加速比,測試序列選取S類CrowRun、A 類Traffic、B類ParkScene、E類FourPeople,其中QP 取22。由圖9可以看出,融合DAGS和CUDA可降低濾波過程中的數(shù)據(jù)依賴性,使得濾波處理能夠并行化,在使用多核CPU或GPU平臺優(yōu)化后,HEVC濾波處理能達到一個很好的加速比,尤其適用于GPU平臺,加速比可高達24倍左右。

        Fig.9 Speedupofparallelschemesagainstserialbenchmark圖9 并行方案相對于“串行”基準方案的加速比

        5 結束語

        基于算法層的有向無環(huán)圖集和平臺層的通用并行計算架構,本文針對HEVC去塊濾波的實現(xiàn)提出了一種跨層并行處理方案,利用圖像幀的獨立像素區(qū)域減少對緩存的訪問。所提跨層機制降低了HEVC濾波過程中的時序依賴性,便于多核GPU平臺的并行處理。實驗表明,在重建視頻質(zhì)量相當?shù)那疤嵯滤岵⑿蟹桨革@著提高了解碼速度。

        References:

        [1]Tai Shenchuan,Chen Yenyu,Sheu Shinfeng.Deblocking filter for low bit rate MPEG-4 video[J].IEEE Transactions on Circuits and Systems for Video Technology,2005,15 (6):733-741.

        [2]Parlak M,Hamzaoglu I.Low power H.264 deblocking filter hardware implementations[J].IEEE Transactions on Consumer Electronics,2008,54(2):808-816.

        [3]Shen Yanfei,Li Jintao,Zhu Zhenmin,et al.High efficiency video coding[J].Chinese Journal of Computers,2013,36(11):2340-2355.

        [4]Norkin A,Bjontegaard G,Fuldseth A.HEVC deblocking filter[J].IEEE Transactions on Circuits and Systems for Video Technology,2012,22(12):1746-1754.

        [5]Tang Huamin,Du Jianchao,Wang Qinglei.Analysis of inloop filter technique in video coding standard HEVC[J]. Video Engineering,2014,38(11):1-4.

        [6]Pang Yi,Zhang Fengyan,Sun Lifeng,et al.Survey of parallel acceleration algorithms of video coding on multi-core processor[J].Journal of Frontiers of Computer Science and Technology,2009,3(4):337-346.

        [7]Pang Yi,Sun Lifeng,Wen Jiangtao,et al.A framework for heuristic scheduling for parallel processing on multi-core architecture—a case study with multi-view video coding[J]. IEEE Transactions on Circuits and Systems for Video Technology,2009,19(11):1658-1666.

        [8]Yan Chenggang,Zhang Yongdong,Dai Feng,et al.Parallel deblocking filter for HEVC on many-core processor[J]. Electronics Letters,2014,50(5):367-368.

        [9]Fan Lingjun,Yan Chenggang,Song Fenglong,et al.Optimizing H.264 deblocking filter on many-core architectures[J]. Journal of Chinese Computer Systems,2011,32(11):2263-2267.

        [10]Lu Wei,Yu Ningmei,Nan Jianghan,et al.Configurable and parallel VLSI design for deblocking filter of HEVC[J].Journal of Xi’an University of Technology,2014,30(1):46-51.

        [11]Souza D F,Roma N,Sousa L.Cooperative CPU+GPU deblocking filter parallelization for high performance HEVC video codecs[C]//Proceedings of the 2014 International Conference on Acoustics,Speech and Signal Processing, Florence,Italy,May 4-9,2014.Piscataway,USA:IEEE, 2014:5026-5030.

        [12]Kotra A M,Raulet M,Deforge O.Comparison of different parallel implementations for deblocking filter of HEVC[C]// Proceedings of the 2013 International Conference on Acoustics, Speech and Signal Processing,Vancouver,Canada,May 26-31,2013.Piscataway,USA:IEEE,2013:2721-2725.

        [13]Han T D,Abdelrahman T S.hiCUDA:a high-level directivebased language for GPU programming[C]//Proceedings of the 2nd Workshop on General Purpose Processing on Graphics Processing Units,Washington,USA,Mar 8,2009.New York,USA:ACM,2009:52-61.

        [14]Norkin A.Deblocking filter simplifications:BS computation and strong filtering decision,JCTVC-H0473[R].San Jose,Joint Collaborative Team on Video Coding,2012.

        [15]Yin Jian,Yu Hui,Xu Weizhi,et al.Highly parallel GEMV with register blocking method on GPU architecture[J].Journal of Visual Communication and Image Representation, 2014,25(7):1566-1573.

        [16]McCann K,Bross B,Han W J,et al.High efficiency video coding(HEVC)test model 12(HM12)encoder description, JCTVC-N1002[R].Vienna,Joint Collaborative Team on Video Coding,2013.

        [17]Bossen F.Common HM test conditions and software reference configurations,JCTVC-L1100[R].Geneva,Joint Collaborative Team on Video Coding,2013.

        附中文參考文獻:

        [3]沈燕飛,李錦濤,朱珍民,等.高效視頻編碼[J].計算機學報,2013,36(11):2340-2355.

        [5]唐華敏,杜建超,王慶雷.視頻編碼標準HEVC中的環(huán)路濾波技術分析[J].電視技術,2014,38(11):1-4.

        [6]龐一,張鳳妍,孫立峰,等.面向多核處理器的視頻編碼并行加速算法綜述[J].計算機科學與探索,2009,3(4):337-346.

        [9]范靈俊,顏成鋼,宋風龍,等.H.264去塊濾波算法在眾核結構上的并行優(yōu)化[J].小型微型計算機系統(tǒng),2011,32 (11):2263-2267.

        [10]路偉,余寧梅,南江涵,等.可配置并行HEVC去塊濾波VLSI設計[J].西安理工大學學報,2014,30(1):46-51.

        JIE Yuexin was born in 1989.She received the M.S.degree in electrical engineering from Donghua University in 2015.Her research interests include video coding and multimedia communications.

        揭月馨(1989—),女,山東臨沂人,2015年于東華大學電氣工程專業(yè)獲得碩士學位,主要研究領域為視頻編碼,多媒體通信。

        LIU Hao was born in 1977.He received the Ph.D.degree in electronic engineering from Shanghai Jiao Tong University in 2006.Now he is an associate professor at Donghua University.His research interest is image processing and communications.

        劉浩(1977—),男,四川達州人,2006年于上海交通大學獲得博士學位,現(xiàn)為東華大學副教授,主要研究領域為圖像處理與通信,已發(fā)表SCI/EI論文20余篇。

        HEVC Deblocking Filter with Directed Graphs and Parallel Architecture?

        JIE Yuexin,LIU Hao+
        College of Information Science and Technology,Donghua University,Shanghai 201620,China
        +Corresponding author:E-mail:liuhao@dhu.edu.cn

        JIE Yuexin,LIU Hao.HEVC deblocking filter with directed graphs and parallel architecture.Journal of Frontiers of Computer Science and Technology,2016,10(9):1221-1228.

        For the deblocking filter of high efficiency video coding(HEVC),current literatures lack the in-depth research on the cross-layer parallel implementation between algorithm layer and platform layer.Based on the directed acyclic graph set(DAGS)at algorithm layer and the compute unified device architecture(CUDA)at platform layer, this paper proposes a cross-layer parallel decoding scheme for HEVC deblocking filter.The proposed scheme exploits the independent pixel regions to reduce cache accesses,and weakens the sequential dependence of filtering process to facilitate the parallel optimization.By evaluating three implementation schemes of HEVC deblocking filter:“serial, “DAGS+multi-core CPU”and“DAGS+GPU”,the experimental results demonstrate that the proposed“DAGS+ GPU”scheme can achieve the speedup as high as 11~24 times,and thus significantly save the decoding time while maintaining similar rate-distortion performance.

        deblocking filter;directed acyclic graph set;parallel processing;multi-core platform;compute unified device architecture

        針對高效視頻編碼(high efficiency video coding,HEVC)的去塊濾波,現(xiàn)有文獻并沒有深入研究其算法層和平臺層之間的跨層并行實現(xiàn)機制?;谒惴▽拥挠邢驘o環(huán)圖集(directed acyclic graph set,DAGS)和

        2015-06,Accepted 2015-08.

        *The National Natural Science Foundation of China under Grant No.41401486(國家自然科學基金);the Natural Science Foundation of Shanghai under Grant No.14ZR1400500(上海市自然科學基金).

        A

        TN919.8

        猜你喜歡
        依賴性線程解碼
        《解碼萬噸站》
        解碼eUCP2.0
        中國外匯(2019年19期)2019-11-26 00:57:32
        NAD C368解碼/放大器一體機
        Quad(國都)Vena解碼/放大器一體機
        非等熵 Chaplygin氣體極限黎曼解關于擾動的依賴性
        關于N—敏感依賴性的迭代特性
        商情(2017年38期)2017-11-28 14:08:59
        N-月桂?;劝彼猁}性能的pH依賴性
        淺談linux多線程協(xié)作
        舒適護理在面部激素依賴性皮炎中的應用
        Linux線程實現(xiàn)技術研究
        特黄aaaaaaaaa毛片免费视频| 日本女优一区二区在线免费观看| 国产V日韩V亚洲欧美久久| 国产91精品丝袜美腿在线| 日本高清视频在线观看一区二区| 欧美亚洲日本国产综合在线美利坚| 性色av闺蜜一区二区三区| 国产在线观看入口| 另类人妖在线观看一区二区 | 激情影院内射美女| 521色香蕉网站在线观看| 男女羞羞的视频免费网站| 国产av精品麻豆网址| 国产成人亚洲综合| 天堂影院一区二区三区四区| 中文字幕免费观看视频| 亚洲av人片在线观看调教| 亚洲性日韩一区二区三区| 成人欧美一区二区三区在线观看| 欧美国产日本高清不卡| 无码专区亚洲avl| 精品国产一区二区av麻豆不卡| 成年女人免费v片| 国产精品久久久国产盗摄| 93精91精品国产综合久久香蕉| 亚洲av午夜福利精品一区二区| 99国产精品久久一区二区三区| 特级毛片爽www免费版| 亚洲国产成人AV人片久久网站| 无码精品人妻一区二区三区98| 久久国产亚洲精品一区二区三区 | 狠狠爱婷婷网五月天久久| 国产成人一区二区三区| 免费一区啪啪视频| 亚洲精品视频一区二区三区四区 | 久久99免费精品国产 | 亚洲一区二区三区无码国产| 永久免费看免费无码视频| 国产99久久精品一区| 国产亚洲一区二区三区| 曰韩亚洲av人人夜夜澡人人爽|