亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        嵌入式GPU滑動聚束SAR實時成像方法

        2020-10-21 07:21:16胡善清李慧星李炳沂謝宜壯陳亮陳禾
        北京理工大學學報 2020年9期
        關(guān)鍵詞:共享內(nèi)存占用率數(shù)據(jù)量

        胡善清, 李慧星, 李炳沂, 謝宜壯, 陳亮, 陳禾

        (1. 北京理工大學 信息與電子學院 雷達技術(shù)研究所,北京 100081;2.嵌入式實時信息處理技術(shù)北京市重點實驗室,北京 100081;3.北京無線電測量研究所, 北京 100854)

        星載合成孔徑雷達(synthetic aperture radar,SAR)是空間對地觀測領(lǐng)域的一個重要組成部分,由于其全天時、全天候的工作能力,星載SAR被廣泛應用于地球遙感、軍事偵察、資源勘探等諸多國防和民生的重要領(lǐng)域. 隨著高分重大專項的開展以及高分三號衛(wèi)星的發(fā)射,我國星載SAR領(lǐng)域進入了對多模式、多尺度和多粒度數(shù)據(jù)結(jié)合處理階段,進一步豐富了SAR數(shù)據(jù)產(chǎn)品的檢測、識別等后端應用形式. 然而,目前對于高分SAR數(shù)據(jù)處理依然停留在原始數(shù)據(jù)下傳地面處理階段,對于突發(fā)事件的響應能力嚴重不足. 在軌SAR數(shù)據(jù)實時處理是解決這一問題的主要途徑.

        在SAR在軌處理方面,麻省理工學院(MIT)林肯實驗室[1]、美國空氣動力學實驗室(JPL)[2-4]、德國漢諾威大學[5]、加州理工大學[6-7]等機構(gòu)開展了星上實時處理方面的研究. 現(xiàn)有的在軌處理通常采用DSP+FPGA的方式實現(xiàn)[8],但其擴展性較差、算法實現(xiàn)難度大、性能不強. 與此同時,計算硬件的快速發(fā)展,特別是功耗低、性能強、開放性好的嵌入式GPU的問世和持續(xù)發(fā)展為遙感數(shù)據(jù)在軌實時處理帶來了新的可行方案. 針對光學應用,中科院遙感與數(shù)字地球研究所[9]、武漢大學[10]等國內(nèi)高校已經(jīng)開始驗證嵌入式GPU在軌搭載的可行性.

        目前GPU主要在地面站作為SAR數(shù)據(jù)處理加速器使用. 孟大地等[11]在NVIDIA K20c + INTEL E5645平臺上做了基于距離多普勒(range Doppler,RD)算法SAR成像的優(yōu)化加速,8 GB的數(shù)據(jù)量只用了7 s;Zhang等[12]做了基于多CPU/GPU的深度協(xié)同SAR成像處理研究,2 GB數(shù)據(jù)量耗時0.72 s. 地面的成熟應用為基于嵌入式的在軌SAR實時成像處理提供可能. 相比于傳統(tǒng)插卡式GPU,Tegra系列具有功耗低、體積小、接口完備、易于嵌入式擴展等優(yōu)勢,但其劣勢主要體現(xiàn)在處理性能相對較差,且內(nèi)存空間不足等方面. 本設(shè)計基于Jetson TX2嵌入式開發(fā)板對滑動聚束SAR成像算法進行高效移植及優(yōu)化加速. TX2的內(nèi)存雖然高達8 GB,但由于其內(nèi)存-顯存共享設(shè)計的特性,若無法合理分配內(nèi)存資源很容易導致內(nèi)存不足. 對此,本設(shè)計依托滑動聚束式SAR處理流程,提出了一種基于TX2的內(nèi)存復用方案,在一定程度上有效解決了TX2內(nèi)存不足的問題;再利用zero-copy技術(shù)進行實時數(shù)據(jù)傳輸,解決了傳統(tǒng)模式下通過PCIe數(shù)傳帶來的處理瓶頸與資源浪費. 在計算加速層次,本設(shè)計借助CUDA通用并行計算架構(gòu),將需要海量計算的環(huán)節(jié),如方位向去斜、CS因子相乘、FFT等,都做了大規(guī)模并行化處理,最終實現(xiàn)16 384×8 192點滑動聚束SAR精確成像.

        與現(xiàn)有研究相比,本文主要作出以下貢獻:第一,通過算法分割,提出了一種基于嵌入式GPU的內(nèi)存分割與重配置方案. 采取了一系列手段包括內(nèi)存的原地寫入、交替循環(huán)、動態(tài)釋放等,有效減少了內(nèi)存碎片化及重分配次數(shù),節(jié)約了內(nèi)存空間. 第二,借助頁鎖定內(nèi)存和zero-copy技術(shù),實現(xiàn)真正意義的零復制. 在ARM端開辟頁鎖定內(nèi)存,通過無需任何開銷的指針映射,杜絕傳輸耗時.

        1 動聚束SAR成像CS算法

        本設(shè)計采用的成像算法是基于CS(chirp scaling)原理的兩步去斜法. CS算法無需距離多普勒算法(刪除)中復雜的卷積,只需要若干次CS因子相乘和FFT即可實現(xiàn)條帶式SAR成像[13-14]. 滑聚模式SAR是對條帶SAR的改進,它兼?zhèn)錀l帶SAR的寬測幅與聚束SAR的高分辨率的優(yōu)點[15]. 滑聚SAR成像算法的整體流程圖如圖1所示.

        雷達每次接收一條距離向數(shù)據(jù)(NR點),共接收NA條,作為一景的原始數(shù)據(jù),轉(zhuǎn)置后便可進行方位向去斜操作,得到距離多普勒域數(shù)據(jù),而后進入正常的CS處理流程. 首先,對方位向作變標處理;其次,距離向頻域乘徙動因子進而完成距離向脈沖壓縮操作;再次,方位向乘因子并作逆FFT完成方位向壓縮;最后對圖像作量化并輸出成像結(jié)果.

        由于滑聚模式針對的應用場景多為高分辨率成像,因此處理的原始數(shù)據(jù)量大多是GB級,且為保證精度,數(shù)據(jù)全程以單精度浮點形式處理,對內(nèi)存需求極大. 結(jié)合如表 1所示TX2內(nèi)存開銷情況,假設(shè)一次可處理的最大數(shù)據(jù)量的理論值為xGB,則針對TX2 7.5 GB可用空間(除去操作系統(tǒng)占用),單批次可處理的原始數(shù)據(jù)量理論最大值約為1.8 GB. 本文旨在討論嵌入式GPU獨立處理方法,針對的原始數(shù)據(jù)量小于理論上限.

        同時,針對滑聚算法實現(xiàn)本身,F(xiàn)FT、相位因子生成、二維數(shù)據(jù)轉(zhuǎn)置的實現(xiàn)方式都關(guān)乎處理的時效性. 后文將著重闡述算法不同部分的并行優(yōu)化方法.

        表1 內(nèi)存開銷情況

        2 優(yōu)化設(shè)計

        本文主要從以下兩個角度對滑動聚束式SAR成像做了基于嵌入式GPU的優(yōu)化加速:內(nèi)存分割、配置與基于任務(wù)的重調(diào)度;基于算法映射的大規(guī)模數(shù)據(jù)處理并行優(yōu)化方法. 規(guī)定采用的原始數(shù)據(jù)量是NA×NR,升采樣后為NP×NR.

        2.1 內(nèi)存優(yōu)化設(shè)計

        2.1.1內(nèi)存分割與重配置

        頻繁分配和釋放內(nèi)存不僅耗時,更容易導致內(nèi)存的碎片化,因而內(nèi)存分割與重配置在整體方案的設(shè)計中十分重要. 內(nèi)存分割主要體現(xiàn)在對內(nèi)存的有效劃分上,根據(jù)用途,本設(shè)計將使用到的內(nèi)存段主要分為工作區(qū)內(nèi)存和數(shù)據(jù)緩沖內(nèi)存兩部分. 工作區(qū)內(nèi)存專門用于執(zhí)行FFT操作,因而需要長期占用;數(shù)據(jù)緩沖內(nèi)存用于暫時存放中間輸出,因而具有很大的可操控性. 本著相同數(shù)據(jù)量大小為一組的原則,將數(shù)據(jù)緩沖內(nèi)存再根據(jù)大小劃分為四組,如表 2所示.

        表2 內(nèi)存分割設(shè)計

        內(nèi)存段mem0用于存放輸入和輸出數(shù)據(jù);mem11與mem12代表升采樣前的數(shù)據(jù)存儲;mem21與mem22代表升采樣后的數(shù)據(jù)存儲;另外還有一些中間變量用到的內(nèi)存段,表格中以mem3表示. 設(shè)計利用這4組內(nèi)存塊,通過有效的內(nèi)存復用與動態(tài)分配釋放,達到了降低內(nèi)存占用、減少分配耗時的目的.

        如圖2,內(nèi)存的復用主要體現(xiàn)在以下3個方面.

        ① 原始數(shù)據(jù)緩存區(qū)mem0在處理過程中采用原位置換機制.M1為升采樣后的數(shù)據(jù)量,該部分空間一景處理完成后再釋放;

        ② 由于矩陣轉(zhuǎn)置模塊無法實現(xiàn)內(nèi)存覆蓋,使用同一段內(nèi)存會導致數(shù)據(jù)混亂,因此將上一個轉(zhuǎn)置的輸入空間作為下一個轉(zhuǎn)置的輸出空間使用,實現(xiàn)內(nèi)存交替復用.

        ③ 在執(zhí)行FFT操作與因子復乘部分時,輸出結(jié)果將輸入數(shù)據(jù)覆蓋,實現(xiàn)原地存儲.

        內(nèi)存的動態(tài)分配與釋放主要體現(xiàn)在兩個方面:

        ① 用于存放升采樣前數(shù)據(jù)的存儲空間在升采樣后便不復使用,因而升采樣結(jié)束后將其立即釋放;而用于放置升采樣后數(shù)據(jù)的mem21和mem22分配將在mem11與mem12釋放成功后進行.

        ② 中間變量,如CS因子、距離徙動因子、距離向時間軸、方位向頻率軸等,都采取即分配、即利用、即釋放的手段. 這些變量數(shù)據(jù)量較小,占用的空間往往是kB量級,因而可以順利獲取,不用擔心由頻繁釋放帶來的內(nèi)存碎片化問題.

        2.1.2任務(wù)分區(qū)與數(shù)據(jù)調(diào)度

        在嵌入式GPU中,ARM作為SAR成像處理的主控及輔助計算部分,主要用于指令生成、調(diào)度與參數(shù)計算. ARM向GPU發(fā)布命令,激活GPU內(nèi)核啟動程序,繼而GPU開始并行計算;計算完成后GPU向ARM返回成功標志,ARM開始著手準備激活下一條內(nèi)核程序. 本設(shè)計里ARM用于計算的環(huán)節(jié)主要體現(xiàn)在軌道參數(shù)計算部分,該部分算法擁有大量迭代與串行操作,無法在GPU上實現(xiàn)并行加速,因而選擇在ARM端串行計算.

        另外,對于數(shù)據(jù)傳輸方式,由于數(shù)據(jù)的中間處理過程都是在GPU上進行的,故在傳統(tǒng)的CPU+GPU異構(gòu)平臺上,是采取在CPU和GPU端分別開辟一段內(nèi)存的方法,先將數(shù)據(jù)讀取至CPU中,然后將數(shù)據(jù)由CPU再拷貝至GPU端作后續(xù)處理[16],如圖 3(a)所示. 然而復制過程以及分別在主機端和設(shè)備端分配內(nèi)存的過程相對于計算本身而言沒有任何產(chǎn)出,且相當耗時,因而應盡可能地減少此類操作.

        考慮到TX2的主機和設(shè)備的內(nèi)存共享特性,若分別開辟內(nèi)存,會導致兩段內(nèi)存中的內(nèi)容重復. 故此處采用了zero-copy技術(shù),借助免費的映射關(guān)系達到有效規(guī)避傳輸時間的作用,如圖 3(b).

        首先分配CPU頁鎖定內(nèi)存,這段主機存儲在經(jīng)過指針映射后可以投入到設(shè)備空間中使用. 在讀取與寫入磁盤時用到的是主機端指針,在需要設(shè)備端做加速計算處理時,使用相應的設(shè)備端指針即可. 在傳統(tǒng)GPU上,zero-copy是將數(shù)據(jù)傳輸與內(nèi)核計算操作以流水線的方式執(zhí)行,因而只能對該塊內(nèi)存讀寫一次,且性能提升不明顯,通常不加以考慮;而TX2得益于其內(nèi)存共享的特性,節(jié)約設(shè)備端存儲器的同時省去了數(shù)據(jù)拷貝的時間,因而可以實現(xiàn)真正意義上的零復制.

        綜合上述分析,采用zero-copy技術(shù)的數(shù)據(jù)傳輸耗時為零,這正是因為zero-copy省去了一切不必要的顯式復制,取而代之的是不需要任何開銷的指針映射.

        2.2 算法關(guān)鍵運算部分并行化處理

        算法映射時,無論是矩陣轉(zhuǎn)置、因子復乘,還是FFT、求最值,都用到了GPU的并行特點,使得整體計算效率相比較串行處理提升了上百倍.

        2.2.1矩陣轉(zhuǎn)置

        對于全局內(nèi)存讀取,GPU要想達到高吞吐率,必須盡可能地采取合并訪問的方式,即連續(xù)訪問對齊內(nèi)存. 當發(fā)生非合并訪問時,GPU會傳輸多次來完成這個訪存請求,這將極大地降低內(nèi)存吞吐率,影響GPU的訪存速度[17].

        顯然,矩陣轉(zhuǎn)置過程中,讀取矩陣的行時可以達到合并訪問,然而轉(zhuǎn)置后寫入矩陣的列時會形成非合并訪問(刪除原始圖4 非合并內(nèi)存訪問). (刪除共享內(nèi)存介紹)本設(shè)計借助共享內(nèi)存來避免對全局內(nèi)存的非合并訪問. 然而,當分屬不同塊的線程訪問到同一個塊時,就會帶來塊訪問沖突的問題[16]. 為了解決這一問題,本設(shè)計將共享內(nèi)存塊的大小設(shè)定為

        Bdim*(Bdim+1).

        (1)

        Bdim代表共享內(nèi)存塊在一個維度上的大小. 這樣在寫入時分屬相同塊中的線程將訪問到不同的共享內(nèi)存塊,示意圖如圖4所示.

        圖中,相同的數(shù)字代表矩陣的同一列;X代表為共享內(nèi)存人為加入的附加列. 可以看出,在寫入共享內(nèi)存時不存在塊內(nèi)沖突;但在從共享內(nèi)存中讀取數(shù)據(jù)時由于要做轉(zhuǎn)置操作,若不加處理(刪除)會導致一個塊中的所有線程讀取到同一個塊中的不同地址上,帶來嚴重的沖突;而添加附加列處理后,每一列的數(shù)據(jù)會呈對角線式均勻分布在不同塊中,每一個線程對應著不同塊. 最后將讀取到的列元素按行寫入內(nèi)存塊完成矩陣轉(zhuǎn)置.

        經(jīng)過以上優(yōu)化,矩陣轉(zhuǎn)置可以同時避免非合并訪問與共享內(nèi)存帶來的塊沖突問題,理論吞吐率達100%.

        2.2.2因子復乘

        在滑聚算法中,5次因子的計算以及它們各自與待處理數(shù)據(jù)的相乘都涉及到了因子復乘. 像素點之間的計算相互獨立,故可以借助CUDA架構(gòu)很容易地移植到TX2中并行計算,如圖 5.

        占用率表明了GPU中硬件發(fā)射時的并行情況,一般情況下,占用率越高,意味著程序的并發(fā)度越高,性能越好. 可以根據(jù)以下公式來計算硬件占用率. 其中,o為硬件占用率,Wact為實際活躍的線程束個數(shù),Wmax為最大可活躍的線程束個數(shù).

        o=Wact/Wmax.

        (2)

        在TX2中,由于受到寄存器資源的限制,占用率有時無法達到100%,這時,減少每個線程塊的大小可以有效地提升硬件占用率. 理論上,線程塊越小,硬件占用率越高;然而過小的線程塊又會導致GPU無法借助大量線程之間的流水操作來很好地掩藏訪存延遲,這就帶來一對矛盾. 可以參考以下公式計算一個內(nèi)核中可以同時發(fā)射的線程塊的個數(shù).

        (3)

        式中:Bnum為實際活躍的線程塊個數(shù);Rmax為設(shè)備中的寄存器個數(shù)上限;R為每個線程中所需要使用的寄存器個數(shù),與內(nèi)核復雜度有關(guān);Bsize為分配的線程塊大小.

        本文為了達到最高的性能收益,對上述矛盾做了折中. 對于寄存器個數(shù)充足的計算內(nèi)核,采用最大線程塊規(guī)?!? 024個線程,這使得占用率可達到100%,且最大限度地掩藏了訪存延遲;對于寄存器個數(shù)不足的計算內(nèi)核,則以2為基準,逐倍降低塊規(guī)模,最小塊為256個線程,從而達到性能最優(yōu).

        2.2.3FFT

        要想實現(xiàn)方位向和距離向壓縮,需要執(zhí)行多次FFT. CUDA庫中已經(jīng)集成了完備的cuFFT庫以幫助開發(fā)人員實現(xiàn)高性能的FFT變換.

        在調(diào)用FFT的庫函數(shù)時,需要為FFT分配工作區(qū),該區(qū)只能由FFT占用而不能用于其他操作. 經(jīng)過測試,地址空間的分配十分耗時,消耗時間超出FFT本身操作的10倍以上,若每次FFT操作都重新分配工作區(qū)會導致執(zhí)行效率大大降低. 分析整個SAR成像流程,共執(zhí)行了包括IFFT在內(nèi)的5次FFT操作,其中,方位向FFT 3次,距離向FFT 2次. 因此,本設(shè)計選擇在5次FFT操作全部完成后再將FFT的工作區(qū)統(tǒng)一釋放,從而提升了FFT計算在程序執(zhí)行總時間中的占比. 輸入和輸出數(shù)據(jù)存放在同一塊內(nèi)存中,實現(xiàn)原位存儲.

        3 結(jié)果分析

        3.1 成像效果及精度分析

        本文基于GF-3地面測試數(shù)據(jù)[18],分別采取點目標與面目標成像結(jié)果作評估,輸入數(shù)據(jù)均為1 m分辨率、10 km幅寬. 數(shù)據(jù)粒度為;16 384×8 192. (刪除具體內(nèi)存分配)

        3.1.1點目標成像分析

        在方位向與距離向均加-30 dB的5階泰勒窗后,設(shè)計優(yōu)化得到的點目標壓縮圖像如圖 6.

        選取景中心點目標(像素點坐標為(8 192,4 096))作評估,可以得到二維等高線圖、方位向峰值曲線和距離向峰值曲線(加窗),如圖 7和圖 8是未加窗的成像結(jié)果.

        SAR成像結(jié)果常用的幾個評價指標為:峰值旁瓣比(peak side lobe ratio,PSLR)、積分旁瓣比(integrated side lobe ratio,ISLR)和分辨率[19]. 為了使評估結(jié)果更可靠,本文將圖8中的9個點目標全部作評估再取平均值,得到結(jié)果如表 3.

        表3 點目標評估結(jié)果

        理論上,在未加窗的情況下,PSLR應該為-13.4 dB;但在本設(shè)計中,由于構(gòu)造參數(shù)本身的些微誤差導致了成像結(jié)果的方位向PSLR增加了約0.55 dB,距離向PSLR增加了約0.12 dB. 為了使弱目標不被附近的強目標覆蓋,通常要求PSLR取到-20 dB,ISLR取到-15 dB,此時,可以選擇在脈壓時對方位向和距離向分別加-30 dB的5階泰勒窗抑制旁瓣,加窗后的結(jié)果滿足要求.

        3.1.2面目標成像分析

        壓縮后可得到面目標圖像如圖 9.

        為了比較成像效果,本文采用了常用的面目標圖像質(zhì)量評估指標:均方誤差(mean squared error,MSE)、峰值信噪比(peak signal to noise ratio,PSNR)、結(jié)構(gòu)相似度(structural similarity index,SSIM)、輻射分辨率(γ)[20],將TX2處理后的全幅圖像與CPU仿真結(jié)果圖作比較,得到各指標如表 4.

        表4 面目標評估結(jié)果

        3.2 實時性及功耗效能比分析

        為了得到最佳方案,此處根據(jù)計算機硬件評估指標,定義SAR成像在GPU上實現(xiàn)的性能功耗比如下.

        (4)

        利用Nsight Eclipse平臺的Profile分析工具對優(yōu)化結(jié)果做分析可以知道,TX2在優(yōu)化等級為-o2的情況下,完成數(shù)據(jù)量為1 GB的滑動聚束式SAR成像的總執(zhí)行時間為12.660 s;其中,指令執(zhí)行時間(包括文件讀寫以及ARM端的一些調(diào)度)占用了1.418 47 s,在GPU上的計算時間占用了8.599 83 s,內(nèi)存分配與釋放占用了2.641 7 s. 同樣的數(shù)據(jù)量在Tesla K20c + Intel Xeon CPU E5-2697 v2平臺上的總仿真時間為4.165 s. 再結(jié)合現(xiàn)有的SAR成像研究[12,21-22],可以得到對比結(jié)果如表 5所示.

        表5 不同優(yōu)化方案的性能對比

        可以看出,SAR成像在TX2上實現(xiàn)時的性能功耗比明顯高于其他平臺下的性能功耗比,這意味著單位功耗下嵌入式GPU可以提供更高的處理效率. 因此,在嵌入式GPU開發(fā)平臺上實現(xiàn)星載SAR實時成像非常有發(fā)展前景.

        4 結(jié)束語

        主要研究基于Chirp Scaling處理算法的滑動聚束式SAR成像算法在嵌入式開發(fā)平臺Jetson TX2上的設(shè)計與實現(xiàn). 通過算法分析,對內(nèi)存做到有效分割與重配置,借助原地內(nèi)存寫入、內(nèi)存交替循環(huán)、動態(tài)內(nèi)存釋放等手段解決了TX2上內(nèi)存不足的問題;在ARM與GPU的數(shù)據(jù)交互上,利用頁鎖定內(nèi)存,通過指針映射過程實現(xiàn)零復制,使數(shù)據(jù)傳輸耗時降低至0 ms;最后,通過有效復用TX2中的共享內(nèi)存、寄存器、全局內(nèi)存等存儲資源,合理分配線程個數(shù),最大限度地開發(fā)了TX2的計算性能,實現(xiàn)大規(guī)模數(shù)據(jù)并行. 與現(xiàn)有研究相比,本設(shè)計在不損失精度的前提下,達到了最高的性能功耗比. 這為星載SAR實時成像開辟了良好的開端.

        考慮到TX2現(xiàn)有的8 GB內(nèi)存空間仍不足以滿足大批量數(shù)據(jù)的星上實時處理,這可以通過PCIe擴展內(nèi)存或數(shù)據(jù)分塊來解決. 另外,隨著嵌入式平臺的不斷發(fā)展,更高性能的硬件平臺也可以投入使用,例如Jetson Xavier,內(nèi)嵌16 GB的LPDDR4,將TX2的內(nèi)存空間擴大了一倍;同時Xavier采用PCIe 4.0技術(shù),當采用分塊處理時,可以達到更大的傳輸帶寬. 這都使未來基于嵌入式GPU的更大點數(shù)SAR在軌成像成為可能.

        猜你喜歡
        共享內(nèi)存占用率數(shù)據(jù)量
        基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
        計算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
        高刷新率不容易顯示器需求與接口標準帶寬
        寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計與研究
        電子制作(2019年13期)2020-01-14 03:15:18
        通過QT實現(xiàn)進程間的通信
        降低CE設(shè)備子接口占用率的研究與應用
        魅力中國(2019年6期)2019-07-21 07:12:10
        基于PCI總線的多處理器協(xié)同機制研究
        科技風(2017年20期)2017-07-10 18:56:06
        基于排隊論的區(qū)域路內(nèi)停車最優(yōu)泊位占用率研究
        QNX下PEX8311多路實時數(shù)據(jù)采集的驅(qū)動設(shè)計
        電子世界(2014年21期)2014-04-29 06:41:36
        一種高效RTAI 共享內(nèi)存管理層的研究與實現(xiàn)*
        久青草影院在线观看国产| 最新欧美一级视频| 一亚洲一区二区中文字幕| 人妻精品人妻一区二区三区四区| 国产区精品一区二区不卡中文| 午夜成人理论无码电影在线播放 | 日韩另类在线| 激情内射亚洲一区二区| 在线播放国产自拍av| 国产婷婷色一区二区三区在线 | 999zyz玖玖资源站永久| 午夜成人精品福利网站在线观看| 国产精品99精品一区二区三区∴| 日韩精品成人一区二区三区| 国产亚洲精品美女久久久久| 麻豆精品传媒一二三区| 亚洲日韩区在线电影| 极品精品视频在线观看| 在厨房被c到高潮a毛片奶水| 116美女极品a级毛片| 鲁丝一区鲁丝二区鲁丝三区| 日韩中文字幕久久久老色批| 亚洲视频在线观看| 欧美伊人久久大香线蕉在观| 国产精品视频免费一区二区三区| 中文字幕一区二区三区的| 男人激烈吮乳吃奶视频免费 | 免费观看又色又爽又湿的视频| 欧美日韩精品福利在线观看| av手机天堂在线观看| 日本丰满少妇xxxx| 人妻少妇av无码一区二区| 午夜无码国产18禁| 97超碰国产成人在线| 尤物网址在线观看| 国产精品久久国产三级国电话系列| 免费视频一区二区三区美女| 无码人妻丰满熟妇区bbbbxxxx| 狠狠人妻久久久久久综合| 国产三级三级三级看三级日本| 国产美女高潮流白浆免费视频|