亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于FPGA 的模板匹配加速器的設(shè)計(jì)與實(shí)現(xiàn)

        2021-12-01 05:26:06周仕杰
        關(guān)鍵詞:檢測(cè)

        李 鋒,周仕杰

        (東華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,上海 201620)

        0 引言

        織物的瑕疵檢測(cè)是織物質(zhì)量控制中的重要一環(huán),傳統(tǒng)的人工驗(yàn)布方式存在著檢測(cè)效率低下、漏檢率高等缺陷,還會(huì)對(duì)工人本身的視力造成傷害,是提升織物生產(chǎn)效率的一大瓶頸[1]。為了改變這一現(xiàn)狀,織物的瑕疵檢測(cè)成為計(jì)算視覺領(lǐng)域的一大研究熱點(diǎn)[2]。國(guó)內(nèi)外已有不少基于計(jì)算機(jī)視覺技術(shù)的解決方案,但是這些方案在實(shí)時(shí)性、準(zhǔn)確性、經(jīng)濟(jì)性及適用性上還不足以滿足實(shí)際的生產(chǎn)需求,還需要進(jìn)一步探索。

        基于深度學(xué)習(xí)的方法可以很好地?cái)M合大量非線性數(shù)據(jù),在復(fù)雜的織物紋理背景下有著更好的檢測(cè)效果,但是其面臨數(shù)據(jù)集獲取困難、難以增量學(xué)習(xí)、不可解釋性等難題[3-4]。純色織物的紋理是具有周期性的,傳統(tǒng)的模板匹配的方式可以很好地增強(qiáng)瑕疵區(qū)域的顯著性[5]。但是模板匹配算法本身計(jì)算量龐大,當(dāng)前的通用CPU 架構(gòu)無法滿足實(shí)時(shí)計(jì)算需求。而FPGA 作為一種高性能、低功耗的可編程芯片,可以通過編程直接生成專用電路。與CPU 分時(shí)同步的并行方式不同,F(xiàn)PGA 利用電路的并行特性可實(shí)現(xiàn)真正的多核并行[6]。現(xiàn)有解決方案大多是將織物瑕疵檢測(cè)算法部署在高性能服務(wù)器上,這些服務(wù)器大多采用通用PC 外接圖像采集卡及圖形加速卡的結(jié)構(gòu),成本較高[7]。近年來,隨著SoC 技術(shù)不斷成熟,F(xiàn)PGA+ARM 的異構(gòu)平臺(tái)(Zynq-7000 系列)的推出,使得高性能且低成本的軟硬協(xié)同定制計(jì)算,逐漸成為織物瑕疵檢測(cè)系統(tǒng)的首選解決方案[8]。

        本文首先分析了運(yùn)用于瑕疵檢測(cè)領(lǐng)域的模板匹配算法,根據(jù)該算法的特點(diǎn)設(shè)計(jì)了相應(yīng)的基于FPGA 的硬件加速器,并對(duì)加速器的訪存時(shí)延、傳輸時(shí)延、計(jì)算時(shí)延等環(huán)節(jié)進(jìn)行了優(yōu)化。本方案在Zynq-7020 平臺(tái)上實(shí)現(xiàn),對(duì)該加速器進(jìn)行了性能評(píng)估,并與通用CPU 的運(yùn)行效果進(jìn)行了對(duì)比。

        1 瑕疵檢測(cè)中的模板匹配算法

        目前基于計(jì)算機(jī)視覺的瑕疵檢測(cè)算法可大致分為4 類:基于結(jié)構(gòu)的方法、基于統(tǒng)計(jì)的方法、基于頻譜的方法和基于機(jī)器學(xué)習(xí)的方法[9]。其中,基于結(jié)構(gòu)的方法通常是將織物的紋理視為紋理基元的組合,織物圖案的紋理即為紋理基元的周期性排列。由于瑕疵會(huì)破壞織物紋理的周期性,可以使用無瑕疵的織物圖像作為模板,通過模板匹配算法將織物圖片與紋理模板相減,可以提取出擁有較好一致性與完整性的目標(biāo)瑕疵,該方法可用于織物瑕疵圖像的顯著性檢測(cè),織物瑕疵圖像的顯著性檢測(cè)就是將瑕疵區(qū)域定義為顯著區(qū)域,其余紋理圖案部分定義為低顯著性區(qū)域[10-11]。

        比較常見的基于灰度的圖像匹配算法有平均絕對(duì)差算法(MAD)、絕對(duì)誤差和算法(SAD)、誤差平方和算法(SSD)、平均誤差平方和算法(MSD)、歸一化積相關(guān)算法(NCC)、序貫相似性檢測(cè)算法(SSDA)等[12]。由于SAD 方法計(jì)算較為簡(jiǎn)單,適合FPGA 的實(shí)現(xiàn),本文采用SAD 方法,基本原理如式(1)和(2):

        其中,s(x,y)為待檢測(cè)圖像,其分辨率為m ×n,t(x,y)為模板圖像,其分辨率為M × N,M >m,N >n。

        將待檢測(cè)圖像在模板圖像上滑動(dòng),如圖1 所示。tij(x,y)為待檢測(cè)圖片覆蓋到的模板圖像區(qū)域,即子模板圖,i、j為待檢測(cè)圖左上角在模板圖像中的坐標(biāo)位置,其中i、j的范圍為:0 ≤i <M-m,0 ≤j <N- n。

        圖1 模板匹配過程Fig.1 Template matching procedure

        絕對(duì)誤差和算法(SAD)將子模板圖與待檢測(cè)圖像之間像素灰度的差的絕對(duì)值之和d(i,j)作為子模板圖與待檢測(cè)圖之間的相似度,絕對(duì)差之和越小,表示待檢測(cè)圖與該位置的子模板圖越相似,取使得d(i,j)最小的子模板圖tij(x,y)作為模板匹配的結(jié)果圖像I,計(jì)算公式如式(1)和(2)所示。然后將待檢測(cè)圖像與模板匹配的結(jié)果圖像相減,定義為該待檢測(cè)織物圖像的顯著性圖像。

        值得注意的是M-m與N-n的取值,即待檢測(cè)圖像與模板圖像之間的大小關(guān)系。由于織物紋理存在周期性,將織物紋理抽象為一個(gè)正弦函數(shù):

        假設(shè)待檢測(cè)圖像所包含的紋理周期為:

        模板圖像所包含的紋理周期為:

        若φ0≠φ1,則待檢測(cè)圖與模板圖之間存在相位差,為了保證待檢測(cè)圖像是模板圖像的子圖,則須滿足θ0≥θ1+2π,即模板圖像須在橫向及縱向上均比待檢測(cè)圖像大一個(gè)紋理周期。若織物紋理一個(gè)周期的像素大小為p ×q,則為一張分辨率為m ×n的待檢測(cè)圖像進(jìn)行模板匹配運(yùn)算,需進(jìn)行m ×n ×p ×q次減法運(yùn)算,該方法的計(jì)算量龐大,當(dāng)前的通用CPU 無法滿足其在實(shí)時(shí)場(chǎng)景中的算力需求,需要設(shè)計(jì)加速器。

        2 基于FPGA 的模板匹配加速器設(shè)計(jì)

        2.1 從模板匹配算法到FPGA 加速器

        模板匹配是提取顯著性圖像的重要步驟,其速度直接影響整個(gè)瑕疵檢測(cè)的實(shí)時(shí)性,為此設(shè)計(jì)了一個(gè)模板匹配加速器,作為一個(gè)外設(shè)掛載在操作系統(tǒng)之下,CPU 和加速器之間通過內(nèi)部數(shù)據(jù)總線相連。此外加速器訪問內(nèi)存需要消耗大量時(shí)鐘周期,因此被讀入片上緩存的數(shù)據(jù)要盡可能得到復(fù)用,但片上緩存的大小有限,一幀4k 的完整織物圖片無法直接存入片上緩存,因此每次將包含若干紋理周期的子圖存入片上緩存。本文的論述主要基于像素大小為16×16 的子圖,以及像素大小為24×24 的模板圖,該方案適用于紋理周期小于8×8 的純色織物圖片。針對(duì)紋理周期較大的情況,可以考慮增大模板圖,但這也意味著更大的計(jì)算量、更多的資源消耗。本文設(shè)計(jì)的加速器在每次啟動(dòng)的時(shí)候先將模板圖像存入片上緩存,然后在完整的織物圖像中依次為每一個(gè)子圖執(zhí)行模板匹配運(yùn)算,并將結(jié)果不斷寫回內(nèi)存,其工作流程如圖2 所示。

        圖2 加速器工作流程Fig.2 Accelerator workflow

        2.2 加速器結(jié)構(gòu)

        加速器采用了3 層存儲(chǔ)架構(gòu),分別為片外緩存(DDR),片上緩存(BRAM),以及運(yùn)算單元內(nèi)部的寄存器,如圖3 所示。加速器通過AXI4(Advanced eXtensible Interface 4)總線與PS(Processing System)的內(nèi)存通信,兩個(gè)AXI4 接口均工作在master 模式下,可對(duì)內(nèi)存進(jìn)行隨機(jī)訪問,其中input 接口負(fù)責(zé)將內(nèi)存中的數(shù)據(jù)寫入片上緩存,而output 接口負(fù)責(zé)將計(jì)算后的結(jié)果寫回內(nèi)存。此外該加速器的多個(gè)控制寄存器通過AXI4-Lite 總線實(shí)現(xiàn)與內(nèi)存統(tǒng)一編址,該接口工作在slave 模式下,PS 端可通過AXI4-Lite總線來獲取并控制PL(Programmable Logic)部分的加速器工作狀態(tài)。

        圖3 模板匹配加速器結(jié)構(gòu)Fig.3 The structure of template matching accelerator

        該加速器的主要運(yùn)行時(shí)延由3 部分組成,分別為訪存時(shí)延,即加速器通過AXI 總線在內(nèi)存中隨機(jī)尋址所消耗的時(shí)間;傳輸時(shí)延,即數(shù)據(jù)在AXI4 總線上傳輸所消耗的時(shí)間;以及計(jì)算時(shí)延,即模板匹配運(yùn)算本身所消耗的時(shí)間。因此,可以從這3 個(gè)方面對(duì)加速器進(jìn)行優(yōu)化設(shè)計(jì),提高資源利用率,提升加速器的算力。

        2.3 加速器時(shí)延優(yōu)化策略

        2.3.1 訪存時(shí)延的優(yōu)化

        訪存時(shí)延的優(yōu)化主要通過AXI4 總線的突發(fā)傳輸機(jī)制來實(shí)現(xiàn)。AXI4 總線中的突發(fā)傳輸是指在地址總線上進(jìn)行一次地址傳輸后,可連續(xù)進(jìn)行多次數(shù)據(jù)傳輸,即第一次地址傳輸中的地址作為起始地址,后續(xù)數(shù)據(jù)的存儲(chǔ)地址在起始地址的基礎(chǔ)上遞增,AXI4 總線的最大突發(fā)傳輸長(zhǎng)度為256[13]。得益于這一機(jī)制,在加速器順序訪問大量連續(xù)內(nèi)存地址的過程中,其速率可近似為每個(gè)時(shí)鐘周期訪問一個(gè)內(nèi)存數(shù)據(jù)。對(duì)于本文的模板匹配算法來說,每一次訪存即是從一張完整的圖片中選取一個(gè)16×16 的子圖,也意味著每次只有16 個(gè)數(shù)據(jù)在內(nèi)存中是順序排列的,突發(fā)傳輸?shù)拈L(zhǎng)度被限制為16。實(shí)驗(yàn)結(jié)果顯示,在突發(fā)傳輸長(zhǎng)度為16,時(shí)鐘頻率為150 Mhz 的情況下,傳輸一張分辨率為1 024×1 024 的灰度圖耗時(shí)約31 ms,如果選取的子圖擴(kuò)大為32×32,則突發(fā)傳輸?shù)拈L(zhǎng)度擴(kuò)大為32,同樣傳輸一張1 024×1 024的灰度圖,則耗時(shí)約為19 ms。理論上子圖寬度越大,訪存時(shí)延越短,但是過大的子圖紋理難以與模板圖中的紋理對(duì)齊,獲得的檢測(cè)效果也越差;在不丟失圖片幾何特征的情況下,子圖越小,越容易與模板圖中的紋理對(duì)齊,獲得的檢測(cè)效果也越好。經(jīng)實(shí)驗(yàn),在大多數(shù)應(yīng)用場(chǎng)景中分辨率為16×16 的子圖在獲得相對(duì)較好的檢測(cè)效果的同時(shí),也獲得了相對(duì)較低的傳輸時(shí)延。

        2.3.2 傳輸時(shí)延的優(yōu)化

        傳輸時(shí)延的優(yōu)化主要通過時(shí)延折疊的方式來實(shí)現(xiàn)。該加速器的執(zhí)行過程可抽象為3 個(gè)步驟:數(shù)據(jù)輸入、數(shù)據(jù)計(jì)算、結(jié)果輸出。由于三者是對(duì)同一組片上緩存中的數(shù)據(jù)進(jìn)行操作,因此在未經(jīng)優(yōu)化的情況下這3 個(gè)步驟是一個(gè)串行的過程。常見的乒乓操作是例化兩組片上緩存,在每組緩存上交替執(zhí)行輸入與輸出的步驟,以實(shí)現(xiàn)輸入與輸出的時(shí)延折疊[14]。本文則進(jìn)一步采用了三重緩沖的思想,例化了3 組片上緩存,將輸入、計(jì)算、輸出三者的時(shí)延折疊,在傳統(tǒng)乒乓操作的基礎(chǔ)上進(jìn)一步優(yōu)化傳輸時(shí)延,其時(shí)序圖如圖4 所示。

        圖4 采用三重緩沖后的時(shí)序圖Fig.4 Time sequence with triple buffering

        其中,同一種顏色代表同一組片上緩存,在某一時(shí)刻往第一組片上緩存中輸入數(shù)據(jù)時(shí),計(jì)算單元開始處理第二組片上緩存,同時(shí)將第三組片上緩存中的結(jié)果輸出到內(nèi)存中。3 組片上緩存交替執(zhí)行各個(gè)步驟,構(gòu)成一個(gè)三級(jí)流水線。

        2.3.3 計(jì)算時(shí)延的優(yōu)化

        上文中提到完成一次模板匹配運(yùn)算需進(jìn)行m ×n × p × q次減法運(yùn)算,因此對(duì)于16×16 的待檢測(cè)子圖及8×8 的紋理周期,完成一次模板匹配運(yùn)算需進(jìn)行16 384 次減法運(yùn)算。如果加速器內(nèi)只有一組運(yùn)算單元,即使對(duì)整個(gè)運(yùn)算過程進(jìn)行了流水線優(yōu)化,在運(yùn)算單元的起始間隔為1 個(gè)時(shí)鐘周期的情況下,仍舊需要16 384 個(gè)時(shí)鐘周期才能完成一輪計(jì)算,完成一張1 024×1 024 圖片的模板匹配運(yùn)算,則至少需要447 ms。以16 的突發(fā)傳輸長(zhǎng)度實(shí)現(xiàn)分辨率為1 024×1 024 圖片的傳輸僅需31 ms,時(shí)延折疊方式,則會(huì)產(chǎn)生如圖5 所示的時(shí)序圖,此時(shí)的運(yùn)算過程將成為性能瓶頸,因此需要對(duì)計(jì)算時(shí)延進(jìn)行優(yōu)化。

        圖5 計(jì)算時(shí)延優(yōu)化前的時(shí)序Fig.5 Time sequence before computation delay optimization

        雖然可以通過例化多組計(jì)算單元并行計(jì)算來達(dá)到優(yōu)化的目的,但是模板圖與待檢測(cè)圖存儲(chǔ)在片上緩存即BRAM 中,而BRAM 本身的讀寫端口數(shù)是有限的,一般為兩個(gè),即一個(gè)時(shí)鐘周期內(nèi)只能讀取兩個(gè)數(shù)據(jù)??蓪RAM 進(jìn)行分塊,以此來增加接口數(shù)量,使得在一個(gè)周期內(nèi)讀取更多的數(shù)據(jù),再通過例化多個(gè)計(jì)算單元實(shí)現(xiàn)并行計(jì)算[15]。

        如圖6 所示,將24×24 的模板圖沿著x 方向劃分成24 組數(shù)據(jù),并存入24 塊BRAM 中,將16×16的待檢測(cè)圖同樣沿著x 方向劃分成16 組數(shù)據(jù),并存入16 塊BRAM 中。每塊BRAM 擁有兩個(gè)端口,因此一個(gè)時(shí)鐘周期內(nèi)可讀出32 組數(shù)據(jù),同時(shí)再例化32 組計(jì)算單元實(shí)現(xiàn)并行計(jì)算,將原本16 384個(gè)時(shí)鐘周期的運(yùn)算時(shí)延縮減為512 個(gè)時(shí)鐘周期。實(shí)測(cè)該方案為分辨率為1 024×1 024的圖片進(jìn)行模板匹配運(yùn)算耗時(shí)約24 ms,此時(shí)的數(shù)據(jù)傳輸與計(jì)算過程的時(shí)延相差不大,時(shí)延得到充分折疊,時(shí)序如圖7 所示,且消耗的資源也不多。

        圖6 BRAM 分塊過程Fig.6 BRAM partition process

        圖7 計(jì)算時(shí)延優(yōu)化后的時(shí)序Fig.7 Time sequence after computation delay optimization

        如果將所有BRAM 徹底分塊,即把模板圖與待檢測(cè)圖的每一個(gè)數(shù)據(jù)都存儲(chǔ)在一個(gè)單獨(dú)的寄存器中,例化256 組計(jì)算單元,以實(shí)現(xiàn)在64 個(gè)周期內(nèi)完成一次模板匹配運(yùn)算,該方案雖然可行但是訪存時(shí)延就會(huì)成為瓶頸,同時(shí)這種方案會(huì)消耗大量不必要的邏輯資源。

        3 實(shí)驗(yàn)評(píng)估

        3.1 實(shí)驗(yàn)環(huán)境

        使用搭載Zynq-7020 芯片的Pynq-Z2 開發(fā)板,Zynq-7020 異構(gòu)平臺(tái)由雙核ARM Cortex-A9 與Artix-7 FPGA 組成。其中FPGA 部分的資源包括可編程邏輯單元85 K、片上緩存BRAM 4.9 Mb、DSP切片220 個(gè),雙核A9 的時(shí)鐘頻率為667 MHz,板載512 MB 內(nèi)存。采用工廠中常見的的4 K 工業(yè)線掃相機(jī)作為數(shù)據(jù)輸入源,像素頻率為24 MHz,該類相機(jī)每分鐘可采集寬度約1 m、長(zhǎng)度約85 m 的織物圖像。開發(fā)板通過轉(zhuǎn)接板擴(kuò)展出Camera Link 接口與線掃相機(jī)連接。FPGA 部分除了包含模板匹配算法加速器,還集成了用于將Camera Link 差分信號(hào)解析為RGB 數(shù)據(jù),并將RGB 數(shù)據(jù)轉(zhuǎn)為AXI4-Stream 總線數(shù)據(jù)傳入內(nèi)存的一系列相關(guān)IP 核。其中模板匹配加速器的資源消耗見表1。

        表1 模板匹配加速器資源耗費(fèi)Tab.1 Template matching accelerator resource consumption

        其中,LUT(Look-Up-Table)為查找表;FF(Flip Flop)為觸發(fā)器;BRAMs為大小為36 Kb 的片上緩存數(shù)量;DSP(Digital Signal Processing)為數(shù)字信號(hào)處理器,以上均為FPGA 內(nèi)部資源;f代表該加速器的工作時(shí)鐘頻率。

        與之對(duì)比的通用PC 機(jī),采用CPU i7-8750H,6 核12 線程,默認(rèn)主頻2.2 GHz,搭載16 Gb 內(nèi)存,通過PCIE(peripheral component interconnect express)外接圖像采集卡的方式來連接線掃相機(jī)。

        在成本的方面,傳統(tǒng)的PC 級(jí)板卡式結(jié)構(gòu)中僅一張專業(yè)的Camera Link 圖像采集卡價(jià)格就千元以上,一臺(tái)高性能主機(jī)的價(jià)格也普遍在5 000 元以上。相比之下,一塊搭載Zynq-7020 的開發(fā)板價(jià)格僅為1 000 元左右,成本降低了6 倍以上。

        3.2 性能對(duì)比

        本文設(shè)計(jì)的模板匹配加速器的處理效果在觀感上與通用CPU 的處理效果一致,無論是通用CPU還是本文設(shè)計(jì)的加速器,都很好地消除了織物的紋理背景,凸顯了瑕疵區(qū)域。由于本文中的模板匹配算法是以子圖為單位進(jìn)行處理的,因此處理結(jié)果存在輕微網(wǎng)格效應(yīng),通過OTSU 或TRIANGLE 自適應(yīng)二值化及一些基本形態(tài)學(xué)操作后可以輕松消除這一現(xiàn)象,處理效果如圖8 所示。此外,對(duì)織物原圖進(jìn)行諸如保邊濾波、紋理提取等預(yù)處理步驟之后,再對(duì)紋理特征進(jìn)行模板匹配,可以更好地消除噪聲及光照不均所帶來的干擾,獲得更好的檢測(cè)效果。

        圖8 加速器處理結(jié)果Fig.8 Accelerator processing result

        在檢測(cè)速度上,通用PC 與本文設(shè)計(jì)的加速器對(duì)比見表2。處理一張分辨率為1 024×1 024 的圖片,使用同樣的算法,基礎(chǔ)頻率為2.2 GHz 的i7-8750H 耗時(shí)0.324 s,無法跟上線掃相機(jī)24 MHz 的像素頻率,時(shí)常出現(xiàn)漏幀現(xiàn)象。相比之下,本文設(shè)計(jì)的模板匹配加速器,在PL 部分時(shí)鐘頻率為150 MHz的Zynq-7020 平臺(tái)上耗時(shí)僅為0.031 s,速度是CPU的10.5 倍,相當(dāng)于33 MHz 的像素處理頻率,該速率大于工業(yè)線掃相機(jī)24 MHz 的像素頻率。工廠中普遍采用4 個(gè)像素覆蓋1 mm 的織物長(zhǎng)度,以此來估算,對(duì)于4k 分辨率的線掃相機(jī),本系統(tǒng)每分鐘可處理的織物面積約為120 m2,大于每分鐘85 m2的速率要求,滿足了實(shí)時(shí)性需求。

        表2 本文加速器與通用PC 對(duì)比Tab.2 The accelerator compared with general PC

        4 結(jié)束語

        為了將織物瑕疵檢測(cè)算法更有效地部署到實(shí)際生產(chǎn)環(huán)境中,本文對(duì)瑕疵檢測(cè)領(lǐng)域的模板匹配算法進(jìn)行了改進(jìn),為該算法設(shè)計(jì)了一種基于FPGA 的算法加速器,并對(duì)該加速器的各項(xiàng)處理時(shí)延進(jìn)行了優(yōu)化。最終該加速器在Zynq-7000 系列異構(gòu)平臺(tái)上獲得了33 MHz 的像素處理頻率,相當(dāng)于每分鐘可處理面積約120 m2的織物圖片,滿足了工業(yè)領(lǐng)域的實(shí)時(shí)性需求。設(shè)計(jì)過程中采用SoC 技術(shù)取代了傳統(tǒng)的PC 級(jí)板卡式結(jié)構(gòu),使織物瑕疵檢測(cè)系統(tǒng)的成本降低了6 倍以上。

        猜你喜歡
        檢測(cè)
        QC 檢測(cè)
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        “幾何圖形”檢測(cè)題
        “角”檢測(cè)題
        “有理數(shù)的乘除法”檢測(cè)題
        “有理數(shù)”檢測(cè)題
        “角”檢測(cè)題
        “幾何圖形”檢測(cè)題
        亚洲人妻精品一区二区三区| 亚洲精品无码久久毛片| 日韩av在线毛片| 中文字幕久久熟女人妻av免费 | 亚洲精品中文字幕无乱码麻豆| 国产免费三级三级三级| 国产成人一区二区三区影院| 国产亚洲美女精品久久久2020| 男女肉粗暴进来120秒动态图| 亚洲欧美日韩高清一区二区三区| 国产精品一品二区三区| 视频一区视频二区制服丝袜| 国外精品视频在线观看免费| 亚洲一区二区自拍偷拍| 午夜tv视频免费国产区4| 日本一区二区久久精品亚洲中文无| 国产自拍在线观看视频| 亚洲av永久无码精品网站在线观看 | 两个人免费视频大全毛片| 国产精品一区二区夜色不卡 | 亚洲av理论在线电影网| 亚洲亚洲亚洲亚洲亚洲天堂| 亚洲精品国产第一区三区| 日本人妻系列中文字幕| 少妇中文字幕乱码亚洲影视| 66lu国产在线观看| 中文字幕一区二区三区在线视频| 精品久久综合日本久久综合网| 亚洲av永久无码精品网址| 国产区福利| 国产一级黄片久久免费看| 公和我做好爽添厨房| 99国产精品人妻噜啊噜| 国产亚洲欧美日韩综合综合二区| 久久无码中文字幕东京热| 日韩人妻免费视频一专区| 777精品久无码人妻蜜桃| 国产一区二区激情对白在线| 久久伊人网久久伊人网| 中文字幕漂亮人妻在线| 久久水蜜桃亚洲av无码精品麻豆|