亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        智能駕駛-AI芯片的算力研究

        2019-01-10 07:05:32于繼成王強(qiáng)趙目龍焦育成
        汽車文摘 2019年1期
        關(guān)鍵詞:算力紅旗運(yùn)算

        于繼成 王強(qiáng) 趙目龍 焦育成

        (中國第一汽車集團(tuán)有限公司智能網(wǎng)聯(lián)研發(fā)院,長春 130011)

        主題詞:智能駕駛 算力單位 算力計算方法 算力對比分析

        1 前言

        在對駕駛汽車更便捷、更安全、更舒適的追求下,人類已經(jīng)拉開了無人駕駛的幕布??v觀世界,奧迪A8搭載了L3級自動駕駛控制器,可在時速為60 km/h內(nèi)的城市道路自動駕駛,是世界上首輛量產(chǎn)的L3級別自動駕駛車輛,這也開啟了傳統(tǒng)汽車廠商在智能汽車方面的開端,使得豪華車向智能豪華車轉(zhuǎn)變。

        智能駕駛汽車現(xiàn)已可配置激光雷達(dá)、毫米波雷達(dá)、超聲波雷達(dá)、前視攝像頭、環(huán)視攝像頭、夜視紅外攝像頭等大量的傳感器用以采集道路數(shù)據(jù)、感知駕駛環(huán)境,但是只有傳感還不夠,還要有一個足夠強(qiáng)大的大腦對數(shù)據(jù)進(jìn)行分析,并做出正確的規(guī)劃和決策。這大腦部分就是由多個車規(guī)級的智能駕駛AI芯片搭建而成,包括GPU、FPGA、MCU及ASIC芯片等[1]。

        2007年,一汽集團(tuán)與國防科技大學(xué)合作,在紅旗HQ3車型基礎(chǔ)上完成高速公路自動駕駛樣車,開啟了中國一汽對自動駕駛探索之路。2011年7月,紅旗HQ3無人車完成了從長沙到武漢286 km的高速全程無人駕駛實驗,歷時3小時22分鐘,展示了一汽集團(tuán)在自動駕駛上的探索成果;2015年4月,一汽集團(tuán)正式發(fā)布了其“摯途”技術(shù)戰(zhàn)略,標(biāo)志著一汽集團(tuán)的互聯(lián)智能汽車技術(shù)戰(zhàn)略規(guī)劃正式形成。2015年4月19日,一汽在同濟(jì)大學(xué)舉行了“摯途”技術(shù)實車體驗會,包含有“手機(jī)叫車、自主泊車、擁堵跟車、自主駕駛”等4項智能化技術(shù)[2]。2018年一汽集團(tuán)徐留平董事長在北京鳥巢發(fā)布了紅旗品牌戰(zhàn)略,新紅旗將突出“新高尚”、“新精致”、“新情懷”的理念,打造卓越產(chǎn)品和服務(wù),發(fā)布了一汽紅旗品牌自動駕駛發(fā)展規(guī)劃。

        中國第一汽車集團(tuán)有限公司放眼世界造車趨勢,集全集團(tuán)之力誓將自主紅旗品牌打造為中國第一、世界著名的汽車品牌。中國一汽將智能化、網(wǎng)聯(lián)化作為新紅旗汽車的核心魅點,匹配當(dāng)前用戶追求極致體驗的需求。在2018年上市的紅旗H5身上,消費者已經(jīng)切身體驗到行業(yè)領(lǐng)先的新紅旗卓越智能駕駛系統(tǒng)。隨后,中國一汽將不斷推出更加智能化、高度自動化、完全自動化駕駛的新紅旗產(chǎn)品。其中,2019年推出實現(xiàn)L3(SAE)級自動駕駛的量產(chǎn)車型,2020年推出實現(xiàn)L4(SAE)級自動駕駛的量產(chǎn)車型,2025年將實現(xiàn)L5(SAE)級自動駕駛量產(chǎn)車型,部分內(nèi)容摘自一汽徐留平董事長紅旗品牌戰(zhàn)略發(fā)布會講話。

        作為從事硬件設(shè)計的工程師,為了提升對自動駕駛硬件方案的設(shè)計水平,緩解對供應(yīng)商硬件方案的評估壓力,建立對自動駕駛硬件方案的技術(shù)管控能力,需要對各個芯片廠家的AI芯片的功能和計算處理能力清楚掌握。

        本文將從AI芯片最基礎(chǔ)的算力資源及算力大小、計算的角度,揭開自動駕駛AI芯片的面紗。

        2 自動駕駛AI芯片算力

        2.1 算力研究的意義

        自動駕駛域控制器的開發(fā),OEM通常有兩種方式,自主開發(fā)或者向供應(yīng)商采購。如果自主開發(fā),AI芯片廠家包括Xilinx、NXP、Renesas、Intel、NVIDIA、TI等所生產(chǎn)的不同AI芯片、不同硬件資源架構(gòu)、不同計算能力,該如何取舍?如果向供應(yīng)商采購,供應(yīng)商如恒潤、偉世通、地平線、東軟、TTTech等所提供的硬件方案是否能夠滿足應(yīng)用需求、實現(xiàn)應(yīng)有的功能、規(guī)避項目失敗的風(fēng)險?這些問題使得我們不得不從硬件設(shè)計之初,芯片方案選型階段就要充分論證AI芯片的算力資源。

        以往,關(guān)于自動駕駛芯片算力的信息來自于AI芯片廠家提供及Tire1方案中的AI芯片對比數(shù)據(jù),這種模式導(dǎo)致以下幾點問題:

        1)不能有效審核Tire1算力評估的準(zhǔn)確性;2)無法對應(yīng)AI芯片本身算力支持的硬件資源;3)不能根據(jù)需求進(jìn)行算力匹配與AI芯片選型。所以,了解各廠家AI芯片的內(nèi)部算力資源、了解算力的計算方法、統(tǒng)一算力單位成為自動駕駛硬件設(shè)計的重要工作內(nèi)容。

        2.2 算力基礎(chǔ)概念

        2.2.1 算力單位

        OPS(Operations Per Second):每秒完成操作的數(shù)量,乘操作算一個OP,加操作算一個OP;

        MACS:表示每秒可執(zhí)行的定點乘累加操作次數(shù),可借用于衡量自動駕駛計算平臺定點數(shù)據(jù)運(yùn)算處理能力,這個量之前用在那些大量定點乘法累加運(yùn)算的科學(xué)運(yùn)算中,記為MACS。1G MACS等同每秒10億(=109)次的定點乘累加運(yùn)算;

        FLOPS(Floating-Point Operations Per Second):每秒可執(zhí)行的浮點運(yùn)算次數(shù)的字母縮寫,它用于衡量計算機(jī)浮點運(yùn)算處理能力。這個量經(jīng)常用于需要大量浮點運(yùn)算的科學(xué)運(yùn)算中。在自動駕駛領(lǐng)域,由于NVIDIA SOC支持浮點運(yùn)算,且是目前最強(qiáng)處理IC之一。浮點運(yùn)算,實際上包括了所有涉及小數(shù)的運(yùn)算。浮點運(yùn)算比整數(shù)運(yùn)算更復(fù)雜、更精確、更耗費時間。

        DMIPIS(Dhrystone Million Instructions executed Per Second):Dhrystone:是測量處理器運(yùn)算能力的最常見基準(zhǔn)程序之一,常用于處理器的整型運(yùn)算性能的測量。MIPS:每秒執(zhí)行百萬條指令,用來計算同一秒內(nèi)系統(tǒng)的處理能力,即每秒執(zhí)行了多少百萬條指令。

        2.2.2 基于INT8的深度學(xué)習(xí)架構(gòu)

        隨著更精確的深度學(xué)習(xí)模型被開發(fā)出來,它們的復(fù)雜性也帶來了高計算強(qiáng)度和高內(nèi)存帶寬方面的難題。能效正在推動著深度學(xué)習(xí)推斷新模式開發(fā)方面的創(chuàng)新,這些模式需要的計算強(qiáng)度和內(nèi)存帶寬較低,但絕不能以犧牲準(zhǔn)確性和吞吐量為代價。降低這一開銷將最終提升能效,降低所需的總功耗。

        INT8除了降低神經(jīng)網(wǎng)絡(luò)計算中數(shù)據(jù)傳輸帶來的功耗,較低位寬的計算方式同時可以降低內(nèi)存帶寬帶來的功耗費用,可理解為在相同內(nèi)存事務(wù)的情況下傳輸?shù)奈粩?shù)減少了,進(jìn)而降低了總功耗[3]。

        研究顯示要保持同樣的準(zhǔn)確性,深度學(xué)習(xí)推斷中無需浮點計算,而且圖像分類等許多應(yīng)用只需要INT8或更低定點計算精度來保持可接受的推斷準(zhǔn)確性。表1列出了精調(diào)網(wǎng)絡(luò)以及卷積層和完全相連層的動態(tài)定點參數(shù)及輸出。括號內(nèi)的數(shù)字代表未精調(diào)的準(zhǔn)確性。

        表1 帶定點精度的CNN模型精度對比分析[4]

        通過上表可以看出,在自動駕駛圖像處理應(yīng)用中,在不同的參數(shù)神經(jīng)網(wǎng)絡(luò)下,INT8與32位浮點的定點精度高度相近,所以在降低功耗,減少數(shù)據(jù)傳輸帶寬的優(yōu)勢下,INT8成為目前被廣為看好的精度格式。

        3 算力計算公式

        3.1 單位換算

        3.1.1 MACS與OPS單位轉(zhuǎn)換

        深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)使用相對數(shù)量較少的計算原語(Computational Primitives),而這些數(shù)量很少的計算原語卻占用了大部分計算時間。矩陣乘法和轉(zhuǎn)置是基本操作。矩陣乘法由乘法累加(MAC)操作組成。Ops/s(每秒完成的操作數(shù)量)指的是通過每秒可以完成多少個MAC(每次乘法和累加各被認(rèn)為是1個operation,因此MAC實際上是2個OP)得到[5]。所以,可以得到MACS與OPS之間的換算關(guān)系如下:1MACS=2?OPS。

        3.1.2 ARM核算力DMIPS查詢方法及算力計算

        智能駕駛AI芯片內(nèi)部均集成有多個內(nèi)核,而目前各個AI芯片廠商尤其以集成ARM內(nèi)核居多。ARM核多用于多圖像處理(轉(zhuǎn)化及提?。⒛繕?biāo)識別和融合、具有功能安全定義的決策制定等功能。

        這里先介紹一下ARM核的算力查詢方法,ARM公司將其ARM核的算力信息更新在在維基百科上,可通過以下網(wǎng)址查詢[6],如表2所示。

        表2 ARM核工作主頻及算力數(shù)據(jù)表[6]

        例如某片SOC內(nèi)部集成4個A53核,工作主頻為1.2 GHZ,則該SOC內(nèi)部ARM核部分的計算處理能力為4×(2.3 DMIPS/MHz)×1.2 GHz=11.04 K DMIPS。

        當(dāng)然有些AI公司會自己開發(fā)內(nèi)核,如Infineon的Tricore MCU TC297內(nèi)部集成的是其自己的內(nèi)核,類似于這些非集成ARM內(nèi)核的AI芯片的算力,在選型時需要與廠家進(jìn)行仔細(xì)確認(rèn)。

        3.2 恩智浦S32V算力資源分析

        3.2.1 芯片S32V234算力分析

        恩智浦(NXP)下一代S32家族計算平臺是一個完全可擴(kuò)展的計算平臺,基于公用架構(gòu),可以根據(jù)不同的應(yīng)用,像雷達(dá)應(yīng)用、網(wǎng)關(guān)應(yīng)用、視覺的應(yīng)用添加特有的功能IP,派生出針對功能安全和動力總成應(yīng)用的S32S/P、雷達(dá)應(yīng)用的S32R、下一代網(wǎng)關(guān)應(yīng)用的S32G、視覺應(yīng)用的S32V、自動駕駛應(yīng)用的S32A和通用的S32K[7]。S32V234有2個專用的圖形處理加速器APEX[8],如下圖1所示。APEX由2個APEX-642 ICP核組成,每個ICP核由2組APU組成,每個APU包含32個CU(矢量計算單元-Computational Units)和1個ACP(標(biāo)量計算及調(diào)度)。所以每個APEX有128個CU,4個ACP。其總計算能力為80 GMACs,即在400 MHz時鐘內(nèi),每個時鐘周期可以完成200次MAC運(yùn)算,這得益于CU的SIMD處理特性。

        圖1 S32V234 Block Diagram[8]

        3.2.2 下一代產(chǎn)品S32V3xx計算能力資源簡介[8]

        恩智浦下一代高算力產(chǎn)品S32V3xx的算力資源采用三個全新架構(gòu)設(shè)計的APEX-D硬核圖像處理加速器,總算力將比S32V2xx有大幅度提高。

        S32V3xx性能的提高主要來源于以下因素:

        (1)S32V3xx采用了全新設(shè)計的APEX-D加速處理器,架構(gòu)上作了優(yōu)化提升;

        (2)時鐘頻率提升超過1倍;

        (3)每個CU的處理能力大幅提升,每個時鐘周期可以完成更多的MAC運(yùn)算;

        (4)整體功耗將控制在更低水平。

        具體算力信息待NXP官方宣稱,但可以肯定的是,這款芯片未來的應(yīng)用場景非常可觀,將會為自動駕駛技術(shù)的發(fā)展注入強(qiáng)勁力量。

        3.3 瑞薩R-CAR算力資源分析

        R-Car H3基于ARM? Cortex?-A57/A53核構(gòu)建,采用ARM的最新64位CPU核架構(gòu),實現(xiàn)了40 000 DMIPS(Dhrystone百萬指令/每秒)的處理性能。

        IMP是瑞薩(Renesas)的AI芯片中的一個圖像處理加速核,把許多圖像處理相關(guān)的算子進(jìn)行了硬件化。支持的一些預(yù)處理操作包括density-conversion、bit-inversion、normalization等,后處理包括Absolutevalue processing、normalization、density conversion等,像素轉(zhuǎn)換、數(shù)學(xué)運(yùn)算、邏輯運(yùn)算、Convolution、Labeling、Histogram processing和Sobel-filter等。

        R-CAR芯片核心是MAC計算,主要基于5X5卷積運(yùn)算,每個5X5卷積運(yùn)算是25 MACs/cc,5X5卷積運(yùn)算在一個Clock cycle可以處理2個Pixel,每個Pixel是指一個8 bit的像素數(shù)據(jù)。

        以R-CAR H3為例,H3有4個5X5卷積運(yùn)算單元,工作頻率533 MHz,算力也就是25 MACs/cc X 2 pixels/cc X 533 MHz X 4 IMP Cores=106 G MACS。

        R-CAR H3[9]系統(tǒng)框圖如圖2所示:

        圖2 R-CAR H3系統(tǒng)框圖[9]

        3.4 德州儀器TDA2S算力分析

        德州儀器(TI)的AI芯片內(nèi)部包括ARM核、DSP和專為視覺處理設(shè)計的完全可編程的視覺加速器。

        TDA2x SoC內(nèi)部包含2個TI知識產(chǎn)權(quán)定浮點DSP內(nèi)核C66x和4個專為視覺處理設(shè)計的視覺加速器EVE,完全可編程,工作主頻可達(dá)到650 MHz。

        TDA2S的DSP內(nèi)核是TI自己開發(fā)的產(chǎn)品[10],可在其官網(wǎng)上對DSP算力進(jìn)行查詢,網(wǎng)址為:http://www.ti.com/processors/dsp/c6000-dsp/c66x/overview.html,查詢結(jié)果如表3所示。

        TI的EVE@650MHz視覺圖像處理硬件加速器的算力為11.5 G OPS,DSP C66@750MHz的算力為4.6 G OPS,以TDA2s為例,其算力大小為2×DSP+4×EVE=55.2 G OPS=27.6 G MACS。

        表3 TI官網(wǎng)DSP算力表[10]

        3.5 賽靈思Ultra Scale ZU系列SOC算力分析

        3.5.1 賽靈思(Xilinx)的FPGA在自動駕駛應(yīng)用中的優(yōu)勢

        作為GPU在算法加速上的強(qiáng)有力競爭者,F(xiàn)PGA在自動駕駛方案中越來越被看好,首先由于FPGA自身低能耗的特點,十分適合于傳感器數(shù)據(jù)的(預(yù))處理工作;同時FPGA具有硬件可升級、可迭代的優(yōu)勢,能夠滿足感知算法的不斷更新;另外FPGA具有高性能及可編程特性,十分適合感知計算;最后,F(xiàn)PGA相比GPU價格便宜,相比于CPU與GPU有明顯的性能與能耗優(yōu)勢。

        3.5.2 FPGA算力計算分析

        FPGA內(nèi)部包括ARM內(nèi)核、DSP Slices等算力資源。其中DSP Slices資源可以在Xilinx官網(wǎng)的選型指導(dǎo)手冊查到[11],如下表4所示。

        表4 賽靈思車規(guī)級FPGA硬件資源表[11]

        DSP Slice的算例計算公式為:可以按這個公式來算GOPS:DSP數(shù)量×最高時鐘×1.75×2,其中需要說明的是1個DSP平均可以做1.75次INT8運(yùn)算、1個DSP是算2個運(yùn)算。

        以Xilinx的ZU5EV為例,其DSP Slice數(shù)量為1 248個,最高時鐘為645 MHz,根據(jù)以上計算公式可得ZU5EV的算力大小為:DSP數(shù)量×最高時鐘×2×1.75=1.248 K×645 MHz×2×1.75×G/1000=2817.36 G OPS=1408.68 G MACS=1.4 T MACS。

        3.6 英偉達(dá)Tegra Parker SOC算例分析

        3.6.1 基于GPU的計算解決方案

        GPU在浮點運(yùn)算、并行計算等部分的計算方面,能夠提供數(shù)十倍甚至上百倍的CPU性能。利用GPU運(yùn)行機(jī)器學(xué)習(xí)模型,在云端進(jìn)行分類和檢測,相對比CPU耗費的時間將大幅度縮短。憑借強(qiáng)大的計算能力,在機(jī)器學(xué)習(xí)快速發(fā)展的推進(jìn)下,GPU目前在深度學(xué)習(xí)芯片市場非常受歡迎。

        憑借具備識別、標(biāo)記功能的圖像處理器,英偉達(dá)(NVIDIA)在人工智能領(lǐng)域搶占先機(jī)。NVIDIA的PX2平臺是目前領(lǐng)先的基于GPU的無人駕駛解決方案,分別為Tesla、百度和算法公司等提供全套的硬件解決方案。在Drive PX2中,Auto Chauffeur是一個定義面向L3的版本,其運(yùn)算部分的配置是雙Parker SoC(提供256個CUDA運(yùn)算資源),外加雙MXM3.1接口的Pascal架構(gòu)獨立運(yùn)算圖形處理單元GP106(GPU,提供1 280個CUDA運(yùn)算單元)組成,片圖形處理單元都有自己的專屬內(nèi)存以及專用的指令以完成深度神經(jīng)網(wǎng)絡(luò)的硬件加速。借助優(yōu)化的I/O架構(gòu)與深度神經(jīng)網(wǎng)絡(luò)的硬件加速,單臺PX2 Auto Chauffeur能夠執(zhí)行每秒24兆次深度學(xué)習(xí)計算。

        3.6.2 GPU的算力計算

        GPU的浮點計算理論峰值能力測試跟CPU的計算方式基本一樣:

        理論峰值=GPU芯片數(shù)量×GPU Boost主頻×核心數(shù)量×單個時鐘周期內(nèi)能處理的浮點計算次數(shù),

        只不過在GPU里單精度和雙精度的浮點計算能力需要分開計算[12]。

        雙精度理論峰值=FP64 Cores×GPU Boost Clock×2=xxx T flops

        單精度理論峰值=FP32 cores×GPU Boost Clock×2=xxx T flops

        以Tegra Parker SOC為例,其內(nèi)部有256個CUDA Cores,工作主頻是1 275 MHz:其雙精度理論算力峰值為FP64 Cores×GPU Boost Clock×2 = 0.65 T flops。

        4 算力概括

        通過以上對各個芯片廠家的AI芯片的算力分析,得到的是理論峰值,在方案階段的對比選型數(shù)據(jù),可以作為重要的參考要素,但是不能忽略有效算力這個概念,在硬件設(shè)計中如何協(xié)同合作發(fā)揮出AI芯片的有效算力是各位自動駕駛工程師需要共同面對和解決的重要問題。

        本文最后根據(jù)上面所羅列的計算方法對各廠家AI芯片的算力進(jìn)行總結(jié)比較,在這里需要聲明的是各廠家對自動駕駛AI芯片的布局均有各自的策略和側(cè)重點,對AI芯片的算力計算用以方案算力初始冗余量評估,本文的對比數(shù)據(jù)并無對不同AI芯片的優(yōu)劣好壞的評比,而是在此建議設(shè)計師們根據(jù)需求、根據(jù)應(yīng)用進(jìn)行選型,選擇最合適的而不是最貴的、性能最強(qiáng)大的。統(tǒng)計數(shù)據(jù)如表5所示。

        表5 各芯片廠家部分AI芯片算力統(tǒng)計表

        5 結(jié)束語

        為促進(jìn)一汽紅旗智能駕駛汽車的發(fā)展,本文從最基礎(chǔ)的AI芯片進(jìn)行了論述,對AI芯片的計算處理能力進(jìn)行了闡釋說明。希望能夠?qū)ξ磥淼漠a(chǎn)品開發(fā)和芯片選型等提供參考依據(jù)。

        高計算能力的AI芯片往往帶來更多的功耗需求,汽車用AI芯片將在高計算能力和低功耗的平衡中不斷發(fā)展突破,為實現(xiàn)L5級的完全自動駕駛需求,除算法上面的不斷改進(jìn)外,對AI芯片算力的需求也將朝著百TOPS級別發(fā)展。目前,在電動車及混動車型上更容易滿足自動駕駛大功耗的計算平臺需求,在提供大功率供電的同時,也可借助電池冷卻液解決高功耗帶來的散熱難題。

        致謝

        感謝王強(qiáng)、趙目龍、焦育成等人對本文的形成給與的巨大支持與細(xì)致的校對,對本文的形成起了重要作用。他們是一汽從事智能駕駛硬件設(shè)計人員的先行者與開拓者,在面對并解決重重困難中,為一汽的自動駕駛事業(yè)保駕護(hù)航。

        猜你喜歡
        算力紅旗運(yùn)算
        多方求解智能時代算力挑戰(zhàn)
        新華月報(2024年7期)2024-04-08 02:10:56
        這個第二不一般
        都市人(2023年11期)2024-01-12 05:55:06
        衛(wèi)星通信在算力網(wǎng)絡(luò)中的應(yīng)用研究
        中國電信董事長柯瑞文:算力成為數(shù)字經(jīng)濟(jì)的主要生產(chǎn)力
        重視運(yùn)算與推理,解決數(shù)列求和題
        紅旗E-HS9
        汽車觀察(2021年4期)2021-05-10 05:13:56
        紅旗H9
        汽車觀察(2021年4期)2021-05-10 05:12:32
        紅旗E-HS9
        汽車觀察(2021年11期)2021-04-24 21:34:38
        有趣的運(yùn)算
        屬于紅旗的“前世今生”
        車迷(2019年10期)2019-06-24 05:43:06
        富婆叫鸭一区二区三区| 精品国偷自产在线视频九色| 牛牛在线视频| 成人性做爰aaa片免费看| 中文字幕Aⅴ人妻一区二区苍井空 亚洲中文字幕久久精品蜜桃 | 香蕉久久夜色精品国产| 国产激情视频在线观看首页| 中文有码人妻字幕在线| 99久久婷婷国产综合亚洲| 国产色秀视频在线播放| 国产精品每日更新在线观看| 精品亚洲乱码一区二区三区| 色妺妺视频网| 亚洲中文字幕女同一区二区三区 | 欧美亚洲国产日韩一区二区三区| 成在线人免费无码高潮喷水| 婷婷久久亚洲中文字幕| 久久免费看黄a级毛片| 欧美一性一乱一交一视频| 亚洲欧美精品伊人久久| 亚洲精品午夜精品国产| 精品少妇一区二区三区入口| 国产午夜免费啪视频观看| 精品午夜福利在线观看| 久久中文精品无码中文字幕下载| 亚洲中文字幕在线一区二区三区 | 精品久久亚洲中文无码| 性无码国产一区在线观看| 草青青视频手机免费观看| 亚洲av无码成h在线观看| 欧妇女乱妇女乱视频| 在线av野外国语对白| 加勒比一区二区三区av| 久久熟妇少妇亚洲精品| 熟女无套内射线观56| 97日日碰日日摸日日澡| 亚洲男人在线天堂av| 国产精品一区二区三区卡| 亚洲日韩国产一区二区三区在线 | 激情综合丁香五月| 国产 中文 制服丝袜 另类|