亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        異構(gòu)多核人工智能SoC芯片的低功耗設(shè)計(jì)

        2020-07-01 05:44:28唐芳福張志國龔永紅
        航天控制 2020年2期
        關(guān)鍵詞:人工智能設(shè)計(jì)

        顏 軍 唐芳福 張志國 韓 俊 龔永紅

        珠海歐比特宇航科技股份有限公司,珠海519080

        0 引言

        人工智能是引領(lǐng)未來的戰(zhàn)略性產(chǎn)業(yè),是我國科技領(lǐng)域重要的發(fā)展戰(zhàn)略[1],而人工智能(AI)芯片作為整個(gè)人工智能領(lǐng)域的關(guān)鍵技術(shù)環(huán)節(jié),是我國人工智能產(chǎn)業(yè)的基礎(chǔ),是實(shí)現(xiàn)人工智能突破的重要關(guān)卡。

        人工智能芯片主要解決的是對(duì)深度學(xué)習(xí)算法、卷積神經(jīng)網(wǎng)絡(luò)算法、自然語言處理(NLP)等的運(yùn)算加速問題,需要具備足夠大的算力。對(duì)于導(dǎo)引頭、視頻處理、遙感大數(shù)據(jù)等實(shí)時(shí)應(yīng)用,通常會(huì)需要芯片提供TOPS級(jí)的運(yùn)算能力,以智能導(dǎo)引頭應(yīng)用常見的YOLO V3算法為例,一個(gè)416×416圖形輸入理論上的計(jì)算量為0.3TOPS左右,導(dǎo)引頭應(yīng)用通常需要高于每秒30幀的處理速度,可知對(duì)處理器算力的要求為:不少于9TOPS。

        由于摩爾定律的限制,常規(guī)的提高主頻的做法收效甚微。技術(shù)上,通常采用異構(gòu)多核的架構(gòu)來搭建SoC芯片,來提高整個(gè)SoC芯片的算力。

        但算力的增加往往也意味著功耗的增加,而嵌入式多核處理器SoC芯片首先需要解決的就是在保證算力的情況下,功耗必須足夠低。低功耗設(shè)計(jì)是一個(gè)系統(tǒng)工程,包含了電路級(jí)、結(jié)構(gòu)級(jí)、算法級(jí)和操作系統(tǒng)級(jí)等多個(gè)方面的內(nèi)容,需從多個(gè)方面進(jìn)行綜合性考慮[2]。而芯片的設(shè)計(jì)需要遵循平衡設(shè)計(jì)原則,需要在芯片的復(fù)雜度、內(nèi)部結(jié)構(gòu)、性能、功耗、擴(kuò)展性等各個(gè)方面做一定的權(quán)衡,在設(shè)計(jì)過程中要堅(jiān)持從整體結(jié)構(gòu)的角度去權(quán)衡各個(gè)具體的結(jié)構(gòu)問題。

        1 玉龍810芯片設(shè)計(jì)指標(biāo)、結(jié)構(gòu)及應(yīng)用

        歐比特嵌入式人工智能處理器芯片玉龍810,聚焦于前端圖像處理和信號(hào)處理,具有對(duì)深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)算法的加速處理能力,算力要求達(dá)到12TOPS、峰值功耗要求控制在5W之內(nèi)。

        芯片內(nèi)部采用標(biāo)準(zhǔn)AMBA3.0總線協(xié)議的AXI總線,能夠?qū)崿F(xiàn)SPARC V8 CPU處理器[3]、GPU及NNA等異構(gòu)多核處理器的片內(nèi)集成,如圖1所示。芯片采用FD-SOI生產(chǎn)工藝,該工藝具有對(duì)單粒子鎖定(SEL)天然免疫的特點(diǎn);芯片外設(shè)接口豐富,具有JPEG2000編碼器、CameraLink數(shù)據(jù)接口、RapidIO總線接口、1553B總線接口[4]等航空航天專用處理單元和接口。

        圖1 玉龍810 SoC芯片結(jié)構(gòu)框圖

        芯片配套的軟件開發(fā)框架中包含模型轉(zhuǎn)換工具、軟件開發(fā)環(huán)境等,能夠?qū)崿F(xiàn)與TensorFlow,Caffe等主流深度學(xué)習(xí)工具軟件框架的無縫對(duì)接,支持絕大多數(shù)主流的深度學(xué)習(xí)網(wǎng)絡(luò)模型,如YOLO、SSD、RESNET、VGG、FastCNN等,同時(shí)支持用戶自定義網(wǎng)絡(luò)模型。

        玉龍810人工智能芯片的典型應(yīng)用包括:

        1)星上在軌情報(bào)提取:衛(wèi)星上運(yùn)行人工智能算法,一邊采集數(shù)據(jù)一邊在軌實(shí)時(shí)提取情報(bào)信息,實(shí)時(shí)下傳情報(bào),大大提高情報(bào)獲取的效率;

        2)航天器在軌健康管理:航天器運(yùn)行過程中,監(jiān)測(cè)、采集運(yùn)行數(shù)據(jù),通過人工智能算法,自主完成故障分析、故障推理、故障處置以及故障預(yù)測(cè),大大提高航天器的安全性;

        3)飛行器智能制導(dǎo):飛行器導(dǎo)引頭使用人工智能芯片,運(yùn)行人工智能算法,可以有效提高目標(biāo)識(shí)別、目標(biāo)跟蹤的精度,并且通過人工智能技術(shù)有效排除誘餌干擾,提高飛行精度。

        2 玉龍810芯片關(guān)鍵技術(shù)

        2.1 適合超大數(shù)據(jù)吞吐量異構(gòu)多核總線技術(shù)

        玉龍810芯片內(nèi)部功能模塊通過片內(nèi)AXI3.0總線互聯(lián)。AXI3.0具備高帶寬、高傳輸速率性能[5],其主要特點(diǎn)是:

        1)單向通道體系結(jié)構(gòu)。信息流只以單方向傳輸,簡化時(shí)鐘域間的橋接,減少門數(shù)量;當(dāng)信號(hào)經(jīng)過復(fù)雜的片上系統(tǒng)時(shí),減少延時(shí)。

        2)支持多項(xiàng)數(shù)據(jù)交換。通過并行執(zhí)行猝發(fā)操作,提高數(shù)據(jù)吞吐能力,可在更短的時(shí)間內(nèi)完成任務(wù)。

        3)獨(dú)立的地址和數(shù)據(jù)通道。地址和數(shù)據(jù)通道分開,能對(duì)每一個(gè)通道進(jìn)行單獨(dú)配置、優(yōu)化,能根據(jù)需求控制時(shí)序通道,將時(shí)鐘頻率和效率進(jìn)行最優(yōu)配置。

        芯片內(nèi)部SPARC CPU是AXI總線上的主設(shè)備;AI協(xié)處理單元作為也是AXI總線上的主設(shè)備,可以讀寫任何從設(shè)備的數(shù)據(jù),但同時(shí)受CPU內(nèi)核控制??偩€上的從設(shè)備為:片內(nèi)外設(shè)、片上存儲(chǔ)器、片外存儲(chǔ)器、片外IO等,這些從設(shè)備統(tǒng)一編址,被各處理器核心平等共享??偩€控制器負(fù)責(zé)對(duì)總線訪問進(jìn)行仲裁和管理,仲裁管理邏輯和算法包括:固定優(yōu)先、總線鎖定、定時(shí)釋放等??赏ㄟ^對(duì)寄存器的設(shè)置選擇仲裁管理邏輯和算法。

        表1 異構(gòu)體系中模塊分配列表

        2.2 AI算法及對(duì)超大數(shù)據(jù)的運(yùn)算支撐技術(shù)

        芯片主要通過GPU核和NNA核來處理AI算法及超復(fù)雜數(shù)據(jù)運(yùn)算,芯片內(nèi)部配備了8個(gè)GPU核、8個(gè)NNA加速器核。其中GPU核由標(biāo)準(zhǔn)shader core構(gòu)成,可計(jì)算半精度、單精度、雙精度浮點(diǎn)運(yùn)算,也能處理定點(diǎn)運(yùn)算;每個(gè)NNA單元由768個(gè)乘累加器(MAC)構(gòu)成,可進(jìn)行8位或16位定點(diǎn)運(yùn)算,8個(gè)NNA共同組成了6144個(gè)龐大的硬件計(jì)算陣列,在1GHZ主頻的條件下可以提供12TOPS的定點(diǎn)運(yùn)算算力。

        表2 AI協(xié)處理器性能指標(biāo)

        卷積神經(jīng)網(wǎng)絡(luò)(CNN)一般由卷積層、池化層、全連接層等組成,卷積層參數(shù)量小,計(jì)算量大,卷積運(yùn)算在整個(gè)網(wǎng)路中的計(jì)算量占比一般超過80%;NNA核可以在1個(gè)或幾個(gè)周期內(nèi)完成大規(guī)模矩陣乘運(yùn)算,從而實(shí)現(xiàn)對(duì)卷積層的加速。GPU核使用浮點(diǎn)運(yùn)算,可用于計(jì)算池化層、全連接層等,最大程度地保證系統(tǒng)精度。各層的分配由編譯器事先指定,運(yùn)行時(shí)GPU和NNA各自處理分配給自己的網(wǎng)絡(luò)層,互不干擾。AI協(xié)處理器除了GPU核和NNA核之外還包括:AXI接口單元、內(nèi)部RAM、Cache單元等,各部件協(xié)同工作,組成了一個(gè)完整、高效的處理子系統(tǒng),也構(gòu)成了對(duì)AI算法及超大數(shù)據(jù)提供高速算力的異構(gòu)多核SoC架構(gòu)。

        2.3 低功耗優(yōu)化技術(shù)

        通過對(duì)各IP核的功耗參考數(shù)據(jù)的分析,可以得到芯片各IP核的理論功耗值,如表3所示。

        如表3統(tǒng)計(jì),如果功耗不加以控制,當(dāng)主頻在1GHz所有模塊都通電運(yùn)行的典型情況下,整個(gè)芯片的功耗將達(dá)到8.83W,芯片功耗大,其弊端是:能源消耗大、芯片溫度上升快、芯片壽命短。為了滿足設(shè)計(jì)指標(biāo),整個(gè)芯片的功耗最好控制在5W以內(nèi)。玉龍810芯片項(xiàng)目試圖通過時(shí)鐘門控、UPF等技術(shù)來降低芯片整體功耗。

        圖2 AI協(xié)處理單元框架

        表3 各IP核理論功耗值

        3 低功耗設(shè)計(jì)及實(shí)現(xiàn)策略

        CMOS電路中的功耗由電路翻轉(zhuǎn)時(shí)產(chǎn)生的動(dòng)態(tài)功耗、P管和N管同時(shí)導(dǎo)通時(shí)產(chǎn)生的短路功耗以及擴(kuò)散區(qū)和襯底之間的反向偏置漏電路引起的靜態(tài)功耗三部分組成[6]。

        通常情況下靜態(tài)功耗占總功耗的1%以下,系統(tǒng)非長時(shí)間處于休眠狀態(tài),則可以忽略不計(jì)。短路功耗在整個(gè)CMOS電路功耗中占比較小,與晶體管的轉(zhuǎn)換速度有關(guān),轉(zhuǎn)換速度越快,其所占比例越小,短路功耗占總功耗的平均比例為10%左右。動(dòng)態(tài)功耗占總功耗的比例約為70%~90%,而低功耗設(shè)計(jì)主要目的就是通過各種手段,實(shí)現(xiàn)降低動(dòng)態(tài)功耗的數(shù)值[7]。

        低功耗設(shè)計(jì)是一個(gè)系統(tǒng)的問題,需要在設(shè)計(jì)的各個(gè)層次上發(fā)展適當(dāng)?shù)募夹g(shù),綜合應(yīng)用不同的設(shè)計(jì)策略,達(dá)到在降低功耗的同時(shí)維持系統(tǒng)性能的目的。研究證明在不同設(shè)計(jì)層次上的優(yōu)化工作對(duì)功耗的改善程度不同,如表4所示,設(shè)計(jì)層次越高,改善效果越好[8]。

        表4 設(shè)計(jì)層次與改善程度關(guān)系表

        低功耗設(shè)計(jì)主要的策略有:

        1)權(quán)衡面積和性能,使用并行、流水化和預(yù)計(jì)算等方法,用面積或時(shí)間換取低功耗;

        2)關(guān)閉不用的邏輯和時(shí)鐘;

        3)使用專用電路代替可編程邏輯;

        4)使用規(guī)則的算法和結(jié)構(gòu),以減少控制負(fù)荷;

        5)采用新型的低功耗器件和工藝[9]。

        3.1 預(yù)計(jì)算技術(shù)

        預(yù)計(jì)算技術(shù)原理是:在第t個(gè)時(shí)鐘周期內(nèi)有選擇性地預(yù)計(jì)算電路的輸出邏輯值,然后在第(t+1)個(gè)周期內(nèi)或其后周期中,利用預(yù)計(jì)算的結(jié)果減少電路內(nèi)部的跳變行為。預(yù)計(jì)算可分為單周期和多周期2種,綜合多種情況的測(cè)試結(jié)果表明2種預(yù)計(jì)算技術(shù)均可降低功耗,部分情況下可降低75%。預(yù)計(jì)算邏輯使得面積平均增加3%,所引起的延遲增加通常很小[10]。

        3.2 時(shí)鐘門控

        時(shí)鐘門控(Clock-Gating)一直以來都是降低微處理器功耗的重要手段,主要針對(duì)寄存器翻轉(zhuǎn)帶來的動(dòng)態(tài)功耗[11]。如何更加有效地設(shè)計(jì)時(shí)鐘門控,對(duì)于最大限度地降低功耗,同時(shí)保證處理器的性能至關(guān)重要。多核多線程微處理器中,多個(gè)功能部件可能不是同時(shí)工作的,對(duì)于無執(zhí)行任務(wù)的功能部件就可以將其時(shí)鐘關(guān)閉,減少其隨時(shí)鐘翻轉(zhuǎn)進(jìn)行多余的內(nèi)部寄存器翻轉(zhuǎn),從而降低產(chǎn)生功耗的浪費(fèi)和熱量聚集。對(duì)于需要控制的寄存器,在一定情況下關(guān)閉寄存器的傳輸功能,阻止無用的數(shù)據(jù)進(jìn)入下一級(jí)邏輯,避免引起一連串不必要的邏輯翻轉(zhuǎn),達(dá)到降低功耗的可能[12]。

        芯片在設(shè)計(jì)之初,就配置了多組時(shí)鐘域,每組時(shí)鐘都能夠單獨(dú)通過獨(dú)立寄存器進(jìn)行PLL倍頻、分頻控制,同時(shí)在綜合階段,根據(jù)應(yīng)用場(chǎng)景的不同,及各個(gè)模塊布局布線不同,分別插入了一級(jí)時(shí)鐘門控單元和二級(jí)模塊時(shí)鐘門控單元,實(shí)現(xiàn)了當(dāng)某個(gè)模塊或是模塊端口信號(hào)進(jìn)入靜止空閑狀態(tài)時(shí),模塊的時(shí)鐘將自動(dòng)被鉗制住,從而達(dá)到降低模塊內(nèi)部動(dòng)態(tài)功耗的目的,當(dāng)然為了適應(yīng)用戶習(xí)慣,時(shí)鐘的門控功能也可以通過軟件設(shè)置為無效狀態(tài)。時(shí)鐘門控電路結(jié)構(gòu)框圖如圖3所示:

        圖3 門控時(shí)鐘樹結(jié)構(gòu)框圖

        3.3 多閾值單元庫的應(yīng)用

        現(xiàn)在的工藝都會(huì)提供不同閾值Vt的單元庫,同一工藝下不同閾值電壓Vtcell特性不同,如表5所示[13]。

        表5 Vt cell特性表

        合理使用不同的Vt cell可以滿足不同功耗性能需求,在使用過程中,應(yīng)該優(yōu)先使用SVT的cell,而后是LVT,最后萬不得已的時(shí)候再使用ULVT(ULVT的leakagecurrent非常大,一般會(huì)達(dá)到SVT的四到五倍的量級(jí))。設(shè)計(jì)工具支持mix-Vt的設(shè)計(jì)。在功耗優(yōu)化的過程中,根據(jù)用戶設(shè)定的Vt等價(jià)置換規(guī)則,在不影響timing的情況下,選擇leakagecurrent小的cell,這樣在兼顧性能的時(shí)候可以滿足power的需求。

        3.4 采用SEL免疫的FD-SOI工藝

        芯片采用FD-SOI制造工藝,與傳統(tǒng)的塊狀硅技術(shù)相較,F(xiàn)D-SOI能提供更好的晶體管靜電特性,而埋入氧化層能降低源極(source)與汲極(drain)之間的寄生電容;此外該技術(shù)能有效限制源極與汲極之間的電子流動(dòng),大幅降低影響組件性能的泄漏電流,從而降低功耗。FD-SOI 22nm工藝功耗比28nmHKMG降低了70%,芯片面積比28nm Bulk縮小了20%,光刻層比FinFET工藝減少約50%,芯片成本比16/14nm低了20%。除了低功耗與低成本,由于FD-SOI工藝的敏感體積更小,對(duì)閂鎖效應(yīng)(latch-up)免疫,具備更低的軟錯(cuò)誤率,以及更好的電磁兼容性,使其更適用于高可靠應(yīng)用領(lǐng)域[14]。

        3.5 UPF技術(shù)

        UPF技術(shù)是由Synopsys公司提出,基于IEEE1801標(biāo)準(zhǔn)Unified Power Format的完整低功耗實(shí)現(xiàn)的設(shè)計(jì)流程標(biāo)準(zhǔn)[15]。

        玉龍810芯片中SPARC CPU、AI協(xié)處理器、H.264/H.265、JPEG2000以及外設(shè)的功耗較大,為了進(jìn)一步降低功耗,對(duì)上述模塊分別用獨(dú)立電源域?qū)崿F(xiàn)(switch-offdomain),以減小漏電,其余邏輯位于常開電源域(always domain)。采用成熟的UPF標(biāo)準(zhǔn)設(shè)計(jì)方法,如圖4所示,采用不同電源給不同模塊供電,插入電源開關(guān)控制,插入隔離器件,實(shí)現(xiàn)不同處理模塊供電的單獨(dú)控制方法。在某些功能不使用的時(shí)候,就把switch-offdomain關(guān)掉,這個(gè)時(shí)候,switch-offdomain里的power-gating cell的輸出會(huì)呈現(xiàn)出一個(gè)無限接近電源(header power-gating)或者地(footer power-gating)的狀態(tài),從而理論上確保了switch-offdomain的leakagecurrent為0(由于power gating cell本身會(huì)有漏電的問題,所以0的漏電只是理論上的)[16]。

        UPF原理如圖4所示。

        圖4 UPF原理圖

        1)添加電源開關(guān)控制

        create_power_switchPD_01_sw -domainPD_01 -output_supply_port{VDD_OUTVDD_01} -input_supply_port{VDD_INVDD} -control_port{PSW_CTRLpsw_en_01} -on_state{PSW_ONVDD_IN{PSW_CTRL}} -off_state{PSW_OFF{!PSW_CTRL}}

        2)插入隔離器件

        set_isolationPD_07_ISO_IN-domainPD_07-no_isolation-applies_toinputsset_isolationPD_07_ISO_OUT_LOW-domainPD_07-iso-lation_power_netVDD-isolation_ground_netVSS-clamp_value0-applies_tooutputsset_isolation_controlPD_07_ISO_OUT_LOW-domainPD_07-isolation_signalios_en_07-isolation_sensehigh-locationparent

        3)綜合時(shí)導(dǎo)入U(xiǎn)PF文件

        Load_upf top.upf

        4 改進(jìn)后的功耗結(jié)果

        采取以上方法和策略后,采用PTPX[16]功耗分析工具,VCLP低功耗檢查工具[17],并利用激勵(lì)文件testbench和仿真工具VCS產(chǎn)生VCD波形文件,然后使用Power Compile[18]工具將VCD文件轉(zhuǎn)換成SAIF文件,并設(shè)置相關(guān)參數(shù),產(chǎn)生功耗報(bào)告結(jié)果如下:

        Net SwitchingPower=0.993W(20%)Cell Internal Power=3.283W(66%)CellLeakagePower=0.680W(13%)TotalPower=4.96W(100.00%)

        從功耗報(bào)告可以看出,芯片整體功耗降低到了約4.96W,達(dá)到設(shè)計(jì)指標(biāo)。同時(shí)通過仿真結(jié)果可以看到,芯片的處理能力沒有降低,主頻在1GHz,浮點(diǎn)處理能力64GFLOPS,定點(diǎn)處理能力12TOPS,芯片最關(guān)鍵的能耗比指標(biāo)為2.4TOPS/W。

        5 結(jié)論

        功耗是AI SoC芯片的重要指標(biāo),功耗過高將極大地限制AI SoC芯片的應(yīng)用。玉龍810人工智能芯片通過時(shí)鐘門控、UPF等技術(shù)成功降低了整體功耗,使芯片在具備高可靠、高性能指標(biāo)的同時(shí),達(dá)到了功耗小于5W的指標(biāo),遠(yuǎn)低于市場(chǎng)同類產(chǎn)品。在航空、航天領(lǐng)域核心元器件要求完全自主、可控的大背景下,玉龍810芯片的投產(chǎn)能夠?yàn)樾吞?hào)項(xiàng)目的人工智能算法及超大數(shù)據(jù)高速處理及應(yīng)用提供一個(gè)理想的AI SoC芯片平臺(tái)。

        猜你喜歡
        人工智能設(shè)計(jì)
        我校新增“人工智能”本科專業(yè)
        何為設(shè)計(jì)的守護(hù)之道?
        《豐收的喜悅展示設(shè)計(jì)》
        流行色(2020年1期)2020-04-28 11:16:38
        2019:人工智能
        商界(2019年12期)2019-01-03 06:59:05
        人工智能與就業(yè)
        瞞天過海——仿生設(shè)計(jì)萌到家
        設(shè)計(jì)秀
        海峽姐妹(2017年7期)2017-07-31 19:08:17
        數(shù)讀人工智能
        小康(2017年16期)2017-06-07 09:00:59
        有種設(shè)計(jì)叫而專
        Coco薇(2017年5期)2017-06-05 08:53:16
        下一幕,人工智能!
        日韩欧美亚洲综合久久影院ds| 女主播国产专区在线观看| 国产女主播一区二区三区| 久久www免费人成精品| 国产精品成人av在线观看| 亚洲中文字幕女同一区二区三区| 国产亚洲综合另类色专区| 久久精品女人天堂av免费观看| 精品少妇ay一区二区三区| 无码区a∨视频体验区30秒| 一区二区三区中文字幕在线观看| 精品国产偷窥一区二区| 国产无套护士在线观看| 亚洲国产日韩在线精品频道| 日本一区二区不卡在线| 337p人体粉嫩胞高清视频| 亚洲男人av香蕉爽爽爽爽| 少妇高潮紧爽免费观看| 一区二区亚洲精品在线| 日韩精品区一区二区三vr| 亚洲视频99| 中文字幕av一区二区三区诱惑| 亚洲码欧美码一区二区三区| 精品国产aⅴ无码一区二区| 天天操夜夜操| 国产真人无遮挡免费视频| 一区二区三区在线日本| 成人免费播放视频777777| 日本又黄又爽gif动态图| 久久青草国产免费观看| 久久久人妻一区二区三区蜜桃d| 久久精品国产亚洲av影院| 可以免费观看的毛片| 久久婷婷色香五月综合激激情| 熟女一区二区三区在线观看| 久久无码人妻精品一区二区三区| 亚洲中文一本无码AV在线无码| 中文字幕34一区二区| 人人妻人人爽人人澡欧美一区| 乱伦一区二| 国产一区二区三区成人av|