亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于GPU通用計算的深度學習模型性能分析

        2018-02-21 02:30:30齊萬華胡向陽
        科技視界 2018年32期
        關(guān)鍵詞:深度學習性能

        齊萬華 胡向陽

        【摘 要】隨著數(shù)據(jù)化社會的到來,深度學習模型被廣泛地研究,并涌現(xiàn)了一批有影響力的模型。由于超參和神經(jīng)元的數(shù)目是百萬級別,所以這些模型的復雜度很高。另外,當訓練數(shù)據(jù)集增大時,模型需要消耗更多的計算資源。GPGPU具有強大的并行計算能力,大大減少深度學習模型的訓練時間。但GPU通用計算的性能提升與模型有關(guān),這方面鮮有人研究。本文側(cè)重于GPGPU下深度學習模型的性能分析。

        【關(guān)鍵詞】GPU;GPGPU;深度學習;性能

        中圖分類號: TP391 文獻標識碼: A 文章編號: 2095-2457(2018)32-0218-002

        DOI:10.19694/j.cnki.issn2095-2457.2018.32.101

        【Abstract】With the advent of the data society,deep learning models have been extensively studied and a number of influential models have emerged.The complexity of these models is high,as the number of super-parameters and neurons is in the millions.In addition,as the training data set increases,the model consumes more computing resources.GPGPU has powerful parallel computing capability,which can greatly reduce the training time of deep learning models.But the performance improvement from GPGPU is related to the model.There is little research in this problem.This paper focuses on the performance analysis of deep learning models based on GPGPU.

        【Key words】GPU;GPGPU;Deep learning;Efficiency

        0 前言

        盡管神經(jīng)網(wǎng)絡(luò)和深度學習在上世紀早已被提出,但它們一直作為機器學習的普通分支默默存在。直到最近,由于數(shù)據(jù)量的增加,計算能力的增強(如CPU、GPU以及基于CPU或GPU的集群系統(tǒng))和先進深度學習技術(shù)的推動(如Embedding 和注意力策略等[1,2]),基于神經(jīng)網(wǎng)絡(luò)和深度學習的工作才開始表現(xiàn)優(yōu)異,并得到學術(shù)界和工業(yè)界的廣泛關(guān)注。如2012年CNN在ImageNet取得驚人成績(接近10%的提升);Google公司的AlphaGO戰(zhàn)勝了李世石和柯潔。由于神經(jīng)網(wǎng)絡(luò)超參和神經(jīng)元的數(shù)目是百萬級別,所以模型復雜度很高。另外,當訓練數(shù)據(jù)集增大時,模型需要消耗更多的計算資源。GPU通用計算(GPGPU)具有強大的并行計算能力,大大減少深度學習模型的訓練時間。但GPU通用計算的性能提升與模型有關(guān),這方面鮮有人研究。鑒于此,本文研究分析在GPU通用計算下不同深度模型的性能特點。

        1 GPU通用計算

        GPU通用計算(General-Purpose computing on Graphics Processing Units,GPGPU)是一種新型的計算架構(gòu)。與CPU不同,GPU的設(shè)計初衷是為了加速圖形處理,因此它的核心數(shù)是成千上萬,且具有強大的并行計算能力。目前,GPU通用計算已經(jīng)進入高性能計算的主流行業(yè)[2],廣泛地用于圖形圖像處理和自然語言處理等領(lǐng)域,并取得了明顯的效果提升。

        最初的GPU不具備可編程性。針對這一不足,一些高級編程平臺(如CUDA和OpenCL)被提出。CUDA是Nvidia公司提出的一個基于GPU的異構(gòu)編程平臺。它支持OpenACC和OpenCL編程框架,并提供了豐富的函數(shù)庫,如用于加速人工神經(jīng)網(wǎng)絡(luò)的 cuDNN[2]。

        2 深度學習模型

        自2006年杰弗里·辛頓等人在科學雜志上發(fā)表論文《一種深度置信網(wǎng)絡(luò)的快速學習算法》后,深度學習模型被廣泛地關(guān)注并研究。卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是其中的兩類代表模型。

        2.1 卷積神經(jīng)網(wǎng)絡(luò)

        卷積神經(jīng)網(wǎng)絡(luò)(CNN)主要用于圖像處理。它由一個輸入層,一個輸出層和多個隱藏層。每個隱藏層包括池化層,卷積層,全連接層和歸一化層。CNN的思想是卷積層。卷積層用來進行特征抽取。它先構(gòu)建一個N*N的矩陣作為過濾器,然后對每個圖片進行卷積操作。由于圖像經(jīng)過卷積操作后,圖像就縮小了,而且圖像邊緣的大部分信息都丟失了,池化層就是針對兩個問題提出的。池化層的思想是在圖像邊緣填充像素。本文的CNN包含兩個卷積層,每個卷積層采用1個2X2的卷積過濾器。

        2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)

        循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是針對序列數(shù)據(jù)設(shè)計的,在語音識別、自然語言處理領(lǐng)域引起了深刻地變革。它包括一個輸入層,一個輸出層,和多個隱層。與CNN有兩個不同點:(1)RNN的輸入是有時序關(guān)系的。(2)網(wǎng)絡(luò)結(jié)構(gòu)不同,其中第隱層的輸入包括第隱層的中間結(jié)果。由于基本的RNN在深層的連接存在時會出現(xiàn)梯度消失的問題,長短期記憶網(wǎng)絡(luò)(LSTM),循環(huán)門單元(GRU)等RNN的變體被提出,用來改善梯度消失的問題。其中,LSTM在隱藏層計算時,用加法代替了乘法,從而避免了梯度消失問題。本文的RNN模型是LSTM。

        3 實驗分析

        本節(jié)首先介紹了實驗環(huán)境和數(shù)據(jù)集,然后分析了不同模型在GPU和CPU計算條件下性能的特點,以及不同數(shù)據(jù)量對GPU并行計算的影響。

        CPU環(huán)境:英特爾Core i7-8086K 4.00GHz處理器,16GB內(nèi)存。

        GPU環(huán)境:NVIDIA GeForce GTX 1080,16GB顯存, CUDA是CUDA9.0,人工神經(jīng)網(wǎng)絡(luò)的函數(shù)庫是cuDNN7。

        數(shù)據(jù)集:CNN模型使用了MNIST數(shù)據(jù)集。MNIST由書寫數(shù)字的圖片和相應(yīng)的標簽組成。圖片標簽包括10類,即0到9。RNN模型是使用LSTM實現(xiàn)Char RNN功能。Char RNN[3]用來生成文章、詩歌甚至代碼。它的輸入是長度為N的序列,輸出是與輸入長度相等的序列。編程語言是Python 3。

        3.1 不同模型的性能分析

        本節(jié)在1000、2000、3000迭代次數(shù)下,分析CPU與GPU并行計算的性能和兩個深度學習模型(CNN和RNN)的性能特點,如圖1所示。從圖中可以看出,(1)無論是CNN還是RNN,GPU的運行速度都要大大高于CPU的運算性能。這說明:GPU有更強的并行計算能力。如當?shù)螖?shù)為1000時,使用GPU運行CNN所消耗的時間僅為5.36秒,而使用CPU所消耗的時間是76.15秒。對于大規(guī)模的并行計算,采用GPU運算,比CPU要省時很多。(2)在相同實驗環(huán)境下,CNN的運算效率要高于RNN。因為CNN模型在迭代次數(shù)為1000,2000,3000情況下,CPU與GPU運行時間的比值依次為14.20、17.76和18.07,而RNN模型,在相同條件下,比值僅為5.88、5.81和5.89。這是由于在RNN模型的計算過程中,隱藏層之間存在數(shù)據(jù)依賴,導致一個樣本的計算過程不能完全并行。但多個樣本之間不存在數(shù)據(jù)依賴可以實現(xiàn)完全并行,所以GPU能夠加速RNN模型的訓練,但CPU與GPU運行時間的比值有限,小于CNN模型的相應(yīng)比值。

        4 結(jié)束語

        本文分析了CNN和RNN在CPU和GPU環(huán)境下,和不同迭代次數(shù)下性能的特點。實驗結(jié)果表明:GPU在并行計算上有較強的加速能力。

        【參考文獻】

        [1]GOODFELLOW I,BENGIO Y,COURVILLE A,et al.Deep learning [M].MIT press Cambridge,2016.

        [2]丁科,譚營.GPU通用計算及其在計算智能領(lǐng)域的應(yīng)用 [J].智能系統(tǒng)學報,2015,10(01):1-11.

        [3]何之源.21個項目玩轉(zhuǎn)深度學習——基于TensorFlow的實踐詳解[M].北京:電子工業(yè)出版社,2018.

        猜你喜歡
        深度學習性能
        提供將近80 Gbps的帶寬性能 DisplayPort 2.0正式發(fā)布
        有體驗的學習才是有意義的學習
        電子商務(wù)中基于深度學習的虛假交易識別研究
        MOOC與翻轉(zhuǎn)課堂融合的深度學習場域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學習算法應(yīng)用于巖石圖像處理的可行性研究
        軟件導刊(2016年9期)2016-11-07 22:20:49
        基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        PP—g—GMA的制備及其增容PP/PA6共混物的性能
        中國塑料(2016年5期)2016-04-16 05:25:39
        Al-Se雙元置換的基于LGPS的thio-LISICON的制備與性能表征
        580 MPa 級熱軋高擴孔鋼的組織與性能
        上海金屬(2015年1期)2015-11-28 06:01:09
        色欲国产精品一区成人精品| 中文字幕日本av网站| 新视觉亚洲三区二区一区理伦| 国产精品一区久久综合| 日本一区二区三区人妻| 国产国产精品人在线视| 极品白嫩的小少妇| 麻豆久久久9性大片| av无码久久久久久不卡网站| 热99精品| 欧美黄色免费看| 对白刺激的老熟女露脸| 亚洲福利av一区二区| 最新日本久久中文字幕| 日本少妇一区二区三区四区| 亚洲欧洲av综合色无码| 亚洲国产精品无码久久98| 日日摸日日碰夜夜爽无码| 国产乱沈阳女人高潮乱叫老| 国产精品国产三级第一集| 国产毛女同一区二区三区| 亚洲自偷精品视频自拍| 爱性久久久久久久久| 国模少妇一区二区三区| 2021久久最新国产精品| 九九久久精品大片| 国产少妇一区二区三区| 人妻少妇av中文字幕乱码| 国产情侣一区二区三区| 久久综合丝袜日本网| 丰满人妻被中出中文字幕 | 久久亚洲精彩无码天堂| 国产一区二区三区在线观看免费版 | 日韩一级黄色片一区二区三区| 男人添女人囗交做爰视频| 果冻传媒2021精品一区| 欧美喷潮久久久xxxxx| 乱人伦中文字幕在线不卡网站 | av日韩高清一区二区| 久久久久88色偷偷| 99精品国产一区二区三区|