亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度強化學習研究進展

        2019-05-24 14:11:40高振洋秦斌
        電腦知識與技術(shù) 2019年4期
        關(guān)鍵詞:深度強化學習強化學習深度學習

        高振洋 秦斌

        摘要:在高端人工智能領(lǐng)域中,感知力和決策能力都是衡量智能水平的重要指標。將深度學習的感知能力與強化學習的決策能力相結(jié)合,使得智能體能夠從高維的狀態(tài)動作空間中感知信息,通過得到的信息對模型進行訓練、做出決策,以能夠通過端對端的學習方式來實現(xiàn)從原始輸入到輸出的直接控制。本文介紹了深度學習和強化學習基礎知識;闡述了深度強化學習主流算法中的DQN及其變種和應用,分析了深度層次強化學習算法。最后對相關(guān)工作做了總結(jié)和展望。

        關(guān)鍵詞:深度學習;強化學習;深度強化學習;層次強化學習;人工智能

        中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2019)04-0157-03

        Abstract:In the field of advanced artificial intelligence, perceptual ability and decision-making capacity are both important indicators to measure the level of intelligence.Combining the perceptual ability of deep learning with the decision-making capacity of reinforcement learning, which makes that the agent can perceive imformation from the high-dimensional state action space, train the model and make decisions through the information obtained. So that we can achieve the direct control from original input to output through end to end learning. In this paper, we introduce the basic knowledge of deep learning and reinforcement learning; Elaborating the DQN and its variants and applications, which is the mainstream algorithm of deep reinforcement learning, analysising the algorithm of deep hierarchies reinforcement learning. Finally, the related researches were summarized and prospected.

        Key words:Deep learning; Reinforcement learning; Deep Reinforcement learning; Hierarchies reinforcement learning; Artificial Intelligence

        2016年由Google擁有的人工智能(AI)研究團隊DeepMind創(chuàng)新性地將具有感知能力的深度學習(Deep Learning:DL)和具有決策能力的強化學習(Reinforcement Learning:RL)相聯(lián)合,提出了深度強化學習(Deep Reinforcement Learning:DRL)算法。通過DRL算法訓練得到的圍棋智能體——AlphaGo擊敗了人類頂尖職業(yè)棋手,引起了全世界的關(guān)注,開啟了AI領(lǐng)域研究的新時代。

        近幾年,DRL算法被廣泛應用于視頻預測、文本生成、機器人、機器翻譯、控制優(yōu)化、目標定位、文本游戲、自動駕駛等多個領(lǐng)域中,展現(xiàn)了強大的適應和學習能力。因此,深入分析和研究DRL算法,對于促進人工智能領(lǐng)域的發(fā)展及拓展其應用具有極其重要的意義[1]。

        1 深度強化學習理論基礎

        1.1 深度學習

        2006年,Hinton及其學生等人[2]提出了深度網(wǎng)絡的概念,開啟了DL研究的熱潮。DL的核心思想是對觀察數(shù)據(jù)進行分層特征表示,實現(xiàn)由低級特征進一步抽象到高級特征[3]。

        深度學習的模型主要有:深度信念網(wǎng)絡(DBN)、卷積神經(jīng)網(wǎng)絡(CNN)、循環(huán)神經(jīng)網(wǎng)絡(RNN)等。

        深度學習的發(fā)展階段包括:萌芽期:BP算法的發(fā)明(1970s-1980s)到2006年;發(fā)展期:從2006年Hinton等人提出的‘深度學習概念以及訓練方法到2012年。該階段主要以深度無監(jiān)督學習為研究重點;爆發(fā)期:從2012年Hinton團隊的Alexnet模型[4]在Imagenet競賽中取得驚人的成績至今。

        當今社會,深度學習廣泛應用于人工智能相關(guān)多個領(lǐng)域,極大促進了機器學習的發(fā)展。受到世界各國高科技公司和研究人員的重視。

        1.2 強化學習

        強化學習(RL)是機器學習中的重要學習工具。主要解決的是序貫決策問題,智能體(Agent)通過動作與環(huán)境進行交互時,環(huán)境會返給Agent一個當前的獎勵,Agent根據(jù)當前的獎勵評估所采取的動作。經(jīng)過數(shù)次迭代學習后,Agent可以最終學到達到相應目標的最優(yōu)動作(最優(yōu)策略[5])。

        RL問題通常由馬爾科夫決策過程(Markov Decision Process, MDP)來建模。MDP通常由元組(S,A,P,R,γ)描述,其中:

        (1) S為所有環(huán)境狀態(tài)的集合,s·S。

        (2) A為有限的動作集合,a∈A。

        (3) P為狀態(tài)轉(zhuǎn)移概率,P(s/s,a)表示在s狀態(tài)下執(zhí)行動作a時,轉(zhuǎn)移到s的概率。

        猜你喜歡
        深度強化學習強化學習深度學習
        基于深度強化學習的圖像修復算法設計
        關(guān)于人工智能阿法元綜述
        商情(2019年14期)2019-06-15 10:20:13
        關(guān)于人工智能阿法元綜述
        西部論叢(2019年9期)2019-03-20 05:18:04
        基于深度強化學習的陸軍分隊戰(zhàn)術(shù)決策問題研究
        科學與財富(2018年7期)2018-05-21 08:46:30
        基于強化學習的在線訂單配送時隙運能分配
        論“以讀促寫”在初中英語寫作教學中的應用
        智能交通車流自動導引系統(tǒng)
        MOOC與翻轉(zhuǎn)課堂融合的深度學習場域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應用展望
        分布式系統(tǒng)中基于非合作博弈的調(diào)度算法
        亚洲在AV极品无码天堂手机版| 亚洲最大免费福利视频网| 最近中文字幕国语免费| 日韩精品无码av中文无码版| 亚洲专区一区二区在线观看| 操国产丝袜露脸在线播放| 亚洲成av人片不卡无码| 国产精品久久毛片av大全日韩| 亚洲国产香蕉视频欧美| 国产精品一区二区三区成人| 免费a级毛片18禁网站免费| 国产真实伦在线观看| 999久久66久6只有精品| 国产日产高清一区二区三区| 在线观看特色大片免费视频| 装睡被陌生人摸出水好爽| 欧洲亚洲色一区二区色99| 国产三级不卡视频在线观看 | 三年片免费观看大全有| 伊人99re| 日本免费a一区二区三区| 国精产品一区一区三区有限在线 | 亚洲一区精品无码色成人 | 日本亚洲国产精品久久| 色八区人妻在线视频免费| 久久婷婷色香五月综合激情| 久久亚洲精品一区二区三区| 日本中国内射bbxx| 亚洲av之男人的天堂| 风韵丰满妇啪啪区老老熟女杏吧| 国产人妻熟女呻吟在线观看| 婷婷中文字幕综合在线| 99久久国产综合精品女乱人伦| 亚洲av少妇一区二区在线观看 | 日本免费一区二区三区在线看| 亚洲精品国产成人久久av盗摄| 乱中年女人伦| 欧美成人三级一区二区在线观看| 在线亚洲免费精品视频| 丝袜人妻一区二区三区| 亚洲色自偷自拍另类小说|