基于批量式強化學(xué)習(xí)的群組放煤智能決策研究

2022-11-02 12:55:28李慶元李化敏李東印楊延麟費樹岷

煤炭科學(xué)技術(shù) 2022年10期

楊藝,李慶元, 李化敏,李東印,楊延麟,費樹岷

(1.河南理工大學(xué) 電氣工程與自動化學(xué)院，河南焦作 454000；2.河南省煤礦裝備智能檢測與控制重點實驗室，河南焦作 454003;3.河南理工大學(xué) 能源科學(xué)與工程學(xué)院，河南焦作 454000；4.河南理工大學(xué) 學(xué)術(shù)出版中心，河南焦作 454000；5.東南大學(xué) 自動化學(xué)院，江蘇南京 210096)

0 引言

綜放開采技術(shù)于20世紀(jì)80年代自歐洲引入我國，經(jīng)過30余年時間的不斷發(fā)展，我國綜放開采技術(shù)已達到世界領(lǐng)先水平。目前，綜放開采已成為我國厚煤層以及特厚煤層的主要開采方式[1-2]。

經(jīng)過長期積累和基礎(chǔ)性研究，針對不同的地質(zhì)條件，研究人員提出了：順序放煤、間隔放煤、多輪放煤、一采一放、多采一放等一系列放煤工藝[3-5]。文獻[6]定性研究了不同采放比條件下，單口和雙口間隔放煤方式的頂煤放出率和出煤含矸率。隨后，一系列基于離散元分析方法的放煤工藝被深入研究。文獻[7]結(jié)合二維顆粒流程序(PFC2D)，分析頂煤放出過程中的成拱現(xiàn)象及原理，通過振動方式破壞成拱，提高頂煤采出率。文獻[8-9]結(jié)合基于離散元的三維顆粒流程序(PFC3D)，建立BBR研究體系，研究煤巖分界面、頂煤放出體、頂煤采出率和含矸率的相互影響與制約關(guān)系。文獻[10]以理論分析、數(shù)值模擬為主要手段，圍繞多放煤口協(xié)同放煤方法，研究煤巖運動特征對頂煤采出率和放煤效率的影響。隨著人工智能技術(shù)不斷取得突破，基于機器學(xué)習(xí)的放煤智能決策方法越來越受到研究人員的關(guān)注，并對其展開了深入研究。2014年，文獻[11]針對厚煤層采煤方法的不確定性因素，運用多級模糊綜合評判方法對采煤工藝進行綜合評判，建立了基于BP神經(jīng)網(wǎng)絡(luò)的厚煤層開采方法評價模型。2015年，文獻[12]采用記憶放煤時序控制模式，實現(xiàn)連續(xù)放煤。2018年，文獻[13]通過果蠅優(yōu)化算法與RBF(Radial Basis Function)混合預(yù)測放頂煤的時間，使得放煤時間隨煤層賦存條件自動調(diào)整。2019年，文獻[14]通過對多傳感器采集信號進行特征提取，對比放煤特征范例庫做出放煤預(yù)警或控制。文獻[15]基于智能化放煤裝備，融合煤流量信息、頂煤量信息、煤矸辨識信息，給出智能放煤控制框架。2020年，文獻[16]提出構(gòu)建“放煤全過程監(jiān)測系統(tǒng)”，將透地測量雷達、三維空間雷達用于后部放煤空間感知，掃描未放頂煤空間測量計算剩余煤厚與煤矸比例，對放頂煤全過程進行實時監(jiān)測，為實現(xiàn)自動化、智能化放煤提供了必要手段。

由于綜放工作面環(huán)境惡劣，影響煤巖運動特征的因素龐雜，難以建立開采環(huán)境和開采過程的準(zhǔn)確數(shù)學(xué)模型。這使得液壓支架放煤口的動作控制喪失精確的指揮棒，從而導(dǎo)致難以形成精準(zhǔn)的放煤工藝。因此，國家“十三五”重點研發(fā)計劃項目“千萬噸級特厚煤層智能化綜放開采關(guān)鍵技術(shù)及示范”中將智能放煤工藝模型和方法列為子課題，開展研究工作。2019年，課題組提出了一種基于傳統(tǒng)Q-learning的免模型放煤決策算法，將放煤口智能決策單元定義為放煤智能體。智能體結(jié)合頂煤放出體實時狀態(tài)特征與頂煤動態(tài)賦存特征，生成群組放煤過程中多放煤口開、閉實時控制策略，對放煤口控制動作做在線調(diào)整[17]。2020年1月,課題組將深度強化學(xué)習(xí)網(wǎng)絡(luò)Deep Q-Network用于放煤最優(yōu)決策，實現(xiàn)智能體隨煤層賦存狀態(tài)自適應(yīng)、智能化調(diào)節(jié)放煤口動作，并通過搭建的三維仿真試驗平臺驗證了該方法的有效性[18]。2020年3月，課題組將綜放工作面液壓支架群抽象為圖模型(Graphic Model)結(jié)構(gòu),并提出了放頂煤多智能體優(yōu)化決策的隱馬爾可夫隨機場模型，用以優(yōu)化智能體的動作決策[19]。

依托前期研究成果，從智能決策角度出發(fā)，提出了一種基于批量式Q值更新的放煤動態(tài)決策算法，對放煤智能體的在線學(xué)習(xí)過程進行加速。作者將該算法作為綜放工作面智能群組放煤方法的智能決策部分，并通過理論分析、三維數(shù)值仿真等主要手段對不同放煤方式展開對比研究。

1 基于強化學(xué)習(xí)的群組放煤智能決策建模

1.1 群組放煤決策的智能屬性

頂煤放出效果直接由放煤口的開閉動作決定，而放煤口開閉動作由電液控系統(tǒng)驅(qū)動。從控制理論角度出發(fā)，電液控系統(tǒng)的運行必須基于給定的控制模型和對應(yīng)的控制算法。然而，放頂煤過程是一個十分復(fù)雜的動態(tài)過程，涉及到頂板地質(zhì)信息、頂煤破碎及運移過程、圍巖動態(tài)信息等龐大的非線性、強耦合狀態(tài)變量和作用關(guān)系，難以采用動力學(xué)方程建立控制模型，從而無法設(shè)計控制算法。這也是目前放煤不得不采用人工操作，或者依據(jù)開閉時間來控制放煤口動作的根本原因。但是，這2種方式顯然無法全局統(tǒng)籌頂板地質(zhì)條件、頂煤賦存狀態(tài)、液壓支架群動作等各類信息之間的關(guān)聯(lián)關(guān)系，從而導(dǎo)致無法定量生成最優(yōu)控制策略來驅(qū)動電液控系統(tǒng)，難以達到最優(yōu)的放煤效益。

將放煤口上方及掩護梁后方作為頂煤賦存狀態(tài)的檢測區(qū)域。隨著頂煤不斷放落，頂煤賦存狀態(tài)發(fā)生變化，對應(yīng)的放出體狀態(tài)也會隨之產(chǎn)生相應(yīng)變化。該變化可由頂煤賦存狀態(tài)與放出體狀態(tài)的映射關(guān)系來表征。傳統(tǒng)的人工放煤控制，通過觀測煤流信息，實現(xiàn)對放煤口的控制。但對于已放落頂煤，由于受人工操作時間、放煤口動作時間等影響，其放出過程不可改變，導(dǎo)致放出體中存在部分矸石，未能提前實現(xiàn)對放出體狀態(tài)的精確控制。因此，結(jié)合頂煤賦存狀態(tài)對放煤口進行決策控制，研究“頂煤賦存狀態(tài)-放煤口控制”二者關(guān)聯(lián)關(guān)系，對于提高放頂煤開采效益，具有重要意義。

在放煤口動作過程中，其決策結(jié)果取決于前一時刻的頂煤賦存狀態(tài)、瞬時放出體狀態(tài)等外部環(huán)境，這是典型的馬爾可夫決策過程，這表明人工智能的“環(huán)境感知-決策控制”的關(guān)聯(lián)機制與放煤口控制高度契合[15, 20-21]。結(jié)合人工智能技術(shù)，實現(xiàn)放煤口智能化控制，是現(xiàn)階段提高頂煤放出率、降低出煤含矸率的有效方法之一。

一個綜放工作面通常有上百臺液壓支架排列，構(gòu)成液壓支架群。在放頂煤過程中，每個液壓支架可以看作是一個智能體，液壓支架群則可以看作是一個需要協(xié)同控制的多智能體。因此，在多智能體框架下，將放出體實時狀態(tài)、頂煤動態(tài)賦存等主要環(huán)境信息作為決策依據(jù)，賦予各放煤智能體自主決策和自主控制能力的同時，使得各智能體之間高度協(xié)調(diào)、相互協(xié)同能夠有效提高頂煤的采出率、降低出煤的含矸率。

強化學(xué)習(xí)(Reinforcement Learning)是一種基于動態(tài)規(guī)劃(Dynamic Programming)的機器學(xué)習(xí)算法。該算法以外部環(huán)境作為輸入,以決策結(jié)果作為輸出，適用于馬爾可夫過程的最優(yōu)決策[22-23]。其主要思想是與環(huán)境在線式的交互與試錯，通過學(xué)習(xí)“環(huán)境狀態(tài)-執(zhí)行動作”之間的映射關(guān)系，使所執(zhí)行動作從環(huán)境中收獲最大期望累積獎賞值，從而逼近最優(yōu)策略。

在綜放工作面放煤決策過程中，其核心研究內(nèi)容是根據(jù)煤層賦存狀態(tài)，動態(tài)調(diào)整放頂煤策略，實現(xiàn)放頂煤收益最大化。即以強化學(xué)習(xí)“環(huán)境狀態(tài)-執(zhí)行動作”二者間映射關(guān)系為基礎(chǔ)，解決馬爾可夫過程的最優(yōu)決策問題?；诖耍诙嘀悄荏w框架下，建立面向放頂煤過程的馬爾可夫決策模型，運用強化學(xué)習(xí)基本原理解決傳統(tǒng)綜放工作面存在的頂煤采出率低、出煤含矸率高等問題。

1.2 放煤過程的Q-learning決策過程建模

1.2.1 面向馬爾可夫決策過程的Q-learning算法

馬爾可夫決策過程(Markov Decision Process，MDP)可用四元組Μ?{s;a;R;γ}表示。其中，s∈為系統(tǒng)狀態(tài)，={s1,s2,…,sD}為系統(tǒng)狀態(tài)空間，D∈表示狀態(tài)空間維度,為正整數(shù)集；a∈為智能體的動作，={a1,a2,…,aJ}為智能體動作空間，J∈表示動作空間維度；R∈為瞬時獎賞值，為實數(shù)集,取決于放出體狀態(tài)；γ∈(0,1)為折扣因子，表明決策步驟對當(dāng)前狀態(tài)執(zhí)行動作的重要程度。

強化學(xué)習(xí)是學(xué)習(xí)環(huán)境狀態(tài)與執(zhí)行動作之間的映射關(guān)系，通常使用Q值表來對狀態(tài)-動作對進行評價。智能體基于在線學(xué)習(xí)機制，通過與環(huán)境不斷進行交互，以此來更新Q值表，并通過Q值表來進行目標(biāo)和行為決策。

(1)

在第k次學(xué)習(xí)過程中，將學(xué)習(xí)到的Qk(s,a)稱為估計值:

Qestimate=Qk(s,a)

(2)

Q-learning算法通過Qactual與Qestimate之間的差值來更新Q值表，以此來逼近目標(biāo)函數(shù)。第k+1次Qk+1(s,a)值學(xué)習(xí)結(jié)果表示為如下形式：

(3)

式中：k為采樣次數(shù)；α∈(0,1)為學(xué)習(xí)率；R(s,a)為狀態(tài)s下，執(zhí)行a動作的單步獎賞值。

在保證算法收斂的情況下，為合理增加采樣次數(shù)，在Q(s,a)的學(xué)習(xí)過程中引入了“探索”與“利用”均衡ε-greedy算法，實現(xiàn)動作a的選擇。如式(4)：

(4)

式中：π(a|s)為“狀態(tài)-動作”選擇策略，由概率值表示；ε∈(0,1),表示探索率；|A(s)是狀態(tài)s條件下可選的動作數(shù)量；a*為候選動作的最優(yōu)值，即

(5)

其中，在狀態(tài)s條件下,候選動作是最優(yōu)動作時a=a*，用于“利用”；而候選動作不是已知最優(yōu)動作時a≠a*，用于“探索”；最后依據(jù)π(a|s)的概率最大值選擇動作。

1.2.2 放煤過程的Q-learning決策模型

(6)

式中：m和n分別為待檢測狀態(tài)區(qū)域煤炭總量和矸石總量。

在放頂煤決策過程中，智能體決策結(jié)果僅僅是依據(jù)當(dāng)前狀態(tài)和控制策略給定放煤口應(yīng)該打開還是關(guān)閉。本文指定放煤口動作空間為

={a1,a2}

(7)

式中，動作選取a1表示放煤口執(zhí)行打開，選取a2表示放煤口執(zhí)行關(guān)閉。

瞬時煤流中煤、矸量受頂煤賦存狀態(tài)s和放煤口開閉動作a共同影響。結(jié)合瞬時煤流信息中煤、矸量(M,N)，將放出體中煤、矸含量占比作為獎賞值輸入，獎賞函數(shù)設(shè)定為

(8)

式中，λm、λn為權(quán)重系數(shù)。

2 群組放煤過程批量式Q-learning智能決策

2.1 群組放煤過程批量式Q-learning決策模型

2.1.1 群組放煤批量式更新方法

結(jié)合實際開采過程可知，在放頂煤過程中，理想情況下頂煤中煤含量占比隨放煤時長增加而逐漸減少，即：頂煤賦存狀態(tài)隨放煤時長由全煤下放逐漸轉(zhuǎn)移至全矸下放，且整個過程中煤含量單調(diào)變化。然而，受數(shù)據(jù)處理及計算機運算效率的影響，放煤過程的狀態(tài)變量常需要定時采樣，從而使得煤矸含量在數(shù)值上出現(xiàn)較大幅度的跳躍。如：前一采樣過程中獲取頂煤賦存狀態(tài)為si，當(dāng)前采樣過程中獲取頂煤賦存狀態(tài)為sj，其中i,j∈{1,2,…,D}。頂煤賦存狀態(tài)更為精細(xì)的單調(diào)變化狀態(tài)為si→…→sl→…→sj，l∈[i,j)且l∈。然而，由于采樣時間間隔的影響導(dǎo)致若干個中間轉(zhuǎn)移狀態(tài)sl未能通過采樣獲取。

上述采樣過程在強化學(xué)習(xí)框架下的直接后果是狀態(tài)-動作值函數(shù)Q(s,a)中s的更新過程無法短時間內(nèi)覆蓋到所有的狀態(tài)變量，大幅降低智能體的在線學(xué)習(xí)效率，甚至?xí)?dǎo)致學(xué)習(xí)結(jié)果失敗。為此，提出一種批量式Q值更新的放頂煤動態(tài)決策算法，實現(xiàn)對頂煤賦存狀態(tài)更為精細(xì)變化的學(xué)習(xí)，提升智能體狀態(tài)-動作值函數(shù)Q(s,a)的學(xué)習(xí)能力，確保智能體的決策模型快速收斂到最優(yōu)值。

若存在前一時刻采樣狀態(tài)si及當(dāng)前采樣狀態(tài)sj，且前后狀態(tài)下所執(zhí)行動作一致，即π(sj)=π(si)，則設(shè)精細(xì)化變化的離散狀態(tài)空間{si,…,sl,…,sj}，對應(yīng)的瞬時獎賞值{R(si,π(si)),…,R(sl,π(sl)),…,R(sj,π(sj))}。采用等差值劃分的方式對未采樣狀態(tài)sl所對應(yīng)瞬時獎賞值R(sl,π(sl))進行估計，如式(9)所示：

(9)

式中：|sj-|si為采樣間隔過程中的離散狀態(tài)變化量。

已知，前后采樣狀態(tài)si、sj，對于任意l∈[i,j)，以sj作為后續(xù)轉(zhuǎn)移狀態(tài)s′，且π(sl)=π(sj)=π(si)，對精細(xì)化變化的離散狀態(tài)空間sl∈{si,…,sj-1}狀態(tài)-動作值函數(shù)Q(sl,π(sl))進行批量式更新，如式(10)所示：

(10)

2.1.2 批量式Q-Learning算法收斂性分析

在批量式Q-learning算法中，狀態(tài)空間為SD={s1,s2，…,sD}，對任意i∈{1,2,…,D}，狀態(tài)變量取值si=i；R(si,π(si))∈為獎賞值。對于狀態(tài)變量si∈SD，sl∈SD，sj∈SD，j>i，l∈[i,j)，則sj>sl>si，且有R(sj,π(sj))>R(sl,π(sl))>R(si,π(si))，給出如下定義：

定義1：狀態(tài)變量的單調(diào)性：

1)單調(diào)增：狀態(tài)轉(zhuǎn)移過程si→…→sl→…→sj；

2)單調(diào)減：狀態(tài)轉(zhuǎn)移過程sj→…→sl→…→si。

定義2：獎賞值的單調(diào)性：

1)單調(diào)增：狀態(tài)變量滿足單調(diào)增，獎賞值變化過程R(si,π(si))→…→R(sl,π(sl))→…→R(sj,π(sj))；

2)單調(diào)減：狀態(tài)變量滿足單調(diào)減，獎賞值變化過程R(sj,π(sj))→…→R(sl,π(sl))→…→R(si,π(si))。

定義3：單調(diào)馬爾可夫過程：

1)單調(diào)增：狀態(tài)轉(zhuǎn)移過程為si至sj，則狀態(tài)變量滿足單調(diào)增；

2)單調(diào)減：狀態(tài)轉(zhuǎn)移過程為sj至si，則狀態(tài)變量滿足單調(diào)減。

定義4：狀態(tài)跳變：

1)單調(diào)增：已觀測前后狀態(tài)si、sj，滿足單調(diào)增馬爾可夫過程，且j-i>1，則存在若干未觀測中間轉(zhuǎn)移狀態(tài)sl，存在狀態(tài)轉(zhuǎn)移過程si→…→sl→…→sj；

2)單調(diào)減：已觀測前后狀態(tài)sj、si，滿足單調(diào)減馬爾可夫過程，且j-i>1，則存在若干未觀測中間轉(zhuǎn)移狀態(tài)sl，存在狀態(tài)轉(zhuǎn)移過程sj→…→sl→…→si。

批量式Q-learning算法通過式(10)的迭代方式，經(jīng)過若干次迭代，動作值函數(shù)可收斂到系統(tǒng)的最優(yōu)解。首先給出Q-learning按照式(3)所示的迭代過程的收斂性引理。

根據(jù)引理1，批量式Q-learning算法的收斂性質(zhì)可由以下定理確定。

定理1：設(shè)在馬爾可夫決策過程中，定義智能體的狀態(tài)變量si∈SD；動作a∈；R∈為瞬時獎賞值；智能體執(zhí)行策略為π，對應(yīng)的狀態(tài)-動作值函數(shù)為Qπ(s,a)。決策過程的狀態(tài)變量和獎賞值滿足如下條件：①狀態(tài)變量滿足單調(diào)性；②獎賞值滿足單調(diào)性；③馬爾可夫過程的狀態(tài)轉(zhuǎn)移滿足單調(diào)性；④已觀測到的相鄰狀態(tài)變量間存在狀態(tài)跳變；⑤若執(zhí)行策略滿足π(sj)=π(sl)，狀態(tài)變量si和sj對應(yīng)的獎賞值存在正比關(guān)系：R(sj,π(sj))-R(si,π(si))=k(sj-si)，k為常數(shù)，且k>0。

下文針對上述單調(diào)性定義中的單調(diào)增現(xiàn)象，對批量式Q-Learning算法的收斂性進行證明。

2)R(s,a)近似性證明。由條件(5)可知，精細(xì)化變化離散狀態(tài)空間{si,…,sl,…,sj}中，瞬時獎賞值變化量正比于狀態(tài)變化量，滿足一次函數(shù)關(guān)系，且比例系數(shù)k可表示為：

(11)

對于任意l∈[i,j)，批量式Q-learning算法中狀態(tài)sl的估計獎賞值R(sl,π(sl))batch如下：

R(sl,π(sl))batch=k×sl+R(si,π(si))-k×si

(12)

式中，R(si,π(si))-k×si表示一次函數(shù)中常數(shù)項。

將式(11)代入式(12)，可得如下形式，

(13)

在不改變連續(xù)動作，即滿足π(sj)=π(si)=π(sl)的條件下，狀態(tài)sl的估計獎賞值R(sl,π(sl))batch與未獲取的真實獎賞值R(sl,π(sl))true滿足以下關(guān)系，

R(sl,π(sl))batch≈R(sl,π(sl))true

(14)

結(jié)合批量式Q-learning算法目標(biāo)函數(shù)式(10)，Q-learning算法目標(biāo)函數(shù)式(3)，可得

(15)

因此，批量式Q-learning所得到的動作值函數(shù)與式(3)的結(jié)論近似。

2.2 基于批量式Q-learning的群組放頂煤智能決策算法

結(jié)合目標(biāo)函數(shù)式，給出放頂煤開采環(huán)境下，基于批量式Q值更新的放頂煤智能決策算法偽代碼：

3 智能群組放煤三維仿真試驗及結(jié)果分析

智能群組放煤需要放煤智能體把握工作面動態(tài)數(shù)據(jù)，來實現(xiàn)群組放煤過程的動態(tài)決策。由于煤矸識別這一關(guān)鍵技術(shù)尚未取得突破性進展，依現(xiàn)有技術(shù)和裝備，難以對現(xiàn)場動態(tài)數(shù)據(jù)精準(zhǔn)獲取，因此無法通過工業(yè)性試驗對智能群組放煤方法進行驗證。以同煤塔山煤礦8222綜放工作面煤層條件為基礎(chǔ)，結(jié)合液壓支架主要技術(shù)參數(shù)，建立單輪群組放煤過程數(shù)值模擬模型，對智能群組放煤方法展開仿真試驗。塔山煤礦8222綜放工作面煤層平均煤厚15.76 m，采高3.8 m，放煤高度11.96 m，采放比1∶3.14。

3.1 綜放工作面智能放煤三維仿真試驗平臺

結(jié)合Yade開源代碼，在ubuntu系統(tǒng)上開發(fā)了一種基于離散元方法的放頂煤過程仿真平臺，對智能群組放煤控制方法展開研究，建立放頂煤模型如圖1所示。

圖1 三維放頂煤模型Fig.1 Three-dimensional top-coal caving model

放頂煤模型中包括5個頂煤放出口，液壓支架主要技術(shù)參數(shù)如下：wsp為工作面寬度，6.8 m；why為液壓支架寬度，1.5 m；hhy為液壓支架高度，3.8 m；lsh為掩護梁長度，3 m；lta為尾梁長度，2 m;θs為頂梁與掩護梁之間銳角夾角，15°;θu為尾梁上擺與掩護梁銳角夾角，15°；θl為尾梁下擺與掩護梁銳角夾角，45°。

由煤炭、矸石2種材料作為頂板上方散體頂煤的構(gòu)成成分，設(shè)定在仿真環(huán)境中煤炭、矸石顆粒在自身重力作用下達到密實狀態(tài)，離散元顆粒主要力學(xué)參數(shù)見表1。

表1 離散元顆粒主要力學(xué)參數(shù)

3.2 智能群組放煤仿真試驗

對于單個離散元粒子，煤炭粒子取獎賞值為3，矸石粒子取獎賞值為-7；對于放出體中煤、矸含量占比權(quán)重λm=0.7、λn=0.3，即煤、矸流中瞬時煤含量等于70%存在臨界放煤收益0。設(shè)定學(xué)習(xí)率α=0.1，折扣因子γ=0.9，探索率ε=0.8。結(jié)合上述參數(shù)，在給定放頂煤模型下，對群組智能放煤算法展開訓(xùn)練。

3.2.1 試驗過程

在Linux操作系統(tǒng)上，結(jié)合YADE離散元開源環(huán)境進行試驗，并采用多核CPU并行加速，具體試驗環(huán)境如下：

操作系統(tǒng)Ubuntu18.04YADE版本2020.01a語言PythonCPUIntel Core i7-7700k內(nèi)核數(shù)8RAM32 G

在訓(xùn)練過程中，由于放頂煤動作受行為策略影響，存在一定隨機性，進而會在連續(xù)的放頂煤過程中形成不同的連續(xù)變化的頂煤賦存狀態(tài)，因此，在訓(xùn)練過程中將會形成不同的馬爾可夫決策鏈。智能體對決策鏈中各頂煤賦存狀態(tài)與決策動作對進行逐一學(xué)習(xí)，直至Q(s,a)完全收斂，結(jié)束訓(xùn)練。取煤含量每5%變化作為一種煤層狀態(tài)，學(xué)習(xí)速率如圖2所示。

圖2 智能體學(xué)習(xí)速率對比Fig.2 Agent learning rate comparison

受煤層條件影響，在放煤初期，放出體以純煤為主，放煤狀態(tài)較單一，因此智能體獲得的經(jīng)驗與知識較少；隨著放煤過程進行，直接頂逐漸破碎，放出體中開始出現(xiàn)矸石，放煤口上方逐漸出現(xiàn)混矸、夾矸等頂煤賦存狀態(tài)，智能體對不同賦存狀態(tài)下的放煤決策動作進行學(xué)習(xí)，放煤知識與經(jīng)驗逐步積累增多，狀態(tài)空間覆蓋率出現(xiàn)跳躍式增長。經(jīng)對實驗過程觀察記錄分析，整塊煤體放落時長受限于自身力學(xué)參數(shù)模型，仿真環(huán)境中散體頂煤完全垮落時長多接近但不超1 000 s，因此，在該訓(xùn)練模型中預(yù)設(shè)訓(xùn)練時長為1 000 s/round。

圖2a共進行5輪學(xué)習(xí)，每輪Q值更新次數(shù)為100次。提出的批量式Q值更新算法在第2輪學(xué)習(xí)結(jié)束完成首次對全狀態(tài)空間的學(xué)習(xí)，而Q-learning算法首次完成全狀態(tài)空間學(xué)習(xí)在第4輪，采用批量式Q-learning算法使智能體對全狀態(tài)空間的探索時間縮短了50%。

圖2b以兩種算法最終收斂Q值為比對目標(biāo)，分別對每輪訓(xùn)練結(jié)束后Q值進行收斂度對比。本文提出的批量式Q值更新算法在第14輪后完全收斂，Q-learning算法在16輪后完全收斂，批量式Q值更新算法提前兩輪完成收斂，訓(xùn)練效率提高12.5%；批量式Q值更新算法收斂率普遍高于Q-learning算法，至Q值完全收斂，單輪訓(xùn)練平均收斂率為93.21%，Q-learning算法單輪訓(xùn)練平均收斂率為92.91%，批量式Q值更新算法單輪訓(xùn)練平均收斂率較Q-learning算法提高0.3%。

由上述分析可知，通過對目標(biāo)函數(shù)改進提出的批量式Q值更新算法，大幅提高了智能體學(xué)習(xí)效率，加速了智能體在線學(xué)習(xí)過程，從而減少了智能體因?qū)W習(xí)不充分而造成無法決策或決策失誤所導(dǎo)致的資源損失與浪費。智能體依訓(xùn)練結(jié)果對放煤過程進行測試，測試結(jié)果如圖3所示。

圖3 放頂煤過程仿真Fig.3 Simulation of top-coal caving process

引入采出率Wc、含矸率ρ、全局獎賞值RA對放煤總體效益進行評估，計算方式如下：

(16)

式中：QC為頂煤放出體中煤顆粒個數(shù)；QD為放煤區(qū)間內(nèi)純煤顆粒個數(shù)。

式中：QG為頂煤放出體中矸石顆粒個數(shù)；QA為放出體中全部顆粒個數(shù)。

RA=QCRm-QGRn

式中：Rm為回收一個煤顆粒，智能體得到的獎賞值；Rn為回收一個矸石顆粒，智能體得到的懲罰值；QG為頂煤放出體中矸石顆粒個數(shù)。

3.2.2 試驗結(jié)果分析

將提出的智能群組放煤方法與傳統(tǒng)以“見矸關(guān)窗”為準(zhǔn)則的單放煤口連續(xù)放煤、“大中小”間隔放煤等放煤方式進行放煤結(jié)果對比，見表2。

表2 放頂煤仿真結(jié)果對比

其中，“大中小”間隔放煤方式對于兩端1號及5號放煤口采用優(yōu)先“大”放，然后對中部3號放煤口采用“中”放，最后對2號及4號放煤口采用“小”放。“大中小”間隔放煤旨在模擬研究分段大間隔放煤方式對放頂煤開采效益的影響。

由表3可知，智能群組放煤頂煤采出率為96.65%，相對于單放煤口連續(xù)放煤提高6.57%，放煤總體收益提高17.17%；相對于“大中小”間隔放煤提高4.36%，放煤總體收益提高3.51%?！按笾行　遍g隔放煤頂煤采出率為92.29%，相對于單放煤口連續(xù)放煤提高2.21%，放煤總體收益提高13.20%。

在單放煤口放煤過程中，當(dāng)前放煤口狀態(tài)易受臨架放煤結(jié)果影響，如圖4所示。因此，若嚴(yán)格按照“見矸關(guān)窗”準(zhǔn)則對放煤口進行控制，會導(dǎo)致放煤收益偏低。以待檢測賦存狀態(tài)空間達到臨界放煤收益，即矸石含量超過30%作為常規(guī)放煤方式的臨界控制條件，對放煤口進行控制，致使放煤結(jié)果中出煤含矸率不為0。

圖4 放頂煤過程中的竄矸現(xiàn)象Fig.4 Gangue channeling phenomenon in top-coal caving process

根據(jù)放頂煤原理，通過合理放煤工藝，控制煤巖分界面形態(tài)與放煤口保持相對平行，盡可能地擴大二者相切范圍能夠最大限度地將頂煤放出。對于單放煤口連續(xù)放煤方式，隨著放煤過程進行，如圖5a所示，受混矸、竄矸等現(xiàn)象嚴(yán)重影響，煤巖分界面曲線直線度遭到嚴(yán)重破壞，甚至出現(xiàn)分界面曲線垂直或超過垂直于放煤口的現(xiàn)象，放煤口控制難度加大，導(dǎo)致放煤收益低。對于智能群組放煤方式，如圖5c所示，煤巖分界面曲線直線度良好，煤層賦存狀態(tài)空間平穩(wěn)變化，混矸、竄矸等現(xiàn)象較少，分界面曲線與放煤口幾近平行，放煤口控制難度低，放煤總體收益高。

單放煤口“大中小”間隔放煤方式，如圖5b所示，隨間隔距離增長，兩放煤口之間相互影響減少，分界面曲線坡度降低，可放出區(qū)域逐步擴大，進而頂煤采出率得以提高。但大間隔放煤方式最終使煤巖分界面呈現(xiàn)出“峰谷式”變化，在兩端及中部放煤口仍會形成放出漏斗，相鄰放出漏斗間形成三角煤區(qū)域，該區(qū)域頂煤無法有效采出，因此頂煤采出率相對較低?，F(xiàn)階段，塔山礦8222工作面采用“大中小微”分段間隔四級一次放煤工藝，旨在降低分段間隔中部放煤口上方煤矸分界面曲線弧度，保持放煤口正上方分界面曲線與放煤口相對平行，擴大可放出區(qū)域，提高頂煤采出率。

圖5 煤巖分界面曲線變化過程Fig.5 Change process of coal-rock interface curve

智能群組放煤通過對放煤口的智能決策控制，收獲最大放煤收益，且頂煤采出率最高?！按笾行　遍g隔放煤方式以“見矸關(guān)窗”為控制準(zhǔn)則，其放煤方式較為保守，故頂板上方殘存煤炭粒子偏多。2種放煤方式下頂板上方粒子分布如圖6所示。

圖6 頂板上方粒子分布Fig.6 Particle distribution above hydraulic support

智能群組放煤在直接頂破碎的情況下，將含有部分矸石的頂煤適量放出，在提高頂煤采出率的同時導(dǎo)致含矸率小幅升高，通過對采出率和含矸率的合理平衡，使放頂煤總體收益得到提高。

4 結(jié) 論

1)建立了基于離散元方法的放頂煤過程三維仿真模型，實現(xiàn)了對塔山礦8222工作面放頂煤過程的數(shù)值模擬仿真，為后續(xù)放頂煤開采理論的研究與發(fā)展提供仿真實驗平臺。

2)將液壓支架群看作是一個需要協(xié)同控制的多智能體，在多智能體框架下，提出基于批量式強化學(xué)習(xí)的綜放工作面群組放煤智能決策。依據(jù)該決策算法，放煤智能體能夠根據(jù)頂煤動態(tài)賦存對放煤口動作做出在線調(diào)整，實現(xiàn)放頂煤收益最大化；并對智能體在線學(xué)習(xí)過程中“狀態(tài)跳變”現(xiàn)象所帶來的負(fù)面影響進行削減，使智能體的在線學(xué)習(xí)效率得到進一步提高。

3)仿真試驗結(jié)果表明，塔山礦8222工作面采用大間隔分段放煤方式，顯著優(yōu)于單放煤口連續(xù)放煤方式。分段大間隔放煤方式通過維持煤巖分界面曲線平穩(wěn)變化，始終保持當(dāng)前放煤口與正上方煤巖分界面曲線相切，顯著擴大了可放出區(qū)域，提高了頂煤采出率。

4)結(jié)合人工智能技術(shù)及方法，研究建立放出體狀態(tài)、煤層賦存狀態(tài)、煤巖分界面特征等主要環(huán)境信息與放煤口控制之間的匹配關(guān)系，實現(xiàn)對放煤口動作的合理預(yù)測控制，對于提高頂煤采出率、降低出煤含矸率具有重要意義。

5)在長期的實踐積累中，放煤操作人員積累了豐富的放煤經(jīng)驗，但現(xiàn)階段的科學(xué)研究過程中并未將這些經(jīng)驗很好地提煉、吸納。在后續(xù)研究中，課題組將會對相關(guān)放煤經(jīng)驗進行總結(jié)、規(guī)范，構(gòu)建放煤知識經(jīng)驗庫，并將經(jīng)驗庫作為先驗知識，指導(dǎo)放煤智能體的學(xué)習(xí)過程。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放