亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數值核反應堆大數據及其應用

        2021-09-22 01:55:02汪岸任帥苗雪董玲玉朱迎陳丹丹胡長軍
        大數據 2021年5期
        關鍵詞:原子數值算法

        汪岸,任帥,苗雪,董玲玉,朱迎,陳丹丹,胡長軍

        北京科技大學,北京 100083

        1 引言

        數值核反應堆(以下簡稱數值堆)是一種基于超級計算機實現(xiàn)的軟件系統(tǒng),用于核反應堆內多物理耦合過程的高保真數值模擬和預測[1]。數值堆被當成實際反應堆“外在”和“內在”的鏡像,可以支撐包括反應堆的設計、建筑安裝、運行、退役等過程在內的全周期從微觀機理到宏觀現(xiàn)象的研究。數值堆在運行中涉及的大量數據通常有兩種用途:一是用于建模優(yōu)化,即作為耦合計算的中間數據,輔助模型的建立和改進;二是用于科學發(fā)現(xiàn),即作為研究分析的原始數據,獲取對材料、機理的認識。

        這些數據在數值堆這一復雜的多物理場模擬系統(tǒng)中流動,且進行精細計算,可以輕易產生PB級的數據量,因此在存儲上要借助高吞吐、高并發(fā)的并行文件系統(tǒng),在計算上要依賴高性能、高可用的處理器資源。在不同計算尺度、不同服役環(huán)境下,數據雖然體現(xiàn)為不同的含義、形式,但是它們都屬于與核反應堆相關的計算數據,相互之間存在緊密的關聯(lián)。從計算的部分來看,數值堆是核反應堆各種物理過程及其耦合模擬的算法實現(xiàn),其中各過程通過計算數據相連;從數據的部分來看,數值堆是核反應堆各種計算數據的關聯(lián)和相互轉換,其中各數據通過物理過程相連。

        數值核反應堆大數據就是數值堆運行過程中涉及的數據總和。作為數值堆的關鍵組成部分,數值核反應堆大數據具有兩方面不可忽視的重要作用:對“內”,它為工程人員提供了形式復雜、關聯(lián)緊密的計算數據,對其關聯(lián)性的研究可用于改進數值堆的模擬性能;對“外”,它為科研人員提供了大量可供進一步挖掘分析的模擬數據,其中可能蘊含著有關核反應堆材料、物理化學機理的新認識。大數據技術的引入使數值核反應堆大數據的價值比以往更清晰地呈現(xiàn)出來,從而為發(fā)揮數值核反應堆大數據對“內”和對“外”的作用奠定了基礎。

        本文提出了數值核反應堆大數據的概念,闡述了數值堆大數據最重要的特點。從這些特點出發(fā),引出了不同于傳統(tǒng)數值堆模擬的研究方向,也就是基于數據的建模優(yōu)化和科學發(fā)現(xiàn)。以中國數值反應堆原型系統(tǒng)(China virtual reactor 1.0,CVR1.0)[2]為研究對象,本文論述了基于數值堆大數據的研究方向及成果,有力地證明了數據自身價值、數據與數據的關聯(lián)性對數值堆研究的推動作用。

        2 相關工作

        隨著計算機硬件水平的發(fā)展及核反應堆數據的積累,已有研究中利用機器學習、人工智能等技術手段對數值核反應堆大數據進行的挖掘分析著重于兩個方面的研究工作:一是優(yōu)化模擬模型,二是基于數據的挖掘分析進行科學發(fā)現(xiàn)。

        2.1 數據驅動的建模優(yōu)化方法

        數據驅動的建模優(yōu)化就是利用數值堆大數據改進數值堆的各種數值算法,具體涉及對整個計算模型或模型中部分模塊的改進、替換,以及利用數據進行工況預測或模型計算。

        (1)整個計算模型的改進和替換研究

        改進、替換整個數值計算方法的研究重點集中在建立計算過程中輸入與輸出的非線性關系。例如,在中子學的研究中,基于細胞神經網絡求解簡單平板幾何上的中子輸運方程[3];將基于人工神經網絡的偏微分求解方法應用于非線性源擴散[4]、中子點動力學[5]、輻射輸運[6]、一般非線性偏微分方程求解[7-8]等許多與數值堆相關的問題中。在計算流體力學(computational fluid dynamics,CFD)的研究中,利用基于小樣本集的機器學習方法解決數據價值密度低的問題及求解流體力學的Navier-Stokes方程[9]。上述研究工作極大地節(jié)省了求解復雜方程所需的計算資源,但在比較復雜、缺少樣本的幾何條件下仍然難以達到理想效果。

        (2)模型部分模塊的改進研究

        在模型的部分模塊、算法中也可以基于數據驅動提出改進策略。例如,在計算流體力學的研究中,以核反應堆大數據為驅動修正現(xiàn)有湍流模型的經驗系數[10];利用深度神經網絡從高精度模擬數據中學習雷諾應力各向異性張量模型[11];利用監(jiān)督學習算法建立湍流模型中的閉包項,并將閉包項插入計算流體力學數值模擬中,以得到更好的湍流物理表示[12];通過訓練卷積網格來預測任意給定幾何的最優(yōu)網格密度,加速最優(yōu)網格的生成[13]。在材料勢函數的研究中,通過機器學習對勢函數庫進行學習,開發(fā)用于勢函數計算的機器學習模型,該模型可以在保證勢函數精度的基礎上將計算時間減少幾個數量級[14-15];將勢函數機器學習模型和分子動力學(molecular dynamics,MD)模擬軟件LAMMPS集成起來,擴大原有計算規(guī)模[16]。上述研究工作通過對部分模塊或算法進行改進來達到優(yōu)化模型整體的目的。

        (3)工況預測或模型數據研究

        還有許多研究集中在利用實驗數據、設備數據直接進行工況預測,或者為數值堆提供計算數據。例如,在中子物理計算方面,基于人工神經網絡的方法可用于中子深度剖面分析[17]及中子能譜解譜[18]。在計算流體力學方面,自聯(lián)想神經網絡可用于核電站在線監(jiān)測及傳感器校驗技術構建[19];支持向量機模型與多元狀態(tài)估計方法可用于核電站的運行工況估計[20];改進徑向基函數網絡模型和遺傳算法可用于核電站瞬態(tài)工況診斷識別技術的構建[21];利用機器學習等進行棒束子通道熱工水力特性的預測[22]。上述研究不依賴對實際物理過程的理解,且訓練數據充足,能被廣泛應用。

        2.2 基于數據挖掘分析的科學發(fā)現(xiàn)

        基于數據的挖掘分析進行科學發(fā)現(xiàn)是數值核反應堆大數據研究的重要目標之一。近幾年,機器學習算法已被有效地用于材料和分子的原子尺度模 擬[23-24],應用領域包括探索結構與屬性之間的關系以及模式匹配,以指導材料設計和預測新化合 物[25-26]。隨著計算能力不斷增長,模擬生成的數據越來越多,使用機器學習從數據中提取知識變得越來越重要[27]。無監(jiān)督機器學習算法可用于數據模式的探索、可視化和分類,而無須訓練樣本(具有相應輸出值或類別標簽的樣本輸入),它已被有效地應用于材料和分子科學領域[28-29]。然而,無監(jiān)督學習在輻照損傷研究領域的應用仍然處于起步階段。由國際原子能機構(International Atomic Energy Agency,IAEA)開發(fā)的建立級聯(lián)碰撞MD模擬的開源標準化數據庫CascadesDB[30]為這個方向上的未來工作奠定了基礎。例如,基于該數據庫,利用聚類的方法開展對MD級聯(lián)碰撞數據的分析研究[31-32]。針對點缺陷分析,傳統(tǒng)的方法無法區(qū)分基于點缺陷的聚類[33]。例如,傳統(tǒng)的方法使用位錯提取算法(dislocation extraction algorithm,DXA)來確定位錯環(huán)[30],但是無法識別非位錯缺陷和小團簇的形態(tài)。此外,隨著系統(tǒng)規(guī)模的增大,位錯提取算法會占用大量內存,并且速度很慢。傳統(tǒng)的幾何方法(如鄰域分析等)能夠識別晶體中的缺陷區(qū)域,但無法描述缺陷的形態(tài)和濃度。通過設計新的幾何特征向量,可以識別晶格原子中的缺陷,并將其可視化[34-35]。

        3 數值核反應堆大數據特點分析

        數值堆涉及的數據主要有兩種不同來源,一是在實驗、運維等過程中由核反應堆及相關設備產生,二是在數值堆運行過程中由各種算法產生。這些來源使數值堆大數據具備了工業(yè)大數據和模擬大數據的特征。由于數值堆的領域特點,模擬大數據最重要的特征是多樣性、關聯(lián)性,以及由數學物理模型和數值方法帶來的非精確性。

        多樣性和關聯(lián)性是模擬大數據的重要宏觀特征。多樣性體現(xiàn)在數據類型豐富、數據版本多樣。例如,反應堆材料從設計到投入使用要經歷成分設計、微觀組織調控、工業(yè)測試、服役等多道工序,其服役周期達幾十年之久,材料性能在不同的時效作用下也會呈現(xiàn)不同的特點。此外,來源于設備和計算的數據是多樣的,如原子坐標數據、團簇數據等。關聯(lián)性體現(xiàn)在數據含義、形式的緊密關聯(lián)上。例如,反應堆材料的使用壽命與各服役階段息息相關,優(yōu)異的服役性能離不開精確的系統(tǒng)測試,離不開大量的工藝參數調控,更離不開合適的成分、結構設計,而每一工程階段的相應計算工作會涉及不同物理過程、不同時空尺度的數據,各個階段之間不同來源的數據具有極其復雜的關聯(lián)關系。

        非精確性是模擬大數據的重要微觀特征。數值堆包含大量數學物理模型,這些模型是對現(xiàn)實的近似描述,使得數值堆從設計、實現(xiàn)到交付經歷了多個層次的近似處理[36]。最終,數值堆大數據中占主要部分的數值型數據包含了不同來源的誤差。這些誤差的存在促使研究人員追求高精細的模擬以貼近現(xiàn)實,這是數值堆大數據在數量上快速增長的根本原因之一。從近似處理的層次來看,非精確性體現(xiàn)在數學物理模型、數值方法和計算機程序帶來的誤差上。依據現(xiàn)實建立數學物理模型,是對真實現(xiàn)象在某一組條件下的理想化處理,這一階段會因條件簡化引入一定的誤差,如運輸過程的粒子模型、冷卻劑的流體模型。依據數學物理模型建立數值方法是在有限的計算資源下尋求復雜方程的數值解,并且量化地描述收斂性、復雜度等具有普遍性的特點。這一階段因離散化引入一定的誤差,例如熱工水力流體計算和堆芯結構力學計算涉及的有限元方法會受到時間、空間離散誤差的影響,MD和動力學蒙特卡洛(kinetic Monte Carlo,KMC)等依賴隨機數和隨機過程的方法會受到統(tǒng)計誤差的影響。依據數值方法開發(fā)計算機程序,引入的誤差都可以歸結為舍入誤差。盡管浮點數的模型(單精度、雙精度等)以及它們的運算特點在數值方法層面已經得到完整的討論,并且數值方法已經給出了準確的算法,計算機程序從編碼、編譯到最終運行的一系列活動仍然無法保證完全貼合它要表達的數值方法。例如,在不同機器上計算同一數學基本函數可能得到不同結果;某些語言的編譯器為了保證效率會對原程序代碼做一些變換;數值堆計算程序的并行化版本可能會極大地改變原本的浮點運算相關公式和計算順序。

        多樣性、關聯(lián)性和非精確性相互影響,使得面向數值堆大數據的研究能夠基于神經網絡、數理統(tǒng)計、數值分析等多個細分領域進行。

        4 基于數值核反應堆大數據的建模優(yōu)化

        4.1 基于第一性原理數據和神經網絡模型的分子動力學勢函數建模

        勢函數計算是材料多尺度模擬關鍵的一環(huán),也是數值堆高精細模擬實現(xiàn)過程中計算復雜且耗時的部分。MD和KMC中粒子速度、位置的更新,以及隨機團簇動力學(stochastic cluster dynamics,SCD)中多元組分材料參數的計算均離不開勢函數模型。過去常用的勢函數模型通常包括兩種,一種基于第一性原理,另一種基于經驗函數。前者往往計算復雜,且對于多元合金組分而言,第一性原理勢函數的構建過程非常復雜;后者雖然在效率上有所提高,但精度往往不夠,對于多元合金組分而言,經驗勢函數的構建過程更加困難?;诿芏确汉碚摚╠ensity-functional theory,DFT)計算得到的海量數據,提出一種基于機器學習的方法對原子體系模擬參數及勢能之間進行擬合的勢函數模型——基于人工智能的勢函數模型(artificial intelligence based potential model,AIPM)。

        AIPM訓練所需的時間與原子數量相關,在原子數量相當大時,需要通過采樣獲取適當規(guī)模的訓練集。由于數值大數據具有非精確性的特點,不同的數據采樣方法可能會導致模型計算結果產生波動。本節(jié)不考慮上述采樣問題,而是基于篩選好的原子數據驗證AIPM。

        選取2 000條由DFT計算得到的數值計算大數據,每條數據代表一個原子體系,訓練集由1 000個原子坐標及對應的體系勢能組成。隨后,使用FeCu二元合金體系基于原子坐標進行機器學習模型的特征提取。具體來說,首先按照最近鄰法對原子鄰域進行劃分,并以該原子為中心建立局域坐標系,如圖1所示,將第一近鄰和第二近鄰分別設置為x軸、y軸坐標,將二者的向量積作為z軸坐標,于是可以得到每個原子的坐標,將這些坐標作為神經網絡的輸入。如圖2所示,使用3層全連接的神經網絡結構,每層的節(jié)點數依次為15、10、6,擬合得到體系內一個原子的勢能,然后針對其他原子采用相同的方案進行擬合,最后將所有原子的勢能求和,即可得到總的原子體系的勢能,將這一勢能與數據庫中給定的勢能進行比較,驗證模型的精度。采用AIPM計算1 000個粒子大小的FeCu原子體系勢能,并與嵌入原子法(embedded atom method,EAM)勢函數模型進行對比,結果見 表1,對比結果驗證了AIPM的可靠性。模擬結果顯示,與EAM相比,AIPM在計算耗時上縮短一半以上,同時計算結果僅有0.7%的相對偏差。將該模型應用于數值核反應堆的高精細模擬,有望實現(xiàn)模型的加速和更大規(guī)模的模擬。

        圖1 局域坐標系的建立方法

        表1 FeCu原子體系神經網絡計算結果

        圖2 FeCu原子體系神經網絡構建過程

        4.2 基于特征線法數據的敏感性分析

        中子輸運是數值堆的核心過程之一,它以核數據、堆芯空間信息等復雜時空數據為輸入,產生有效增殖因子、中子通量密度分布等描述堆芯核裂變反應狀態(tài)的數據。特征線法是一種經典的中子輸運數值迭代方法,它將連續(xù)的空間離散為有限條相互交錯的軌跡,將空間上的輸運方程求解問題轉化為沿軌跡的常微分方程求解問題。如 圖3所示,特征線法產生的結果會隨輸入數據的變化而變化,這一敏感性問題是由數值方法本身帶來的,并且在計算程序日益復雜化的情況下難以從解析表達式入手解決。使用基于大量數據的統(tǒng)計方法可以讓算法從輸入和輸出中挖掘數據之間的關聯(lián)性,建立輸入變化與輸出變化之間定性甚至定量的關系,從而加深對特征線法計算結果波動的理解,也可使得輸入數據的選取更加合理、高效。同時,使用盡可能少的數據來建立統(tǒng)計模型,并將它用于更大輸入空間中輸出數據的波動預測,從而避免嘗試各種輸入數據組合帶來的計算資源的浪費。

        圖3 輸入數據變化引起輸出數據變化

        以三維特征線法程序ANT-MOC為例[37],它執(zhí)行特征線法計算所需的堆芯空間信息包括軌跡分布,該分布可以由一些參數完全確定,其中最重要的參數是方位角(軌跡的平面角度)數量、平面軌跡間距(軌跡在平面上投影的間距)、極角(軌跡的軸向角度)數量、軸向軌跡間距(軌跡在軸向上的間距)。調整角度數量和間距大小就能改變整個空間中軌跡的密度,也就改變了離散化的方程數量。

        本文基于ANT-MOC考察方位角數量、平面軌跡間距、極角數量和軸向軌跡間距這4個影響軌跡分布的關鍵參數對計算結果中有效增殖因子keff的影響。有效增殖因子是用整個堆芯中的中子通量密度計算得到的堆芯裂變反應的整體度量,因此它在輸出數據中具有一定的代表性。實驗選取的計算對象為Takeda國際基準題[38],它描述了一個簡單的壓水堆堆芯,其有效增殖因子的參考值kref為0.977 8。實驗所用的輸入數據中僅有4個變量,它們的取值 見表2,取值組合共500種。

        表2 軌跡分布相關輸入數據的取值

        使用ANT-MOC完成500組計算后,計算每個有效增殖因子keff與參考值kref的相對誤差。由于輸入參數的取值范圍不大,在這一范圍內使用線性模型近似地研究各參數與相對誤差的關系。給定顯著性水平0.05,可以為這500組數據建立四元線性回歸模型:

        可以使用該模型估計keff的相對誤差隨軌跡分布的變化情況?;貧w分析的各參數見 表3。

        表3 500組樣本的多元回歸分析參數

        相關系數R和校正的擬合優(yōu)度R2的數值表明有效增殖因子keff的相對誤差與選取的4個變量有較好的相關性,F(xiàn)檢驗的P值遠小于0.05表明結果非常顯著。各變量的t檢驗結果見表4,結果表明,方位角和極角數量與結果的相關性非常顯著(P值遠小于0.05),參數標準誤差也表明這兩個參數的平均偏離程度較小,這說明四元線性回歸模型比較合理地估計了方位角和極角在一定范圍內的變化對ANT-MOC計算結果的影響。在Takeda計算中,根據擬合結果以及表2描述的參數區(qū)間,還可以比較在參數區(qū)間內相對誤差隨不同參數變化的波動情況,從而指導具體計算時的參數選擇。例如,方位角和極角的線性擬合系數為負、平面軌跡間距的系數為正,意味著在一定范圍內使這3個參數精細化可以縮小相對誤差;軸向軌跡間距的系數為負,意味著ANT-MOC的計算結果難以通過該參數的精細化(縮小)來改善。

        表4 各變量的t檢驗結果

        線性擬合在一定范圍內定量地反映了ANT-MOC計算結果對參數的敏感性,從而可以避免復雜的誤差放大和條件數的理論分析,快速給出篩選參數組合的統(tǒng)計依據。對于相當精細的參數空間,ANTMOC數值算法的收斂速率不可以忽略,計算結果的相對誤差不再能被線性模型很好地描述,需要在此工作的經驗上使用更復雜的學習算法來建立估計模型。

        4.3 流固耦合中基于三維R樹的大規(guī)模流體數據插值分析

        熱工水力軟件CVR-PACA和結構力學軟件CVR-HARSA(原CVR-HISRES)的流固耦合模擬是CVR1.0項目的研究重點。PACA與HARSA耦合旨在進行全堆規(guī)模的流致振動分析、獲得燃料棒和固定支架間的磨損評估數據,有助于堆芯安全分析、設計及反應堆延壽。耦合的本質是完成流固交界面上數值數據的融合轉換,其中,數值數據具有數據量巨大、不匹配的特點。數據量巨大是由PACA與HARSA高精細模擬計算的特點決定的,而不匹配是兩者建模的網格類型和密度不同導致的?;诖耍萌SR樹[39]索引大規(guī)模流體數據,完成了PACA輸出的流體壓力向HARSA的插值計算,即流體壓力數據的融合轉換計算。實驗表明,此種插值計算方式提高了流體壓力的融合轉換效率和大規(guī)模高精細耦合計算效率。

        PACA輸出的流體數據規(guī)模巨大,如10 mm長的雙流道模型的頂點數目超過30萬;100 mm長的6流道模型的頂點數目超過900萬,因此采用三維R樹索引大規(guī)模流體網格頂點進行流體壓力數據的插值計算。另外,PACA輸出的網格頂點難以還原拓撲結構,因此在數據融合轉換過程中采用鄰近點加權平均[40]的匹配計算方式。流體壓力數據的整體插值過程包括圖4所示的3個階段。

        圖4 流體壓力數據插值過程展示

        ● 數據清洗階段:獲取PACA計算輸出的原始數據,原始數據中存在許多重復數據和融合轉換計算不需要的數據,該階段對這部分數據進行清洗處理,并輸出后續(xù)計算所需數據,即流體網格頂點及各頂點對應的壓力值。

        ● 構建三維R樹階段:對上階段輸出數據進行三維R樹的構建,其中,樹中葉子節(jié)點包圍的是三維空間中的流體網格頂點,每個頂點都唯一對應一個壓力值屬性。

        ● 匹配計算階段:針對每個固體網格頂點遍歷三維R樹,搜索距離它最近的前k個流體頂點,并對這k個頂點及壓力值進行鄰近點加權平均計算,得到固體頂點對應的壓力值。

        經過上述計算,得到每個固體網格頂點對應的壓力值,然后將這些頂點及對應壓力值輸出為HARSA計算所需的格式。

        利用表5中的6組建模數據進行實驗,測試了直接插值方式和基于三維R樹的插值方式在不同條件下的性能,分別用BaseLine、RTree表示這兩種插值方式。其中,直接插值方式直接搜索所有流體頂點,找到距離每個固體頂點最近的k個流體頂點,并進行加權計算得到該頂點對應的壓力值。

        表5 實驗測試數據

        圖5(a)展示了燃料棒數目變化時,PACA與HARSA耦合時兩種插值方式的耗時,其中縱軸為消耗時間的對數表示。當燃料棒數目增大時,RTree的耗時遠小于BaseLine的耗時。圖5(b)展示了燃料棒長度變化時兩種插值方式的耗時。當燃料棒長度增大時,RTree的耗時仍遠小于BaseLine的耗時??梢?,RTree在高精細插值模擬中更具優(yōu)勢。

        圖5 流體壓力數據插值計算效率測試

        5 基于數值核反應堆大數據的科學發(fā)現(xiàn)

        5.1 基于并查集算法的級聯(lián)碰撞團簇劃分方法

        級聯(lián)碰撞模擬后,高能粒子的撞擊導致材料原子離開原本所在的晶格位置,而后進一步聚集或湮滅,形成自間隙團簇或空洞,最終導致材料力學性能降級,從而威脅反應堆設施的安全?;贑VR1.0中的分子動力學程序MISA-MD的模擬數據,采用并查集算法可以實現(xiàn)對團簇的有效劃分。

        數據集采用的晶體結構均為體心立方(body-centred cubic,BCC)晶體,元素都是鐵(Fe)元素,晶格常數為2.855 32 nm。模擬數據均來源于大小為[80, 80, 80]的模擬區(qū)域,區(qū)域大小的含義是x、y、z方向上都是80倍的晶格常數,即80個晶格點。當實驗環(huán)境的溫度為600 K時,隨著入射中子能量的不同,時間步長有10 000和100 000兩種,總的時間步數有41 000和131 000兩種,MISA-MD運行時,每隔1 000時間步輸出一個結果,這里選取最后一個時間步的結果。每個時間步的結果數據都是.dump坐標數據,其中包含1 024 000個原子坐標。在上述實驗環(huán)境下,數據涵蓋不同初級離位原子(primary knock-on atom,PKA)能量、不同PKA入射方向,且每種能量每種角度都進行了多次模擬,包括10 keV、30 keV和50 keV共3種不同的能量,<122>、<135>和<235>共3個不同入射方向(以晶向表示),每種參數組合都進行了50次模擬,最終有450次模擬數據。

        常規(guī)方法是將每個缺陷看成一個單缺陷的團簇,然后遍歷其他缺陷,將指定距離內的缺陷加入該團簇進行缺陷的合并。該問題看起來并不復雜,但是當數據量大時,若采用常規(guī)方法來解決,往往時間復雜度過大,這是因為它需要反復查找一個缺陷所在的團簇,所以常規(guī)方法不能很好地解決該問題。這里采用并查集算法來解決。并查集算法[41]采用一種樹形數據結構來處理這種不相交集合的問題。并查集算法有兩種操作:合并(union),即把兩個不相交的集合合并為一個集合;查詢(find),即查詢兩個元素是否在同一個集合中。所有元素合并完之后,森林中有幾棵樹就有幾種集合。因為并查集算法的數據結構為樹形,所以樹的高度越高,時間復雜度就越高。因此這里選取的是優(yōu)化的并查集算法。使用優(yōu)化的并查集算法劃分團簇的偽代碼如下。首先設置一個大小與缺陷總數相同的根節(jié)點數組root,它的含義為該缺陷所屬團簇的編號,初始時將每個缺陷視為單獨一個團簇,因此初始數組的值為自身編號。然后設置一個大小與缺陷總數相同的高度數組height,它表示以當前節(jié)點為根節(jié)點的樹的高度,因為初始時每個缺陷都是一個團簇,也就是一棵樹,所以初始時樹的高度都為1。接下來計算任意兩個缺陷之間的距離,在計算的過程中需要判斷這兩個缺陷的類型。如果這兩個缺陷都是間隙原子或者一個是間隙原子、一個是空位,則只要它們的距離在一倍晶格常數(第二近鄰)內,就認為它們屬于同一個團簇;如果兩個缺陷都是空位,且它們的距離不超過晶格常數的2的平方根倍(第三近鄰),則認為它們屬于一個團簇。如圖6所示,此時缺陷2和缺陷9在距離閾值內,第一步先查找兩個缺陷的根節(jié)點,在查找的過程中,將向上經過的所有缺陷的根節(jié)點都設為最上層的缺陷,也就是都直接接到根節(jié)點上,這被稱為路徑壓縮,可以降低樹的高度,使得以后向上查找根節(jié)點時速度更快。在獲取根節(jié)點后,根據樹的高度數組height判斷兩個根節(jié)點的樹的高度,將高度小的樹接到高度大的樹上,如果樹高一樣,則可以將任意一棵樹接到另一棵樹上作為孩子節(jié)點。遍歷根節(jié)點數組,將根節(jié)點相同的缺陷劃分到一個團簇中,從而獲得所有團簇的劃分結果。將獲得的所有團簇信息(包括團簇中的缺陷坐標、缺陷對數、缺陷類型(間隙或者空位)等)存儲到團簇數據庫中,最終獲得了4 483個團簇。

        圖6 并查集算例演示

        偽代碼1 使用優(yōu)化的并查集算法劃分團簇

        輸入:所有缺陷原子坐標 DEFECTS = [d1,d2, …,dm]

        輸出:所有團簇

        1 設置樹的根節(jié)點數組和高度數組: root = [1,…,m], height = [1]*m

        2 fori← 1, 2, …,mdo

        3 forj←i+1,…,mdo

        4 if distance(di,dj) < threshold then

        5a← 找到i的根節(jié)點

        6b← 找到j的根節(jié)點

        7 根據樹的高度數組修改根節(jié)點數組

        8 end if

        9 end for

        10 end for

        11 將同一根節(jié)點的缺陷劃分為一個團簇

        12 輸出所有團簇

        5.2 基于KMC團簇大數據的環(huán)狀團簇識別算法

        KMC團簇大數據庫包含了不同實驗條件下經KMC長程演化后的原子團簇信息。KMC團簇大數據庫包含PKA能量、PKA入射方向等實驗參數以及團簇中各個原子坐標、空位、間隙原子數目等信息。這里共選取500條團簇數據展開分析。因為團簇形態(tài)和數目信息是未知的,所以有監(jiān)督的學習方法在此不適用。無監(jiān)督的機器學習方法在解決這一問題上具有獨特優(yōu)勢,這里采用基于密度的聚類算法。首先,選取的特征向量為缺陷團簇中各缺陷與幾何中心的距離、每兩個缺陷與幾何中心形成的夾角??紤]到幾何形狀經旋轉、放大、縮小后仍然是相同的,對于角度,這里每隔5°形成一維數據,共有36維數據;對于距離,每次將所有的距離除以當前團簇的最大值,進行歸一化處理,每隔0.025形成一維數據,共40維數據,因此特征向量為76維數據,如圖7所示。選取HDBSCAN聚類算法對團簇進行識別,輪廓系數達到0.643。HDBSCAN聚類算法是一種基于密度的無監(jiān)督的聚類算法,不需要標記過的數據,也不需要事先知道要劃分的類別數。它可以對不同密度的團簇進行聚類,可以忽略噪聲,且效率較高。團簇聚類結果 如圖8所示。這里使用卡方距離作為相似性度量,使用輪廓系數(silhouette coefficient)作為聚類性能的內部評價指標,若輪廓系數接近1,則說明樣本聚類合理;若輪廓系數接近-1,則說明樣本更應該分類到另外的簇;若輪廓系數近似為0,則說明樣本i在兩個簇的邊界上。圖8中的所有缺陷團簇被分為幾種不同的類別,每種顏色代表一種類別。本實驗共獲得了22種形狀類別,從這22種類別中隨機選取兩種類別,每種類別選擇兩個團簇,將其進行可視化展 示。圖9為類別1中的兩個團簇,1 260和1 867是它們在數據庫中的編號,它們具有完全相同的形狀,都是四個角構成一個方形,然后有一個 頂點。圖10則是另一個類別中的兩個團簇,它們和類別1不同,它們的缺陷個數有6個,而且它們分為上下兩排,每排3個缺陷,這兩排構成近似平行的幾何形狀。

        圖7 團簇特征提取方法示意

        圖8 團簇聚類結果

        從圖9和圖10可以得出,本文采用的相似性度量和聚類算法是可行的,它們可以將形狀相似的團簇聚類到一起,證明了整個程序的可行性?;谠摲椒?,筆者在KMC長程演化數據中發(fā)現(xiàn)了一些類環(huán)狀的團簇,如 圖11所示,這一發(fā)現(xiàn)與之前報道的材料輻照實驗中存在類環(huán)狀缺陷團簇的結果相吻合[42-43]。針對團簇的研究仍處在初步階段,不同形態(tài)的團簇對材料性能的影響機理尚不明確,基于KMC團簇大數據和機器學習的方法,實現(xiàn)了KMC長程演化后團簇形態(tài)的識別和分類,為后續(xù)團簇影響機理的研究提供了智能化手段。

        圖9 類別1的聚類結果

        圖10 類別2的聚類結果

        圖11 KMC長程演化產生的類環(huán)狀團簇聚類結果

        6 結束語

        本文提出了數值核反應堆大數據的概念,分析了它具有的多樣性、關聯(lián)性和非精確性等關鍵特征,并將這些特征和實際數值堆研究結合起來。將數值堆大數據看作數值堆的一個重要組成部分,使得大數據技術和學習算法的思想自然地被引入數值堆的研究中,拓展了研究的思路。從數值堆大數據的特征出發(fā),本文指出了它最重要的兩大應用方向:建模優(yōu)化和科學發(fā)現(xiàn)。以CVR1.0為例,在基于數據的建模優(yōu)化方面,基于神經網絡的勢函數改進了分子動力學總勢能的計算,降低了整個模擬的計算時間;基于統(tǒng)計的敏感性分析和基于三維R樹的網格插值研究了模擬數據之間的關聯(lián)性。在基于數據的科學發(fā)現(xiàn)方面,基于聚類的團簇劃分和環(huán)狀原子簇發(fā)現(xiàn),通過學習算法建立了有效的缺陷識別模型,有助于對材料性能進行預測。這些研究工作表明,數值核反應堆大數據概念的建立對于數值堆研究有極大的指導意義。

        同時,上述研究也反映出用于數值核反應堆大數據研究的學習模型面臨著易用性、準確度和效率等多方面的取舍,目前尚未形成一套具有領域特色的系統(tǒng)的研究方法。在今后的工作中,建立更可靠的學習模型和更完善的誤差分析是數值核反應堆大數據應用的努力方向。

        猜你喜歡
        原子數值算法
        用固定數值計算
        原子究竟有多?。?/a>
        原子可以結合嗎?
        帶你認識原子
        數值大小比較“招招鮮”
        基于MapReduce的改進Eclat算法
        Travellng thg World Full—time for Rree
        進位加法的兩種算法
        一種改進的整周模糊度去相關算法
        基于Fluent的GTAW數值模擬
        焊接(2016年2期)2016-02-27 13:01:02
        中文无码伦av中文字幕| 成年人男女啪啪网站视频| 久久精品一区一区二区乱码| 天堂av在线美女免费| 国产精品无码久久久久成人影院| 男人无码视频在线观看| 久久国产精品男人的天堂av| 国产熟女白浆精品视频二| 又紧又大又爽精品一区二区| 藏春阁福利视频| 无码AV无码免费一区二区| 精品少妇人妻av一区二区蜜桃 | 午夜理论片yy6080私人影院| 97人妻熟女成人免费视频| 精品人妻av区乱码| 精品日本一区二区三区| 国产偷久久久精品专区| 日韩精品成人一区二区三区| 久久免费网站91色网站| 中文字幕人妻少妇伦伦| 久久无码av中文出轨人妻| 人妻久久999精品1024| 91久久国产精品综合| 日本熟妇人妻xxxx| 国产午夜三级一区二区三| 免费视频成人 国产精品网站| 粉嫩人妻91精品视色在线看| 日本高清视频永久网站www| 亚洲羞羞视频| 国产一区二区三区经典| 26uuu在线亚洲欧美| 亚洲男人的天堂在线播放| 亚洲国产高清美女在线观看| 网站在线观看视频一区二区 | 亚洲午夜精品久久久久久抢| 人妻体体内射精一区中文字幕 | 欧美最猛黑人xxxx| 亚洲国产av一区二区三区四区| 色综合久久五月天久久久| 国产精品主播在线一区二区| 久久久午夜精品福利内容|