亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于Map/Reduce分布式計(jì)算的恒星光譜分類方法

        2016-06-15 16:40:27潘景昌羅阿理
        光譜學(xué)與光譜分析 2016年8期
        關(guān)鍵詞:海量恒星貝葉斯

        潘景昌, 王 杰, 姜 斌, 羅阿理, , 韋 鵬, 鄭 強(qiáng)

        1. 山東大學(xué)(威海)機(jī)電與信息工程學(xué)院, 山東 威海 264209

        2. 中國(guó)科學(xué)院光學(xué)天文重點(diǎn)實(shí)驗(yàn)室, 國(guó)家天文臺(tái), 北京 100012

        3. 煙臺(tái)大學(xué)計(jì)算機(jī)與控制工程學(xué)院, 山東 煙臺(tái) 264005

        一種基于Map/Reduce分布式計(jì)算的恒星光譜分類方法

        潘景昌1, 王 杰1, 姜 斌1, 羅阿理1, 2, 韋 鵬2, 鄭 強(qiáng)3

        1. 山東大學(xué)(威海)機(jī)電與信息工程學(xué)院, 山東 威海 264209

        2. 中國(guó)科學(xué)院光學(xué)天文重點(diǎn)實(shí)驗(yàn)室, 國(guó)家天文臺(tái), 北京 100012

        3. 煙臺(tái)大學(xué)計(jì)算機(jī)與控制工程學(xué)院, 山東 煙臺(tái) 264005

        天體光譜中蘊(yùn)含著非常豐富的天體物理信息, 通過(guò)對(duì)光譜的分析, 可以得到天體的物理信息、 化學(xué)成分以及天體的大氣參數(shù)等。 隨著LAMOST和SDSS等大規(guī)模巡天望遠(yuǎn)鏡的實(shí)施, 將會(huì)產(chǎn)生海量的光譜數(shù)據(jù), 尤其是LAMOST正式運(yùn)行后, 每個(gè)觀測(cè)夜產(chǎn)生大約2~4萬(wàn)條光譜數(shù)據(jù)。 如此海量的光譜數(shù)據(jù)對(duì)光譜的快速有效的處理提出了更高的要求。 恒星光譜的自動(dòng)分類是光譜處理的一項(xiàng)基本內(nèi)容, 該研究主要工作就是研究海量恒星光譜的自動(dòng)分類技術(shù)。 Lick線指數(shù)是在天體光譜上定義的一組用以描述光譜中譜線強(qiáng)度的標(biāo)準(zhǔn)指數(shù), 代表光譜的物理特性, 以每個(gè)線指數(shù)最突出的吸收線命名, 是一個(gè)相對(duì)較寬的光譜特征。 研究了基于Lick線指數(shù)的貝葉斯光譜分類方法, 對(duì)F, G, K三類恒星進(jìn)行分類。 首先, 計(jì)算各類光譜的Lick線指數(shù)作為特征向量, 然后利用貝葉斯分類算法對(duì)三類恒星進(jìn)行分類。 針對(duì)海量光譜的情況, 基于Hadoop平臺(tái)實(shí)現(xiàn)了Lick線指數(shù)的計(jì)算, 以及利用貝葉斯決策進(jìn)行光譜分類的方法。 利用Hadoop HDFS高吞吐率和高容錯(cuò)性的特點(diǎn), 結(jié)合Hadoop MapReduce編程模型的并行優(yōu)勢(shì), 提高了對(duì)大規(guī)模光譜數(shù)據(jù)的分析和處理效率。 該研究的創(chuàng)新點(diǎn)為: (1) 以Lick線指數(shù)作為特征, 基于貝葉斯算法實(shí)現(xiàn)恒星光譜分類; (2) 基于Hadoop MapReduce分布式計(jì)算框架實(shí)現(xiàn)Lick線指數(shù)的并行計(jì)算以及貝葉斯分類過(guò)程的并行化。

        Lick線指數(shù); 恒星光譜分類; Hadoop

        引 言

        當(dāng)代天文學(xué)的研究極大程度上依賴對(duì)天體目標(biāo)的觀測(cè), 如今, 隨著科學(xué)技術(shù)的快速發(fā)展, 對(duì)天體的觀測(cè)能力也大大提高, 產(chǎn)生了一系列大規(guī)模光譜巡天項(xiàng)目, 如斯隆數(shù)字巡天(SDSS)[1-2], LAMOST[3-4]等。 這些巡天項(xiàng)目產(chǎn)生的海量光譜數(shù)據(jù)對(duì)光譜的自動(dòng)化處理提出了更高的要求, 其中, 恒星光譜的自動(dòng)化分類是光譜分析的一項(xiàng)重要內(nèi)容。 利用恒星光譜的流量信息對(duì)光譜進(jìn)行分類的方法比較多, 包括基于SVM的光譜分類[5], 基于人工神經(jīng)網(wǎng)絡(luò)ANN的光譜分類[6]等。

        在綜合分析研究已有方法的基礎(chǔ)上, 本文提出一種利用線指數(shù)特征進(jìn)行恒星光譜分類的方法; 同時(shí)考慮到海量光譜的情況, 基于Hadoop Map/Reduce分布式計(jì)算框架實(shí)現(xiàn)了線指數(shù)的計(jì)算以及基于貝葉斯決策的恒星光譜分類方法。 利用Hadoop HDFS高吞吐率和高容錯(cuò)性的特點(diǎn), 結(jié)合Hadoop Map/Reduce編程模型的并行優(yōu)勢(shì), 極大地提高了大規(guī)模恒星光譜數(shù)據(jù)的分析和處理效率, 同時(shí)也表明了先進(jìn)的計(jì)算架構(gòu)和技術(shù), 對(duì)于提高科學(xué)研究的效率具有很重要的意義。

        1 線指數(shù)

        線指數(shù)是指在天體光譜上定義的一組用以描述光譜中譜線強(qiáng)度的標(biāo)準(zhǔn)指數(shù)。 本文中采用了目前較為流行和廣泛使用的Lick線指數(shù)。 該套線指數(shù)在恒星光譜的4 000~6 500 ?波段范圍內(nèi)定義了25個(gè)突出的吸收特征, 包括19條原子吸收線指數(shù)和6條分子吸收線指數(shù), 是相對(duì)較寬的光譜特征。 該系統(tǒng)定義中包括光譜吸收譜線的中心波長(zhǎng)以及兩側(cè)的藍(lán)、 紅兩端連續(xù)譜波段的起止波長(zhǎng)。 每條線指數(shù)包含了大量的不同元素的吸收特征, 并以該線指數(shù)所在波段內(nèi)最突出的吸收線來(lái)命名[7-9]。 有關(guān)Lick線指數(shù)的完整定義參見(jiàn)Worthey的網(wǎng)站http://astro.wsu.edu/worthey/html/system.html。

        Lick線指數(shù)的計(jì)算方式有兩種, 其中19條原子吸收線指數(shù)是以等值寬度的方式計(jì)算

        (1)

        另外6條分子吸收線指數(shù)以星等的形式計(jì)算

        (2)

        其中,λ1和λ2分別為中心波段起止波長(zhǎng),F(xiàn)Iλ和FCλ分別表示在中心波段的單位波長(zhǎng)的光譜流量與偽連續(xù)譜的流量。

        2 基于Hadoop的Lick線指數(shù)計(jì)算

        Hadoop是一個(gè)專門(mén)針對(duì)海量數(shù)據(jù)設(shè)計(jì)的分布式軟件框架, 利用其兩大核心組件HDFS分布式文件系統(tǒng)和MapReduce計(jì)算模型可以高效地處理和分析海量數(shù)據(jù), 其中, HDFS提供對(duì)文件的分布式存儲(chǔ)和訪問(wèn)等操作, 在此基礎(chǔ)上, MapReduce實(shí)現(xiàn)計(jì)算任務(wù)的分割、 執(zhí)行、 結(jié)果合并等。

        Hadoop集群的結(jié)構(gòu)是由一個(gè)管理節(jié)點(diǎn)和若干工作節(jié)點(diǎn)組成的主從結(jié)構(gòu), HDFS和MapReduce也是典型的主從結(jié)構(gòu)。 HDFS是由一個(gè)NameNode(名稱節(jié)點(diǎn))和若干DataNode(數(shù)據(jù)節(jié)點(diǎn))組成, NameNode負(fù)責(zé)記錄和管理DataNode上存儲(chǔ)的數(shù)據(jù)。 類似于HDFS的主從結(jié)構(gòu), MapReduce中也有對(duì)應(yīng)的JobTracker(作業(yè)跟蹤器)和TaskTracker(任務(wù)跟蹤器), 其中, JobTracker負(fù)責(zé)將用戶需要執(zhí)行的作業(yè)拆分后分散到各個(gè)工作節(jié)點(diǎn)上, TaskTracker則負(fù)責(zé)接收分配過(guò)來(lái)的任務(wù), 并實(shí)時(shí)地向JobTracker匯報(bào)該節(jié)點(diǎn)上任務(wù)的運(yùn)行情況。

        本文提出的方法基于HDFS和MapReduce的原理實(shí)現(xiàn)了對(duì)于Lick線指數(shù)計(jì)算的并行化, 極大提高了對(duì)大規(guī)模光譜的處理效率。

        實(shí)驗(yàn)使用的數(shù)據(jù)是SDSS發(fā)布的DR8光譜數(shù)據(jù), 從中選取信噪比(signal to noise ratio, SNR)大于20的F, G, K型星, 去掉流量為NULL的數(shù)據(jù)后共284875條光譜數(shù)據(jù)。

        Hadoop適用于處理單個(gè)的大數(shù)據(jù)文件, 對(duì)于大量小文件的情況, 會(huì)嚴(yán)重影響Hadoop的擴(kuò)展性和性能。 所謂小文件是指文件的大小遠(yuǎn)遠(yuǎn)小于HDFS上block(默認(rèn)塊大小為64 MB)大小的文件。 首先, 在HDFS中, 所有的block, 文件以及索引目錄都以對(duì)象的形式存放在NameNode(名稱節(jié)點(diǎn))的內(nèi)存中, 每個(gè)對(duì)象約占150字節(jié)。 對(duì)于海量的小文件, 每個(gè)文件都要占用一個(gè)block, 則需要占用NameNode大量的內(nèi)存空間。 其次, 訪問(wèn)大量小文件的效率遠(yuǎn)遠(yuǎn)小于訪問(wèn)大文件, 因?yàn)樾枰粩嗟膹囊粋€(gè)DataNode(數(shù)據(jù)節(jié)點(diǎn))到另一個(gè)DataNode來(lái)讀取文件, 會(huì)大大降低訪問(wèn)的效率。 另外, MapReduce處理大量小文件的效率也要比處理相同大小的大文件的效率低很多, 因?yàn)獒槍?duì)每一個(gè)小文件就要啟動(dòng)一個(gè)task, 而啟動(dòng)task會(huì)耗費(fèi)很多時(shí)間, 這樣就造成啟動(dòng)和釋放task耗費(fèi)的時(shí)間遠(yuǎn)大于處理文件本身所需要的時(shí)間。

        實(shí)驗(yàn)中用到的FITS文件有將近20萬(wàn)個(gè), 每個(gè)只有170 kB左右。 在Hadoop平臺(tái)上直接對(duì)這些小文件處理會(huì)嚴(yán)重影響性能, 因此需要對(duì)這些FITS文件進(jìn)行預(yù)處理。 預(yù)處理的過(guò)程是從每個(gè)FITS文件中讀取出波長(zhǎng)和流量信息, 存放在同一個(gè)文本文件中。

        對(duì)每條光譜計(jì)算Lick線指數(shù)的過(guò)程是獨(dú)立的, 因此可以通過(guò)將大樣本數(shù)據(jù)分割后分布到多個(gè)節(jié)點(diǎn)上計(jì)算實(shí)現(xiàn)Lick線指數(shù)計(jì)算過(guò)程的并行化。 具體步驟如下:

        (1) 將輸入數(shù)據(jù)上傳到HDFS上。

        輸入數(shù)據(jù)是經(jīng)過(guò)預(yù)處理后存放在文本文件中的光譜數(shù)據(jù), 每一行代表一條光譜的信息, 包括PLATE-MJD-FIBERID, 波長(zhǎng), 流量。 輸入數(shù)據(jù)存放在HDFS上時(shí)會(huì)被分割成固定大小的數(shù)據(jù)塊。

        (2) Map階段。

        Hadoop將HDFS上的一個(gè)數(shù)據(jù)塊作為一個(gè)輸入分片, 并為每個(gè)輸入分片創(chuàng)建一個(gè)Map Task, 對(duì)于輸入分片中的每條記錄依次調(diào)用Map函數(shù)進(jìn)行處理。 本實(shí)驗(yàn)中Map函數(shù)的任務(wù)是根據(jù)每條光譜的波長(zhǎng)和流量計(jì)算其對(duì)應(yīng)的Lick線指數(shù), 輸出為每條光譜對(duì)應(yīng)的Lick線指數(shù)。

        (3) 將計(jì)算結(jié)果匯總后寫(xiě)入HDFS。

        Map階段結(jié)束后, Hadoop會(huì)調(diào)用默認(rèn)的Reduce函數(shù), 將Map函數(shù)的輸出匯總后寫(xiě)入HDFS中。

        本文以284 875條光譜數(shù)據(jù)作為輸入數(shù)據(jù), 分別在單機(jī)上和由一個(gè)主節(jié)點(diǎn)和8個(gè)從節(jié)點(diǎn)構(gòu)成的集群上運(yùn)行, 運(yùn)行時(shí)間的對(duì)比結(jié)果如表1所示。 可以看出, 在集群上計(jì)算Lick線指數(shù)效率比在單機(jī)上有明顯提高。

        表1 單機(jī)模式與Hadoop集群模式運(yùn)行時(shí)間比較

        3 Hadoop平臺(tái)下基于貝葉斯算法的光譜分類

        在分類問(wèn)題中, 利用貝葉斯公式, 以分類錯(cuò)誤最小為目標(biāo)的決策方法稱為基于最小錯(cuò)誤率的貝葉斯決策。 假設(shè)分類樣本有d種特征值x1,x2, …,xd, 則稱x=[x1,x2, …,xd]T為d維特征向量。 分類樣本的類別個(gè)數(shù)為c, 以w1,w2, …,wc表示各個(gè)類別, 每個(gè)類別wi對(duì)應(yīng)的先驗(yàn)概率為P(wi), 類條件概率密度為p(x|wi),P(x)為訓(xùn)練數(shù)據(jù)x的先驗(yàn)概率。 利用貝葉斯公式可以得到每個(gè)類別對(duì)應(yīng)的后驗(yàn)概率P(wi|x)

        (3)

        基于最小錯(cuò)誤率的貝葉斯決策的規(guī)則是: 如果P(wi|x)=maxP(wj|x),j=1, …,c, 則把x歸為wi類。 由于樣本的先驗(yàn)概率P(x)是獨(dú)立于wi的常量, 在很多實(shí)際應(yīng)用中, 計(jì)算類別的后驗(yàn)概率P(wi|x)時(shí)常常忽略P(x)。 因此基于最小錯(cuò)誤率的貝葉斯決策的規(guī)則又可以描述為: 如果p(x|wi)P(wi)=max{p(x|wj)P(wj)},j=1, …,c, 則x屬于類別wi。 在實(shí)際分類工作中, 總體的先驗(yàn)概率P(wi)和類條件概率密度p(x|wi)往往是未知的, 因此需要從收集的有限數(shù)量的樣本中估計(jì)P(wi)和p(x|wi)。

        本文首先計(jì)算恒星光譜的Lick線指數(shù)作為特征向量x, 然后利用基于最小錯(cuò)誤率的貝葉斯決策進(jìn)行分類, 將恒星光譜分為F, G, K三類, 分別以w1,w2,w3表示。 各個(gè)類別對(duì)應(yīng)的先驗(yàn)概率P(wi)通過(guò)計(jì)算訓(xùn)練樣本中每個(gè)類的比例來(lái)估計(jì), 類條件概率密度p(x|wi)則通過(guò)Parzen窗法來(lái)估計(jì)

        (4)

        其中,x是待分類的樣本, 即測(cè)試樣本,xi是屬于類別wi的訓(xùn)練樣本,n是訓(xùn)練樣本中屬于wi類的樣本個(gè)數(shù),h為窗寬,K為核函數(shù)。

        使用Parzen窗法對(duì)類條件概率密度進(jìn)行估計(jì)時(shí), 窗寬和核函數(shù)的選擇會(huì)對(duì)估計(jì)效果有影響。 由于高斯核函數(shù)(又稱為正態(tài)分布函數(shù))具有連續(xù)性, 利用Parzen窗法計(jì)算概率密度函數(shù)時(shí)是通過(guò)對(duì)高斯核函數(shù)的加和得到的, 因此計(jì)算出來(lái)的概率密度函數(shù)也具有連續(xù)性, 相應(yīng)的概率密度曲線也更光滑, 因此本文選擇高斯核函數(shù)作為核函數(shù)

        (5)

        本節(jié)使用的實(shí)驗(yàn)數(shù)據(jù)是由SDSS發(fā)布的DR8恒星光譜數(shù)據(jù), 選取F, G, K三種星型的光譜數(shù)據(jù)。 其中, 取信噪比為100的4660條光譜數(shù)據(jù)作為訓(xùn)練樣本, 信噪比大于20的284 875條光譜數(shù)據(jù)作為測(cè)試樣本。 根據(jù)第2節(jié)介紹的方法分別計(jì)算出訓(xùn)練樣本和測(cè)試樣本的Lick線指數(shù)作為本次實(shí)驗(yàn)的輸入數(shù)據(jù)。

        實(shí)驗(yàn)的目標(biāo)是基于MapReduce計(jì)算模型實(shí)現(xiàn)貝葉斯分類, 由于對(duì)每個(gè)測(cè)試樣本進(jìn)行貝葉斯分類的過(guò)程是獨(dú)立的計(jì)算過(guò)程, 與其他測(cè)試樣本不存在計(jì)算順序上的相關(guān)性, 根據(jù)HDFS和MapReduce計(jì)算模型的分布式原理, 可以將測(cè)試樣本分割后分布在多個(gè)節(jié)點(diǎn)上進(jìn)行貝葉斯決策的計(jì)算過(guò)程。 測(cè)試樣本數(shù)據(jù)存放在HDFS上時(shí)會(huì)被分割成固定大小的數(shù)據(jù)塊, 默認(rèn)為64MB。 默認(rèn)情況下, MapReduce將一個(gè)數(shù)據(jù)塊作為一個(gè)輸入分片, 并為每一個(gè)輸入分片創(chuàng)建一個(gè)Map Task實(shí)現(xiàn)分布式計(jì)算。 本次實(shí)驗(yàn)所用的數(shù)據(jù)所占的存儲(chǔ)空間較小, 只有135.5 MB, 但實(shí)際的樣本個(gè)數(shù)很大, 使用默認(rèn)的輸入分片并行效果并不明顯, 因此, 為了達(dá)到更好的并行效果, 實(shí)驗(yàn)將輸入分片設(shè)置為5 MB。 實(shí)驗(yàn)的具體步驟如下:

        (1) 將輸入數(shù)據(jù)上傳到HDFS上。

        輸入數(shù)據(jù)是存放在文本文件中的Lick線指數(shù), 每一行代表一條光譜的信息, 包括PLATE-MJD-FIBERID, Lick線指數(shù), 光譜類別。

        (2) Map階段。

        該階段會(huì)對(duì)輸入分片中的每一條測(cè)試數(shù)據(jù)依次調(diào)用Map函數(shù)進(jìn)行處理, Map函數(shù)的任務(wù)是讀取訓(xùn)練數(shù)據(jù)集, 然后對(duì)每個(gè)測(cè)試樣本數(shù)據(jù)計(jì)算其對(duì)應(yīng)的各個(gè)類別的后驗(yàn)概率, 并將后驗(yàn)概率最大值所對(duì)應(yīng)的類別作為該測(cè)試樣本數(shù)據(jù)所屬的類別。 Map階段的輸出是每一條光譜的唯一標(biāo)識(shí)PLATE-MJD-FIBERID以及通過(guò)貝葉斯決策得到的光譜類別。

        (3) 將計(jì)算結(jié)果匯總后寫(xiě)入HDFS。

        調(diào)用Hadoop默認(rèn)的Reduce函數(shù), 將Map函數(shù)的輸出匯總后直接寫(xiě)入HDFS中。

        實(shí)驗(yàn)對(duì)284 875條光譜數(shù)據(jù)進(jìn)行貝葉斯分類, 分別在單機(jī)上和由一個(gè)主節(jié)點(diǎn)和8個(gè)從節(jié)點(diǎn)構(gòu)成的集群上運(yùn)行, 得到的分類結(jié)果相同, 分類正確率約為84.4%(240 381/284 875), 運(yùn)行時(shí)間的對(duì)比結(jié)果如表2所示。 可以看出, 在集群上進(jìn)行貝葉斯分類效率比在單機(jī)上有明顯提高。

        表2 單機(jī)模式與Hadoop集群模式運(yùn)行時(shí)間比較

        使用Parzen窗法對(duì)類條件概率密度進(jìn)行估計(jì)時(shí), 窗寬不同會(huì)對(duì)估計(jì)效果有影響。 本文在[0.1, 2.0]范圍內(nèi), 以0.1為步長(zhǎng), 對(duì)不同的窗寬進(jìn)行了分類實(shí)驗(yàn), 得到的分類正確率如圖1所示。

        圖1 三種類型光譜在不同核窗寬度下的

        Fig.1 Bayesian classification accuracy of three type spectra with different kernel width

        從圖中可以看出, K類恒星的分類正確率受窗寬的影響不大, 而F和G類恒星對(duì)窗寬的變化比較敏感。 隨著窗寬的增加, G類恒星的分類正確率逐漸提高。 窗寬從0.1增加到0.7時(shí), F類恒星的分類正確率逐漸提高, 但在0.7~2.0區(qū)間內(nèi), F類恒星的分類正確率隨之降低。

        4 結(jié) 論

        對(duì)于海量光譜的情況, 利用分布式平臺(tái)實(shí)現(xiàn)光譜的自動(dòng)化分類是非常重要的一項(xiàng)工作。 本文研究了基于Lick線指數(shù), 利用貝葉斯算法對(duì)光譜進(jìn)行分類的方法, 并在Hadoop平臺(tái)下實(shí)現(xiàn)了Lick線指數(shù)的計(jì)算以及貝葉斯分類算法。 實(shí)驗(yàn)取得的分類正確率為84.4%, 8節(jié)點(diǎn)集群運(yùn)行時(shí)間約為單機(jī)模式下的6%。 這說(shuō)明在Hadoop平臺(tái)下可以明顯提高對(duì)海量光譜數(shù)據(jù)的分析和處理效率。 另外, 在利用貝葉斯進(jìn)行分類時(shí), 需要利用Parzen窗方法計(jì)算類條件概率密度, 而Parzen窗方法中不同的窗寬取值會(huì)影響最終分類效果, 通過(guò)實(shí)驗(yàn)研究了不同窗寬對(duì)各類恒星分類效果的影響, 實(shí)驗(yàn)證明, K類恒星的分類正確率受窗寬的影響不大, 而F和G類恒星對(duì)窗寬的變化比較敏感。

        在Hadoop環(huán)境下實(shí)現(xiàn)了貝葉斯決策方法的并行化并應(yīng)用于光譜的自動(dòng)分類, 取得了較好的效果, 后續(xù)工作中還可以實(shí)現(xiàn)其他算法的并行化, 應(yīng)用于光譜數(shù)據(jù)的自動(dòng)分類及參數(shù)測(cè)量, 進(jìn)一步提高海量光譜數(shù)據(jù)的分析和處理效率。

        [1] Sloan Digital Sky Survey: http://www.sdss.org/.

        [2] Jianmin Si, et al. Science China-Physics Mechanics & Astronomy, 2014, 57(1): 176.

        [3] LAMOST Experiment for Galactic Understanding and Exploration(LEGUE)—The Survey’s Science Plan. Research in Astronomy and Astrophysics, 2012, 12(7): 735.

        [4] Cui X, et al. Research in Astronomy and Astrophysics, 2012, 12(9): 1197.

        [5] Bu Yude, Chen Fuqiang, Pan Jingchang. New Astronomy, 2014, 28: 35.

        [6] Navarro S G, Corradi R L M, Mampaso A. Astronomy & Astrophysics, 2012, 538.

        [7] Daniel Thomas, Claudia Maraston, Jonas Johansson. Monthly Notices of the Royal Astronomical Society, 2011, 412(4): 2183.

        [8] Jonas Johansson, Daniel Thomas, Claudia Maraston. Monthly Notices of the Royal Astronomical Society, 2010, 406(1): 165.

        [9] Franchini M, et al. Astrophysical Journal, 2011, 730(2): 117.

        A Method of Stellar Spectral Classification Based on Map/Reduce Distributed Computing

        PAN Jing-chang1, WANG Jie1, JIANG Bin1, LUO A-li1, 2, WEI Peng2, ZHENG Qiang3

        1. School of Mechanical, Electrical & Information Engineering, Shandong University, Weihai, Weihai 264209, China

        2. Key Laboratory of Optical Astronomy, National Astronomical Observatories, Chinese Academy of Sciences, Beijing 100012, China

        3. College of Computer and Control Engineering, Yantai University, Yantai 264005, China

        Celestial spectrum contains a great deal of astrophysical information. Through the analysis of spectra, people can get the physical information of celestial bodies, as well as their chemical composition and atmospheric parameters. With the implementation of LAMOST, SDSS telescopes and other large-scale surveys, massive spectral data will be produced, especially along with the formal operation of LAMOST, 2 000 to 4 000 spectral data will be generated each observation night. It requires more efficient processing technology to cope with such massive spectra. Automatic classification of stellar spectra is a basic content of spectral processing. The main purpose of this paper is to research the automatic classification of massive stellar spectra. The Lick index is a set of standard indices defined in astronomical spectra to describe the spectral intensity of spectral lines, which represent the physical characteristics of spectra. Lick index is a relatively wide spectral characteristics, each line index is named after the most prominent absorption line. In this paper, the Bayesian method is used to classify stellar spectra based on Lick line index, which divides stellar spectra to three subtypes: F, G, K. First of all, Lick line index of spectra is calculated as the characteristic vector of spectra, and then Bayesian method is used to classify these spectra. For massive spectra, the computation of Lick indices and the spectral classification using Bayesian decision method are implemented on Hadoop. With use of the high throughput and good fault tolerance of HDFS, combined with the advantages of MapReduce parallel programming model, the efficiency of analysis and processing for massive spectral data have been improved significantly. The main innovative contributions of this thesis are as follows. (1) Using Lick indices as the characteristic to classify stellar spectra based on Bayesian decision method. (2) Implementing parallel computation of Lick indices and parallel classification of stellar spectra using Bayesian based on Hadoop MapReduce distributed computing framework.

        Lick line index; Stellar spectral classification; Hadoop

        Mar. 2, 2015; accepted Aug. 15, 2015)

        2015-03-02,

        2015-08-15

        國(guó)家自然科學(xué)基金項(xiàng)目(U1431102, 11473019)資助

        潘景昌, 1963年生, 山東大學(xué)(威海)機(jī)電與信息工程學(xué)院教授 e-mail: pjc@sdu.edu.cn

        P145.4

        A

        10.3964/j.issn.1000-0593(2016)08-2651-04

        猜你喜歡
        海量恒星貝葉斯
        一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
        (18)刺殺恒星
        海量快遞垃圾正在“圍城”——“綠色快遞”勢(shì)在必行
        恒星的演化
        恒星不恒
        奧秘(2018年10期)2018-10-25 05:38:56
        貝葉斯公式及其應(yīng)用
        一個(gè)圖形所蘊(yùn)含的“海量”巧題
        基于貝葉斯估計(jì)的軌道占用識(shí)別方法
        一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        IIRCT下負(fù)二項(xiàng)分布參數(shù)多變點(diǎn)的貝葉斯估計(jì)
        欧美在线综合| 伊甸园亚洲av久久精品| 久久精品国产亚洲av电影网| 熟妇五十路六十路息与子| 亚洲av午夜成人片精品| 久久狼人国产综合精品| 欧美亚洲一区二区三区| 真实国产老熟女粗口对白| 九色91精品国产网站| 亚洲激情一区二区三区视频| 成午夜福利人试看120秒| 永久免费观看国产裸体美女| a在线免费| 美腿丝袜中文字幕在线观看| 激情综合五月开心婷婷| 柠檬福利第一导航在线| 国产成人无码A区在线观| 美女人妻中文字幕av| 久青草影院在线观看国产| 无码精品人妻一区二区三区人妻斩| 国产综合久久久久影院| 成人爽a毛片免费网站中国 | 色婷婷av一区二区三区不卡| 中文字幕国产精品一二三四五区| 尤物视频在线观看| 欧美日本道免费二区三区| 日本高清不卡二区三区| 国产色欲av一区二区三区 | 在线亚洲国产一区二区三区| 午夜久久久久久禁播电影| 被群cao的合不拢腿h纯肉视频| 久久久亚洲精品蜜桃臀| 亚洲一区二区三区免费网站| 中文字幕久久熟女蜜桃 | 国产va精品免费观看| 麻豆国产精品久久天堂| 高潮内射双龙视频| 一本大道香蕉最新在线视频| 中文字幕人成乱码中文| 亚洲精品无码专区在线在线播放 | 国产精品毛片va一区二区三区 |