亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        線指數(shù)特征空間內(nèi)恒星光譜離群數(shù)據(jù)挖掘與分析

        2016-07-12 12:54:54王光沛潘景昌衣振萍
        光譜學與光譜分析 2016年10期
        關鍵詞:巡天離群恒星

        王光沛,潘景昌*,衣振萍,韋 鵬,姜 斌

        1. 山東大學(威海)機電與信息工程學院,山東 威海 264209

        2. 中國科學院光學天文重點實驗室,國家天文臺,北京 100012

        線指數(shù)特征空間內(nèi)恒星光譜離群數(shù)據(jù)挖掘與分析

        王光沛1,潘景昌1*,衣振萍1,韋 鵬2,姜 斌1

        1. 山東大學(威海)機電與信息工程學院,山東 威海 264209

        2. 中國科學院光學天文重點實驗室,國家天文臺,北京 100012

        大規(guī)模光譜巡天將產(chǎn)生海量的光譜數(shù)據(jù),為搜尋一些奇異甚至于未知類型的光譜提供了機會,對這些特殊天體的研究有助于揭示宇宙的演變規(guī)律和生命起源,巡天數(shù)據(jù)的離群數(shù)據(jù)挖掘有助于這些特殊的光譜的發(fā)現(xiàn)。利用線指數(shù)對光譜數(shù)據(jù)進行降維能夠在盡可能多的保留光譜物理特征的同時,有效解決高維光譜數(shù)據(jù)聚類分析中運算復雜度較高的問題。提出了基于線指數(shù)特征的海量恒星光譜離群數(shù)據(jù)挖掘及分析的方法,以恒星光譜的Lick線指數(shù)作為光譜數(shù)據(jù)的特征,利用聚類搜尋離群數(shù)據(jù)的方法在海量光譜巡天數(shù)據(jù)搜尋離群數(shù)據(jù),以此為基礎并給出線指數(shù)特征空間內(nèi)離群光譜數(shù)據(jù)的分析方法。實驗結果證明:(1)以線指數(shù)作為光譜的特征值能快速的完成對高維光譜數(shù)據(jù)的離群數(shù)據(jù)挖掘,可以解決高維光譜數(shù)據(jù)運算復雜度高的問題;(2)該方法是在聚類結果上進行的離群數(shù)據(jù)挖掘,能夠有效的挖掘出數(shù)量較少的發(fā)射線恒星、晚M型恒星、極貧金屬星、缺失數(shù)據(jù)光譜等數(shù)據(jù);(3)線指數(shù)特征空間的離群數(shù)據(jù)挖掘可以得到線指數(shù)特征空間內(nèi)特殊恒星的發(fā)現(xiàn)規(guī)則。本文所提出的基于線指數(shù)特征的離群數(shù)據(jù)挖掘及分析方法可以應用到巡天數(shù)據(jù)的相關研究中。

        Lick線指數(shù);離群數(shù)據(jù)挖掘;恒星光譜

        引 言

        隨著LAMOST[1-3]開始正式巡天,每天將會觀測到上萬條光譜數(shù)據(jù)。巡天數(shù)據(jù)中包含一些新的、特殊的天體,對這些數(shù)據(jù)的研究有助于揭示宇宙的演變規(guī)律和生命起源。

        特殊天體光譜數(shù)據(jù)與其他光譜數(shù)據(jù)在行為或者模型上不一致,這些數(shù)據(jù)被稱為巡天數(shù)據(jù)中的離群數(shù)據(jù),巡天數(shù)據(jù)離群數(shù)據(jù)挖掘就是對這些數(shù)據(jù)的挖掘[4]。

        本文提出了基于線指數(shù)特征的海量恒星光譜離群數(shù)據(jù)挖掘及分析的方法,以恒星光譜的Lick線指數(shù)作為光譜數(shù)據(jù)的特征,利用聚類搜尋離群數(shù)據(jù)的方法在海量光譜巡天數(shù)據(jù)搜尋離群數(shù)據(jù),以此為基礎并給出線指數(shù)特征空間內(nèi)離群光譜數(shù)據(jù)的分析方法。

        1 背景介紹

        1.1 Lick線指數(shù)

        線指數(shù)是光譜數(shù)據(jù)的物理特征值,一般是一組數(shù)據(jù)。Lick/IDS線指數(shù)(簡稱Lick線指數(shù))是線指數(shù)的一種,定義了25條光學波段的吸收線指數(shù),包括19條原子吸收線指數(shù)以及6條分子吸收線指數(shù)。Lick線指數(shù)是一個相對來說較寬的光譜特征,用Lick線指數(shù)作為巡天數(shù)據(jù)的特征值能夠保留光譜數(shù)據(jù)的更多物理特征。

        文獻[5-6]中給出了Lick線指數(shù)的完整定義及描述。

        1.2 離群數(shù)據(jù)挖掘

        離群挖掘[7]根據(jù)是否需要專家進行提前標記正常數(shù)據(jù)或者標記離群數(shù)據(jù)的模型可以分為三種類型:監(jiān)督方法、無監(jiān)督方法以及半監(jiān)督方法。

        離群挖掘的過程是基于數(shù)據(jù)的不同假設的前提下進行的,根據(jù)對數(shù)據(jù)的不同假設可以把離群數(shù)據(jù)挖掘的方法分為統(tǒng)計學方法、基于近鄰性的方法、基于聚類的方法。本文使用的離群數(shù)據(jù)挖掘方法是無監(jiān)督聚類的方法,該方法基于近鄰性的算法想法,假設所有的數(shù)據(jù)都具有相關性,而離群點屬于小或者稀疏的簇,或者不屬于任何簇。

        1.3 聚類算法[8]

        聚類算法是用來發(fā)現(xiàn)數(shù)據(jù)分布規(guī)律率以及隱藏知識的重要算法,該算法將相似的數(shù)據(jù)聚集到一起的過程,未聚集在一起的數(shù)據(jù)相互有較大的差異性。

        聚類算法可以分為劃分聚類算法、層次聚類算法、基于密度的聚類算法、基于網(wǎng)格的聚類算法、基于模型的聚類算法、基于約束的聚類算法等。

        劃分聚類算法在進行數(shù)據(jù)的聚類之前需要給出聚類的數(shù)目或者給出每個類的簇心,通過不斷的迭代,將各個點聚集到相應數(shù)目的簇。

        k均值算法是聚類算法中的經(jīng)典算法,屬于劃分聚類算法。該算法的思想是把n個對象根據(jù)屬性特征劃分到k個(k

        2 實驗部分

        利用Lick線指數(shù)對巡天光譜數(shù)據(jù)進行降維,使用k均值聚類算法完成恒星巡天光譜數(shù)據(jù)的聚類并對聚類結果進行離群數(shù)據(jù)挖掘及分析。實驗結果證明該方法能夠快速準確地挖掘出巡天數(shù)據(jù)中特殊的恒星光譜數(shù)據(jù)和錯誤的數(shù)據(jù)。

        2.1 數(shù)據(jù)

        本文實驗從LAMOST DR2數(shù)據(jù)中選取了10萬條g波段和r波段的信噪比大于5的恒星光譜數(shù)據(jù)。數(shù)據(jù)集中包含F(xiàn)型、G型、K型以及M型恒星,實驗數(shù)據(jù)中各個子類的樣本數(shù)量如圖1所示。

        圖1 實驗數(shù)據(jù)分布

        2.2 聚類步驟

        (1)計算每條fits文件中光譜流量對應的線指數(shù);(2)對實驗數(shù)據(jù)的25個線指數(shù)進行標準正態(tài)分布歸一化的處理,消除不同線指數(shù)之間的差異;(3)使用k均值算法,使用歐式距離,將10萬條數(shù)據(jù)聚為k=100個簇。

        2.3 離群數(shù)據(jù)挖掘及分析

        篩選100個簇中的樣本數(shù)量最少的20個簇中的數(shù)據(jù),這些簇樣本數(shù)量都在20以下,以此數(shù)據(jù)作為離群數(shù)據(jù)。分析這些簇中數(shù)據(jù)是否屬于特殊數(shù)據(jù),并從線指數(shù)的角度分析這些數(shù)據(jù)聚集到一起的原因,進而找到特殊類型數(shù)據(jù)與線指數(shù)的對應關系。

        計算所有簇中的每個波長采樣點的流量平均值,記為均值譜。均值譜的特征可以代表簇中樣本的特征,分析均值譜的特征可以加快對數(shù)據(jù)的理解和挖掘。為消除不同光譜尺度上的差異,在計算均值譜之前,對所有光譜進行二范數(shù)歸一化處理。

        對聚類結果進行離群數(shù)據(jù)挖掘過程中查看了所有簇的均值譜,對于均值譜異常的簇,分析簇中數(shù)據(jù)的特點以及形成原因。

        3 結果與討論

        本文方法有效的挖掘出大量特殊及稀少恒星光譜,限于篇幅限制,下面將對幾類典型特殊恒星進行分析。

        3.1 發(fā)射線恒星

        明顯的吸收線或者分子吸收帶是大部分恒星光譜的主要特征。光譜的發(fā)射線特征只有一部分恒星存在,這部分恒星一般對應一些非常特殊的目標,如激變變星、Herbig Ae/Be和行星狀星云等。

        聚類結果中,第16簇的平均光譜中表現(xiàn)出非常明顯的發(fā)射線特征(如圖2所示)。和正常恒星相比,第16簇的均值譜有非常強的表征吸積過程的氫發(fā)射線,這些特征都是行星狀星云存在的。圖3展示了第16簇中所有光譜,簇中數(shù)據(jù)都有非常明顯的發(fā)射線特征,特別在氫的發(fā)射線附近有非常強的表征吸積過程,證明這個簇中的所有光譜都是比較稀有的行星狀星云。

        圖2 第16簇中平均光譜及線指數(shù)分布

        圖2給出了第16簇中光譜數(shù)據(jù)線指數(shù)的分布情況,該簇中光譜的G4300以及Fe4668這兩條線的線指數(shù)相比于其他線數(shù)值較低,這個特點對于發(fā)現(xiàn)行星狀星云有很重要的作用。

        3.2 晚M型恒星

        晚M型的恒星在恒星數(shù)據(jù)比例很小。查看所有簇的均值譜可以發(fā)現(xiàn)第57簇的均值譜(如圖3所示)符合晚M型恒星光譜的特點。統(tǒng)計該簇樣本光譜型可以發(fā)現(xiàn)第57簇聚集了10萬條數(shù)據(jù)中大部分晚M型數(shù)據(jù)。

        文獻[9]指出晚M型的恒星在TiO線的線指數(shù)高于其他線指數(shù)。在圖4中可以看到該簇光譜數(shù)據(jù)的線指數(shù)均值在TiO線有較高的峰值,符合已知規(guī)律,利用該特征可以加快晚M型恒星的查找工作。

        圖4 第57簇中平均光譜及線指數(shù)分布

        3.3 極貧金屬星

        貧金屬星是其大氣中金屬元素豐度十分低的一類恒星,對該類恒星的研究有助于認識宇宙大爆炸的性質(zhì)、了解第一代恒星的性質(zhì)及研究銀河系化學演化歷史,發(fā)現(xiàn)此類恒星對天文研究工作具有重要意義。LAMOST巡天獲取了海量銀河系恒星光譜數(shù)據(jù),但是在DR1的數(shù)據(jù)中,科研工作者只挑選出了100余顆(極端)貧金屬星候選體,該類星體是十分稀少的星體[10]。

        極貧金屬星在波長5 890 ?附近有一條很明顯的吸收線,可以發(fā)現(xiàn)極小簇第40簇和極小簇第95簇的均值譜(如圖5所示)符合這個特征。

        第40簇以及第95簇都是單點簇,即這兩個簇中都只含有一個光譜數(shù)據(jù),說明聚類過程中,基于Lick線指數(shù)特征的聚類方法對極貧金屬星的特征十分敏感,能夠?qū)⑦@類數(shù)據(jù)完全分離出來。

        這兩個簇所包含的兩條光譜的Fe5682這條線的線指數(shù)數(shù)值較低,該特征可以應用到極貧金屬星的發(fā)現(xiàn)工作中。

        圖5 第40簇及95簇的平均光譜

        3.4 缺失數(shù)據(jù)光譜數(shù)據(jù)

        由于巡天望遠鏡的拍攝過程中出現(xiàn)的不穩(wěn)定情況,以及光譜拼接過程中出現(xiàn)的錯誤,巡天數(shù)據(jù)中的某些波段就會出現(xiàn)流量的突然消失或者流量的不穩(wěn)定,這些數(shù)據(jù)就是斷譜數(shù)據(jù)[11],在后續(xù)研究前需要先將這些數(shù)據(jù)挑選出來。

        第48簇的均值譜(如圖7所示)出現(xiàn)了斷譜數(shù)據(jù)的特征,分析該簇的每條光譜,可以發(fā)現(xiàn)該簇所有數(shù)據(jù)均為斷譜數(shù)據(jù)。分析第48簇的線指數(shù)特點可以發(fā)現(xiàn),斷譜數(shù)據(jù)造成了簇中數(shù)據(jù)某些線的線指數(shù)出現(xiàn)了異常的過大過小,這是斷譜數(shù)據(jù)線指數(shù)的特征,該特征可以應用到斷譜光譜的過濾工作中。

        圖6 第40簇及95簇的平均光譜及線指數(shù)分布

        圖7 第48簇中平均光譜及線指數(shù)分布

        4 結 論

        提出了一種基于線指數(shù)特征的離群數(shù)據(jù)挖掘及分析方法。該方法利用線指數(shù)對巡天恒星光譜數(shù)據(jù)進行降維,使用k均值算法對數(shù)據(jù)進行聚類分析,然后以聚類分析結果為基礎進行離群數(shù)據(jù)挖掘。該方法能夠快速有效的挖掘特殊及稀有恒星光譜以及缺失數(shù)據(jù)光譜,利用給出的離群分析方法可以在在輔助離群數(shù)據(jù)分析同時發(fā)現(xiàn)線指數(shù)特征空間內(nèi)特殊恒星的發(fā)現(xiàn)的規(guī)則。實驗證明,該挖掘和分析方法可以有效地應用于諸如LAMOST和SDSS等光譜巡天數(shù)據(jù)的離群數(shù)據(jù)挖掘及分析中。

        [1] Cui X, Zhao Y, Chu Y, et al. Research in Astron. Astrophys., 2012, 12(9): 1197.

        [2] Luo A, et al. Astrophys., 2012, 12(9): 1243.

        [3] Zhao G, et al. Research in Astron. Astrophys., 2012, 12(7): 723.

        [4] Wei P, Luo A, Li Y, et al. Monthly Notices of the Royal Astronomical Society, 2013, 431(2): 1800.

        [5] Guy Worthey, Faber S M, et al. The Astrophysical Journal Supplement Series, 1994, 94: 687.

        [6] Trager S C, Guy Worthey, et al. Astrophysical Journal Supplement Series, 1998, 116(1): 1.

        [7] Koteeswaran S, Visu P, Janet J. American Journal of Applied Sciences, 2012, 9(2).

        [8] YAN Tai-sheng, ZHANG Yan-xia, ZHAO Yong-heng, et al(嚴太生, 張彥霞, 趙永恒, 等). Progress in Astronomy(天文學進展), 2010, 28(2): 112.

        [9] Woolf V M, West A A. Monthly Notices of the Royal Astronomical Society, 2012, 422(2): 1489.

        [10] Li H N, Zhao G, Christlieb N, et al. Astrophysical Journal, 2015, 798(2).

        [11] Comerford L A, Kougioumtzoglou I A, Beer M, et al. An Artificial Neural Network Based Approach for Power Spectrum Estimation and Simulation of Stochastic Processes Subject to Missing Data[C]// Computational Intelligence for Engineering Solutions (CIES), 2013 IEEE Symposium on. IEEE, 2013. 118.

        (Received Jul. 22, 2015; accepted Nov. 28, 2015)

        *Corresponding author

        Outlier Data Mining and Analysis of LAMOST Stellar Spectra in Line Index Feature Space

        WANG Guang-pei1, PAN Jing-chang1*, YI Zhen-ping1, WEI Peng2, JIANG Bin1

        1. School of Mechanical, Electrical & Information Engineering, Shandong University, Weihai, Weihai 264209, China

        2. Key Laboratory of Optical Astronomy, National Astronomical Observatories, Chinese Academy of Sciences, Beijing 100012, China

        Large scale spectrum survey will produce mass spectral data and offer chances for searching rare and unknown types of spectra, which is contribute to revealing the evolution law of the universe and the origin of life. Data mining in outlier data in sky survey can serve the purpose of finding special spectra. Line index can be used in spectra data dimension reduction, keeping the spectral physical characteristics as much as possible, and at the same time, it can effectively solve the high dimensional spectral data clustering analysis in the high computation complexity. This paper proposed a method outlier data mining and analysis for massive stellar spectrum survey data based on line index characteristics, according to this, an outlier spectral data analysis method was proposed using line index characteristics space. Experimental results demonstrated that (1) using line index as the characteristic value of the spectrum can quickly perform the outlier data mining for high dimensional spectral data, and it can solve the problem of high computation complexity of the high dimensional spectral data. (2) this outlier data mining method was conducted based on the clustering results; it can effectively finding out emission stars, late type stars, late M type stars, extremely poor metal stars, and even finding spectra data missing certain data. (3) outlier data mining in line index feature space can help to analysis of rules of special stars found in the feature space. The mothed proposed in this paper based on the characteristics of line index outlier data mining and analysis method can be applied to the study of survey data.

        Lick line index, Outlier datamining, Stellar spectra

        2015-07-22,

        2015-11-28

        國家自然科學基金項目(U1431102,11473019)資助

        王光沛, 1990年生,山東大學(威海)碩士研究生 e-mail: wangguangpei@live.com *通訊聯(lián)系人 e-mail: pjc@sdu.edu.cn

        P145.4

        A

        10.3964/j.issn.1000-0593(2016)10-3364-05

        猜你喜歡
        巡天離群恒星
        中國的巡天利器有多強
        崔向群:巡天望遠追星人
        科學大眾(2022年17期)2022-09-22 01:37:50
        (18)刺殺恒星
        恒星的演化
        恒星不恒
        奧秘(2018年10期)2018-10-25 05:38:56
        “巡天·觀地·測月”夢想實現(xiàn)——“嫦娥三號”最新科研成果掃描
        嫦娥三號進入第33月夜“測月、巡天、觀地”成果豐碩
        太空探索(2016年9期)2016-07-12 10:00:00
        離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷售潛在客戶中的應用
        離群的小雞
        應用相似度測量的圖離群點檢測方法
        91社区视频在线观看| 久久精品国产99国产精品亚洲| 国产精品99久久久久久猫咪| 久久无码人妻一区二区三区午夜 | 丰满人妻中文字幕一区三区| 亚洲婷婷五月综合狠狠爱| 国产精品白浆一区二小说| 国产360激情盗摄一区在线观看 | 日本免费一区二区三区| 伊香蕉大综综综合久久| 青青草成人免费播放视频| 天堂8在线新版官网| 少女高清影视在线观看动漫| 免费国产一级片内射老| 激情五月开心五月av| 欧美老熟妇乱xxxxx| 免费无码成人av在线播放不卡| 国产av无码专区亚洲aⅴ| 亚洲国产综合精品中久| 欧美日韩国产精品自在自线| 欧美日韩人妻| 国产一级r片内射视频播放| 亚洲成人av一二三四区| 亚洲av无码精品色午夜在线观看| 韩国精品一区二区三区| a级三级三级三级在线视频| 国产毛多水多高潮高清| 一道久在线无码加勒比| 国产一区二区三区观看视频| 与漂亮的女邻居少妇好爽| 国产美女在线精品免费观看| 自拍亚洲一区欧美另类| av一区二区三区综合网站| 亚洲中文字幕久久精品无码a| 国产精品久久久久久久久KTV| 人妻熟女中文字幕在线视频 | 日韩视频第二页| av天堂一区二区三区精品| 日产精品99久久久久久| 少妇的肉体k8经典| 天堂视频一区二区免费在线观看|