亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SVM的食雙星光變曲線自動分類算法*

        2019-04-19 08:58:36袁慧宇戴海峰楊遠貴
        天文研究與技術(shù) 2019年2期
        關(guān)鍵詞:光變原始數(shù)據(jù)特征值

        袁慧宇,趙 娟,戴海峰,楊遠貴

        (1. 淮北師范大學信息學院,安徽 淮北 235000;2. 淮北師范大學,安徽 淮北 235000)

        在信息與計算技術(shù)等新興科技的驅(qū)動下,天文研究領(lǐng)域已從傳統(tǒng)的單目標觀測和手工處理數(shù)據(jù)轉(zhuǎn)向多目標觀測和自動數(shù)據(jù)處理[1]。大量巡天項目的開展為天文學研究提供了海量數(shù)據(jù),如ROTSE,ASAS,SuperWASP,MACHO,OGLE,SDSS,LAMOST和Kepler等,由計算機自動完成目標交叉證認[2]、觀測、實時數(shù)據(jù)處理和分析[3]等,獲得光譜、測光、周期以及類型等數(shù)據(jù)。隨著數(shù)據(jù)量的進一步增大,單服務器難以實時完成數(shù)據(jù)處理,分布式計算被應用到數(shù)據(jù)處理中提高處理效率[4]。面對海量天文數(shù)據(jù),必須借助支持向量機、神經(jīng)網(wǎng)絡、遺傳算法等人工智能算法對數(shù)據(jù)進行分析和處理,挖掘有用的信息[5]。例如:基于隨機森林方法對SDSS和XMM數(shù)據(jù)的天體進行分類[6];基于機器學習方法尋找射電脈沖信號[7];基于密近雙星的Roche勢對雙星進行分類[8]等,這些標志著天文學研究邁入了大數(shù)據(jù)時代。

        通過觀測獲得的食雙星光變曲線,可以快速確定其類型,搜尋出具有特殊演化意義的雙星系統(tǒng),為研究一些特殊天體和現(xiàn)象提供了重要的研究窗口。這對豐富和發(fā)展雙星的研究內(nèi)容,通過食雙星認識星團和星系的形成和演化具有重要的意義。文[9]使用多項式擬合光變曲線,根據(jù)擬合后曲線的主極小和次極小的寬度和深度給出光變曲線類型;文[10-11]使用傅里葉變換提取光變曲線數(shù)據(jù)的頻率特征,根據(jù)所得頻率特征進行分類,但在算法實現(xiàn)上使用了軟件計算的完美光變曲線數(shù)據(jù)進行參數(shù)設置,使用特征量較少,未考慮儀器測試誤差、天氣原因等引起的數(shù)據(jù)波動影響,因此僅能完成對光變曲線進行初步分類,不能識別載有特殊天文現(xiàn)象的光變曲線。

        本文提出一種基于支持向量機(Support Vector Machine, SVM)的食雙星光變曲線自動分類算法,以快速傅里葉變換所得的頻率信號為特征量,對支持向量機模型進行訓練獲得能自動分類的模型。

        1 自動分類算法

        食雙星光變曲線可分為EA,EB和EW 3種,針對分類需求提出分類方法如圖1。第1步對原始數(shù)據(jù)進行預處理,歸一化原始數(shù)據(jù)并減小其中噪聲;第2步通過快速傅里葉變換提取頻率信號作為特征數(shù)據(jù);第3步使用支持向量機算法訓練分類模型并測試;第4步對流程優(yōu)化,獲得最優(yōu)的分類模型。

        1.1 數(shù)據(jù)預處理

        自動化全天巡視(All Sky Automated Survey, ASAS)用理論光變曲線所得特征進行分類,未考慮實測數(shù)據(jù)中的噪聲影響[12]。而本文使用食雙星目錄與圖集[注]http://caleb.eastern.edu(Catalog and AtLas of Eclipsing Binaries, CALEB)實測數(shù)據(jù)(包括相位和較差星等)。由于天氣因素以及儀器誤差等影響,實測數(shù)據(jù)不可避免地帶有噪聲影響。為了降低噪聲的影響,首先進行預處理。

        (1)歸一化,相位數(shù)值在[0, 1]之間,不需要處理。較差星等可通過(1)式歸一化到[0, 1]之間。

        (1)

        其中,m′為歸一化后的較差星等;m為原始較差星等;mmax和mmin分別為較差星等最大值和最小值。

        圖1 光變曲線分類方法

        Fig.1 Automatic classification algorithm scheme for light curve

        (2)

        (3)

        1.2 光變曲線特征提取

        原始光變曲線為時間序列數(shù)據(jù),需將其特征提取出來用于分析。常用特征包括主極小和次極小差值、主極小波谷半高全寬等。本文采用光變曲線的頻率特性作為特征值。實際實現(xiàn)時可用快速離散傅里葉變換將相位/較差星等變?yōu)轭l域信號,將頻域信號與對應光變曲線類型組成特征數(shù)據(jù)集{f0,f1, ...,fd,T},其中fi(i=0, 1, ...,d)為頻率分量,T為光變曲線類型。

        1.3 支持向量機分類算法

        支持向量機是建立在統(tǒng)計學習理論和結(jié)構(gòu)風險最小原理基礎上的一種有監(jiān)督的機器學習算法,基本思想是將特征值映射到高維向量空間,獲得可將不同類數(shù)據(jù)分割的超平面,該算法常作為自動分類的機器學習算法。在實際使用中,通常將原始數(shù)據(jù)分為訓練集和測試集。使用訓練集訓練支持向量機模型,獲得映射函數(shù)和分割平面(即分類模型),使用測試集驗證所得模型。

        2 實驗與結(jié)果分析

        算法實現(xiàn)采用Python編程。Python是一種面向?qū)ο蟮慕忉屝陀嬎銠C編程語言,由于其易用性、簡潔性和可擴展性,成為最受歡迎的程序設計語言之一。Python擁有大量的科學計算擴展庫,可用于實現(xiàn)本文提出的算法。

        2.1 分類實驗實現(xiàn)

        第1步進行原始數(shù)據(jù)下載和收集。本文使用Urllib3和BeautifulSoup庫自動分析CALEB網(wǎng)頁數(shù)據(jù)并存儲網(wǎng)站提供的300個變星的坐標、星名、類型及747條光變曲線,但網(wǎng)站未給出光變曲線類型。隨后通過變星坐標與變星總表[注]http://www.sai.msu.su/gcvs/gcvs/intr.htm(General Catalogue of Variable Stars new version, GCVS)數(shù)據(jù)交叉對比獲得光變曲線類型。

        第2步實現(xiàn)光變曲線數(shù)據(jù)預處理。這里以BE Vul(EA),YY Cet(EB)和TW Cet(EW)3個變星的V波段數(shù)據(jù)為例。原始數(shù)據(jù)如圖2(a)。由圖2(a)可知,由于觀測設備等限制,觀測數(shù)據(jù)質(zhì)量較差。表現(xiàn)為數(shù)據(jù)點個數(shù)不一致、浮動較大、數(shù)據(jù)較離散等。將相位均分為間隔0.005的新相位點,應用歸一化/均值濾波/線性插值后所得數(shù)據(jù)如圖2(b)。由圖2(b)可知,預處理保留了原始數(shù)據(jù)的變化趨勢,相對原始數(shù)據(jù)更加平滑。

        圖2 原始數(shù)據(jù)(a)與預處理后數(shù)據(jù)(b)
        Fig.2 Original data (a) and pre processed data (b)

        第3步使用Numpy和Scipy庫對預處理后的數(shù)據(jù)進行快速傅里葉變換完成頻域變化。以上文所述3顆星數(shù)據(jù)為例,所得頻率值如圖3。其中橫坐標代表信號諧波頻率。

        第4步進行支持向量機模型訓練。使用上述方法把747條光變曲線處理后獲得數(shù)據(jù)集{f0,f1, ...,fd,T}。首先測試頻率分量選擇對模型訓練的影響。用[fi,fj]表示從fi到fj的連續(xù)頻率分量集合,用{fx,fy}表示fx,fy獨立的頻率分量集合。支持向量機模型選用線性核函數(shù),訓練集為373條數(shù)據(jù),測試集為374條數(shù)據(jù),懲罰因子設為1.0。其中,核函數(shù)是將輸入空間映射到高維空間的函數(shù)算法,懲罰因子是對錯誤分類的容忍度,降低容忍度能獲得更好的訓練結(jié)果,但也可能產(chǎn)生過擬合。最終的結(jié)果如圖 4。由圖4可知,選取偶次諧波作為特征值時,分類正確率較高(圖中數(shù)據(jù)a、b和c),即使僅用f0也可獲得78.6%的分類正確率(圖中數(shù)據(jù)a)。選擇奇次諧波分量作為特征值時,正確率最高僅為57.8%(圖中數(shù)據(jù)d、e),說明奇次諧波分量不適合作為特征值。比較圖中結(jié)果f到i,正確率隨著選取頻率數(shù)量的增多而上升,說明選擇更多頻率分量有助于優(yōu)化分類結(jié)果。訓練集和測試集正確率相差小于2%,說明訓練結(jié)果有效,且未達到過度訓練。綜合以上結(jié)果,偶次諧波分量適用于作為特征值。

        圖3 快速傅里葉變換的結(jié)果
        Fig.3 Result of FFT

        a{f0},b{f0,f2},c{f0,f2,f4},d{f1,f3},e{f1,f3,f5},f[f0,f2],g[f0,f4],h[f0,f6],i[f0,f8]

        圖4 分類正確率與特征值的關(guān)系
        Fig.4 Relationship between classifying accuracy and characteristic value

        2.2 支持向量機優(yōu)化

        優(yōu)化支持向量機參數(shù)設置以獲得更好的結(jié)果。支持向量機參數(shù)主要包括核函數(shù)選擇和懲罰因子設置。選擇不同核函數(shù)和懲罰因子,使用數(shù)據(jù)集{f0,f2,f4,f6,f8}作為特征值,所得結(jié)果如圖5。由圖5可知,4種核函數(shù)按優(yōu)劣順序依次為linear,rbf,sigmoid和poly。提高懲罰因子初期能顯著提升linear,rbf和sigmoid的分類正確率,但在某一閾值后正確率達到穩(wěn)定,懲罰因子對poly無影響。當選用linear核函數(shù),懲罰因子設置為2.0時,獲得最優(yōu)分類模型,分類正確率分別為89.8%(訓練集)和84.8%(測試集)。保存已訓練好的模型用于其他新的光變曲線數(shù)據(jù)分類與識別。

        2.3 實驗結(jié)果分析與數(shù)據(jù)修正

        由結(jié)果可知,訓練所得模型正確率高,能滿足分類需求,但仍有分類錯誤的數(shù)據(jù)。下面對分類錯誤的數(shù)據(jù)進行分析,找出分類錯誤的原因。

        將分類錯誤的數(shù)據(jù)進行整理和分析,結(jié)果表明分類錯誤主要來自以下2方面:(1)兩個網(wǎng)站的光變曲線和分類信息不一致,如AU Pup和AW Lac兩個目標星的原始數(shù)據(jù)與預處理后數(shù)據(jù)如圖6(a),由圖可知該光變曲線類型應為EW型,但GCVS給出的光變曲線類型均為EB型,可修改原始光變曲線類型數(shù)據(jù)消除這種錯誤;(2)光變曲線類型分類缺乏明確的區(qū)分標準,如圖6(b),GCVS給出XZ Cmi和SW Lyn分別為EB和EA型,但CALEB所給光變曲線數(shù)據(jù)非常接近,所以必需明確分類標準,并對原始數(shù)據(jù)逐條進行手工分類與核對,由于該工作量較大暫未進行。

        圖5 支持向量機參數(shù)與分類正確率關(guān)系
        Fig.5 Relationship between SVM parameters and classifying accuracy

        圖6 分類錯誤的光變曲線
        Fig.6 Light curve of classification error

        我們修正了上文所述光變曲線與分類不一致的錯誤,共計14個目標,重新進行支持向量機模型訓練和測試,結(jié)果如圖7。由圖5可知sigmoid和poly效果較差,這次僅進行l(wèi)inear和rbf兩種核函數(shù)的測試。由圖7可知linear核函數(shù)結(jié)果較好,當懲罰因子設置為5.8時,分類正確率為92.8%(訓練集)和89.0%(測試集)。如果使用rbf核函數(shù),當懲罰因子設置為5.6時,分類正確率為90.9%(訓練集)和86.4%(測試集)。

        使用linear和rbf兩種核函數(shù)訓練的模型對160條光變曲線數(shù)據(jù)[注]https://www.researchgate.net/profile/Y-G_Yang進行分類測試,分類正確率均為88.8%,檢查錯誤類型,主要是EA和EB兩種光變曲線分類錯誤。

        圖7 基于修正數(shù)據(jù)支持向量機參數(shù)與分類正確率關(guān)系
        Fig.7 Relationship between SVM parameters and classifying accuracy based on the modified data

        3 總結(jié)和展望

        本文提出一種基于機器學習的光變曲線自動分類算法,使用快速傅里葉變換提取目標數(shù)據(jù)的頻率,選用偶次頻率分量作為光變曲線特征值,使用所提取特征值訓練支持向量機模型獲得分類模型。采用Python編程實現(xiàn)上述算法并進行優(yōu)化,實驗數(shù)據(jù)使用CALEB的實測光變曲線數(shù)據(jù)和GCVS的分類數(shù)據(jù),結(jié)果表明,采用[f0,f2,f4,f6,f8]作為特征值時,選用linear核函數(shù),懲罰因子設置為2.0可獲得最優(yōu)分類結(jié)果,分類正確率為89.8%(訓練集)和84.8%(測試集),基本滿足分類需求。

        對分類錯誤的數(shù)據(jù)進行分析,結(jié)果表明,分類錯誤的第1個原因是CALEB的光變曲線數(shù)據(jù)和GCVS分類信息不一致,該類錯誤可以通過修改分類信息消除,第2個原因是光變曲線類型分類缺乏明確區(qū)分標準,某些非常接近的光變曲線數(shù)據(jù)被分為不同類型,對最終測試結(jié)果造成干擾,需要制定明確的分類標準并對原始數(shù)據(jù)重新分類才可以避免該種錯誤。將第1種錯誤全部修正后,正確率提升到92.8%(訓練集)和89.0%(測試集)。由于未制定明確的分類標準,第2種錯誤還未修復。

        在天文觀測中自動化技術(shù)應用越來越廣泛,獲取的數(shù)據(jù)量也越來越多,在常規(guī)的觀測數(shù)據(jù)中往往包含著我們感興趣的特殊數(shù)據(jù),預示著特殊的天文現(xiàn)象如雙星合并等,需要篩選特殊數(shù)據(jù),然后對該目標進行重點觀測,能獲得更有用的數(shù)據(jù)結(jié)果。如何從大量數(shù)據(jù)中快速篩選出特殊數(shù)據(jù)是一個難點。在隨后的研究中將特殊光變曲線數(shù)據(jù)整理為樣本數(shù)據(jù),對支持向量機算法進行訓練,使所得模型能夠快速識別特殊光變曲線數(shù)據(jù),從而能夠快速響應。

        猜你喜歡
        光變原始數(shù)據(jù)特征值
        BL Lacs 天體1823+568 射電波段光變周期分析
        GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
        Blazar天體3C 66A光學波段準周期光變分析
        天文學報(2022年2期)2022-04-02 08:33:30
        一類帶強制位勢的p-Laplace特征值問題
        單圈圖關(guān)聯(lián)矩陣的特征值
        受特定變化趨勢限制的傳感器數(shù)據(jù)處理方法研究
        全新Mentor DRS360 平臺借助集中式原始數(shù)據(jù)融合及直接實時傳感技術(shù)實現(xiàn)5 級自動駕駛
        汽車零部件(2017年4期)2017-07-12 17:05:53
        耀變天體3C 454.3 高能光變行為的研究
        基于商奇異值分解的一類二次特征值反問題
        關(guān)于兩個M-矩陣Hadamard積的特征值的新估計
        精品深夜av无码一区二区老年| 国产成人美涵人妖视频在线观看| 国产91福利在线精品剧情尤物| 久久亚洲AV无码一区二区综合| 国内偷拍视频一区二区| 日本一区二区三区四区啪啪啪| 国内嫩模自拍偷拍视频| 97se色综合一区二区二区| 亚洲人成网站色www| 欧美精品久久久久久久自慰| 亚洲日韩图片专区小说专区| 亚洲欧洲无码精品ⅤA| 中文字幕亚洲综合久久久| 青青草免费手机视频在线观看| 无遮挡18禁啪啪羞羞漫画| 午夜不卡久久精品无码免费| 人妻少妇一区二区三区| 亚洲国产成人aⅴ毛片大全| 午夜视频手机在线免费观看| 国产内射视频在线免费观看| 久久久久av无码免费网| 少妇人妻偷人精品一区二区| 狠狠躁夜夜躁人人爽天天不卡 | 色婷婷日日躁夜夜躁| 久久男人av资源网站无码| 日本无吗一区二区视频| 日本高清一区二区三区在线| 精品人妻一区二区三区在线观看 | 中文字幕亚洲精品第一页| 少妇又紧又爽丰满在线视频 | 国产精女同一区二区三区久| 影音先锋久久久久av综合网成人| 亚洲国产午夜精品理论片在线播放| 成av人片一区二区三区久久| 国产欧美日韩图片一区二区| 中文字幕一二区中文字幕| 久久99久久久精品人妻一区二区| 99久久精品在线视频| 中文字幕欧美人妻精品一区| 中文字幕久无码免费久久| 久久精品综合国产二区|