亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        脈沖星候選樣本分類方法綜述

        2018-11-07 05:37:02王元超鄭建華潘之辰李明濤
        深空探測學報 2018年3期
        關鍵詞:查全率脈沖星脈沖

        王元超,鄭建華,潘之辰,李明濤

        (1. 中國科學院 國家空間科學中心,北京 100190;2. 中國科學院大學,北京 100049;3. 中國科學院 國家天文臺,北京 100012;4. 中國科學院 天文大數(shù)據(jù)中心,北京 100012;5. 中國科學院FAST重點實驗室,北京 100012)

        0 引 言

        脈沖星是一種有強引力作用、強磁場并快速旋轉(zhuǎn)的中子星,具有穩(wěn)定的自轉(zhuǎn)周期。脈沖星相關的發(fā)現(xiàn)先后兩次獲得諾貝爾物理學獎(第一顆脈沖星的發(fā)現(xiàn)[1]和脈沖星雙星系統(tǒng)的首次發(fā)現(xiàn)[2])。對脈沖星的觀測研究,極大地推動了天文、天體物理、粒子物理、等離子體物理、廣義相對論、引力波和導航等眾多領域的發(fā)展。例如,脈沖星的射電脈沖在經(jīng)過星際空間到達地球前,會受到星際介質(zhì)的影響,產(chǎn)生色散等效應,這為星際介質(zhì)的研究提供了機會[3];作為超新星爆發(fā)的產(chǎn)物,脈沖星對于研究超新星爆發(fā)理論具有重要價值[4];脈沖雙星系統(tǒng)也為廣義相對論的檢驗提供了機會[5];通過分析毫秒脈沖星計時陣列的脈沖到達時間的變化,可以分析引力波信號[6]等。

        自第一顆脈沖星被發(fā)現(xiàn)后,大量射電望遠鏡設備被應用到脈沖星搜索中。目前已發(fā)現(xiàn)2 700多顆脈沖星,其中大部分是由脈沖星巡天設備發(fā)現(xiàn)。例如,Parkes多波束脈沖巡天(Parkes Multi-beam Pulsar Survey,PMPS)[7],高時間分辨率的宇宙脈沖星巡天(High Time Resolution Universe Survey,HTRU)[8],AreciboL波段饋源陣列脈沖星巡天(Pulsar Arecibo L-band Feed Array Survey,PALFA)[9],低頻射電(Low Frequency Array,LOFAR)陣列巡天(LOFAR Tied-Array All-sky Survey,LOTAAS)[10],綠岸北半球脈沖星巡天(Greenbank Northern Celestial Cap Survey,GBNCC)[11]等。

        隨著現(xiàn)代脈沖星搜索設備性能的不斷提升,可以接收到更弱的信號,能夠探測到更多脈沖星的同時,也產(chǎn)生大量的候選樣本,而且大部分樣本是射頻干擾(Radio Frequency Interferance,RFI)或噪聲等。例如,1977年,投入使用的2nd Molonglo survey只接收到約2 500個樣本[12],而新一代射電望遠鏡500 m口徑球面射電望遠鏡(Five Hundred Meter Aperture Spherical Telescope,F(xiàn)AST)[13]預計可以發(fā)現(xiàn)5 000顆脈沖星;平方千米陣列(Square Kilometer Array,SKA)[14]預計可以發(fā)現(xiàn)2萬顆脈沖星。SKA按照保守估計(以HTRU數(shù)據(jù)的樣本比例:脈沖星/非脈沖星為1/10 000[32]為參考計算)需要處理20億樣本。

        因而如何有效地從海量數(shù)據(jù)中篩選出有價值的脈沖星疑似樣本,以便進一步觀測確認成為需要解決的一個重要問題。本文將闡述脈沖星候選樣本分類方法的發(fā)展歷史、發(fā)展現(xiàn)狀和技術發(fā)展趨勢。

        1 脈沖星候選樣本

        目前,脈沖星信號搜索主要借助大型射電望遠鏡。大部分的脈沖星信號很微弱,且信號在傳播中會受到星際介質(zhì)的影響,因而設備接收到周期性信號后,會借助搜索軟件(如PRESTO[15]等)進行一系列的數(shù)據(jù)處理。例如,通過剪波(clipping)處理,減少脈沖干擾[16];進行消色散(de-dispersion)處理,消除色散延遲[17];再借助傅立葉變換,將數(shù)據(jù)轉(zhuǎn)換到頻域進行分析,從而確定信號周期[18];根據(jù)確定的信號周期,將接收到的多個周期的信號進行疊加,放大信號的信噪比,得到平均脈沖輪廓[19]。經(jīng)過處理后的數(shù)據(jù),會轉(zhuǎn)換為圖像形式,作為脈沖星候選樣本。圖1是PRESTO處理后的一個脈沖星候選樣本的圖像示例(圖像來自PMPS[20])。

        圖1 脈沖星樣本圖像示例,使用PRESTO軟件處理得到Fig. 1 An example figure of a pulsar candidate in PMPS,which was converted by PRESTO

        標注的子圖(a)~(d)依次為脈沖輪廓曲線圖、時間–相位圖、頻域–相位圖和色散曲線圖。這些候選樣本會被進一步分類篩選,以便選擇有價值的脈沖星疑似信號進行觀測確認,這個過程被稱為脈沖星候選樣本的分類。分類的目標是在盡可能不遺漏脈沖星信號的情況下,減少非脈沖星信號的保留(減少進一步觀測的工作量)。

        天文學家在判斷候選樣本是否是脈沖星疑似信號時,主要參考以下特征:

        1)脈沖輪廓曲線圖:通過折疊累加所有頻域和時域信號強度得到。由于脈沖星具有穩(wěn)定的自轉(zhuǎn)周期,理想的脈沖星信號數(shù)據(jù)在每個周期內(nèi)會形成一個或多個明顯的波峰。

        2)時間–相位圖:通過累加信號在不同頻域的數(shù)據(jù)得到,反映的是信號在觀測時間內(nèi)的強度。脈沖星信號具有周期性,信號會在整個觀測時間內(nèi)不斷重復出現(xiàn)。在時間–相位圖上,信號強度越大,顏色越深。從而對理想的脈沖星信號,在整個觀測時間內(nèi),會形成與脈沖輪廓曲線圖波峰位置相對應的豎直線。

        3)頻域–相位圖:通過累計信號在觀測時間內(nèi)的數(shù)據(jù)得到,反映的是信號在不同頻率下的強度。由于脈沖星射電輻射是寬頻的,典型的脈沖信號應當出現(xiàn)在觀測的大部分頻率段上。若為脈沖星信號,對應到頻域–相位圖上,應當在大部分頻率內(nèi),有與波峰相對應的豎直線。

        4)色散曲線圖:脈沖信號在經(jīng)過星際介質(zhì)時,會產(chǎn)生色散。色散曲線圖反映的是使用不同色散值進行消色散時,脈沖曲線信噪比的變化情況。當使用正確的值消色散時,脈沖信噪比將最大。因而若為脈沖星信號,曲線會在非零位置有一個峰值,曲線呈“鐘形”。

        在設計算法進行自動分類時,特征的設計一般也是圍繞著這幾點進行刻畫(參見表2、3、5~9)。但對現(xiàn)代設備的候選樣本實現(xiàn)脈沖星疑似信號的有效分類,存在以下難點:①候選樣本數(shù)量大;②脈沖星樣本與非脈沖星樣本之間、不同類型脈沖星之間的樣本不均衡;③干擾信號種類多,部分RFI形似脈沖星信號;④部分脈沖星信號較弱,特征不明顯,易遺漏;⑤不同設備、不同區(qū)域的RFI環(huán)境等不同,使得算法間的可移植性較差。

        2 國內(nèi)外研究進展

        關于脈沖星候選樣本的有效分類,國內(nèi)外許多學者進行了大量工作。目前的方法,大致可分為人工識別方法和機器學習方法。其中,人工識別方法可分為基于信噪比信息分類方法、圖像軟件輔助方法、打分排序方法等;同時,將對應的機器學習方法根據(jù)特征類型分為3類:基于經(jīng)驗特征的方法、基于統(tǒng)計特征的方法和基于數(shù)據(jù)驅(qū)動的方法。表1是對這些方法的簡單比較。

        表1 典型脈沖星候選樣本分類方法對比Table 1 The comparison of pulsar candidate classification methods

        2.1 人工識別方法

        脈沖星搜索的前期,由于設備性能等原因,接收到的數(shù)據(jù)樣本有限,研究人員可以借助以往的經(jīng)驗,直接對接收的信號進行人工篩選。

        2.1.1 基于信噪比信息分類方法

        在早期的識別中信噪比作為重要的判別特征使用。一些簡單的篩選軟件(例如MSP Find[21])應用到相關的搜索設備上,只接受一定信噪比范圍內(nèi)的信號,輔助減少樣本數(shù)量。比如,在Arecibo Phase II survey上,Stokes等通過只保留信噪比大于8σ的信號,得到5 000多個候選樣本再進行人工進一步識別處理[22]。在Parkes 20 cm survey上,Johnston等使用同樣的策略,篩選出約15萬個候選樣本[23]。人工初步篩選處理速度慢,存在較大的主觀性。同時,僅根據(jù)信噪比等信息篩選,分類誤差較大,會遺漏信號較弱的脈沖星。后續(xù)研究人員加入更多信息(比如周期等),在一定程度上提升了準確度,但效果有限。

        2.1.2 圖像軟件輔助方法

        利用信噪比、脈沖周期等數(shù)據(jù)信息進行分類,直觀性不強,不利于分析判斷,處理速度較慢。因而基于統(tǒng)計特征的圖像分類軟件被開發(fā)用于輔助脈沖星疑似信號的分類操作。例如,2004年,F(xiàn)aulkner等設計了圖像分類軟件REAPER[24]。它可以根據(jù)基本特征(周期、脈沖寬度等),直觀地把不同樣本展示在二維圖像中,將明顯的噪聲信號與脈沖星疑似信號區(qū)分開,減少候選樣本的數(shù)量。借助REAPER,在對PMPS數(shù)據(jù)進行再次處理中,新發(fā)現(xiàn)了128顆脈沖星。2009年,Keith等對REAPER進行了改進,設計了JREAPER軟件[25]。在JPEAPER的幫助下,在PMPS數(shù)據(jù)中又發(fā)現(xiàn)了之前被錯分遺漏的28顆脈沖星。

        另外,也出現(xiàn)了一些基于網(wǎng)絡的圖像樣本查看評分系統(tǒng)。比如,Pulsar Search Collaboratory[26],通過培訓后的高中生,對類似圖1所示的樣本圖像的多個特征進行在線的評分,從而進行樣本的分類[27]。該項目開始于2008年,目前已發(fā)現(xiàn)了7顆新脈沖星[28]。

        基于統(tǒng)計特征的圖像分類軟件可以有效地篩除一部分明顯的干擾信號,減少進一步人工觀測的工作量,提升分類速度。但使用基于一定的經(jīng)驗和假設,依賴于研究人員的認知水平與經(jīng)驗模式,手動調(diào)整,存在很強的主觀性。

        2.1.3 打分排序方法

        為實現(xiàn)更智能的分類,研究人員嘗試對樣本進行打分排序。Keith等在JREAPER軟件[25]中,設置了經(jīng)驗式的評分標準,對樣本進行排序,篩除低分的候選樣本(見表2)。2013年,Lee等通過分析大量的脈沖星數(shù)據(jù),設計了PEACE系統(tǒng)[29],通過6個特征(見表3)來刻畫脈沖星信號,利用函數(shù)分別進行評分,并將分數(shù)線性組合,根據(jù)最終的評分進行排序。在GBNCC數(shù)據(jù)測試集上,實現(xiàn)了查全率95%時,假正率為0.34%,并從PALFA、GBNCC和HTRU數(shù)據(jù)集中發(fā)現(xiàn)了47顆脈沖星。PEACE提升了分類識別的效率和準確度,但需要人工預先設定評分函數(shù)并調(diào)節(jié),對人類經(jīng)驗依賴程度很高,只是“半自動化”的分類方法。

        隨著樣本數(shù)量的不斷增加,人工識別的方法越來越無法滿足脈沖星候選樣本分類的需求。因而如何在算法中減少主觀性,實現(xiàn)自動化,進一步提升準確度和處理速度,成為需解決的一個問題。

        表2 Keith等(2009)使用的特征[28]Table 2 The features used in Keith et al.(2009)[28]

        表3 Lee等(2013)使用的特征[29]Table 3 The features used in Lee et al.(2013)[29]

        2.2 機器學習方法

        為應對數(shù)據(jù)量不斷增大的挑戰(zhàn),隨著機器學習的發(fā)展,相關的算法也被引入脈沖星候選樣本分類任務中。由于樣本極度不均衡并且研究人員更關注脈沖星的分類準確度,因而一般使用查全率(Recall)、查準率(Precision)、假正率(False Positive Rate,F(xiàn)PR)來反映算法的性能。其中Recall刻畫的是正樣本(脈沖星信號)被正確分類的比例;Precision反映的是分類器認定為正類的樣本中實際正樣本的比例;FPR計算的是負樣本(非脈沖星信號)中被分類器錯認為正類的比例。Recall越高,脈沖星樣本被正確分類的越多;Precision越高或FPR越低,非脈沖星信號被錯分的越少。

        需要指出的是,由于缺少公共數(shù)據(jù)集,且大部分算法是針對不同的脈沖星搜索設備的數(shù)據(jù)進行的設計,因而多數(shù)算法是采用各不相同的數(shù)據(jù)集進行的性能測試。由于樣本數(shù)量、樣本分布、樣本比例、樣本質(zhì)量等因素的不同,算法間不能直接定量比較。為方便對照,將部分數(shù)據(jù)集樣本數(shù)量信息匯總于表4。

        根據(jù)分類特征的類型,將目前的關于脈沖星分類的機器學習方法,大致分為:基于經(jīng)驗特征的方法、基于統(tǒng)計特征的方法和基于數(shù)據(jù)驅(qū)動的方法。

        2.2.1 基于經(jīng)驗特征的方法

        基于經(jīng)驗特征的方法,參照人工分類時的判別方式,引入啟發(fā)式特征,實現(xiàn)自動評分分類。例如使用信噪比特征、使用sin函數(shù)/高斯函數(shù)對脈沖曲線進行擬合等。

        2010年,Eatough等對啟發(fā)式評分方法進行了改進,引入機器學習方法,不再進行人工評分[30]?;谏潆娞煳膶W的專業(yè)知識,挑選了信噪比、脈沖寬度等12個特征(見表5)作為三層人工神經(jīng)網(wǎng)絡(Artificial Neural Network,ANN)的輸入、輸出對應的評分(見表5)。在1.3萬個PMPS數(shù)據(jù)測試集上,實現(xiàn)了93%的查全率,1%的假正率(只使用前8個特征時,查全率為92%,假正率為0.5%)。在對部分PMPS數(shù)據(jù)進行再處理時,從中發(fā)現(xiàn)一顆新的脈沖星。作者對測試數(shù)據(jù)分析發(fā)現(xiàn):由于毫秒脈沖星與普通脈沖星的不同,以及訓練樣本的不均衡等原因,使得約50%的脈沖周期小于10 ms的脈沖星被錯分;60%的信噪比超過400的脈沖星被錯分。

        2012年,Bates等[31]將特征增加到22個(表6),借助人工神經(jīng)網(wǎng)絡,在HTRU測試集上實現(xiàn)了85%的查全率、1%的假正率。從部分HTRU Medlat數(shù)據(jù)中發(fā)現(xiàn)了75顆脈沖星。相比于Eatough等[30]的處理結(jié)果,在脈沖周期小于10 ms的脈沖星和長周期的脈沖星分類性能上得到了一定的提升,但也增加了模型的復雜度。

        表4 部分數(shù)據(jù)集樣本數(shù)量比較Table 4 The comparison of some datasets

        表5 Eatough等(2010)使用的特征[30]Table 5 The features used in Eatough et al.(2010)[30]

        2014年,Morello等對人工神經(jīng)網(wǎng)絡方法進行了進一步的優(yōu)化,設計了SPINN(Straightforward Pulsar Identification using Neutral Networks)分類器[32]。選取了6個特征(表7)作為人工神經(jīng)網(wǎng)絡的輸入。在91 192個不均衡樣本構(gòu)成的HTRU Medlat測試集(簡稱HTRU 1)上,調(diào)節(jié)閾值參數(shù),可以在達到100%查全率時,假正率為0.64%;99%查全率時,假正率為0.11%;95%查全率時,假正率為0.01%。并對434萬個樣本再次處理后,篩選出2 400個疑似樣本,經(jīng)過進一步觀測確認,發(fā)現(xiàn)4顆新的脈沖星。需要指出的是,SPINN“100%查全率時,假正率為0.64%”是根據(jù)所有的脈沖星得分中最低分作為分類閾值時,推算得出的。在挑選特征時,考慮了對弱信號的兼顧、對噪聲干擾的穩(wěn)定性以及減少特征間相關度,降低模型的復雜度的同時提升了算法的性能。但對一些形似脈沖星信號的RFI,SPINN并不能很好地分類。因而建議,對RFI的特征進行更好地刻畫;同時增加脈沖星數(shù)據(jù),降低不均衡度。

        基于經(jīng)驗特征的人工神經(jīng)網(wǎng)絡方法的應用極大地提高了脈沖星候選樣本分類的準確度和處理速度。對于特征的選取,Eatough等[30]、Bates等[31]、Morello等[32]學者進行了不斷的優(yōu)化。但他們是基于一定的經(jīng)驗和假設,特征對數(shù)據(jù)集依賴性較強[32],同時,根據(jù)人工處理的思路設計的特征有可能使得算法“模仿”人工處理的錯誤[33]。例如,反復出現(xiàn)的信噪比,會使得算法傾向于信噪比高的“強”信號,而更多的較弱的信號會被忽略。為進一步提高性能,研究人員考慮使用不同的機器學習方法和不同的特征選取策略。

        表6 Bates等(2012)使用的特征[31]Table 6 The features used in Bates et al.(2012)[31]

        表7 Morell等(2014)使用的特征[32]Table 7 The features used in Morello et al.(2014)[32]

        2.2.2 基于統(tǒng)計特征的方法

        2016年,Lyon等針對SKA實時處理樣本的需求,同時為避免特征對數(shù)據(jù)集的依賴性和傾向性,設計了新的特征和算法[33]。從脈沖輪廓曲線和DM曲線中提取均值、方差、峰度、偏度共8個無偏向性的統(tǒng)計特征(表8),具有較好的區(qū)分度;考慮到實時接收數(shù)據(jù)時可能存在的數(shù)據(jù)樣本不均衡、不同區(qū)域觀測可能產(chǎn)生的樣本分布漂移等問題,設計了針對不均衡數(shù)據(jù)流的Gaussian Hellinger快速決策樹算法(Gaussian Hellinger Very Fast Decision Tree,GH-VFDT),實現(xiàn)在線處理不均衡的數(shù)據(jù)。GH-VFDT處理速度快,每秒可以處理7萬張樣本(單個2.2 GHz,Intel i7-2720QM處理器),但也犧牲了一定的分類準確度。在HTRU1、HTRU2、LOTAAS1數(shù)據(jù)集上測試時,對應的查全率和假正率依次是:92.8%(0.5%)、82.9%(0.8%)、78.9%(0.1%)。

        表8 Lyon等(2016)使用的特征[33]Table 8 The features used in Lyon et al.(2016)[33]

        另外,Lyon等新設計的8個特征具有較好的區(qū)分性,被之后一些研究人員所借鑒使用。2017年,Mohamed將這些特征(表8)應用到模糊k近鄰分類器(Fuzzy K Nearest Neighbors,F(xiàn)uzzy KNN)算法上[34],在HTRU2數(shù)據(jù)集上測試提升了一定的查全率,實現(xiàn)了94.2%的查全率、1.8%的假正率,進一步證明了統(tǒng)計特征的有效性。

        針對Lyon等[33]使用的特征缺少時間–相位圖和頻域–相位圖信息,并在實際分類處理中對寬脈沖脈沖星容易錯分的情況,2018年,Tan等[35]進行了改進,通過計算時間–相位圖或頻域–相位圖與脈沖輪廓曲線的相關系數(shù),增加了對應的8個統(tǒng)計特征(表9)。同時將形似脈沖星信號的RFI單獨分類,由2分類(脈沖星、非脈沖星)變?yōu)?分類(脈沖星、噪聲、RFI)。通過利用不同波束探測到的脈沖星信號數(shù)據(jù),構(gòu)造多個決策樹,集成提升性能。算法可以較好地識別寬脈沖的脈沖星,在新的LOTAAS數(shù)據(jù)測試集(為與之前的數(shù)據(jù)集區(qū)別,代稱LOTAAS 2)上,相比較于Lyon等[34]算法的結(jié)果,查全率提升2.5%,為98.7%;假正率FPR則從2.5%降到了1.1%。該算法被應用于LOTAAS搜索系統(tǒng)中。需要指出的是,由于樣本數(shù)量有限,在作者的測試實驗中測試集包含訓練集,因而實際性能可能會稍低一些。

        表9 Tan等(2018)新添加的特征[35]Table 9 The features added in Tan et al.(2018)[35]

        2.2.3 基于數(shù)據(jù)驅(qū)動特征的方法

        卷積神經(jīng)網(wǎng)絡可以實現(xiàn)自動提取特征,避免人工設計特征的缺陷,因而基于卷積神經(jīng)網(wǎng)絡的數(shù)據(jù)驅(qū)動的機器學習方法在脈沖星疑似樣本的分類領域具有重要價值。

        2014年,Zhu等從圖像模式識別的角度分析,設計了PICS(Pulsar Image-based Classification System)系統(tǒng)[36]。PICS將支持向量機(Support Vector Machines,SVM)、ANN、卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)、邏輯回歸(Logistic Regression,LR)等集成結(jié)合。直接使用PRESTO軟件輸出的4幅子圖(圖1已標出)作為SVM、ANN或CNN的輸入,并將多個分類器的輸出使用LR進行整合,最終輸出對應的評分。PICS完全由數(shù)據(jù)驅(qū)動,避免了人工設計特征可能存在的不足(傾向性、數(shù)據(jù)集的依賴性等),在PALFA數(shù)據(jù)集上,實現(xiàn)92%的查全率、1%的假正率。并且基于PALFA數(shù)據(jù)訓練的模型,直接在90 008個樣本的GBNCC數(shù)據(jù)上測試,可達到100%的查全率、3.8%的假正率。PICS系統(tǒng)提升了識別的準確度,并具有一定的泛化性能,但模型也相對更復雜。

        2017年,Guo等提供了一個新的思路,利用深度卷積對抗生成網(wǎng)絡(Deep Convolution Generative Adversarial Network,DCGAN)來進行特征的提取[37]。DCGAN是一種生成模型,將時間–相位圖或頻率–相位圖分別作為輸入,利用DCGAN來生成更多的樣本;同時DCGAN自動學習對應的特征,作為SVM分類器的輸入。該算法在解決樣本不均衡問題時,也避免了人工特征的設計提取。在HTRU1 數(shù)據(jù)集上,使用時間–相位圖作為輸入時,查全率為96.6%、精度為96.1%,假正率約為0.05%;

        使用頻率–相位圖作為輸入時,查全率為96.3%、精度為96.5%、假正率約為0.05%。在PMPS-26K數(shù)據(jù)集上,使用時間–相位圖作為輸入效果更好,查全率為89.5%、精度為88.5%、假正率約0.5%。但是DCGAN模型復雜且訓練不穩(wěn)定;僅考慮了二維子圖,會缺失部分特征信息,影響算法性能,對復雜情況的分類效果有待進一步提升。表10中對這3類機器學習算法進行了簡單的優(yōu)缺點總結(jié)。

        表10 3類機器學習算法的優(yōu)缺點總結(jié)Table 10 The advantages and disadvantages of three kinds of machine learning methods

        為實現(xiàn)更好的機器學習算法的效果,針對樣本不均衡問題,許多學者做了一些有益的嘗試。Morello等[32]在對人工神經(jīng)網(wǎng)絡方法進行優(yōu)化時,使用過采樣方法,使得訓練集正負樣本比例為4:1。Lyon等測試了Hoeffding樹分類器處理不平衡數(shù)據(jù)流的效果[38],并進一步設計了針對不均衡數(shù)據(jù)流的GH-VFDT算法[39]。2016年,Yao等在目標函數(shù)中設置不同的權重,通過集成支持向量機算法提升分類效果[40]。2017年,F(xiàn)ord利用Lyon等提出的特征[33],分別測試了支持向量機、神經(jīng)網(wǎng)絡、決策樹、Bagging集成等算法,在上采樣、下采樣、ROSE采樣、SMOTE采樣下的性能,實驗表明性能均有提升[41]。2017年,Guo等[37]使用DCGAN來進行特征提取的時候,同時生成高質(zhì)量的新數(shù)據(jù),從而緩解樣本不均衡對算法的影響。

        3 未來的發(fā)展趨勢

        1)在分類器算法設計方面,傳統(tǒng)的機器學習算法目前依然占據(jù)主流;在特征設計提取上,已經(jīng)由傳統(tǒng)的手工設計特征發(fā)展到自動抽取特征。深度學習在特征提取學習方面具有優(yōu)勢,PICS和DCGAN-SVM已經(jīng)做出了深度學習在脈沖星樣本分類上的有益嘗試。深度學習、對抗生成網(wǎng)絡等技術將會發(fā)揮更大的作用。

        2)目前,數(shù)據(jù)多為二分類(脈沖星、非脈沖星),或簡單的三分類(脈沖星、RFI、噪聲)。而Tan等[35]也提到,不同類型的脈沖星之間、不同類型的RFI之間也會有很多的差異。因而在數(shù)據(jù)量允許的情況下,結(jié)合數(shù)據(jù)分布的特點,進行更合適的、更細致的樣本分類,可以使得特征提取更加有效,進一步提升分類算法的性能。

        3)大部分機器學習算法都是作為線下處理使用,針對在線數(shù)據(jù)處理的較少。Lyon[42]提到,隨著設備性能的不斷提升,數(shù)據(jù)量將會持續(xù)增加,需要設計更好的數(shù)據(jù)管理工具、文件格式、數(shù)據(jù)標準,同時需要更好地實時在線自動處理數(shù)據(jù)。因而針對數(shù)據(jù)流設計在線不均衡數(shù)據(jù)的處理算法,具有重要的價值。

        4)目前的算法均為根據(jù)已知的脈沖星特征來構(gòu)建有監(jiān)督學習,對數(shù)據(jù)集有很強的依賴性。如果出現(xiàn)未知的新現(xiàn)象、新樣本,將會被當成干擾而篩除。因而考慮半監(jiān)督學習或無監(jiān)督學習,對離群點進行深入分析,有助于充分利用數(shù)據(jù)。

        5)不同設備間數(shù)據(jù)分布等存在差異,使得需要分別設計或調(diào)整算法。因而提升算法的泛化能力,使之適應不同數(shù)據(jù),具有重要的意義。

        4 結(jié)束語

        本文從脈沖星識別的意義、歷史發(fā)展及現(xiàn)狀、未來趨勢等角度闡述了脈沖星疑似信號分類識別的問題?;跈C器學習算法設計有效的分類器將有助于脈沖星候選樣本的準確識別分類,促進脈沖星天文學的發(fā)展。

        猜你喜歡
        查全率脈沖星脈沖
        他們使阿秒光脈沖成為可能
        “中國天眼”已發(fā)現(xiàn)740余顆新脈沖星
        軍事文摘(2023年12期)2023-06-12 07:51:00
        發(fā)現(xiàn)脈沖星的女天文學家——貝爾
        科學(2022年4期)2022-10-25 02:43:42
        脈沖離散Ginzburg-Landau方程組的統(tǒng)計解及其極限行為
        海量圖書館檔案信息的快速檢索方法
        黃芩苷脈沖片的制備
        中成藥(2017年12期)2018-01-19 02:06:54
        基于詞嵌入語義的精準檢索式構(gòu)建方法
        基于虛擬觀測值的X射線單脈沖星星光組合導航
        中文分詞技術對中文搜索引擎的查準率及查全率的影響
        基于GCRS的脈沖星導航模型研究
        国产精品人人爱一区二区白浆| 婷婷色中文字幕综合在线| 成人在线激情网| 日本一区二区国产高清在线播放| 91国产自拍精品视频| 亚洲av成人无码一二三在线观看 | 色 综合 欧美 亚洲 国产| 99热在线精品播放| 天堂视频一区二区免费在线观看 | 狠狠色成人综合网| 国内精品伊人久久久久av| 日本加勒比一区二区在线观看| 免费观看91色国产熟女| 日日摸日日碰夜夜爽无码| 麻豆国产乱人伦精品一区二区| 国产精品日本一区二区三区在线| 给你免费播放的视频| 中文字幕av一区中文字幕天堂| 亚洲无码夜夜操| 久久综合亚洲鲁鲁五月天| 东京热久久综合久久88| 日韩欧美亚洲综合久久影院d3| 精品视频在线观看一区二区有| 邻居美少妇张开腿让我爽了一夜| 国产女主播精品大秀系列| 国产高潮精品久久AV无码| 亚洲综合伊人久久综合| 护士的小嫩嫩好紧好爽| 蜜桃成人无码区免费视频网站| 成人免费无码视频在线网站| 日本久久精品福利视频| 久久精品无码一区二区三区免费| 亚洲伊人久久一次| 日本一区不卡在线观看| 色哟哟最新在线观看入口| 国产亚洲美女精品久久久| 人妻少妇精品系列一区二区| 在线播放av不卡国产日韩| 国产99久久精品一区二区| 激情 一区二区| 国产精品成人av大片|