基于Stacking集成學習的恒星/星系分類研究-天文學報

作者：李超,張文輝,李然,王俊義,林基明

摘要：機器學習在當今諸多領域已經取得了巨大的成功,但是機器學習的預測效果往往依賴于具體問題.集成學習通過綜合多個基分類器來預測結果,因此,其適應各種場景的能力較強,分類準確率較高.基于斯隆數字巡天(Sloan Digital Sky Survey,SDSS)計劃恒星/星系中最暗源星等集分類正確率低的問題,提出一種基于Stacking集成學習的恒星/星系分類算法.從SDSS-DR7(SDSS Data Release 7)中獲取完整的測光數據集,并根據星等值劃分為亮源星等集、暗源星等集和最暗源星等集.僅針對分類較為復雜且困難的最暗源星等集展開分類研究.首先,對最暗源星等集使用10折嵌套交叉驗證,然后使用支持向量機(Support Vector Machine,SVM)、隨機森林(Random Forest,RF)、XGBoost(eXtreme Gradient Boosting)等算法建立基分類器模型;使用梯度提升樹(Gradient Boosting Decision Tree,GBDT)作為元分類器模型.最后,使用基于星系的分類正確率等指標,與功能樹(Function Tree,FT)、SVM、RF、GBDT、XGBoost、堆疊降噪自編碼(Stacked Denoising AutoEncoders,SDAE)、深度置信網絡(Deep Belief Network,DBN)、深度感知決策樹(Deep Perception Decision Tree,DPDT)等模型進行分類結果對比分析.實驗結果表明,Stacking集成學習模型在最暗源星等集分類中要比FT算法的星系分類正確率提高了將近10%.同其他傳統的機器學習算法、較強的提升算法、深度學習算法相比,Stacking集成學習模型也有較大的提升.

發文機構：桂林電子科技大學信息與通信工程學院桂林電子科技大學認知無線電與信息處理教育部重點實驗室桂林電子科技大學廣西云計算與大數據協同創新中心桂林電子科技大學廣西高校云計算與復雜系統重點實驗室桂林電子科技大學廣西無線寬帶通信與信號處理重點實驗室廣西高校衛星導航與位置感知重點實驗室

關鍵詞：恒星:基本參數星系:基本參數技術:測光方法:數據分析stars:fundamental parametersgalaxies:fundamental parameterstechniques:photometricmethods:data analysis

分類號： P152[天文地球—天文學]