作者:李超,張文輝,李然,王俊義,林基明
摘要:機器學習在當今諸多領域已經取得了巨大的成功,但是機器學習的預測效果往往依賴于具體問題.集成學習通過綜合多個基分類器來預測結果,因此,其適應各種場景的能力較強,分類準確率較高.基于斯隆數字巡天(Sloan Digital Sky Survey,SDSS)計劃恒星/星系中最暗源星等集分類正確率低的問題,提出一種基于Stacking集成學習的恒星/星系分類算法.從SDSS-DR7(SDSS Data Release 7)中獲取完整的測光數據集,并根據星等值劃分為亮源星等集、暗源星等集和最暗源星等集.僅針對分類較為復雜且困難的最暗源星等集展開分類研究.首先,對最暗源星等集使用10折嵌套交叉驗證,然后使用支持向量機(Support Vector Machine,SVM)、隨機森林(Random Forest,RF)、XGBoost(eXtreme Gradient Boosting)等算法建立基分類器模型;使用梯度提升樹(Gradient Boosting Decision Tree,GBDT)作為元分類器模型.最后,使用基于星系的分類正確率等指標,與功能樹(Function Tree,FT)、SVM、RF、GBDT、XGBoost、堆疊降噪自編碼(Stacked Denoising AutoEncoders,SDAE)、深度置信網絡(Deep Belief Network,DBN)、深度感知決策樹(Deep Perception Decision Tree,DPDT)等模型進行分類結果對比分析.實驗結果表明,Stacking集成學習模型在最暗源星等集分類中要比FT算法的星系分類正確率提高了將近10%.同其他傳統的機器學習算法、較強的提升算法、深度學習算法相比,Stacking集成學習模型也有較大的提升.
發文機構:桂林電子科技大學信息與通信工程學院 桂林電子科技大學認知無線電與信息處理教育部重點實驗室 桂林電子科技大學廣西云計算與大數據協同創新中心 桂林電子科技大學廣西高校云計算與復雜系統重點實驗室 桂林電子科技大學廣西無線寬帶通信與信號處理重點實驗室 廣西高校衛星導航與位置感知重點實驗室
關鍵詞:恒星:基本參數星系:基本參數技術:測光方法:數據分析stars:fundamental parametersgalaxies:fundamental parameterstechniques:photometricmethods:data analysis
分類號: P152[天文地球—天文學]