作者:王震,張海清,彭莉,汪杰,游鳳,李代偉,唐聃
摘要:當醫療數據存在缺失和冗余信息的情況下如何提高預測準確率一直是一個極具挑戰的問題。為解決這一挑戰,大多數預測模型要么直接刪除缺失和冗余的實例,要么使用均值或其他方式對缺失數據進行填補。基于加權KNN算法(weightedk-nearest neighbor,WKNN),提出一種改進的醫療數據分類方法,該方法首先利用KNNI(knearest neighbor imputation,KNNI)對包含缺失數據的數據集進行預填補,然后采用奇異值分解(singular value decomposition,簡稱SVD)對填補后完整的數據進行有效信息提取,最后使用修訂權重的WKNN算法進行分類預測。實驗表明,在對數據進行填補和信息提取后,顯著提高了分類準確率。在5個醫療數據集上,相較于傳統的KNN算法分類準確率提升10%左右。在8個醫療數據集上均使用隨機森林算法、樸素貝葉斯算法和支持向量機算法進行實驗對比,算法分類準確率均取得較好效果。
發文機構:成都信息工程大學軟件工程學院
關鍵詞:醫療數據集缺失值填補奇異值分解K最近鄰算法medical data setmissing value imputationsingular value decompositionk nearest neighbor algorithm
分類號: R-05[自動化與計算機技術—控制理論與控制工程]TP18