作者:戴偉,汪森,李秋虹,鄧輝,梅盈,王鋒
摘要:平方千米陣列(Square Kilometre Array,SKA)科學數據處理產生的數據超出了所有已存在的分布式處理系統的處理能力,如何實現一個分布式執行框架是當前科學數據處理的一個重要研究內容。Spark是一個非常成熟的商業框架,在互聯網中被廣泛應用,根據平方千米陣列項目進展的要求,重點研究了如何將算法參考庫(Algorithm Reference Library,ARL)中的部分管線移植到Spark上執行。對部分實現過程進行了分析討論,給出了相應的任務流程。最終結果表明,移植后代碼生成結果符合預期,Spark能夠滿足部分分布式數據的要求,但迫切需要解決自身存在的一系列問題。
發文機構:昆明理工大學云南省計算機技術應用重點實驗室 復旦大學 廣州大學天體物理中心
關鍵詞:分布計算管線SPARK算法參考庫分布數據處理Distributed pipelineSparkARLDistributed data processing
分類號: TP3[自動化與計算機技術—計算機科學與技術]