成果介紹
本發(fā)明公開了一種Spark分布式計算數(shù)據(jù)處理方法,涉及計算機(jī)領(lǐng)域,該方法包括:通過任務(wù)調(diào)度器調(diào)度子任務(wù),執(zhí)行RDD分區(qū)數(shù)據(jù)存儲任務(wù),申請存儲區(qū)空間;計算存儲區(qū)內(nèi)可驅(qū)逐空間及空間的大小,根據(jù)分區(qū)數(shù)據(jù)訪問熱度設(shè)置混合存儲系統(tǒng)的遷移地址;讀取指定存儲區(qū)內(nèi)已緩存數(shù)據(jù)并釋放相應(yīng)的內(nèi)存空間,遷移分區(qū)數(shù)據(jù)到指定地址,修改遷移數(shù)據(jù)的持久化級別,反饋驅(qū)逐成功信號及驅(qū)逐空間信息。本發(fā)明還公開了一種Spark分布式計算系統(tǒng),通過引入混合存儲系統(tǒng),并設(shè)計驅(qū)逐邏輯單元和緩存數(shù)據(jù)遷移單元,根據(jù)分區(qū)數(shù)據(jù)熱度將數(shù)據(jù)遷移至SSD或HDD,而非直接將數(shù)據(jù)遷移至磁盤或踢除已緩存的數(shù)據(jù),能夠有效地緩解內(nèi)存空間不足的壓力,實現(xiàn)Spark性能的提升。
成果應(yīng)用案例介紹
方法過程>處理方法>數(shù)據(jù)處理方法; 計算控制>計算方法>spark分布式計算