成果介紹
一種Spark負載訪存行為追蹤方法,包括:在執(zhí)行區(qū),在UnsafeShuffleWriter對象的hashcode、第一被訪問數(shù)據的RDD信息以及ShuffleExternalSorter對象的hashcode之間建立對應關系;獲取第一被訪問數(shù)據的虛擬地址和物理地址的相關信息,并根據UnsafeShuffleWriter對象的hashcode、第一被訪問數(shù)據的RDD信息以及ShuffleExternalSorter對象的hashcode之間的對應關系,得到第一被訪問數(shù)據的RDD信息、虛擬地址的相關信息和物理地址的相關信息的對應關系并保存在文件中;在存儲區(qū),當對MemoryStore維護的哈希表執(zhí)行存儲或讀取操作時,獲取存儲或讀取操作對應的第二被訪問數(shù)據的RDD信息、虛擬地址的相關信息及物理地址的相關信息,然后將上述三者之間的對應關系保存在文件中。本發(fā)明還提供一種Spark負載訪存行為追蹤裝置,可打通Spark、JVM、OS三層,使Spark語義一直延伸到硬件層。