你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

Hadoop中分布式缓存的生命周期

在Hadoop流式传输作业中使用分布式缓存机制将文件传输到节点时，系统是否在作业完成后删除这些文件？如果它们被删除，我认为它们是，有没有办法让缓存保留多个工作？这在Amazon的Elastic Mapreduce上的工作方式是否相同？

已邀请:

2 个回复

我正在挖掘源代码，当它们的引用计数降到零时，看起来大约每分钟删除一次files0ѭ文件。 TaskRunner在任务结束时显式释放所有文件。也许你应该编辑TaskRunner不要这样做，并通过更明确的方式自己控制缓存？

宦哨抹存胳

我在AWS论坛上发布了这个问题并得到了一个很好的建议，即使用hadoop fs -get以一种在工作中持续存在的方式传输文件。

要回复问题请先登录或注册