Hadoop中分布式缓存的生命周期

在Hadoop流式传输作业中使用分布式缓存机制将文件传输到节点时,系统是否在作业完成后删除这些文件?如果它们被删除,我认为它们是,有没有办法让缓存保留多个工作?这在Amazon的Elastic Mapreduce上的工作方式是否相同?     
已邀请:
我正在挖掘源代码,当它们的引用计数降到零时,看起来大约每分钟删除一次files0ѭ文件。
TaskRunner
在任务结束时显式释放所有文件。也许你应该编辑
TaskRunner
不要这样做,并通过更明确的方式自己控制缓存?     
我在AWS论坛上发布了这个问题并得到了一个很好的建议,即使用
hadoop fs -get
以一种在工作中持续存在的方式传输文件。     

要回复问题请先登录注册