使用R / python和SSD进行数据分析
有没有人使用r / python与存储在固态硬盘中的数据有任何经验。如果您主要进行读取操作,理论上这应该会显着改善大型数据集的加载时间。我想知道这是否属实,是否值得投资SSD以提高数据密集型应用程序的IO速率。
没有找到相关结果
已邀请:
5 个回复
辽躺
扭湘阀柿蹄
联课
但是,如果我们尝试随机数据
和文件没有那么不同
如您所见,经过的时间不是用户+系统的总和...因此磁盘是两种情况下的瓶颈。是的二进制存储总是会更快,因为您不必包含分号,引号或类似的人员,而只是将内存对象转储到磁盘。 但总有一点是磁盘成为瓶颈。我的测试是在一个研究服务器上运行的,通过NAS解决方案我们获得超过600MB / s的磁盘读/写时间。如果你在笔记本电脑上做同样的事情,那么难以超过50MB / s,你就会注意到它们之间的区别。 所以,如果你实际上必须处理真正的bigData(并且重复一百万次,相同的千字符串不是大数据),当数据的二进制转储超过1 GB时,你会欣赏有一个好的磁盘(SSD读取输入数据并将结果写回磁盘是一个很好的选择。
凡夕
坛沤疲撑拆