跨多个客户端计算机解析单个大型文本文件的最简单方法?
我被赋予了编写一个webapp的任务,该webapp在给定单个正则表达式的情况下分析文本文件。我给出的文本文件范围从500MB到3GB不等。我目前正在使用Perl作为我的解析引擎。我一直在阅读有关mapReduce和Hadoop的内容,但看起来设置只是非常非常大量的数据,比我解析的数量大得多。
有什么好办法可以解决这个问题?现在,一个500MB的文件需要4到6分钟才能解析,这不算太糟糕,但3GB文件需要永远,并且Web服务器通常会超时,然后才能从Perl脚本输出并生成报告。
没有找到相关结果
已邀请:
2 个回复
蓟类
让任意进程在文件的任意部分上工作。
现在在你可用的任何机器上运行这个程序100次,将参数0到99传递给每个程序。
攫怂绵十