改善预处理大量文档的性能

| 我正在从事与使用Java的窃检测框架相关的项目。我的文档集中包含大约100个文档,我必须对其进行预处理并存储在合适的数据结构中。我有一个很大的问题,我将如何有效地处理大量文档并避免出现瓶颈。我的问题的主要重点是如何提高预处理性能。 谢谢 问候 女wan     
已邀请:
您那里缺少一些细节。适当的优化将取决于诸如文档格式,平均文档大小,如何处理它们以及在数据结构中存储什么样的信息之类的内容。不知道它们中的任何一个,一些常规优化是: 假设给定文档的预处理独立于任何其他文档的预处理,并且假设您正在运行多核CPU,那么您的工作负载就是多线程的理想选择。每个CPU内核分配一个线程,然后将作业分配给您的线程。然后,您可以并行处理多个文档。 更一般地,在内存中尽力而为。尽量避免从磁盘读取/写入磁盘。如果必须写入磁盘,请尝试等待直到拥有所有要写入的数据,然后将其全部写入一个批处理中。     
您提供的信息很少,无法提出任何好的建议。 我的默认设置是使用带有线程池的执行程序来处理它们,该线程池的线程数与您计算机中的内核数相同,每个线程处理一个文档。     

要回复问题请先登录注册