用于文本处理(文本挖掘,信息检索,自然语言处理)的Python或Java

|                                                                                                                   关闭。这个问题是基于意见的。它当前不接受答案。                                                      
已邀请:
两者都很好。 Java在文本处理方面投入了大量精力。斯坦福大学的文本处理系统,OpenNLP,UIMA和GATE似乎是主要参与者(我知道我想念一些)。在玩了几分钟之后,您就可以在大型语料库上运行StanfordNLP模块了。但是,它具有主要的内存要求(使用时约为3 GB)。 NLTK,Gensim,Pattern和许多其他Python模块非常擅长文本处理。它们的内存使用情况和性能非常合理。 Python可以扩展,因为文本处理是一个非常容易扩展的问题。解析/标记/分块/提取文档时,可以非常轻松地使用多处理。一旦您将文本输入任何种类的特征向量,便可以使用numpy数组,我们都知道numpy有多伟大... 我从NLTK中学到了知识,Python极大地帮助了我减少开发时间,因此,我认为您应该首先尝试一下。他们也有一个非常有用的邮件列表,我建议您加入。 如果您有自定义脚本,则可能需要查看它们在PyPy中的表现如何。     
不尝试就很难回答这样的问题。那你为什么不 找出困难的操作 实现这一点(我的意思是,您可以进行工作的最简单,最快的hack) 用大量数据运行它,看看需要多长时间 找出它是否太慢 我过去已经这样做过,这实际上是查看某件产品是否足以完成某件事情的方式。     
只需编写一下,编程人员的最大缺陷就是过早的优化。处理一个项目,将其写出来并使其正常工作。然后返回并修复错误,并确保对其进行了优化。将会有很多人对x相对于y的速度有所要求,并且y比x更好,但最终它只是一种语言。它不是一种语言,而是一种语言。     
它不是您必须评估的语言,而是可用于该语言的群集,数据存储/检索等框架和应用服务器。 您可以使用jython并将所有Java企业技术用于高负载系统,并使用python进行文本解析。     

要回复问题请先登录注册