你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

如何确定文档是否为文章？

说我有X文件什么算法/库/ tika配置/ nekohtml过滤器会告诉我哪些是“文章”，哪些不是，并且对于那些给我文章文本（即没有其他周围文本））。通过一篇文章，我的意思是结构化文本至少包含一个段落，我认为大多数人类读者可以过滤掉这些。我想到的最简单的方法是确保doclength> Y，其中Y例如是350个单词。但这不是最可靠的方法，因为例如可能有很长的列表，并且它没有给我文章文本。寻找标签，还不够好。

已邀请:

2 个回复

您可以使用Boilerpipe从页面中提取文本，然后根据您的启发式（即文章长度）确定自己是否是文章。我担心你的解决方案无论如何都行不通。断开连接的项目列表仍然看起来像一个句子列表。你需要“理解”这些内容。

取决于吞吐量，延迟，连接性和其他非技术因素（如金钱）等因素，如果人类可以轻松地为计算机做些事情，那么您可能需要考虑使用Amazon Mechanical Turk定义HIT来讲述文章。其他种类的文字。有一个API可以将HIT结果与您的代码集成。

要回复问题请先登录或注册