如何确定文档是否为文章?

说我有X文件什么算法/库/ tika配置/ nekohtml过滤器会告诉我哪些是“文章”,哪些不是,并且对于那些给我文章文本(即没有其他周围文本) )。 通过一篇文章,我的意思是结构化文本至少包含一个段落,我认为大多数人类读者可以过滤掉这些。 我想到的最简单的方法是确保doclength> Y,其中Y例如是350个单词。 但这不是最可靠的方法,因为例如可能有很长的列表,并且它没有给我文章文本。 寻找标签,还不够好。     
已邀请:
您可以使用Boilerpipe从页面中提取文本,然后根据您的启发式(即文章长度)确定自己是否是文章。我担心你的解决方案无论如何都行不通。断开连接的项目列表仍然看起来像一个句子列表。你需要“理解”这些内容。     
取决于吞吐量,延迟,连接性和其他非技术因素(如金钱)等因素,如果人类可以轻松地为计算机做些事情,那么您可能需要考虑使用Amazon Mechanical Turk定义HIT来讲述文章。其他种类的文字。有一个API可以将HIT结果与您的代码集成。     

要回复问题请先登录注册