如何确定文档是否为文章?
说我有X文件什么算法/库/ tika配置/ nekohtml过滤器会告诉我哪些是“文章”,哪些不是,并且对于那些给我文章文本(即没有其他周围文本) )。
通过一篇文章,我的意思是结构化文本至少包含一个段落,我认为大多数人类读者可以过滤掉这些。
我想到的最简单的方法是确保doclength> Y,其中Y例如是350个单词。
但这不是最可靠的方法,因为例如可能有很长的列表,并且它没有给我文章文本。
寻找标签,还不够好。
没有找到相关结果
已邀请:
2 个回复
伐教爸
擅香