HTML解析器获取博客文章
|
我需要创建一个HTML解析器,给定一个博客URL,它返回一个列表,其中包含页面中的所有帖子。
即如果一个页面有10个帖子,
应该返回一个10格的列表,
每个div包含h1和
p
我无法使用它的rss feed,因为我需要确切知道它对用户的外观,如果它有任何广告,图片等,相反,某些博客只是对其内容的摘要,而feed则包含了所有内容,反之亦然。
无论如何,我已经制作了一个下载它的提要,并在html中搜索类似内容的方法,它对于某些博客非常有效,但对于其他博客却效果不佳。
我认为我不能为它所解析的博客中的100%创建一个解析器,但是我想尽可能地做到最好。
最好的方法是什么?寻找其id属性等于\“ post \”,\“ content \”的标签?寻找p标签?等等等等...
在此先感谢您的帮助!
没有找到相关结果
已邀请:
4 个回复
倪蕊悲潍
掀辟髓观粟
雇砰
缮淳彼誊
祝好运, 埃里克