用Nokogiri(而不是Tidy)清理HTML
不再维护
tidy
gem并且存在多个内存泄漏问题。
有人建议使用Nokogiri。
我目前正在使用以下方法清理HTML:
Nokogiri::HTML::DocumentFragment.parse(html).to_html
我有两个问题:
Nokogiri删除了DOCTYPE
有没有一种简单的方法可以强制清理的HTML有一个html
和body
标签?
没有找到相关结果
已邀请:
2 个回复
疮痪徘弦漏
这会强制
和
标签,并引入或保留
:
请注意,输出不保证在语法上有效。例如,如果我提供一个破损的文档,并声称它是HTML4.01严格,Nokogiri将输出一个文档与该DOCTYPE但没有所需的
部分:
瓜唱鬼
应用程序,这正是您真正需要的。它很灵活,有很多选项。 您可以通过多种方式将HTML传递给它,并在
文件中定义其配置或在命令行上传递它们。您可以使用Ruby的
将其传递给文件或使用
或
将其视为管道。