python删除
内的文本
|
我想删除
<p>
标记内的一段HTML文本。我正在尝试标准化一些文本并删除所有类,对齐方式和其他信息。我可以找到的每个示例似乎都涉及剥离html,并且我不想剥离标签。我只想让它们变得简单。
所以,如果我有这样的事情:
<p class=\'MsoBodyText\' align=\'left\'>
some paragraph blah blah blah
</p>
<p class=\'SomeClassIDontWant\' align=\'right\'>
some other paragraph blah blah blah
</p>
我想退货:
<p>
some paragraph blah blah blah
</p>
<p>
some other paragraph blah blah blah
</p>
没有找到相关结果
已邀请:
4 个回复
犀耽澄协吻
我相信是有效的HTML。 Chrome至少可以接受它,而且我敢肯定其他浏览器也可以接受。
芯伶句餐绕
有关BeautifulSoup的更多信息,请参阅BeautifulSoup文档。
澜悍景哭苟
碉罕城爸