如何修改lxml autolink更自由?
我正在使用伟大的lxml库的自动链接功能,如下所示:http://lxml.de/api/lxml.html.clean-module.html
我的问题是它只检测以http://开头的网址。
我想使用像这样一个更广泛的url检测正则表达式:
http://daringfireball.net/2010/07/improved_regex_for_matching_urls
我尝试使用lxml自动链接功能使该正则表达式无效。
我总是以:
lxmlhtmlclean.py", line 571, in _link_text
host = match.group('host')
IndexError: no such group
那些知道如何使这个工作的python / regex专家呢?
没有找到相关结果
已邀请:
2 个回复
需复
中 - 这让lxml知道
属性中的内容。 接下来,将主机部件包装在
组中,并在调用自动链接功能时传递
参数。这样做的原因是你正在使用的正则表达式并不总能找到主机(有时
部分将是
),因为它匹配部分网址和模糊的网址模式。 我修改了正则表达式以包含上述更改并给出了一个代码段测试用例:
输出:
靛取糕奖穿