如何从受Shibboleth保护的网站上抓取数据?
|
我试图从我大学的一个网站上抓取数据,该网站使用Shibboleth作为身份验证/保护的一种形式。但是,我很难确定最好的方法来克服它并到达我希望抓取的页面。我有有效的凭据,可以用来登录。有人对如何完成此任务有任何建议吗?
没有找到相关结果
已邀请:
5 个回复
樊熄忙暖
模块及其类来处理重定向跟随和cookie传递(对于Shibboleth)以及登录表单发布。稍微修改一下urllib后,您便可以通过Shibbolized登录获得成功的大部分方法。您可以使用这种方法来处理Shibbolized网站的初始登录,然后通过直接使用Python的
处理抓取。 用于登录Shibboleth的示例Python脚本
陈獭
氮顺
徘廷
芦歉竭皑