如何从受Shibboleth保护的网站上抓取数据？

| 我试图从我大学的一个网站上抓取数据，该网站使用Shibboleth作为身份验证/保护的一种形式。但是，我很难确定最好的方法来克服它并到达我希望抓取的页面。我有有效的凭据，可以用来登录。有人对如何完成此任务有任何建议吗？

已邀请:

5 个回复

我一直在成功编写脚本化Shibbolized登录脚本（以我为例，以监视Shibboleth IdP及其受保护的应用程序的运行状况）。我正在使用Python的urllib模块及其类来处理重定向跟随和cookie传递（对于Shibboleth）以及登录表单发布。稍微修改一下urllib后，您便可以通过Shibbolized登录获得成功的大部分方法。您可以使用这种方法来处理Shibbolized网站的初始登录，然后通过直接使用Python的urllib处理抓取。用于登录Shibboleth的示例Python脚本

陈獭

您可以使用Mechanize提交表单并登录网站：http://wwwsearch.sourceforge.net/mechanize/

氮顺

我认为ECP配置文件旨在通过非浏览器客户端（即命令行）访问Shibboleth保护的资源尝试我上面链接的Shibboleth Wiki页面上可用的示例客户端之一

徘廷

您还可以尝试Apache JMeter，仅记录您的操作，编写一些脚本（就shibboleth而言，并不是那么容易），并且可以自动访问此页面。 [编辑-更好的解决方案] 我相信Shibboleth文档页面上是Grinder（另一个负载测试工具）的脚本。该测试计划实际上应该很容易修改并用于您目的的Python（ok Jython）脚本的位置

芦歉竭皑

回复很晚，但是您可以在验证通过后使用Facebook Webdriver进行登录并抓取。

要回复问题请先登录或注册

如何从受Shibboleth保护的网站上抓取数据？

5 个回复

发起人

screen_scraping

shibboleth

问题状态

如何从受Shibboleth保护的网站上抓取数据？

与内容相关的链接

5 个回复

发起人

screen_scraping

shibboleth

问题状态