您如何获取受shibboleth身份验证保护的页面?

| 我正在尝试从shibboleth身份验证保护的页面上抓取数据。我无法让cURL和webisoget正常工作。因此,我正在尝试wget,因为我认为我可以通过证书并获取想要的页面。但是,我对此也有麻烦,并且很难找到有关我的问题的文档。 这是我尝试执行的wget命令: > wget --no-check-certificate --certificate = www.washington.edu.crt https://www.washington.edu/cec/i/INFO200A2821.html 该命令返回以下内容: SYSTEM_WGETRC = c:/程序〜1 / wget / etc / wgetrc syswgetrc = c:/ progra〜1 / wget / etc / wgetrc --2011-05-28 00:32:37-- https://www.washington.edu/cec/i/INFO200A2821.html 正在解析www.washington.edu ... 140.142.16.69,140.142.11.167,140.142.15.8 连接到www.washington.edu | 140.142.16.69 |:443 ...已连接。 警告:无法验证由`/ C = ZA / ST = Wes颁发的www.washington.edu \证书 tern开普省/ L =开普敦/ O = Thawte Consulting cc / OU =认证服务部/ CN = Thawte Premium Server CA /电子邮件地址=premium-server@thawte.com \':   遇到自签名证书。 HTTP请求已发送,正在等待响应... 200 OK 长度:807 [text / html] 保存到:INFO200A2821.html.2 \ 100%[=====================================] 807 --.- K / s在0秒内 2011-05-28 00:32:38(6.78 MB / s)-保存了'INFO200A2821.html.2 \'[807/807] 但是,即使我收到一个页面,该页面也不包含我希望抓取的信息。返回的页面是其中包含一个在加载后自动提交表单的表单的页面。该表单包含pubcookie和relay_url的隐藏输入字段。 使用我的凭据登录时,我可以访问该页面。但是,我正在努力使其自动化并获取信息。     
已邀请:
        我不确定您可以使用wget来做到这一点。 Shibboleth是SAML Web SSO配置文件的实现,它希望您具有有效的会话来访问受保护的资源。没有有效的会话,它将重定向到WAIF页面,以便您选择适当的身份提供者。在访问资源之前,必须执行一系列步骤。 您可以尝试使用类似Mechanize.pm的Perl来自动执行身份验证过程,然后检索受保护的资源。     

要回复问题请先登录注册