您如何获取受shibboleth身份验证保护的页面?
|
我正在尝试从shibboleth身份验证保护的页面上抓取数据。我无法让cURL和webisoget正常工作。因此,我正在尝试wget,因为我认为我可以通过证书并获取想要的页面。但是,我对此也有麻烦,并且很难找到有关我的问题的文档。
这是我尝试执行的wget命令:
> wget --no-check-certificate --certificate = www.washington.edu.crt https://www.washington.edu/cec/i/INFO200A2821.html
该命令返回以下内容:
SYSTEM_WGETRC = c:/程序〜1 / wget / etc / wgetrc
syswgetrc = c:/ progra〜1 / wget / etc / wgetrc
--2011-05-28 00:32:37-- https://www.washington.edu/cec/i/INFO200A2821.html
正在解析www.washington.edu ... 140.142.16.69,140.142.11.167,140.142.15.8
连接到www.washington.edu | 140.142.16.69 |:443 ...已连接。
警告:无法验证由`/ C = ZA / ST = Wes颁发的www.washington.edu \证书
tern开普省/ L =开普敦/ O = Thawte Consulting cc / OU =认证服务部/
CN = Thawte Premium Server CA /电子邮件地址=premium-server@thawte.com \':
遇到自签名证书。
HTTP请求已发送,正在等待响应... 200 OK
长度:807 [text / html]
保存到:INFO200A2821.html.2 \
100%[=====================================] 807 --.- K / s在0秒内
2011-05-28 00:32:38(6.78 MB / s)-保存了'INFO200A2821.html.2 \'[807/807]
但是,即使我收到一个页面,该页面也不包含我希望抓取的信息。返回的页面是其中包含一个在加载后自动提交表单的表单的页面。该表单包含pubcookie和relay_url的隐藏输入字段。
使用我的凭据登录时,我可以访问该页面。但是,我正在努力使其自动化并获取信息。
没有找到相关结果
已邀请:
1 个回复
漂截嘘